Tema 3
Tema 3
Tema 3
Distribuciones de Probabilidad
Notables. Teorema Central del Lı́mite.
1. Introducción
En este tema estudiaremos las distribuciones de probabilidad más habituales en las aplicacio-
nes prácticas. En primer lugar veremos algunas distribuciones discretas –Bernoulli, binomial,
hipergeométrica, geométrica y de Poisson–, y seguidamente algunas distribuciones continuas
–uniforme, exponencial, gamma, Weibull y Normal–. De entre las distribuciones continuas
destaca la normal ya que bajo determinadas condiciones aparece como lı́mite de muchas
variables. Estudiaremos tales condiciones y su interpretación, para finalmente ver las prin-
cipales distribuciones de probabilidad que aparecen en la inferencia estadı́stica cuando se
toman muestras aleatorias de poblaciones que se distribuyen normalmente.
2. OBJETIVOS
Al finalizar este tema alumno deberá:
1
4. Conocer la distribución normal y su propiedad reproductiva. Utilizar la tabla de la
distribución normal estándar. Entender y ser capaz de aplicar en situaciones prácticas
el teorema central del lı́mite.
6. Ser capaz de utilizar R para el cálculo de probabilidades en variables con las distribu-
ciones vistas en este capı́tulo.
Definición: Una variable aleatoria X que toma un número finito n de valores {x1 , x2 , . . . , xn }
sigue una distribución uniforme si todos sus valores son equiprobables. Por tanto su
función de probabilidad es de la forma:
1 x ∈ {x1 , x2 , . . . , xn }
n
f (x) = P (X = x) =
0 x∈
/ {x1 , x2 , . . . , xn }
Esperanza y varianza:
n n n
X X 1 1X
µ = E[X] = xi p (X = xi ) = xi · = xi
i=1 i=1
n n i=1
n n n
211X
X X
2 2
σ = var (X) = (xi − µ) p (X = xi ) = (xi − µ) = (xi − µ)2
i=1 i=1
n n i=1
k 6
X 1X 1
µ = E[X] = p i xi = i = · 21 = 3, 5
i=1
6 i=1 6
k 6
2
X 1X
2
σ = var[X] = pi (xi − µ) = (i − 3, 5)2 = 2, 91
i=1
6 i=1
3.2. Distribución de Bernoulli Be (p)
Definición: Una variable aleatoria X sigue una distribución de Bernoulli, Be (p), si sólo
toma dos posibles valores: 1 (”éxito”) ó 0 (”fracaso”), con probabilidades respectivas p
y 1 − p. Su función de probabilidad es, por tanto:
p k=1
f (k) = P (X = k) = 1 − p k=0
k∈
/ {0, 1}
0
f (k) = pk (1 − p)1−k , k = 0, 1
Esperanza y varianza:
X
µ = E[X] = k · p (X = k) = 1 · p + 0 · (1 − p) = p
k∈{0,1}
X
σ 2 = var (X) = (k − µ)2 P (X = k) = (1 − p)2 p + (0 − p)2 (1 − p) = p(1 − p)
k∈{0,1}
Entonces
1
X ≈ Be
2
1 1 1
P (X = 1) = ; P (X = 0) = 1 − =
2 2 2
y la media y varianza:
1 1 1 1
µ = p = ; σ 2 = p(1 − p) = · =
2 2 2 4
3.3. Distribución Binomial B (n, p)
0.30
0.20
0.20
Probabilidad
Probabilidad
0.10
0.10
0.00
0.00
0 5 10 15 20 25 0 5 10 15 20 25
k k
0.30
0.20
0.20
Probabilidad
Probabilidad
0.10
0.10
0.00
0.00
0 5 10 15 20 25 0 5 10 15 20 25
k k
Ejemplo: Se sabe que en la puesta de huevos de una tortuga, la probabilidad de que una crı́a
sea macho es 0.30 y de que sea hembra es 0.70. El sexo de cada crı́a es independiente
del resto. Se dispone de una puesta de 10 huevos y se considera la variable X=”Número
de machos en la puesta”. ¿Cuál es la probabilidad de que X = 5?
De la descripción de esta variable se deduce que X ≈ B (10, 0,3). Por tanto:
10
P (X = 5) = 0,35 (1 − 0,3)10−5 = 0,103
5
Ejemplo: La siguiente sintaxis simula una muestra de 1000 valores de una distribución
binomial de parámetros n = 10 y p = 0,7, y los representa en un diagrama de barras,
junto a la representación gráfica de la función de probabilidad de la B (10, 0,7) (figura
2). Asimismo se muestran las proporciones con que aparece cada valor k en la muestra
y su correspondiente probabilidad teórica P (X = k) = 10 0,7 (1 − 0,7)10−k . Como
k
k
puede apreciarse, con este valor de n, las probabilidades teóricas son muy similares a
las proporciones muestrales observadas.
> n=10
> p=0.7
> muestra=rbinom(1000,n,p)
> probabilidades=dbinom(0:n,n,p)
> proporciones=prop.table(table(muestra))
> par(mfrow=c(1,2))
> plot(0:n,probabilidades,type="h",lwd=3,col="olivedrab",ylab="Probabilidad",xlab
> barplot(proporciones,xlab="k",ylab="Proporcion",main="(b)")
> prop=numeric(11);for(k in 0:10) prop[k+1]=length(which(muestra==k))/1000
> data.frame(k=0:10,Prob=round(probabilidades,3),Prop.obs=prop)
k Prob Prop.obs
1 0 0.000 0.000
2 1 0.000 0.000
3 2 0.001 0.003
4 3 0.009 0.008
5 4 0.037 0.033
6 5 0.103 0.097
7 6 0.200 0.207
8 7 0.267 0.256
9 8 0.233 0.236
10 9 0.121 0.116
11 10 0.028 0.044
>
0.25
0.25
0.20
0.20
Probabilidad
Proporción
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
0 2 4 6 8 10 2 3 4 5 6 7 8 9 10
k k
Esperanza y varianza:
∞ ∞
X X 1−p
µ = E [X] = k · P (X = k) = k (1 − p)k p =
k=0 k=0
p
∞ ∞ 2
X 2
X 1 1−p
2
σ = var (X) = (k − µ) · P (X = k) = k− (1 − p)k p =
k=0 k=0
p p2
El número esperado de veces que habrı́a que lanzar el dado antes de que salga un 6 por
primera vez serı́a µ = 1−1/6
1/6
=5
Cálculo con R : Si X ≈ Geo(p):
> dgeom(9,1/6)
[1] 0.03230112
>
Definición: Supongamos que se dispone de una población finita de tamaño N , que está
dividida en dos grupos: NE ”éxitos” y N − NE ”fracasos”. Una variable aleatoria X
sigue una distribución hipergeométrica si representa el número de éxitos obtenidos
al extraer al azar y sin reemplazamiento n objetos de esta población. La función de
probabilidad de esta variable aleatoria es:
NE N −NE
k n−k
P (X = k) = , x = máx {0, n − (N − NE )} , . . . , mı́n {NE , n}
N
n
NE
Esperanza y varianza: Si llamamos p = N
(probabilidad de éxito cuando se extrae un
único objeto)
n · NE
µ= = np
N
2 NE (N − NE ) n (N − n) (N − n)
σX = 2
= np(1 − p)
N (N − 1) (N − 1)
Nota: Es evidente que si el experimento donde surge la distribución hipergeométrica se rea-
lizara con reemplazamiento, la variable X considerada tendrı́a distribución binomial.
Debe señalarse que, aún habiendo reemplazamiento, si N es muy grande en compara-
ción con n, resultarı́a muy difı́cil que un mismo objeto de la población fuera elegido
aleatoriamente dos ó más veces, lo que es equivalente a que no haya reemplazamiento.
Ello significa que la distribución hipergeométrica se va pareciendo cada vez más a la
binomial a medida que N crece con respecto a n. Puede observarse incluso en las ex-
presiones de la esperanza y la varianza, que si N se hace grande y n es relativamente
pequeño, se obtienen los mismos valores que en la binomial.
Ejemplo: De una urna en la que hay 10 bolas blancas y 5 bolas negras, se extraen 8 bolas sin
reemplazamiento. ¿Cual es la probabilidad de que entre estas ocho haya 4 bolas negras?
Si llamamos: X = “número de bolas negras en la muestra” entonces X ≈ H (8, 15, 5) y:
5 15−5
5
10
4 8−4 4
P (X = 4) = 15
= 15
4 = 0,1632
8 8
Cálculo con R : la sintaxis a emplear con R para calcular probabilidades asociadas a la dis-
tribución geométrica es nuevamente similar a la ya vista en las distribuciones anteriores.
Si X ≈ H (n, N, NE ) y llamamos NF = N − NE :
> dhyper(4,10,5,8)
[1] 0.1631702
NE
k=n
N
NE
N̂ = n
k
Las tortugas marinas suelen cavar sus nidos en la zona supramareal de playas fácilmente
accesibles. Supongamos que en determinada playa se ha observado que las posiciones de los
nidos se reparten completamente al azar en esa zona, con una densidad media de ϑ nidos
por km2 . ¿Cómo podrı́amos calcular la probabilidad de que en una extensión de S km2 se
encuentren k nidos?
Por simplicidad supongamos que dicha región es rectangular, y que sobre la misma super-
ponemos una malla tal como se muestra en la figura 3. La malla es lo suficientemente fina
como para que en cada cuadrı́cula quepa como mucho un único nido. Las posiciones de los
nidos se han marcado mediante puntos en el gráfico resultante. De esta forma el problema
de determinar la probabilidad de que en esta zona haya k nidos es equivalente a calcular la
probabilidad de que k cuadros de la malla estén ocupados por un nido. Si suponemos que en
total la malla tiene n cuadros, que la probabilidad de que un cuadro arbitrario esté ocupado
Figura 3: Región rectangular de superficie S situada en la zona supramareal de una playa en
la que hay nidos de tortuga. Sobre esta región se ha superpuesto una malla regular y se han
marcado las posiciones de los nidos.
es p, y que los cuadros se ocupan independientemente unos de otros (esta última hipótesis es
razonable si los nidos están repartidos completamente al azar, es decir, si no tienden a estar
concentrados en un único sitio ni a estar sistemáticamente separados unos de otros), entonces
la variable X =“número de cuadros ocupados por nidos en la malla” sigue una distribución
binomial B (n, p) donde:
Como hay una densidad media de ϑ nidos por km2 y la región estudiada mide S km2 ,
el número esperado de nidos en la región es λ = ϑS. Como el valor esperado de la
binomial es n · p, debe ocurrir entonces que n · p=λ (de donde p = nλ )
Ası́ pues para calcular la probabilidad de k nidos utilizando esta aproximación binomial
tendrı́amos:
k n−k
n k n−k n λ λ
P (X = k) = n→∞
lı́m p (1 − p) = lı́m 1− =
p→0 k n→∞ k n n
np=λ
k n−k
n! λ λ
= lı́m 1− =
n→∞ (n − k)!k! n n
n−k
n(n − 1)...(n − k + 1) λk
λ
= lı́m 1− =
n→∞ nk k! n
n −k
λk
1 k−1 λ λ
= lı́m 1 · 1 − · ... · 1 − 1− 1− =
k! n→∞ n n n n
λk −λ
= e
k!
Definición: Una variable aleatoria discreta X sigue una distribución de Poisson de pará-
metro λ, si su función de probabilidad es de la forma:
λk −λ
P (X = x) = e ; k = 0, 1, 2, 3, ....
k!
siendo λ un valor real positivo. La figura 4 muestra la forma de esta función de proba-
bilidad para diversos valores de λ.
Número de estrellas en cierta porción del firmamento (los puntos son las estrellas y el
espacio continuo es la región estelar observada).
Número de copépodos en un volumen de agua determinado (los puntos son los copépo-
dos y el espacio continuo donde se encuentran es el volumen de agua).
λ=2 λ=4
0.30
0.30
0.20
0.20
Probabilidad
Probabilidad
0.10
0.10
0.00
0.00
0 10 20 30 40 50 0 10 20 30 40 50
n n
λ=6 λ = 20
0.30
0.30
0.20
0.20
Probabilidad
Probabilidad
0.10
0.10
0.00
0.00
0 10 20 30 40 50 0 10 20 30 40 50
n n
Este resultado era de esperar, ya que X es el lı́mite de una binomial cuya esperanza
es np = λ y cuya varianza es np(1 − p) = λ (ya que np = λ y p → 0, por lo que
(1 − p) ∼
= 1)
Ejemplo: Si la densidad de nidos de tortuga en una playa es de 0.01 nidos por m2 (esto es,
un nido cada 100 m2 ), ¿cuál es la probabilidad de que una zona de 1000 m2 de extensión
haya 8 nidos?
En este ejemplo λ = ϑS = 0,01 · 1000 = 10. Aplicando la distribución de Poisson:
108 −10
P (X = 8) = e = 0,113
8!
Cálculo con R :
P (X > 8) = 1 − P (x ≤ 8) = 1−ppois(8,10)=1-0.333=0.667
La probabilidad de que en esa región haya entre 8 y 12 nidos puede hallarse como:
P (8 ≤ X ≤ 12) = P (X ≤ 12) − P (X ≤ 7) =
= ppois(12,10)-ppois(7,10) =
= 0,792 − 0,22 = 0,572
Muchas calculadoras no son capaces de realizar este cálculo (aquı́ lo hemos obtenido
con R mediante dbinom(0,280,0.01)). La aproximación de Poisson nos indica que
X ≈ B (280, 0,01) ∼= P (280 · 0,01) = P (2,8). Si utilizamos la distribución de Poisson
para calcular la probabilidad pedida obtenemos
2,80 −2,8
P (X = 0) = e = e−2,8 = 0,06081
0!
que se diferencia del verdadero valor en 0,00085, por lo que el error de aproximación es
inferior a una milésima. Vemos, pues, que la aproximación mediante la distribución de
Poisson funciona razonablemente bien, y es aconsejable su uso cuando no se dispone de
medios informáticos avanzados.
Definición: Una variable aleatoria X sigue una distribución uniforme en el intervalo real
(a, b), si su función de densidad es constante sobre ese intervalo:
1
b−a
x ∈ (a, b)
f (x) =
0 x∈
/ (a, b)
Cálculo con R :
1 1
f (x) = e− η x , x ≥ 0
η
(ya que X ≥ t significa que el siguiente suceso ocurre después de t, o lo que es lo mismo,
que en un intervalo de duración t no ha ocurrido ningún suceso, esto es Yt = 0). Por
tanto:
1
F (t) = P (X ≤ t) = 1 − e− η t
de donde:
1 1
f (t) = F 0 (t) = e− η t , t ≥ 0
η
La figura 5 muestra la forma de la distribución exponencial para varios valores del
parámetro η.
η=1 2
8
η=1 3
η=1 4
η=1 8
6
Densidad
4
2
0
Esperanza y varianza:
ˆ ∞
1 − η1 x
E [X] = xe dx = η
0 η
ˆ ∞ 2
2 2 1 2 − η1 x 1
var (X) = E X − E [X] = xe dx − = η2
0 η η
Ejemplo: El tiempo que transcurre entre la caı́da de dos rayos sucesivos durante la fase
central de una tormenta tropical sigue una distribución exponencial de parámetro 2.5
segundos. ¿Cuál es la probabilidad de que entre la caı́da de dos rayos sucesivos transcu-
rran como mucho 3 segundos? ¿Cuál es el tiempo esperado que transcurre entre rayos
sucesivos?
Sea X = “Tiempo transcurrido entre dos rayos sucesivos”≈ exp(2,5). La probabilidad
pedida es entonces:
1
P (X ≤ 3) = 1 − e− 2,5 ·3 = 1 − e−1,2 = 0,699
Dado que en una distribución exponencial el valor esperado coincide con su parámetro,
el tiempo esperado entre rayos sucesivos es E [X] = η = 2,5 segundos.
Cálculo con R : Nótese que por defecto R espera recibir como parámetro el valor 1/η que
recibe el nombre de rate (tasa).
P (X ≤ 3) = pexp(3,1/2.5) = 0,699
P (X ≥ t + s | X ≥ s ) = P (X ≥ t)
P ({X ≥ t + s} ∩ {X ≥ s})
P (X ≥ t + s | X ≥ s) = =
p (X ≥ s)
1
P (X ≥ t + s) e− η (t+s) 1
= = 1 = e− η t = P (X ≥ t)
p (X ≥ s) −
e η s
Esta propiedad resulta útil para decidir si la distribución exponencial puede ser un buen
modelo para el comportamiento de una variable de nuestro interés: podrı́a serlo para
el tiempo transcurrido entre premios de la loterı́a, pero desde luego no lo es para el
tiempo entre trenes de una linea de metro.
Definición: Una variable aleatoria X sigue una distribución de Weibull con parámetro de
forma κ y parámetro de escala η si su función de distribución es de la forma:
Para modelar la supervivencia: tiempo que sobreviven los enfermos con determina-
do tratamiento; tiempo que sobreviven las células en un cultivo; tiempo que dura
un fenómeno meteorológico.
Para modelar la fiabilidad: tiempo que dura un componente electrónico, mecánico,
etc. en función de su edad y condiciones de uso.
Para modelar tiempo entre eventos climatológicos: tiempo entre tormentas o ci-
clones, tiempo entre periodos frı́os o cálidos.
Para modelar tiempo entre determinados fenómenos geofı́sicos: tiempo entre ré-
plicas de un terremoto, tiempo entre erupciones volcánicas.
Esperanza y varianza:
ˆ ∞
1
µ = E [X] = xf (x) dx = η · Γ 1 +
0 κ
" 2 #
2 2 2 1
σ = var (X) = η Γ 1 + − Γ 1+
κ κ
´∞
siendo Γ(a) = 0 ua−1 e−u du la función gamma de Euler, que cumple las siguientes
propiedades, útiles para el cálculo de sus valores:
1. Γ(a) = (a − 1)Γ(a − 1)
2. Si n ∈ N : Γ(n) = (n − 1)!
1.2
κ = 0.5 η = 2
κ = 3 η = 0.5
κ=8 η=6
κ = 15 η = 8
1.0
0.8
Densidad
0.6
0.4
0.2
0.0
0 2 4 6 8
Figura 6: Función de densidad de la distribución de Weibull para varios valores de los pará-
metros κ y η.
Cálculo con R :
Definición: Una variable aleatoria X sigue una distribución gamma con parámetro de forma
κ y parámetro de escala η si su función de densidad es de la forma:
1
f (x) = xκ−1 exp (−x/η) : x ≥ 0
η κ Γ (κ)
siendo Γ (a) la función gamma de Euler. En el caso particular de que κ = 1, la distri-
bución gamma se reduce a una exponencial de parámetro η.
En la práctica la distribución gamma suele utilizarse para modelar problemas como los
ya descritos para la distribución de Weibull. La figura muestra la forma de la función
de densidad de la distribución gamma para varios valores de sus parámetros.
1.2
κ = 0.5 η = 1 2
κ=3 η=1 4
κ=8 η=1 6
κ = 15 η = 1 8
1.0
0.8
Densidad
0.6
0.4
0.2
0.0
0 1 2 3 4 5
Esperanza y varianza:
µ = E [X] = κ · η
σ 2 = var (X) = κ · η 2
Cálculo con R : la notación es similar a las distribuciones anteriores. Nótese que por defecto
R espera recibir como parámetro el inverso del factor de escala 1/η que recibe el nombre
de rate (tasa).
Definición: Una variable aleatoria X sigue una distribución Normal de parámetros µ (me-
dia) y σ (desviación tı́pica) si su función de densidad de probabilidad es de la forma:
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) , x ∈ R
σ 2π
Nótese que f (x) es una función simétrica respecto a x, esto es f (x) = f (−x). La figura
8 muestra la forma de esta función de densidad, que corresponde a la conocida campana
de Gauss.
En la práctica, la distribución normal aparece asociada a variables aleatorias que se
comportan de tal manera que lo más probable es observar valores en torno a la media;
y que los valores cada vez más alejados de la media, bien sea hacia arriba o hacia abajo,
van siendo progresivamente más difı́ciles de observar. Muchas variables biológicas se
comportan aproximadamente de esta forma: la talla, el peso, la temperatura corporal,
etc. También se comportan de esta manera los errores de medida. La distribución nor-
mal es una de las más frecuentes en la naturaleza, lo que se justifica de manera teorica
por la acción del teorema central del lı́mite, que veremos más adelante. Dicho de una
manera intuitiva, este teorema indica que si una variable es el resultado de la suma
de efectos de muchas otras variables independientes, la variable resultante tiene nece-
sariamente distribución normal. Si se piensa que las variables que hemos citado –peso,
f(x)
Figura 8: Función de densidad de la distribución normal. Está centrada en la media (µ), valor
en torno al cual se concentra la mayor parte de la probabilidad.
talla, errores de medida, ...– son precisamente el efecto de muchas pequeñas causas que
operan independientemente se entiende por qué cabe esperar que su distribución de
probabilidad sea precisamente normal.
Densidad
−10 −5 0 5 10
Uso de la tabla de la distribución normal tipificada. Esta tabla sólo proporciona pro-
babilidades de la forma P (Z ≥ z), siendo Z ≈ N (0, 1), correspondientes al área som-
breada en la figura 10. Para aprender a manejar esta tabla, supongamos que queremos
f(x)
P(Z≥z)
0 z
Figura 10: La tabla de la distribución N (0, 1) proporciona, para diversos valores de z, el valor
de P (Z ≥ z), correspondiente al área sombreada.
¿Cómo podemos utilizar esta tabla si queremos calcular probabilidades de una N (µ, σ)
con µ 6= 0 y σ 6= 1? En tal caso aplicarı́amos el siguiente resultado:
X−µ
Proposición: Si X ≈ N (µ, σ) entonces Z = σ
≈ N (0, 1)
y localizar el último valor directamente en la tabla. Ası́, por ejemplo, si X ≈ N (20, 4),
para calcular P (X ≥ 25) procederı́amos del siguiente modo:
X − 20 25 − 20 5
P (X ≥ 25) = P ≥ =P Z≥ = P (Z ≥ 1,25) = 0,10565
4 4 4
donde hemos encontrado el valor 0,10565 en el cruce de la fila 1,2 con la columna 0,05
de la distribución normal estándar.
Podemos utilizar R para calcular las probabilidades que hemos visto en los ejemplos anteriores.
En el caso particular de la normal estándar no es preciso especificar µ = 0 y σ = 1. Ası́:
Por último presentamos una importante propiedad de la distribución normal, que nos indica
que la suma de variables normales sigue también una distribución normal. Esta propiedad
tiene gran aplicación práctica, ya que muchas veces habrán de calcularse probabilidades de
sumas de variables normales: peso total de los ejemplares de una muestra, ingresos totales de
las sucursales de una empresa durante un dı́a laboral, distancia total recorrida por un animal
durante una migración,...
Propiedad reproductiva de la distribución normal: dadas n variables aleatorias nor-
males e independientes, tales que Xi ≈ N (µi , σi ) , i = 1, . . . , n, su suma ni=1 Xi sigue
P
En muchas ocasiones nos encontramos con problemas que se refieren a caracterı́sticas globales
de una variable evaluadas sobre una o varias poblaciones. Por ejemplo ¿la concentración
media de cierto contaminante en una zona supera el umbral permitido por la legislación?
¿Es la velocidad media de desplazamiento en los individuos de una especie de delfı́n superior
a la velocidad media en otra especie? ¿Se consigue mayor peso medio en los peces de una
piscifactorı́a cuando se usa una dieta rica en hidratos de carbono o cuando se usa una rica
en proteı́nas? ¿Se observa mayor variabilidad de talla en los machos o en las hembras de una
especie? En estos ejemplos la pregunta a responder tiene que ver con los valores medios o
las varianzas de estas variables en las poblaciones de interés. Ahora bien, en la práctica estos
valores no se conocen, ya que no es posible acceder a todos los sujetos de la población.
Como veremos en el próximo capı́tulo, la única manera de responder a estas cuestiones con-
siste en adquirir información sobre las cantidades de interés a partir de una muestra aleatoria.
Esto nos conduce a la siguiente cuestión: el valor medio de una variable en una población
es único, pero como de una misma población es posible extraer muchas muestras distintas,
habrá tantas medias muestrales como muestras sea posible extraer. Lo mismo puede decirse
de la varianza. Si el problema es comparar dos poblaciones, pueden extraerse muchas mues-
tras distintas de cada una y por tanto son posibles muchos valores distintos de la diferencia
entre las medias muestrales. Como a priori, antes de obtener la muestra (o muestras) es
imposible predecir cuáles van a ser los valores resultantes de la media, la varianza o la dife-
rencia de medias, en su caso, resulta que estas cantidades son variables aleatorias. Y si son
variables aleatorias, debemos preguntarnos cuál es su distribución de probabilidad, ya que es
precisamente mediante el uso de dicha distribución que podremos contestar a las preguntas
planteadas más arriba.
En el caso particular de que la distribución de probabilidad de la variable de interés sea
normal N (µ, σ), se conocen las distribuciones de probabilidad de algunas de las variables
aleatorias que se presentan en el muestreo. Describimos a continuación dichas distribuciones
y posponemos al próximo capı́tulo su aplicación concreta en los problemas de inferencia
ligados al muestreo.
Definición: Una variable aleatoria X sigue una distribución Chi-Cuadrado de Pearson con
n grados de libertad (χ2n ) si su función de densidad de probabilidad es de la forma:
1 n x
f (x) = n n
x 2 −1 e− 2 , x ≥ 0
2 Γ
2
2
µ = E [X] = n
σ 2 = var (X) = 2n
0.4
0.3
Densidad
0.2
0.1
0.0
0 5 10 15 20
Cálculo con R :
Definición: Una variable aleatoria X sigue una distribución t de Student con n grados de
libertad (tn ) si su función de densidad de probabilidad es de la forma:
− n+1
Γ n+1 x2 ( 2 )
2
f (x) = √ 1+ , x≥0
nπΓ n2 n
Por ser una función cuadrática en x, la densidad de la t de Student, al igual que ocurrı́a
con la normal, es simétrica respecto al eje de ordenadas, esto es, f (x) = f (−x). En la
figura 12 se muestra la forma de esta densidad para varios valores de n. Puede apreciarse
la similitud de esta densidad con la normal. De hecho, para valores grandes de n ambas
funciones son prácticamente indistinguibles.
0.4
n= 2
n= 4
n= 10
n= 20
0.3
Densidad
0.2
0.1
0.0
−4 −2 0 2 4
Cálculo con R :
1+ n2
x
Y1 /n1
X=
Y2 /n2
1
X ≈ Fm,n ⇒ ≈ Fn,m
X
n2
µ = E [X] = , (si n2 > 2)
n2 − 2
2
2 n2 n1 + n2 − 2
σ = var (X) = 2 , (Si n2 > 4)
n2 − 2 n1 (n2 − 4)
Cálculo con R :
Como ya hemos señalado para el caso de la distribución normal, un problema que se presenta
con frecuencia en la práctica es el cálculo de cuantiles de estas distribuciones. Para ello se
n1 = 3 n2 = 2
1.0
n1 = 4 n2 = 6
n1 = 8 n2 = 12
n1 = 10 n2 = 20
n1 = 20 n2 = 30
0.8
0.6
Densidad
0.4
0.2
0.0
0 1 2 3 4 5 6
dispone de tablas de fácil manejo, pero que no incluyen todos los posibles grados de libertad
asociados a estas distribuciones (en algunos casos es preciso interpolar). Resulta recomendable
en este caso utilizar R u otro software para el cálculo de estos cuantiles (algunas calculadoras
lo implementan).
Llamaremos χ2n,α , tn,α y Fn1 ,n2 ,α a los cuantiles q1−α de las respectivas distribuciones con sus
grados de libertad correspondientes. De esta forma:
Si X ≈ χ2n , entonces P X ≥ χ2n,α =α
La figura 14 muestra la posición de estos cuantiles para cada distribución. El área sombreada
es α.
En las tablas de la χ2n y la tn los correspondientes valores de χ2n,α y tn,α se encuentran en el
cruce de la fila n y la columna α. Los valores de α que figuran en la tabla son los de uso
más frecuente. En el caso de la Fn1 ,n2 se dispone de una tabla para α = 0,025 y otra para
α = 0,05 (en muchos libros, sobre todo los más antiguos pueden encontrarse tablas para otros
Distribucion χ2n Distribucion tn de Student
f(x)
f(x)
α
α
χ2n , α tn , α
x x
Fn1 , n2 , α
Figura 14: Posición de los cuantiles q1−α de las distribuciones Chi-Cuadrado de Pearson, t de
Student y F de Fisher-Snedecor. Estos cuantiles dejan a su derecha un área α (sombreada
en las tres figuras).
valores de α; hoy en dı́a, con la ubicuidad de la informática, tales tablas en realidad resultan
innecesarias). El valor Fn1 ,n2 ,α se localiza simplemente en el cruce de la fila n1 con la columna
n2 . A veces resulta de interés calcular Fn1 ,n2 ,1−α en cuyo caso se puede utilizar la propiedad
siguiente:
1
Fn1 ,n2 ,1−α =
Fn2 ,n1 ,α
Con R estos cuantiles se obtienen directamente como:
χ2n,α =qchisq(1-α,n)
tn,α =qt(1-α,n)
La propiedad reproductiva de la distribución normal, vista más arriba, nos indica que la suma
de variables aleatorias independientes con distribución normal sigue también una distribución
normal. El teorema central del lı́mite va un poco más allá, estableciendo condiciones bajo las
cuales la suma de variables aleatorias independientes con distribución no necesariamente nor-
mal sigue una distribución normal. Básicamente tales condiciones son dos: que las variables
que se suman tengan todas la misma distribución, y que el número de sumandos sea grande.
Estas condiciones se verifican en muchos casos de aplicación práctica; en particular, se cum-
plen cuando se realiza un muestreo de una variable X con distribución no normal siempre
que el número de observaciones sea suficientemente grande, ya que todas las observaciones
X1 , X2 , . . . , Xn proceden de la misma distribución que X.
Teorema Central del Lı́mite Sea X1 , . . . , Xn una secuencia de variables aleatorias inde-
pendientes y con la misma distribución de probabilidad, siendo E [Xi ] = µ y var (Xi ) =
σ 2 (finita) para i = 1, . . . , n. Entonces, para n → ∞:
Pn
i=1 Xi − nµ
P √ ≤z → Φ (z)
σ n
Nota: El Teorema Central del Lı́mite, tal como se ha enunciado requiere que todas las variables Xi
sean independientes y tengan la misma distribución. Existen otras versiones de este teorema,
en las que se prueba que, bajo determinadas condiciones1 , si las Xi son independientes aun-
que tengan distribuciones de probabilidad diferentes, su suma también tiene una distribución
aproximadamente normal.
1
Tales condiciones exigen la existencia de determinados momentos de las Xi , y que éstos no
crezcan muy deprisa.
Nótese que:
Pn Pn
E[ i=1 Xi ] = i=1 E [Xi ] = nµ
Pn Pn 2
Pn √
var ( i=1 Xi ) = i=1 var (Xi ) = nσ ⇒ sd ( i=1 X i ) = σ n
X−µ
o, dicho de otra forma, la distribución de probabilidad de la media aritmética tipificada σ/√
n
de una secuencia de n variables independientes y con la misma distribución, de media µ y
desviación tı́pica σ, se va aproximando a la distribución normal N (0, 1) a medida que n
aumenta.
En la práctica, el efecto del teorema central del lı́mite puede apreciarse frecuentemente para
valores de n que, si bien son grandes, distan mucho de ∞. En muchas ocasiones,
Pn
con valores de
X i −nµ
n del orden de entre 30 y 60 ya puede asumirse que, aproximadamente, i=1σ√n ≈ N (0, 1)
X−µ Pn √
y σ/√n ≈ N (0, 1), o lo que es lo mismo, que aproximadamente i=1 Xi ≈ N (nµ, σ n) y
√
que X ≈ N (µ, σ/ n).
n=1 n=10
0.012
0.008
Densidad
Densidad
0.004
0.000
0 50 100 150 200 250 300 0 50 100 150 200 250
x x
n=30 n=100
0.04
0.020
0.03
Densidad
Densidad
0.02
0.010
0.01
0.000
0.00
x x
Figura 15: Ilustración del efecto del Teorema Central del Lı́mite. A medida que aumenta el
tamaño de la muestra (n), la distribución de la media aritmética va asemejándose cada vez
más a la normal.
X − np
p ≈ N (0, 1)
np (1 − p)
En general esta aproximación funciona bien cuando np ≥ 5, si bien todavı́a puede mejorarse
si se tiene en cuenta el hecho de que la distribución binomial es discreta y la normal es
continua. En efecto, la distribución binomial sólo asigna probabilidades a los valores enteros
0, 1, 2, . . . , n mientras que la normal asignarı́a probabilidades a todo el rango continuo que
contiene a estos valores. Para conseguir una mayor semejanza entre ambas asignaciones se
considera que cada valor entero k queda representado por el intervalo (k − 0,5, k + 0,5). Este
procedimiento recibe el nombre de corrección por continuidad. De esta forma, la aproximación
de las probabilidades binomiales por el teorema central del lı́mite se llevarı́a a cabo del
siguiente modo:
P (X = k) ∼
=P (k − 0,5 ≤ X ≤ k + 0,5) ∼
=
!
∼ k − 0,5 − np X − np k + 0,5 − np
=P p ≤p ≤ p =
np (1 − p) np (1 − p) np (1 − p)
!
k − 0,5 − np k + 0,5 − np
=P p ≤Z≤ p
np (1 − p) np (1 − p)
!
k − 0,5 − np
P (X ≥ k) ∼
=P (X ≥ k − 0,5) ∼=P Z≥ p
np (1 − p)
!
k + 0,5 − np
P (X > k) ∼
=P (X ≥ k + 0,5) ∼= P Z >≥ p
np (1 − p)
!
k + 0,5 − np
P (X ≤ k) ∼
=P (X ≤ k + 0,5) ∼=P Z≤ p
np (1 − p)
!
k − 0,5 − np
P (X < k) ∼
=P (X ≤ k − 0,5) ∼=P Z≤ p
np (1 − p)
siendo Z ≈ N (0, 1)
50 50
X X 50
P (X > 16) = P (X = k) = 0,3k (1 − 0,3)50−k =
k=17 k=17
k
= sum(dbinom(17:50,50,0.3)) = 0,31612
Como vemos el error de aproximación es de algo menos de 7 milésimas (0.00664).