Tema 3

Capı́tulo 3
Distribuciones de Probabilidad
Notables. Teorema Central del Lı́mite.
1. Introducción
En este tema estudiaremos las distribuciones de probabilidad más habituales en las aplicacio-
nes prácticas. En primer lugar veremos algunas distribuciones discretas –Bernoulli, binomial,
hipergeométrica, geométrica y de Poisson–, y seguidamente algunas distribuciones continuas
–uniforme, exponencial, gamma, Weibull y Normal–. De entre las distribuciones continuas
destaca la normal ya que bajo determinadas condiciones aparece como lı́mite de muchas
variables. Estudiaremos tales condiciones y su interpretación, para finalmente ver las prin-
cipales distribuciones de probabilidad que aparecen en la inferencia estadı́stica cuando se
toman muestras aleatorias de poblaciones que se distribuyen normalmente.
2. OBJETIVOS
Al finalizar este tema alumno deberá:
1. Conocer y saber calcular probabilidades asociadas a las distribuciones discretas nota-

bles, en particular, la binomial, la hipergeométrica y la de Poisson
2. Conocer y saber calcular probabilidades asociadas a las distribuciones continuas nota-

bles.
3. Entender el significado de los parámetros caracterı́sticos de cada distribución, y como la

elección adecuada de los valores de los parámetros permite modelar variables observadas
en la naturaleza.
1
4. Conocer la distribución normal y su propiedad reproductiva. Utilizar la tabla de la
distribución normal estándar. Entender y ser capaz de aplicar en situaciones prácticas
el teorema central del lı́mite.
5. Conocer las principales distribuciones que surgen en la inferencia estadı́stica asociadas

al muestreo (t de Student, chi-cuadrado y F de Fisher), ası́ como manejar sus tablas.
6. Ser capaz de utilizar R para el cálculo de probabilidades en variables con las distribu-
ciones vistas en este capı́tulo.
3. Principales distribuciones de probabilidad discretas.
3.1. Distribución Uniforme Discreta.
Definición: Una variable aleatoria X que toma un número finito n de valores {x1 , x2 , . . . , xn }
sigue una distribución uniforme si todos sus valores son equiprobables. Por tanto su
función de probabilidad es de la forma:

1 x ∈ {x1 , x2 , . . . , xn }
n
f (x) = P (X = x) =
0 x∈
/ {x1 , x2 , . . . , xn }
Esperanza y varianza:
n n n
X X 1 1X
µ = E[X] = xi p (X = xi ) = xi · = xi
i=1 i=1
n n i=1
n n n
211X
X X
2 2
σ = var (X) = (xi − µ) p (X = xi ) = (xi − µ) = (xi − µ)2
i=1 i=1
n n i=1
Ejemplo: Si X= ”Resultado obtenido al lanzar un dado equilibrado”:
k 6
X 1X 1
µ = E[X] = p i xi = i = · 21 = 3, 5
i=1
6 i=1 6
k 6
2
X 1X
2
σ = var[X] = pi (xi − µ) = (i − 3, 5)2 = 2, 91
i=1
6 i=1
3.2. Distribución de Bernoulli Be (p)
Definición: Una variable aleatoria X sigue una distribución de Bernoulli, Be (p), si sólo
toma dos posibles valores: 1 (”éxito”) ó 0 (”fracaso”), con probabilidades respectivas p
y 1 − p. Su función de probabilidad es, por tanto:



p k=1

f (k) = P (X = k) = 1 − p k=0


k∈
/ {0, 1}

0
que podemos expresar también como:
f (k) = pk (1 − p)1−k , k = 0, 1
X
µ = E[X] = k · p (X = k) = 1 · p + 0 · (1 − p) = p
k∈{0,1}
X
σ 2 = var (X) = (k − µ)2 P (X = k) = (1 − p)2 p + (0 − p)2 (1 − p) = p(1 − p)
k∈{0,1}
Ejemplo: Se realiza el experimento aleatorio consistente en lanzar una moneda equlibrada

y se define la variable aleatoria:
(
0 si sale cara
X=
1 si sale cruz
Entonces
1
X ≈ Be
2
La función de probabilidad en este caso es:
1 1 1
P (X = 1) = ; P (X = 0) = 1 − =
2 2 2
y la media y varianza:
1 1 1 1
µ = p = ; σ 2 = p(1 − p) = · =
2 2 2 4
3.3. Distribución Binomial B (n, p)
Definición: Una variable aleatoria X sigue una distribución Binomial de parámetros n y p

si representa el número de éxitos obtenidos al realizar n repeticiones independientes de
un experimento de Bernoulli, siendo p la probabilidad de éxito en cada experimento.
Obviamente sólo son posibles entre 0 y n éxitos. La función de probabilidad de esta
variable es de la forma:

n k
f (k) = P (X = k) = p (1 − p)n−k , k ∈ {0, 1, 2, . . . , n}
k
La figura 1 muestra esta función de probabilidad para diversos valores de n y p
(n, p) = (20, 0.2) (n, p) = (20, 0.8)

0.30
0.30
0.20
0.20
Probabilidad
Probabilidad
0.10
0.10
0.00
0.00
0 5 10 15 20 25 0 5 10 15 20 25
k k
(n, p) = (20, 0.5) (n, p) = (30, 0.5)

0.30
0.30
0.20
0.20
Probabilidad
Probabilidad
0.10
0.10
0.00
0.00
0 5 10 15 20 25 0 5 10 15 20 25
k k
Figura 1: Función de probabilidad de la distribución binomial para diversos valores de n y p.

La altura de cada lı́nea representa la P (X = k).
Esperanza y varianza: Por definición, si X ≈ B(n, p) entonces X = X1 + X2 + · · · + Xk ,

siendo las Xi variables de Bernoulli de parámetro p independientes. Por tanto:
µ = E [X] = E [X1 + X2 + · · · + Xk ] = E [X1 ] + E [X2 ] + · · · + E [Xk ] =

= p + p + · · · + p = np
σ 2 = var (X) = var (X1 + X2 + · · · + Xk ) = var (X1 ) + var (X2 ) + · · · + var (Xk ) =
= p (1 − p) + p (1 − p) + · · · + p (1 − p) = np (1 − p)
Ejemplo: Se sabe que en la puesta de huevos de una tortuga, la probabilidad de que una crı́a
sea macho es 0.30 y de que sea hembra es 0.70. El sexo de cada crı́a es independiente
del resto. Se dispone de una puesta de 10 huevos y se considera la variable X=”Número
de machos en la puesta”. ¿Cuál es la probabilidad de que X = 5?
De la descripción de esta variable se deduce que X ≈ B (10, 0,3). Por tanto:

10
P (X = 5) = 0,35 (1 − 0,3)10−5 = 0,103
5
Cálculo con R : El programa R dispone de varias funciones para el cálculo de probabilida-

des asociadas a la distribución binomial. Concretamente, si X ≈ B(n, p), utilizando R
podemos:
Calcular el valor de la función de probabilidad: P (X = k)=dbinom(k,n,p)
Calcular el valor de la función de distribución: P (X ≤ k)=pbinom(k,n,p)
Calcular los cuantiles: qα = mı́n {x : F (x) ≥ α}=qbinom(α,n,p)
Generar m números aleatorios con distribución B (n, p): rbinom(m,n,p)
Ejemplo: La siguiente sintaxis simula una muestra de 1000 valores de una distribución
binomial de parámetros n = 10 y p = 0,7, y los representa en un diagrama de barras,
junto a la representación gráfica de la función de probabilidad de la B (10, 0,7) (figura
2). Asimismo se muestran las proporciones con que aparece cada valor k en la muestra
y su correspondiente probabilidad teórica P (X = k) = 10 0,7 (1 − 0,7)10−k . Como
k
k
puede apreciarse, con este valor de n, las probabilidades teóricas son muy similares a
las proporciones muestrales observadas.
> n=10
> p=0.7
> muestra=rbinom(1000,n,p)
> probabilidades=dbinom(0:n,n,p)
> proporciones=prop.table(table(muestra))
> par(mfrow=c(1,2))
> plot(0:n,probabilidades,type="h",lwd=3,col="olivedrab",ylab="Probabilidad",xlab
> barplot(proporciones,xlab="k",ylab="Proporcion",main="(b)")
> prop=numeric(11);for(k in 0:10) prop[k+1]=length(which(muestra==k))/1000
> data.frame(k=0:10,Prob=round(probabilidades,3),Prop.obs=prop)
k Prob Prop.obs
1 0 0.000 0.000
2 1 0.000 0.000
3 2 0.001 0.003
4 3 0.009 0.008
5 4 0.037 0.033
6 5 0.103 0.097
7 6 0.200 0.207
8 7 0.267 0.256
9 8 0.233 0.236
10 9 0.121 0.116
11 10 0.028 0.044
>
3.4. Distribución Geométrica Geo (p).
Definición: una variable aleatoria X sigue una distribución Geométrica de parámetro p

si representa el número de experimentos de Bernoulli sucesivos e independientes que
acaban en fracaso antes de que ocurra el primer éxito. Su función de probabilidad es
por tanto:
f (k) = P (X = k) = (1 − p)k p, k = 0, 1, 2, . . .
(a) (b)
0.25
0.25
0.20
0.20
Probabilidad
Proporción
0.15
0.15
0.10
0.10
0.05
0.05
0.00
0.00
0 2 4 6 8 10 2 3 4 5 6 7 8 9 10
k k
Figura 2: (a) Probabilidades correspondientes a la distribución B (10, 0,7) (b) Proporciones

observadas en una muestra de tamaño n = 1000 de dicha distribución. Puede observarse la
coincidencia entre ambas representaciones.
∞ ∞
X X 1−p
µ = E [X] = k · P (X = k) = k (1 − p)k p =
k=0 k=0
p
∞ ∞ 2
X 2
X 1 1−p
2
σ = var (X) = (k − µ) · P (X = k) = k− (1 − p)k p =
k=0 k=0
p p2
Ejemplo: Sea X=”Número de lanzamientos de un dado equilibrado antes de que salga el

primer 6 ”. Obviamente X ≈ Geo( 61 ). Ası́, por ejemplo, la probabilidad de que haya que
lanzar el dado 9 veces antes del primer 6, serı́a:
9
1 1
P (X = 9) = 1− = 0,0323
6 6
El número esperado de veces que habrı́a que lanzar el dado antes de que salga un 6 por
primera vez serı́a µ = 1−1/6
1/6
=5
Cálculo con R : Si X ≈ Geo(p):
Valor de la función de probabilidad: P (X = k)=dgeom(k,p)
Valor de la función de distribución: P (X ≤ k)=pgeom(k,p)
Cuantiles: qα = mı́n {x : F (x) ≥ α}=qgeom(α,p)
Generación de m números aleatorios con distribución Geo (p): rgeom(m,p)
Ejemplo: Para calcular con R la probabilidad buscada en el ejemplo anterior ejecutamos:
> dgeom(9,1/6)
[1] 0.03230112
>
3.5. Distribución Hipergeométrica H (n, N, NE )
Definición: Supongamos que se dispone de una población finita de tamaño N , que está
dividida en dos grupos: NE ”éxitos” y N − NE ”fracasos”. Una variable aleatoria X
sigue una distribución hipergeométrica si representa el número de éxitos obtenidos
al extraer al azar y sin reemplazamiento n objetos de esta población. La función de
probabilidad de esta variable aleatoria es:
NE N −NE

k n−k
P (X = k) = , x = máx {0, n − (N − NE )} , . . . , mı́n {NE , n}
N
n
NE
Esperanza y varianza: Si llamamos p = N
(probabilidad de éxito cuando se extrae un
único objeto)
n · NE
µ= = np
N
2 NE (N − NE ) n (N − n) (N − n)
σX = 2
= np(1 − p)
N (N − 1) (N − 1)
Nota: Es evidente que si el experimento donde surge la distribución hipergeométrica se rea-
lizara con reemplazamiento, la variable X considerada tendrı́a distribución binomial.
Debe señalarse que, aún habiendo reemplazamiento, si N es muy grande en compara-
ción con n, resultarı́a muy difı́cil que un mismo objeto de la población fuera elegido
aleatoriamente dos ó más veces, lo que es equivalente a que no haya reemplazamiento.
Ello significa que la distribución hipergeométrica se va pareciendo cada vez más a la
binomial a medida que N crece con respecto a n. Puede observarse incluso en las ex-
presiones de la esperanza y la varianza, que si N se hace grande y n es relativamente
pequeño, se obtienen los mismos valores que en la binomial.
Ejemplo: De una urna en la que hay 10 bolas blancas y 5 bolas negras, se extraen 8 bolas sin
reemplazamiento. ¿Cual es la probabilidad de que entre estas ocho haya 4 bolas negras?
Si llamamos: X = “número de bolas negras en la muestra” entonces X ≈ H (8, 15, 5) y:
5 15−5
5
10

4 8−4 4
P (X = 4) = 15
= 15
4 = 0,1632
8 8
Cálculo con R : la sintaxis a emplear con R para calcular probabilidades asociadas a la dis-
tribución geométrica es nuevamente similar a la ya vista en las distribuciones anteriores.
Si X ≈ H (n, N, NE ) y llamamos NF = N − NE :
Valor de la función de probabilidad: P (X = k)=dhyper(k,NE,NF,n)
Valor de la función de distribución: P (X ≤ k)=phyper(k,NE,NF,n)
Cuantiles: qα = mı́n {x : F (x) ≥ α}=qhyper(α,NE,NF,n)
Generación de m números aleatorios con esta distribución: rhyper(m,ME,NF,n)
Para obtener la probabilidad del ejemplo anterior utilizando R emplearı́amos la función:
> dhyper(4,10,5,8)
[1] 0.1631702
Aplicación a la estimación de un tamaño poblacional. (Método de captura - re-

captura) Una aplicación clásica de la distribución hipergeométrica al campo de las
ciencias biológicas es la siguiente: supongamos que se desea estimar aproximadamente
el número de peces que hay en un lago. Para ello realizamos una captura inicial de NE
peces (se capturan al azar, a lo largo de toda la extensión del lago), los marcamos y los
devolvemos al agua. De esta forma ahora tenemos en el lago un total de N peces (N es
desconocida) de los que NE sabemos que están marcados. Realizamos una segunda cap-
tura, ahora de n peces y contamos cuántos hay marcados en esta recaptura. Obviamente
el número de peces marcados en la recaptura sigue una distribución hipergeométrica
H (n, N, NE ) por lo que el número esperado de peces marcados en dicha recaptura es
n NNE . Si en realidad se observaron k peces marcados, igualamos ambas expresiones (esto
es, suponemos que se captura exactamente lo que se esperaba capturar):
NE
k=n
N
de donde se obtiene el valor de N :
NE
N̂ = n
k
Obviamente este valor de N es una aproximación, ya que la premisa de que lo que

se esperaba pescar es lo que se pesca, no tiene que ser válida exactamente. Este es el
punto de arranque para los diseños de muestreo más sofisticados que se emplean en la
estimación de tamaños poblacionales.
3.6. Distribución de Poisson P (λ)
Las tortugas marinas suelen cavar sus nidos en la zona supramareal de playas fácilmente
accesibles. Supongamos que en determinada playa se ha observado que las posiciones de los
nidos se reparten completamente al azar en esa zona, con una densidad media de ϑ nidos
por km2 . ¿Cómo podrı́amos calcular la probabilidad de que en una extensión de S km2 se
encuentren k nidos?
Por simplicidad supongamos que dicha región es rectangular, y que sobre la misma super-
ponemos una malla tal como se muestra en la figura 3. La malla es lo suficientemente fina
como para que en cada cuadrı́cula quepa como mucho un único nido. Las posiciones de los
nidos se han marcado mediante puntos en el gráfico resultante. De esta forma el problema
de determinar la probabilidad de que en esta zona haya k nidos es equivalente a calcular la
probabilidad de que k cuadros de la malla estén ocupados por un nido. Si suponemos que en
total la malla tiene n cuadros, que la probabilidad de que un cuadro arbitrario esté ocupado
Figura 3: Región rectangular de superficie S situada en la zona supramareal de una playa en
la que hay nidos de tortuga. Sobre esta región se ha superpuesto una malla regular y se han
marcado las posiciones de los nidos.
es p, y que los cuadros se ocupan independientemente unos de otros (esta última hipótesis es
razonable si los nidos están repartidos completamente al azar, es decir, si no tienden a estar
concentrados en un único sitio ni a estar sistemáticamente separados unos de otros), entonces
la variable X =“número de cuadros ocupados por nidos en la malla” sigue una distribución
binomial B (n, p) donde:
n es un número muy grande (hay muchos cuadros en la malla).
p es un número muy pequeño (entre tantos cuadros, la probabilidad de que haya un

nido en un cuadro concreto es minúscula).
Como hay una densidad media de ϑ nidos por km2 y la región estudiada mide S km2 ,
el número esperado de nidos en la región es λ = ϑS. Como el valor esperado de la
binomial es n · p, debe ocurrir entonces que n · p=λ (de donde p = nλ )
Ası́ pues para calcular la probabilidad de k nidos utilizando esta aproximación binomial
tendrı́amos:
k n−k
n k n−k n λ λ
P (X = k) = n→∞
lı́m p (1 − p) = lı́m 1− =
p→0 k n→∞ k n n
np=λ
k n−k
n! λ λ
= lı́m 1− =
n→∞ (n − k)!k! n n
n−k
n(n − 1)...(n − k + 1) λk

λ
= lı́m 1− =
n→∞ nk k! n
n −k
λk

1 k−1 λ λ
= lı́m 1 · 1 − · ... · 1 − 1− 1− =
k! n→∞ n n n n
λk −λ
= e
k!
Definición: Una variable aleatoria discreta X sigue una distribución de Poisson de pará-
metro λ, si su función de probabilidad es de la forma:
λk −λ
P (X = x) = e ; k = 0, 1, 2, 3, ....
k!
siendo λ un valor real positivo. La figura 4 muestra la forma de esta función de proba-
bilidad para diversos valores de λ.
En el ejemplo anterior, el número de nidos de tortuga en una región de superficie S sigue

una distribución de Poisson de parámetro λ = ϑS, siendo ϑ el número medio de nidos por
unidad de superficie.
En general, la distribución de Poisson constituye un modelo de probabilidad adecuado para

aquellas variables aleatorias que cuentan el número de puntos que se encuentran en cierto
espacio continuo, siempre y cuando estos puntos se encuentren repartidos completamente al
azar. A modo de ejemplo podemos citar:
Número de estrellas en cierta porción del firmamento (los puntos son las estrellas y el
espacio continuo es la región estelar observada).
Número de copépodos en un volumen de agua determinado (los puntos son los copépo-
dos y el espacio continuo donde se encuentran es el volumen de agua).
λ=2 λ=4
0.30
0.30
0.20
0.20
Probabilidad
Probabilidad
0.10
0.10
0.00
0.00
0 10 20 30 40 50 0 10 20 30 40 50
n n
λ=6 λ = 20
0.30
0.30
0.20
0.20
Probabilidad
Probabilidad
0.10
0.10
0.00
0.00
0 10 20 30 40 50 0 10 20 30 40 50
n n
Figura 4: Función de Probabilidad de la distribución de Poisson para varios valores de λ. La

altura de cada lı́nea vertical representa la P (X = k)
Número de llamadas telefónicas recibidas en una centralita a lo largo de un dı́a (los

puntos son los instantes en que se producen las llamadas, y el espacio continuo en que
se sitúan estos puntos es el tiempo transcurrido entre las 0 y las 24 horas).
Esperanza y varianza: Puede probarse que:

∞ ∞
X X λk
E [X] = kP (X = k) = k e−λ = λ
k=0 k=0
k!
∞ k
2 λ −λ
2 2
X
var (X) = E X − E [X] = k e − λ2 = λ
k=0
k!
Este resultado era de esperar, ya que X es el lı́mite de una binomial cuya esperanza
es np = λ y cuya varianza es np(1 − p) = λ (ya que np = λ y p → 0, por lo que
(1 − p) ∼
= 1)
Ejemplo: Si la densidad de nidos de tortuga en una playa es de 0.01 nidos por m2 (esto es,
un nido cada 100 m2 ), ¿cuál es la probabilidad de que una zona de 1000 m2 de extensión
haya 8 nidos?
En este ejemplo λ = ϑS = 0,01 · 1000 = 10. Aplicando la distribución de Poisson:
108 −10
P (X = 8) = e = 0,113
8!
Cálculo con R :
Valor de la función de probabilidad: P (X = k)=dpois(k,λ)
Valor de la función de distribución: P (X ≤ k)=ppois(k,λ)
Cuantiles: qα = mı́n {x : F (x) ≥ α}=qpois(α,λ)
Generación de m números aleatorios con distribución P (λ): rpois(m,λ)
Continuación del ejemplo: En el ejemplo anterior, si queremos calcular la probabilidad

de que en una región de 1 km2 de extensión haya más de 8 nidos:
P (X > 8) = 1 − P (x ≤ 8) = 1−ppois(8,10)=1-0.333=0.667
La probabilidad de que en esa región haya entre 8 y 12 nidos puede hallarse como:
P (8 ≤ X ≤ 12) = P (X ≤ 12) − P (X ≤ 7) =
= ppois(12,10)-ppois(7,10) =
= 0,792 − 0,22 = 0,572
Aproximación de la distribución binomial: Hemos obtenido la distribución de Poisson

como lı́mite de una binomial cuando n → ∞ y p → 0. La distribución de Poisson
constituye en general una buena aproximación de la binomial B(n, p) cuando n > 20 y
p < 0,05, en cuyo caso B(n, p) ∼
= P (λ), con λ = n · p.
Para entender el sentido de esta aproximación consideremos el siguiente ejemplo: se
sabe que el 1 % de los huevos de tortuga depositados en una playa son depredados por
cangrejos. Si entre cuatro nidos totalizan 280 huevos, ¿cuál es la probabilidad de que
ninguno sea depredado por cangrejos?.
Llamando X=“Número de huevos depredados en los cuatro nidos”, tendrı́amos que
X ≈ B (280, 0,01). La probabilidad de que ningún huevo sea depredado serı́a:
P (X = 0) = (1 − 0,01)280 = 0,99280 = 0,05996
Muchas calculadoras no son capaces de realizar este cálculo (aquı́ lo hemos obtenido
con R mediante dbinom(0,280,0.01)). La aproximación de Poisson nos indica que
X ≈ B (280, 0,01) ∼= P (280 · 0,01) = P (2,8). Si utilizamos la distribución de Poisson
para calcular la probabilidad pedida obtenemos
2,80 −2,8
P (X = 0) = e = e−2,8 = 0,06081
0!
que se diferencia del verdadero valor en 0,00085, por lo que el error de aproximación es
inferior a una milésima. Vemos, pues, que la aproximación mediante la distribución de
Poisson funciona razonablemente bien, y es aconsejable su uso cuando no se dispone de
medios informáticos avanzados.
Aditividad de la distribución de Poisson. Si dos variables aleatorias independientes X1

y X2 siguen sendas distribuciones de Poisson, X1 ≈ P (λ1 ) y X2 ≈ P (λ2 ), entonces X1 +
X2 ≈ P (λ1 + λ2 ). En general, si X1 , X2 , ..., Xn ≈ P (λ) , y además son independientes,
Pn
entonces Xi ≈ P (nλ)
i=1
4. Principales distribuciones de probabilidad continuas.
4.1. Distribución uniforme U (a, b).
Definición: Una variable aleatoria X sigue una distribución uniforme en el intervalo real
(a, b), si su función de densidad es constante sobre ese intervalo:

1

b−a
x ∈ (a, b)
f (x) =
0 x∈
/ (a, b)
En la práctica esta distribución corresponde a variables del tipo: X = “Resultado de

elegir al azar un valor del intervalo (a,b)” cuando la probabilidad de que el valor elegido
caiga en un intervalo de amplitud ` dentro de (a, b) es siempre la misma independien-
temente de la posición de dicho intervalo.
ˆ ∞ ˆ b b
1 x2 b 2 − a2

1 a+b
E [X] = xf (x) dx = x dx = = =
−∞ a b−a b − a 2 a 2 (b − a) 2
ˆ b 2
1 a+b 1
var (X) = E X 2 − E [X]2 = x2 (b − a)2

dx − =
a b−a 2 12
Ejemplo: la variable aleatoria X = “Distancia, medida desde el extremo inicial, a la que

se rompe una cuerda homogénea de 1 metro cuando se tira con igual fuerza de ambos
extremos”que ya hemos visto en el capı́tulo anterior sigue una distribución X ≈ U (0, 1).
Cálculo con R :
Valor de la función de densidad f (x)=dunif(x,a,b)
Valor de la función de distribución: F (x) = P (X ≤ x)=punif(x,a,b)
Cuantil qα = {x : F (x) = α}=qunif(α,a,b)
Generación de n números aleatorios con distribución U (a, b): runif(n,a,b)
4.2. Distribución exponencial exp (η).
Definición: una variable aleatoria X sigue una distribución exponencial de parámetro η si

su función de densidad de probabilidad es de la forma:
1 1
f (x) = e− η x , x ≥ 0
η
En la práctica, esta distribución aparece asociada a variables que miden la distancia

entre sucesos puntuales que se dispersan completamente al azar en un medio continuo
y cuyo número tiene, por tanto, distribución de Poisson. En efecto, supongamos por
simplicidad que el medio continuo considerado es el tiempo y que estamos contando
el número de eventos que ocurren hasta un instante t. Si el número de tales eventos
sigue una distribución de Poisson, siendo λ el número esperado de eventos por unidad
de tiempo, ello significa que η = λ1 es el tiempo esperado entre dos cualesquiera de tales
sucesos. Si llamamos Yt =“Número
de sucesos ocurridos en un intervalo de duración t”
entonces Yt ≈ P (λt) = P η1 t . Si acaba de ocurrir uno de estos sucesos, y llamamos
X al tiempo que transcurre hasta que ocurre el siguiente, entonces:
0
1
0
(λt) −λt η
t 1 1
P (X ≥ t) = P (Yt = 0) = e = e− η t = e− η t
0! 0!
(ya que X ≥ t significa que el siguiente suceso ocurre después de t, o lo que es lo mismo,
que en un intervalo de duración t no ha ocurrido ningún suceso, esto es Yt = 0). Por
tanto:
1
F (t) = P (X ≤ t) = 1 − e− η t
de donde:
1 1
f (t) = F 0 (t) = e− η t , t ≥ 0
η
La figura 5 muestra la forma de la distribución exponencial para varios valores del
parámetro η.
η=1 2
8
η=1 3
η=1 4
η=1 8
6
Densidad
4
2
0
0.0 0.5 1.0 1.5 2.0 2.5 3.0
Figura 5: Función de densidad de la distribución exponencial para varios valores de η.
ˆ ∞
1 − η1 x
E [X] = xe dx = η
0 η
ˆ ∞ 2
2 2 1 2 − η1 x 1
var (X) = E X − E [X] = xe dx − = η2
0 η η
Ejemplo: El tiempo que transcurre entre la caı́da de dos rayos sucesivos durante la fase
central de una tormenta tropical sigue una distribución exponencial de parámetro 2.5
segundos. ¿Cuál es la probabilidad de que entre la caı́da de dos rayos sucesivos transcu-
rran como mucho 3 segundos? ¿Cuál es el tiempo esperado que transcurre entre rayos
sucesivos?
Sea X = “Tiempo transcurrido entre dos rayos sucesivos”≈ exp(2,5). La probabilidad
pedida es entonces:
1
P (X ≤ 3) = 1 − e− 2,5 ·3 = 1 − e−1,2 = 0,699
Dado que en una distribución exponencial el valor esperado coincide con su parámetro,
el tiempo esperado entre rayos sucesivos es E [X] = η = 2,5 segundos.
Cálculo con R : Nótese que por defecto R espera recibir como parámetro el valor 1/η que
recibe el nombre de rate (tasa).
Valor de la función de densidad: f (x)=dexp(x,1/η)
Valor de la función de distribución: F (x) = P (X ≤ x)=pexp(x,1/η)
Cuantil qα = {x : F (x) = α}=qexp(α,1/η)
Generación de n números aleatorios con distribución exp (λ): rexp(n,1/η)
Ası́, el cálculo de la probabilidad del ejemplo anterior en R serı́a:
P (X ≤ 3) = pexp(3,1/2.5) = 0,699
Falta de memoria de la distribución exponencial. La distribución exponencial tiene una

propiedad caracterı́stica que suele denominarse “falta de memoria”. Si X es el tiempo
entre dos ocurrencias consecutivas de un fenómeno, la falta de memoria significa que:
P (X ≥ t + s | X ≥ s ) = P (X ≥ t)
es decir, si desde la ocurrencia anterior ha transcurrido ya un tiempo s, la probabilidad

de que aún falte un tiempo adicional t hasta la próxima ocurrencia es independiente de
s. Para entender este enunciado pensemos los siguientes ejemplos:
Nos encontramos en una estación de metro esperando por el siguiente tren; la
linea que esperamos es muy puntual y por término medio pasa un tren cada 10
minutos. Si el último tren pasó hace 9 minutos, podemos estar razonablemente
seguros de que el tiempo que aún nos queda por esperar es del orden de 1 minuto.
Podemos decir que el tiempo entre llegadas de trenes “tiene memoria”: el tiempo
transcurrido desde la última llegada nos informa sobre el tiempo que aún falta
hasta la siguiente.
En nuestra ciudad cae un premio grande de la loterı́a por término medio una vez
cada 10 años. Si el último de estos premios cayó hace 9 años, eso no nos dice nada
sobre cuantos años han de transcurrir aún hasta que vuelva a tocar un premio
grande en la ciudad. El tiempo entre premios de la loterı́a “no tiene memoria”: el
tiempo transcurrido desde el último premio no da ninguna información sobre el
tiempo que aún falta hasta el siguiente.
Es fácil comprobar la falta de memoria de la distribución exponencial:
P ({X ≥ t + s} ∩ {X ≥ s})
P (X ≥ t + s | X ≥ s) = =
p (X ≥ s)
1
P (X ≥ t + s) e− η (t+s) 1
= = 1 = e− η t = P (X ≥ t)
p (X ≥ s) −
e η s
Esta propiedad resulta útil para decidir si la distribución exponencial puede ser un buen
modelo para el comportamiento de una variable de nuestro interés: podrı́a serlo para
el tiempo transcurrido entre premios de la loterı́a, pero desde luego no lo es para el
tiempo entre trenes de una linea de metro.
4.3. Distribución de Weibull W (κ, η).
Definición: Una variable aleatoria X sigue una distribución de Weibull con parámetro de
forma κ y parámetro de escala η si su función de distribución es de la forma:
F (x) = 1 − exp (− (x/η)κ ) , x ≥ 0
Su función de densidad es:

κ−1
κ x
f (x) = exp (− (x/η)κ ) , x ≥ 0
η η
En el caso particular de que κ = 1, la distribución de Weibull coincide con una expo-
nencial de parámetro η.
La distribución de Weibull se utiliza con frecuencia para modelar el tiempo (aleatorio)
que transcurre entre dos sucesos de interés, en particular cuando el tiempo transcurrido
“tiene memoria” en el sentido apuntado más arriba. Ası́, por ejemplo, suele utilizarse:
Para modelar la supervivencia: tiempo que sobreviven los enfermos con determina-
do tratamiento; tiempo que sobreviven las células en un cultivo; tiempo que dura
un fenómeno meteorológico.
Para modelar la fiabilidad: tiempo que dura un componente electrónico, mecánico,
etc. en función de su edad y condiciones de uso.
Para modelar tiempo entre eventos climatológicos: tiempo entre tormentas o ci-
clones, tiempo entre periodos frı́os o cálidos.
Para modelar tiempo entre determinados fenómenos geofı́sicos: tiempo entre ré-
plicas de un terremoto, tiempo entre erupciones volcánicas.
Otras aplicaciones de la distribución de Weibull, dado el perfil de su función de densidad,

son el modelado de la altura de ola, la velocidad de corriente marina o la velocidad del
viento.
La figura 6 muestra la forma de la función de densidad de la distribución de Weibull

para varios valores de κ y η.
ˆ ∞
1
µ = E [X] = xf (x) dx = η · Γ 1 +
0 κ
" 2 #
2 2 2 1
σ = var (X) = η Γ 1 + − Γ 1+
κ κ
´∞
siendo Γ(a) = 0 ua−1 e−u du la función gamma de Euler, que cumple las siguientes
propiedades, útiles para el cálculo de sus valores:
1. Γ(a) = (a − 1)Γ(a − 1)
2. Si n ∈ N : Γ(n) = (n − 1)!
1.2
κ = 0.5 η = 2
κ = 3 η = 0.5
κ=8 η=6
κ = 15 η = 8
1.0
0.8
Densidad
0.6
0.4
0.2
0.0
0 2 4 6 8
Figura 6: Función de densidad de la distribución de Weibull para varios valores de los pará-
metros κ y η.
La función gamma de Euler se encuentra implementada en R : Γ (a) =gamma(a)
Cálculo con R :
Valor de la función de densidad: f (x)=dweibull(x,κ,η)
Valor de la función de distribución: F (x) = P (X ≤ x)=pweibull(x,κ,η)
Cuantil qα = {x : F (x) = α}=qweibull(α,κ,η)
Generación de n números aleatorios con distribución exp (λ): rweibull(n,κ,η)
4.4. Distribución Gamma G (κ, η)
Definición: Una variable aleatoria X sigue una distribución gamma con parámetro de forma
κ y parámetro de escala η si su función de densidad es de la forma:
1
f (x) = xκ−1 exp (−x/η) : x ≥ 0
η κ Γ (κ)
siendo Γ (a) la función gamma de Euler. En el caso particular de que κ = 1, la distri-
bución gamma se reduce a una exponencial de parámetro η.
En la práctica la distribución gamma suele utilizarse para modelar problemas como los
ya descritos para la distribución de Weibull. La figura muestra la forma de la función
de densidad de la distribución gamma para varios valores de sus parámetros.
1.2
κ = 0.5 η = 1 2
κ=3 η=1 4
κ=8 η=1 6
κ = 15 η = 1 8
1.0
0.8
Densidad
0.6
0.4
0.2
0.0
0 1 2 3 4 5
Figura 7: Función de densidad de la distribución Gamma para varios valores de κ y η.
µ = E [X] = κ · η
σ 2 = var (X) = κ · η 2
Cálculo con R : la notación es similar a las distribuciones anteriores. Nótese que por defecto
R espera recibir como parámetro el inverso del factor de escala 1/η que recibe el nombre
de rate (tasa).
Valor de la función de densidad: f (x)=dgamma(x,κ,1/η)
Valor de la función de distribución: F (x) = P (X ≤ x)=pgamma(x,κ,1/η)
Cuantil qα = {x : F (x) = α}=qgamma(α,κ,1/η)
Generación de n números aleatorios con distribución exp (λ): rgamma(n,κ,1/η)
La siguiente proposición resulta de interés en las aplicaciones:
Proposición. Sean X1 , X2 , . . . , Xn variables aleatorias independientes y con distribución

exponencial de parámetro η. Entonces ni=1 Xi sigue una distribución gamma G (n, η).
P
4.5. Distribución Normal N (µ, σ)
Definición: Una variable aleatoria X sigue una distribución Normal de parámetros µ (me-
dia) y σ (desviación tı́pica) si su función de densidad de probabilidad es de la forma:
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) , x ∈ R
σ 2π
Nótese que f (x) es una función simétrica respecto a x, esto es f (x) = f (−x). La figura
8 muestra la forma de esta función de densidad, que corresponde a la conocida campana
de Gauss.
En la práctica, la distribución normal aparece asociada a variables aleatorias que se
comportan de tal manera que lo más probable es observar valores en torno a la media;
y que los valores cada vez más alejados de la media, bien sea hacia arriba o hacia abajo,
van siendo progresivamente más difı́ciles de observar. Muchas variables biológicas se
comportan aproximadamente de esta forma: la talla, el peso, la temperatura corporal,
etc. También se comportan de esta manera los errores de medida. La distribución nor-
mal es una de las más frecuentes en la naturaleza, lo que se justifica de manera teorica
por la acción del teorema central del lı́mite, que veremos más adelante. Dicho de una
manera intuitiva, este teorema indica que si una variable es el resultado de la suma
de efectos de muchas otras variables independientes, la variable resultante tiene nece-
sariamente distribución normal. Si se piensa que las variables que hemos citado –peso,
f(x)
Figura 8: Función de densidad de la distribución normal. Está centrada en la media (µ), valor
en torno al cual se concentra la mayor parte de la probabilidad.
talla, errores de medida, ...– son precisamente el efecto de muchas pequeñas causas que
operan independientemente se entiende por qué cabe esperar que su distribución de
probabilidad sea precisamente normal.
La figura 9 muestra la forma de la función de densidad de la distribución normal con media

µ = 0 para varios valores de σ.
Esperanza y varianza: hemos definido la distribución normal precisamente a partir de

sus esperanza y varianza. No obstante se puede comprobar resolviendo las integrales
correspondientes, que tal como se ha definido la función de densidad f (x) se verifica
que:
ˆ ∞
E [X] = xf (x) dx = µ
−∞
var (X) = E X 2 − E [X]2 = σ 2

σ=1
σ=2
σ=3
σ=3
Densidad
−10 −5 0 5 10
Figura 9: Función de densidad de la distribución normal de media µ = 0 para varios valores

de σ.
Distribución normal tipificada: El caso particular de la distribución normal con µ = 0 y

σ = 1 se conoce con el nombre de distribución normal tipificada o estándar N (0, 1). Si
Z ≈ N (0, 1) denotaremos como Φ (z) = P (Z ≤ z).
Una de las dificultades prácticas que presenta la distribución normal es que su función
de densidad no tiene una función primitiva, lo que significa que las probabilidades
ˆ x ˆ x
1 1 u−µ 2
P (X ≤ x) = f (x) dx = √ e− 2 ( σ ) du
−∞ −∞ σ 2π
deben calcularse numéricamente. Si bien R calcula esta probabilidad mediante la función

pnorm(x,µ,σ) (y existen muchos otros programas que lo hacen, ası́ como la mayorı́a de
las calculadoras cientı́ficas), es usual calcularla mediante el uso de tablas. El interés de
la distribución normal tipificada es que es la única cuyas probabilidades se encuentran
tabuladas.
Uso de la tabla de la distribución normal tipificada. Esta tabla sólo proporciona pro-
babilidades de la forma P (Z ≥ z), siendo Z ≈ N (0, 1), correspondientes al área som-
breada en la figura 10. Para aprender a manejar esta tabla, supongamos que queremos
f(x)
P(Z≥z)
0 z
Figura 10: La tabla de la distribución N (0, 1) proporciona, para diversos valores de z, el valor
de P (Z ≥ z), correspondiente al área sombreada.
calcular la probabilidad P (Z ≥ 2,16). Para ello simplemente separamos el número 2,16

en dos partes: una con la parte entera y las décimas (2,1), y otra con las centésimas
(0,06). A continuación vamos a la tabla y buscamos el punto de cruce de la fila etique-
tada como 2,1 y la columna etiquetada como 0,06, donde encontramos el valor 0,01539,
que corresponde a la probabilidad buscada.
Si queremos calcular probabilidades de la forma P (Z ≤ z) simplemente utilizamos que
P (Z ≤ z) = 1 − P (Z ≥ z) y procedemos igual que antes. Si queremos calcular proba-
bilidades para valores negativos de la variable basta tener en cuenta que la distribución
normal es simétrica y por tanto que P (Z ≤ −z) = P (Z ≥ z). Por último la tabla nos
indica que si z ≥ 4 entonces P (Z ≥ z) ∼ = 0.
¿Cómo podemos utilizar esta tabla si queremos calcular probabilidades de una N (µ, σ)
con µ 6= 0 y σ 6= 1? En tal caso aplicarı́amos el siguiente resultado:
X−µ
Proposición: Si X ≈ N (µ, σ) entonces Z = σ
≈ N (0, 1)
El significado de esta proposición es fácil de entender: los valores de Z se obtienen

a partir de los de X por desplazamiento (al restar µ) y cambio de escala (al
dividir por σ). Ninguna de estas transformaciones cambia la forma de la función
de densidad; por tanto Z también debe seguir una distribución normal. Asimismo,
la simple aplicación de las propiedades de la media y la varianza permite ver de
inmediato que E [Z] = σ1 E [X − µ] = σ1 (E [X] − µ) = σ1 (µ − µ) = 0 y var (Z) =
1
σ2
var (X − µ) = σ12 var (X) = σ12 σ 2 = 1.
Para calcular entonces probabilidades de la forma P (X ≥ x) cuando X ≈ N (µ, σ) con

µ 6= 0 y σ 6= 1 bastará con tener en cuenta que

X −µ x−µ x−µ
P (X ≥ x) = P ≥ =P Z≥
σ σ σ
y localizar el último valor directamente en la tabla. Ası́, por ejemplo, si X ≈ N (20, 4),
para calcular P (X ≥ 25) procederı́amos del siguiente modo:

X − 20 25 − 20 5
P (X ≥ 25) = P ≥ =P Z≥ = P (Z ≥ 1,25) = 0,10565
4 4 4
donde hemos encontrado el valor 0,10565 en el cruce de la fila 1,2 con la columna 0,05
de la distribución normal estándar.
Cuantiles de la N (0, 1) utilizando la tabla. Un problema frecuente en la práctica es la

determinación de cuantiles de la distribución N (0, 1). Recordemos que el cuantil α
de una variable aleatoria X es el valor qα tal que P (X ≤ qα ) = α. En el caso de la
distribución normal estándar llamaremos zα al cuantil q1−α ; esto es, zα es el valor tal
que P (Z ≤ zα ) = 1 − α, o lo que es lo mismo, P (Z > zα ) = α.
Para calcular los cuantiles utilizando la tabla habremos de proceder a la inversa que
para el cálculo de probabilidades; por ejemplo, supongamos que deseamos localizar el
valor z0,025 (es decir, el cuantil 0,975). Buscamos el valor 0,025 (o el que más se le
aproxime) en el interior de la tabla; en este caso encontramos el 0,025 en el cruce de la
fila 1,9 con la columna 0,06. Por tanto z0,025 = 1,96.
Cálculo con R :
Valor de la función de densidad: f (x)=dnorm(x,µ,σ)
Valor de la función de distribución: F (x) = P (X ≤ x)=pnorm(x,µ,σ)
Cuantil qα = {x : F (x) = α}=qnorm(α,µ,σ)
Generación de n números aleatorios con distribución N (µ, σ): rnorm(n,µ,σ)
Podemos utilizar R para calcular las probabilidades que hemos visto en los ejemplos anteriores.
En el caso particular de la normal estándar no es preciso especificar µ = 0 y σ = 1. Ası́:
P (Z ≥ 2,16)=1 − P (Z ≤ 2,16) =1-pnorm(2.16)=0.01539
si X ≈ N (20, 4), entonces P (X ≥ 25)=1-pnorm(25,20,4)=0.10565
Asimismo, el cálculo de los cuantiles es muy simple con R :
z0,025 = q1−0,025 = q0,975 =qnorm(0.975)=1.96
Por último presentamos una importante propiedad de la distribución normal, que nos indica
que la suma de variables normales sigue también una distribución normal. Esta propiedad
tiene gran aplicación práctica, ya que muchas veces habrán de calcularse probabilidades de
sumas de variables normales: peso total de los ejemplares de una muestra, ingresos totales de
las sucursales de una empresa durante un dı́a laboral, distancia total recorrida por un animal
durante una migración,...
Propiedad reproductiva de la distribución normal: dadas n variables aleatorias nor-
males e independientes, tales que Xi ≈ N (µi , σi ) , i = 1, . . . , n, su suma ni=1 Xi sigue
P
también una distribución normal, siendo:

 v 
n
X n
X
u n
uX
Xi ≈ N  µi , t σi2 
i=1 i=1 i=1
Como consecuencia de esta propiedad, en el caso particular de que Xi ≈ N (µ, σ) para

i = 1, . . . , n, aplicando las propiedades de la esperanza y la varianza, se tiene que:
n
1X σ
X= Xi ≈ N µ, √
n i=1 n
o, expresado de otra forma,

X −µ
√ ≈ N (0, 1)
σ/ n
4.6. Distribuciones de probabilidad asociadas al muestreo de va-

riables con distribución normal.
En muchas ocasiones nos encontramos con problemas que se refieren a caracterı́sticas globales
de una variable evaluadas sobre una o varias poblaciones. Por ejemplo ¿la concentración
media de cierto contaminante en una zona supera el umbral permitido por la legislación?
¿Es la velocidad media de desplazamiento en los individuos de una especie de delfı́n superior
a la velocidad media en otra especie? ¿Se consigue mayor peso medio en los peces de una
piscifactorı́a cuando se usa una dieta rica en hidratos de carbono o cuando se usa una rica
en proteı́nas? ¿Se observa mayor variabilidad de talla en los machos o en las hembras de una
especie? En estos ejemplos la pregunta a responder tiene que ver con los valores medios o
las varianzas de estas variables en las poblaciones de interés. Ahora bien, en la práctica estos
valores no se conocen, ya que no es posible acceder a todos los sujetos de la población.
Como veremos en el próximo capı́tulo, la única manera de responder a estas cuestiones con-
siste en adquirir información sobre las cantidades de interés a partir de una muestra aleatoria.
Esto nos conduce a la siguiente cuestión: el valor medio de una variable en una población
es único, pero como de una misma población es posible extraer muchas muestras distintas,
habrá tantas medias muestrales como muestras sea posible extraer. Lo mismo puede decirse
de la varianza. Si el problema es comparar dos poblaciones, pueden extraerse muchas mues-
tras distintas de cada una y por tanto son posibles muchos valores distintos de la diferencia
entre las medias muestrales. Como a priori, antes de obtener la muestra (o muestras) es
imposible predecir cuáles van a ser los valores resultantes de la media, la varianza o la dife-
rencia de medias, en su caso, resulta que estas cantidades son variables aleatorias. Y si son
variables aleatorias, debemos preguntarnos cuál es su distribución de probabilidad, ya que es
precisamente mediante el uso de dicha distribución que podremos contestar a las preguntas
planteadas más arriba.
En el caso particular de que la distribución de probabilidad de la variable de interés sea
normal N (µ, σ), se conocen las distribuciones de probabilidad de algunas de las variables
aleatorias que se presentan en el muestreo. Describimos a continuación dichas distribuciones
y posponemos al próximo capı́tulo su aplicación concreta en los problemas de inferencia
ligados al muestreo.
4.6.1. Distribución Chi-cuadrado χ2n
Definición: Una variable aleatoria X sigue una distribución Chi-Cuadrado de Pearson con
n grados de libertad (χ2n ) si su función de densidad de probabilidad es de la forma:
1 n x
f (x) = n n
x 2 −1 e− 2 , x ≥ 0
2 Γ
2
2
Esta distribución es un caso particular de la gamma, concretamente la G n2 , 2 . La im-

portancia práctica de esta distribución deriva de la siguiente propiedad, que constituye

el fundamento de la inferencia sobre la varianza en variables con distribución normal.
Proposición: Si Z1 , . . . . , Zn son n variables aleatorias independientes con distribución

N (0, 1), entonces
X = Z12 + · · · + Zn2
sigue una distribución χ2n .
Esperanza y varianza: si X ≈ χ2n :
µ = E [X] = n
σ 2 = var (X) = 2n
La figura 11 muestra la densidad de la χ2n para varios valores de n.

0.5
n= 2
n= 3
n= 4
n= 8
0.4
0.3
Densidad
0.2
0.1
0.0
0 5 10 15 20
Figura 11: Función de densidad de la distribución χ2n para varios valores de n
Cálculo con R :
Valor de la función de densidad: f (x)=dchisq(x,n)
Valor de la función de distribución: F (x) = P (X ≤ x)=pchisq(x,n)
Cuantil qα = {x : F (x) = α}=qchisq(α,n)
Generación de m números aleatorios con distribución χ2n : rchisq(m,n)
4.6.2. Distribución t de Student tn
Definición: Una variable aleatoria X sigue una distribución t de Student con n grados de
libertad (tn ) si su función de densidad de probabilidad es de la forma:
− n+1
Γ n+1 x2 ( 2 )

2
f (x) = √ 1+ , x≥0
nπΓ n2 n
Por ser una función cuadrática en x, la densidad de la t de Student, al igual que ocurrı́a
con la normal, es simétrica respecto al eje de ordenadas, esto es, f (x) = f (−x). En la
figura 12 se muestra la forma de esta densidad para varios valores de n. Puede apreciarse
la similitud de esta densidad con la normal. De hecho, para valores grandes de n ambas
funciones son prácticamente indistinguibles.
0.4
n= 2
n= 4
n= 10
n= 20
0.3
Densidad
0.2
0.1
0.0
−4 −2 0 2 4
Figura 12: Función de densidad de la distribución t de Student para varios valores de n.
El interés práctico de la distribución t de Student deriva de la siguiente propiedad, que

constituye el fundamento de la inferencia sobre la media en variables con distribución
normal de varianza desconocida.
Proposición: Sean Z ≈ N (0, 1) e Y ≈ χ2n dos variables aleatorias independientes. Enton-

ces:
Z
T =p
Y /n
sigue una distribución t de Student con n grados de libertad.
Esperanza y varianza: Si X ≈ tn :
µ = E [X] = 0 (Si n > 1)


∞ 1<n≤2
2
σ = var (X) =
 n n>2
n−2
Para n = 1 no están definidas la media ni la varianza.
Cálculo con R :
Valor de la función de densidad: f (x)=dt(x,n)
Valor de la función de distribución: F (x) = P (X ≤ x)=pt(x,n)
Cuantil qα = {x : F (x) = α}=qt(α,n)
Generación de m números aleatorios con distribución tn : rt(m,n)
4.6.3. Distribución F de Fisher-Snedecor Fn1 ,n2 .
Definición: Una variable aleatoria X sigue una distribución F de Fisher-Snedecor con n1 y

n2 grados de libertad (Fn1 ,n2 ) si su función de densidad de probabilidad es de la forma:
n1 /2 n1
n1 +n2

−1

Γ n1 x 2
f (x) = n1
2 n2
n1 +n , x≥0
Γ 2
Γ 2
n2
n1 2
2
1+ n2
x
En realidad, conocer la expresión de la función de densidad de la distribución F de

Fisher (al igual que la de la normal, la chi-cuadrado o la t de Student) no nos sirve
para calcular probabilidades directamente, ya que no admite primitiva, por lo deberán
utilizarse métodos numéricos o tablas. El interés de esta distribución reside en su apli-
cación en la inferencia relacionada con la comparación de varianzas de variables con
distribución normal, cuyo fundamento se encuentra en la siguiente propiedad.
Proposición: Sean Y1 ≈ χ2n1 e Y2 ≈ χ2n2 dos variables aleatorias independientes. Entonces:
Y1 /n1
X=
Y2 /n2
sigue una distribución de probabilidad F de Fisher-Snedecor con n1 y n2 grados de

libertad.
De aquı́ se sigue también la siguiente propiedad de la distribución F :
1
X ≈ Fm,n ⇒ ≈ Fn,m
X
Esperanza y varianza: Si X ≈ Fn1 ,n2 :
n2
µ = E [X] = , (si n2 > 2)
n2 − 2
2
2 n2 n1 + n2 − 2
σ = var (X) = 2 , (Si n2 > 4)
n2 − 2 n1 (n2 − 4)
La figura 13 muestra la forma de la función de densidad de la distribución F para varios

valores de n1 y n2 .
Cálculo con R :
Valor de la función de densidad: f (x)=df(x,n1 ,n2 )
Valor de la función de distribución: F (x) = P (X ≤ x)=pf(x,n1 ,n2 )
Cuantil qα = {x : F (x) = α}=qf(α,n1 ,n2 )
Generación de m números aleatorios con distribución Fn1 ,n2 : rf(m,n1 ,n2 )
4.7. Utilización de las tablas de la Chi-Cuadrado, t de Student y

F de Fisher-Snedecor.
Como ya hemos señalado para el caso de la distribución normal, un problema que se presenta
con frecuencia en la práctica es el cálculo de cuantiles de estas distribuciones. Para ello se
n1 = 3 n2 = 2
1.0
n1 = 4 n2 = 6
n1 = 8 n2 = 12
n1 = 10 n2 = 20
n1 = 20 n2 = 30
0.8
0.6
Densidad
0.4
0.2
0.0
0 1 2 3 4 5 6
Figura 13: Función de densidad de la distribución F para varios valores de n1 y n2 .
dispone de tablas de fácil manejo, pero que no incluyen todos los posibles grados de libertad
asociados a estas distribuciones (en algunos casos es preciso interpolar). Resulta recomendable
en este caso utilizar R u otro software para el cálculo de estos cuantiles (algunas calculadoras
lo implementan).
Llamaremos χ2n,α , tn,α y Fn1 ,n2 ,α a los cuantiles q1−α de las respectivas distribuciones con sus
grados de libertad correspondientes. De esta forma:

Si X ≈ χ2n , entonces P X ≥ χ2n,α =α
Si X ≈ tn , entonces P (X ≥ tn,α )=α
Si X ≈ Fn1 ,n2 entonces P (X ≥ Fn1 ,n2 ,α )=α
La figura 14 muestra la posición de estos cuantiles para cada distribución. El área sombreada
es α.
En las tablas de la χ2n y la tn los correspondientes valores de χ2n,α y tn,α se encuentran en el
cruce de la fila n y la columna α. Los valores de α que figuran en la tabla son los de uso
más frecuente. En el caso de la Fn1 ,n2 se dispone de una tabla para α = 0,025 y otra para
α = 0,05 (en muchos libros, sobre todo los más antiguos pueden encontrarse tablas para otros
Distribucion χ2n Distribucion tn de Student
f(x)
f(x)
α
α
χ2n , α tn , α
x x
Distribucion Fn1 , n2 de Fisher

f(x)
Fn1 , n2 , α
Figura 14: Posición de los cuantiles q1−α de las distribuciones Chi-Cuadrado de Pearson, t de
Student y F de Fisher-Snedecor. Estos cuantiles dejan a su derecha un área α (sombreada
en las tres figuras).
valores de α; hoy en dı́a, con la ubicuidad de la informática, tales tablas en realidad resultan
innecesarias). El valor Fn1 ,n2 ,α se localiza simplemente en el cruce de la fila n1 con la columna
n2 . A veces resulta de interés calcular Fn1 ,n2 ,1−α en cuyo caso se puede utilizar la propiedad
siguiente:
1
Fn1 ,n2 ,1−α =
Fn2 ,n1 ,α
Con R estos cuantiles se obtienen directamente como:
χ2n,α =qchisq(1-α,n)
tn,α =qt(1-α,n)
Fn1 ,n2 ,α =qf(1-α,n1 ,n2 )
5. Teorema central del lı́mite.
La propiedad reproductiva de la distribución normal, vista más arriba, nos indica que la suma
de variables aleatorias independientes con distribución normal sigue también una distribución
normal. El teorema central del lı́mite va un poco más allá, estableciendo condiciones bajo las
cuales la suma de variables aleatorias independientes con distribución no necesariamente nor-
mal sigue una distribución normal. Básicamente tales condiciones son dos: que las variables
que se suman tengan todas la misma distribución, y que el número de sumandos sea grande.
Estas condiciones se verifican en muchos casos de aplicación práctica; en particular, se cum-
plen cuando se realiza un muestreo de una variable X con distribución no normal siempre
que el número de observaciones sea suficientemente grande, ya que todas las observaciones
X1 , X2 , . . . , Xn proceden de la misma distribución que X.
Teorema Central del Lı́mite Sea X1 , . . . , Xn una secuencia de variables aleatorias inde-
pendientes y con la misma distribución de probabilidad, siendo E [Xi ] = µ y var (Xi ) =
σ 2 (finita) para i = 1, . . . , n. Entonces, para n → ∞:
Pn
i=1 Xi − nµ
P √ ≤z → Φ (z)
σ n
siendo Φ (z) la función de distribución de la normal tipificada N (0, 1).
Nota: El Teorema Central del Lı́mite, tal como se ha enunciado requiere que todas las variables Xi
sean independientes y tengan la misma distribución. Existen otras versiones de este teorema,
en las que se prueba que, bajo determinadas condiciones1 , si las Xi son independientes aun-
que tengan distribuciones de probabilidad diferentes, su suma también tiene una distribución
aproximadamente normal.
1
Tales condiciones exigen la existencia de determinados momentos de las Xi , y que éstos no
crezcan muy deprisa.
Nótese que:
Pn Pn
E[ i=1 Xi ] = i=1 E [Xi ] = nµ
Pn Pn 2
Pn √
var ( i=1 Xi ) = i=1 var (Xi ) = nσ ⇒ sd ( i=1 X i ) = σ n
Por tanto, la conclusión del del teorema puede enunciarse

Pn
diciendo que a medida que
Xi −nµ
n aumenta, la distribución de la suma tipificada i=1 √
σ n
se va aproximando a la
N (0, 1).
Asimismo, si observamos que:

Pn 1
Pn
i=1 Xi − nµ n
Xi − µ
i=1 X −µ
√ = √ = √
σ n σ/ n σ/ n
el teorema central del lı́mite puede expresarse también como:

X −µ
P √ ≤z → Φ (z) para n → ∞
σ/ n
X−µ
o, dicho de otra forma, la distribución de probabilidad de la media aritmética tipificada σ/√
n
de una secuencia de n variables independientes y con la misma distribución, de media µ y
desviación tı́pica σ, se va aproximando a la distribución normal N (0, 1) a medida que n
aumenta.
En la práctica, el efecto del teorema central del lı́mite puede apreciarse frecuentemente para
valores de n que, si bien son grandes, distan mucho de ∞. En muchas ocasiones,
Pn
con valores de
X i −nµ
n del orden de entre 30 y 60 ya puede asumirse que, aproximadamente, i=1σ√n ≈ N (0, 1)
X−µ Pn √
y σ/√n ≈ N (0, 1), o lo que es lo mismo, que aproximadamente i=1 Xi ≈ N (nµ, σ n) y
√
que X ≈ N (µ, σ/ n).
En la figura 15 puede apreciarse el significado de este teorema. Cada gráfica corresponde al

histograma de 2.000 medias muestrales calculadas sobre muestras de tamaño respectivo 1,
10, 30 y 100 de una distribución exponencial de parámetro η = 100 (recuérdese que en la
distribución exponencial el valor del parámetro coincide con su media). De esta forma cada
histograma representa una aproximación a la función de densidad de la media muestral. La
linea de trazos corresponde a la estimación de dicha densidad a partir de un suavizado del
histograma. La linea roja corresponde a la densidad de una distribución normal cuya media
coincide con la de la variable original.
Tal como se puede ver en los gráficos, cuanto mayor es el tamaño de la muestra sobre la que se
calcula la media, tanto más se asemeja la distribución de la media a la distribución normal.

Asimismo se observa que E X se aproxima a µ = 100 y que a medida que n aumenta,
√
var X disminuye (de acuerdo con var X = σ/ n).
n=1 n=10
0.000 0.002 0.004 0.006 0.008
0.012
0.008
Densidad
Densidad
0.004
0.000
0 50 100 150 200 250 300 0 50 100 150 200 250
x x
n=30 n=100
0.04
0.020
0.03
Densidad
Densidad
0.02
0.010
0.01
0.000
0.00
0 50 100 150 200 250 0 50 100 150 200 250
x x
Figura 15: Ilustración del efecto del Teorema Central del Lı́mite. A medida que aumenta el
tamaño de la muestra (n), la distribución de la media aritmética va asemejándose cada vez
más a la normal.
Aproximación de la distribución binomial por la normal
Ya hemos visto en la sección 3.3 que si X ≈ B (n, p) entonces X = X1 + X2 + · · · + Xn , siendo

las Xi variables de Bernoulli de parámetro p independientes. De acuerdo con el teorema
central del lı́mite se tiene que, cuando n → ∞:
X − np
p ≈ N (0, 1)
np (1 − p)
En general esta aproximación funciona bien cuando np ≥ 5, si bien todavı́a puede mejorarse
si se tiene en cuenta el hecho de que la distribución binomial es discreta y la normal es
continua. En efecto, la distribución binomial sólo asigna probabilidades a los valores enteros
0, 1, 2, . . . , n mientras que la normal asignarı́a probabilidades a todo el rango continuo que
contiene a estos valores. Para conseguir una mayor semejanza entre ambas asignaciones se
considera que cada valor entero k queda representado por el intervalo (k − 0,5, k + 0,5). Este
procedimiento recibe el nombre de corrección por continuidad. De esta forma, la aproximación
de las probabilidades binomiales por el teorema central del lı́mite se llevarı́a a cabo del
siguiente modo:
P (X = k) ∼
=P (k − 0,5 ≤ X ≤ k + 0,5) ∼
=
!
∼ k − 0,5 − np X − np k + 0,5 − np
=P p ≤p ≤ p =
np (1 − p) np (1 − p) np (1 − p)
!
k − 0,5 − np k + 0,5 − np
=P p ≤Z≤ p
np (1 − p) np (1 − p)
!
k − 0,5 − np
P (X ≥ k) ∼
=P (X ≥ k − 0,5) ∼=P Z≥ p
np (1 − p)
!
k + 0,5 − np
P (X > k) ∼
=P (X ≥ k + 0,5) ∼= P Z >≥ p
np (1 − p)
!
k + 0,5 − np
P (X ≤ k) ∼
=P (X ≤ k + 0,5) ∼=P Z≤ p
np (1 − p)
!
k − 0,5 − np
P (X < k) ∼
=P (X ≤ k − 0,5) ∼=P Z≤ p
np (1 − p)
siendo Z ≈ N (0, 1)
Ejemplo: Se dispone de 50 huevos de tortuga; la probabilidad de que un huevo dé lugar a

un macho es 0.30. ¿Cuál es la probabilidad de que en total nazcan más de 16 machos?
Si X es el número de machos, se tiene que X ≈ B (50, 0,3). La probabilidad pedida es

16,5 − 50 · 0,3
P (X > 16) ∼
= P (X ≥ 16,5) ∼
=P Z≥ √ = P (Z ≥ 0,46) = 0,32276
50 · 0,3 · 0,7
(hemos utilizado la tabla de la N (0, 1) para calcular la última probabilidad). Si utili-

zamos R para calcular esta probabilidad de manera exacta, obtenemos:
50 50
X X 50
P (X > 16) = P (X = k) = 0,3k (1 − 0,3)50−k =
k=17 k=17
k
= sum(dbinom(17:50,50,0.3)) = 0,31612
Como vemos el error de aproximación es de algo menos de 7 milésimas (0.00664).

Tema 3

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Tema 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 3

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 3

1. Conocer y saber calcular probabilidades asociadas a las distribuciones discretas nota-

2. Conocer y saber calcular probabilidades asociadas a las distribuciones continuas nota-

3. Entender el significado de los parámetros caracterı́sticos de cada distribución, y como la

5. Conocer las principales distribuciones que surgen en la inferencia estadı́stica asociadas

3. Principales distribuciones de probabilidad discretas.

3.1. Distribución Uniforme Discreta.

Ejemplo: Si X= ”Resultado obtenido al lanzar un dado equilibrado”:

que podemos expresar también como:

Ejemplo: Se realiza el experimento aleatorio consistente en lanzar una moneda equlibrada

La función de probabilidad en este caso es:

Definición: Una variable aleatoria X sigue una distribución Binomial de parámetros n y p

La figura 1 muestra esta función de probabilidad para diversos valores de n y p

(n, p) = (20, 0.2) (n, p) = (20, 0.8)

(n, p) = (20, 0.5) (n, p) = (30, 0.5)

Figura 1: Función de probabilidad de la distribución binomial para diversos valores de n y p.

Esperanza y varianza: Por definición, si X ≈ B(n, p) entonces X = X1 + X2 + · · · + Xk ,

µ = E [X] = E [X1 + X2 + · · · + Xk ] = E [X1 ] + E [X2 ] + · · · + E [Xk ] =

Cálculo con R : El programa R dispone de varias funciones para el cálculo de probabilida-

Calcular el valor de la función de probabilidad: P (X = k)=dbinom(k,n,p)

Calcular el valor de la función de distribución: P (X ≤ k)=pbinom(k,n,p)

Calcular los cuantiles: qα = mı́n {x : F (x) ≥ α}=qbinom(α,n,p)

Generar m números aleatorios con distribución B (n, p): rbinom(m,n,p)

3.4. Distribución Geométrica Geo (p).

Definición: una variable aleatoria X sigue una distribución Geométrica de parámetro p

Figura 2: (a) Probabilidades correspondientes a la distribución B (10, 0,7) (b) Proporciones

Ejemplo: Sea X=”Número de lanzamientos de un dado equilibrado antes de que salga el

Valor de la función de probabilidad: P (X = k)=dgeom(k,p)

Valor de la función de distribución: P (X ≤ k)=pgeom(k,p)

Cuantiles: qα = mı́n {x : F (x) ≥ α}=qgeom(α,p)

Generación de m números aleatorios con distribución Geo (p): rgeom(m,p)

Ejemplo: Para calcular con R la probabilidad buscada en el ejemplo anterior ejecutamos:

3.5. Distribución Hipergeométrica H (n, N, NE )

Valor de la función de probabilidad: P (X = k)=dhyper(k,NE,NF,n)

Valor de la función de distribución: P (X ≤ k)=phyper(k,NE,NF,n)

Cuantiles: qα = mı́n {x : F (x) ≥ α}=qhyper(α,NE,NF,n)

Generación de m números aleatorios con esta distribución: rhyper(m,ME,NF,n)

Para obtener la probabilidad del ejemplo anterior utilizando R emplearı́amos la función:

Aplicación a la estimación de un tamaño poblacional. (Método de captura - re-

de donde se obtiene el valor de N :

Obviamente este valor de N es una aproximación, ya que la premisa de que lo que

3.6. Distribución de Poisson P (λ)

n es un número muy grande (hay muchos cuadros en la malla).

p es un número muy pequeño (entre tantos cuadros, la probabilidad de que haya un

En el ejemplo anterior, el número de nidos de tortuga en una región de superficie S sigue

En general, la distribución de Poisson constituye un modelo de probabilidad adecuado para

Figura 4: Función de Probabilidad de la distribución de Poisson para varios valores de λ. La

Número de llamadas telefónicas recibidas en una centralita a lo largo de un dı́a (los

Esperanza y varianza: Puede probarse que:

Valor de la función de probabilidad: P (X = k)=dpois(k,λ)

Valor de la función de distribución: P (X ≤ k)=ppois(k,λ)

Cuantiles: qα = mı́n {x : F (x) ≥ α}=qpois(α,λ)

Generación de m números aleatorios con distribución P (λ): rpois(m,λ)

Continuación del ejemplo: En el ejemplo anterior, si queremos calcular la probabilidad

Aproximación de la distribución binomial: Hemos obtenido la distribución de Poisson

P (X = 0) = (1 − 0,01)280 = 0,99280 = 0,05996

Aditividad de la distribución de Poisson. Si dos variables aleatorias independientes X1

4. Principales distribuciones de probabilidad continuas.