Capitulo 3

3.
ESTUDIO DE ALGUNAS FUNCIONES DE PROBABILIDAD
Para conocer una población es necesario identificar la función de probabilidad o de

densidad que la gobierna, generalmente por medio de una muestra aleatoria.
3.1 Muestra aleatoria.
Es una parte, un subconjunto de S que lo representa con mucha aproximación. S se

caracteriza por su Esperanza, E y por su varianza 2. Por combinatoria es posible saber
que el número de grupos de n elementos que se pueden formar con m de ellos es
m!
Cmn  o sea que el número de muestras de tamaño n que se pueden formar con
(m  n)!n !
N!
los N elementos de una población será: CNn  . Si cada una de estas muestras
( N  n)!n !
tiene igual probabilidad de ser elegida, el proceso es aleatorio. La aleatoriedad es
importante y vital para que una muestra pueda representar a S, porque parece garantizar
la independencia muestral, aunque las nuevas tendencias estadísticas muestran aún para
muchos datos elementales algún grado de autocorrelación.
3.1.1 Estadístico. Se denomina así a cualquier función de las observaciones de una

muestra, generalmente variables aleatorias (VA) con funciones estadísticas conocidas,
pero cambiantes de muestra a muestra, por ejemplo las medias y varianzas ya vistas:
n
x i n
X  i 1
 X  f ( xi , n); sx2   ( xi  x ) 2 (n  1)  s x2  f ( xi , x , n)
n i 1
3.1.2 Parámetros “estadísticos”. Son los elementos caracterizadores reales del S, casi
nunca se conocen, pero se estiman a partir de los estadísticos. (E y 2 ).
3.1.3 Estimación. Es un valor “particular” de un parámetro estadístico obtenido con una

muestra. X es un estimador puntual de E(x) y s 2 de 2 . Un buen estimador puntual debe
ser insesgado, consistente, suficiente y eficiente como se verá en el capítulo 5.
3.1.4 Distribuciones muestrales. La distribución de probabilidades de una variable

aleatoria o estadística particular se puede determinar si se conoce la distribución
poblacional de donde procede. Para ello es necesario ensayar varias y escoger la que
más se parezca con base en unas pruebas estadísticas sólidas. En general las
distribuciones se caracterizan o tipifican por su función de densidad o por una forma
alternativa de conocerla. Como ciertos momentos. Se verán las más famosas.
3.2 Distribución normal.
Debida a De Moivre, 1793, Gauss (¿??) y Laplace (¿?), tiene como función de densidad:
 1  x 
  x  ;   E  x   media
2
1  
2   
 e 
 
f ( x)  2
   ; e  2.71828...Base de
2
(3.1)
 1  1 x   2  los log aritmos neperianos;   3.1415..
 EXP   ( )  
 2  2   
53
lo cual configura la típica forma de campana Figura 3.1.
Figura 3.1 Forma típica de campana de una distribución normal a) de una variable X,
b) de una variable Z
Para indicar que una variable sigue la distribución normal se usará la notación
X  N (  ,  2 ) . Más que una distribución se trata de una familia de distribuciones ya que
cambian y 2 . Es muy utilizada, aunque con el avance de la estadística ha dado paso a
otras propuestas para las validaciones pertinentes.
3.2.1 Características. Presenta entre otras las siguientes:

1) Es una distribución continua, simétrica alrededor de la media y con dos puntos de
inflexión a  unidades de aquella. Figura 3.1.
2) Debido a la simetría (valores de f(x) iguales a iguales distancias de ), coinciden la
media, la mediana y la moda.
3) Si se le suma una constante k a cada valor de la muestra, la distribución se
desplaza conservando la misma 2, figura 3.2
Figura 3.2. Desplazamiento de una normal sin afectar su forma.
Ejemplo: los datos 5, 7, 6, 3, 2, 8 tienen: X = 5.1666 y s2 = 5.3666; los datos 8, 10, 9, 6,

5, 11: X = 8.1666 y s2 = 5.3666.
4) Cambios en la 2 afectan la forma de la distribución pero conservan su posición,
figura 3.3. A manera intuitiva se puede decir que s1, tiene menor dispersión.
Figura 3.3. Cambios de forma en la distribución normal
5) Debido a 3) y 4) a  se le conoce como parámetro de localización de la curva y

a 2 como parámetro de dispersión o de forma.
6) El área bajo la curva representa una función de distribución de probabilidades
que se representa como F(x), de tal forma que entre dos límites L 1 y L2,
L2
F ( x)  
L1
f ( X ) dx : área entre L1 y L2 en porcentaje. Figura 3.4.
54
Figura 3.4. Área bajo la curva como función de probabilidades.
Por ejemplo sí: L1 = - y L2 =   F(x ) f (x )dx F(x ) 0.68 ó 68%
Sí: L1 = -2 y L2 = 2  F(x) = 95%; y sí: L1 = -3 y L2 = 3  F(x) = 99%.
7) Es difícil resolver F(x), por lo cual se acude a una curva prototipo que ayude a
desentrañar a los demás miembros de la familia.
 z2 
x2
1
En R, se integra 
 x1 2* pi
exp    con la siguiente función
 2
fz<- function(z) {1/sqrt(2*pi)*exp(-z^2/2)}
integrate(fz, lower = -1, upper = 1)

0.6826895 with absolute error < 7.6e-15
integrate(fz, lower = -2, upper = 2)
3.2.2 Propiedades. Tiene entre otras las siguientes resaltables:
1) Si se tiene una X N (  ,  2 ) , las funciones lineales construidas con ella, resultan

normales. Sea y = F(x), por ejemplo: Y  a  bX : E(Y )  E(a  bX )  E(a)  bE( X )  a  b ; y
 2 (Y )   2 (a  bX )  b 2 2 ( X ) ; entonces:
Y  (a  b ; b 2 2 ) (3.2) .
2) Propiedad reproductiva. Si se tiene una serie de variables aleatorias independientes
x1, x1, , xk y cada una de ellas es normal, o sea Xi ( i , i2 ) para i = 1, 2...k; la suma
de ellas también será normal:
 k  k
E ( X 1  X 2  ...  X k )  E   X i    E ( X i )  1  2  ...  k (3.3)
 i 1  i 1
 k
 k
 2 ( X 1  X 2  ...  X k )   2   X i     (2X )   12   22  ...   k2 (3.4)
 i 1 
i
i 1
3) Si se divide una distribución normal por una constante  0, la distribución resultante

sigue siendo normal.
4) Usando las propiedades 2 y 3, sí se tiene una X  (  ,  2 ) y a cada xi se le resta y

cada una de estas (x i ) se divide por entonces,
 x   x  1 2 x  1 2  2 ( x)
E   E     (   )  0 también:       2  ( x   )   2 ( x)  0  1
        
que conduce a la famosa distribución de Z. Tabla 3.1 b). Si X  (  ,  2 ) , las variables z
salidas de ella:
55
Xi  
Z Z  (0, 1) (3.5)

por lo cual se le conoce como la normal estandarizada con función de densidad:
z2
1 ( )
f ( z)  e 2
(3.6)
2
Conocido este miembro de la familia es posible conocer cualquier otro miembro.
Existen muchas tablas que se manejan mirando el encabezamiento que propone cada
autor.
Por ejemplo, se tomaron los siguientes datos consistentes de los pesos en gramos para
unas hojas de laurel.
Tabla 3.1 pesos en gramos de 15 hojas de laurel
peso 30.50 20.10 7.80 27.70 16.70 23.70 16.20 11.10 13.20 17.90 15.30 16.20 15.00 13.40 10.40
Z 2.15 0.49 -1.47 1.70 -0.05 1.07 -0.13 -0.94 -0.61 0.14 -0.27 -0.13 -0.32 -0.58 -1.05
P = 17.033  = 6.2719 2 = 39.337. Se asume que P  17.003, 39.337 y Z (0, 1) .

Ello permite entonces plantear diversos problemas que se resuelven más fácilmente en Z
que en P, por ejemplo:
1) Cuál será la probabilidad de encontrar hojas de laurel cuyos pesos sean menores o
10  17.033
iguales a 10 gramos. Se busca el Z correspondiente Z10    1.121
6.2719
En una tabla el área correspondiente será A = 0.131, o sea p(P10 gm) = 0.131 = 13.11%.
2) Cuál será la probabilidad de encontrar hojas cuyos pesos estén entre 15 y 25 gramos o
15  17.033 25  17.033
sea 15  P  25. Se buscan Z15   0.324139 y Z 25   1.2702 . El área
6.2719 6.2719
buscada da Pr  52.55% (0.8983 – 0.3728).
3) El problema inverso también se puede plantear, conocida un área encontrar los valores
de Z correspondientes. Por ejemplo, suponga que en un supermercado casi siempre se
está quedando un 60% de las hojas debido a su tamaño. Encuentre el peso a partir del
cual se esperaría vender todo el producto. La Z por debajo de la cual se encuentra un
Xi  17.033
área = 0.6 es Z = 0.256  0.256   Xi  18.64 gramos.
6.279
En R. Se tienen las siguientes funciones para operar con la normal.
- Para generar una muestra aleatoria de tamaño n de una población normal de media u y
desviación típica sd (y guardarla en un vector x), sea para n = 10, u(mean)=25, sd = 17:
x <- rnorm(10, mean = 25, sd = 17)#genera 10 números aleatorios

x
[1] 43.0395211 51.9143519 17.4169178 10.4032586 -0.4187149 -8.2137198
[7] -12.3002861 40.8786836 26.2181229 37.0745284
-Probabilidad de distribución acumulada de X conocidos el valor de X, la u y sd, por

ejemplo, porcentaje de valores de X menores o iguales a 9 en la X anterior:
56
pnorm(9, mean = 25, sd = 17)# Función de distribución acumulativa
[1] 0.1733072
percentil 0.x de una variable aleatoria. normal, se obtiene con la función q:

qnorm(0.3, mean = 25, sd = 17)# percentil 30 de la X anterior
[1] 16.08519#el 30% de los datos son menores 16.085
Para z, se usan estas mismas funciones sin parámetros, el R reconoce que

rnorm(10)#entrega 10 valores de z
[1] -0.09749845 0.10895480 1.16831522 -0.57182288 -0.75071745 0.24156895
[7] -0.85438945 0.34396324 0.10216379 0.59192917
qnorm(0.5)#percentil 50 de z, etc.
[1] 0
Por último, construir el histograma y la normal al mismo tiempo se da mediante las

funciones siguientes, para un vector x como el construido
x <- rnorm(100, mean = 25, sd = 7)
hist(x, freq = FALSE) #
curve(dnorm(x, mean = 25, sd = 7), from = 5, to = 50, add = TRUE,col="red")
Histogram of x
0.07
0.06
0.05
0.04
Density
0.03
0.02
0.01
0.00
10 20 30 40 50
La gráfica de solo la función de densidad es obtenida con:

curve(dnorm(x, 25,7),xlim=c(1, 45),col="blue",lwd=2, xlab="x", ylab="f(x)", main= "Función
de Densidad N(25,7)",cex.lab=2)
Función de Densidad N(25,7)
0.05
0.04
0.03
f(x)
0.02
0.01
0.00
0 10 20 30 40
x
probabilidad (X≤ 25) y p(X>=35)
57
pnorm(20,25,7)
1-pnorm(35,25,7)
1-pnorm(35,25,7)
[1] 0.07656373
O, también:
pnorm(35,25,7, lower.tail=FALSE)
[1] 0.07656373
Probabilidad entre dos valores dados, ejemplo 15≤X≤28

pnorm(28,25,7)-pnorm(15,25,7)
[1] 0.5893187
o también:
fxentre<- function(x) dnorm(x,25,7)
integrate(fxentre,15, 28)
Podemos graficar el área anterior con:

regionX=seq(15, 28,0.01) # Intervalo graficado
xp <- c(15, regionX,28) # intervalo de los polígonos a graficar
yp <- c(0, dnorm(regionX, 25,7),0) # altura de los polígonos
curve(dnorm(x,25,7),xlim=c(1,45),yaxs="i",ylim=c(0,0.06),ylab="f(x)",main='Funcion de
densidad N(25,7)')
polygon(xp,yp,col="gray")
box()
Funcion de densidad N(25,7)
0.06
0.05
0.04
0.03
f(x)
0.02
0.01
0.00
0 10 20 30 40
3.2.3 Muestra aleatoria estadística. Estadísticamente hablando, es simplemente aquella

cuyas n observaciones x1, x 2 , , x n son independientes y, la distribución de cada x i es la de
2
la población P(x) con media y varianza .
Figura 3.5. Diversas formas de muestrear un S
58
La única excepción a lo anterior lo constituyen las muestras pequeñas y sin reemplazo. Con
N cosas tomadas de a n se pueden formar A grupos diferentes, de acuerdo con la
combinatoria
 N  N!
 = = A (3.7)
 n  n! (N - n)!
Sí la probabilidad de selección de uno de ellos es 1/A, la muestra es aleatoria, o sea que
cualesquiera de ellos tiene igual oportunidad de ser seleccionado, este supuesto resulta
más importante incluso que el de la normalidad de la muestra. Se dice que se logra cuando
las observaciones se extraen independientemente de una población común. Un espacio
muestral se puede muestrear como lo presenta la Figura 3.5, con base en todos sus
elementos, con una muestra dispersa pero aleatoria de ellos o, con subespacios llamados
parcelas.
La independencia, como sinónimo de aleatoriedad, gráficamente se puede observar
cuando al representar las observaciones en el orden de extracción de la muestra el
diagrama tuviera una forma como Figura 3.6 a, en que los puntos se disponen a uno y otro
lado de la mediana muestral. Cuando se presentan encadenamientos a derecha y a
izquierda (rachas) como en b), e incluso si parecieran prevenir de dos poblaciones, la
muestra deja de ser aleatoria.
Figura 3.6 Secuencias de las observaciones muestrales para ver aleatoriedad: a) Independencia, b)
observaciones correlacionadas, c) observaciones de dos poblaciones
3.2.3.1 Prueba de aleatoriedad. Hipótesis: Ho: Cuando las observaciones son aleatorias
el trazo secuencial de las observaciones cruza la mediana con frecuencia regular, en el
caso contrario con menos frecuencia. Cuando n es impar, la mediana pasaría por una
observación que no es D o I y por lo tanto no se cuenta y se trabaja la muestra par con n-1.
Por ejemplo en b) según estén a izquierda o derecha, se muestran los cruzamientos de la

mediana con barras, formando la secuencia de series DDD / III / DDD / I , definiéndose un
número de series S, como la cantidad de bloques separados, con lo que a mayor
encadenamiento menor número de series. Para n observaciones, cuando la hipótesis nula,
Ho: la muestra es aleatoria, es cierta se asume que S se distribuye como una normal:
 n
 E (S )   1
n n 1   2
S     1;  (3.8)
 2 4  Var ( S )  n(n  2)  (n  1)
 4(n  1) 4
Por otro lado, la hipótesis alternativa también presenta usualmente pocas series o sea
que las observaciones se correlacionan positivamente como en c), lo cual conduce a
calcular probabilidades unilaterales. Por ejemplo con las datos de b), con n = 11, se
tendrá
59
10 (10  1)
E (S )   1  6 Var ( S )   2.25 , al usar la aproximación normal. Dado que se
2 4
formaron 4 series entonces se plantea:
 S  S 46 
Prob(V )  Prob     Prob( Z  1.333)  0.0912 ,
  S 2.25 
o sea una bajísima probabilidad de que esa muestra fuera aleatoria.
3.2.3.1 Otra prueba de aleatoriedad. Existe también la prueba de la diferencia medio

1 n
cuadrática sucesiva, definida como DMCS   ( xi  xi 1 )2 que evalúa diferencias entre
n 1 i 2
observaciones sucesivas mediante la siguiente propuesta, sí Ho: la muestra es
aleatoria, resulta verdadera,
 
 E  DMCS   2 2 
 
 n
2 
 DMCS  ( x i  xi 1 )

llamando : d   i2
 (3.9)
s2 n

 i 1
( x i  x ) 2 

 
 E (d )  2 ; s 2 (d )  n  2 
 n2 
Pequeños valores de d, exigen el rechazo de la aleatoriedad. Ejemplo, supóngase que
la secuencia de las observaciones de b) hubiera sido 20, 22, 19, 16, 17, 15, 17, 21, 20,
22, 17. Entonces al calcular se tuvo:
n
DMCS  (x  xi i 1 )2
77
d  i 2
  1.2794
s2 n
 (x  x ) 2 60.1818
i
i 1
Además sí la muestra hubiera sido normal y la hipótesis nula verdadera

 DMCS  n2 9
E (d )  E    2; Var (d )   0.0744
  
2 2
n 121
Quedaría por interpretar d =1.2794 en término de la distribución de todos los posibles d,
que probabilidad alcanzaría. Entonces se calcula:
 d  d 1.2794  2 
Prob     Prob(Z  2.6422)  0.00411
 d 0.0744 
que propicia idea suficiente de no aleatoriedad.
3.2.3.2 Prueba de aleatoriedad Wald-Wolfowitz. Existe también esta prueba, en

que similar a las anteriores transforma los datos en un vector dicotómico, de
acuerdo con la posición de cada valor por encima o por debajo de una frontera
(por ejemplo, la mediana muestral), para lo cual los valores iguales a ella, son
removidos de la muestra, caso especial cuando n1 = n2. Como alternativas están
las pruebas de dos colas("two.sided"), cola izquierda ("left.sided"), en la cual la Ho
se evalúa contra una tendencia y cola derecha ("right.sided") verificada contra una
correlacion serial de primer orden. La función R, en la library(randtests) es:
runs.test(x, alternative, threshold, pvalue, plot)
60
Ejemplo sea:
x<- c(20, 22, 19, 16, 17, 15, 17, 21, 20, 22, 17)
runs.test(x,plot=T)
Runs Test
data: x
statistic = -1.3416, runs = 4, n1 = 5, n2 = 5, n = 10, p-value = 0.1797
alternative hypothesis: nonrandomness
22
21
20
19
x
18
17
16
15
2 4 6 8 10
El p-value nos remite a la Ho. Otras opciones:

runs.test(x,alternative="left.sided",plot=T)
Runs Test
data: x
statistic = -1.3416, runs = 4, n1 = 5, n2 = 5, n = 10, p-value =
0.08986
alternative hypothesis: trend
runs.test(x,alternative="right.sided",plot=T)
Runs Test
data: x
alternative hypothesis: first-order negative autocorrelation
runs.test(x,alternative="right.sided",pvalue="exact",plot=T)
Runs Test
data: x
> runs.test(x,alternative="right.sided",pvalue="normal",plot=T)
Runs Test
data: x
61
22
21
20
19
x
18
17
16
15
2 4 6 8 10
3.2.4 Suma muestral. Al extraer una muestra aleatoria de una población, considérese la
suma muestral de variables independientes S x1 x2 xn . Esta también será una
variable aleatoria, caracterizada por E(S) y 2(S), que se espera, se conserve de muestra
en muestra.
E(S )  E  x1  x2   xn   E  x1   E  x2    E  xn          n (3.10)
 2 ( S )  Var  x1  x2   xn    2  x1    2  x2     2  xn    2   2    2  n 2  (3.11)
de donde, surge el interesante resultado:
 (S )  n  (3.12)
A partir de lo anterior es posible encontrar la esperanza de la media muestral y su
varianza como si se sacaran muchas medias y se les encontraran sus medias
x1  x2  ... xn , para ver como se distribuyen.
1  1 1
E ( X )  E  ( x1  x2   xn )   E (S )  E ( X )  n   (3.13)
n  n n
1  1 1 2  
Var ( X )  Var  ( x1  x2   xn )   2 Var ( S )  2 n 2    2(X )  x   (3.14)
n  n n n n
1 
Se observa que Var  ( X1  X 2  ...  X n )   Var ( X ) , equivale a una población de medias. A la
n 
desviación estándar de medias se le conoce como error estándar o error promedio de las
medias, que conduce al teorema siguiente, clave de la estadística convencional.
3.2.5 Teorema del límite central. La distribución normal es la más ampliamente usada de
todas las distribuciones, incluso exagerando su importancia por una falsa concepción que
la creía asiento de la mayoría de fenómenos de la naturaleza, pues de acuerdo con la
teoría de los errores se suponía que gobernaba todas las medidas, pero a principios de
1900 se pone en duda la validez de esta asunción. A pesar de lo anterior el papel
desempeñado por este teorema es uno de los grandes resultados estadísticos
matemáticos.
62
El teorema establece que la distribución de la media de n observaciones de x1  x2   xn ,
variables aleatorias independientes, que tienen a f(x) como función de probabilidades de
cualquier distribución o aun, de n distribuciones diferentes con media y varianza finitas se
aproxima a una normal a medida que aumenta el tamaño de la muestra (n ), o dicho
de otra forma de acuerdo con (3.13) y (3.14):
n
X i
 x2  2 
X i 1
 E ( X )   ,  x2  X    , x  (3.15)
n n  n 
Es importante aclarar que cuando se habla de distribución de la media, se está pensando
no en un solo dato, sino en lo que sucedería cuando se pueden repetir muchas veces los
muestreos en condiciones similares. Por ejemplo, si tomamos muestras repetidas de una
población con varianza finita y calculamos sus promedios, el T del LC dice que estos
serán normalmente distribuidos.
Con R es muy fácil su comprensión para lo cual no debemos olvidar que se trata de la
distribución de un estadístico al muestrear. Ejemplo: tomar una muestra aleatoria simple
de n=30, de XN(μ=25,σ=7) y calculamos su media:
n<- 30
mues1=rnorm(n, 25,7)
media1=mean(mues1)
media1
[1] 22.93944
Para facilitar el proceso, usemos la siguiente función que dependa de n:

promuesx=function(n){
mues=rnorm(n, 25, 7)
media=mean(mues)
return(media)
}
Si la usamos varias veces veremos la aparición de diferentes medias

promuesx(25)
[1] 23.79378
promuesx(25)
[1] 23.8446
promuesx(25)
[1] 23.91828
Y para facilitar aun mas el proceso, podemos replicar esto las m veces que deseemos con
la función replicate():
m<-100
muchmedias=replicate(m,promuesx(30))
muchmedias[1:10] #mostrar las primeras 10
[1] 26.78456 25.06934 26.04997 25.95541 23.53476 24.74925 24.34359 23.45803 23.38803
25.42031
Veamos la media y desviación típica de todas estas medias muestrales:
mean(muchmedias)
[1] 25.0082
> sd(muchmedias)
[1] 1.259338
que, coincide casi con

> 7/sqrt(30)
[1] 1.278019
63
Veremos lo obtenido gráficamente, mediante un histograma, y superpuesta la densidad
normal:
hist(muchmedias, xlab="Media muestral", ylab="Frecuencia", col="lightcyan",

xlim=c(21,29), freq=FALSE,ylim=c(0,0.4), main="Histograma de las medias muestrales
replicadas\n 100 veces n(30",cex.main=1.5)
curve(dnorm(x,25,sd(muchmedias)),xlim=c(20,29),col="blue",lwd=2,add=TRUE)
Histograma de las medias muestrales replicadas

100 veces n(30
0.4
0.3
Frecuencia
0.2
0.1
0.0
22 24 26 28
Media muestral
La gran virtud del TdLC es que cualquier distribución de medias es normal. Veámoslo.
Tomemos 5 números uniformemente distribuidos aleatorios entre 0 y 10 y obtengamos
sus promedios. Por ejemplo, el promedio será bajo cuando una muestra fuera como: 3,
2,1, 2,1 y, alto en una como: 8,9,6,8,9. Pero lo más común desde luego es una media
cercana a 5. Vamos a hacerlo 10000 veces y miraremos la distribución de las 10000
medias. (tomar 5 números aleatoriamente 10 veces). Figura 3.7
Figura 3.7 Izqu: Distribución uniforme de 10000 tiradas de 5 números aleatorios,

Centro) histograma de medias, Der: ajuste de la normal de medias
¿Pero qué ocurre con la distribución de la muestra de medias basada en tomar justo 5
números uniformemente distribuidos aleatoriamente? Los datos son rectangularmente
(uniformemente) distribuidos en el intervalo de 0 a 10, o sea se tendría una distribución de
los datos crudos con una forma plana en la cima. Al tomar las medias, aparece un
histograma parecido a una normal, pero solo al montarle una normal el ajuste es
excelente. Casi cualquier distribución, incluso una como la uniforme malamente conducida
produjo esto con las medias.
Otra población no normal: Tiremos un solo dado muchas veces, luego 2, 3 y 5 dados,
Figura 3.8
64
.
Fig 3.8. Comportamiento de la tirada de un solo dado, 2, 3 y cinco de ellos e
histogramas del comportamiento de las medias, donde se observa la tendencia de
comportarse como una distribución normal
Cada uno de los 6 números se comporta como una distribución uniforme, todos
equiprobables izquierda arriba. Luego dos, luego tres y cinco dados, estos últimos dan
media = 17.5937, sd = 3.782198.
Por lo anterior, muy toscamente, se puede intentar una explicación de este teorema así:
sea un S el cual se desea muestrear para tipificarlo (hallarle media y varianza), por medio
de muestras aleatorias (lo que caiga en el subespacio llamado parcela, Figura 3.5 de las
cuales se toman m.). La media de medias y la varianza de medias serán:
m m
 Xi (X  i X )2
 2(X )
i 1
 X   , de donde  ( X i ) 
2 i 1
 .
m m 1 n
El concepto de error estándar cuadrático coincide entonces con una varianza de medias,
cuando n fuera el tamaño de la muestra simple. Como en la vida real, lo que se hace es
tomar una muestra simple, o sea a lo sumo tomar el equivalente de una de tales parcelas
m
repartida en todo el S, con lo cual no podría encontrarse 
i 1
ni sus demás componentes,
la estadística propone para hallar el error estándar o s x la siguiente fórmula a),

s2 s2  n 6
a) sx  o; b) sx  1   ;c) se1  (3.16)
n n N n
salida del teorema del Límite Central: o mejor aún la corregida por las muestras no
tomadas, como la expresión b). Por ejemplo, para verificar si un valor particular del sesgo
es significativamente  0 (lo cual significa no normalidad) para el sesgo se tiene un
estimado aproximado del error estándar como (3.16 c). La función en R para (3.16,a),
sería:
65
se<-function(x) sqrt(var(x)/length(x))
val<-c(2,6,3,1,7,9,9,4)#ejemplo con los valores de este vector val
se(val)
[1] 1.092793
3.2.6 Distribuciones bootstrap (Introdución al Bootstrapping y aleatorización)
3.2.6.1 Bootstrapping. Es un proceso de simulación estadística, basado en los datos

actuales, a los cuales se remuestrea aleatoriamente, con reemplazamiento, miles de
veces para evaluar la verosimilitud de sus resultados. Permite mirar el comportamiento de
una sola o varias variables y sus relaciones, modelos de regresión, etc. Con cada una de
esta muestras aleatorias (replicaciones bootstrap) es posible estimar cuantitativamente la
variabilidad de las muestras, obtener intervalos de confianza (para media y medianas) y
evaluar hipótesis. Al remuestrear con reemplazamiento, asumimos que, las muestras son
representativas del espacio que cada una es como si fuera una nueva muestra.
3.2.6.2 Aleatorización. Es otro método para evaluar verosimilitud de unos resultados,

que, se diferencia del anterior, por el muestreo sin reemplazamiento. Al generar los
mismos datos, en diferente orden, el método se presta principalmente para evaluar la
verosimilitud de diferencias observadas en la base de datos.
Por ejemplo, suponga, unos volúmenes de los troncos de dos grupos de árboles
(coníferas y latifoliadas). Un estudio de aleatorización combina ambos grupos en un solo
gran grupo y obtiene muestras sin reemplazamiento, para generar dos grupos simulados
de coníferas y latifoliadas, lo cual distribuye el número total de volúmenes entre ambos
grupos y de ahí, concluir cuan probables son las diferencias y, si los volúmenes son
mayores en uno u otro de ellos, para unas variables externas similares como la altura o el
dap de los árboles.
Cuando hay dudas sobre la normalidad de la variable, el muestreo bootstrap se vuelve

una alternativa para el cálculo de errores estándar, construcción de intervalos de
confianza y de contrastes de hipótesis. Operan así: Se remuestrea varias veces el
conjunto de datos disponible, luego se calcula un estadístico particular para cada muestra.
Se calcula la desviación estándar de la distribución de ese estadístico, como ya lo hicimos
en la sección anterior, pero ahí teníamos la población a disposición, y podíamos sacar
todas las muestras que necesitásemos de un tamaño prefijado. En el caso del bootstrap,
en lugar de la población, solo se tiene una muestra de la cual tenemos que sacar muchas
muestras, en principio, distintas, utilizando la técnica de remuestreo con reemplazamiento,
para lo cual R dispone de la función sample().
Ejemplo visto en la sección anterior. Partíamos de la mues1 de n=30. Como “sabíamos”

que los datos eran normales, generamos muchas muestras independientes y calculamos
sus etadísticos y vimos las coincidencias. Con una sola muestra, si la población de
procedencia es normal, se puede estimar esta desviación estándar con el error de
medias, sn/√n. El bootstrap nos permitiría obtener esta estimación sin utilizar esta fórmula
(pues sólo es válida si la población es normal).
Para lo anterior sacamos 1000 muestras de tamaño 30 a partir de la muestra original, y

calculamos la media en cada una. Entonces se genera un procedimiento completamente
66
análogo al utilizado antes, excepto que las nuevas muestras no se generan de una X
normal sino por remuestreo con reemplazamiento sobre los valores que tenemos:
mediamuestraBoots=function(muestra){
nuevamues=sample(muestra,30,replace=TRUE)
media=mean(nuevamues)
return(media)
}
muchasmediasBoots=replicate(1000,mediamuestraBoots(mues1))
head(muchasmediasBoots)
[1] 23.01893 22.84584 24.62588 24.90349 23.34772 21.19066
tail(muchasmediasBoots)
[1] 21.39587 21.70608 21.23718 21.17746 23.05391 22.90002
Calculamos la desviación típica de los valores obtenidos:

sd(muchasmediasBoots)
[1] 1.597943
Para finalizar graficamos el histograma de las medias bootstrap, la f(x) aproximada por
este método y la función de densidad exacta que ya vimos antes:
hist(muchasmediasBoots,col="lavender",freq=FALSE,ylim=c(0,0.35))
lines(density(muchasmediasBoots),col="red",lwd=2,lty=2)
curve(dnorm(x,mean(mues1),sd(muchmedias)),xlim=c(15,29),col="blue",lwd=2,add=TRU)
Histogram of muchasmediasBoots
0.35
0.30
0.25
0.20
Density
0.15
0.10
0.05
0.00
18 20 22 24 26 28
muchasmediasBoots
Se observan las cercanías de las curvas en ambos procesos.
3.3 Distribución binomial
Se aplica a un S cuando la variable medida sólo tome uno de 2 valores contrastantes, si

o no, 1 ó 0, vivo o muerto, sano o enfermo, par o impar. Se basa en un proceso
estadístico simple conocido como Experimento de Bernoulli (EB) con las siguientes
propiedades, Figura 3.9 a partir del árbol de resultados:
67
a) Su espacio muestral sólo consta de 2 elementos opuestos S = E, F; (éxito o
fracaso) de tal forma que si la probabilidad de E es hallada, el complemento es la
probabilidad de F.
b) Si se llama p( E)  p; y, p( F )  q  p( F )  1  p  q  p  q  1 y 0  p |1 y similar q.
c) Cuando X ( E)  1; X ( F )  0 la función de probabilidades de X es una binomial
puntual o Bernoulli, representada como nuestra la Figura 3.9 así:
Figura 3.9 a) Función de probabilidades; b) Función de Distribución de

probabilidades de un Experimento Bernoulli.
 X ( B)  0  B  F
en a)  que conduce a la función de distribución de probabilidades.
 X ( B)  1  B  E
3.3.1 Función de distribución de probabilidades en un EB. Como se aprecia en la

Figura 3.7 b):
Tabla 3.2 Experimento Bernoulli
X= 0 1
p(X) q p
que permite encontrar :


 p( X  0)  p (1  p)
0 1 0
 11
(3.17) .
 p( X  1)  p (1  p)

1
De acuerdo con lo anterior se generalizará así una distribución Bernoulli:

 p X (1  p)1 X x  0; 1
P( X  x)   (3.18)
o en otros casos X  0; X  1
Por ejemplo, al examinar 50 semillas, al azar, se encontraron 40 semillas sanas y 10
infestadas. Si se elige una al azar y se denota como éxito estar infestada, es este un EB.
De acuerdo con la anterior:
1 5 1  1 5 si x  0, o , x  1
 x 1 x
10 1
pE    p  X  x  
50 5 
0 en los otros casos
3.3.2 Media y varianza de un EB. Con el concepto de esperanza se llega a:

 x  E ( X )   x p( x)  0 p(0)  1 p(1)  0  p  p 
X  0.1 

 ( X )  E ( X  p)  E  X    E  p   
2 2 2 2
 (3.19)

 x 2 p ( x)  p 2  02 p (0)  12 p(1)  p 2  p  p 2  p (1  p )  pq 
x  0.1 
3.3.3 Experimento binomial. Es el que satisface las siguientes condiciones:
68
1) El proceso consta de n intentos repetidos.
2) Cada intento produce un resultado inequívoco, éxito o fracaso, un EB.
3) La probabilidad de éxito p(E) = p permanece constante de intento a intento.
4) Las repeticiones no influyen los resultados posteriores, o sea que se trata de n
intentos independientes.
Ejemplo (1) Situación en la cual se dan experimentos Bernoulli. Al seleccionar 3 árboles

de un vivero que se clasificarán como sanos (S) y enfermos (E), a cada árbol enfermo se
le considerará un éxito. El número de éxitos será entonces una variable aleatoria X de
enteros de 0 a 3. Figura 3.10. Recuerde: S, nuestro espacio muestral y, que los eventos o
sucesos de S se van en números del campo de los Reales, además enteros de 0 a 3 .
Figura 3.10 Espacio muestral para tres árboles sanos S, enfermos E.
Otro ejemplo (2). Una experiencia anterior en el vivero mostró (experimentalmente con un
muestreo repetitivo) que aproximadamente el 20% de las plántulas se mantenían
enfermas, es decir una p(E) = 0.20. Encontrar la distribución de probabilidades de X. Con
base en S anterior:
p  SSS   0.8*0.8*0.8  0.512 p  SEE   0.8*0.2*0.2  0.032
p  SSE   0.8*0.8*.02  0.128 p  ESE   0.2*0.8*0.2  0.032
p  SES   0.8*0.2*.08  0.128 p  EES   0.2*0.2*0.8  0.032
p  ESS   0.2*0.8*0.8  0.128 p  EEE   0.2*0.2*0.2  0.008
ver Figura 3.11 para la distribución acumulada.
Tabla 3.3 Distribución y, distribución acumulada de frecuencias para el ejemplo (2)
x n p b(x, n, p) ac. b(x, n, p)

0 3 0.20 0.512 0.512
1 3 0.20 0.384 0.896
2 3 0.20 0.096 0.992
3 3 0.20 0.008 1.000
Figura 3.11. Función de distribución y Función de distribución acumulada para el

ejemplo (2)
69
De la Figura 3.11 pueden contestarse preguntas como la probabilidad de x = 1, p(x < 1),
p(X  1), p(X)  2, etc.
3.3.4 Variable Aleatoria Binomial VAB. Por definición: el número x de éxitos, en n

experimentos Bernoulli, recibe el nombre de variable aleatoria binomial. La distribución de
probabilidades (discreta) se llama distribución binomial y se representa usualmente como
b  x : n, p  ya que se caracteriza por el número de intentos y la probabilidad de éxito p en
un intento determinado.
3.3.4.1 Generalización de la fórmula para b  x : n, p  . Para encontrar la probabilidad de

que X = x éxitos en n intentos de un experimento binomial, se va a suponer (por facilidad)
que se dan x éxitos consecutivos y (n - x) fracasos, o sea:
como, estos eventos son independientes, se calcula la probabilidad para este orden dado
así:
p( X  x)  p x (1  p) n  x  p x q n  x (3.20)
El número de eventos posible que presentarían los mismos x éxitos y (n-x) fracasos
 p. p.... p, q.q.q..... p

serían como ejemplo:  p.q..... p, q.q.q. p.q ;
q.q...q, p, p......... p

n
o sea   particiones mutuamente excluyentes, o por diferir en un elemento, por lo
 x
menos, al ser independientes, las combinaciones de n cosas de orden x; sumándolos
todos se llega a la fórmula para la distribución binomial.
3.3.5 Distribución de probabilidades de la binomial. Si un ensayo binomial puede dar

por resultado un éxito con probabilidad p y un fracaso con probabilidad q = 1 - p, para una
variable aleatoria X, la distribución de probabilidades del número de éxitos (x) en n
ensayos será:
n
b( x : n, p)    p x q n  x ; x  0, 1, 2 ... n (3.21)
 x
 3
Para el ejemplo anterior si n = 3, p = 0.20, b(x: 3, 0.2) =   0.20 x  0.803 x ; x = 0, 1, 2, 3,
 x
con lo cual se puede encontrar lo mismo anterior sin necesidad de conocer el S total,
especialmente cuando es de gran tamaño. En síntesis: la distribución binomial es la unión
de cierto número de experimentos Bernoulli, cada uno independiente de los demás, por lo
cual:
E ( x)  E ( x1  x2  ...  xn )  E ( X 1 )  E ( X 2 )  ...  E ( X n )  
 (3.22)
p  p  ...  p (n veces p)  np 
VAR( x)  s ( x1  x2  ...  xh )  s ( x1 )  ...  n veces s ( xn )  
2 2 2

 (3.23)
pq  pq  ...  pq (n veces pq)  npq 

70
3.3.6 Nombre de la distribución binomial. Este como su función acumulativa de
probabilidades surge por la correspondencia de los valores de b(x: n, p), para x = 0, x = 1,
x = 2 ... x = n, con la expansión binomial de Newton (q p)n , que tiene el siguiente
desarrollo:
n n n 
(q  p ) n    p 0 q n    p1q n 1    p 2 q n  2  ...  
0 1  2 
 n  n 1  n  n 0 
  p q    p q  b(0, n, p )  b(1, n, p )   (3.24)
 n  1  n 

b(2, n, p)  ...  b(n  1, n, p )  b(n, n, p )  
n 
x 0
b( x, n, p )  1  100% 

que, opera entonces como la función de distribución acumulada binomial.
Ejemplo (3). La probabilidad de que un árbol se recupere luego de un incendio con el

tiempo, es de 30%. Si se hace un muestreo en una plantación y se encuentran 13 árboles
quemados:
a) Qué probabilidad habrá que máximo 6 de ellos se recuperen;
b) al menos 6 de ellos lo hagan;
c) entre 4 y 8 se recuperen;
d) exactamente 5 se recuperen.
Sea p(E) la recuperación del árbol  p(E) = 0.30, n=13.

6
13  13   13 
a) p( x  6)   b( x, 13, 0.3)    p 0 q13    p1q12  ...    p 6 q 7 .
x 0 0 1 10 
Existen tablas para abordar estas sumatorias, llamadas sumas de probabilidades
r
binomiales  b( x, n, p)
x 0
para p(x = r), lo mismo que funciones en EXCEL, Tabla 3.4 para
facilitar los cálculos.

Tabla 3.4 Solución en EXCEL
x n p b(x, n, p) ac. b(x, n, p) complemento
0 13 0.30 0.0097 0.0097 0.9903
1 13 0.30 0.0540 0.0637 0.9363
2 13 0.30 0.1388 0.2025 0.7975
3 13 0.30 0.2181 0.4206 0.5794
4 13 0.30 0.2337 0.6543 0.3457
5 13 0.30 0.1803 0.8346 0.1654
6 13 0.30 0.1030 0.9376 0.0624
7 13 0.30 0.0442 0.9818 0.0182
8 13 0.30 0.0142 0.9960 0.0040
9 13 0.30 0.0034 0.9993 0.0007
10 13 0.30 0.0006 0.9999 0.0001
6
En este caso usando una de ellas se encuentra:  b( x, n, p)  0.9376
x 0
b) Al menos 6, mínimo 6, se recuperen:
71
13  13  13 
p( x  6)    p 6 q 7    p 7 q 6  ...    p13 .
6 7  13 
Usando la tabla:
5
p( x  6)  1  p( x  6)  1   b( x, 13, 0.3)  1  0.8346  0.1654  16.54%
x 0
c) Entre 4 y 8:
8 8 3
p(4  x  8)   b( x, 13, 0.3)   b( x, 13, 0.3)   b( x, 13,0.3)  0.996  0.4206  0.5754  57.4%
x 4 x 0 x 0
5 4
d) Exactamente 5:  b( x, 13,
x o
0.3)   b( x, 13, 0.3)  0.8346  0.6443  0.19
x 0
3.3.7 Simetría de la distribución binomial. Se ha encontrado que cuando n   y p

0.5  b(x, n, p)  N. Algunos autores proponen que, para fines prácticos si np > 5 o npq
15 se acepta que b(x: n, p)  N. Al aplicar b(x: n, p) con X en el eje horizontal y la
probabilidad en el eje Y con n = 10, p = 0.5, y n = 10 y p = 0.1 se tiene un acercamiento a
la normal cuando p tiende a 0.5 y los grados de libertad son mayores que 5: Figura 3.10.
En casos en que b  N se recomienda para X un ajuste por finitud, que sirve para justificar
el tratar una variable discreta como continua. Para ello se suma o resta 0.5 a X, con lo
cual 1, por ejemplo irá entre 0.5 y 1.5 como se muestra la Figura 3.12. La variable
x x  0.5
normalizada Z  queda mejor expresada como Z  .
 
Figura 3.12. Distribución binomial para n=10 y p=0.1 y 0.5 y ajuste por finitud
Por ejemplo, si se desea la binomial con la condición de dos o más éxitos 

2  0.5  
Z . Si lo que se desea es la binomial para tener menos de dos éxitos, como ello

2  0.5  
incluye al 2  Z  . Estas correcciones evitan cálculos dispendiosos y por fuera

de tablas. ¿Si en el ejemplo (3) se hubieran encontrado 1500 árboles quemados cuál
sería la probabilidad de que se recuperaran a) máximo 625 de ellos, b) entre 200 y 300
inclusive? Para p = 0.3, n = 1.500, q = 0.7; se estima npq = 315. Entonces se puede
acudir a la normal con:  = np = 450; 2 = npq = 315  = 17.75, y hacer las
evaluaciones como Z.
En R existen las mismas funciones vistas para la normal, así: sí X sigue una distribución
binomial b(x, n, p), entonces:
p(X=k): dbinom(k,n,p)
p(X≤k) =pbinom(k,n,p)
qa: min{x:p(X≤x)≥a} =qbinom(a,n,p)
rbinom(m,n,p): genera m valores aleatorios con esta distribución
Ejemplos:
72
dbinom(4,10,0.3)#probabilidad de X=4 éxitos en 10 intentos, (P(X=4))
[1] 0.2001209
pbinom(4,10,0.3)#p(X≤4)
[1] 0.8497317
qbinom(0.8497,10,0.3)#q0.8497=min{x:p(X≤x)≥0.8497},cuantil =.8497
qbinom(0.845,10,0.3)
[1] 4
Podemos obtener simultáneamente varios cuantiles:

qbinom(c(0.05,0.5,0.95),10,0.3)
[1] 1 3 5
Simulación de m valores de esta distribución especificada por n y p:
rbinom(12,10,0.3)
[1] 4 1 4 3 3 4 3 3 2 2 2 2
Podemos representar fácilmente la función de probabilidad de la distribución binomial:
par(mfrow=c(1,2))
x<- 0:8
plot(dbinom(x,10,0.3), type="h",xlab="k",ylab="p(X=k)",main="Función de Probabilidad
b(x,10,0.3)",cex.lab=2)
points(x, dbinom(x, 10,0.3), pch=16)
Función de Probabilidad
Función de distribución b(x,10,0.6)
b(x,10,0.3)
1.0
0.25
0.8
0.20
0.6
0.15
p(X=k)
F(k)
0.4
0.10
0.05
0.2
0.00
0.0
2 4 6 8 0 2 4 6 8 10
k k
Gráfica de la distribución acumulada en R.
plot(stepfun(0:9,pbinom(0:10,10,0.3)),xlab="k",ylab="F(k)",main="Función de distribución
b(x,10,0.6)",cex.lab=1.5, cex.main=1)
points(x, dbinom(x, 10,0.3), pch=16)
3.4 Distribución de proporciones.
Cuando no interesa el número de casos totales sino la proporción de casos favorables en

un total de n observaciones aparece la distribución de proporciones. Es posible mirarla
desde la binomial o como una aproximación a la normal.
x
3.4.1 Distribución de proporciones desde la binomial. Sea Xp 
n
73
x 1 2 n
: Si x  b( x, n, p) y Xp  con Xp  , ... , entonces
n n n n
1 1
E ( Xp)  E ( 1n x)  E ( x)   np  p (3.21)
n n
2 X  1 2 1 pq
 ( Xp)      2  ( X )  2  npq 
2
(3.22) .
 
n n n n
La función de distribución de la variable aleatoria Xp es la misma de la binomial.
Por ejemplo, Una muestra aleatoria de 50 árboles encontró 16 árboles sanos. Encuentre
la probabilidad y la varianza de encontrar arboles sanos en una muestra de 5 árboles.
16 0.32  0.68
Xp 0.32 ; q = 0.68 ; n = 5,   
50 5
x
3.4.2 Aproximación a la normal de la Xp  . La distribución de proporciones desde el
n
teorema del límite central permite ver que:
pq
E ( Xp)  p :  2 ( Xp)  . Si n es grande Xp  , entonces:
n
Xp  p  a p bn 
Z  p(a  Xp  b)  p  Z  (3.23)
pq n  pq n pq n 
En estos casos también debe aplicarse la corrección por finitud para discretizar la
variable. La corrección para continuidad se aplica sí:
 0.5 0.5 
a  n  p b
n
 p
p(a  Xp  b)  p  Z  (3.24)
 pq n pq n 
 
Por ejemplo. El porcentaje de recuperación de ciertos árboles después de un incendio es
del 60%. Al tomar una muestra aleatoria de 300 árboles, qué probabilidad habrá de que el
porcentaje de recuperación sea del 65% o más?
p = 0.60 ; q = 0.40 ; n = 300  npq>15. Entonces
pq
p(Xp 0.65) 1 p(Xp 0.65) ; y  x2  x  pq n  0.0283 ,
n
por tanto
p( Xp  0.65)  p(Z  Z a ) ; si
0.5
0.65   0.60
Za  300  1.707 ; p(Z  Za)  0.0436; p  4.36% ,
0.0283
3.5 Experimento multinomial y Distribución hipergeometrica.
Cuando el espacio muestral tiene más de dos resultados posibles, en vez de

experimentos Bernoulli, aparece el concepto de distribución multinomial. En general si un
ensayo puede originar uno de los k resultados posibles E1, E2,…., Ek, con probabilidades
respectivamente p1, p2, …, pk, esta distribución dará la probabilidad que E1 ocurra x1
veces, E2 ocurra x2 veces, etc., en n ensayos independientes, cuando x1 + x2 +…+ xk = n,
como muestra el árbol de resultados de la Figura 3.13.
74
Figura 3.13 Arbol de resultados para un experimento multinomial
La notación para esta distribución será parecida a la usada para la binomial:

f  x1 , x2 ,..., xk ; n; p1, p2 ,..., pk  (3.25) .
Similar al proceso mostrado para la binomial se llegaría a la formula general, dado que
cualquier orden que proporcione x1 para E1, x2 para E2,…, xk para Ek, ocurrirá con
probabilidades p1x1 , p2 x2 ,...., pk xk , por lo cual el número total de órdenes que proporcionan
resultados similares en n intentos, es igual al número de particiones de n en k grupos, con
x1 en el primer grupo x2 en el segundo,…, xk , lo que equivale a:
 n  n!
  (3.26)
 x1 , x2 ,..., xk  x1 ! x2 !... xk !
formas. Como las particiones son mutuamente excluyentes y ocurren con igual
probabilidad, aparece la distribución multinomial al multiplicar la probabilidad para un
orden especificado por el número total de particiones
 n  x1 x2
f ( x1 , x2 ,..., xk ; n; p1 , p2 ,..., pk )    p1 p2 .... pk
xk
(3.27)
 x1 , x2 ,..., xk 
Toma su nombre del hecho que los términos de la expansión multinomial de
( p1  p2  ...  pk ) n , similar a lo visto en la binomial, corresponden a todos los valores
posibles de (3.27).
Ejemplo (1): Si dos dados se tiran 6 veces, ¿Cuál es la probabilidad de lograr 11 o 7

puntos dos veces, un doble dos veces y, cualquier otra combinación 3 veces? Entonces el
primer paso es definir los sucesos:
E1: la suma de puntos al tirar los dados es 7 u 11. Ya sabe como calcular estas
probabilidades: P(7)=6/36, p(11)=2/36, por tanto P(7U11)= 6/36 +2/36=8/36=2/9
E2: Al tirar los dados se obtienen cenas (un doble). Ocurren 6 casos de 36, entonces la
probabilidad de un doble es 1/6.
E3: la suma de puntos al tirar los dados no es 7 u 11 ni un doble, cuya probabilidad será
36/36 - 8/36-6/36 = 11/18. Los valores anteriores son constantes de ensayo a ensayo
entonces, reemplazando en la fórmula:
2 1 11  6   2   1   11 
2 1 3 2 1 3
6!  2   1   11 
f (2,1,3;6; , , )                 0.1127
9 6 18  2,1,3   9   6   18  2!1!3!  9   6   18 
Ejemplo (2): Una caja contiene 5 libros de historia (H), 4 de matemáticas (M) y 3 de
literatura (L). Si se extrae un libro al azar, se identifica y se regresa a la caja, hallar la
probabilidad que, de 6 libros extraídos en la forma presentada, 3 sean de H, 2 de M y, 1
75
de L. Lo primero buscar las probabilidades de cada uno: p(H) = 5/12, p(M) = 4/12 y; p(L) =
3/12
5 4 3   6  5 
3 2 1 3 2 1
 4 3 6!  5  4  3 625
f  3, 2,1;6; , ,                 
 12 12 12   3, 2,1  12   12   12  3! 2!1!  12   12   12  5184
o sea 12.06%
En R
multi<-function(x1, x2, x3, p1, p2, p3) {
+ (factorial(x1+x2+x3)/(factorial(x1)*factorial(x2)*factorial(x3))*p1^x1*p2^x2*p3^x3)
+ }
ejemplo
multi(4,5,2,0.5,0.25,0.25)
[1] 0.02643585
3.5.1 Distribución hipergeométrica. En esta la variable también es aleatoria y

contrastante como en la binomial, pero se aplica solo a poblaciones finitas y en muestreos
sin reemplazamiento. Su función de probabilidad se puede expresar como:
Np ! Nq !
x !( N p  x)! (n  x)!( N q  n  x )!
f ( x)  (3.28)
N!
n !( N  n)!
en la cual N p , N q son los números de elementos con probabilidades p y q
respectivamente, N número de elementos totales y n número de elementos de una
muestra extraída de los N iniciales.
Por ejemplo: en un lote de 50 plántulas se sabe que 8 no son de la misma especie. ¿Si se
han elegido 5 plántulas del lote, cual es la probabilidad que al menos una de ellas sea de
la especie de los 42 restantes? Se puede calcular entonces la probabilidad que ninguna
de las extraídas lo sea, es decir
42! 8!
5!(42  5)! (5  5)!(8  5  5)!
50!
8!(30  8)!
Busca encontrar la probabilidad de seleccionar x éxitos entre k ítems previamente
denominados como éxitos y n-x fracasos entre los N-k ítems denominados fracasos,
cuando se selecciona una muestra aleatoria de tamaño n entre N ítems. A lo anterior se le
conoce como experimento hipergeométrico, caracterizado por las propiedades siguientes:
1- Una muestra aleatoria de tamaño n es seleccionada de un espacio muestral con N
ítems y,
2- De los N ítems, k se consideran como éxitos y N-k, como fracasos.
3- Al número x de éxitos en un experimento hipergeométrico, se le llama variable

aleatoria hipergeometrica y su distribución se notará por
h( x; N , n, k ); o h( x; n, k , N ) , esta última del EXCEL
76
Otro ejemplo: Ejemplo: Sea una muestra de N=250 bombillos (50 azules, 150 blancos y,
50 amarillos). ¿Si se extrae una muestra de 30 bombillos (n), aleatoriamente, cuál será la
probabilidad de encontrar 5 bombillos azules? Los Éxito son entonces bombillos azules.
m <- 50; n <- 200; k <- 30
x <- 0:(k+1)
x
[1] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
29 30 31
dhyper(x, m, n, k)
[1] 7.676969e-04 6.734183e-03 2.781766e-02 7.203648e-02 1.313424e-01 1.795263e-01
1.912567e-01 1.630081e-01 1.132128e-01 6.493397e-02 3.106008e-02
[12] 1.248019e-02 4.234351e-03 1.217443e-03 2.972715e-04 6.170393e-05 1.088527e-05
1.629880e-06 2.066249e-07 2.209522e-08 1.982756e-09 1.482988e-10
[23] 9.163352e-12 4.623994e-13 1.877008e-14 6.006425e-16 1.473319e-17 2.659120e-19
3.309510e-21 2.523279e-23 8.831478e-26 0.000000e+00
x <- 0:5
dhyper(x, m, n, k)
[1] 0.0007676969 0.0067341834 0.02
3.5.1.1 Definición: La distribución de probabilidades de una variable aleatoria

hipergeométrica X que, mide el numero x de éxitos en una muestra aleatoria de tamaño n,
seleccionada de N ítems de los cuales k se consideran éxitos y N-x fracasos, es:
 k  N  k 
  
 x  n  x 
h( x; N , n, k )  , x  0, 1, 2, , n. (3.29)
N
 
n 
3.5.1.2 Media y varianza de la distribución hipergeometrica. Acudiendo al concepto de
esperanza:
 k  N  k 
  
x n  x  nk
E ( X )   x * h( x; N , n, k )   x  
n n
 (3.30)
x 0 x 0 N N
 
n 
N n k  k 
 2(X )  n 1   (3.31)
N 1 N  N 
Ejemplo (2). Una junta de acción comunal (JAC), de 5 miembros, selecciona al azar entre
3 personas de una vereda (V1) y 5 de otra (V2). Mostar la distribución para el número de
miembros de V1 en JAC. Sea X número de miembros de la V1 en la junta, entonces:
 3  5   3  5 
     
p( X  0)  h  0;8,5,3   0  5  1
  0.0179; p( X  1)  h 1;8,5,3      
1 4 15
 0.2679
8 56 8 56
   
 5  5
77
 3  5   3  5 
     
p( X  2)  h  2;8,5,3      p( X  3)  h  3;8,5,3      
2 3 30 3 2 10
 0.5357;  0.1786
8 56 8 56
   
 5  5
 3  5 
  
 x  5  x 
y, en general puede verse para este problema que: p ( X  x)  h( x;8,5,3) 
8
 
5
En EXCEL sería como lo muestra la Tabla 3.5
Tabla 3.5 Corrida de una distribución Hipergeometrica en EXCEL
N n x k h(x,n,k,N)
8 5 0 3 0.0179
8 5 1 3 0.2679
8 5 2 3 0.5357
8 5 3 3 0.1786
Ejemplo (3). En un vivero, se empacan 50 plántulas por caja, las cuales son aceptadas
por un reforestador si no salen más de 2 muertas/caja. El reforestador adopta como
procedimiento para muestrearlas, seleccionar 5 plántulas al azar y rechazar la caja si una
sale muerta. Cuál es la probabilidad de encontrar exactamente una plántula defectuosa en
la caja, si se esperan 2 muertas/caja.
Para este problema, empleando la distribución hipergeométrica: N=50, n=5, k=2 y x=1:
 2  48   2  48 
     
 1  5  1 1  4 
p( X  1)  h(1;50,5, 2)    0.184
 50   50 
   
5 5
Lo anterior, nuevamente se resuelve fácilmente en EXCEL
N n x k prob
50 5 0 2 0,808
50 5 1 2 0,184
50 5 2 2 0,008
La media y varianza, para calcular entonces los límites de confianza para la media serán:
nk 5* 2 N n k  k  50  5 2  2 
E( X )    0.2;  2 ( X )  n 1    5 1    0.17633
N 50 N  1 N  N  50  1 50  50 
En R: x, q, vector de cuantiles que representan el número de objetos diferentes a otro
salidos sin reemplazamiento desde un S que contiene los dos objetos contrastantes (E y
F).
78
m = número de objetos (éxitos) en el S.
n = el número de Fracasos en S.
k = número de objetos extraídos.
p = probabilidad.
nn = numero de observaciones. Si length(nn) > 1, debe ser el numero requerido.
m <- 10; n <- 7; k <- 8
3.6 Distribución 2.
Debida a Helmert desde 1876, juega un papel importante en muchos métodos

estadísticos, y no es más que un caso particular de la Función gamma. Por definición si
Z1, Z2, ... Zn son variables aleatorias independientes, Z i  N(0, 1), se define a la χ 2 como
una sumatorias de Z al cuadrado:  2  Z12  Z 22   Z n2 con n grados de libertad y con una
función de densidad dada por:
1 n 
1 
x 2
f (x )  n 2
2
( x2 ) 2 e 2
2   n2 
n2 x 
2) f ( x)  kn x 2 e 2 x  0*
 (3.32)


3) f ( x)  0 cada que x  0 
*Es mucho más fácil trabajar con 2) de (3.25), conociendo kn. La Figura 3.14 muestra la
densidad de la distribución para varios valores de n (grados de libertad).
Figura 3.14. Distribución 2 para varios grados de libertad. Evolución a la normal

Para n = 1 y n = 2 la curva es decreciente, cuando n > 2 siempre presentará su valor
máximo en x = n - 2. Con el aumento de sus grados de libertad aumenta su simetría, su
media y su varianza y cuando n es muy grande x2  N.
3.6.1 Función de distribución de probabilidades de la 2. Se obtiene como está

definida, por el área bajo f(x). Es difícil de obtener por involucrar funciones gamma, por lo
cual es necesario ejecutar transformaciones como n = 2 y = x para llegar a:
x
F ( x)  kn   ( n  2) 2 e   2 d  (3.33)
0
79
La constante Kn se debe elegir de tal forma que cuando X = , F() = 1, lo cual es
1
posible con kn 
2n 2   n 2 
3.6.2. Propiedades. Los estadísticos de la chi cuadrada son:

1) La media de  2  E (  2 )  n   2) La varianza  2 (  2 )  2n  2 .
Debido a la dificultad para calcular F(x), se usan tablas de ella, configuradas para
diferentes niveles de probabilidad  y para n grados de libertad o se acude a los
programas estadísticos actuales como el EXCEL que ya las traen incorporadas. A manera
de ejemplo se presenta un modelo de ellas, que evalúan p  x 2   2 (n)    , es decir que
2
n es el valor de la variable aleatoria 2 con n grados de libertad de modo que el área
bajo la curva a su lado derecho valga , como se aprecia en la Figura 3.15.
2
Tabla 3.6. Tabla de Probabilidades para una a manera de ejemplo.
PROBABILIDAD  = p(x2  x (n)) 

n 0.001 0.005 0.010 0.025 0.050 0.950 0.975 0.990 etc.
1 10.830 7.880 6.640 5.020 3.840 0.039 0.001 0.000
2 13.820 10.600 9.210 7.377 5.992 0.102 0.051 0.020
. . . . .
. . . . .
. . . . .
. . . . .
15 37.697 32.800 30.578 27.488 24.996 7.261 6.262 5.229
Por ejemplo, encontrar el valor de 2 a partir del cual la probabilidad de un mayor valor
sea 0.05 con 15 grados de libertad. Se busca en la tabla bajo el encabezado  = 0.05 y se
cruza con n = 15, entonces p   (15)
2
 24.996   0.05 . Esto en el EXCEL se obtiene en
funciones como PRUEBA.CHI.INVERSO, tabla 3.7, izquierda, asi:
Tabla 3.7 valores de probabilidades en inversos para una chi cuadrada en EXCEL
alfa gl chiinversa chicalc gl prob

0.05 1 3.84 3.84 1 0.05
0.05 2 5.99 5.99 2 0.05
0.05 5 11.07 11.07 5 0.05
0.05 10 18.31 18.31 10 0.05
0.05 15 25.00 24.99 15 0.05
El valor buscado es  (15)

2
= 24.996. De acuerdo con esta tabla, esto se comporta como lo
presentado en la Figura 3.15.
80
Figura3.15 Distribución chi cuadrado para 15 grados de libertad
También se puede encontrar el área conocido un valor de 2 . Por ejemplo, encontrar con
10 grados de libertad la probabilidad de que 2 10  3.94 . En la tabla respectiva se
encuentra que   0.05 , o sea p(  2  3.94)  0.05 .
2) Es una distribución asimétrica con valores de 2  0.
3) Si dos variables independientes G1   n2 gl y G2   n2 1 2 gl  su suma también es una
 , o sea (G1 + G2)  
2 2
( n1  n2 ) gl
4) Una de las más importantes y necesarias para muchas demostraciones

estadísticas en diversos contextos es esta: si se extrae una muestra de una
población normal (de tamaño n) y se estima su varianza, entonces la relación
(n  1) s 2
se comporta como una 2 con n -1 gl. Esta propiedad es importante para
2
futuros métodos estadísticos y clave para el entendimiento del análisis de
varianza.
5) Es un caso especial de la función gamma, definida como:
   ( 1)   x
 x e ,   0,   0,   0
f ( x; ,  )   ( ) (3.34)
0 en otros casos

cuando   1 2 y es un múltiplo de 1 2 y, la función gamma se define como:

( )   x ( 1) e x dx (3.35)
o
para la cual existen tablas.
3.6.3 Algunas aplicaciones de la 2.
3.6.3.1 Pruebas de concordancia, Contraste de Pearson. Se basan en un ajuste de

principios del siglo pasado que compara las frecuencias observadas en un histograma o
un diagrama de barras con las estimadas por un modelo teórico como contraste, en
cualquier tipo de distribuciones continuas o discretas. Se usan para verificar el
comportamiento de un modelo frente a la realidad, que debe validarse frente a unos datos
dados. Si al usarlo se comporta como ella, entonces el modelo se acepta. Para ello se
plantea la siguiente prueba:
n
(oi  ei ) 2
i 1 ei
2 ,( n 1) gl (3.36)
en que oi = iésima observación tomada en la realidad, ei = estimación iésima modelada,

que espera reproducir la anterior. Esto se plantea estadísticamente diciendo que: Ho:
datos observados = datos estimados; H a: datos observados  datos estimados, como se
81
aclarará al estudiar las hipótesis en detalle. En general la propuesta como H o se da en la
parte blanca de la figura 3.12. si los valores encontrados en la validación del modelo están
entre 0 y 2 , como en la mayoría de pruebas estadísticas convencionales.
Ejemplo, en unas parcelas de eucalipto recién sembradas y menores de un año se

encontró un ataque de insectos aparentemente dependiente de la altura de las plántulas,
cuyo número se estableció según el siguiente modelo: N ins 16 2h en que N = número
de insectos, h = altura alcanzada por el eucalipto. Para validar ese modelo se hizo un
conteo directo en unas parcelas al azar con los resultados de la Tabla 3.8.
Tabla 3.8 Datos de # de insectos contra altura de plántulas de eucalipto
Alturas h 0.9 1.2 1.5 1.0 1.2 1.8
Observados noi 21 17 20 19 18 20
Estimados nei 17.8 18.4 19.0 18.0 18.4 19.6
Para verificar si el modelo es confiable al 95% de probabilidades, se busca entonces:

6
(oi  ei ) 2 (21  17.8) 2 (20  19.6) 2

i 1 ei

17.8
 ... 
19.6
 0.7512
y el correspondiente valor en la tabla la 0,05,5

2
 11.07 . No existe entonces evidencia para
decir que el modelo no funciona o, de otra forma el valor 0.7512 está dentro de la parte
blanca debajo de la curva y se comporta como una 2 .
Ejemplo (2). En una producción de quesos, se encuentra, a los días de producidos, un

ataque de un hongo en una proporción de 4 a 1 (de sanos a enfermos). Con una muestra
aleatoria de 150 quesos, se encontraron 26 de ellos atacados por el hongo, tabla 3.9.
Verificar si la hipótesis planteada (4:1) es cierta
Tabla 3.9 Presencia de hongos vs días de fabricación
Quesos No atacados Atacados

Valores observados 114 36
* Valores esperados 120 30
Los valores esperados se obtienen con una simple proporción: si por 5 quesos hay 4 sin
ataque por 150 cuántos se esperarán?, o sea:
5 150 (120  114)2 (36  30)2
  x  120;  x2    1.2605 . En la tabla 12gl  3.841 dado que
4 x 120 30
2 2
calc . tab .
Ho : la proporción encontrada es correcta.
3.6.3.2 Corrección por continuidad de una prueba 2. Los valores obtenidos para las
pruebas de concordancia, pertenecen a una distribución discreta o discontinua, en que se
pueden tomar apenas ciertos valores. En el caso de los quesos, por ejemplo las
observaciones, o1 = 114, o2 = 36, e1 = 120, e2 = 30. Si se hubieran observado por ejemplo
113 y 37, la 2 hubiera sido: (113 - 120)2/120 + (37 - 30)2/30 = 2.0417, para 112 y 38, la
82
2= 2.6667, y así para el resto, estos obviamente forman una distribución discreta, para
valores entre 1.2605 y 2.6667. Sin embargo las tablas son para distribuciones continuas,
para unos grados de libertad dados, es decir todos los valores en el rango anotado son
posibles, con lo cual sin darnos cuenta se altera el nivel  al cual se trabaja. Esta
situación es especialmente desafortunada para 1 g.l., en cuyo caso se recomienda la
transformación de Yates para continuidad, en forma similar a lo visto para proporciones:
 o e  0.5
2
2
 
2 i i
(3.37) .
i 1 ei
En el ejemplo entonces:  2   120  114  0.5 120   36  30  0.5 30  1.2604 , en el primer
2 2
caso, que parece innecesaria, pero evaluada en el segundo caso con 113 y 37 hubiera
dado 1.7604, con lo cual hubiera cambiado . Cuando los grados de libertad = 1 se debe
acudir rutinariamente a esta corrección, pero no es aplicable para gl > 1.
3.6.3.3 Otro criterio para los grados de libertad de 2 . La H 0 de que unos datos de X
provienen de un modelo dado tiene dos variantes, la primera especifica completamente la
distribución por ejemplo X (7, 3) , la segunda solo especifica la forma, por ejemplo
X (?,?) .
El contraste de Pearson se maneja mejor agrupando los datos en k 5 clases, de

manera que cubran todo el rango de los datos sin ubicaciones ambiguas de ellos en las
clases, incluso acudiendo a intervalos abiertos y, deseable, con el mismo número de
datos por clase si es posible. Ya que la frecuencia esperada por clase es fi npi cuando
p i es la probabilidad que el modelo le asigna a la clase, por esta razón la prueba no
contrasta un modelo en particular si no alguno que atribuya probabilidades iguales a los
intervalos supuestos construidos. Por ello k debe ser lo más grande posible k 5 . Si el
modelo está completamente especificado los grados de libertad son k -1. Si se estiman r
parámetros entonces se acude a k – r - 1 grados de libertad.
Un inconveniente de esta prueba es que al tomar las diferencias entre estimados y

observados al cuadrado se pierden las pautas de variación sistemática, pues todas se
vuelven positivas.
3.6.4 Tablas de contingencia. Contingente es algo que puede o no suceder, también

independencia, o algo que depende de un evento incierto, de modo que una de estas
tablas muestra la posible forma como dos o más características dependen entre sí. En
este caso se habla de la 2 como una prueba de independencia. En estadística se usa de
acuerdo con criterios de clasificación por múltiples circunstancias. El problema que se
devela con ellas consiste en decidir si las características que llevan a una determinada
clasificación son independientes de otra, o si por el contrario tienen relación.
Estadísticamente auscultan si la distribución de una característica debe ser la misma o
conservarse independientemente de sí se le asocia a otra, cuando se puedan tener sus
frecuencias respectivas. Ejemplo, El Hábito de fumar e incidencias de cáncer por ejemplo,
pueden propiciar clasificaciones como fumadores y no fumadores, sanos y enfermos de
cáncer, como se resume en una tabla 2 x 2, el caso más simple para el estudio de esta
asociación Tabla 3.10 así:
83
Tabla 3.10 Clasificación de una muestra de personas por hábito de fumar y
propensión al cáncer
FUMADORES
ENFERMOS SI NO TOTAL
NO A B A+B
CANCER
SI C D C+D
TOTAL A+C B+D A+B+C+D
A B A
Si las clasificaciones fueran independientes  , etc, como en un caso
A B C  D AC
típico de proporciones en áreas de paralelogramos construidos con sus respectivos
valores superficiales. Acá se prueba la Ho: las clasificaciones son independientes, Ha: las
clasificaciones dependen la una de la otra.
3.6.4.1 Tablas de contingencia 2x2. En forma genérica se presentan así para variables
contrastantes como en el caso anterior Tabla 3.11, X1 = Variable con característica, NX1 =
Variables sin la característica anterior, lo mismo para X2, a, presencias de ambas
características, b presencia de X2 pero no de X1, d ausencia de ambas. La expresión para
la 2 se obtiene como:
n
n( ad  bc  )2
n(ad  bc)2 2
 
2
;o  
2
(3.38)
(a  c)(b  d )(c  d )(a  b) (a  c)(b  d )(c  d )(a  b)
Tabla 3.11 Tabla de contingencia 2x2

Característica 1
X1 No X1 TOTALES
X2 a b a+b
Característica 2
No X2 c d c+d
TOTALES a+c b+d n=a+b+c+d
Por ejemplo, probar si la presencia de flores blancas se asocia con hojas simples en
determinadas especies cuyos datos se dan en la Tabla 3.12
Tabla 3.12. Datos de presencias ausencias de hojas simples, flores blancas

Hojas simples
Flores blancas si no TOTAL
si 5 16 21
no 8 2 10
TOTAL 13 18 31
31(5 x 2  8 x16) 2
En ese caso  2   8.78 . Para   0, 05;  cal
2
 3.841 , entonces es dable
(13)(18)(10)(21)
pensar una asociación entre el tipo de hojas y flores blancas en esas especies.
84
3.6.4.2 Corrección de Yates para n reducido. Para n pequeño la corrección de Yates
por una usar una variable como continua para variables discretas, se plantea como la
ecuación derecha (3.38). Esta prueba según otros autores es aplicable solo cuando n>20.
3.6.4.3 Prueba de Fisher o Freeman-Halton. La prueba exacta para tabla 2x2 bajo la
asunción de independencia se basa en la distribución hipergeométrica al fijar las
frecuencias marginales tanto para filas como columnas. La probabilidad fija de ocurrencia
de los eventos a, b, c, d de la tabla 3.12 se propone por Fisher como:
(a  c)!(b  d )!(c  d )!(a  b)!
p (3.39)
a !b !c !d !n !
cuyo valor es 0.00444 o sea permite rechazar H 0 coincidiendo con la prueba anterior.
También se permiten comparaciones de una cola o unilaterales con base H 1 : p1 p2 o su
opuesta, constatando hacia donde va la dirección de ella. Por ejemplo en los datos de la
5 8
tabla 3.8 se obtiene H 1 : p1 p2 ya que p1 0.238 p2 .08 . Los datos entonces
21 10
parecen sugerir que las especies con flores de colores tienen más relación con el tipo de
hojas simples. Pero para probarlo se acude a las tablas más extremas que las observadas
que se logran restando 1 a la frecuencia menor observada y ajustar los demás datos para
que no varíen los totales fila y columna originales Tabla 3.13. Bastaría con calcular las
probabilidades para (1), (2) y (3) con la ecuación (3.33) de Fisher. Si la suma de ellas es
menor de 0.05 se rechaza H 0 .
Tabla 3.13. Tablas de contingencia 2x2 más extremas de la tabla 3.12
hojas simples hojas simples hojas simples

Flores blancas si no totales si no totales si no totales
si 5 16 21 4 17 21 3 18 21
no 8 2 10 9 1 10 10 0 10
totales 13 18 31 13 18 31 13 18 31
-1 -2 -3
hojas simples hojas simples hojas simples
Flores
si no totales si no totales si no totales
blancas
si 5 16 21 4 17 21 3 18 21
no 8 2 10 9 1 10 10 0 10
totales 13 18 31 13 18 31 13 18 31
-1 -2 -3
factoriales fila 6227020800 6,40E+20 8,22E+38 6227020800 6,40E+20 8,22E+38 6227020800 6,40E+20 8,22E+38
factoriales
5,11E+24 5,11E+24 5,11E+24
columna
3628800 3628800 3628800
8,22E+38 8,22E+38 8,22E+38
a! b! a! b! a! b!
120 2,09E+18 24 3,56E+19 6 6,40E+20
c! d! c! d! c! d!
40320 2 362880 1 3628800 1
n! 8,22E+38 n! 8,22E+38 n! 8,22E+38
85
denom 1,66E+59 denom 2,55E+60 denom 1,15E+62
p1 0.004439716 p2 0.000290177 p3 6,45E-01
Suma pi 0.004736342
Nota: Cuando se tiene una o más frecuencias esperadas menores de 4 (o 5 dependiendo

de la regla asumida) resulta erróneo el uso de la prueba de Pearson o de modelos
loglineales (prueba G) para una tabla de contingencia. Esto sucede porque los valores
pequeños esperados inflan el valor de la prueba estadística y ya no podría asumirse la
distribución chi cuadrada. En R se presenta así:
x<-as.matrix(c(5,8,16,2))
dim(x)<-c(2,2)
x
[,1] [,2]
[1,] 5 16
[2,] 8 2
fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value = 0.005723
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.006799682 0.619812040
sample estimates:
odds ratio
0.08662147
3.6.5 Tablas de contingencia fxc: clasificaciones cruzadas. Cuando el número de filas

o columnas o ambos es mayor que 2 se llega a fxc combinaciones posibles y se habla de
clasificaciones cruzadas.
Por ejemplo: se sospecha que puede existir alguna relación entre la duración de
determinados incendios forestales (en horas) y la altura promedia de los bosques. Los
incendios fueron calificados como (A) leves, cuando duraban menos de 4 horas, (B)
medianos < 10 horas y (C) severos > 10 horas. Los bosques se clasificaron como BI,
cuyas alturas en promedio eran < 12m, 12< BII < 20 m, BIII > 20m. Se estudió el reporte
anual en el Centro de Antioquia y se encontró lo siguiente en número de incendios
clasificados por ambos criterios que se constituyen en oi , Tabla 3.14.
Tabla 3.14 Reporte de tipos de incendios y tipos de bosques para el centro de Antioquia
Tipo de incendio Tipo de Bosque Suma TI
BI BII BIII
A 27 48 62 137
B 32 46 67 145
C 26 51 61 138
Suma TB 85 145 190 420
Si las clasificaciones fueran independientes, se cumpliría que las proporciones de
incendios deberían ser las mismas para los 3 tipos de bosque. Entonces se debe generar
una tabla de datos esperados bajo la hipótesis de que ambas clasificaciones son
independientes.
86
Tabla 3.15 Valores esperados de incendio bajo la independencia
Tipo de incendio Tipo de Bosques
BI B II B III
A 27.73 47.3 62
B 29.34 50.1 65.6
C 27.93 47.6 62.4
La formación de la tabla de datos esperados bajo independencia Tabla 3.15, será
137 ABI 145 BBII 138 CBIII 137
entonces así:  ;  ;  , Posición A, B II = 145 ; AB III =
420 85 420 145 420 190 420
137 145 138
190 ; Posición (B, BI) = 85 ,...(C, B III) = 190 62.4 . Datos esperados / año,
420 420 420
2
Se plantea entonces una con los grados de libertad = (número de filas - 1)x(número de
columnas - 1):
(27  27.73)2 (48  47.3)2 (61  62.4)2
2      1.03 y,
27.73 47.3 62.4
se compara con la 222 g.l.  42g.l. 0.05  9.49 . como calc
2
.
2
tab .
entonces la hipótesis
planteada (que además permitió calcular e i) de que ambos criterios de clasificación eran
independientes parece válida. Los tipos de incendio no tienen que ver con la altura
promedia alcanzada por los bosques, por lo tanto existirán otras variables que inciden en
la duración de ellos. Como se ve las pruebas de asociación involucran dos variables
categóricas por lo que este tema hace parte de una estadística de datos categóricos.
Aunque la prueba de contingencia solo nos da la dependencia o no de unas categorías de

dos o más variables, es importante en casos de dependencia saber cómo se
correlacionan, cuando se rechaza Ho. Como norma, si los valores observados resultan
mayores que los esperados, se espera una correlación positiva.
3.6.5.1 Tamaño muestral. Las aproximaciones presentadas dependen de n y N, pero la

mayoría de autores sostienen la pobreza de esta prueba cuando hay frecuencias cero (0)
o muy pequeñas, pues el valor calculado de 2 resulta segado y sobrestima el valor de la
distribución tendiendo a rechazar H 0 con una probabilidad mayor que .
Cochran propuso, que cuando los grados de libertad >1, ninguna frecuencia esperada sea
<1 y, menos del 20% de las frecuencias esperadas < 5 deben ser aceptables para las
pruebas. Para las tablas 2x2 se recomienda Freeman-Halton cuando n<20 o n<40 sí
alguna frecuencia esperada<5. En casos contrarios se debe acudir a las pruebas
corregidas. Maxwell propone usar la normal cuando fxc>30 y las frecuencias esperadas<
5 aun con ceros.
3.6.5.2 Medidas de asociación en tablas fxc. Existen varios coeficientes para estimar el
índice de asociación cuando se rechaza H 0 . El más conocido es el coeficiente de
contingencia de Pearson:
2
Cc  (3.40)
 n
2
Este alcanza valores entre:
87
2 (m  1)
0  Cc   ; m  min( f , c) (3.41)
 n 2
m
Para comparaciones es mejor el Ccr relativo del anterior:
Cc
Ccr  (3.42) .
Cc max imo
Existe también el índice de Cramér situado entre 0 y 1:
2
Ccramer  ; M  max  ( f  1), (c  1)  (3.43)
nM
Las anteriores medidas son difíciles de interpretar a veces y se precisa entonces acudir a
la estadística de datos categóricos.
3.6.5.3 Métodos gráficos para tablas de contingencia. El alejamiento o desviación

entre frecuencias esperadas y observadas en una tabla de contingencia, puede ser
(O  E )
calculado como .
E
Existe una función de asociación llamada de Cohen–Friendly, en R, para indicar las
desviaciones de la independencia de filas o columnas en una tabla de contingencia 2
dimensional.
Por ejemplo, se hizo un muestreo en el aeropuerto de Rionegro con respecto al color del
pelo y de los ojos de los pasajeros llegado en un día cualquiera, para ver si existía algún
grado de asociación entre ambos, con los siguientes datos, de los cuales se formó un
archivo (peoj):
pelo ojos sexo frec
1 negro cafe masc 35
2 cafe cafe masc 56
3 rojo cafe masc 13
4 rubio cafe masc 6
5 negro azul masc 14
6 cafe azul masc 53
7 rojo azul masc 13
8 rubio azul masc 33
9 negro castaño masc 13
10 cafe castaño masc 28
11 rojo castaño masc 10
12 rubio castaño masc 8
13 negro verde masc 6
14 cafe verde masc 18
15 rojo verde masc 10
16 rubio verde masc 11
17 negro cafe feme 39
18 cafe cafe feme 69
19 rojo cafe feme 19
20 rubio cafe feme 7
21 negro azul feme 12
22 cafe azul feme 37
23 rojo azul feme 10
24 rubio azul feme 67
25 negro castaño feme 8
88
26 cafe castaño feme 32
27 rojo castaño feme 10
28 rubio castaño feme 8
29 negro verde feme 5
30 cafe verde feme 17
31 rojo verde feme 10
32 rubio verde feme 11
    
Creamos lo objetos parra R, un archivo (peoj):
peoj<-read.table("clipboard")
attach(peoj)
names(peoj)
[1] "pelo" "ojos" "sexo" "frec"
Construimos la tabla de contingencia a la cual le aplicaremos la función assocplot del R

x<-tapply(frec,list(pelo,ojos),sum)
x
azul cafe castaño verde
cafe 90 125 60 35
negro 26 74 21 11
rojo 23 32 20 20
rubio 100 13 16 22
assocplot(x, main="Relacion entre color del pelo y color ojos",xlab="Color pelo",ylab="Color

ojos")
La grafica siguiente muestra el exceso (barras negras) de gente con pelo negro con ojos
cafés, el exceso de gente con pelo rubio con ojos azules, y el exceso de pelirojas que
tienen ojos verdes. Las barras rojas muestran las categorías donde la menor cantidad de
gente fue observada que la esperada, bajo la hipótesis nula de independencia de ambos
colores pelo, ojos.
89
La misma gráfica desplegada como un mosaico:
mosaicplot(x, shade = TRUE)
El grafico extendido muestra los residuales estandarizados de un modelo log-lineal de los

conteos del color, por fuera de las baldosas del mosaico. Residuales negativos se
muestran en sombras de rojos con líneas quebradas, mientras los positivos, con sombras
de azul con líneas sólidas. Se presenta el mismo mosaico para todo el archivo por sexos
y<-tapply(frec,list(pelo,ojos,sexo),sum)
y
, , feme

cafe 37 69 32 17
negro 12 39 8 5
rojo 10 19 10 10
rubio 67 7 8 11
, , masc

cafe 53 56 28 18
negro 14 35 13 6
rojo 13 13 10 10
rubio 33 6 8 11
mosaicplot(y,main="Mosaico entre color del pelo y color ojos, por sexo", shade =
TRUE,xlab="Color pelo",ylab="Color ojos")
El mosaico muestra más mujeres rubias de ojos azules que las esperadas, en caso de
independencia y pocas rubias con ojos café.
90
Cuando hay o es posible crear múltiples tablas 2×2 (dataframes con tres o más variables
categóricas explicatorias), R dispone de la opción “fourfoldplot”, pues permite la
inspección visual de las asociaciones entre dos variables dicotómicas en una o varias
poblaciones (conocidas como estratos).
Por ejemplo, sean los datos de admisión (admitidos y rechazados) en una universidad,
por facultades y por sexo, así:
est facult sexo admision
51 Arquit masc admit
35 Biolog masc admit
12 Econo masc admit
14 Human masc admit
5 Ingen masc admit
2 Matema masc admit
31 Arquit masc recha
20 Biolog masc recha
21 Econo masc recha
28 Human masc recha
14 Ingen masc recha
35 Matema masc recha
9 Arquit feme admit
2 Biolog feme admit
20 Econo feme admit
13 Human feme admit
9 Ingen feme admit
2 Matema feme admit
1 Arquit feme recha
1 Biolog feme recha
91
40 Econo feme recha
24 Human feme recha
30 Ingen feme recha
32 Matema feme recha
uni<-read.table("clipboard")
attach(uni)
names(uni)
[1] "est" "facult" "sexo" "admision"
head(uni)
est facult sexo admision
1 51 Arquit masc admit
2 35 Biolog masc admit
3 12 Econo masc admit
4 14 Human masc admit
5 5 Ingen masc admit
6 2 Matema masc admit
Creamos las diversas tablas de contingencia de admisión y sexo, por facultad
x<-tapply(est,list(admision,sexo,facult),sum)
x
, , Arquit
feme masc
admit 9 51
recha 1 31
, , Biolog
feme masc
admit 2 35
recha 1 20
, , Econo
feme masc
admit 20 12
recha 40 21
, , Human
feme masc
admit 13 14
recha 24 28
, , Ingen
feme masc
admit 9 5
recha 30 14
, , Matema
feme masc
admit 2 2
recha 32 35
Acudimos a la función fourfoldplot del R:

fourfoldplot(x,margin=2,main="Contingencias múltiples")
92
Que miramos en estos gráficos? Lo más importante sabe si las ratas de rechazo son
diferentes por sexo y como varían estas por facultad. Las gráficas muestran lo sucedido
por facultad (estratos), por ejemplo, en Arquitectura fueron admitidas 9 mujeres de 10,
rechazada 1, para los varones hubo 51 admitidos y 31 rechazados, y así por el resto de
facultades. Se ve que las mujeres fueron mayormente rechazadas en Ingeniería y,
matemáticas. ¿Pero es suficiente esta visión? Parece que no, entonces se presenta un
análisis que escapa a este curso, pero no obstante se analiza acudiendo a modelos
lineales generalizados
Se corren modelos loglineales para auscultarlo
mode1<-glm(est~facult*sexo*admision,poisson)
En este modelo la triple interacción no fue significativa y se retira del modelo,

actualizándolo al modelo 2
mode2<-update(mode1,~.-facult:sexo:admision)
y se acude a un análisis de devianzas con una prueba de chi cuadrado
anova(mode1,mode2,test="Chi")
Analysis of Deviance Table
93
Model 1: est ~ facult * sexo * admision
Model 2: est ~ facult + sexo + admision + facult:sexo + facult:admision +
sexo:admision
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 0 0.0000
2 5 3.5867 -5 -3.5867 0.6103
El cual muestra que la interacción no resultó significativa, por lo cual no se dan

diferencias significativas entre los dos sexos por facultad.
3.6.6 Pruebas de bondad de ajuste  2 . Constituyen la más vieja prueba y la más versátil
para evaluar asunciones distribucionales, es decir si una muestra se extrajo de
determinada población, como la normal, la binomial, la Poisson, o de algún otro tipo de
distribución, que se supone se ajusta bien a unos datos, contra la distribución real de
ellos. Para usarla los datos deben agruparse en clases y compararlas con los valores
esperados de la distribución supuesta. La prueba sigue una 2 únicamente si el modelo
asumido es correcto y correctamente calculado, pues tiende a exceder la variable 2 en
caso contrario. Su mayor defecto es la falta de sensibilidad para detectar modelos
inadecuados con pocas observaciones y la necesidad del arreglo en clases que pueden
afectar el éxito de la prueba.
En primer lugar, es preciso estimar los parámetros de la distribución asumida, ojalá los de
máxima verosimilitud. Dividir en k clases y calcular la probabilidad de que un valor
aleatorio del modelo asumido caiga en la clase. Se debe asegurar que el mínimo número
por clase sea a lo menos de 5 datos si no, se deben juntar clases contiguas. Cuando n es
grande para algunos autores n>200), se puede usar la estadística empírica para calcular
k:
kˆ¨ 4 5 0.75 (n  1)
1
(3.44)
Para n moderado k debe restringirse a no sobrepasar n/5. En estos casos lo único que
cambia son los grados de libertad, que se calculan así: GLB de A = k - 1 – P, en que P =
número de parámetros de la distribución
.
n k n k
20 6.8 200 10.89
40 7.86 220 11.1
60 8.54 240 11.29
80 9.05 260 11.47
100 9.47 280 11.65
120 9.82 300 11.81
140 10.13 320 11.96
160 10.41 325 11.96
180 10.66 340 12.11
Se observan los cambios muy leves para n por encima de 200.
3.6.7 Razón de verosimilitud logarítmica o G de Wilks (1935). Es una prueba usada en

lugar de la 2 como alternativa. Se trata del cálculo de la desvianza de un modelo log
lineal, como a) de (3.45. Se expresa como:
94
O
a) G  2 O ln( ); b) G   fi ln( fi fiˆ )   fi ln( fi)   fi ln( fiˆ ) (3.45) ,
E
con algunas ventajas y desventajas, entre éstas últimas, cálculos más complicados y, de
pronto, que su distribución teórica casi no se conoce aunque se aproxima a una 2.
Entonces
G  2 fi ln( fi fiˆ )  4.60517  fi log10 ( fi fiˆ ) ó;
G  2  fi ln fi   fi ln fiˆ   4.60517  fi log10 fi   fi log10 fiˆ  .
   
ˆ ˆ
Esta prueba se recomienda en vez de  siempre que fi  fi  fi .También puede usarse
2
en otra ocasiones como el problema de los quesos Por ejemplo: 114 ln 114 + 36 ln 36 -
114 ln 120 - 36 ln 30 = 0.71614., con lo cual G = 1.4322 que se puede comparar con la 2
y prevalece Ho. Entonces se puede corregir por continuidad con la fórmula de Yates.
Para aplicar la prueba de bondad de ajuste a un caso concreto se estudiará la distribución

de Poisson.
3.7 Distribución de Poisson. Además de valorar eventos raros, es muy útil en algunos
campos como la silvicultura, por ejemplo, para la caracterización de patrones de
asociación de las especies, como aleatorios, uniformes o sistemáticos.
Es una distribución binomial en la cual el valor de p es supremamente bajo y en la que,

aunque n crezca, el valor np se mantiene constante.
Generalmente se estudia como el límite de una Binomial cuando p  0 y n  . Nace

de considerar la expresión b(x+1, n, p) que para efectos prácticos se llamará f(x+1). Al
dividir b(x+1; n, p), por b(x; n, p), se obtiene:
n! 
p x 1q n  x 1
b( x  1, n, p) ( x  1)! (n  x  1)! (n  x) p 
  
b( x, n, p) n!
p x qn x ( x  1)q 
 x ! (n  x)!  (3.46)

(n  x) p 
b( x  1, n, p)  b( x, n, p) 
( x  1)q 
Por ello
p ( n  x) np px
f ( x  1)  f ( x)  f ( x  1)  f ( x)  f ( x) (3.47)
q ( x  1) q( x  1) q( x  1)
Cuando p  0, q  1 y el valor np que se le llamará  
95
  
 Si x  0  f (1)  f (0) 
1 

 Si  
x  1  f (2)  f (1) 
 2
 
  2
 
  f (2)  f (0)  f (0) 
f ( x  1)  f ( x)  0   21 2 1  (3.48)
( x  1)  
  3
 Si x  2  f (3)  f (2)  f (0) 
 3 3  2 1 
 
 
  

 Si x    f ( x)  f (0)  A 
!
0
Usando A se puede recalcular f (0)  f (0)  1 f (0) , de donde sale la sumatoria:
0!
x
 2 3 x 
 f ( x)  f (0)  f (1)   f ( x)  f (0) 1         1 (3.49) ,
x 0  2! 3! x! 
en la cual el término entre paréntesis es un famoso límite = e de donde:
x
1
 f ( x)  f (0)e  1 f (0)  e
x 0
 e que al llevarla a [A] da:
x
f ( x)  e  (3.50) ,
x!
una función de probabilidad que se puede expresar como P(x, ). Para caracterizarla
entonces basta encontrarle su media y varianza.
3.7.1 Media y varianza de una distribución de Poisson. Tiene la media igual a la

varianza.
E ( x)   xf ( x)    X   

 (3.51)
E ( x   )2   ( x   )2 f ( x)     2 

Se usa como una distribución para modelar eventos escasos o raros. Por ejemplo: en un
experimento de laboratorio, el promedio de partículas radioactivas contadas en un
milisegundo es de 4. ¿Cuál será la probabilidad de que 6 partículas pasen en la misma
46 e4
cantidad de tiempo? Entonces con  = 4 y x = 6, se tiene: f (6, 4)   0.1042 , o sea
6!
r
una baja probabilidad. Similar a lo reportado para la binomial existen tablas de  ( x,  ) ,
x 0
con las cuales se llega al resultado anterior:

6 5
F (6, 4)   f ( x, 4)   f ( x, 4)  0.8893
x 0 x 0
 0.7851  0.1042 .
Ejemplo (2). La cantidad de barcos que fondean en Cartagena diariamente es de 10. El

puerto puede atender máximo 15 barcos/día, cuál será la probabilidad de que algún día
no puede atenderse un barco?. Entonces se trata de reformular el problema y resolverlo
15
así: p( X  15)  1  p( X  15)  1  f ( x,10)  1
0
0.9513  0.0487 , o sea una bajísima
probabilidad.
96
3.7.2 Cambios en la distribución de Poisson al aumentar  Al aumentar el valor de ,
la distribución va tendiendo a la normal, como se aprecia en la figura 3.13 en la cual se
unieron los puntos con una línea continua solo para mostrar la forma que adoptan las
distribuciones.
3.7.3 Características:
1) Es aplicable a poblaciones o muestras en que se dan sucesos con baja probabilidad, o
sea para modelar eventos raros.
2) Es discreta y los eventos son independientes, una vez dado un suceso no altera la
probabilidad del siguiente.
3) Los individuos que cumplen lo anterior se consideran distribuidos al azar.
4) Se puede generalizar que si np = 10 o  = 10 se comporta como Normal. Figura 3.16.
5) Su distribución de probabilidades se puede tabular, similar a lo mostrado para la
binomial:
r
 x 
p( x  r )   e (3.52)
x 0 x!
Figura 3.16 Cambios en la distribución de Poisson al aumentar
Ejemplo (3). En un proceso muy perfeccionado de empaque de yogures al vacío se

encuentra que 1 de cada 800 empaques deja aire en su interior. Cuál será la probabilidad
de que en una muestra aleatoria de 5000 yogures  6 de ellos resulten con aire?. Se
observa la importancia de este hallazgo en pruebas de control de calidad, para futuras
planificaciones, o para ciertos controles. Este problema puede asumirse como una
binomial, lo cual le ayudará a comprender mejor el concepto. Su solución por Poisson
1
sería la siguiente: P 0, 00125 ,   np  5000  0.00125  6.25   ,
800
r 6 6
 p( x  6)   p( x,  )   p(6, 6.25) en la tabla  56.64%.
x 0 x 0
Ejemplo (4) Para estudiar la bondad de ajuste se estudiaron 829 platos de Petri de
acuerdo con el número de semillas inviables encontrados en cierto sustrato, tabla 3.16
con el siguiente resultado: El valor de la  c2  41.29 se compara con 0.05,
2
6  12.6 con lo cual
se rechaza el ajuste de la distribución de Poisson para los datos dados.
En R se grafica la distribución de Poisson, por ejemplo, así:

x <- 0:6#exitos
plot(x, dpois(x, lambda=4), xlab="x", ylab="Probabilidades", main="Distribuion de
Poisson:lamb=6", type="h",cex.main=1.7,cex.lab=1.2,cex.axis=1.2)
points(x, dpois(x, lambda=4), pch=16)
abline(h=0, col="blue")
abline(v=0,col="blue")
97
Y para la función de distribución acumulada:
x <- 0:6
x <- rep(x, rep(2, length(x)))
plot(x[-1], ppois(x, lambda=4)[-length(x)], xlab="x",
ylab="Probabilidades", main="Poisson acumul.: Media = 4", type="l")
abline(h=0, col="blue")
abline(v=0, col="blue")
Distribuion de Poisson: lambda = 6 Poisson acumul.: Media = 6
0.6
0.15
0.5
0.4
0.10
Probabilidades
Probabilidades
0.3
0.2
0.05
0.1
0.0
0.00
0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x
3.8 Distribución t de student. Se puede considerar como otra versión del teorema del
límite central. Fue dada a conocer en 1908 por W.S. Gosset bajo el seudónimo de
“student”, al notar que con n < 30, los valores de s 2 fluctúan apreciablemente de muestra
X 
en muestra y ya no se comportaban como una Z. Se encuentra dividiendo
s n
numerador y denominador de la anterior por  n 
X 
 n Z
  t (3.53)
s n s 2
2
 n
(n  1) s 2 s2 2
Dado que se conoce el resultado  20.05, n 1   , entonces
2 2 (n  1)
98
Tabla 3.16 Número de semillas muertas encontradas en vasos de Petri, y
distribución ajustada con Poisson, media 1,21 y varianza 1.91
semu frec frest ele chi2

0 251,00 247,21 0,06
1 293,00 299,12 0,13
2 180,00 180,97 0,01
3 75,00 72,99 0,06
4 20,00 22,08 0,20
5 4,00 5,34 0,34
6 3,00 1,08 3,43
7 1,00 0,19 3,56
8 1,00 0,03 33,52
tot 828 829,00 41,29
Z Z
t o mas generalmente t  (3.54) ,
 2
(0.05, n 1) (2n)
n 1 n
es una variable cuya función de densidad está dada por:
 n 1
 
 n 1 
 
 2   t2   2 
f (t )   1   ;   t   (3.55)
n
n    
n
2
concebida suponiendo que las muestras sean tomadas de una normal (muy restrictiva),
pero afortunadamente poblaciones no normales con forma de campana dan valores de t
parecidas a los de su distribución. Como características presenta, Figura 3.14:
1) t se comporta como una Z, ambas simétricas alrededor de 0.

2) Tiene forma de campana como la Z pero es más variable porque depende de la
fluctuación de dos cantidades 2 y s2.
3) La varianza de t depende del tamaño muestral n y siempre será mayor que 1, o
sea que su forma varía con los grados de libertad.
4) Cuando n   t Z (t = Z)
X 
5) La probabilidad de que una muestra aleatoria produzca un valor de t  , entre
s/ n
2 valores específicos t1 y t2 es igual a esa área bajo la curva de t. Existen tablas
similares a los de Z pero para diversos grados de libertad.
Se acostumbra representar con t al valor de la t para el cual otro valor mayor que él se
encuentre en el área , Figura 3.17.
Por ejemplo, el valor de t con 5 gl que permite encontrar un valor mayor que el ocupa un
área de 0.025, y vale 2,571. Otra forma de decir esto es t(5, 0.025) = 2.571, o que el valor de
t para el cual se tiene un área de 0,025 es 2.571. Como es simétrica con respecto a la
media 0, entonces - t es el valor a partir del cual hacia la izquierda hay un valor de
0,025, o de otra forma t(1 )  t . De la misma figura se puede ver entonces que:
99
 X  
P  t2   t1   1   (3.56) ,
 s n 
de la cual aparece una inferencia importante para la media poblacional:
s
  X  t( , n 1) ; o   X  t sX (3.57)
n
Figura 3.17 Funciones de densidad para varios grados de libertad.
Ejemplo (1). Los valores más probables obtenidos para el promedio de supervivencia de
unas plántulas de eucalipto recién sembradas con una probabilidad del 95%
muestran:   87  2.01 0.6324  85.72    88.24 , o localizada entre estos dos valores. La t
se usa en pequeñas muestras cuando n  30 y se desconoce y es indiferente por
encima de n = 30 usar N o t..
Ejemplo (2). Encontrar la altura media poblacional de un bosque en el cual en varios sitios
dio los siguientes valores 19.3, 17.2, 20.1, 17.3, 21.4, 20.8, 16.4, X 18, 93 ;
s  1,964; sX  0,7425; t0.95, 6  2.447 , 18,93 2.447 0.7425 17,11 20,74 .
3.9 Distribución F. Intuitivamente aparece al comparar longitudes de vectores aleatorios

de variables independientes y normales. Sean: X 1 y X 2 dos vectores de variables
aleatorias independientes estandarizadas (0,1) de dimensiones n1 y n 2 , entonces los
cuadrados de sus módulos siguen distribuciones 2 independientes entre sí. Su cociente
normalizado definido como:
x112  x21
2
 xn21
n1
Fn1 , n2  2 (3.58)
x12  x222
 xn22
n2
se conoce como F con n1 y n 2 grados de libertad y representa la variación del cociente
entre módulos al cuadrado de longitud unitaria. Es de las más aplicadas estadísticamente,
especialmente en el análisis de varianza cuando se desea probar simultáneamente la
igualdad de varias medias, hacer inferencias sobre varianzas de dos poblaciones
normales o validez de coeficientes de regresión múltiple, entre otras. Por lo anterior se
define como la relación entre dos variables aleatorias 2 independientes dividida cada una
de ellas por sus respectivos grados de libertad.
U V
F (3.59)
k1 k2
100
U y V dos VA independientes que se distribuyen U   (1,2 k g .l .) ; V  (1,2 k g .l .) , por lo cual se 1 2
caracteriza con base en los grados de libertad del numerador y del denominador y por eso
se escribe como: Fk , k  12 k1  22 k2 y tiene como función de densidad:
1 2
   ( gl1  gl2 ) 2 gl1 gl2 gl1 2 f gl1 2 1

 ,0 f 
h f    ( gl1 2) ( gl2 2) (1  gl1 f gl2 )( gl1  gl2 2)
(3.60)

0 para valores de f  0
Dadas las dificultades de integración, viene tabulada. Por ejemplo, la Figura 3.18 muestra
las curvas de F, una de 8, 20 g.l. y otra de 8, 5 g.l.
Figura 3.18. Distribución de F a) para dos opciones en los grados de libertad, b)

Áreas para los distintos valores de F.
Se puede definir un valor f como aquel a partir del cual se encuentra un valor  para el
área bajo la curva de h(f). En algunas tablas se dan las áreas de las colas así: cola de la
derecha P(F > F) =  ; ambas colas P(F/2< F < F/2) = . Por ejemplo, una tabla de cola
de la derecha sería similar a la Tabla 3.17.
La F queda completamente especificada por k 1, los grados de libertad del numerador y k 2.

los del denominador. Existen varias nomenclaturas como Fkk , o Fnm o. Existe un teorema 2
1
que expresa que si se tiene f( , k , k ) , para encontrar f1 con k1 y k2 grados de libertad,
1 2
entonces:
1 1
f (1 , k1 , k2 )  , o F1m n  (3.61)
f ( , k2 , k1 ) Fnm
1 1
Por ejemplo: F(0.05, 6,10) 3.22 F(0.95, 6,10) 0.2463 , Figura 3.16 b).
f(0.05,10,6) 4.06
Tabla 3.17 Valores críticos de la distribución F
F0. 05, (k1, k2)
Grados Liber k1=1 2 3 … 6 … 9
K 2=1 161 200 216 … … 241
2 18.5 19 19.2 … … 19.4
3 10.1 9.55 9.28 … … 8.81
… … … … … … …
… … … … … … …
10 … … … … 3.2 … …
… … … … … … … …
14 4.6 3.74 3.34 … … … 2.65
101
(n  1) s 2
3.9.1 Aplicaciones. Se había encontrado al estudiar la 2 que  2n 1 g .l . .
2
Supóngase que se seleccionan dos muestras aleatorias de tamaños n 1 y n2, de dos
poblaciones normales que tienen  12 y  22 . De acá pueden salir múltiples opciones de
prueba. Al usar F de acuerdo con una reinterpretación de su definición:
(n1  1) s12
 12  (2n1 1)
(n1  1) (n1  1)
 F( ;( n1 1), ( n2 1)) (3.62)
(n2  1) s22  (2n2 1)
 22 (n2  1)
(n2  1)
n1  1
o sea F  n2 1 , que también se plantea como
s12
 12
2
 Fn,1 n211 (3.63)
s
 22
que conduce a uno de los usos más frecuentes de la F para probar homogeneidad de
varianzas, o sea que  12   22 , con lo cual sería posible que los datos no fueran de dos
poblaciones diferentes sino que provinieran de una sola. Entonces:
s12
 12 s12
2
 2  F nn1211 ; si  12   22 (3.64)
s s2
 22
Nota: Las hipótesis que plantean igualdad se llaman de 2 colas, por lo cual  = 0,025 en
cada cola. Esta prueba llega hasta la estadística multivariada por lo cual otras
aplicaciones surgirán naturalmente con posterioridad.
3.10 Tamaño muestral para la estimación de la media poblacional.
3.10.1 Prueba de Harris, Horvitz y Mood. Después de conocer las anteriores

distribuciones es posible abordar este tema que siempre inquieta: ¿Cuántas muestras se
requieren para estimar la media poblacional? Obviamente la respuesta surgiría de
  X  t(1 2) sX El número de datos depende de: la diferencia aceptada entre X y tsX , el
intervalo de confianza deseado. Mejores estimados requieren muestras más grandes,
conocer la variabilidad de la población y poder asegurar que el intervalo de confianza no
sea más largo que el especificado. Se propone para el cálculo del tamaño buscado la
prueba de Harris, Horvitz y Mood:
s 2t1 2; n 1 F1- β, n 1, gl 
n 2
2
 3.59 
(t1 2; nmi 1 sX )
todos los elementos conocidos excepto que (1 ) sería el seguro para que no se
sobrepase el límite de confianza especificado y gl2 son los de la muestra inicial. Como se
notará esta propuesta tiene la dificultad de que los valores de las distribuciones usadas
dependen de n por lo cual se deba acudir a iteraciones. Por ejemplo calcular el tamaño de
102
la muestra para una buena estimación de la media de los datos de la variedad 2, Tabla
3.18:
Tabla 3.18 Altura en metros de 8 árboles de variedad 2 para estimar su media
V2 23 22 16 14 16 25 24 15
 2
 155, X 2  19.38, s  20.55 Se empieza con una suposición inicial de que una
2
2
muestra n = 50 sería necesaria, y además un 90% de confianza para que el intervalo

mencionado se mantenga. Para ello t(0.975,49) 2.009; F(0.90, 49, 7) 2.524 . La t del
denominador con muestra testigo -1, o n La ecuación (3.65) da:
20.55 x 2.009 x2.524
n  7.3
 2.364* 20.55 / 8 
2
Se repite el proceso con n = 8 hasta lograr una convergencia. En este caso se asume que
la muestra tomada bastaba. Se acude acá a una prueba de potencia que será estudiada
posteriormente.
3.10.2 Prueba de Cochran. Con base en la anterior, cuando la muestra n representa una
alta fracción de una población muestreada de tamaño N (tamaño poblacional), siquiera de
un 5%, Cochran propone:
nˆ
n (3.66)
( ˆ  1)
n
1
N
3.10.3 Tamaño muestral para una binomial. Como se vio la función de densidad de una
binomial encuentra la probabilidad para x éxitos en n intentos con probabilidad constante
p. Por ejemplo si capturamos 5 insectos de una población en la cual el 12% son una
especie de escarabajos, obtenemos la Tabla 3.19 con la distribución acumulada.
Tabla 3.19. Probabilidades para el numero de escarabajos en una muestra de 5, con

p=0.12
Escarabajos n p b(x,n,p) b(x,n,p)ac
0 5 0.12 0.528 0.528
1 5 0.12 0.360 0.888
2 5 0.12 0.098 0.986
3 5 0.12 0.013 0.999
4 5 0.12 0.001 1.000
5 5 0.12 0.000 1.000
que, da lugar a la gráfica de la densidad de probabilidad contra el número de escarabajos,
Figura 3.19,
Figura 3.19 Densidad de probabilidades de numero de escarabajos en una muestra

aleatoria de 5 insectos con probabilidad de encontrar escarabajos del 12%.
103
en la cual observamos que el número más probable de escarabajos en la muestra es 0 y
que lograr 2 o menos es casi 1. Al calcular los percentiles para 0.025 y 0.975
obtendríamos los valores 0 y 2 respectivamente para un nivel de confianza del 95%, o sea
que con diversas muestras aleatorias obtendríamos entre 0 y 2 escarabajos con este nivel
de certidumbre, resultando muy improbable capturar 3 o más en las circunstancias
descritas.
Pero surge la pregunta si este tamaño de muestra es confiable para respondernos

nuestras inquietudes, por ejemplo, de la presencia de este tipo de escarabajos en una
plantación dada. Lógicamente si capturamos siquiera 1, la respuesta obvia es “si”. ¿Pero
que tan probable resulta que se falle en la captura de siquiera uno de estos escarabajos
en la plantación y se concluya erróneamente que no se hallan ahí? Entonces con esta
muestra de n = 5 y p = 0.12, tenemos una probabilidad de no encontrar el escarabajo de
0.88 = q = (1 - p) por cada uno de los insectos capturados y de 0.885=0.5277 de
equivocarnos del todo en el intento. Entonces la pregunta obligada sería: ¿Cuál será el
tamaño de muestra que hace posible fallar en la captura de un escarabajo con una
probabilidad de 0.05 o menor?
Para resolver lo anterior entonces resolveríamos la igualdad 0.05  0.88n . Al tomar

logaritmos log(0.05)  n log(0.88) obtendríamos una primera aproximación para el tamaño n
log( )
n (3.67)
log(1  p)
que, para nuestro caso, equivale a 23.4 o sea, hacer capturas hasta encontrar más de 23
insectos sin la presencia del escarabajo, antes de rechazar la hipótesis que el parasito
está en la plantación con una presencia del 12%. Obviamente, muestras más grandes en
caso de presencias por debajo del 12%.Que daría lugar a una tabla como la 3.20
Tabla 3.20. Tamaño muestral binomial para diversas probabilidades de un evento

con α= 0.05
alfa prob n
0.05 0.01 298
0.05 0.02 148
0.05 0.03 98
0.05 0.04 73
0.05 0.05 58
0.05 0.06 48
0.05 0.07 41
0.05 0.08 36
0.05 0.09 32
0.05 0.10 28
0.05 0.15 18
0.05 0.20 13
0.05 0.25 10
0.05 0.30 8
0.05 0.35 7
0.05 0.40 6
Anexo
dbinom(0:10,10, 0.3)
[1] 0.0282475249 0.1210608210 0.2334744405 0.2668279320 0.2001209490
[6] 0.1029193452 0.0367569090 0.0090016920 0.0014467005 0.0001377810
[11] 0.0000059049
104
Distribucion acumulada
pbinom(5, 10, .3)
[1] 0.952651
> 1-pbinom(5, 10, .3)
[1] 0.04734899
Distribuciones de probabilidad en la librería BASE.
Función Utilidad
Normal rnorm(n, mean=0, sd=1)
exponencial rexp(n, rate=1)
gamma rgamma(n, shape, scale=1)
Poisson rpois(n, lambda)
Weibull rweibull(n, shape, scale=1)
Cauchy rcauchy(n, location=0, scale=1)
beta rbeta(n, shape1, shape2)
t de Student rt(n, df)
F (Snedecor) rf(n, df1, df2)
Pearson χ 2 rchisq(n, df)
binomial rbinom(n, size, prob)
geométrica rgeom(n, prob)
hypergeométrica rhyper(nn, m, n, k)
logística rlogis(n, location=0, scale=1)
lognormal rlnorm(n, meanlog=0, sdlog=1)
binomial negativa rnbinom(n, size, prob)
uniforme runif(n, min=0, max=1)
x <- rgamma(50,1,3)
> summary(x); fivenum(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.007604 0.098710 0.218600 0.343700 0.404800 1.550000
[1] 0.007604136 0.094867624 0.218566533 0.405641307 1.550206443
> mean(x); median(x); quantile(x); quantile(x,c(0.35,0.9))
[1] 0.343732
[1] 0.2185665
0% 25% 50% 75% 100%
0.007604136 0.098706600 0.218566533 0.404763008 1.550206443
35% 90%
0.1324823 0.8310893
> sd(x); var(x); range(x); IQR(x)
[1] 0.3737721
105
[1] 0.1397055
[1] 0.007604136 1.550206443
[1] 0.3060564
> min(x); which.min(x); x[which.min(x)]; pmin(x[1:5],x[6:10])
[1] 0.007604136
[1] 7
[1] 0.007604136
[1] 0.773787373 0.007604136 0.022997282 0.228642142 0.066287504
> max(x); which.max(x); x[which.max(x)]; pmax(x[4:8],x[2:6])
Medidas de localización y dispersión más habituales.
Función Utilidad
sum(..., na.rm=FALSE) Suma
max(..., na.rm=FALSE) Máximo
min(..., na.rm=FALSE) Mínimo
which.min(x) Posición del máximo
which.max(x) Posición del mínimo
pmax(...,na.rm=FALSE) Máximo en paralelo
pmin(...,na.rm=FALSE) Mínimo en paralelo
cumsum(x), cumprod(x) Sumas y prods acumulados
cummax(x), cummin(x) max's y min's acumulados
mean(x, trim=0, na.rm=FALSE) Media
weighted.mean(x,w,na.rm=FALSE) Media ponderada
median(x,na.rm=FALSE) Mediana
quantile(x,prob=(0,0.25,0.5,0.75,1),na.rm=F) Cuantiles
fivenum(x, na.rm=FALSE) 5-Tukey: min, lower-hinge mediana, upper-hinge, máximo
summary(x, na.rm=FALSE) min,1c,mediana,media,3c,max
IQR(x, na.rm=FALSE) Rango inter-cuartílico
range(...,na.rm=FALSE, finite=FALSE) Rango
var(x, y=x, na.rm=FALSE, use) Varianza
sd(x, na.rm=FALSE) Desviación Típica
mad(x,center,constant=1.4426, na.rm=FALSE) Desviación mediana absoluta
library(e1071)
x <- rgamma(50,1,3)
moment(x,2,center=F) # momento no centrado de orden 2 Consideramos dos distribuciones
asimétricas (Betas) y las vamos a comparar con la normal que es simétrica: nsim<-5000 s1<-
skewness(rbeta(nsim,2,3)) s2<-skewness(rbeta(nsim,3,2)) s3<-skewness(rnorm(nsim,0.5,0.5))
s1;s2;s3 Consideramos ahora una distribución normal y una Student, más achatada, y las
comparamos: k1<-kurtosis(rnorm(nsim)) k2<-kurtosis(rt(nsim,3)) k1;k2
La distribución Uniforme.
Una variable aleatoria continua X sigue una distribución uniforme, X U  a, b  , cuando

sólo puede tomar valores comprendidos entre dos extremos a y b, y todos los intervalos
de igual longitud dentro de estos tienen la misma probabilidad, es decir tiene una
 1
 para x   a, b  ,
f  x  b  a
 0
 para x   a, b 
o sea, la función de densidad debe tomar el mismo valor para todos los puntos dentro del
intervalo (a, b) y, cero por fuera de él. En su forma más simple es el modelo probabilístico
que permite tomar un número aleatorio dentro de dos números (a, b). Gráficamente:
106
Al integrar f(x) se obtiene la función de distribución acumulativa F(X)
 0 si x  a
xa

F  x  p  X  x   si x   a, b 
b  a
 1 si x  b
Gráficamente:
Propiedades:
b  a 
2
E  x    b  a  / 2; σ 2
 x 
12
Para la distribución Uniforme, R, dispone de cuatro funciones:
dunif(x, min=0, max=1, log = F)#devuelve resultados de la función de densidad.
punif(q, min=0, max=1, lower.tail = T, log.p = F)#devuelve resultados de la función de
distribución acumulada.
qunif(p, min=0, max=1, lower.tail = T, log.p = F)#devuelve resultados de los cuantiles
runif(n, min=0, max=1)#devuelve un vector de valores aleatorios de la distribución
Los argumentos que podemos pasar a las funciones expuestas en la anterior tabla, son:
x, q: Vector de cuantiles.
p: Vector de probabilidades.
n: Números de observaciones.
min, max: Límites inferior y superior respectivamente de la distribución. Ambos deben ser
finitos.
log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log
(p).
lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x],
de lo contrario, P [X > x].
Ejemplo, generemos una distribución uniforme con 10 datos entre 0 y 1:
u<-runif(10)
107
u
[1] 0.5406867 0.5869844 0.7230510 0.3312834 0.7997973 0.4053593 0.9289693 0.7422750
0.4951748 0.3200371
Observe que las siguientes relaciones siempre se mantienen:

punif(u) == u
dunif(u) == 1
para el ejemplo
punif(u)
[1] 0.5406867 0.5869844 0.7230510 0.3312834 0.7997973 0.4053593 0.9289693 0.7422750
0.4951748 0.3200371
dunif(u)
[1] 1 1 1 1 1 1 1 1 1 1
Otro ejemplo: Al estudiar los embarques (X) de una plantación dedicada a madera de
pulpa se encuentran despachos a través del año de entre 2500 y 3500 m 3/mes, entonces
XU :  2500, 3500 
a-Calcule la probabilidad que el próximo embarque sea inferior a 2800 m 3:
punif(2800, min=2500, max=3500, log = F)
[1] 0.3
b) Que supere los 3200 m 3.

punif(3200, min=2500, max=3500,lower.tail=F, log = F)
[1] 0.3
c) Calcular el volumen de embarques x que se encuentran por debajo del 25%, o sea la
P(X <= x) = 0.25.
qunif(0.25, min=2500, max=3500, lower.tail = T, log.p = F)
[1] 2750
Otro ejemplo. Suponga que su bus pasa cada 17 minutos. Calcule la probabilidad de que
lo tenga que esperar menos de 5 minutos
punif(5, min=0, max=17,lower.tail=T, log = F)
[1] 0.2941176
Otro ejemplo: El profesor y un alumno concertan una cita en la oficina entre las 11 y la 12
m. Si además acuerdan que cada uno solo esperaría al otro 10 minuto, cuál será la
probabilidad que no se encuentren si el estudiante llega a las 11 y 30. Siendo a = 11 y
b=12, este intervalo en minutos b-a=60 minutos. La f(t) será
 1
 para t   0, 60  ,
f  t    60  0
 0
 para t   0, 60 
Ya que el alumno llega a las 11 y 30 y esperará 10 minutos más, el profesor no se
encontraría con el alumno si llega a su oficina entre las 11 y las 11 y 20, o si llegara
después de las 11 y 40. Entonces la probabilidad que no se encuentren será
20 60
1 1 1 1 2
p(0  t  20)  p(40  t  60)  0 60dt  40 60dt  3  3  3
En R:
e1<-punif(20, min=0, max=60,lower.tail=T, log = F)
e2<-punif(40, min=0, max=60,lower.tail=F, log = F)
e1+e2; [1] 0.6666667
108

Capitulo 3

Cargado por

Copyright:

Formatos disponibles

Capitulo 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 3

Cargado por

Copyright:

Formatos disponibles

3.

ESTUDIO DE ALGUNAS FUNCIONES DE PROBABILIDAD

Para conocer una población es necesario identificar la función de probabilidad o de

3.1 Muestra aleatoria.

Es una parte, un subconjunto de S que lo representa con mucha aproximación. S se

3.1.1 Estadístico. Se denomina así a cualquier función de las observaciones de una

3.1.3 Estimación. Es un valor “particular” de un parámetro estadístico obtenido con una

3.1.4 Distribuciones muestrales. La distribución de probabilidades de una variable

3.2 Distribución normal.

3.2.1 Características. Presenta entre otras las siguientes:

Figura 3.2. Desplazamiento de una normal sin afectar su forma.

Ejemplo: los datos 5, 7, 6, 3, 2, 8 tienen: X = 5.1666 y s2 = 5.3666; los datos 8, 10, 9, 6,

Figura 3.3. Cambios de forma en la distribución normal

5) Debido a 3) y 4) a  se le conoce como parámetro de localización de la curva y

integrate(fz, lower = -1, upper = 1)

3.2.2 Propiedades. Tiene entre otras las siguientes resaltables:

1) Si se tiene una X N (  ,  2 ) , las funciones lineales construidas con ella, resultan

3) Si se divide una distribución normal por una constante  0, la distribución resultante

4) Usando las propiedades 2 y 3, sí se tiene una X  (  ,  2 ) y a cada xi se le resta y

P = 17.033  = 6.2719 2 = 39.337. Se asume que P  17.003, 39.337 y Z (0, 1) .

x <- rnorm(10, mean = 25, sd = 17)#genera 10 números aleatorios

-Probabilidad de distribución acumulada de X conocidos el valor de X, la u y sd, por

percentil 0.x de una variable aleatoria. normal, se obtiene con la función q:

Para z, se usan estas mismas funciones sin parámetros, el R reconoce que

Por último, construir el histograma y la normal al mismo tiempo se da mediante las

La gráfica de solo la función de densidad es obtenida con:

Probabilidad entre dos valores dados, ejemplo 15≤X≤28

Podemos graficar el área anterior con:

3.2.3 Muestra aleatoria estadística. Estadísticamente hablando, es simplemente aquella

Figura 3.5. Diversas formas de muestrear un S

Por ejemplo en b) según estén a izquierda o derecha, se muestran los cruzamientos de la

3.2.3.1 Otra prueba de aleatoriedad. Existe también la prueba de la diferencia medio

Además sí la muestra hubiera sido normal y la hipótesis nula verdadera

3.2.3.2 Prueba de aleatoriedad Wald-Wolfowitz. Existe también esta prueba, en

El p-value nos remite a la Ho. Otras opciones:

Para facilitar el proceso, usemos la siguiente función que dependa de n:

Si la usamos varias veces veremos la aparición de diferentes medias

que, coincide casi con

hist(muchmedias, xlab="Media muestral", ylab="Frecuencia", col="lightcyan",

Histograma de las medias muestrales replicadas

Figura 3.7 Izqu: Distribución uniforme de 10000 tiradas de 5 números aleatorios,

la estadística propone para hallar el error estándar o s x la siguiente fórmula a),

3.2.6 Distribuciones bootstrap (Introdución al Bootstrapping y aleatorización)

3.2.6.1 Bootstrapping. Es un proceso de simulación estadística, basado en los datos

3.2.6.2 Aleatorización. Es otro método para evaluar verosimilitud de unos resultados,

Cuando hay dudas sobre la normalidad de la variable, el muestreo bootstrap se vuelve

Ejemplo visto en la sección anterior. Partíamos de la mues1 de n=30. Como “sabíamos”

Para lo anterior sacamos 1000 muestras de tamaño 30 a partir de la muestra original, y

Calculamos la desviación típica de los valores obtenidos:

Se observan las cercanías de las curvas en ambos procesos.

3.3 Distribución binomial

Se aplica a un S cuando la variable medida sólo tome uno de 2 valores contrastantes, si

Figura 3.9 a) Función de probabilidades; b) Función de Distribución de

3.3.1 Función de distribución de probabilidades en un EB. Como se aprecia en la

que permite encontrar :

De acuerdo con lo anterior se generalizará así una distribución Bernoulli:

3.3.2 Media y varianza de un EB. Con el concepto de esperanza se llega a:

Ejemplo (1) Situación en la cual se dan experimentos Bernoulli. Al seleccionar 3 árboles

Figura 3.10 Espacio muestral para tres árboles sanos S, enfermos E.