Capitulo 3
Capitulo 3
Capitulo 3
x i n
X i 1
X f ( xi , n); sx2 ( xi x ) 2 (n 1) s x2 f ( xi , x , n)
n i 1
3.1.2 Parámetros “estadísticos”. Son los elementos caracterizadores reales del S, casi
nunca se conocen, pero se estiman a partir de los estadísticos. (E y 2 ).
Debida a De Moivre, 1793, Gauss (¿??) y Laplace (¿?), tiene como función de densidad:
1 x
x ; E x media
2
1
2
e
f ( x) 2
; e 2.71828...Base de
2
(3.1)
1 1 x 2 los log aritmos neperianos; 3.1415..
EXP ( )
2 2
53
lo cual configura la típica forma de campana Figura 3.1.
Figura 3.1 Forma típica de campana de una distribución normal a) de una variable X,
b) de una variable Z
Para indicar que una variable sigue la distribución normal se usará la notación
X N ( , 2 ) . Más que una distribución se trata de una familia de distribuciones ya que
cambian y 2 . Es muy utilizada, aunque con el avance de la estadística ha dado paso a
otras propuestas para las validaciones pertinentes.
54
Figura 3.4. Área bajo la curva como función de probabilidades.
Por ejemplo sí: L1 = - y L2 = F(x ) f (x )dx F(x ) 0.68 ó 68%
Sí: L1 = -2 y L2 = 2 F(x) = 95%; y sí: L1 = -3 y L2 = 3 F(x) = 99%.
7) Es difícil resolver F(x), por lo cual se acude a una curva prototipo que ayude a
desentrañar a los demás miembros de la familia.
z2
x2
1
En R, se integra
x1 2* pi
exp con la siguiente función
2
fz<- function(z) {1/sqrt(2*pi)*exp(-z^2/2)}
55
Xi
Z Z (0, 1) (3.5)
por lo cual se le conoce como la normal estandarizada con función de densidad:
z2
1 ( )
f ( z) e 2
(3.6)
2
Conocido este miembro de la familia es posible conocer cualquier otro miembro.
Existen muchas tablas que se manejan mirando el encabezamiento que propone cada
autor.
Por ejemplo, se tomaron los siguientes datos consistentes de los pesos en gramos para
unas hojas de laurel.
Tabla 3.1 pesos en gramos de 15 hojas de laurel
peso 30.50 20.10 7.80 27.70 16.70 23.70 16.20 11.10 13.20 17.90 15.30 16.20 15.00 13.40 10.40
Z 2.15 0.49 -1.47 1.70 -0.05 1.07 -0.13 -0.94 -0.61 0.14 -0.27 -0.13 -0.32 -0.58 -1.05
1) Cuál será la probabilidad de encontrar hojas de laurel cuyos pesos sean menores o
10 17.033
iguales a 10 gramos. Se busca el Z correspondiente Z10 1.121
6.2719
En una tabla el área correspondiente será A = 0.131, o sea p(P10 gm) = 0.131 = 13.11%.
2) Cuál será la probabilidad de encontrar hojas cuyos pesos estén entre 15 y 25 gramos o
15 17.033 25 17.033
sea 15 P 25. Se buscan Z15 0.324139 y Z 25 1.2702 . El área
6.2719 6.2719
buscada da Pr 52.55% (0.8983 – 0.3728).
3) El problema inverso también se puede plantear, conocida un área encontrar los valores
de Z correspondientes. Por ejemplo, suponga que en un supermercado casi siempre se
está quedando un 60% de las hojas debido a su tamaño. Encuentre el peso a partir del
cual se esperaría vender todo el producto. La Z por debajo de la cual se encuentra un
Xi 17.033
área = 0.6 es Z = 0.256 0.256 Xi 18.64 gramos.
6.279
En R. Se tienen las siguientes funciones para operar con la normal.
- Para generar una muestra aleatoria de tamaño n de una población normal de media u y
desviación típica sd (y guardarla en un vector x), sea para n = 10, u(mean)=25, sd = 17:
56
pnorm(9, mean = 25, sd = 17)# Función de distribución acumulativa
[1] 0.1733072
Histogram of x
0.07
0.06
0.05
0.04
Density
0.03
0.02
0.01
0.00
10 20 30 40 50
0 10 20 30 40
x
probabilidad (X≤ 25) y p(X>=35)
57
pnorm(20,25,7)
1-pnorm(35,25,7)
1-pnorm(35,25,7)
[1] 0.07656373
O, también:
pnorm(35,25,7, lower.tail=FALSE)
[1] 0.07656373
o también:
fxentre<- function(x) dnorm(x,25,7)
integrate(fxentre,15, 28)
0.5893187 with absolute error < 6.5e-15
0.02
0.01
0.00
0 10 20 30 40
58
La única excepción a lo anterior lo constituyen las muestras pequeñas y sin reemplazo. Con
N cosas tomadas de a n se pueden formar A grupos diferentes, de acuerdo con la
combinatoria
N N!
= = A (3.7)
n n! (N - n)!
Sí la probabilidad de selección de uno de ellos es 1/A, la muestra es aleatoria, o sea que
cualesquiera de ellos tiene igual oportunidad de ser seleccionado, este supuesto resulta
más importante incluso que el de la normalidad de la muestra. Se dice que se logra cuando
las observaciones se extraen independientemente de una población común. Un espacio
muestral se puede muestrear como lo presenta la Figura 3.5, con base en todos sus
elementos, con una muestra dispersa pero aleatoria de ellos o, con subespacios llamados
parcelas.
La independencia, como sinónimo de aleatoriedad, gráficamente se puede observar
cuando al representar las observaciones en el orden de extracción de la muestra el
diagrama tuviera una forma como Figura 3.6 a, en que los puntos se disponen a uno y otro
lado de la mediana muestral. Cuando se presentan encadenamientos a derecha y a
izquierda (rachas) como en b), e incluso si parecieran prevenir de dos poblaciones, la
muestra deja de ser aleatoria.
Figura 3.6 Secuencias de las observaciones muestrales para ver aleatoriedad: a) Independencia, b)
observaciones correlacionadas, c) observaciones de dos poblaciones
3.2.3.1 Prueba de aleatoriedad. Hipótesis: Ho: Cuando las observaciones son aleatorias
el trazo secuencial de las observaciones cruza la mediana con frecuencia regular, en el
caso contrario con menos frecuencia. Cuando n es impar, la mediana pasaría por una
observación que no es D o I y por lo tanto no se cuenta y se trabaja la muestra par con n-1.
59
10 (10 1)
E (S ) 1 6 Var ( S ) 2.25 , al usar la aproximación normal. Dado que se
2 4
formaron 4 series entonces se plantea:
S S 46
Prob(V ) Prob Prob( Z 1.333) 0.0912 ,
S 2.25
o sea una bajísima probabilidad de que esa muestra fuera aleatoria.
DMCS (x xi i 1 )2
77
d i 2
1.2794
s2 n
(x x ) 2 60.1818
i
i 1
60
Ejemplo sea:
x<- c(20, 22, 19, 16, 17, 15, 17, 21, 20, 22, 17)
runs.test(x,plot=T)
Runs Test
data: x
statistic = -1.3416, runs = 4, n1 = 5, n2 = 5, n = 10, p-value = 0.1797
alternative hypothesis: nonrandomness
22
21
20
19
x
18
17
16
15
2 4 6 8 10
Runs Test
data: x
statistic = -1.3416, runs = 4, n1 = 5, n2 = 5, n = 10, p-value =
0.08986
alternative hypothesis: trend
runs.test(x,alternative="right.sided",plot=T)
Runs Test
data: x
statistic = -1.3416, runs = 4, n1 = 5, n2 = 5, n = 10, p-value = 0.9101
alternative hypothesis: first-order negative autocorrelation
runs.test(x,alternative="right.sided",pvalue="exact",plot=T)
Runs Test
data: x
statistic = -1.3416, runs = 4, n1 = 5, n2 = 5, n = 10, p-value = 0.9603
alternative hypothesis: first-order negative autocorrelation
> runs.test(x,alternative="right.sided",pvalue="normal",plot=T)
Runs Test
data: x
statistic = -1.3416, runs = 4, n1 = 5, n2 = 5, n = 10, p-value = 0.9101
alternative hypothesis: first-order negative autocorrelation
61
22
21
20
19
x
18
17
16
15
2 4 6 8 10
3.2.4 Suma muestral. Al extraer una muestra aleatoria de una población, considérese la
suma muestral de variables independientes S x1 x2 xn . Esta también será una
variable aleatoria, caracterizada por E(S) y 2(S), que se espera, se conserve de muestra
en muestra.
E(S ) E x1 x2 xn E x1 E x2 E xn n (3.10)
2 ( S ) Var x1 x2 xn 2 x1 2 x2 2 xn 2 2 2 n 2 (3.11)
de donde, surge el interesante resultado:
(S ) n (3.12)
A partir de lo anterior es posible encontrar la esperanza de la media muestral y su
varianza como si se sacaran muchas medias y se les encontraran sus medias
x1 x2 ... xn , para ver como se distribuyen.
1 1 1
E ( X ) E ( x1 x2 xn ) E (S ) E ( X ) n (3.13)
n n n
1 1 1 2
Var ( X ) Var ( x1 x2 xn ) 2 Var ( S ) 2 n 2 2(X ) x (3.14)
n n n n n
1
Se observa que Var ( X1 X 2 ... X n ) Var ( X ) , equivale a una población de medias. A la
n
desviación estándar de medias se le conoce como error estándar o error promedio de las
medias, que conduce al teorema siguiente, clave de la estadística convencional.
3.2.5 Teorema del límite central. La distribución normal es la más ampliamente usada de
todas las distribuciones, incluso exagerando su importancia por una falsa concepción que
la creía asiento de la mayoría de fenómenos de la naturaleza, pues de acuerdo con la
teoría de los errores se suponía que gobernaba todas las medidas, pero a principios de
1900 se pone en duda la validez de esta asunción. A pesar de lo anterior el papel
desempeñado por este teorema es uno de los grandes resultados estadísticos
matemáticos.
62
El teorema establece que la distribución de la media de n observaciones de x1 x2 xn ,
variables aleatorias independientes, que tienen a f(x) como función de probabilidades de
cualquier distribución o aun, de n distribuciones diferentes con media y varianza finitas se
aproxima a una normal a medida que aumenta el tamaño de la muestra (n ), o dicho
de otra forma de acuerdo con (3.13) y (3.14):
n
X i
x2 2
X i 1
E ( X ) , x2 X , x (3.15)
n n n
Es importante aclarar que cuando se habla de distribución de la media, se está pensando
no en un solo dato, sino en lo que sucedería cuando se pueden repetir muchas veces los
muestreos en condiciones similares. Por ejemplo, si tomamos muestras repetidas de una
población con varianza finita y calculamos sus promedios, el T del LC dice que estos
serán normalmente distribuidos.
Con R es muy fácil su comprensión para lo cual no debemos olvidar que se trata de la
distribución de un estadístico al muestrear. Ejemplo: tomar una muestra aleatoria simple
de n=30, de XN(μ=25,σ=7) y calculamos su media:
n<- 30
mues1=rnorm(n, 25,7)
media1=mean(mues1)
media1
[1] 22.93944
Y para facilitar aun mas el proceso, podemos replicar esto las m veces que deseemos con
la función replicate():
m<-100
muchmedias=replicate(m,promuesx(30))
muchmedias[1:10] #mostrar las primeras 10
[1] 26.78456 25.06934 26.04997 25.95541 23.53476 24.74925 24.34359 23.45803 23.38803
25.42031
Veamos la media y desviación típica de todas estas medias muestrales:
mean(muchmedias)
[1] 25.0082
> sd(muchmedias)
[1] 1.259338
63
Veremos lo obtenido gráficamente, mediante un histograma, y superpuesta la densidad
normal:
0.4
0.3
Frecuencia
0.2
0.1
0.0
22 24 26 28
Media muestral
La gran virtud del TdLC es que cualquier distribución de medias es normal. Veámoslo.
Tomemos 5 números uniformemente distribuidos aleatorios entre 0 y 10 y obtengamos
sus promedios. Por ejemplo, el promedio será bajo cuando una muestra fuera como: 3,
2,1, 2,1 y, alto en una como: 8,9,6,8,9. Pero lo más común desde luego es una media
cercana a 5. Vamos a hacerlo 10000 veces y miraremos la distribución de las 10000
medias. (tomar 5 números aleatoriamente 10 veces). Figura 3.7
Otra población no normal: Tiremos un solo dado muchas veces, luego 2, 3 y 5 dados,
Figura 3.8
64
.
Fig 3.8. Comportamiento de la tirada de un solo dado, 2, 3 y cinco de ellos e
histogramas del comportamiento de las medias, donde se observa la tendencia de
comportarse como una distribución normal
Cada uno de los 6 números se comporta como una distribución uniforme, todos
equiprobables izquierda arriba. Luego dos, luego tres y cinco dados, estos últimos dan
media = 17.5937, sd = 3.782198.
Por lo anterior, muy toscamente, se puede intentar una explicación de este teorema así:
sea un S el cual se desea muestrear para tipificarlo (hallarle media y varianza), por medio
de muestras aleatorias (lo que caiga en el subespacio llamado parcela, Figura 3.5 de las
cuales se toman m.). La media de medias y la varianza de medias serán:
m m
Xi (X i X )2
2(X )
i 1
X , de donde ( X i )
2 i 1
.
m m 1 n
El concepto de error estándar cuadrático coincide entonces con una varianza de medias,
cuando n fuera el tamaño de la muestra simple. Como en la vida real, lo que se hace es
tomar una muestra simple, o sea a lo sumo tomar el equivalente de una de tales parcelas
m
repartida en todo el S, con lo cual no podría encontrarse
i 1
ni sus demás componentes,
65
se<-function(x) sqrt(var(x)/length(x))
val<-c(2,6,3,1,7,9,9,4)#ejemplo con los valores de este vector val
se(val)
[1] 1.092793
Por ejemplo, suponga, unos volúmenes de los troncos de dos grupos de árboles
(coníferas y latifoliadas). Un estudio de aleatorización combina ambos grupos en un solo
gran grupo y obtiene muestras sin reemplazamiento, para generar dos grupos simulados
de coníferas y latifoliadas, lo cual distribuye el número total de volúmenes entre ambos
grupos y de ahí, concluir cuan probables son las diferencias y, si los volúmenes son
mayores en uno u otro de ellos, para unas variables externas similares como la altura o el
dap de los árboles.
66
análogo al utilizado antes, excepto que las nuevas muestras no se generan de una X
normal sino por remuestreo con reemplazamiento sobre los valores que tenemos:
mediamuestraBoots=function(muestra){
nuevamues=sample(muestra,30,replace=TRUE)
media=mean(nuevamues)
return(media)
}
muchasmediasBoots=replicate(1000,mediamuestraBoots(mues1))
head(muchasmediasBoots)
[1] 23.01893 22.84584 24.62588 24.90349 23.34772 21.19066
tail(muchasmediasBoots)
[1] 21.39587 21.70608 21.23718 21.17746 23.05391 22.90002
Para finalizar graficamos el histograma de las medias bootstrap, la f(x) aproximada por
este método y la función de densidad exacta que ya vimos antes:
hist(muchasmediasBoots,col="lavender",freq=FALSE,ylim=c(0,0.35))
lines(density(muchasmediasBoots),col="red",lwd=2,lty=2)
curve(dnorm(x,mean(mues1),sd(muchmedias)),xlim=c(15,29),col="blue",lwd=2,add=TRU)
Histogram of muchasmediasBoots
0.35
0.30
0.25
0.20
Density
0.15
0.10
0.05
0.00
18 20 22 24 26 28
muchasmediasBoots
67
a) Su espacio muestral sólo consta de 2 elementos opuestos S = E, F; (éxito o
fracaso) de tal forma que si la probabilidad de E es hallada, el complemento es la
probabilidad de F.
b) Si se llama p( E) p; y, p( F ) q p( F ) 1 p q p q 1 y 0 p |1 y similar q.
c) Cuando X ( E) 1; X ( F ) 0 la función de probabilidades de X es una binomial
puntual o Bernoulli, representada como nuestra la Figura 3.9 así:
11
(3.17) .
p( X 1) p (1 p)
1
68
1) El proceso consta de n intentos repetidos.
2) Cada intento produce un resultado inequívoco, éxito o fracaso, un EB.
3) La probabilidad de éxito p(E) = p permanece constante de intento a intento.
4) Las repeticiones no influyen los resultados posteriores, o sea que se trata de n
intentos independientes.
Otro ejemplo (2). Una experiencia anterior en el vivero mostró (experimentalmente con un
muestreo repetitivo) que aproximadamente el 20% de las plántulas se mantenían
enfermas, es decir una p(E) = 0.20. Encontrar la distribución de probabilidades de X. Con
base en S anterior:
p SSS 0.8*0.8*0.8 0.512 p SEE 0.8*0.2*0.2 0.032
p SSE 0.8*0.8*.02 0.128 p ESE 0.2*0.8*0.2 0.032
p SES 0.8*0.2*.08 0.128 p EES 0.2*0.2*0.8 0.032
p ESS 0.2*0.8*0.8 0.128 p EEE 0.2*0.2*0.2 0.008
ver Figura 3.11 para la distribución acumulada.
69
De la Figura 3.11 pueden contestarse preguntas como la probabilidad de x = 1, p(x < 1),
p(X 1), p(X) 2, etc.
como, estos eventos son independientes, se calcula la probabilidad para este orden dado
así:
p( X x) p x (1 p) n x p x q n x (3.20)
El número de eventos posible que presentarían los mismos x éxitos y (n-x) fracasos
p. p.... p, q.q.q..... p
serían como ejemplo: p.q..... p, q.q.q. p.q ;
q.q...q, p, p......... p
n
o sea particiones mutuamente excluyentes, o por diferir en un elemento, por lo
x
menos, al ser independientes, las combinaciones de n cosas de orden x; sumándolos
todos se llega a la fórmula para la distribución binomial.
70
3.3.6 Nombre de la distribución binomial. Este como su función acumulativa de
probabilidades surge por la correspondencia de los valores de b(x: n, p), para x = 0, x = 1,
x = 2 ... x = n, con la expansión binomial de Newton (q p)n , que tiene el siguiente
desarrollo:
n n n
(q p ) n p 0 q n p1q n 1 p 2 q n 2 ...
0 1 2
n n 1 n n 0
p q p q b(0, n, p ) b(1, n, p ) (3.24)
n 1 n
b(2, n, p) ... b(n 1, n, p ) b(n, n, p )
n
x 0
b( x, n, p ) 1 100%
que, opera entonces como la función de distribución acumulada binomial.
6
En este caso usando una de ellas se encuentra: b( x, n, p) 0.9376
x 0
71
13 13 13
p( x 6) p 6 q 7 p 7 q 6 ... p13 .
6 7 13
Usando la tabla:
5
p( x 6) 1 p( x 6) 1 b( x, 13, 0.3) 1 0.8346 0.1654 16.54%
x 0
c) Entre 4 y 8:
8 8 3
p(4 x 8) b( x, 13, 0.3) b( x, 13, 0.3) b( x, 13,0.3) 0.996 0.4206 0.5754 57.4%
x 4 x 0 x 0
5 4
d) Exactamente 5: b( x, 13,
x o
0.3) b( x, 13, 0.3) 0.8346 0.6443 0.19
x 0
En casos en que b N se recomienda para X un ajuste por finitud, que sirve para justificar
el tratar una variable discreta como continua. Para ello se suma o resta 0.5 a X, con lo
cual 1, por ejemplo irá entre 0.5 y 1.5 como se muestra la Figura 3.12. La variable
x x 0.5
normalizada Z queda mejor expresada como Z .
Figura 3.12. Distribución binomial para n=10 y p=0.1 y 0.5 y ajuste por finitud
Ejemplos:
72
dbinom(4,10,0.3)#probabilidad de X=4 éxitos en 10 intentos, (P(X=4))
[1] 0.2001209
pbinom(4,10,0.3)#p(X≤4)
[1] 0.8497317
qbinom(0.8497,10,0.3)#q0.8497=min{x:p(X≤x)≥0.8497},cuantil =.8497
qbinom(0.845,10,0.3)
[1] 4
[1] 1 3 5
Simulación de m valores de esta distribución especificada por n y p:
rbinom(12,10,0.3)
[1] 4 1 4 3 3 4 3 3 2 2 2 2
Podemos representar fácilmente la función de probabilidad de la distribución binomial:
par(mfrow=c(1,2))
x<- 0:8
plot(dbinom(x,10,0.3), type="h",xlab="k",ylab="p(X=k)",main="Función de Probabilidad
b(x,10,0.3)",cex.lab=2)
points(x, dbinom(x, 10,0.3), pch=16)
Función de Probabilidad
Función de distribución b(x,10,0.6)
b(x,10,0.3)
1.0
0.25
0.8
0.20
0.6
0.15
p(X=k)
F(k)
0.4
0.10
0.05
0.2
0.00
0.0
2 4 6 8 0 2 4 6 8 10
k k
plot(stepfun(0:9,pbinom(0:10,10,0.3)),xlab="k",ylab="F(k)",main="Función de distribución
b(x,10,0.6)",cex.lab=1.5, cex.main=1)
points(x, dbinom(x, 10,0.3), pch=16)
3.4 Distribución de proporciones.
x
3.4.1 Distribución de proporciones desde la binomial. Sea Xp
n
73
x 1 2 n
: Si x b( x, n, p) y Xp con Xp , ... , entonces
n n n n
1 1
E ( Xp) E ( 1n x) E ( x) np p (3.21)
n n
2 X 1 2 1 pq
( Xp) 2 ( X ) 2 npq
2
(3.22) .
n n n n
La función de distribución de la variable aleatoria Xp es la misma de la binomial.
Por ejemplo, Una muestra aleatoria de 50 árboles encontró 16 árboles sanos. Encuentre
la probabilidad y la varianza de encontrar arboles sanos en una muestra de 5 árboles.
16 0.32 0.68
Xp 0.32 ; q = 0.68 ; n = 5,
50 5
x
3.4.2 Aproximación a la normal de la Xp . La distribución de proporciones desde el
n
teorema del límite central permite ver que:
pq
E ( Xp) p : 2 ( Xp) . Si n es grande Xp , entonces:
n
Xp p a p bn
Z p(a Xp b) p Z (3.23)
pq n pq n pq n
En estos casos también debe aplicarse la corrección por finitud para discretizar la
variable. La corrección para continuidad se aplica sí:
0.5 0.5
a n p b
n
p
p(a Xp b) p Z (3.24)
pq n pq n
Por ejemplo. El porcentaje de recuperación de ciertos árboles después de un incendio es
del 60%. Al tomar una muestra aleatoria de 300 árboles, qué probabilidad habrá de que el
porcentaje de recuperación sea del 65% o más?
p = 0.60 ; q = 0.40 ; n = 300 npq>15. Entonces
pq
p(Xp 0.65) 1 p(Xp 0.65) ; y x2 x pq n 0.0283 ,
n
por tanto
p( Xp 0.65) p(Z Z a ) ; si
0.5
0.65 0.60
Za 300 1.707 ; p(Z Za) 0.0436; p 4.36% ,
0.0283
74
Figura 3.13 Arbol de resultados para un experimento multinomial
E1: la suma de puntos al tirar los dados es 7 u 11. Ya sabe como calcular estas
probabilidades: P(7)=6/36, p(11)=2/36, por tanto P(7U11)= 6/36 +2/36=8/36=2/9
E2: Al tirar los dados se obtienen cenas (un doble). Ocurren 6 casos de 36, entonces la
probabilidad de un doble es 1/6.
E3: la suma de puntos al tirar los dados no es 7 u 11 ni un doble, cuya probabilidad será
36/36 - 8/36-6/36 = 11/18. Los valores anteriores son constantes de ensayo a ensayo
entonces, reemplazando en la fórmula:
2 1 11 6 2 1 11
2 1 3 2 1 3
6! 2 1 11
f (2,1,3;6; , , ) 0.1127
9 6 18 2,1,3 9 6 18 2!1!3! 9 6 18
Ejemplo (2): Una caja contiene 5 libros de historia (H), 4 de matemáticas (M) y 3 de
literatura (L). Si se extrae un libro al azar, se identifica y se regresa a la caja, hallar la
probabilidad que, de 6 libros extraídos en la forma presentada, 3 sean de H, 2 de M y, 1
75
de L. Lo primero buscar las probabilidades de cada uno: p(H) = 5/12, p(M) = 4/12 y; p(L) =
3/12
5 4 3 6 5
3 2 1 3 2 1
4 3 6! 5 4 3 625
f 3, 2,1;6; , ,
12 12 12 3, 2,1 12 12 12 3! 2!1! 12 12 12 5184
o sea 12.06%
En R
multi<-function(x1, x2, x3, p1, p2, p3) {
+ (factorial(x1+x2+x3)/(factorial(x1)*factorial(x2)*factorial(x3))*p1^x1*p2^x2*p3^x3)
+ }
ejemplo
multi(4,5,2,0.5,0.25,0.25)
[1] 0.02643585
Por ejemplo: en un lote de 50 plántulas se sabe que 8 no son de la misma especie. ¿Si se
han elegido 5 plántulas del lote, cual es la probabilidad que al menos una de ellas sea de
la especie de los 42 restantes? Se puede calcular entonces la probabilidad que ninguna
de las extraídas lo sea, es decir
42! 8!
5!(42 5)! (5 5)!(8 5 5)!
50!
8!(30 8)!
Busca encontrar la probabilidad de seleccionar x éxitos entre k ítems previamente
denominados como éxitos y n-x fracasos entre los N-k ítems denominados fracasos,
cuando se selecciona una muestra aleatoria de tamaño n entre N ítems. A lo anterior se le
conoce como experimento hipergeométrico, caracterizado por las propiedades siguientes:
1- Una muestra aleatoria de tamaño n es seleccionada de un espacio muestral con N
ítems y,
2- De los N ítems, k se consideran como éxitos y N-k, como fracasos.
76
Otro ejemplo: Ejemplo: Sea una muestra de N=250 bombillos (50 azules, 150 blancos y,
50 amarillos). ¿Si se extrae una muestra de 30 bombillos (n), aleatoriamente, cuál será la
probabilidad de encontrar 5 bombillos azules? Los Éxito son entonces bombillos azules.
m <- 50; n <- 200; k <- 30
x <- 0:(k+1)
x
[1] 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
29 30 31
dhyper(x, m, n, k)
[1] 7.676969e-04 6.734183e-03 2.781766e-02 7.203648e-02 1.313424e-01 1.795263e-01
1.912567e-01 1.630081e-01 1.132128e-01 6.493397e-02 3.106008e-02
[12] 1.248019e-02 4.234351e-03 1.217443e-03 2.972715e-04 6.170393e-05 1.088527e-05
1.629880e-06 2.066249e-07 2.209522e-08 1.982756e-09 1.482988e-10
[23] 9.163352e-12 4.623994e-13 1.877008e-14 6.006425e-16 1.473319e-17 2.659120e-19
3.309510e-21 2.523279e-23 8.831478e-26 0.000000e+00
x <- 0:5
dhyper(x, m, n, k)
[1] 0.0007676969 0.0067341834 0.02
77
3 5 3 5
p( X 2) h 2;8,5,3 p( X 3) h 3;8,5,3
2 3 30 3 2 10
0.5357; 0.1786
8 56 8 56
5 5
3 5
x 5 x
y, en general puede verse para este problema que: p ( X x) h( x;8,5,3)
8
5
En EXCEL sería como lo muestra la Tabla 3.5
N n x k h(x,n,k,N)
8 5 0 3 0.0179
8 5 1 3 0.2679
8 5 2 3 0.5357
8 5 3 3 0.1786
Ejemplo (3). En un vivero, se empacan 50 plántulas por caja, las cuales son aceptadas
por un reforestador si no salen más de 2 muertas/caja. El reforestador adopta como
procedimiento para muestrearlas, seleccionar 5 plántulas al azar y rechazar la caja si una
sale muerta. Cuál es la probabilidad de encontrar exactamente una plántula defectuosa en
la caja, si se esperan 2 muertas/caja.
Para este problema, empleando la distribución hipergeométrica: N=50, n=5, k=2 y x=1:
2 48 2 48
1 5 1 1 4
p( X 1) h(1;50,5, 2) 0.184
50 50
5 5
Lo anterior, nuevamente se resuelve fácilmente en EXCEL
N n x k prob
50 5 0 2 0,808
50 5 1 2 0,184
50 5 2 2 0,008
La media y varianza, para calcular entonces los límites de confianza para la media serán:
nk 5* 2 N n k k 50 5 2 2
E( X ) 0.2; 2 ( X ) n 1 5 1 0.17633
N 50 N 1 N N 50 1 50 50
En R: x, q, vector de cuantiles que representan el número de objetos diferentes a otro
salidos sin reemplazamiento desde un S que contiene los dos objetos contrastantes (E y
F).
78
m = número de objetos (éxitos) en el S.
n = el número de Fracasos en S.
k = número de objetos extraídos.
p = probabilidad.
nn = numero de observaciones. Si length(nn) > 1, debe ser el numero requerido.
f (x ) n 2
2
( x2 ) 2 e 2
2 n2
n2 x
2) f ( x) kn x 2 e 2 x 0*
(3.32)
3) f ( x) 0 cada que x 0
*Es mucho más fácil trabajar con 2) de (3.25), conociendo kn. La Figura 3.14 muestra la
densidad de la distribución para varios valores de n (grados de libertad).
79
La constante Kn se debe elegir de tal forma que cuando X = , F() = 1, lo cual es
1
posible con kn
2n 2 n 2
Debido a la dificultad para calcular F(x), se usan tablas de ella, configuradas para
diferentes niveles de probabilidad y para n grados de libertad o se acude a los
programas estadísticos actuales como el EXCEL que ya las traen incorporadas. A manera
de ejemplo se presenta un modelo de ellas, que evalúan p x 2 2 (n) , es decir que
2
n es el valor de la variable aleatoria 2 con n grados de libertad de modo que el área
bajo la curva a su lado derecho valga , como se aprecia en la Figura 3.15.
2
Tabla 3.6. Tabla de Probabilidades para una a manera de ejemplo.
Por ejemplo, encontrar el valor de 2 a partir del cual la probabilidad de un mayor valor
sea 0.05 con 15 grados de libertad. Se busca en la tabla bajo el encabezado = 0.05 y se
cruza con n = 15, entonces p (15)
2
24.996 0.05 . Esto en el EXCEL se obtiene en
funciones como PRUEBA.CHI.INVERSO, tabla 3.7, izquierda, asi:
Tabla 3.7 valores de probabilidades en inversos para una chi cuadrada en EXCEL
80
Figura3.15 Distribución chi cuadrado para 15 grados de libertad
También se puede encontrar el área conocido un valor de 2 . Por ejemplo, encontrar con
10 grados de libertad la probabilidad de que 2 10 3.94 . En la tabla respectiva se
encuentra que 0.05 , o sea p( 2 3.94) 0.05 .
2) Es una distribución asimétrica con valores de 2 0.
3) Si dos variables independientes G1 n2 gl y G2 n2 1 2 gl su suma también es una
, o sea (G1 + G2)
2 2
( n1 n2 ) gl
81
aclarará al estudiar las hipótesis en detalle. En general la propuesta como H o se da en la
parte blanca de la figura 3.12. si los valores encontrados en la validación del modelo están
entre 0 y 2 , como en la mayoría de pruebas estadísticas convencionales.
Observados noi 21 17 20 19 18 20
Estimados nei 17.8 18.4 19.0 18.0 18.4 19.6
Los valores esperados se obtienen con una simple proporción: si por 5 quesos hay 4 sin
ataque por 150 cuántos se esperarán?, o sea:
5 150 (120 114)2 (36 30)2
x 120; x2 1.2605 . En la tabla 12gl 3.841 dado que
4 x 120 30
2 2
calc . tab .
Ho : la proporción encontrada es correcta.
3.6.3.2 Corrección por continuidad de una prueba 2. Los valores obtenidos para las
pruebas de concordancia, pertenecen a una distribución discreta o discontinua, en que se
pueden tomar apenas ciertos valores. En el caso de los quesos, por ejemplo las
observaciones, o1 = 114, o2 = 36, e1 = 120, e2 = 30. Si se hubieran observado por ejemplo
113 y 37, la 2 hubiera sido: (113 - 120)2/120 + (37 - 30)2/30 = 2.0417, para 112 y 38, la
82
2= 2.6667, y así para el resto, estos obviamente forman una distribución discreta, para
valores entre 1.2605 y 2.6667. Sin embargo las tablas son para distribuciones continuas,
para unos grados de libertad dados, es decir todos los valores en el rango anotado son
posibles, con lo cual sin darnos cuenta se altera el nivel al cual se trabaja. Esta
situación es especialmente desafortunada para 1 g.l., en cuyo caso se recomienda la
transformación de Yates para continuidad, en forma similar a lo visto para proporciones:
o e 0.5
2
2
2 i i
(3.37) .
i 1 ei
En el ejemplo entonces: 2 120 114 0.5 120 36 30 0.5 30 1.2604 , en el primer
2 2
caso, que parece innecesaria, pero evaluada en el segundo caso con 113 y 37 hubiera
dado 1.7604, con lo cual hubiera cambiado . Cuando los grados de libertad = 1 se debe
acudir rutinariamente a esta corrección, pero no es aplicable para gl > 1.
3.6.3.3 Otro criterio para los grados de libertad de 2 . La H 0 de que unos datos de X
provienen de un modelo dado tiene dos variantes, la primera especifica completamente la
distribución por ejemplo X (7, 3) , la segunda solo especifica la forma, por ejemplo
X (?,?) .
83
Tabla 3.10 Clasificación de una muestra de personas por hábito de fumar y
propensión al cáncer
FUMADORES
ENFERMOS SI NO TOTAL
NO A B A+B
CANCER
SI C D C+D
TOTAL A+C B+D A+B+C+D
A B A
Si las clasificaciones fueran independientes , etc, como en un caso
A B C D AC
típico de proporciones en áreas de paralelogramos construidos con sus respectivos
valores superficiales. Acá se prueba la Ho: las clasificaciones son independientes, Ha: las
clasificaciones dependen la una de la otra.
3.6.4.1 Tablas de contingencia 2x2. En forma genérica se presentan así para variables
contrastantes como en el caso anterior Tabla 3.11, X1 = Variable con característica, NX1 =
Variables sin la característica anterior, lo mismo para X2, a, presencias de ambas
características, b presencia de X2 pero no de X1, d ausencia de ambas. La expresión para
la 2 se obtiene como:
n
n( ad bc )2
n(ad bc)2 2
2
;o
2
(3.38)
(a c)(b d )(c d )(a b) (a c)(b d )(c d )(a b)
X1 No X1 TOTALES
X2 a b a+b
Característica 2
No X2 c d c+d
Por ejemplo, probar si la presencia de flores blancas se asocia con hojas simples en
determinadas especies cuyos datos se dan en la Tabla 3.12
si 5 16 21
no 8 2 10
TOTAL 13 18 31
31(5 x 2 8 x16) 2
En ese caso 2 8.78 . Para 0, 05; cal
2
3.841 , entonces es dable
(13)(18)(10)(21)
pensar una asociación entre el tipo de hojas y flores blancas en esas especies.
84
3.6.4.2 Corrección de Yates para n reducido. Para n pequeño la corrección de Yates
por una usar una variable como continua para variables discretas, se plantea como la
ecuación derecha (3.38). Esta prueba según otros autores es aplicable solo cuando n>20.
3.6.4.3 Prueba de Fisher o Freeman-Halton. La prueba exacta para tabla 2x2 bajo la
asunción de independencia se basa en la distribución hipergeométrica al fijar las
frecuencias marginales tanto para filas como columnas. La probabilidad fija de ocurrencia
de los eventos a, b, c, d de la tabla 3.12 se propone por Fisher como:
(a c)!(b d )!(c d )!(a b)!
p (3.39)
a !b !c !d !n !
cuyo valor es 0.00444 o sea permite rechazar H 0 coincidiendo con la prueba anterior.
También se permiten comparaciones de una cola o unilaterales con base H 1 : p1 p2 o su
opuesta, constatando hacia donde va la dirección de ella. Por ejemplo en los datos de la
5 8
tabla 3.8 se obtiene H 1 : p1 p2 ya que p1 0.238 p2 .08 . Los datos entonces
21 10
parecen sugerir que las especies con flores de colores tienen más relación con el tipo de
hojas simples. Pero para probarlo se acude a las tablas más extremas que las observadas
que se logran restando 1 a la frecuencia menor observada y ajustar los demás datos para
que no varíen los totales fila y columna originales Tabla 3.13. Bastaría con calcular las
probabilidades para (1), (2) y (3) con la ecuación (3.33) de Fisher. Si la suma de ellas es
menor de 0.05 se rechaza H 0 .
Tabla 3.13. Tablas de contingencia 2x2 más extremas de la tabla 3.12
factoriales fila 6227020800 6,40E+20 8,22E+38 6227020800 6,40E+20 8,22E+38 6227020800 6,40E+20 8,22E+38
factoriales
5,11E+24 5,11E+24 5,11E+24
columna
3628800 3628800 3628800
8,22E+38 8,22E+38 8,22E+38
a! b! a! b! a! b!
120 2,09E+18 24 3,56E+19 6 6,40E+20
c! d! c! d! c! d!
40320 2 362880 1 3628800 1
n! 8,22E+38 n! 8,22E+38 n! 8,22E+38
85
denom 1,66E+59 denom 2,55E+60 denom 1,15E+62
Suma pi 0.004736342
fisher.test(x)
Fisher's Exact Test for Count Data
data: x
p-value = 0.005723
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.006799682 0.619812040
sample estimates:
odds ratio
0.08662147
Por ejemplo: se sospecha que puede existir alguna relación entre la duración de
determinados incendios forestales (en horas) y la altura promedia de los bosques. Los
incendios fueron calificados como (A) leves, cuando duraban menos de 4 horas, (B)
medianos < 10 horas y (C) severos > 10 horas. Los bosques se clasificaron como BI,
cuyas alturas en promedio eran < 12m, 12< BII < 20 m, BIII > 20m. Se estudió el reporte
anual en el Centro de Antioquia y se encontró lo siguiente en número de incendios
clasificados por ambos criterios que se constituyen en oi , Tabla 3.14.
Tabla 3.14 Reporte de tipos de incendios y tipos de bosques para el centro de Antioquia
Tipo de incendio Tipo de Bosque Suma TI
BI BII BIII
A 27 48 62 137
B 32 46 67 145
C 26 51 61 138
Suma TB 85 145 190 420
Si las clasificaciones fueran independientes, se cumpliría que las proporciones de
incendios deberían ser las mismas para los 3 tipos de bosque. Entonces se debe generar
una tabla de datos esperados bajo la hipótesis de que ambas clasificaciones son
independientes.
86
Tabla 3.15 Valores esperados de incendio bajo la independencia
Tipo de incendio Tipo de Bosques
BI B II B III
A 27.73 47.3 62
B 29.34 50.1 65.6
C 27.93 47.6 62.4
La formación de la tabla de datos esperados bajo independencia Tabla 3.15, será
137 ABI 145 BBII 138 CBIII 137
entonces así: ; ; , Posición A, B II = 145 ; AB III =
420 85 420 145 420 190 420
137 145 138
190 ; Posición (B, BI) = 85 ,...(C, B III) = 190 62.4 . Datos esperados / año,
420 420 420
2
Se plantea entonces una con los grados de libertad = (número de filas - 1)x(número de
columnas - 1):
(27 27.73)2 (48 47.3)2 (61 62.4)2
2 1.03 y,
27.73 47.3 62.4
se compara con la 222 g.l. 42g.l. 0.05 9.49 . como calc
2
.
2
tab .
entonces la hipótesis
planteada (que además permitió calcular e i) de que ambos criterios de clasificación eran
independientes parece válida. Los tipos de incendio no tienen que ver con la altura
promedia alcanzada por los bosques, por lo tanto existirán otras variables que inciden en
la duración de ellos. Como se ve las pruebas de asociación involucran dos variables
categóricas por lo que este tema hace parte de una estadística de datos categóricos.
Cochran propuso, que cuando los grados de libertad >1, ninguna frecuencia esperada sea
<1 y, menos del 20% de las frecuencias esperadas < 5 deben ser aceptables para las
pruebas. Para las tablas 2x2 se recomienda Freeman-Halton cuando n<20 o n<40 sí
alguna frecuencia esperada<5. En casos contrarios se debe acudir a las pruebas
corregidas. Maxwell propone usar la normal cuando fxc>30 y las frecuencias esperadas<
5 aun con ceros.
3.6.5.2 Medidas de asociación en tablas fxc. Existen varios coeficientes para estimar el
índice de asociación cuando se rechaza H 0 . El más conocido es el coeficiente de
contingencia de Pearson:
2
Cc (3.40)
n
2
87
2 (m 1)
0 Cc ; m min( f , c) (3.41)
n 2
m
Para comparaciones es mejor el Ccr relativo del anterior:
Cc
Ccr (3.42) .
Cc max imo
Existe también el índice de Cramér situado entre 0 y 1:
2
Ccramer ; M max ( f 1), (c 1) (3.43)
nM
Las anteriores medidas son difíciles de interpretar a veces y se precisa entonces acudir a
la estadística de datos categóricos.
Por ejemplo, se hizo un muestreo en el aeropuerto de Rionegro con respecto al color del
pelo y de los ojos de los pasajeros llegado en un día cualquiera, para ver si existía algún
grado de asociación entre ambos, con los siguientes datos, de los cuales se formó un
archivo (peoj):
pelo ojos sexo frec
1 negro cafe masc 35
2 cafe cafe masc 56
3 rojo cafe masc 13
4 rubio cafe masc 6
5 negro azul masc 14
6 cafe azul masc 53
7 rojo azul masc 13
8 rubio azul masc 33
9 negro castaño masc 13
10 cafe castaño masc 28
11 rojo castaño masc 10
12 rubio castaño masc 8
13 negro verde masc 6
14 cafe verde masc 18
15 rojo verde masc 10
16 rubio verde masc 11
17 negro cafe feme 39
18 cafe cafe feme 69
19 rojo cafe feme 19
20 rubio cafe feme 7
21 negro azul feme 12
22 cafe azul feme 37
23 rojo azul feme 10
24 rubio azul feme 67
25 negro castaño feme 8
88
26 cafe castaño feme 32
27 rojo castaño feme 10
28 rubio castaño feme 8
29 negro verde feme 5
30 cafe verde feme 17
31 rojo verde feme 10
32 rubio verde feme 11
Creamos lo objetos parra R, un archivo (peoj):
peoj<-read.table("clipboard")
attach(peoj)
names(peoj)
[1] "pelo" "ojos" "sexo" "frec"
La grafica siguiente muestra el exceso (barras negras) de gente con pelo negro con ojos
cafés, el exceso de gente con pelo rubio con ojos azules, y el exceso de pelirojas que
tienen ojos verdes. Las barras rojas muestran las categorías donde la menor cantidad de
gente fue observada que la esperada, bajo la hipótesis nula de independencia de ambos
colores pelo, ojos.
89
La misma gráfica desplegada como un mosaico:
mosaicplot(x, shade = TRUE)
, , masc
mosaicplot(y,main="Mosaico entre color del pelo y color ojos, por sexo", shade =
TRUE,xlab="Color pelo",ylab="Color ojos")
El mosaico muestra más mujeres rubias de ojos azules que las esperadas, en caso de
independencia y pocas rubias con ojos café.
90
Cuando hay o es posible crear múltiples tablas 2×2 (dataframes con tres o más variables
categóricas explicatorias), R dispone de la opción “fourfoldplot”, pues permite la
inspección visual de las asociaciones entre dos variables dicotómicas en una o varias
poblaciones (conocidas como estratos).
Por ejemplo, sean los datos de admisión (admitidos y rechazados) en una universidad,
por facultades y por sexo, así:
est facult sexo admision
51 Arquit masc admit
35 Biolog masc admit
12 Econo masc admit
14 Human masc admit
5 Ingen masc admit
2 Matema masc admit
31 Arquit masc recha
20 Biolog masc recha
21 Econo masc recha
28 Human masc recha
14 Ingen masc recha
35 Matema masc recha
9 Arquit feme admit
2 Biolog feme admit
20 Econo feme admit
13 Human feme admit
9 Ingen feme admit
2 Matema feme admit
1 Arquit feme recha
1 Biolog feme recha
91
40 Econo feme recha
24 Human feme recha
30 Ingen feme recha
32 Matema feme recha
uni<-read.table("clipboard")
attach(uni)
names(uni)
[1] "est" "facult" "sexo" "admision"
head(uni)
est facult sexo admision
1 51 Arquit masc admit
2 35 Biolog masc admit
3 12 Econo masc admit
4 14 Human masc admit
5 5 Ingen masc admit
6 2 Matema masc admit
x<-tapply(est,list(admision,sexo,facult),sum)
x
, , Arquit
feme masc
admit 9 51
recha 1 31
, , Biolog
feme masc
admit 2 35
recha 1 20
, , Econo
feme masc
admit 20 12
recha 40 21
, , Human
feme masc
admit 13 14
recha 24 28
, , Ingen
feme masc
admit 9 5
recha 30 14
, , Matema
feme masc
admit 2 2
recha 32 35
92
Que miramos en estos gráficos? Lo más importante sabe si las ratas de rechazo son
diferentes por sexo y como varían estas por facultad. Las gráficas muestran lo sucedido
por facultad (estratos), por ejemplo, en Arquitectura fueron admitidas 9 mujeres de 10,
rechazada 1, para los varones hubo 51 admitidos y 31 rechazados, y así por el resto de
facultades. Se ve que las mujeres fueron mayormente rechazadas en Ingeniería y,
matemáticas. ¿Pero es suficiente esta visión? Parece que no, entonces se presenta un
análisis que escapa a este curso, pero no obstante se analiza acudiendo a modelos
lineales generalizados
mode1<-glm(est~facult*sexo*admision,poisson)
anova(mode1,mode2,test="Chi")
Analysis of Deviance Table
93
Model 1: est ~ facult * sexo * admision
Model 2: est ~ facult + sexo + admision + facult:sexo + facult:admision +
sexo:admision
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
1 0 0.0000
2 5 3.5867 -5 -3.5867 0.6103
3.6.6 Pruebas de bondad de ajuste 2 . Constituyen la más vieja prueba y la más versátil
para evaluar asunciones distribucionales, es decir si una muestra se extrajo de
determinada población, como la normal, la binomial, la Poisson, o de algún otro tipo de
distribución, que se supone se ajusta bien a unos datos, contra la distribución real de
ellos. Para usarla los datos deben agruparse en clases y compararlas con los valores
esperados de la distribución supuesta. La prueba sigue una 2 únicamente si el modelo
asumido es correcto y correctamente calculado, pues tiende a exceder la variable 2 en
caso contrario. Su mayor defecto es la falta de sensibilidad para detectar modelos
inadecuados con pocas observaciones y la necesidad del arreglo en clases que pueden
afectar el éxito de la prueba.
En primer lugar, es preciso estimar los parámetros de la distribución asumida, ojalá los de
máxima verosimilitud. Dividir en k clases y calcular la probabilidad de que un valor
aleatorio del modelo asumido caiga en la clase. Se debe asegurar que el mínimo número
por clase sea a lo menos de 5 datos si no, se deben juntar clases contiguas. Cuando n es
grande para algunos autores n>200), se puede usar la estadística empírica para calcular
k:
kˆ¨ 4 5 0.75 (n 1)
1
(3.44)
Para n moderado k debe restringirse a no sobrepasar n/5. En estos casos lo único que
cambia son los grados de libertad, que se calculan así: GLB de A = k - 1 – P, en que P =
número de parámetros de la distribución
.
n k n k
20 6.8 200 10.89
40 7.86 220 11.1
60 8.54 240 11.29
80 9.05 260 11.47
100 9.47 280 11.65
120 9.82 300 11.81
140 10.13 320 11.96
160 10.41 325 11.96
180 10.66 340 12.11
94
O
a) G 2 O ln( ); b) G fi ln( fi fiˆ ) fi ln( fi) fi ln( fiˆ ) (3.45) ,
E
con algunas ventajas y desventajas, entre éstas últimas, cálculos más complicados y, de
pronto, que su distribución teórica casi no se conoce aunque se aproxima a una 2.
Entonces
G 2 fi ln( fi fiˆ ) 4.60517 fi log10 ( fi fiˆ ) ó;
G 2 fi ln fi fi ln fiˆ 4.60517 fi log10 fi fi log10 fiˆ .
ˆ ˆ
Esta prueba se recomienda en vez de siempre que fi fi fi .También puede usarse
2
en otra ocasiones como el problema de los quesos Por ejemplo: 114 ln 114 + 36 ln 36 -
114 ln 120 - 36 ln 30 = 0.71614., con lo cual G = 1.4322 que se puede comparar con la 2
y prevalece Ho. Entonces se puede corregir por continuidad con la fórmula de Yates.
3.7 Distribución de Poisson. Además de valorar eventos raros, es muy útil en algunos
campos como la silvicultura, por ejemplo, para la caracterización de patrones de
asociación de las especies, como aleatorios, uniformes o sistemáticos.
95
Si x 0 f (1) f (0)
1
Si
x 1 f (2) f (1)
2
2
f (2) f (0) f (0)
f ( x 1) f ( x) 0 21 2 1 (3.48)
( x 1)
3
Si x 2 f (3) f (2) f (0)
3 3 2 1
Si x f ( x) f (0) A
!
0
Usando A se puede recalcular f (0) f (0) 1 f (0) , de donde sale la sumatoria:
0!
x
2 3 x
f ( x) f (0) f (1) f ( x) f (0) 1 1 (3.49) ,
x 0 2! 3! x!
en la cual el término entre paréntesis es un famoso límite = e de donde:
x
1
f ( x) f (0)e 1 f (0) e
x 0
e que al llevarla a [A] da:
x
f ( x) e (3.50) ,
x!
una función de probabilidad que se puede expresar como P(x, ). Para caracterizarla
entonces basta encontrarle su media y varianza.
probabilidad.
96
3.7.2 Cambios en la distribución de Poisson al aumentar Al aumentar el valor de ,
la distribución va tendiendo a la normal, como se aprecia en la figura 3.13 en la cual se
unieron los puntos con una línea continua solo para mostrar la forma que adoptan las
distribuciones.
3.7.3 Características:
1) Es aplicable a poblaciones o muestras en que se dan sucesos con baja probabilidad, o
sea para modelar eventos raros.
2) Es discreta y los eventos son independientes, una vez dado un suceso no altera la
probabilidad del siguiente.
3) Los individuos que cumplen lo anterior se consideran distribuidos al azar.
4) Se puede generalizar que si np = 10 o = 10 se comporta como Normal. Figura 3.16.
5) Su distribución de probabilidades se puede tabular, similar a lo mostrado para la
binomial:
r
x
p( x r ) e (3.52)
x 0 x!
Ejemplo (4) Para estudiar la bondad de ajuste se estudiaron 829 platos de Petri de
acuerdo con el número de semillas inviables encontrados en cierto sustrato, tabla 3.16
con el siguiente resultado: El valor de la c2 41.29 se compara con 0.05,
2
6 12.6 con lo cual
97
Y para la función de distribución acumulada:
x <- 0:6
x <- rep(x, rep(2, length(x)))
plot(x[-1], ppois(x, lambda=4)[-length(x)], xlab="x",
ylab="Probabilidades", main="Poisson acumul.: Media = 4", type="l")
abline(h=0, col="blue")
abline(v=0, col="blue")
Distribuion de Poisson: lambda = 6 Poisson acumul.: Media = 6
0.6
0.15
0.5
0.4
0.10
Probabilidades
Probabilidades
0.3
0.2
0.05
0.1
0.0
0.00
0 1 2 3 4 5 6 0 1 2 3 4 5 6
x x
3.8 Distribución t de student. Se puede considerar como otra versión del teorema del
límite central. Fue dada a conocer en 1908 por W.S. Gosset bajo el seudónimo de
“student”, al notar que con n < 30, los valores de s 2 fluctúan apreciablemente de muestra
X
en muestra y ya no se comportaban como una Z. Se encuentra dividiendo
s n
numerador y denominador de la anterior por n
X
n Z
t (3.53)
s n s 2
2
n
(n 1) s 2 s2 2
Dado que se conoce el resultado 20.05, n 1 , entonces
2 2 (n 1)
98
Tabla 3.16 Número de semillas muertas encontradas en vasos de Petri, y
distribución ajustada con Poisson, media 1,21 y varianza 1.91
Se acostumbra representar con t al valor de la t para el cual otro valor mayor que él se
encuentre en el área , Figura 3.17.
Por ejemplo, el valor de t con 5 gl que permite encontrar un valor mayor que el ocupa un
área de 0.025, y vale 2,571. Otra forma de decir esto es t(5, 0.025) = 2.571, o que el valor de
t para el cual se tiene un área de 0,025 es 2.571. Como es simétrica con respecto a la
media 0, entonces - t es el valor a partir del cual hacia la izquierda hay un valor de
0,025, o de otra forma t(1 ) t . De la misma figura se puede ver entonces que:
99
X
P t2 t1 1 (3.56) ,
s n
de la cual aparece una inferencia importante para la media poblacional:
s
X t( , n 1) ; o X t sX (3.57)
n
Ejemplo (1). Los valores más probables obtenidos para el promedio de supervivencia de
unas plántulas de eucalipto recién sembradas con una probabilidad del 95%
muestran: 87 2.01 0.6324 85.72 88.24 , o localizada entre estos dos valores. La t
se usa en pequeñas muestras cuando n 30 y se desconoce y es indiferente por
encima de n = 30 usar N o t..
Ejemplo (2). Encontrar la altura media poblacional de un bosque en el cual en varios sitios
dio los siguientes valores 19.3, 17.2, 20.1, 17.3, 21.4, 20.8, 16.4, X 18, 93 ;
s 1,964; sX 0,7425; t0.95, 6 2.447 , 18,93 2.447 0.7425 17,11 20,74 .
100
U y V dos VA independientes que se distribuyen U (1,2 k g .l .) ; V (1,2 k g .l .) , por lo cual se 1 2
caracteriza con base en los grados de libertad del numerador y del denominador y por eso
se escribe como: Fk , k 12 k1 22 k2 y tiene como función de densidad:
1 2
Se puede definir un valor f como aquel a partir del cual se encuentra un valor para el
área bajo la curva de h(f). En algunas tablas se dan las áreas de las colas así: cola de la
derecha P(F > F) = ; ambas colas P(F/2< F < F/2) = . Por ejemplo, una tabla de cola
de la derecha sería similar a la Tabla 3.17.
que expresa que si se tiene f( , k , k ) , para encontrar f1 con k1 y k2 grados de libertad,
1 2
entonces:
1 1
f (1 , k1 , k2 ) , o F1m n (3.61)
f ( , k2 , k1 ) Fnm
1 1
Por ejemplo: F(0.05, 6,10) 3.22 F(0.95, 6,10) 0.2463 , Figura 3.16 b).
f(0.05,10,6) 4.06
Tabla 3.17 Valores críticos de la distribución F
F0. 05, (k1, k2)
Grados Liber k1=1 2 3 … 6 … 9
K 2=1 161 200 216 … … 241
2 18.5 19 19.2 … … 19.4
3 10.1 9.55 9.28 … … 8.81
… … … … … … …
… … … … … … …
10 … … … … 3.2 … …
… … … … … … … …
14 4.6 3.74 3.34 … … … 2.65
101
(n 1) s 2
3.9.1 Aplicaciones. Se había encontrado al estudiar la 2 que 2n 1 g .l . .
2
Supóngase que se seleccionan dos muestras aleatorias de tamaños n 1 y n2, de dos
poblaciones normales que tienen 12 y 22 . De acá pueden salir múltiples opciones de
prueba. Al usar F de acuerdo con una reinterpretación de su definición:
(n1 1) s12
12 (2n1 1)
(n1 1) (n1 1)
F( ;( n1 1), ( n2 1)) (3.62)
(n2 1) s22 (2n2 1)
22 (n2 1)
(n2 1)
n1 1
o sea F n2 1 , que también se plantea como
s12
12
2
Fn,1 n211 (3.63)
s
22
que conduce a uno de los usos más frecuentes de la F para probar homogeneidad de
varianzas, o sea que 12 22 , con lo cual sería posible que los datos no fueran de dos
poblaciones diferentes sino que provinieran de una sola. Entonces:
s12
12 s12
2
2 F nn1211 ; si 12 22 (3.64)
s s2
22
Nota: Las hipótesis que plantean igualdad se llaman de 2 colas, por lo cual = 0,025 en
cada cola. Esta prueba llega hasta la estadística multivariada por lo cual otras
aplicaciones surgirán naturalmente con posterioridad.
102
la muestra para una buena estimación de la media de los datos de la variedad 2, Tabla
3.18:
Tabla 3.18 Altura en metros de 8 árboles de variedad 2 para estimar su media
V2 23 22 16 14 16 25 24 15
2
155, X 2 19.38, s 20.55 Se empieza con una suposición inicial de que una
2
2
Se repite el proceso con n = 8 hasta lograr una convergencia. En este caso se asume que
la muestra tomada bastaba. Se acude acá a una prueba de potencia que será estudiada
posteriormente.
3.10.2 Prueba de Cochran. Con base en la anterior, cuando la muestra n representa una
alta fracción de una población muestreada de tamaño N (tamaño poblacional), siquiera de
un 5%, Cochran propone:
nˆ
n (3.66)
( ˆ 1)
n
1
N
3.10.3 Tamaño muestral para una binomial. Como se vio la función de densidad de una
binomial encuentra la probabilidad para x éxitos en n intentos con probabilidad constante
p. Por ejemplo si capturamos 5 insectos de una población en la cual el 12% son una
especie de escarabajos, obtenemos la Tabla 3.19 con la distribución acumulada.
103
en la cual observamos que el número más probable de escarabajos en la muestra es 0 y
que lograr 2 o menos es casi 1. Al calcular los percentiles para 0.025 y 0.975
obtendríamos los valores 0 y 2 respectivamente para un nivel de confianza del 95%, o sea
que con diversas muestras aleatorias obtendríamos entre 0 y 2 escarabajos con este nivel
de certidumbre, resultando muy improbable capturar 3 o más en las circunstancias
descritas.
alfa prob n
0.05 0.01 298
0.05 0.02 148
0.05 0.03 98
0.05 0.04 73
0.05 0.05 58
0.05 0.06 48
0.05 0.07 41
0.05 0.08 36
0.05 0.09 32
0.05 0.10 28
0.05 0.15 18
0.05 0.20 13
0.05 0.25 10
0.05 0.30 8
0.05 0.35 7
0.05 0.40 6
Anexo
dbinom(0:10,10, 0.3)
[1] 0.0282475249 0.1210608210 0.2334744405 0.2668279320 0.2001209490
[6] 0.1029193452 0.0367569090 0.0090016920 0.0014467005 0.0001377810
[11] 0.0000059049
104
Distribucion acumulada
pbinom(5, 10, .3)
[1] 0.952651
> 1-pbinom(5, 10, .3)
[1] 0.04734899
Función Utilidad
Normal rnorm(n, mean=0, sd=1)
exponencial rexp(n, rate=1)
gamma rgamma(n, shape, scale=1)
Poisson rpois(n, lambda)
Weibull rweibull(n, shape, scale=1)
Cauchy rcauchy(n, location=0, scale=1)
beta rbeta(n, shape1, shape2)
t de Student rt(n, df)
F (Snedecor) rf(n, df1, df2)
Pearson χ 2 rchisq(n, df)
binomial rbinom(n, size, prob)
geométrica rgeom(n, prob)
hypergeométrica rhyper(nn, m, n, k)
logística rlogis(n, location=0, scale=1)
lognormal rlnorm(n, meanlog=0, sdlog=1)
binomial negativa rnbinom(n, size, prob)
uniforme runif(n, min=0, max=1)
x <- rgamma(50,1,3)
> summary(x); fivenum(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.007604 0.098710 0.218600 0.343700 0.404800 1.550000
[1] 0.007604136 0.094867624 0.218566533 0.405641307 1.550206443
> mean(x); median(x); quantile(x); quantile(x,c(0.35,0.9))
[1] 0.343732
[1] 0.2185665
0% 25% 50% 75% 100%
0.007604136 0.098706600 0.218566533 0.404763008 1.550206443
35% 90%
0.1324823 0.8310893
> sd(x); var(x); range(x); IQR(x)
[1] 0.3737721
105
[1] 0.1397055
[1] 0.007604136 1.550206443
[1] 0.3060564
> min(x); which.min(x); x[which.min(x)]; pmin(x[1:5],x[6:10])
[1] 0.007604136
[1] 7
[1] 0.007604136
[1] 0.773787373 0.007604136 0.022997282 0.228642142 0.066287504
> max(x); which.max(x); x[which.max(x)]; pmax(x[4:8],x[2:6])
Función Utilidad
sum(..., na.rm=FALSE) Suma
max(..., na.rm=FALSE) Máximo
min(..., na.rm=FALSE) Mínimo
which.min(x) Posición del máximo
which.max(x) Posición del mínimo
pmax(...,na.rm=FALSE) Máximo en paralelo
pmin(...,na.rm=FALSE) Mínimo en paralelo
cumsum(x), cumprod(x) Sumas y prods acumulados
cummax(x), cummin(x) max's y min's acumulados
mean(x, trim=0, na.rm=FALSE) Media
weighted.mean(x,w,na.rm=FALSE) Media ponderada
median(x,na.rm=FALSE) Mediana
quantile(x,prob=(0,0.25,0.5,0.75,1),na.rm=F) Cuantiles
fivenum(x, na.rm=FALSE) 5-Tukey: min, lower-hinge mediana, upper-hinge, máximo
summary(x, na.rm=FALSE) min,1c,mediana,media,3c,max
IQR(x, na.rm=FALSE) Rango inter-cuartílico
range(...,na.rm=FALSE, finite=FALSE) Rango
var(x, y=x, na.rm=FALSE, use) Varianza
sd(x, na.rm=FALSE) Desviación Típica
mad(x,center,constant=1.4426, na.rm=FALSE) Desviación mediana absoluta
library(e1071)
x <- rgamma(50,1,3)
moment(x,2,center=F) # momento no centrado de orden 2 Consideramos dos distribuciones
asimétricas (Betas) y las vamos a comparar con la normal que es simétrica: nsim<-5000 s1<-
skewness(rbeta(nsim,2,3)) s2<-skewness(rbeta(nsim,3,2)) s3<-skewness(rnorm(nsim,0.5,0.5))
s1;s2;s3 Consideramos ahora una distribución normal y una Student, más achatada, y las
comparamos: k1<-kurtosis(rnorm(nsim)) k2<-kurtosis(rt(nsim,3)) k1;k2
La distribución Uniforme.
106
Al integrar f(x) se obtiene la función de distribución acumulativa F(X)
0 si x a
xa
F x p X x si x a, b
b a
1 si x b
Gráficamente:
Propiedades:
b a
2
E x b a / 2; σ 2
x
12
Para la distribución Uniforme, R, dispone de cuatro funciones:
dunif(x, min=0, max=1, log = F)#devuelve resultados de la función de densidad.
punif(q, min=0, max=1, lower.tail = T, log.p = F)#devuelve resultados de la función de
distribución acumulada.
qunif(p, min=0, max=1, lower.tail = T, log.p = F)#devuelve resultados de los cuantiles
runif(n, min=0, max=1)#devuelve un vector de valores aleatorios de la distribución
Los argumentos que podemos pasar a las funciones expuestas en la anterior tabla, son:
x, q: Vector de cuantiles.
p: Vector de probabilidades.
n: Números de observaciones.
min, max: Límites inferior y superior respectivamente de la distribución. Ambos deben ser
finitos.
log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log
(p).
lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x],
de lo contrario, P [X > x].
Ejemplo, generemos una distribución uniforme con 10 datos entre 0 y 1:
u<-runif(10)
107
u
[1] 0.5406867 0.5869844 0.7230510 0.3312834 0.7997973 0.4053593 0.9289693 0.7422750
0.4951748 0.3200371
para el ejemplo
punif(u)
[1] 0.5406867 0.5869844 0.7230510 0.3312834 0.7997973 0.4053593 0.9289693 0.7422750
0.4951748 0.3200371
dunif(u)
[1] 1 1 1 1 1 1 1 1 1 1
Otro ejemplo: Al estudiar los embarques (X) de una plantación dedicada a madera de
pulpa se encuentran despachos a través del año de entre 2500 y 3500 m 3/mes, entonces
XU : 2500, 3500
a-Calcule la probabilidad que el próximo embarque sea inferior a 2800 m 3:
punif(2800, min=2500, max=3500, log = F)
[1] 0.3
c) Calcular el volumen de embarques x que se encuentran por debajo del 25%, o sea la
P(X <= x) = 0.25.
qunif(0.25, min=2500, max=3500, lower.tail = T, log.p = F)
[1] 2750
Otro ejemplo. Suponga que su bus pasa cada 17 minutos. Calcule la probabilidad de que
lo tenga que esperar menos de 5 minutos
punif(5, min=0, max=17,lower.tail=T, log = F)
[1] 0.2941176
Otro ejemplo: El profesor y un alumno concertan una cita en la oficina entre las 11 y la 12
m. Si además acuerdan que cada uno solo esperaría al otro 10 minuto, cuál será la
probabilidad que no se encuentren si el estudiante llega a las 11 y 30. Siendo a = 11 y
b=12, este intervalo en minutos b-a=60 minutos. La f(t) será
1
para t 0, 60 ,
f t 60 0
0
para t 0, 60
Ya que el alumno llega a las 11 y 30 y esperará 10 minutos más, el profesor no se
encontraría con el alumno si llega a su oficina entre las 11 y las 11 y 20, o si llegara
después de las 11 y 40. Entonces la probabilidad que no se encuentren será
20 60
1 1 1 1 2
p(0 t 20) p(40 t 60) 0 60dt 40 60dt 3 3 3
En R:
e1<-punif(20, min=0, max=60,lower.tail=T, log = F)
e2<-punif(40, min=0, max=60,lower.tail=F, log = F)
e1+e2; [1] 0.6666667
108