Marco Teórico U6
Marco Teórico U6
Marco Teórico U6
PROBABILIDAD Y ESTADÍSTICA
Módulo 6: Test de Hipótesis
Autores:
Mg. María Cristina Kanobel
Lic Luis Alberto Garaventa
Lic. Andrea Alvarez
Año 2016
1. TEST DE HIPÓTESIS
Dentro de la inferencia estadística uno de los puntos más importantes son los
Test o Pruebas de Hipótesis.
Llamamos hipótesis estadística a una afirmación, una conjetura, una sospecha.
Un test de hipótesis podemos considerarlo como un juicio, donde se contrastan dos
afirmaciones: “el imputado es inocente” versus “el imputado es culpable”. En un estado de
derecho se asume la inocencia y se tiene que probar la culpabilidad. Pues bien, un test de
Hipótesis se puede pensar de la misma forma, esto es, hay dos Hipótesis complementarias:
Luego, hay que tener en cuenta que la carga de la prueba se dará en la hipótesis alternativa.
Es decir que, en general, la hipótesis nula se plantea con el objetivo de rechazarla, de modo
de aceptar la hipótesis alternativa: en el ejemplo de juicio, vemos que se parte de la
hipótesis de inocencia del sospechoso, cuando el objetivo es rechazar dicha hipótesis para
aceptar la alternativa, que es la afirmación de culpabilidad.
Las hipótesis que se plantean en un test se refieren a parámetros estadísticos o bien, ciertas
aseveraciones estadísticas.
Ante un test de hipótesis, vamos a tomar una decisión basándonos en los resultados de un
determinado estadístico. La decisión será “Rechazar la hipótesis nula (H0)” o “No rechazar
la hipótesis nula (H0)” y, evidentemente, pueden suceder que acertemos en nuestra
conclusión o que nos equivoquemos.
Por esta razón puede ocurrir que tomemos una decisión correcta o que cometamos un error.
Esto es:
Valor de verdad de Ho
H0 es Verdadera H0 es Falsa
Llamamos Error tipo I al error que se produce cuando se rechaza la hipótesis nula siendo
esta cierta.
Error tipo II:
Es el error que se produce cuando se acepta la hipótesis nula siendo esta falsa.
Para ejemplificar un test paramétrico podemos poner a prueba una afirmación sobre la
media de la población, esto es un Test de hipótesis para la media:
H0: = 5
H1: 5
Esta claro que en la hipótesis nula (H0) se establece el valor determinado, ya sea del
parámetro o de la distribución y en la alternativa (H1) lo indeterminado.
Como ejemplos de test paramétricos analizaremos los test de hipótesis que se realizan para
estimar la media desconocida de una población con desviación típica. Por ejemplo:
Para poner a prueba la afirmación, desarrollaremos los siguientes cinco pasos (que
siempre utilizaremos para el planteo de cualquier prueba de hipótesis)
H0: = 1000
H1: 1000
Como se duda de la afirmación del fabricante, planteamos que el peso medio es distinto del
peso postulado. Con este planteo se hace un contraste bilateral o a dos colas
X − 1000
Z= • 50
20
Con la muestra particular que disponemos, obtendremos una estimación de Z que
llamaremos z observado. Esto es:
1010− 1000
Z= • 50
20
Zobs=3,53
Este valor de z observado en la muestra nos será útil para decidir si se rechaza o no se
rechaza la Hipótesis nula.
En nuestro caso, si zobs ε Rc, rechazaremos Ho, de lo contrario no será posible rechazar la
hipótesis Ho
En muchas ocasiones es más útil plantear contrastes unilaterales (de una cola).
Por ejemplo:
H0: = 0
H1: > 0
2°) Fijar α
X − 0
3°) Estadístico: Z= • n (suponiendo que se conoce el desvío)
4°) Región crítica:
Se rechazará la hipótesis nula si el valor observado es superior al valor crítico. Es decir:
Rc = {z/ z >z1-}
Otra cuestión importante es cómo se pueden establecer los Test de Hipótesis atendiendo
a las presunciones del investigador. Veamos el siguiente ejemplo:
Un industrial dispone de una máquina que es capaz de producir 350 salchichas a la
hora. Recibe una oferta de una nueva y moderna máquina para realizar dicho trabajo.
La nueva máquina produce un número 1 de salchichas a la hora.
¿Qué test de hipótesis utilizaría el industrial si no se muestra muy convencido del
cambio de la máquina?¿Y si está dispuesto a cambiar? Justifique su respuesta.
¿Cuál es el razonamiento?
Hemos explicado que la carga de la prueba se da en la hipótesis alternativa, y dado que el
industrial no está muy dispuesto a cambiar, para forzarlo a cambiar tendremos que
demostrar que la nueva máquina es mejor, esto es que, en promedio, tiene una mayor
producción.
En el segundo caso, dado que el industrial tiene interés por renovar la máquina, sólo
tendremos que probar que la nueva máquina no es peor que la antigua, es decir, que la
producción media no es menor.
Denominamos
= P(Error Tipo I)
β = P(Error Tipo II)
En una población infinita cuya desviación típica vale =5, y que se distribuye según
una ley normal, se selecciona una muestra de tamaño 25, y nos planteamos el
siguiente contraste de hipótesis:
H0: = 15
H1: 15
(
P(Error tipo I) = P X 135 ) (
. + P X 16.5 =(*) )
Si suponemos H0 verdadera entonces = 15, de modo que X ~ N , = N(15,1)
n
Estandarizando obtendremos:
X − 15 135 . − 15 X − 15 16.5 − 15
(*)= P + P
1 1 1 1
= P( Z −15
. ) + P( Z 15
.)
Entonces será:
El error de tipo II se produce cuando se acepta H0 siendo falsa, por lo que sólo
sabemos que es distinto de 15.
Luego X~N(17,5) y por consiguiente X ~ N , =N(17,1)
n
Entonces:
( . X 165
= P 135 . )
135
. − 17 X − 17 16.5 − 17
= P
1 1 1
= P( −35 .)
. Z −05
= P (Z<-0.5)-P(Z<-3.5)
= 1- P (Z<0.5)-(1-P(Z<3.5))
= P (Z<3.5)- P(Z<0.5)
= P(Error Tipo II) =0.3083
Potencia de un test
UNA POBLACIÓN
3) 0
Z tiene distribución Z>Z1-/2
Normal Estándar
Población X −μ 0 1) t>t1-;n-1
>0 t=
Normal 1)
S. 2) t<t;n-1 s. s.
desconocido =0 <0 3) t<t/2;n-1 x − t 1− α ;n −1 ; x + t 1− α ;n −1
n
2)
n 2 n 2
3) 0
t tiene distribución t de
Student con n-1 t>t 1-/2;n-1
grados de libertad
Muestra grande p̂ − p 0 1) Z>Z1-α
Z=
p=p0 1) p>p0
p 0 (1 − p 0 )
2) Z<Z p̂ (1 − p̂ ) p̂ (1 − p̂ )
p̂ − Z1− α ; p̂ + Z1− α
p 2) p<p 3) Z<Z/2
3) pp0 n 2 n 2 n
Z tiene distribución
Z>Z1-/2
Normal Estándar
Población 2=20 S2 n 1) 2>21-;n-1
Normal 1) > 20
2 χ = 2
2
2) 2<2;n-1 n s2 n s2
2 σ0 2 ; 2
2 < 20 3) 2<2/2;n-1
χB χA
2)
3) 2 20 2 tiene distribución
Chi Cuadrada con n-1
grados de libertad >21-/2;n-1
2
PRUEBAS DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS
DOS POBLACIONES
HIPÓTESIS REGIÓN DE
CONDICIONES HIPÓTESIS NULA ESTADÍSTICO
ALTERNATIVA RECHAZO
X1 − X 2 − D 0
Poblaciones Normales Z=
σ 12 σ 22 1. Z>Z1-
Independientes + 2. Z<Z
Desvíos poblacionales n1 n 2
conocidos 3. Z<Z/2 Z>Z1-/2
Z tiene distribución Normal
Estándar
X1 − X 2 − D 0
1. 1 -2>D0 t=
2. 1 -2<D0
1 1
1 -2=D0 Sp +
Poblaciones Normales 3. 1 -2D0 n1 n 2
Independientes donde
1. t>t1-;n-1
Desvíos poblacionales S..21 (n 1 − 1) + S.22 (n 2 − 1) 2. t<t;n-1
desconocidos pero Sp = 3. t<t/2;n-1 t>t1-/2;n-1
iguales n1 + n 2 − 2
t tiene distribución t de
Student con n1+n2-2 grados
de libertad
UNIDAD 1: Estadística descriptiva 11
Entre los distintos tipos de pruebas no paramétricas podemos destacar las siguientes:
• PRUEBAS DE ASOCIACIÓN
• PRUEBAS DE HOMOGENEIDAD
• TEST DE BONDAD DE AJUSTE
En este tipo de pruebas se utiliza como estadístico Chi- Cuadrado, esto es:
χ 2
=
n
(f o − f e )2
gl;1−α
i =1 fe
Siendo:
gl : grados de libertad
f o : frecuencia observada en la muestra
f e : frecuencia esperada (teórica)
Para poder utilizar esta variable Chi-cuadrado si deben cumplir ciertas condiciones:
La región crítica será Rc = {χ 2 gl / gl2 gl2 ;1− } donde gl2 ;1− = critico
2
PRUEBAS DE ASOCIACIÓN
C1 Cj Tf
f1 a11 a1j Tf1
Tfi .Tcj
aij =
TOTAL
Volvamos al ejemplo y desarrollemos los pasos de un test de hipótesis:
UNIDAD 1: Estadística descriptiva 13
χ 2
1;0,95 = + + + =
54 64 56 69
5º) Decisión
Si χ
2
observado Rc entonces se rechaza Ho y se acepta H1
En cambio,
si χ 2observado Rc , no se rechaza la Ho, esto es, no hay evidencias para afirmar lo
contrario.
En el caso del ejemplo que estamos analizando, quedan para el lector el cálculo del
valor observado y la toma de decisión.
Con esta prueba se pretende establecer si la población de la cual provienen los datos
de una muestra aleatoria tiene una determinada distribución de probabilidades.
Entonces:
1°) Ho: la población tiene una determinada distribución de probabilidades
H1: la población no tiene dicha distribución de probabilidades
( fo − fe )
2
n
χ 2
gl = siendo gl= n-1-r
i =1 fe
donde:
n es la cantidad de datos distintos y
r es la cantidad de parámetros estimados.
Esto es:
Rc= χ 2 >χ 2crítico
5°) Regla de decisión:
Veamos un ejemplo:
Analizar si los datos ajustan con una distribución Poisson. Usar α = 0,05
Entonces,
1) Planteamos las hipótesis:
𝜆𝑘 𝑒 −𝜆
La variable aleatoria Poisson se distribuye según: 𝑃(𝑋 = 𝑘) =
𝑘!
Al proponer esta distribución es claro debemos estimar la media a partir de los datos de
la muestra. Con el promedio de la muestra estimaremos el valor esperado de artículos
defectuosos:
𝜆̂=(32x0+15x1+9x2+4x3)/60
𝜆̂ = 0,75
Entonces:
UNIDAD 1: Estadística descriptiva 16
𝜆𝑘 𝑒 −𝜆
𝑃(𝑋 = 𝑘) = 𝑘!
= 0,472
𝑘
𝜆 𝑒 −𝜆
𝑃(𝑋 = 𝑘) = 𝑘! ]=0.354
𝜆𝑘 𝑒 −𝜆
𝑃(𝑋 = 𝑘) = 𝑘! =0.133
𝜆𝑘 𝑒 −𝜆
𝑃(𝑋 = 𝑘) = 𝑘! =0,041
( fo − fe )
2
n
=
con n-r-1 grados de libertad
χ 2
gl
i =1 fe
( fo − fe )
2
n
χ 2
gl =
i =1 fe
Luego de hacer los cálculos obtendremos
X2observado= 2,94
UNIDAD 1: Estadística descriptiva 17
5) Regla de decisión:
Significa que podemos concluir que la distribución de los defectos ajusta con una
distribución de Poisson ya que no hay evidencias para afirmar lo contrario.
UNIDAD 1: Estadística descriptiva 18
a. Modelo de regresión
y = α + β.x + ε
x X
▪ La varianza de Y es la constante 2 .
UNIDAD 1: Estadística descriptiva 19
f(y)
En resumen:
Y = N(α + β.x; σ 2 )
ε = N(0 : σ 2 )
a= α̂
b= β̂
e= ˆ
(x ; y ) : datos de la muestra aleatoria
i i
e i = yi − yˆ i
ei 2 = ( yi − yˆ i )2 = ( yi − a − b.xi )2
n n n
i =1 i =1 i =1
Se deduce que:
1 n
( )( )
( xi − x )( y i − y )
n
2
S xy
n i =1
x i − x y i − y
i =1
b= 2 = ==
( xi − x ) 2 ( xi − x ) 2
S x 1
n
a = y − bx
UNIDAD 1: Estadística descriptiva 20
Fórmulas de cálculo de S 2 x ; S 2 y y S 2 xy
n n n
x i
2
y i
2
x y i i
i =1 i =1 i =1
S2 x = − x2 S2 y = − y2 S 2 xy = − x.y
n n n
Ejemplo:
X 15 17 20 18 21 20
Y 6.5 7 9 8.5 9 8.2
y i − y = (yi − ŷ i ) − (ŷ i − y)
VNE
VT
VE
SCT=SCe + SCR
(y − ŷ i )
2
SCe y i − a y i − b x i y i
i 2
Se = i =1
= =
2
Se = Se 2
f. COEFICIENTE DE DETERMINACIÓN
SCR
R2 =
SCT
S 2 xy
r= = R2
SxSy
−1 r 1
1.1.1. Distribución de X
• Si X es una v.a. Normal, X es otra v.a. Normal. (Corolario del teorema de suma
de normales independientes).
• Si X es una v.a. no Normal y n es “grande” ( n 30 ), X es aproximadamente
una v.a. Normal.(Corolario del T.C.L.).
1.1.1.1. Parámetros de X
• Valor esperado de X
UNIDAD 1: Estadística descriptiva 22
n
Xi
E(X) = E = .......... .....
i =1
n
E (X ) = μ
• Varianza de X
n
Xi
V(X) = V = .......... .....
i =1
n
σ2
V(X ) =
n
1.1.1.2. CONCLUSIONES
σ
• Si X = N(μ; σ ) entonces X = Nμ;
n
σ
• Si X no es normal entonces X Nμ; si n 30 ( por el Teorema Central del
n
límite)
Sea X una población y X1 ; X 2 ;...; X n una muestra aleatoria de dicha población.
(X − X)
n
2
i
i =1
S2 =
n
1.2.1. Parámetros de S2
• Valor esperado de S 2
n
(
Xi − X )2
( ) = 1 E (X − X )2 = .......... .......... .....
n
E S = E i =1
n
2
n i =1
i
n −1 2
E(S2)=
n