ESTADÍSTICA INFERENCIAL Prueba de Hipótesis - 1327166622
ESTADÍSTICA INFERENCIAL Prueba de Hipótesis - 1327166622
ESTADÍSTICA INFERENCIAL Prueba de Hipótesis - 1327166622
Según lo visto anteriormente, en el Teorema del Límite Central, si en una población con una
media aritmética µ y un desvío estándar σ se extraen n muestras de tamaño N, obtendremos de cada una
de las muestras n medias aritméticas diferentes. Como se señaló previamente, esta variación de
resultados se produce porque tomamos al azar una cantidad limitada de datos de una población y no los
de toda la población.
1
Asimismo, cada una de estas medias muestrales podían representarse gráficamente dando
origen así a una distribución de medias aritméticas muestrales. Se puede afirmar que, para tamaños de
muestras N mayores a 30 unidades de análisis, estas distribuciones de medias muestrales siguen
siempre muy aproximadamente la distribución normal, independientemente del tipo de variable que se
trate.
Esa distribución de medias muestrales tiene como parámetros una media que llamaremos µ y
un desvío estándar de las medias cuyo símbolo es σm, que se denomina error estándar y cuya
ecuación de cálculo, de acuerdo con el Teorema del Límite Central es:
σm = σ/√𝐍
Siendo: µ y σ los parámetros de la población en estudio.
cuanto mayor es N más se acerca al tamaño de la población, menor será la dispersión de valores de
2
distribución gaussiana de las medias muestrales), la lógica estadística de esta prueba es poner a prueba
una hipótesis que afirma que no hay diferencia significativa entre la media aritmética experimental y la
media de la distribución muestral µ.
Esta hipótesis se denomina Hipótesis Nula o de nulidad y conjetura que la diferencia
entre la media de la población y la de la muestra no es significativa. En contraposición a esta
hipótesis existirá siempre una hipótesis estadística que afirme lo contrario y que se denomina hipótesis
alternativa.
Por lo tanto, si la prueba demuestra que la media de la muestra se encuentra dentro del
intervalo de confianza no se puede rechazar la hipótesis nula y se rechaza la hipótesis alternativa . Por
lo contrario, si la media de la muestra se encuentra fuera del intervalo de confianza (en el área
correspondiente al nivel de error α) puede sostenerse con un margen de probabilidad alto que la
diferencia entre la muestra y el parámetro poblacional es significativa. Por esta razón, a la zona del
modelo de probabilidad muestral no comprendida en el intervalo de confianza se denomina zona de
rechazo de la Hipótesis Nula y es el denominado nivel de significación (probabilidad de error al
suponer que hay diferencia con la distribución muestral cuando en realidad no la hay), representándose
con el símbolo α
Cuando el valor de la media experimental cae en la zona de rechazo, se rechaza la hipótesis
nula y se acepta la hipótesis alternativa que sostiene que la diferencia entre la media de la muestra y de
la del universo es significativa. Si la coincide con la hipótesis alternativa (generalmente así ocurre),
se comprueba la validez estadística de la misma.
El nivel de significación de una prueba estadística lo elige el investigador, de acuerdo con el
riesgo que implica la comprobación de su hipótesis, pero nunca es mayor al 5% de la probabilidad total
de la distribución. Como el nivel de confianza es el resto de la distribución, será más confiable la
verificación de una hipótesis cuanto mayor sea éste y, por lo tanto, cuanto menor sea el nivel de
significación. Como se señaló, esto es así porque el nivel de significación también es parte de la
distribución muestral y una muestra puede estar dentro y ser posible sólo por error de muestreo.
Un investigador, al elegir el nivel de significación está dejando fuera del contraste de la
hipótesis una zona de probabilidades muy pequeñas, lo que le permite tomar una decisión con el menor
error probable y, por lo tanto, con el menor riesgo posible.
que el investigador espera como resultado significativo. Si espera un resultado significativo mayor que
elegirá la zona en la cola derecha de la distribución. Si espera un resultado significativo menor que
elegirá la zona en la cola de la izquierda del modelo. Por otro lado, si el resultado será significativo
3
tanto si es mayor o si es menor que la zona de significación deberá desdoblarse y ubicarse en las dos
colas de la distribución muestral, por lo que se dice que se trata de una prueba de dos colas.
Reiterando, en el caso de que la hipótesis experimental proponga que la media muestral es
mayor que la media poblacional, se trata de a una prueba de una cola, y en este caso todo el nivel de
significación se hallara del lado de medias mayores (derecha de la curva).
En el caso inverso, si se plantea una hipótesis experimental que exprese que la muestra tiene
una media menor que la de la población, la zona de rechazo se ubica en la otra cola de la distribución, a
la izquierda de la misma. (Es el caso del ejercicio que como ejemplo veremos al final de este punto).
Cuando la media
aritmética muestral x̅ se
encuentra en el Intervalo de
confianza (verde en el
gráfico), aceptamos que no
hay diferencias significativas
de la misma respecto a la
media poblacional µ.
En el caso que x se
ubique dentro de la/s zonas de
rechazo, aceptamos que hay
diferencias significativas que
no pueden justificarse por
errores de muestreo.
Como la distribución muestral es una distribución normal, las pruebas de hipótesis se realizan
utilizando la distribución normal estándar (en función de Z) que permite delimitar perfectam ente el
intervalo de confianza y la zona de rechazo.
En el caso de
pruebas de una cola la zona
de rechazo está a la derecha
de Z = Lím. Sup, o a la
izquierda de Z = Lím. Inf.
(según sea el caso).
En el caso de
pruebas de dos colas las
zonas de rechazo están a la
derecha de Z = Lím. Sup., y a
la izquierda de Z = Lím.
Inferior.
4
Así, para una distribución muestral de medias aritméticas de muestras de tamaño N , se calcula la
variable estandarizada Z como:
y luego compararlo con el Zlim que surge de la tabla de acuerdo con el nivel de significación α elegido.
Si el Zexp cae dentro del nivel de significación se rechaza la Hipótesis nula y se acepta la alternativa.
Si el Zexp cae dentro del intervalo de confianza no se rechaza la Hipótesis nula y se rechaza la
alternativa.
Si la prueba es de dos colas se deberán determinar los dos valores límites de las medias de la
distribución muestral para el nivel de significación elegido. El razonamiento para rechazar la Hipótesis
es el mismo que el recién descripto.
Ejercicio como ejemplo de este tipo de problema:
Por un estudio generalizado llevado a cabo en el año 2000 en la ciudad de Boston se conoce que la
media aritmética de colesterol en sangre en esa población es µ (2000) = 190
Se plantea la Hipótesis de investigación que en la actualidad (2020) los resultados obtenidos
deben ser significativamente menores a los ya conocidos, a consecuencia de una mayor
atención a la ingesta de grasas en la alimentación por parte de la población.
Con tal propósito se lleva a cabo una prueba de medias a partir de una muestra reciente
obtenida en la misma ciudad sobre N = 100 gerontes, que arrojó los siguientes resultados:
x̅ =180 con un desvío Standard
S= 30 (valor que usaremos si desconocemos σ)
El planteo de las Hipótesis será:
Hi (Hipótesis de investigación): µ (2020) < µ (2000)
5
A continuación, determinaremos el Zlim que surge de la tabla de acuerdo con el nivel de significación
α = 1% elegido para la prueba. Es decir que el Zlim dejará a su izquierda un área de 0,01.
Por lo tanto, entraremos en el cuerpo de la Tabla Normal Standarizada correspondiente a valores
negativos de Z:
Por lo tanto, se acepta la Hipótesis de Investigación Hi. Podemos afirmar que la media aritmética de
colesterol en sangre correspondiente al año 2020 es significativamente menor que la media aritmética
correspondiente al año 2020 para el nivel de significación α del 1%.
…………………………………………………………………………………………………………...
Prueba de significación de diferencias de medias muestrales.
En este caso, lo que se desea es saber si dos poblaciones difieren significativamente. Lo que se
tiene en general, como datos, son las medias de dos muestras X1 y X2 de estas poblaciones, que se
contrastarán para saber si hay diferencia significativa entre ellas. Esta prueba es siempre de dos colas.
El Teorema del Límite Central demuestra que las diferencias de medias de muestras de una
misma población también se distribuyen según la Distribución Normal con una media de
diferencias nulas (μ = 0) y un desvío estándar de las diferencias σdif.
Utilizando la fórmula de conversión para determinar Zexp.:
6
Dónde: (3)
Si las muestras son mayores a N=30 pueden utilizarse los desvíos muestrales de cada muestra
para estimar σdif. Por lo tanto, Zexp:
Una vez obtenida Zexp y tratándose de una prueba de dos colas siempre, el procedimiento de toma de
decisión es el ya visto: Se compara el Zexp con el Zlím, que se extrae de la Tabla de Z, para saber si la
diferencia de las medias caer en la zona de confianza o en la de significación para tomar la decisión
correspondiente.
Ejercicio como ejemplo de este tipo de problema:
La vida útil de un medicamento A se midió con 200 muestras y dio una media de 1400 días,
con un desvío standard de 120 días. El medicamento B se determinó con 100 muestras y se
obtuvo una media de 1200 días con un desvío standard de 80 días. Decidir si el medicamento A
tiene mayor vida útil que el B con un α=0,05.
Por lo tanto
A continuación, determinaremos el Zlim que surge de la tabla de acuerdo con el nivel de significación
α = 5% elegido para la prueba. Es decir que el Zlim dejará a su derecha un área de 0,05 y a su izquierda
0,95. Como la Tabla da sólo valores a la izquierda de Z debemos buscar el valor más próximo a 0,95.
Por lo tanto, entraremos en el cuerpo de la Tabla Normal Standarizada correspondiente a valores
positivos de Z para buscar el Zlim.
7
El valor más próximo a un área = 0,95 determina el valor de Zlim = +1,65
Por lo tanto, se acepta la Hipótesis de Investigación Hi. Podemos afirmar que la vida útil del
medicamento A es significativamente mayor que la correspondiente al medicamento B para el nivel de
significación α del 5%.
…………………………………………………………………………………………………………..
Lo planteado anteriormente se considera válido si N > 30, dado que en esas condiciones se
podría decir que la aproximación a la distribución normal es buena, pero cuando la muestra es de
tamaño menor y no se conoce el σ de la población es necesario hacer una corrección a los valores de la
curva normal.
Ya hemos visto que un matemático de apellido Gosset, y cuyo seudónimo fue Student, estudió
y desarrolló una distribución que es aplicable para los casos en que N < 30. A esta se la conoce como
distribución t de Student.
Esta distribución esta expresada en una tabla de valores de t en la que se obtienen a partir de los
niveles de significación más usados en investigación, y en función de los grados de libertad de la
8
Donde x
̅ es la media de la muestra, S su desvío estándar, N su tamaño y µ la media poblacional.
El valor hallado se compara con el obtenido de la tabla de t para el nivel de significación, tal
que si está dentro del intervalo de confianza no se rechaza la hipótesis nula, y si es mayor sí.
Usualmente la tabla de t da los valores diferenciados según las pruebas de una sola cola o de
Donde:
lógica de siempre.
Bibliografía
Aron A. y Aron E. (2001) Estadística para Psicología Cap.1 Bs.As.: Pearson Education.
Cortada de Kohan, N. y Carro, J. M. (1968) Estadística aplicada. Bs. As.: EUdeBA