ESTADÍSTICA INFERENCIAL Prueba de Hipótesis - 1327166622

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

La ESTADÍSTICA INFERENCIAL (Continuación)

En la clase anterior decíamos que La ESTADÍSTICA INFERENCIAL se ocupa de resolver 2 temas


centrales entre otros:

1) La estimación de la media aritmética µ de una población a partir de la media aritmética de una


muestra representativa tomada de la primera.
2) La prueba de Hipótesis (llamada también de Significación). Una prueba de hipótesis es un
procedimiento estadístico que determina con un margen definido de error (nivel de significación)
cuando se puede aceptar o rechazar una Hipótesis (afirmación conjetural) sobre una población
dependiendo de la evidencia proporcionada por una muestra de datos.

El primero de estos problemas se ha visto en la clase anterior.


A continuación, se aborda el 2° de los problemas planteados

Pruebas de hipótesis. Pruebas de significación


El objetivo de una llamada prueba de hipótesis es verificar si una hipótesis planteada en una
investigación puede considerarse verdadera (o falsa) con un alto grado de probabilidad. Las hipótesis
son formuladas en forma matemática y, por lo tanto, su verificación es matemática y se basa en la teoría
de las probabilidades.
A estas pruebas de hipótesis se las llama también pruebas de significación, dado que uno de
los principios de estas pruebas es verificar si la diferencia entre los estadísticos de una
distribución muestral y los obtenidos experimentalmente es significativa.
Usualmente se trabaja con pruebas que responden a la distribución normal como modelo
matemático o probabilístico. En principio, esta distribución se puede utilizar en aquellas variables que
se distribuyen en forma muy aproximada a la distribución normal.
Error Estándar de una Distribución muestral

Según lo visto anteriormente, en el Teorema del Límite Central, si en una población con una

media aritmética µ y un desvío estándar σ se extraen n muestras de tamaño N, obtendremos de cada una

de las muestras n medias aritméticas diferentes. Como se señaló previamente, esta variación de

resultados se produce porque tomamos al azar una cantidad limitada de datos de una población y no los

de toda la población.

1
Asimismo, cada una de estas medias muestrales podían representarse gráficamente dando
origen así a una distribución de medias aritméticas muestrales. Se puede afirmar que, para tamaños de
muestras N mayores a 30 unidades de análisis, estas distribuciones de medias muestrales siguen
siempre muy aproximadamente la distribución normal, independientemente del tipo de variable que se
trate.

Esa distribución de medias muestrales tiene como parámetros una media que llamaremos µ y

un desvío estándar de las medias cuyo símbolo es σm, que se denomina error estándar y cuya
ecuación de cálculo, de acuerdo con el Teorema del Límite Central es:

σm = σ/√𝐍
Siendo: µ y σ los parámetros de la población en estudio.

La distribución muestral de medias es, entonces, la distribución teórica probable de medias de

muestras de un tamaño determinado. La dispersión reflejada en σm es producto de tomar muestras de

tamaño N y es por esto, que también se la denomina el error estándar de la distribución.

De la ecuación, se deduce que σm siempre es menor al desvío estándar de la población σy


que, cuanto mayor es el tamaño de la muestra menor es el error estándar. Esto último es lógico, ya que

cuanto mayor es N más se acerca al tamaño de la población, menor será la dispersión de valores de

medias muestrales, es decir, disminuye la probabilidad de error.

Veremos a continuación dos tipos de prueba de Hipótesis.


A) Prueba de Hipótesis de Medias.
Cuando la hipótesis plantea que una media muestral es significativamente diferente a la
media de la población, para comprobarla se debe utilizar una prueba de significación de medias. La
hipótesis mencionada será la hipótesis de investigación o experimental.
Una prueba de Significación de Medias es un procedimiento que contrasta una media
experimental de una muestra de tamaño N y la distribución de muestreo probable para muestras de la
población de igual tamaño. Este contraste se realiza dentro de una zona limitada de la distribución
muestral caracterizada por los parámetros µ y σm, que se denomina intervalo de confianza o nivel
de confianza de la prueba. Los niveles de confianza se eligen siempre como mínimo del orden del
95% de las probabilidades de la distribución muestral dejando el 5% restante en las colas de la
distribución como probables errores de muestreo ya que la probabilidad en esos extremos es muy baja.
Esto significa que toda prueba inferencial descarta una parte del modelo en la zona donde es menor el
riesgo de equivocarse al tomar una decisión.
Dado que se dispone de la distribución muestral de medias como elemento de contraste (la

2
distribución gaussiana de las medias muestrales), la lógica estadística de esta prueba es poner a prueba
una hipótesis que afirma que no hay diferencia significativa entre la media aritmética experimental y la
media de la distribución muestral µ.
Esta hipótesis se denomina Hipótesis Nula o de nulidad y conjetura que la diferencia
entre la media de la población y la de la muestra no es significativa. En contraposición a esta
hipótesis existirá siempre una hipótesis estadística que afirme lo contrario y que se denomina hipótesis
alternativa.
Por lo tanto, si la prueba demuestra que la media de la muestra se encuentra dentro del
intervalo de confianza no se puede rechazar la hipótesis nula y se rechaza la hipótesis alternativa . Por
lo contrario, si la media de la muestra se encuentra fuera del intervalo de confianza (en el área
correspondiente al nivel de error α) puede sostenerse con un margen de probabilidad alto que la
diferencia entre la muestra y el parámetro poblacional es significativa. Por esta razón, a la zona del
modelo de probabilidad muestral no comprendida en el intervalo de confianza se denomina zona de
rechazo de la Hipótesis Nula y es el denominado nivel de significación (probabilidad de error al
suponer que hay diferencia con la distribución muestral cuando en realidad no la hay), representándose
con el símbolo α
Cuando el valor de la media experimental cae en la zona de rechazo, se rechaza la hipótesis
nula y se acepta la hipótesis alternativa que sostiene que la diferencia entre la media de la muestra y de
la del universo es significativa. Si la coincide con la hipótesis alternativa (generalmente así ocurre),
se comprueba la validez estadística de la misma.
El nivel de significación de una prueba estadística lo elige el investigador, de acuerdo con el
riesgo que implica la comprobación de su hipótesis, pero nunca es mayor al 5% de la probabilidad total
de la distribución. Como el nivel de confianza es el resto de la distribución, será más confiable la
verificación de una hipótesis cuanto mayor sea éste y, por lo tanto, cuanto menor sea el nivel de
significación. Como se señaló, esto es así porque el nivel de significación también es parte de la
distribución muestral y una muestra puede estar dentro y ser posible sólo por error de muestreo.
Un investigador, al elegir el nivel de significación está dejando fuera del contraste de la
hipótesis una zona de probabilidades muy pequeñas, lo que le permite tomar una decisión con el menor
error probable y, por lo tanto, con el menor riesgo posible.

La elección del sector del nivel de significación de la distribución muestral dependerá de lo

que el investigador espera como resultado significativo. Si espera un resultado significativo mayor que

elegirá la zona en la cola derecha de la distribución. Si espera un resultado significativo menor que

elegirá la zona en la cola de la izquierda del modelo. Por otro lado, si el resultado será significativo
3
tanto si es mayor o si es menor que la zona de significación deberá desdoblarse y ubicarse en las dos

colas de la distribución muestral, por lo que se dice que se trata de una prueba de dos colas.
Reiterando, en el caso de que la hipótesis experimental proponga que la media muestral es
mayor que la media poblacional, se trata de a una prueba de una cola, y en este caso todo el nivel de
significación se hallara del lado de medias mayores (derecha de la curva).
En el caso inverso, si se plantea una hipótesis experimental que exprese que la muestra tiene
una media menor que la de la población, la zona de rechazo se ubica en la otra cola de la distribución, a
la izquierda de la misma. (Es el caso del ejercicio que como ejemplo veremos al final de este punto).

Cuando la media
aritmética muestral x̅ se
encuentra en el Intervalo de
confianza (verde en el
gráfico), aceptamos que no
hay diferencias significativas
de la misma respecto a la
media poblacional µ.

En el caso que x se
ubique dentro de la/s zonas de
rechazo, aceptamos que hay
diferencias significativas que
no pueden justificarse por
errores de muestreo.

Como la distribución muestral es una distribución normal, las pruebas de hipótesis se realizan
utilizando la distribución normal estándar (en función de Z) que permite delimitar perfectam ente el
intervalo de confianza y la zona de rechazo.

En el caso de
pruebas de una cola la zona
de rechazo está a la derecha
de Z = Lím. Sup, o a la
izquierda de Z = Lím. Inf.
(según sea el caso).

En el caso de
pruebas de dos colas las
zonas de rechazo están a la
derecha de Z = Lím. Sup., y a
la izquierda de Z = Lím.
Inferior.
4
Así, para una distribución muestral de medias aritméticas de muestras de tamaño N , se calcula la
variable estandarizada Z como:

(1) Donde: 𝐱̅ es la media muestral, µ es la media de la población, σ el


desvío poblacional y N es el tamaño de la muestra.

y luego compararlo con el Zlim que surge de la tabla de acuerdo con el nivel de significación α elegido.
Si el Zexp cae dentro del nivel de significación se rechaza la Hipótesis nula y se acepta la alternativa.
Si el Zexp cae dentro del intervalo de confianza no se rechaza la Hipótesis nula y se rechaza la
alternativa.

Si la prueba es de dos colas se deberán determinar los dos valores límites de las medias de la
distribución muestral para el nivel de significación elegido. El razonamiento para rechazar la Hipótesis
es el mismo que el recién descripto.
Ejercicio como ejemplo de este tipo de problema:
Por un estudio generalizado llevado a cabo en el año 2000 en la ciudad de Boston se conoce que la
media aritmética de colesterol en sangre en esa población es µ (2000) = 190
Se plantea la Hipótesis de investigación que en la actualidad (2020) los resultados obtenidos
deben ser significativamente menores a los ya conocidos, a consecuencia de una mayor
atención a la ingesta de grasas en la alimentación por parte de la población.
Con tal propósito se lleva a cabo una prueba de medias a partir de una muestra reciente
obtenida en la misma ciudad sobre N = 100 gerontes, que arrojó los siguientes resultados:
x̅ =180 con un desvío Standard
S= 30 (valor que usaremos si desconocemos σ)
El planteo de las Hipótesis será:
Hi (Hipótesis de investigación): µ (2020) < µ (2000)

Ho (Hipótesis nula): µ (2020) = µ (2000)


En este caso se trata de una prueba de una cola y el área de rechazo (equivalente al nivel de
significación elegido α) se situará a la izquierda de la curva.
Calcularemos Zexp, reemplazando valores en la fórmula (1).

5
A continuación, determinaremos el Zlim que surge de la tabla de acuerdo con el nivel de significación

α = 1% elegido para la prueba. Es decir que el Zlim dejará a su izquierda un área de 0,01.
Por lo tanto, entraremos en el cuerpo de la Tabla Normal Standarizada correspondiente a valores
negativos de Z:

El valor más próximo a un área= 0,01 determina el valor de Zlim = -2,33.


Vemos que en el gráfico el valor de Zexp = - 3,33 se encuentra en la zona de rechazo de la Ho.

Por lo tanto, se acepta la Hipótesis de Investigación Hi. Podemos afirmar que la media aritmética de
colesterol en sangre correspondiente al año 2020 es significativamente menor que la media aritmética
correspondiente al año 2020 para el nivel de significación α del 1%.
…………………………………………………………………………………………………………...
Prueba de significación de diferencias de medias muestrales.
En este caso, lo que se desea es saber si dos poblaciones difieren significativamente. Lo que se
tiene en general, como datos, son las medias de dos muestras X1 y X2 de estas poblaciones, que se
contrastarán para saber si hay diferencia significativa entre ellas. Esta prueba es siempre de dos colas.
El Teorema del Límite Central demuestra que las diferencias de medias de muestras de una
misma población también se distribuyen según la Distribución Normal con una media de
diferencias nulas (μ = 0) y un desvío estándar de las diferencias σdif.
Utilizando la fórmula de conversión para determinar Zexp.:

Por lo tanto (2)

6
Dónde: (3)

Si las muestras son mayores a N=30 pueden utilizarse los desvíos muestrales de cada muestra
para estimar σdif. Por lo tanto, Zexp:

(4) Donde: (5)

Una vez obtenida Zexp y tratándose de una prueba de dos colas siempre, el procedimiento de toma de
decisión es el ya visto: Se compara el Zexp con el Zlím, que se extrae de la Tabla de Z, para saber si la
diferencia de las medias caer en la zona de confianza o en la de significación para tomar la decisión
correspondiente.
Ejercicio como ejemplo de este tipo de problema:
La vida útil de un medicamento A se midió con 200 muestras y dio una media de 1400 días,
con un desvío standard de 120 días. El medicamento B se determinó con 100 muestras y se
obtuvo una media de 1200 días con un desvío standard de 80 días. Decidir si el medicamento A
tiene mayor vida útil que el B con un α=0,05.

Con tal propósito se lleva a cabo una prueba de diferencia de medias.


El planteo de las Hipótesis será:
Hi (Hipótesis de investigación): µ A > µ B

Ho (Hipótesis nula): µA=µB


En este caso se trata de una prueba de una cola y el área de rechazo (equivalente al nivel de
significación elegido α) se situará a la derecha de la curva.
Calcularemos Zexp, reemplazando valores en la fórmula (5) y luego en (4)

Por lo tanto

A continuación, determinaremos el Zlim que surge de la tabla de acuerdo con el nivel de significación
α = 5% elegido para la prueba. Es decir que el Zlim dejará a su derecha un área de 0,05 y a su izquierda
0,95. Como la Tabla da sólo valores a la izquierda de Z debemos buscar el valor más próximo a 0,95.
Por lo tanto, entraremos en el cuerpo de la Tabla Normal Standarizada correspondiente a valores
positivos de Z para buscar el Zlim.

7
El valor más próximo a un área = 0,95 determina el valor de Zlim = +1,65

Por lo tanto, se acepta la Hipótesis de Investigación Hi. Podemos afirmar que la vida útil del
medicamento A es significativamente mayor que la correspondiente al medicamento B para el nivel de
significación α del 5%.

…………………………………………………………………………………………………………..

Tamaño de Muestras. Prueba de t de Student

Lo planteado anteriormente se considera válido si N > 30, dado que en esas condiciones se

podría decir que la aproximación a la distribución normal es buena, pero cuando la muestra es de

tamaño menor y no se conoce el σ de la población es necesario hacer una corrección a los valores de la

curva normal.

Ya hemos visto que un matemático de apellido Gosset, y cuyo seudónimo fue Student, estudió

y desarrolló una distribución que es aplicable para los casos en que N < 30. A esta se la conoce como

distribución t de Student.
Esta distribución esta expresada en una tabla de valores de t en la que se obtienen a partir de los
niveles de significación más usados en investigación, y en función de los grados de libertad de la

prueba, que se definen como:


gl = N - 1

Para N > 30 los valores de Z de la distribución normal y los de t de la de Student coinciden .

Prueba de Hipótesis de medias cuando N < 30 y no se conoce σ.


Las ecuaciones de cálculo y los procedimientos de decisión para las pruebas de significación
de medias muestrales cuando N < 30 son las mismas que las ya vistas, reemplazando Z por t y
utilizando los grados de libertad en lugar de N.
El valor de texp correspondiente a una media aritmética de una muestra experimental estará
dado por:

8
Donde x
̅ es la media de la muestra, S su desvío estándar, N su tamaño y µ la media poblacional.
El valor hallado se compara con el obtenido de la tabla de t para el nivel de significación, tal
que si está dentro del intervalo de confianza no se rechaza la hipótesis nula, y si es mayor sí.

Usualmente la tabla de t da los valores diferenciados según las pruebas de una sola cola o de

dos colas, por lo que debe extraerse el valor de la tabla correspondiente.

Prueba de hipótesis de diferencias de medias cuando N< 30 y no se conoce σ


El procedimiento es análogo al ya visto, solo que el valor de texp estará dado por:

Donde:

En este caso. Los grados de libertad estarán dados por: gl = N 1 + N2 – 2.


Consultando la tabla para encontrar el tlim se acepta o rechaza la hipótesis nula con la misma

lógica de siempre.

Bibliografía
Aron A. y Aron E. (2001) Estadística para Psicología Cap.1 Bs.As.: Pearson Education.
Cortada de Kohan, N. y Carro, J. M. (1968) Estadística aplicada. Bs. As.: EUdeBA

También podría gustarte