0% encontró este documento útil (0 votos)
127 vistas16 páginas

Apuntes 6

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 16

Inferencia Estadística H.

Alvarado – L Retamal

INFERENCIA ESTADÍSTICA
Estimación por Intervalos de Confianza
Pruebas de Hipótesis

ESTIMACIÓN POR INTERVALOS DE CONFIANZA

Hay por lo menos dos tipos de estimadores que se utilizan más comúnmente para los parámetros
poblacionales clásicos de la media, la proporción y la varianza:

a) Un estimador puntual utiliza un estadístico para estimar el parámetro en un solo valor o punto.
b) Un intervalo de confianza denota un rango dentro del cual puede encontrarse el parámetro, y el
coeficiente de confianza que el intervalo contiene del parámetro.

Def. 1. Un Intervalo de Confianza es un intervalo que tiene a lo menos un extremo aleatorio y es


acompañado de una afirmación sobre el nivel de confianza que se da en su exactitud.

Un intervalo de confianza tiene un límite inferior de confianza LIC y un límite superior de


confianza LSC y se obtienen calculando primero la media muestral X y luego se suma una cierta
cantidad a X para obtener el LSC y la misma cantidad se resta de X para obtener el LIC.

El coeficiente de confianza es aquel coeficiente cuyo intervalo contiene el valor desconocido


del parámetro. Hay tres coeficientes de confianza 1- α convencionales 95%, 99% y 90%.

Observación:
Las probabilidades que el parámetro no este en el intervalo se reparten por igual entre los extremos
del intervalo. Para construir los Intervalos de Confianza se usa el método del pivote: Se obtiene una
variable aleatoria tal que:
i) Dependa de las observaciones de la muestra y del parámetro desconocido θ .
ii) Tenga una distribución de probabilidades que no dependa del parámetro θ .

Intervalo De Confianza Para La Media Poblacional µ

Caso 1: La muestra es sacada de una población normal y varianza σ 2 conocida. Considere


coeficiente de confianza (1- α ).
X −µ
Se usa como pivote Z = ~ N(0,1) para cualquier valor de n. Por tanto, podemos escribir que Z
σ n
está contenida con probabilidad 1- α en un intervalo que tiene por extremos - Z (1 − α / 2) y
Z (1 − α / 2) . Así, P ( - Z(1 - α/2 ) ≤ Z ≤ Z( 1 - α/2 ) ) = 1 − α . Sustituyendo el valor de Z y
despejando µ se obtiene el I. de C. buscado:
σ
µ : x ± Z (1 − α 2) ⋅
n

1
Inferencia Estadística H. Alvarado – L Retamal

Ejemplo 1. Un promotor inmobiliario quien intenta construir un centro comercial desea estimar en el
área el ingreso promedio por familia como indicador de las ventas esperadas. Una muestra de n =
100 familias da una media X = US$35.500. Se asume que la desviación estándar poblacional es
σ = US$7.200. Un intervalo del 95% de confianza para estimar el ingreso medio poblacional por
familia está dada por µ : (34.088 , 36.911)

Interpretación 1: El promotor establece que tiene un “95% de confianza en que la media poblacional
real desconocida esté entre US$34.088 y US$36.911”. Aunque el valor real para la media
poblacional sigue siendo desconocido, el promotor tiene un 95% de confianza en que esté entre estos
dos valores.

Interpretación 2: Reconoce que se pueden desarrollar muchos intervalos de confianza diferentes.


Otra muestra probablemente produciría una media muestral diferente debido al error de muestreo.
Con una X diferente, el intervalo tendría límite superior e inferior distintos. Por tanto, la segunda
N
interpretación establece que si se construyen todas las combinaciones C n de intervalos de
confianza, el 95% de ellos contendrá la media poblacional desconocida.

Si una segunda muestra da una media muestral de US$35.600 en lugar de US$35.500, el intervalo es
µ : (34.188 , 37.011). El promotor puede estar un 95% seguro de que la media poblacional está
comprendida entre US$34.188 y US$37.011. Si todos los intervalos posibles se construyeran con
base en todas las medias muestrales diferentes, el 95% de ellas contendría la media poblacional
desconocida.

En otras palabras, significa que el 5% de todos los intervalos estaría errado; no contendría la media
poblacional. Este 5%, denominado valor alfa, hallado como α = (1-coeficiente de confianza),
representa la probabilidad de error o la probabilidad de que un intervalo dado no contenga la media
poblacional desconocida.

Caso 2: No obstante lo anterior, si el tamaño de la muestra es grande (n ≥ 30) una aplicación del
X −µ
teorema central del límite permite establecer ~& N (0,1) .
S n
Luego, un I. de C. 1 - α para µ es:
S
µ : x ± Z (1 − α 2) ⋅
n
Ejercicio 1. Carlos Daniel acaba de registrar las declaraciones de impuestos de sus clientes. Desea
estimar la cantidad promedio que deben al Servicio de Renta Interna. De los 50 clientes que
seleccionó en su muestra, la cantidad promedio que se adecuaba era de US$652.68. Ya que la
desviación estándar de todos sus clientes es desconocida, Carlos debe estimar σ con la desviación
estándar de la muestra de S = US$217.43.
Verifique que Carlos puede tener un 99% de confianza en que la cantidad promedio que deben todos
sus clientes al SRI está entre US$573.35 y US$732.01.
¿Qué pasaría a este intervalo si Carlos estuviera dispuesto a aceptar un nivel de confianza del 95%?
Se obtendría un resultado entre US$592.41 y US$712.96.
Los resultados son tanto buenos como malos:

2
Inferencia Estadística H. Alvarado – L Retamal

Las buenas noticias son que el intervalo del 95% es más estrecho y ofrece mayor precisión. Un
intervalo amplio no es tan útil. Entre más estrecho sea un intervalo, más significativo es.
Las malas noticias son que Carlos ahora está el 95% seguro de que el intervalo contiene en realidad
µ. Aunque el intervalo es más preciso (más estrecho), la probabilidad de que contenga µ se ha
reducido del 99 al 95%. Carlos tuvo que abandonar algo de confianza y ganar más precisión.

Ejercicio 2. Después de observar 50 programas de televisión seleccionados aleatoriamente, el


ministerio de educación reportó un promedio de 32.7 actos de violencia en un año. Asuma una
desviación estándar muestral de 10.1. ¿Cuál sería su estimación al 95% del número promedio de
actos violentos por programa que los niños ven en la televisión?

Para estimar el gasto promedio de los clientes en el Mc Donald`s local, los estudiantes de
Ejercicio 3.
una clase toman una muestra de 200 clientes y encuentran un gasto promedio de US$5.76, con una
desviación estándar de US$1.10. ¿Cuál es el intervalo de confianza del 95% para los gastos
promedio de todos los clientes? Interprete sus resultados.

Caso 3: La muestra aleatoria es sacada de una población normal, pero los parámetros µ y σ 2 son
desconocidos. El pivote es:
X −µ
T= ~ t ( n − 1)
S n
Grados de libertad: Es el número de observaciones menos el número de restricciones impuestas sobre
tales observaciones.
Las condiciones que debe cumplir la distribución t-Student son que la población es normal, se toma
una muestra pequeña y σ es desconocido.

Un Intervalo 100(1 - α )% para la media poblacional µ es:


S
µ : x ± t n −1 (1 − α / 2) ⋅
n

Ejemplo 2. De un estudio se descubre que el costo promedio de adornar los jardines de 20 casas del
área es de US$2.365, con S = US$983. Al nivel de confianza del 98%, ¿qué costo promedio
estimaría usted para adornar los jardines de todas las casas del área?

Ejercicio 4.Una empresa muestrea 23 paquetes para estimar el costo postal promedio. La media
muestral es de US$23.56, con S = US$4.65.
a) El editor espera mantener el costo promedio por debajo de US$23.00 Calcule e interprete el
intervalo de confianza del 99%. ¿El editor está satisfecho?
b) Compare los resultados de la parte a) con el intervalo del 95%. Explique la diferencia.
c) Manteniendo S = US$4.65, compare los resultados de la parte a) con el intervalo del 95%.
Explique la diferencia.

Ejercicio 5.Un estudio realizado por profesores universitarios está diseñado para ofrecer inferencias
sobre las tasas de desempleo por ciudad. Una muestra de 200 ciudades reporta una tasa promedio del
6.2%, con una desviación estándar del 1.7%. A un nivel de confianza del 90%, ¿cuál es el intervalo
estimado de la tasa de desempleo promedio por ciudad en la nación?

3
Inferencia Estadística H. Alvarado – L Retamal

Un teatro de cine local desea desarrollar un intervalo para estimar las cajas promedio de
Ejercicio 6.
palomitas de maíz que se venden por sala de cine. Si los registros llevados para 70 salas relevan un
promedio de 54.98 cajas y una desviación estándar de 12.7, calcule e interprete un intervalo de
confianza del 92% para la media poblacional.

Intervalo De Confianza Para La Diferencia Entre Dos Medias µ1 − µ 2

Podemos obtener estimadores de funciones de parámetros de dos o más distribuciones. Por


ejemplo, obtener un I. de C. para la diferencia µ1 − µ 2 entre los valores medios de dos distribuciones
diferentes, que se desean comparar. En este caso, al igual que en los casos anteriores, debemos
recurrir a un estadístico que naturalmente resulta ser X 1 − X 2 .
Consideremos dos muestras aleatorias independientes de tamaños n1 y n 2 , provenientes de
dos poblaciones normales con varianzas σ 12 y σ 22 conocidas.
 σ2 σ2 
En tal situación la distribución del estadístico es X 1 − X 2 ~ N  µ1 − µ 2 , 1 + 2 
 n1 n2 

Por lo que el Intervalo de Confianza correspondiente es:

σ12 σ 22
µ1 − µ 2 : ( X1 − X 2 ) ± Z(1 - α/2) ⋅ +
n1 n2

Cuando σ 12 y σ 22 son desconocidas, pero los tamaños de muestra n1 y n 2 son suficientemente


grandes reemplazamos dichas varianzas por sus correspondientes estimadores S12 y S 22 .

Ahora, cuando σ 12 y σ 22 son desconocidas pero los tamaños de muestras n1 y n 2 son pequeños la
obtención de la distribución del pivote no es directa, a menos que las varianzas de las dos
poblaciones normales sean iguales. En este caso, si σ 12 = σ 22 = σ 2 entonces σ 2 puede ser estimado
(n1 − 1) ⋅ S12 + (n 2 − 1) ⋅ S 22
por S 2p =
n1 + n 2 − 2
X1 − X 2 − ( µ1 − µ 2 )
Se puede probar que T= ~ t (n1 + n2 − 2) .
1 1
Sp ⋅ +
n1 n2

Por lo tanto, un Intervalo de Confianza, viene dado por:


1 1
µ1 − µ 2 : ( X1 − X 2 ) ± t n1 + n2 − 2(1 - α/2) ⋅ S p ⋅ +
n1 n2

Una compañía de taxis está tratando de decidir si ocupa la marca A o la marca B de


Ejercicio 7.
neumáticos para su flotilla de automóviles. Para estimar la diferencia entre estas dos marcas, se lleva
a cabo un experimento con 13 neumáticos de cada marca. Los neumáticos se usan hasta que se
gastan. Los resultados son:

4
Inferencia Estadística H. Alvarado – L Retamal

Marca A: x1 =36300 km. y S1=5000 km. ; Marca B: x2 =38100 km. y S2=6100 km.
a) Construya un intervalo del 95% de confianza para la diferencia entre estas dos marcas. ¿Puede
concluir que las duraciones medias son diferentes para estos tipos de neumáticos? Suponga que las
marcas tienen igual variabilidad
b) La gerencia desea estimar el nivel medio de duración del neumático A con un máximo error de
1000 km. y una confianza del 95%. ¿Cuántos neumáticos habría que muestrear? (ver pág. 11)

Intervalo De Confianza Para Una Proporción Poblacional p

pˆ − p
En una muestra de tamaño n un pivote adecuado es: Z0 = ≈ N (0,1)
p (1 − p ) n

Reemplazando en la varianza p por su estimador se obtiene el siguiente Intervalo de Confianza:

pˆ qˆ
p: pˆ ± Z (1 − α 2) ⋅
n

Ejemplo 3. CNN informó que el 68% de todos los estudiantes de secundaria tenía computadores en
sus casas. Si una muestra de 1020 estudiantes revela que 673 tienen computadores caseros, ¿un
intervalo del 99% apoya a CNN?

Ejercicio 8.La Asociación Nacional de Viajes tomó muestras de las personas que tomaban vacaciones
en Irlanda para estimar la frecuencia con la cual los norteamericanos visitaban Emerald Isle. ¿Cuál es
el intervalo de confianza del 96% para la proporción de turistas que son norteamericanos, si 1098 de
los 3769 encuestados portaban pasaportes de Estados Unidos?
De los 1098 turistas norteamericanos 684 habían registrado su viaje a través de un agente de viajes.
Calcule e interprete el intervalo del 95% para la proporción de todos los norteamericanos que utilizan
los servicios de agencias de viajes profesionales en Irlanda.
Si 896 de los turistas norteamericanos recomendarán el viaje a sus amigos, ¿qué porcentaje de todos
los turistas norteamericanos harían lo mismo con un nivel del 99% de confianza?
Si 796 de los 1098 turistas norteamericanos planean viajes para regresar a Irlanda, con un nivel de
confianza del 92%, ¿qué proporción de todos los turistas norteamericanos repetirían sus vacaciones?

Intervalo De Confianza Para La Diferencia Entre Dos Proporciones p1 − p 2

Para n1 y n 2 relativamente grandes se tiene,


 p q   p q 
pˆ 1 ~& N  p1 , 1 1  , pˆ 2 ~& N  p2 , 2 2 
 n1   n2 
( pˆ1 − pˆ 2 ) − ( p1 − p2 )
Entonces Z= ~& N (0,1)
pˆ1 (1 − pˆ1 ) pˆ 2 (1 − pˆ 2 )
+
n1 n2

5
Inferencia Estadística H. Alvarado – L Retamal

En este último estadístico p1 y p 2 han sido estimados por sus respectivas proporciones muestrales
(en el denominador). Dado que los valores de n1 y n 2 son grandes las aproximaciones siguen
siendo válidas. Por lo tanto, tenemos un intervalo de confianza aproximado del 100(1 − α )% para
pˆ1qˆ1 pˆ 2 qˆ2
p1 − p 2 : pˆ1 − pˆ 2 ± Z (1 − α / 2) ⋅ +
n1 n2

Una firma productora de cigarros asegura que su marca A de cigarros sobrepasa en ventas
Ejercicio 9.
a su marca B en 8%. Si se encuentra que 42 de 200 fumadores prefieren la marca A y 18 de 150
fumadores la marca B, calcule un Intervalo de Confianza del 94% para la diferencia entre las
proporciones de ventas de las dos marcas y determine si la diferencia del 8% es una afirmación
válida.

Determinar Tamaños De Muestras Adecuados

Es preferible un intervalo más estrecho debido a la precisión adicional que proporciona, y se


controla el ancho del intervalo reduciendo el nivel de confianza e incrementando el tamaño de la
muestra. El tamaño de la muestra juega un papel importante al determinar la probabilidad del error
así como en la precisión de la estimación.

Caso 1: tamaño de la muestra para estimar µ


Si se considera el error absoluto de estimación o precisión e = X − µ y la variable normal estándar
X −µ
Z= , se puede reescribir algebraicamente, el tamaño muestral para intervalos de la media
σ n
2
 Z (1 − α / 2) ⋅ σ 
poblacional con distribución normal y varianza conocida n= 
 e 
Si σ es desconocida se estima por S de una muestra piloto y se reemplaza en la expresión anterior.

Caso 2: Tamaño de la muestra para estimar p


Si se considera el error de estimación e = pˆ − p en una población normal, se obtiene el tamaño
2
 Z (1 − α / 2) 
muestral para intervalos de la proporción poblacional n=  ⋅ p(1 − p)
 e 
Si p no es conocido se puede sustituir con una estimación p̂ / obtenida en un estudio piloto con
una muestra n / . En caso contrario, se sustituye p por el valor que hace máxima la varianza p = 1/2

Ejemplo 4. Una empresa desea desarrollar un intervalo de confianza del 99% para estimar el número
promedio de habitaciones ocupadas cada noche en sus localidades de toda la nación. ¿Cuántas noche
deben incluirse en la muestra si se puede tolerar un error de 50 habitaciones y una muestra piloto
revela que S = 165 habitaciones?
¿Qué pasaría a su respuesta si S = 265? ¿Por qué?

Como empleado recién contratado para ventas minoristas, se le asigna la tarea de estimar
Ejercicio 9.
la proporción de consumidores que prefieren su producto al de la competencia. ¿Cuántos

6
Inferencia Estadística H. Alvarado – L Retamal

consumidores se deben tomar en la muestra si se desea restringir el error al 10%, pero sin embargo
desea proporcionar un nivel de confianza del 99%?
¿Qué tan grande debe ser la muestra si el error se restringe al 5% Explique la diferencia.

Intervalo De Confianza Para La Varianza Poblacional σ 2

( n − 1) S 2
Se estableció que si tenemos observaciones de una variable X ~ N (0,1) se cumple que ~ ℵ2n −1 .
σ2
Un intervalo que con probabilidad 1- α contenga a ℵ2 0 tiene por extremos
ℵ n −1 (1 − α / 2) y ℵ n −1 (α / 2) y entonces:
2 2

(n − 1) S 2 (n − 1) S 2
≤σ2 ≤
ℵ2n −1 (1 − α / 2) ℵ2n −1 (α / 2)

Observación: Un I. de C. Para la desviación estándar σ se obtiene tomando la raíz cuadrada en cada


una de las dos desigualdades anteriores.

Un fabricante produce anillos para los pistones de un motor de automóvil. Se sabe que el
Ejercicio 10.
diámetro del anillo está distribuido de manera normal. Una muestra aleatoria de 15 anillos tiene un
diámetro promedio de 74,036 mm y una desviación estándar de 0,001 mm. Determine un intervalo
de confianza del 95% para la desviación estándar poblacional.

Intervalo De Confianza Para El Cuociente Entre Dos Varianzas σ 12 / σ 22

Supongamos que se tienen dos muestras provenientes de dos distribuciones normales con medias y
S12 ⋅ σ 22
varianza desconocidas. Entonces: F = ~ f (n1 − 1 , n2 − 1)
S 22 ⋅ σ 12

De la tabla de la distribución de Fisher obtenemos los valores f (1 − α / 2) y f (α / 2) para


(n1 - 1) y ( n 2 − 1) grados de libertad para el numerador y denominador respectivamente, tal que un I. de
C. del 100(1 − α )% para σ 12 / σ 22 está dado por:
σ 12  S12 S12 

: ,
σ 22  S 22 ⋅ f ( n1 −1 , n2 −1) (1 − α / 2) S22 ⋅ f ( n1 −1 , 
n2 −1) (α / 2) 

Ejercicio 11.Una empresa fabricante de computadores tiene dos modelos diferentes de impresora de
matriz de punto, sean ellas tipo A y B. Se recoge información respecto de las ventas en 5 meses,
elegidas al azar, en una distribuidora. Los datos obtenidos están resumidos en la siguiente tabla
n media muestral varianza muestral
Tipo A 5 70 16
Tipo B 5 73 25

Se sospecha que el número de artículos vendidos mensualmente tiene la misma variación con los dos
tipos de impresoras. ¿Qué opina Usted al respecto? Justifique usando un nivel de confianza del 95%.

7
Inferencia Estadística H. Alvarado – L Retamal

PRUEBAS DE HIPÓTESIS

En esta sección vamos a plantear una afirmación acerca de un parámetro desconocido


asociado con una distribución de probabilidades, apoyándose en una muestra aleatoria. En vez de
encontrar un estimador para el parámetro será conveniente formular una hipótesis sobre un valor para
éste y luego en base a una muestra poder confirmar o rechazar el valor de la hipótesis. Los siguientes
ejemplos tienen en común que la hipótesis se formula sobre la población y las conclusiones sobre la
validez de esta hipótesis se establecen en la información muestral.

1. Un fabricante que produce cereales de desayuno afirma que, en promedio, el contenido de


cada caja pesa menos de 200 gramos. Para verificar esta afirmación, se pesa el contenido de
una muestra aleatoria y se infiere el resultado a partir del resultado muestral.
2. Un investigador quiere saber si una propuesta de reforma fiscal es acogida de igual forma por
hombres y mujeres. Para analizar si es así, recoge las opiniones de una muestra aleatoria de
hombres y mujeres.

A continuación se describen los elementos que componen una prueba de hipótesis:

a) Una hipótesis estadística es una afirmación o conjetura acerca de los parámetros de la


distribución de probabilidades de una población. Si la hipótesis estadística especifica completamente
la distribución, entonces será llamada Hipótesis simple, de otra manera la llamaremos Hipótesis
Compuesta.
En adelante, denotaremos H 0 a una hipótesis nula representará la idea estándar, conocida o
clásica respecto del parámetro (corresponde a la idea que debiera presuponerse) y se contrapone a
una segunda hipótesis llamada alternativa H 1 , que representa una idea nueva o no clásica respecto
del parámetro. También es llamada hipótesis de trabajo porque corresponde a la hipótesis con la cual
el investigador trabaja.

b) Un test de una hipótesis estadística es una regla o procedimiento que permite decidir el rechazo de
la hipótesis H 0 .

c) El estadígrafo o estadístico de prueba es una función de la muestra. Interesa que contenga el


máximo de información sobre la H 0 planteada ya que, en base a la información contenida en esta
función se tomará la decisión respecto de la aceptación o rechazo de la hipótesis, H 0 ,planteada.

d) La región de rechazo, especifica los valores del estadístico de la prueba para los cuales se rechaza
H 0 .Entonces, la hipótesis nula será rechazada si y sólo si el valor observado o calculado del
estadístico de prueba se ubica en la región de rechazo.

e) Errores en pruebas de hipótesis. La selección de una región de rechazo en particular se basa en


la comprensión de dos tipos de errores que enfrentaríamos al sacar una conclusión. Al realizar una
prueba de hipótesis un error tipo I se comete cuando se rechaza una hipótesis nula verdadera; es
decir, cuando la hipótesis nula es verdadera, pero se decide en contra de ella. Un error tipo II se
comete cuando se decide a favor de una hipótesis nula que realmente es falsa.
La cuantificación de los errores es dada a continuación:

8
Inferencia Estadística H. Alvarado – L Retamal

α (θ ) = Ρ(rechazarH 0 / H 0 ) β (θ ) = Ρ(aceptarH 0 / H1 )

¿Cómo es posible reducir α y β al mismo tiempo? La respuesta es obtener mayor información


acerca de la naturaleza real de la población incrementando el tamaño de la muestra. Así, casi todas
las pruebas estadísticas α y β decrecerán ambos al aumentar el tamaño de la muestra.
Naturalmente, deseamos disminuir ambos errores y es considerado más grave el error tipo I,
en el cual el investigador encuentra evidencia para rechazar H 0 cuando no la hay; esto significa
considerar un nivel de significación α pequeño. Típicamente se fijan en 5%, también son usados al
1% y 10%.

Test de Parámetros en Distribuciones Normales

A. prueba de hipótesis para medias

Sea X 1 , X 2 ,.... X n una muestra de una distribución normal con media µ desconocida y varianza σ 2
conocida.

1) Hipótesis: a) H 0 : µ ≤ µ 0 vs H1 : µ > µ 0
b) H 0 : µ ≥ µ 0 vs H1 : µ < µ 0
c) H 0 : µ = µ 0 vs H1 : µ ≠ µ 0

2) Estadístico de prueba: En los tres casos (a), (b) y (c): Z=


x − µ0
=
(
n x − µ0 )
σ/ n σ
S reemplaza a σ cuando ésta es desconocida.

3) Test: Regla de decisión o de rechazo de H 0


a) Z > C1 b) Z < C1 c) Z < - C1 o Z > C1 ;
donde C1 es:
alpha 0.10 0,05 0,01
(a) 1.28 1.645 2.33
(b) -1,28 -1,65 -2,33
(c) 1.645 1.96 2.58

Si el estadístico de prueba cae dentro de la región crítica se rechaza H 0 . En caso contrario no se


rechaza H 0 .
4) Conclusión: Se escribe una conclusión sobre la hipótesis de trabajo.

Observación: Uso del promedio muestral en muestras pequeñas. Si el tamaño de muestra n es menor
que 30 y la desviación poblacional σ es desconocida se utiliza el estadístico de prueba
t-student: T=
x − µ0
=
(
n x − µ0 ).
S/ n S

Ejemplo 1. Supongamos que la variable X: “precio del kilo de pan” sigue una distribución Normal y
de una muestra aleatoria de tamaño 15 locales se obtiene x = $791.5 y S = $6.5

9
Inferencia Estadística H. Alvarado – L Retamal

x − µ0
Como σ es desconocida y la muestra es pequeña se usa el estadístico : T = ≈ t (14) .
S/ n
El intervalo de 95% de confianza para el precio medio µ del kilógramo de pan en la ciudad es:

 S 
 = [787.9 , 795.1]
S
 x − 2.14 ⋅ , x + 2.14 ⋅
 15 15 
Tenemos un 95% de confianza de que el precio medio del kilógramo de pan en la ciudad está entre
$787.9 y $795.1.

Consideremos la pregunta: ¿Hay evidencia para afirmar, con una prueba de hipótesis de nivel de
significación 0.05, que el precio medio del pan en la ciudad es superior a $785?

Hipótesis: H 0 : µ ≤ 785 vs H1 : µ > 785


791.5 − 785
Estadístico de prueba: T= = 3.87
6.5 15
Regla de decisión: Se rechaza H 0 si T > C1 = 1.76
Como 3.87 es mayor que 1.76 concluimos que hay suficiente evidencia en la muestra para afirmar
que el precio del pan ha subido.

Ejercicio 1. Supongamos que se desea estudiar el ingreso medio anual (en dólares) de un país. Para
ello, se toma una muestra aleatoria de 500 personas, obteniéndose (luego de determinar sus ingresos
personales, tarea que debido a varias razones puede no ser fácil) x = $4932, S = $1201. Suponga que
los ingresos se distribuyen normalmente. ¿Se puede afirmar que el ingreso medio de dicho país es
menor de $5.000?

Ejercicio 2. Una empresa aseguradora contrata agentes a los que paga una comisión. La empresa
afirma que en su primer año, los agentes ganarán una comisión media menor a 4.000.000 de pesetas
y que la desviación estándar menor a 600.000 pesetas. Una muestra aleatoria de nueve agentes
proporcionó, para las comisiones durante el primer año,
2

∑ (x )
n n


i =1
xi = 3.33 y
i =1
i −x = 0.0312 ; donde xi se mide en millones de pesetas y las distribución

de la población es normal. Con un nivel de significación del 5% , determine si la empresa está en lo


correcto.

En resumen, el procedimiento para realizar una dócima de hipótesis es: Dadas las hipótesis nula y alternativa se
propone un estadístico de prueba adecuado y una región crítica en la cual H 0 es rechazada. Se define un nivel de
significación α que es el error tipo I máximo que se está dispuesto a cometer. En base a α se determina la región de
rechazo específica. Por último se decide entre rechazar la hipótesis nula o no rechazarla.

También, se pueden extender estos resultados al caso en que se tienen dos muestras e interesa
hacer un test que se refiere a las diferencias entre las medias.

10
Inferencia Estadística H. Alvarado – L Retamal

Ejercicio 3. Para responder a la pregunta ¿existen diferencias entre las remuneraciones de


Administradores hombres y mujeres? Para ello, se considera una muestra aleatoria de 10 hombres y
10 mujeres recién egresadas. Las medias en las muestras son respectivamente 20 y18. Las varianzas
son 5 y 4 respectivamente. Las dos muestras son independientes, con igual varianza y provienen
de distribuciones normales.
Las hipótesis de interés son: H 0 : µ H − µ M = 0 H1 : µ H − µ M ≠ 0

Ahora un test para estas hipótesis debiera basarse en el estadístico X H − X M . Por otra parte, la
varianza común a ambas muestras se estima mediante la varianza muestral ponderada. Así bajo la
hipótesis nula,
X H − X M − (µ H − µ M )0
TC = ≈ t (n H + n M − 2)
 1 1 
S 2P  + 
n
 H n M 
Se obtiene de los datos S P2 = 4.50 y TC = 2.11 . Luego, si el nivel de significación es del 10%, los
valores críticos de la tabla de la distribución t(18) son –1.734 y 1.734. La hipótesis nula se rechaza
a favor de la alternativa.
Conclusión: Con un nivel de significación del 10%, existe evidencia en la muestra para decidir que
hay diferencias en las remuneraciones.

OJO: Si las varianzas poblacionales son conocidas el procedimiento es similar al anterior


considerando ahora el estadístico
X H − X M − (µ H − µ M )0
ZC = ≈ N (0,1) .
 σ H2 σ M
2 
 + 
 nH nM 
 

Ejercicio 4. En un proceso de llenado, la tolerancia para el peso de los recipientes es de ocho


gramos. Para reunir este requisito, la desviación estándar en el peso debe ser de dos gramos. Los
pesos de 25 recipientes seleccionados al azar dieron como resultado una desviación estándar de 2,8
gramos. Si los pesos se encuentran normalmente distribuidos, determinar si la varianza de éstos es
diferente del valor observado. Use un nivel de significación del 1%.

B. Prueba de hipótesis para varianzas

Suponemos que la media µ es desconocida de una población normal aunque los resultados se
pueden extender en forma natural al caso en que µ es conocido.
Suponga las hipótesis H 0 : σ 2 = σ 02 H 1 : σ 2 ≠ σ 02
(n − 1) ⋅ S 2
Bajo H 0 se tiene el estadístico ℵ2C = ≈ ℵ(2n −1)
σ 02
Así, si este estadístico toma valores cercano a (n-1), que corresponde a la media de la distribución, se
acepta H 0 .
Si la hipótesis nula es de la forma H 0 : σ 2 ≤ σ 02 entonces sólo se rechaza H 0 para valores
grandes de ℵC2 . Mientras que si la hipótesis nula es de la forma H 0 : σ 2 ≥ σ 02 sólo se rechaza H 0 para

11
Inferencia Estadística H. Alvarado – L Retamal

valores pequeños de ℵC2 . Los valores críticos son obtenidos de tablas de la distribución ℵ(2n −1) en
base al nivel de significación α dado.

Finalmente, podemos considerar un test en el cual se comparan las varianzas de dos


distribuciones normales:
σ 12 σ 12
Consideremos las hipótesis H0 : =δ0 H1 : ≠δ0
σ 22 σ 22

Con δ 0 un valor conocido, generalmente igual a 1. Entonces, bajo H 0 , se plantea el estadístico


S12
FC = ≈ f (n1 − 1, n 2 − 1)
S 22

Así, valores cercanos a 1 en el estadígrafo FC hacen aceptar H 0 , mientras que valores muy
distintos de 1 hacen rechazar H 0 . También, se pueden considerar, en este caso, hipótesis que
σ 12
consideren desigualdades. Si la hipótesis nula es H 0 : ≤ δ 0 , sólo se rechaza esta hipótesis para
σ 22
valores grandes de FC .

Ejercicio 5. Con el fin de evaluar el efecto que tiene el uso de celular sobre la habilidad de las
personas para llevar a cabo una determinada tarea, un investigador selecciona 32 personas. A
dieciséis de estas, seleccionadas al azar, se les pasa un celular 30 días antes de realizar la tarea para
que se familiaricen con la tenencia de un celular. Pasado el periodo, se les explica sobre la forma de
ejecutar la tarea, lo mismo se hace con las dieciséis personas que no tienen celular. Los tiempos de
ejecución (en minutos) necesarios para completar la tarea se indican a continuación.

Sin celular 14 12 15 15 11 16 17 12 14 13 18 13 18 16 16 11
Con celular 20 22 18 15 18 19 18 15 22 18 19 15 21 22 18 16

Suponiendo que estos datos constituyen muestras aleatorias independientes proveniente de dos
poblaciones distribuidas normal.
a) ¿Existe alguna razón para creer que las varianzas de cada nivel son distintas? Use α = 1%.
b) ¿Cree Ud. que los tiempos de ejecución de la tarea para los que usan celular es mayor que los que
no usan? Utilice un nivel de significación del 1%.

C. Test para parámetros en otras distribuciones

Para desarrollar test de hipótesis que se refieren a parámetros de distribuciones no normales


se puede utilizar el teorema central del límite. En particular, en una muestra aleatoria de tamaño n
X −µ
grande se considera el estadístico de prueba: ≈ N (0,1)
σ n
El procedimiento aplicado para las reglas de decisión en estas situaciones es exactamente igual al
aplicado en el caso de la distribución normal. Si la varianza poblacional es desconocida puede ser
reemplazada por su estimador consistente S 2 sin alterar la distribución límite.

12
Inferencia Estadística H. Alvarado – L Retamal

La forma usual de hacer un test de hipótesis considera la distribución de probabilidades de


algún estadístico bajo H 0 . Cuando la varianza del estimador depende del parámetro considerados en
las hipótesis el estadístico Z C se puede evaluar reemplazando θ por θ 0 en la expresión de la
varianza (que es lo que ocurre en los test de hipótesis para proporciones).

Ejemplo 2. Un nuevo producto es lanzado al mercado si más del 60% de la población objetivo lo
considera bueno. Se realiza una encuesta a 120 personas y 80 apoyan el producto, esto es el 66.7%
Interesan las hipótesis H 0 : p ≤ 0.60 H 1 : p > 0.60
pˆ − p
En este caso, mediante el teorema central del límite, el estadístico a utilizar es Z = ≈ N (0,1)
p⋅q
n
L aprueba de hipótesis se puede hacer en base al estadístico Z C que reemplaza la varianza
pˆ − p 0
desconocida por un estimador consistente: Z C = donde p 0 es el valor del parámetro en H 0 ,
pˆ ⋅ qˆ
n
en este caso 0.60. Por último, se puede reemplazar el valor de p por el especificado en la hipótesis
pˆ − p 0
nula para obtener Z *C =
p0 ⋅ q0
n

Observación: Ambos estadísticos calculados deben ser comparados con los percentiles de la
distribución normal estándar. Se obtienen de los datos Z C = 1.56 y Z * C = 1.5. Con un nivel de
significación del 5%, el valor crítico de tabla es 1.64. Con cualquiera de los dos estadísticos se
acepta H 0 .

Si la muestra hubiese estado dividida en hombres y mujeres, podríamos haber estado


interesado en las hipótesis
H 0 : pH − pM = 0 H1 : pH − pM ≠ 0

pˆ H − pˆ M
Entonces, el estadístico de prueba a considerar es de la forma Z C =
pˆ H ⋅ qˆ H pˆ M ⋅ qˆ M
+
nH nM

Ejercicio 6. Después de varios años de trabajo, una máquina que produce cierto tipo de vaso, genera
un promedio de 10% de unidades defectuosas. El ingeniero de control de calidad sospecha que
últimamente la calidad de los vasos se ha deteriorado. Para verificarlo, selecciona una muestra
aleatoria de 100 vasos producidos por esta máquina, de los cuales 14 resultaron defectuosos. ¿Puede
concluir el ingeniero que la calidad de los vasos se ha deteriorado?

Ejercicio 7. En una muestra aleatoria de 500 adultos residentes en cierto condado, se encuentra que
385 están a favor de aumentar el límite de velocidad en las autopistas a 70 mph, mientras que en otra
muestra de 400 adultos residentes en un condado vecino se encuentra que 267 están a favor del

13
Inferencia Estadística H. Alvarado – L Retamal

aumento del límite de velocidad, ¿Estos datos indican que existe una diferencia en el apoyo al
aumento del límite de velocidad entre los residentes de ambos condados?
Utilice α = 0.05 para llegar a una conclusión.

D. Formas alternativas de hacer un test de hipótesis

La metodología planteada para hacer un test de hipótesis consiste en calcular un estadígrafo


Z C , TC , ℵC2 ò FC y luego compararlo con un valor de tablas de acuerdo con un nivel de
significancia especificado. Existen dos formas alternativas de hacer estos test:

Caso 1: La forma tradicional de hacer un test con hipótesis nula simple H 0 : θ = θ 0 y nivel de
significancia α . Es equivalente a construir un intervalo de confianza (1 − α ) y luego observar si este
intervalo es consistente o no con H 0 . Si el Intervalo de Confianza contiene al valor especificado en
H 0 se acepta la hipótesis nula, en caso contrario se rechaza la hipótesis nula.
En otras palabras, un intervalo de confianza (1 − α ) para el parámetro θ representa a todas las
hipótesis nulas simples que serían aceptadas al hacer un test con nivel de significancia α .

Caso 2: Se basa en el valor de probabilidad valor-p.

Def. 1. Para un test de hipótesis se le llama valor-p al nivel de significancia mínimo que es necesario
para rechazar H 0 . En otras palabras, el valor-p se define como el menor nivel de significación para
el cual un experimentador, utilizando el estadístico, rechazaría H 0 sobre la base del resultado
observado. Luego, la prueba de hipótesis con nivel de significación α se puede efectuar mediante la
siguiente regla de decisión:
No rechazar H 0 si valor p > α
Rechazar H 0 si valor p < α

El valor-p es una medida de la verosimilitud de H 0 .

Una vez calculado la probabilidad de significación podemos utilizar el criterio empírico:

v-p < 0,01 Existe evidencia muy fuerte en contra de H0


0,01 < v-p < 0,05 Existe evidencia fuerte en contra de H0
0,05 < v-p < 0,1 Existe evidencia débil en contra de H0
v-p > 0,1 La muestra no contiene evidencia en contra de H0

Ejemplo 3. Suponga que para decidir entre las hipótesis H 0 : θ = θ 0 H1 :θ ≠ θ 0


Se calcula el estadístico Z C = 1.36 que bajo la hipótesis nula H 0 tiene distribución normal estándar.

14
Inferencia Estadística H. Alvarado – L Retamal

(a) La forma tradicional de hacer este test es fijar el nivel de significación, digamos 5%, y comparar
el valor Z C con los correspondientes percentiles de la distribución normal estándar. En este caso –
1.96 y 1.96. Entonces no se rechaza H 0 .
(b) Para el problema planteado el valor-p corresponde al área de la distribución normal estándar a la
derecha de 1.36 y a la izquierda de –1.36, porque cualquier nivel de significancia igual o superior a
éste hace que se rechace la hipótesis nula. El valor-p calculado es 0.174. Luego, como el valor-p es
mayor que 0.05 no se rechaza H 0 .

Ejercicio 8. Un banco comercial está estudiando el uso de sus cajeros automáticos (CA). De interés
particular es si los jóvenes (menores de 25 años) utilizan más las máquinas que los adultos mayores.
Para emplear la investigación, se seleccionaron muestras de clientes menores de 25 años y mayores
que 60. El número de transacciones en CA del mes pasado se determinó para cada persona
seleccionada y los resultados se presentan a continuación.
Clientes de menos de 25 años 10 10 11 15 7 11 10 9
Clientes de más de 60 años 4 8 7 7 4 5 1 7

Suponiendo que estos datos constituyen muestras aleatorias independientes proveniente de dos
poblaciones distribuidas normal
a) ¿Existe alguna razón para creer que las varianzas de cada nivel son distintas? Use un nivel de
significación del 1%.
b) ¿Puede la gerencia del banco concluir que los clientes jóvenes usan más los CA que los adultos
mayores? Decida, a través del valor-p.
c) Determine un Intervalo de Confianza del 95% para el promedio de clientes que tienen más de 60
años.

E. Test sobre medias cuando las observaciones están relacionadas

En el caso que un par de observaciones pueden ser relacionadas de alguna manera, tal como una
observación tomada sobre un individuo antes de un tratamiento y otra observación después del
tratamiento, reciben el nombre de observaciones pareadas.
El objetivo es tener a las personas u objetos que producirán las observaciones dentro de cada
nivel, tan homogéneas como sea posible. A pesar de que se desea determinar si existe alguna
diferencia entre las medias, no puede considerarse a los pares como dos muestras aleatorias
independientes.

Se puede formular inferencias sobre las medias de dos niveles cuando las observaciones están
pareadas al considerar las diferencias como una sola variable aleatoria con distribución normal con
parámetros µ y σ 2 .
d −δo
Bajo la hipótesis nula. H 0 : µ d = δ o , la estadística de prueba t =
sd / n
n

∑d i
tiene una distribución t de Student con n-1 grados de libertad, en donde d = i =1

15
Inferencia Estadística H. Alvarado – L Retamal

∑ (d i − d )2
d i = X i − Yi y S d2 = i =1

n −1

Las regiones críticas de tamaño α para la hipótesis alternativas unilaterales y bilaterales se


encuentran de la misma forma que en parte A.

Observación: En el caso que la distribución de las observaciones no fuera normal, en virtud del
Teorema Central del Límite, la distribución de t definida anteriormente es N(0,1) si n es
suficientemente grande.

Ejemplo 4. Se llevó a cabo un estudio para determinar el grado en el cual el alcohol entorpece la
habilidad del pensamiento. Para ello, se seleccionaron al azar diez personas de distintas
características y se les pidió que participaran en el experimento. Después de proporcionarle la
información pertinente cada persona llevó a cabo la tarea sin nada de alcohol en su organismo.
Entonces, la tarea volvió a llevarse a cabo, después de que cada individuo habría consumido una
cantidad suficiente de alcohol para tener un contenido en su organismo de 0,1%. Suponga que los
tiempos “antes” y “después” (en minutos) de los diez participantes son los siguientes:

Participante 1 2 3 4 5 6 7 8 9 10
Antes (X) 28 22 55 45 32 35 40 25 37 20
Después (Y) 39 45 67 61 46 58 51 34 48 30

a) ¿Puede concluirse a un nivel de α = 0.02 que el tiempo promedio “antes” es menor que el tiempo
promedio “después”?
b) Determine un intervalo de confianza del 95% para µ d .
c) Determine un intervalo de confianza del 96% para Var ( X − Y ) .

16

También podría gustarte