Apuntes 6
Apuntes 6
Apuntes 6
Alvarado – L Retamal
INFERENCIA ESTADÍSTICA
Estimación por Intervalos de Confianza
Pruebas de Hipótesis
Hay por lo menos dos tipos de estimadores que se utilizan más comúnmente para los parámetros
poblacionales clásicos de la media, la proporción y la varianza:
a) Un estimador puntual utiliza un estadístico para estimar el parámetro en un solo valor o punto.
b) Un intervalo de confianza denota un rango dentro del cual puede encontrarse el parámetro, y el
coeficiente de confianza que el intervalo contiene del parámetro.
Observación:
Las probabilidades que el parámetro no este en el intervalo se reparten por igual entre los extremos
del intervalo. Para construir los Intervalos de Confianza se usa el método del pivote: Se obtiene una
variable aleatoria tal que:
i) Dependa de las observaciones de la muestra y del parámetro desconocido θ .
ii) Tenga una distribución de probabilidades que no dependa del parámetro θ .
1
Inferencia Estadística H. Alvarado – L Retamal
Ejemplo 1. Un promotor inmobiliario quien intenta construir un centro comercial desea estimar en el
área el ingreso promedio por familia como indicador de las ventas esperadas. Una muestra de n =
100 familias da una media X = US$35.500. Se asume que la desviación estándar poblacional es
σ = US$7.200. Un intervalo del 95% de confianza para estimar el ingreso medio poblacional por
familia está dada por µ : (34.088 , 36.911)
Interpretación 1: El promotor establece que tiene un “95% de confianza en que la media poblacional
real desconocida esté entre US$34.088 y US$36.911”. Aunque el valor real para la media
poblacional sigue siendo desconocido, el promotor tiene un 95% de confianza en que esté entre estos
dos valores.
Si una segunda muestra da una media muestral de US$35.600 en lugar de US$35.500, el intervalo es
µ : (34.188 , 37.011). El promotor puede estar un 95% seguro de que la media poblacional está
comprendida entre US$34.188 y US$37.011. Si todos los intervalos posibles se construyeran con
base en todas las medias muestrales diferentes, el 95% de ellas contendría la media poblacional
desconocida.
En otras palabras, significa que el 5% de todos los intervalos estaría errado; no contendría la media
poblacional. Este 5%, denominado valor alfa, hallado como α = (1-coeficiente de confianza),
representa la probabilidad de error o la probabilidad de que un intervalo dado no contenga la media
poblacional desconocida.
Caso 2: No obstante lo anterior, si el tamaño de la muestra es grande (n ≥ 30) una aplicación del
X −µ
teorema central del límite permite establecer ~& N (0,1) .
S n
Luego, un I. de C. 1 - α para µ es:
S
µ : x ± Z (1 − α 2) ⋅
n
Ejercicio 1. Carlos Daniel acaba de registrar las declaraciones de impuestos de sus clientes. Desea
estimar la cantidad promedio que deben al Servicio de Renta Interna. De los 50 clientes que
seleccionó en su muestra, la cantidad promedio que se adecuaba era de US$652.68. Ya que la
desviación estándar de todos sus clientes es desconocida, Carlos debe estimar σ con la desviación
estándar de la muestra de S = US$217.43.
Verifique que Carlos puede tener un 99% de confianza en que la cantidad promedio que deben todos
sus clientes al SRI está entre US$573.35 y US$732.01.
¿Qué pasaría a este intervalo si Carlos estuviera dispuesto a aceptar un nivel de confianza del 95%?
Se obtendría un resultado entre US$592.41 y US$712.96.
Los resultados son tanto buenos como malos:
2
Inferencia Estadística H. Alvarado – L Retamal
Las buenas noticias son que el intervalo del 95% es más estrecho y ofrece mayor precisión. Un
intervalo amplio no es tan útil. Entre más estrecho sea un intervalo, más significativo es.
Las malas noticias son que Carlos ahora está el 95% seguro de que el intervalo contiene en realidad
µ. Aunque el intervalo es más preciso (más estrecho), la probabilidad de que contenga µ se ha
reducido del 99 al 95%. Carlos tuvo que abandonar algo de confianza y ganar más precisión.
Para estimar el gasto promedio de los clientes en el Mc Donald`s local, los estudiantes de
Ejercicio 3.
una clase toman una muestra de 200 clientes y encuentran un gasto promedio de US$5.76, con una
desviación estándar de US$1.10. ¿Cuál es el intervalo de confianza del 95% para los gastos
promedio de todos los clientes? Interprete sus resultados.
Caso 3: La muestra aleatoria es sacada de una población normal, pero los parámetros µ y σ 2 son
desconocidos. El pivote es:
X −µ
T= ~ t ( n − 1)
S n
Grados de libertad: Es el número de observaciones menos el número de restricciones impuestas sobre
tales observaciones.
Las condiciones que debe cumplir la distribución t-Student son que la población es normal, se toma
una muestra pequeña y σ es desconocido.
Ejemplo 2. De un estudio se descubre que el costo promedio de adornar los jardines de 20 casas del
área es de US$2.365, con S = US$983. Al nivel de confianza del 98%, ¿qué costo promedio
estimaría usted para adornar los jardines de todas las casas del área?
Ejercicio 4.Una empresa muestrea 23 paquetes para estimar el costo postal promedio. La media
muestral es de US$23.56, con S = US$4.65.
a) El editor espera mantener el costo promedio por debajo de US$23.00 Calcule e interprete el
intervalo de confianza del 99%. ¿El editor está satisfecho?
b) Compare los resultados de la parte a) con el intervalo del 95%. Explique la diferencia.
c) Manteniendo S = US$4.65, compare los resultados de la parte a) con el intervalo del 95%.
Explique la diferencia.
Ejercicio 5.Un estudio realizado por profesores universitarios está diseñado para ofrecer inferencias
sobre las tasas de desempleo por ciudad. Una muestra de 200 ciudades reporta una tasa promedio del
6.2%, con una desviación estándar del 1.7%. A un nivel de confianza del 90%, ¿cuál es el intervalo
estimado de la tasa de desempleo promedio por ciudad en la nación?
3
Inferencia Estadística H. Alvarado – L Retamal
Un teatro de cine local desea desarrollar un intervalo para estimar las cajas promedio de
Ejercicio 6.
palomitas de maíz que se venden por sala de cine. Si los registros llevados para 70 salas relevan un
promedio de 54.98 cajas y una desviación estándar de 12.7, calcule e interprete un intervalo de
confianza del 92% para la media poblacional.
σ12 σ 22
µ1 − µ 2 : ( X1 − X 2 ) ± Z(1 - α/2) ⋅ +
n1 n2
Ahora, cuando σ 12 y σ 22 son desconocidas pero los tamaños de muestras n1 y n 2 son pequeños la
obtención de la distribución del pivote no es directa, a menos que las varianzas de las dos
poblaciones normales sean iguales. En este caso, si σ 12 = σ 22 = σ 2 entonces σ 2 puede ser estimado
(n1 − 1) ⋅ S12 + (n 2 − 1) ⋅ S 22
por S 2p =
n1 + n 2 − 2
X1 − X 2 − ( µ1 − µ 2 )
Se puede probar que T= ~ t (n1 + n2 − 2) .
1 1
Sp ⋅ +
n1 n2
4
Inferencia Estadística H. Alvarado – L Retamal
Marca A: x1 =36300 km. y S1=5000 km. ; Marca B: x2 =38100 km. y S2=6100 km.
a) Construya un intervalo del 95% de confianza para la diferencia entre estas dos marcas. ¿Puede
concluir que las duraciones medias son diferentes para estos tipos de neumáticos? Suponga que las
marcas tienen igual variabilidad
b) La gerencia desea estimar el nivel medio de duración del neumático A con un máximo error de
1000 km. y una confianza del 95%. ¿Cuántos neumáticos habría que muestrear? (ver pág. 11)
pˆ − p
En una muestra de tamaño n un pivote adecuado es: Z0 = ≈ N (0,1)
p (1 − p ) n
pˆ qˆ
p: pˆ ± Z (1 − α 2) ⋅
n
Ejemplo 3. CNN informó que el 68% de todos los estudiantes de secundaria tenía computadores en
sus casas. Si una muestra de 1020 estudiantes revela que 673 tienen computadores caseros, ¿un
intervalo del 99% apoya a CNN?
Ejercicio 8.La Asociación Nacional de Viajes tomó muestras de las personas que tomaban vacaciones
en Irlanda para estimar la frecuencia con la cual los norteamericanos visitaban Emerald Isle. ¿Cuál es
el intervalo de confianza del 96% para la proporción de turistas que son norteamericanos, si 1098 de
los 3769 encuestados portaban pasaportes de Estados Unidos?
De los 1098 turistas norteamericanos 684 habían registrado su viaje a través de un agente de viajes.
Calcule e interprete el intervalo del 95% para la proporción de todos los norteamericanos que utilizan
los servicios de agencias de viajes profesionales en Irlanda.
Si 896 de los turistas norteamericanos recomendarán el viaje a sus amigos, ¿qué porcentaje de todos
los turistas norteamericanos harían lo mismo con un nivel del 99% de confianza?
Si 796 de los 1098 turistas norteamericanos planean viajes para regresar a Irlanda, con un nivel de
confianza del 92%, ¿qué proporción de todos los turistas norteamericanos repetirían sus vacaciones?
5
Inferencia Estadística H. Alvarado – L Retamal
En este último estadístico p1 y p 2 han sido estimados por sus respectivas proporciones muestrales
(en el denominador). Dado que los valores de n1 y n 2 son grandes las aproximaciones siguen
siendo válidas. Por lo tanto, tenemos un intervalo de confianza aproximado del 100(1 − α )% para
pˆ1qˆ1 pˆ 2 qˆ2
p1 − p 2 : pˆ1 − pˆ 2 ± Z (1 − α / 2) ⋅ +
n1 n2
Una firma productora de cigarros asegura que su marca A de cigarros sobrepasa en ventas
Ejercicio 9.
a su marca B en 8%. Si se encuentra que 42 de 200 fumadores prefieren la marca A y 18 de 150
fumadores la marca B, calcule un Intervalo de Confianza del 94% para la diferencia entre las
proporciones de ventas de las dos marcas y determine si la diferencia del 8% es una afirmación
válida.
Ejemplo 4. Una empresa desea desarrollar un intervalo de confianza del 99% para estimar el número
promedio de habitaciones ocupadas cada noche en sus localidades de toda la nación. ¿Cuántas noche
deben incluirse en la muestra si se puede tolerar un error de 50 habitaciones y una muestra piloto
revela que S = 165 habitaciones?
¿Qué pasaría a su respuesta si S = 265? ¿Por qué?
Como empleado recién contratado para ventas minoristas, se le asigna la tarea de estimar
Ejercicio 9.
la proporción de consumidores que prefieren su producto al de la competencia. ¿Cuántos
6
Inferencia Estadística H. Alvarado – L Retamal
consumidores se deben tomar en la muestra si se desea restringir el error al 10%, pero sin embargo
desea proporcionar un nivel de confianza del 99%?
¿Qué tan grande debe ser la muestra si el error se restringe al 5% Explique la diferencia.
( n − 1) S 2
Se estableció que si tenemos observaciones de una variable X ~ N (0,1) se cumple que ~ ℵ2n −1 .
σ2
Un intervalo que con probabilidad 1- α contenga a ℵ2 0 tiene por extremos
ℵ n −1 (1 − α / 2) y ℵ n −1 (α / 2) y entonces:
2 2
(n − 1) S 2 (n − 1) S 2
≤σ2 ≤
ℵ2n −1 (1 − α / 2) ℵ2n −1 (α / 2)
Un fabricante produce anillos para los pistones de un motor de automóvil. Se sabe que el
Ejercicio 10.
diámetro del anillo está distribuido de manera normal. Una muestra aleatoria de 15 anillos tiene un
diámetro promedio de 74,036 mm y una desviación estándar de 0,001 mm. Determine un intervalo
de confianza del 95% para la desviación estándar poblacional.
Supongamos que se tienen dos muestras provenientes de dos distribuciones normales con medias y
S12 ⋅ σ 22
varianza desconocidas. Entonces: F = ~ f (n1 − 1 , n2 − 1)
S 22 ⋅ σ 12
Ejercicio 11.Una empresa fabricante de computadores tiene dos modelos diferentes de impresora de
matriz de punto, sean ellas tipo A y B. Se recoge información respecto de las ventas en 5 meses,
elegidas al azar, en una distribuidora. Los datos obtenidos están resumidos en la siguiente tabla
n media muestral varianza muestral
Tipo A 5 70 16
Tipo B 5 73 25
Se sospecha que el número de artículos vendidos mensualmente tiene la misma variación con los dos
tipos de impresoras. ¿Qué opina Usted al respecto? Justifique usando un nivel de confianza del 95%.
7
Inferencia Estadística H. Alvarado – L Retamal
PRUEBAS DE HIPÓTESIS
b) Un test de una hipótesis estadística es una regla o procedimiento que permite decidir el rechazo de
la hipótesis H 0 .
d) La región de rechazo, especifica los valores del estadístico de la prueba para los cuales se rechaza
H 0 .Entonces, la hipótesis nula será rechazada si y sólo si el valor observado o calculado del
estadístico de prueba se ubica en la región de rechazo.
8
Inferencia Estadística H. Alvarado – L Retamal
α (θ ) = Ρ(rechazarH 0 / H 0 ) β (θ ) = Ρ(aceptarH 0 / H1 )
Sea X 1 , X 2 ,.... X n una muestra de una distribución normal con media µ desconocida y varianza σ 2
conocida.
1) Hipótesis: a) H 0 : µ ≤ µ 0 vs H1 : µ > µ 0
b) H 0 : µ ≥ µ 0 vs H1 : µ < µ 0
c) H 0 : µ = µ 0 vs H1 : µ ≠ µ 0
Observación: Uso del promedio muestral en muestras pequeñas. Si el tamaño de muestra n es menor
que 30 y la desviación poblacional σ es desconocida se utiliza el estadístico de prueba
t-student: T=
x − µ0
=
(
n x − µ0 ).
S/ n S
Ejemplo 1. Supongamos que la variable X: “precio del kilo de pan” sigue una distribución Normal y
de una muestra aleatoria de tamaño 15 locales se obtiene x = $791.5 y S = $6.5
9
Inferencia Estadística H. Alvarado – L Retamal
x − µ0
Como σ es desconocida y la muestra es pequeña se usa el estadístico : T = ≈ t (14) .
S/ n
El intervalo de 95% de confianza para el precio medio µ del kilógramo de pan en la ciudad es:
S
= [787.9 , 795.1]
S
x − 2.14 ⋅ , x + 2.14 ⋅
15 15
Tenemos un 95% de confianza de que el precio medio del kilógramo de pan en la ciudad está entre
$787.9 y $795.1.
Consideremos la pregunta: ¿Hay evidencia para afirmar, con una prueba de hipótesis de nivel de
significación 0.05, que el precio medio del pan en la ciudad es superior a $785?
Ejercicio 1. Supongamos que se desea estudiar el ingreso medio anual (en dólares) de un país. Para
ello, se toma una muestra aleatoria de 500 personas, obteniéndose (luego de determinar sus ingresos
personales, tarea que debido a varias razones puede no ser fácil) x = $4932, S = $1201. Suponga que
los ingresos se distribuyen normalmente. ¿Se puede afirmar que el ingreso medio de dicho país es
menor de $5.000?
Ejercicio 2. Una empresa aseguradora contrata agentes a los que paga una comisión. La empresa
afirma que en su primer año, los agentes ganarán una comisión media menor a 4.000.000 de pesetas
y que la desviación estándar menor a 600.000 pesetas. Una muestra aleatoria de nueve agentes
proporcionó, para las comisiones durante el primer año,
2
∑ (x )
n n
∑
i =1
xi = 3.33 y
i =1
i −x = 0.0312 ; donde xi se mide en millones de pesetas y las distribución
En resumen, el procedimiento para realizar una dócima de hipótesis es: Dadas las hipótesis nula y alternativa se
propone un estadístico de prueba adecuado y una región crítica en la cual H 0 es rechazada. Se define un nivel de
significación α que es el error tipo I máximo que se está dispuesto a cometer. En base a α se determina la región de
rechazo específica. Por último se decide entre rechazar la hipótesis nula o no rechazarla.
También, se pueden extender estos resultados al caso en que se tienen dos muestras e interesa
hacer un test que se refiere a las diferencias entre las medias.
10
Inferencia Estadística H. Alvarado – L Retamal
Ahora un test para estas hipótesis debiera basarse en el estadístico X H − X M . Por otra parte, la
varianza común a ambas muestras se estima mediante la varianza muestral ponderada. Así bajo la
hipótesis nula,
X H − X M − (µ H − µ M )0
TC = ≈ t (n H + n M − 2)
1 1
S 2P +
n
H n M
Se obtiene de los datos S P2 = 4.50 y TC = 2.11 . Luego, si el nivel de significación es del 10%, los
valores críticos de la tabla de la distribución t(18) son –1.734 y 1.734. La hipótesis nula se rechaza
a favor de la alternativa.
Conclusión: Con un nivel de significación del 10%, existe evidencia en la muestra para decidir que
hay diferencias en las remuneraciones.
Suponemos que la media µ es desconocida de una población normal aunque los resultados se
pueden extender en forma natural al caso en que µ es conocido.
Suponga las hipótesis H 0 : σ 2 = σ 02 H 1 : σ 2 ≠ σ 02
(n − 1) ⋅ S 2
Bajo H 0 se tiene el estadístico ℵ2C = ≈ ℵ(2n −1)
σ 02
Así, si este estadístico toma valores cercano a (n-1), que corresponde a la media de la distribución, se
acepta H 0 .
Si la hipótesis nula es de la forma H 0 : σ 2 ≤ σ 02 entonces sólo se rechaza H 0 para valores
grandes de ℵC2 . Mientras que si la hipótesis nula es de la forma H 0 : σ 2 ≥ σ 02 sólo se rechaza H 0 para
11
Inferencia Estadística H. Alvarado – L Retamal
valores pequeños de ℵC2 . Los valores críticos son obtenidos de tablas de la distribución ℵ(2n −1) en
base al nivel de significación α dado.
Así, valores cercanos a 1 en el estadígrafo FC hacen aceptar H 0 , mientras que valores muy
distintos de 1 hacen rechazar H 0 . También, se pueden considerar, en este caso, hipótesis que
σ 12
consideren desigualdades. Si la hipótesis nula es H 0 : ≤ δ 0 , sólo se rechaza esta hipótesis para
σ 22
valores grandes de FC .
Ejercicio 5. Con el fin de evaluar el efecto que tiene el uso de celular sobre la habilidad de las
personas para llevar a cabo una determinada tarea, un investigador selecciona 32 personas. A
dieciséis de estas, seleccionadas al azar, se les pasa un celular 30 días antes de realizar la tarea para
que se familiaricen con la tenencia de un celular. Pasado el periodo, se les explica sobre la forma de
ejecutar la tarea, lo mismo se hace con las dieciséis personas que no tienen celular. Los tiempos de
ejecución (en minutos) necesarios para completar la tarea se indican a continuación.
Sin celular 14 12 15 15 11 16 17 12 14 13 18 13 18 16 16 11
Con celular 20 22 18 15 18 19 18 15 22 18 19 15 21 22 18 16
Suponiendo que estos datos constituyen muestras aleatorias independientes proveniente de dos
poblaciones distribuidas normal.
a) ¿Existe alguna razón para creer que las varianzas de cada nivel son distintas? Use α = 1%.
b) ¿Cree Ud. que los tiempos de ejecución de la tarea para los que usan celular es mayor que los que
no usan? Utilice un nivel de significación del 1%.
12
Inferencia Estadística H. Alvarado – L Retamal
Ejemplo 2. Un nuevo producto es lanzado al mercado si más del 60% de la población objetivo lo
considera bueno. Se realiza una encuesta a 120 personas y 80 apoyan el producto, esto es el 66.7%
Interesan las hipótesis H 0 : p ≤ 0.60 H 1 : p > 0.60
pˆ − p
En este caso, mediante el teorema central del límite, el estadístico a utilizar es Z = ≈ N (0,1)
p⋅q
n
L aprueba de hipótesis se puede hacer en base al estadístico Z C que reemplaza la varianza
pˆ − p 0
desconocida por un estimador consistente: Z C = donde p 0 es el valor del parámetro en H 0 ,
pˆ ⋅ qˆ
n
en este caso 0.60. Por último, se puede reemplazar el valor de p por el especificado en la hipótesis
pˆ − p 0
nula para obtener Z *C =
p0 ⋅ q0
n
Observación: Ambos estadísticos calculados deben ser comparados con los percentiles de la
distribución normal estándar. Se obtienen de los datos Z C = 1.56 y Z * C = 1.5. Con un nivel de
significación del 5%, el valor crítico de tabla es 1.64. Con cualquiera de los dos estadísticos se
acepta H 0 .
pˆ H − pˆ M
Entonces, el estadístico de prueba a considerar es de la forma Z C =
pˆ H ⋅ qˆ H pˆ M ⋅ qˆ M
+
nH nM
Ejercicio 6. Después de varios años de trabajo, una máquina que produce cierto tipo de vaso, genera
un promedio de 10% de unidades defectuosas. El ingeniero de control de calidad sospecha que
últimamente la calidad de los vasos se ha deteriorado. Para verificarlo, selecciona una muestra
aleatoria de 100 vasos producidos por esta máquina, de los cuales 14 resultaron defectuosos. ¿Puede
concluir el ingeniero que la calidad de los vasos se ha deteriorado?
Ejercicio 7. En una muestra aleatoria de 500 adultos residentes en cierto condado, se encuentra que
385 están a favor de aumentar el límite de velocidad en las autopistas a 70 mph, mientras que en otra
muestra de 400 adultos residentes en un condado vecino se encuentra que 267 están a favor del
13
Inferencia Estadística H. Alvarado – L Retamal
aumento del límite de velocidad, ¿Estos datos indican que existe una diferencia en el apoyo al
aumento del límite de velocidad entre los residentes de ambos condados?
Utilice α = 0.05 para llegar a una conclusión.
Caso 1: La forma tradicional de hacer un test con hipótesis nula simple H 0 : θ = θ 0 y nivel de
significancia α . Es equivalente a construir un intervalo de confianza (1 − α ) y luego observar si este
intervalo es consistente o no con H 0 . Si el Intervalo de Confianza contiene al valor especificado en
H 0 se acepta la hipótesis nula, en caso contrario se rechaza la hipótesis nula.
En otras palabras, un intervalo de confianza (1 − α ) para el parámetro θ representa a todas las
hipótesis nulas simples que serían aceptadas al hacer un test con nivel de significancia α .
Def. 1. Para un test de hipótesis se le llama valor-p al nivel de significancia mínimo que es necesario
para rechazar H 0 . En otras palabras, el valor-p se define como el menor nivel de significación para
el cual un experimentador, utilizando el estadístico, rechazaría H 0 sobre la base del resultado
observado. Luego, la prueba de hipótesis con nivel de significación α se puede efectuar mediante la
siguiente regla de decisión:
No rechazar H 0 si valor p > α
Rechazar H 0 si valor p < α
14
Inferencia Estadística H. Alvarado – L Retamal
(a) La forma tradicional de hacer este test es fijar el nivel de significación, digamos 5%, y comparar
el valor Z C con los correspondientes percentiles de la distribución normal estándar. En este caso –
1.96 y 1.96. Entonces no se rechaza H 0 .
(b) Para el problema planteado el valor-p corresponde al área de la distribución normal estándar a la
derecha de 1.36 y a la izquierda de –1.36, porque cualquier nivel de significancia igual o superior a
éste hace que se rechace la hipótesis nula. El valor-p calculado es 0.174. Luego, como el valor-p es
mayor que 0.05 no se rechaza H 0 .
Ejercicio 8. Un banco comercial está estudiando el uso de sus cajeros automáticos (CA). De interés
particular es si los jóvenes (menores de 25 años) utilizan más las máquinas que los adultos mayores.
Para emplear la investigación, se seleccionaron muestras de clientes menores de 25 años y mayores
que 60. El número de transacciones en CA del mes pasado se determinó para cada persona
seleccionada y los resultados se presentan a continuación.
Clientes de menos de 25 años 10 10 11 15 7 11 10 9
Clientes de más de 60 años 4 8 7 7 4 5 1 7
Suponiendo que estos datos constituyen muestras aleatorias independientes proveniente de dos
poblaciones distribuidas normal
a) ¿Existe alguna razón para creer que las varianzas de cada nivel son distintas? Use un nivel de
significación del 1%.
b) ¿Puede la gerencia del banco concluir que los clientes jóvenes usan más los CA que los adultos
mayores? Decida, a través del valor-p.
c) Determine un Intervalo de Confianza del 95% para el promedio de clientes que tienen más de 60
años.
En el caso que un par de observaciones pueden ser relacionadas de alguna manera, tal como una
observación tomada sobre un individuo antes de un tratamiento y otra observación después del
tratamiento, reciben el nombre de observaciones pareadas.
El objetivo es tener a las personas u objetos que producirán las observaciones dentro de cada
nivel, tan homogéneas como sea posible. A pesar de que se desea determinar si existe alguna
diferencia entre las medias, no puede considerarse a los pares como dos muestras aleatorias
independientes.
Se puede formular inferencias sobre las medias de dos niveles cuando las observaciones están
pareadas al considerar las diferencias como una sola variable aleatoria con distribución normal con
parámetros µ y σ 2 .
d −δo
Bajo la hipótesis nula. H 0 : µ d = δ o , la estadística de prueba t =
sd / n
n
∑d i
tiene una distribución t de Student con n-1 grados de libertad, en donde d = i =1
15
Inferencia Estadística H. Alvarado – L Retamal
∑ (d i − d )2
d i = X i − Yi y S d2 = i =1
n −1
Observación: En el caso que la distribución de las observaciones no fuera normal, en virtud del
Teorema Central del Límite, la distribución de t definida anteriormente es N(0,1) si n es
suficientemente grande.
Ejemplo 4. Se llevó a cabo un estudio para determinar el grado en el cual el alcohol entorpece la
habilidad del pensamiento. Para ello, se seleccionaron al azar diez personas de distintas
características y se les pidió que participaran en el experimento. Después de proporcionarle la
información pertinente cada persona llevó a cabo la tarea sin nada de alcohol en su organismo.
Entonces, la tarea volvió a llevarse a cabo, después de que cada individuo habría consumido una
cantidad suficiente de alcohol para tener un contenido en su organismo de 0,1%. Suponga que los
tiempos “antes” y “después” (en minutos) de los diez participantes son los siguientes:
Participante 1 2 3 4 5 6 7 8 9 10
Antes (X) 28 22 55 45 32 35 40 25 37 20
Después (Y) 39 45 67 61 46 58 51 34 48 30
a) ¿Puede concluirse a un nivel de α = 0.02 que el tiempo promedio “antes” es menor que el tiempo
promedio “después”?
b) Determine un intervalo de confianza del 95% para µ d .
c) Determine un intervalo de confianza del 96% para Var ( X − Y ) .
16