Unidad Ii-Parte 3 - Docimas-Plan 2030-2022-1 - 221118 - 181426

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 39

Unidad II (Parte 3)

Inferencia Estadística: Dócima de Hipótesis Estadísticas

Coordinación

Probabilidad y Estadística

Análisis Estadístico para Ingeniería

Análisis Estadístico

Módulo Básico de Ingeniería Civil


Departamento de Matemática y Ciencia de la Computación

Facultad de Ciencia

Primer semestre 2022


Página 1
ÍNDICE
Página

INTRODUCIÓN. CONCEPTOS GENERALES 3

DÓCIMAS DE HIPÓTESIS RESPECTO A UN SOLO PARÁMETRO 10

DÓCIMAS DE HIPÓTESIS RESPECTO A DOS PARÁMETROS 20

28
ANÁLISIS DE LA VARIAZA

Página 2
INTRODUCIÓN. CONCEPTOS GENERALES

Un objetivo del análisis de datos, basados en muestras de poblaciones en estudio, es extraer conclusiones de la o
las poblaciones, respecto de: parámetros, distribuciones de probabilidad o de relaciones entre las poblaciones, etc.

Dócimas de Hipótesis (Prueba de Hipótesis)


Es una metodología estadística, mediante la cual se trata de comprobar si una afirmación sobre una característica
poblacional puede ser sostenida con la información que proporciona la o las muestras aleatorias de dicha población.

La prueba de hipótesis nos permite tomar decisión, respecto a que si una proposición acerca de la población puede
ser mantenida o debe ser rechazada, con cierta posibilidad de error, medida en términos de probabilidad.

Hipótesis de investigación o hipótesis estadísticas son afirmaciones referidas a una o más poblaciones, por ejemplo:

∙ La media (µ) de la población es a lo más 10 (μ < 10).


∙ El valor del parámetro θ es 2 (θ = 2).
∙ La distribución, de probabilidad de la población, es Normal.
∙ Las varianzas de las poblaciones son iguales.
∙ La variable X es independiente de la variable Y, etc.

Página 3
EJEMPLOS El enunciado dice Algo en común
1 En un proceso de fabricación de tubos Se formula la
de aluminio, la longitud de éstos se Variable de interés hipótesis (que
distribuye en forma Normal con media X = longitud en cm es indica el
100 cm y varianza 16 cm2. Se realiza de un tubo de conocida
enunciado del
una reparación y ahora ¿cómo discernir aluminio
si ha habido un cambio en la longitud ejemplo) sobre
media de los tubos? X~ Normal(μ, σ2 ) parámetros de la
población.
Hipótesis: Las conclusiones
Si μ =100 ≡ no hubo cambio en la sobre la validez de
longitud media la hipótesis se
2 Una industria recibe un gran cargamento Variable de interés basarán en la
de piezas. Sólo rechaza el envío si hay


información de
más de un 5% de piezas defectuosas. 1 ;la pieza i es es defectuosa
Xi = una muestra.
¿Cómo tomar una decisión sin verificar 0 ;la pieza i es no defectuosa
todas las piezas?
Es necesario
X ~ Bernoulli(p) plantear dos
Hipótesis:
hipótesis
Si p > 0,05 ≡ debe rechazar el envío

La que se prueba
(hip. nula) debe
contener =
(=, >, <)

La hipótesis
alternativa, es la
negación de la hip.
nula
Página 4
Hipótesis nula y alternativa

Hipótesis nula (H0 ): Es la hipótesis que se somete a prueba. El nombre de nula proviene de H0 representa la
hipótesis que se mantiene a no ser que los datos de la muestra indiquen su falsedad, y debe entenderse, por tanto,
en el sentido de neutra. Esta debe contener una proposición de tipo = ; > ; < , si la hipótesis es acerca a uno o
más parámetros.

Hipótesis alternativa (H1): es la aseveración contraria a la hipótesis nula, también se denomina hipótesis del
investigador (casi siempre es la hipótesis que el investigador desea verificar)

Una dócima de hipótesis es una regla que determina, con cierta probabilidad llamada nivel de significación, para
que valores se rechaza o no se rechaza la hipótesis nula H0, en base a los datos de la o las muestras aleatorias
obtenidas de la o las poblaciones de estudio.

En una dócima de hipótesis o test de hipótesis, se particiona el espacio muestral en dos regiones, una región crítica
o de rechazo de H0 (RC) y una región de aceptación (RA). El tamaño de la RC es α (nivel de significación).

En inferencia estadística, un contraste de hipótesis (también denominado test de hipótesis o prueba de


significación) es un procedimiento para juzgar si una propiedad que se supone en una población
estadística es compatible con lo observado en una muestra de dicha población

Página 5
Tipos de errores en una prueba de hipótesis
Deseamos que nuestra decisión con respecto a la hipótesis nula sea correcta, pero a veces no lo será. Hay dos tipos
de decisiones incorrectas:

Decisión respecto a Estado real: Hipótesis Nula H0 es


H0 Verdadera (V) Falsa (F)
Decisión incorrecta Decisión correcta
Error tipo I
Rechazar H0
P(rech H0/ H0 es V) = α P(rech H0/ H0 es F) = 1 – β
Nivel de significación Potencia
Decisión correcta Decisión incorrecta
No Rechaza H0
Error tipo II
(“aceptar”)
P(No rech H0/ H0 es V) = 1 - α P(No rech H0/ H0 es F) = β

 Podemos hacer la probabilidad del Error de Tipo I tan pequeña como queramos, PERO esto hace que
aumente la probabilidad del Error de Tipo II.

 Una prueba de hipótesis puede rechazar la hipótesis nula pero NO puede probar la hipótesis nula.

 Si no rechazamos la hipótesis nula, es porque las observaciones no han aportado evidencia para descartarla,
no porque sea necesariamente cierta.

 Por el contrario, si rechazamos la hipótesis nula es porque las observaciones han aportado evidencia para
descartarla (lo observado en la muestra está a una distancia significativa del valor que indica H 0), lo que
implica que la evidencia apoya la hipótesis del investigador H1.

Página 6
Procedimiento general para probar hipótesis
Es conveniente seguir las siguientes etapas al enfrentar un problema de prueba o dócima de hipótesis:

1º.- Definición de la o las variables de interés y enunciado explícito de los supuestos necesarios para decidir
correctamente el método que se piensa usar.

2º.- Definir la hipótesis nula (la que se prueba) y la hipótesis alternativa (contraria a la nula), simbólicamente y en el
contexto del problema.
Planteamiento de las hipótesis (en forma estadística)

Caso 1 Caso 2 Caso 3


H0: Parámetro = a0 H0: Parámetro < a0 H0: Parámetro > a0
H1: Parámetro ≠ a0 H1: Parámetro > a0 H1: Parámetro < a0
a0 es una constante

3º.- Especificar el tamaño de la RC o nivel de significación α: 0,1; 0,05 o 0,01 los más usuales.

4º.- Especificar la estadística de la prueba a utilizar. La estadística de prueba es una medida de discrepancia entre la
muestra y H0. Esta medida debe tener una distribución muestral conocida.

5º.- Determinar la región crítica o área de rechazo de H0. (Regla de decisión) ← encontrar el o los puntos críticos

Existen teoremas que justifican las áreas o regiones críticas:

Página 7
Caso 1 H0: Parámetro = a0 versus H1: Parámetro ≠ a0
la RC está dividida en ambas colas (test bilateral)

Caso 2 H0: Parámetro < a0 versus H1: Parámetro > a0

la RC es la cola superior (test unilateral)

Caso 3 H0: Parámetro > a0 versus H1: Parámetro < a0


la RC es la cola inferior (test unilateral)

Página 8
6º.- Evaluar la estadística de prueba (bajo la hipótesis nula) con los datos de la muestra.

7º.- Decisión respecto de H0 (rechazo o no rechazo), (si la estadística calculada pertenece o no a la RC)

8º.- Conclusión: Interpretación de la decisión en el contexto del problema.


Los datos de la muestra dan evidencia suficiente para rechazar lo planteado en H0.

Nota: En la práctica se ha adoptado, de manera amplia, el enfoque del p-valor.

El p-valor es la probabilidad de que el estadístico de prueba tome un valor que sea al menos tan extremo
como el valor observado del estadístico de prueba cuando la hipótesis nula es verdadera.

Definición: El p-valor es el nivel de significación más pequeño que conduce al rechazo de la


hipótesis nula.
Cuanto más pequeño sea el p-valor mayor es la evidencia para rechazar la hipótesis nula H0

Página 9
DÓCIMAS DE HIPÓTESIS RESPECTO A UN SOLO PARÁMETRO
I. DÓCIMA PARA LA MEDIA (σ2 conocido)
Hipótesis Hipótesis Región de Rechazo
Situación Nula Alternativa Estadístico de prueba RC
1) Z 0  -z1-α/2  Z0  z1-α/2 

1) H0:  = 0 1) H1:   0

X v.a.  N( , 2);


2) Z0  z1-α 

2 conocido x - μ0
2) H0:  < 0 2) H1:  > 0 Z0   N(0 , 1)
(X1, X2 , …, Xn) m.a.(n) de X σ/ n

3) Z0  -z1-α 

3) H0:  > 0
3) H1:  < 0

Página 10
Ejemplo: Se quiere analizar que la tensión de ruptura de un hilo utilizado en la fabricación de material de tapicería
no cumple con el requerimiento de que sea al menos de 100 psi (en promedio). La experiencia ha indicado que
la tensión a la ruptura es una v.a. Normal con varianza de 16 (psi)2. Se prueba una muestra aleatoria de 9
especímenes con el siguiente resultado:

95 98 99 97 96 94 96 101 97

a) ¿Qué se concluye con un nivel de significación α = 0,05?

b) Determine el menor nivel de significación para rechazar la hipótesis nula (p-valor)

Desarrollo:
a) Variable de interés: X = Tensión a la ruptura (psi) ~ Normal con σ2 = 42 (conocida)

Planteamiento de las
hipótesis Estadístico de prueba α= 0,05 RC Evaluación del Estadístico
n = 9 x = 97 µ0 = 100 σ = 4
H0: µ = 100 (>)
x - μ0 97 - 100
H1: µ < 100 Z0   N(0 , z0  = -2,25 RC
σ/ n 4/ 9
1)
RC = { Z0 < z0,05 = -1,645}
Decisión: Se rechaza H0.

Conclusión: Existe suficiente evidencia estadística, que indica que la tensión de ruptura de un hilo utilizado en
la fabricación de material de tapicería no cumple con el requerimiento, con α=0,05.

b) Cálculo del p-valor

P(Z < -2,25) = 0,0122 → 0,0122 es el menor nivel de significación para rechazar H0.

Página 11
DÓCIMA PARA LA VARIANZA
Hipótesis Hipótesis
Situación Nula Alternativa Estadístico de prueba Región de Rechazo
X v.a.  N( , 2); 1) H0:  = σ 0 1) H1:   σ 0
2 2 2 2 2 2 2 2
1) { 1 α/2 }
(n 1)S2 0 α/2 0
(X1, X2 , ..., Xn) m.a.(n) de X
H0: 2 < σ 02 H1: 2 > σ 02
2
0  χ2(n-1) 2 2
2) 2) σ0
2 2) { 0 1 α}

3) H0: 2 > σ 02 3) H1: 2 < σ 02 3) {


2
0
2
α}

Ejemplo: En una embotelladora de refresco el proceso de llenado realizado por una máquina está fuera de control cuando la
desviación estándar de la cantidad de refresco vertida supera 0,02 . Para controlar la variabilidad se tomó una muestra aleatoria
de 28 botellas llenadas por la máquina y se obtuvo una desviación estándar 0,027 . Asumiendo que se cumplen los supuestos
necesarios, ¿Qué se puede concluir con  = 0,10? Determine el p-valor.

Página 12
II. DÓCIMA PARA LA MEDIA (σ2 desconocido)
Hipótesis Hipótesis
Situación Nula Alternativa Estadístico de prueba Región de Rechazo
1) H0:  = 0 1) H1:   0 1) T0  -t1-α/2  T0  t1-α/2 
X v.a.  N( , 2); x - μ0
T0   t(n - 1) T0  t1-α 
2 desconocido 2) H0:  < 0 2) H1:  > 0 S/ n 2)
(X1, X2 , ..., Xn) m.a.(n) de X
3) H0:  > 0 3) H1:  < 0 3) T0  -t1-α 

Ejemplo: Una empresa dedicada a la fabricación de vidrio quiere incluir lunas entre los productos que fabrican, piensan
comercializarlas en la industria de automóvil. Las especificaciones de estos productos exigen una resistencia media al impacto de
8 kg/cm2. Para ello ha realizado pruebas de fabricación obteniendo los siguientes resultados de resistencia al impacto
n x s
7,0 5,1 7,8 9,7 9,6 10,6 6,4 7,0 9,4 5,4 6,1 4,3 12 7,3667 2,0544

Asumiendo que la resistencia (X) es una variable aleatoria Normal,


¿Cumplen las lunas fabricadas con la especificación requerida? α = 0,01.
¿El p-valor es mayor o menor que 0,01? Justifique su respuesta.

Página 13
IV. DÓCIMA PARA UNA PROPORCIÓN
Hipótesis Hipótesis
Situación Nula Alternativa Estadístico de prueba Región de Rechazo
X v.a.  B(1, p); 1) H0: p = p0 1) H1: p  p0 1) Z0  -z1-α/2  Z0  z1-α/2 
(X1, X2 , ..., Xn) m.a.(n) de X p̂ - p 0
Z0   N(0 , 1)
2) H0: p < p0 2) H1: p > p0
p0q 0 2) Z0  z1-α 
 1 ; Éxito
xi =  n
0 ;Fracaso 3) H0: p > p0 3) H1: p < p0 3) Z0  -z1-α 
i = 1,2, .. ,n n grande

Ejemplo: Una empresa se plantea la posibilidad de establecer un servicio complementario de información a sus clientes. Éste será
rentable únicamente si más del 40% de los clientes están interesados. Para poder tomar una decisión se realizó un sondeo con una
muestra aleatoria de 100 clientes, de los cuales 45 están de acuerdo.
¿Existe evidencia suficiente al nivel de significación del 4% para apoyar la hipótesis de rentabilidad? Determine el p-valor

Página 14
Ejercicios
1.- El fabricante de cierto catalizador para vehículos afirma en su propaganda que menos del 10% de sus catalizadores se averían
antes de los 200000 km de uso. El Gerente de una industria de vehículos quiere asegurarse lo afirmado en la propaganda, antes
de optar por dicho catalizador. Para ello, ensamblan 36 vehículos con catalizadores del fabricante en cuestión, luego, los somete
a cada uno de ellos a un uso de 200000 km. Al final, se observa que falló solamente un catalizador.
a. La información obtenida por la industria de vehículos, ¿apoya la afirmación del fabricante de catalizadores? Realice la dócima
adecuada con un 10% de nivel de significación.
b. Determine el menor nivel de significación para rechazar la hipótesis nula planteada en (a)
2.- Una empresa de automóviles ha diseñado un nuevo motor de gasolina con el que espera reducir el consumo de combustible. Para
verificar si lo ha conseguido, realiza unas pruebas de consumo de 15 motores, con los que consigue un consumo medio de 4,8
litros y una desviación típica de 0,7 litros. Sabiendo que la variable consumo sigue una distribución Normal:
Si los anteriores motores gastaban una media de 5,3 litros, ¿se puede concluir que el consumo medio se ha reducido con el nuevo
motor a un nivel de significación del 0,05?

3.- Un fabricante de un dispositivo para cierto artículo electrónico informa en su propaganda que la vida (X) útil media de su producto
es superior a 5 años.
Una muestra aleatoria de 90 unidades vendidas hace 10 años, reveló la siguiente distribución de las duraciones:

4,7 4,2 4,9 1,2 4,2 2,7 7,4 8,2 4,5


Suponiendo válidos los supuestos necesarios:
6,4 1,7 4,8 3,0 3,5 3,8 5,0 6,3 8,0
6,3 7,4 4,6 3,9 5,2 6,3 8,7 1,1 4,9 a. Analice la aseveración del fabricante con un nivel
4,5 4,1 6,4 4,7 4,7 2,6 4,2 4,4 5,8 de significación de 0,05.
3,0 6,5 1,8 4,9 4,4 4,8 3,6 3,5 4,3
b. ¿Se puede concluir con un nivel de significación
2,1 4,8 3,6 3,3 7,4 6,0 8,6 5,9 5,0 del 5%, de que la mayoría (más del 50%) de los
4,7 3,7 3,3 6,7 0,3 4,1 6,5 3,9 7,2 dispositivos tienen duración de 4 años o más?
7,7 6,0 4,7 1,9 4,2 6,8 3,4 7,6 7,6 Analice con p-valor.
4,4 5,9 5,6 2,9 4,7 3,7 7,0 7,8 1,7
7,3 6,8 4,6 2,1 5,4 3,2 6,6 4,6 5,3

x i = 437,70 x i2 = 2431,59
i i

Página 15
4.- En una empresa computacional dedicada a la fabricación de memorias para P.C. el protocolo de calidad establece los dos
siguientes criterios:
A. Al menos el 95% de los circuitos fabricados, en la memoria no deben tener defecto.
B. El tiempo medio de acceso a una celda no debe superar los 100 ns.

El último mes se ha realizado un muestreo de 400 circuitos, de los cuales 30 han presentado defectos. En la muestra, los tiempos de
acceso a una celda tienen una media de 105 ns. y una desviación estándar de 20 ns.
Suponiendo válidos los supuestos necesarios
a. ¿Los datos muéstrales dan evidencias de que no se cumple el criterio A, con α = 0,01, en el último mes?
b. ¿Puede Ud. Concluir que no se cumple el criterio B, con α = 0,01, en el último mes?
c. Para estimar el porcentaje de clientes que estarían dispuesto a adquirir un nuevo tipo de memoria, la empresa realizará una
encuesta. ¿A cuántos clientes se debería encuestar, si no existen antecedentes de estos clientes, si se desea una confianza del
98% y un error de estimación no superior a 0,01?

5.- En una aerolínea se afirma que a lo más un 4% del equipaje que no llega a su destino con su dueño nunca regresa con su dueño
original. Si en una muestra aleatoria de 200 piezas de equipaje perdido, sólo 12 no se recuperaron.
a) Con un nivel de significación de 0,05, existe evidencia estadística para rechazar lo afirmado en la aerolínea?
b) Si utiliza un nivel de significancia de 0,10, ¿cambia la conclusión obtenida en 6a? Justifique su respuesta.

6.- Un distribuidor de neumáticos para camiones, en su propaganda indica que la duración promedio de su producto es 55 mil
kilómetros. Para comprobar la afirmación, una empresa de trasporte adquiere una muestra para someterlos a prueba en sus
camiones, de 40 de esos neumáticos, obteniendo la siguiente información:

X= duración de un neumático
40 40
x i =2147,9 x i2 =115945,17
i=1 i=1
Asumiendo que se cumplen los supuestos necesarios,

a) Pruebe con un nivel de significación del 10%, la hipótesis del distribuido de neumáticos
b) Cual es el mínimo valor del Error Tipo I, para cambiar la conclusión planteada en a?

Página 16
7.- Se quiere saber si disminuyó el pH (X) de un lago, hasta la década anterior poseía un pH promedio de 7,3. Se tomó una muestra
aleatoria de 27 alícuotas de agua, con los siguientes resultados:

pH
Promedio Varianza
7,25 0,02
Asumiendo los supuestos necesarios, analice la hipótesis del enunciado con un nivel de significación α = 0,05
8.- Los amperímetros producidos por una compañía se venden en el mercado con la especificación de que la desviación estándar de
las lecturas no es mayor que 0,2 amperios. Se utilizó uno de estos amperímetros para efectuar 10 lecturas independientes en un
circuito de prueba con corriente constante. Si la desviación estándar de las 10 mediciones es de 0,255 amperios, y es razonable
suponer que las lecturas tienen distribución normal, ¿indican los resultados de la muestra, que el amperímetro que se utilizó no
satisface las especificaciones indicadas por la compañía? α = 0.05.

9.- Para calibrar una balanza se eligen al azar 30 productos, que tienen el mismo peso de 20 gramos, obteniendo los siguientes pesos
en gramos:
19,5 20,3 19,3 20,1 19,4 20,1 20,2 19,5 19,8 19,6
18,9 20,6 20,0 20,4 19,3 19,8 20,0 19,3 19,7 19,6
20,3 19,7 19,4 19,9 20,3 19,5 19,7 19,6 19,5 19,7

Asumiendo que se cumplen los supuestos necesarios:


Pruebe, con un nivel de significación de 0,01, la hipótesis de que la balanza está bien calibrada.

10.- Una fábrica de pinturas para aplicaciones de alta resistencia, asegura que solo el 1% de sus envases tiene defectos de llenado
(peso fuera de las especificaciones). Para probar dicha información, se analizó una muestra aleatoria de 90 recipientes de pintura,
resultando 2 fuera de las especificaciones. ¿Qué se concluye con un nivel de significación de 0,10?

Página 17
11.- Un fabricante de motores para limpiaparabrisas tiene muchas devoluciones por el excesivo ruido de los motores. Según el
fabricante el valor promedio del nivel de ruido es a lo más 42 dB y su desviación estándar es inferior a 3,9 dB.

El ingeniero a cargo del control de calidad de los productos elaborados en la fábrica, determina el nivel de ruido de
una muestra aleatoria de 21 motores resultado un valor promedio de nivel de ruido de 43,5 dB y desviación estándar
de 3,5 dB.
Asumiendo que el Nivel de ruido es una variable aleatoria distribuida Normal:

a. Pruebe con α = 0,02 la hipótesis de fabricante “el valor promedio del nivel de ruido es a lo más 42 dB”.

b. Si el nivel de significación es 0,10 en la dócima (a), ¿Cambia la decisión y conclusión? Justifique su respuesta con p-
valor.

c. ¿Se puede concluir con nivel de significación 0,08, que la varianza del nivel de ruido no es igual a (3,9 dB)2” . En la distribución
de probabilidad de la estadística correspondiente, muestre gráficamente la Región Crítica.

Página 18
12. Para permitir el funcionamiento de una planta industrial, una agencia de control ambiental, sugiere que la emisión media
diaria de óxido de azufre debe ser inferior a 18 µg/m3N. Se observó una muestra de 40 días, los resultados de las
emisiones de óxido de azufre se muestran a continuación:

17,6 19,1 15,6 22,1


19,4 12,8 20,0 14,5
11,0 15,2 13,7 11,2
20,2 17,9 16,8 15,1
12,1 13,0 24,1 20,0
14,5 17,0 15,2 18,1
16,7 17,9 13,5 16,3
18,1 16,5 19,2 16,3
19,0 12,8 19,9 17,9
19,7 15,1 16,8 22,2

Asumiendo que la emisión (X) diaria de óxido de azufre es una variable aleatoria Normal:
a. Con nivel de significación α = 0,05, analice si debe funcionar la planta industrial.

b. Dibuje la Región Crítica y determine el p-valor del test hipótesis (a).

c. ¿Existe evidencia estadística, en los datos de la muestra, para concluir que la varianza de la emisión diaria de óxido es
superior a 5,8 (µg/m3N)2? α=0,05.

d. En base a la información muestral, se estimó a través de un intervalo, la proporción de días en la planta industrial con
óxido de azufre de 18 µg/m3N o más, el resultado se presenta a continuación:

IC(p) = [0,195115 ; 0,504885]

¿Con qué nivel de confianza se realizó la estimación?

Página 19
DÓCIMAS DE HIPÓTESIS RESPECTO A DOS PARÁMETROS

V. DÓCIMA PARA RAZÓN DE VARIANZAS


Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
1
m.a.(n1) de  N(μ1 , σ )
2
S2 σ 2
1
H0: σ12 σ22 = 1 H1: σ12 σ22 1 F0 = 12 22  F(n1-1, n2-1) { F0 Fα/2 F0 F1-α/2 }
S2 σ1
m.a.(n2) de  N(μ 2 , σ 2 )
2

m. a. independientes
(m.a.i.)

Ejemplo: Se revisó la dureza del agua de dos muestras obtenidas a partir de bocas de salida separadas de una planta de energía.
Los resultados codificados (partes por millón) se presentan a continuación:

Y = Dureza del agua Suponiendo válidos los supuestos necesarios:


2
UBICACIÓN n s s Pruebe la hipótesis “la varianza de la dureza del agua proveniente del
1 9 109,625 10,470 lugar 1 es igual que la del lugar 2 ( σ12 = σ 22 ≡ σ12 σ 22 = 1 )”.  = 0,05
2 14 29,615 5,442

Página 20
VI. DÓCIMA PARA DIFERENCIA DE MEDIAS (Varianzas conocidas)
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
m.a.(n1) de  N(μ1 , σ1 )
2 1) H0: 1 -2 = d0 1) H1: 1 -2  d0 d0 1) Z0  -z1-α/2  Z0  z1-α/2 
(Y1 -Y2 ) - (μ1  μ 2 )
m.a.(n2) de  N(μ 2 , σ 2 ) 2) H0: 1 -2 < d0 2) H1: 1 -2 > d0 Z0   N(0 , 1) 2) Z0  z1-α 
2

σ12 σ 22
σ12 , σ 22 conocidas 3) H0: 1 -2 > d0 3) H1: 1 -2 < d0  3) Z0  -z1-α 
n1 n 2
(m.a.i)

VII. DÓCIMA PARA DIFERENCIA DE MEDIAS (Varianzas desconocidas pero iguales)


Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
m.a.(n1) de  N(μ1 , σ1 )
2 1) H0: 1 -2 = d0 1) H1: 1 -2  d0 d0 1) T0 -t1-α/2 T0 t1-α/2
(Y1 -Y2 ) - (μ1  μ 2 )
m.a.(n2) de  N(μ 2 , σ 2 )
2
2) H0: 1 -2 < d0 2) H1: 1 -2 > d0 T0   t(n1 + n2 – 2) 2) T0  t1-α 
1 1
σ12 = σ 22 desconocida 3) H0: 1 -2 > d0 3) H1: 1 -2 < d0 S   
2
p
3) T0  -t1-α 
(m.a.i)  n1 n 2 
(n 1  1)s12  (n 2  1)s 22
s 2p 
n1  n 2  2
Ejemplo:
En la fabricación de semiconductores, a menudo se utiliza una sustancia química para quitar el silicio de la parte trasera de las
obleas antes de la metalización. En este proceso es importante la rapidez con la que actúa la sustancia. Se han comparado dos
soluciones químicas, utilizando para ello dos muestras aleatorias de 10 obleas para cada solución. La rapidez Y en segundos de
acción observada es la siguiente
Promedios s
Solución 1 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3 10,40 0,2309
Solución 2 9,9 9,4 9,5 9,6 10,2 10,6 10,3 10,0 10,3 10,1 9,99 0,3900

Suponiendo normalidad en la distribución de los datos:


La evidencia estadística, ¿indica que la solución 2, actúa con mayor rapidez (en promedio) en eliminar el silicio
de la parte trasera de las obleas antes de la metalización? α = 0,05 (primero debe realizar el test previo de homogeneidad
de varianzas)

Página 21
DÓCIMA PARA DIFERENCIA DE MEDIAS (Varianzas desconocidas pero distintas)
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
m.a.(n1) de  N(μ1 , σ1 )
2 1) H0: 1 -2 = d0 1) H1: 1 -2  d0 d0 1) T -t1-α/2 T t1-α/2
(Y1 -Y2 ) - (μ1  μ 2 )
m.a.(n2) de  N(μ 2 , σ 2 )
2
2) H0: 1 -2 < d0 2) H1: 1 -2 > d0 T  t(g.l.) 2) T  t1-α 
S12 S22
σ12  σ 22 desconocidas 3) H0: 1 -2 > d0 3) H1: 1 -2 < d0  3) T  -t1-α 
n1 n 2
m.a independientes

Ejemplo: Los datos que se muestran a continuación son los grados de dureza Brinell obtenidos para muestras de dos aleaciones
de magnesio:
Y = grado de dureza Brinell (gdB)
n y s
Aleación 1 64,8 63,7 63,6 64,8 65,8 63,7 65,1 64,9 63,7 65,5 10 64,56 0,8222
Aleación 2 69,4 61,9 69,9 70,1 71,1 73,5 63,3 68,2 69,7 66,8 10 68,39 3,5275

Los datos muestrales, ¿apoyan la hipótesis μ1 < μ 2 ? α = 0,05 (asuma Normalidad)


Desarrollo
PREVIO: Prueba F para la igualdad de varianzas Prueba T para la igualdad de
medias
H0: σ 2
σ =12
1 2
H0: 1 -2 = 0 (>)
H1: σ 2
1
σ22 1 H1: : 1 -2 < 0

F0 Sig. t0 gl Sig. (unilateral)


(p-valor) (p valor)
-3,344 10
0,054 0,0002 0,0035

Decisión: Decisión:

Conclusión: Conclusión:

Página 22
Dócimas para comparar medias de dos poblaciones normales
Hipótesis nula: μ1 - μ 2 = d0
(m. a. independientes)

¿Se conocen las varianzas poblacionales σ12 y σ 22 ?

Si No

Para probar “ μ1 - μ 2 = d0 ” Previo


utilice el estadístico Realice el test F de Razón de varianzas
H0: σ2
1
σ =1
2
2
σ12 = σ 22 versus H1: σ12 σ 22 1 σ12 σ 22

¿Es significativo el test F? ≡


¿se rechaza la hip. nula del test previo?

Si No

Para probar “ μ1 - μ 2 = d0 ” Para probar “ μ1 - μ 2 = d0 ”


utilice el estadístico utilice el estadístico

Página 23
VIII. DÓCIMA PARA DIFERENCIA DE MEDIAS (una muestra pareada)
Hipótesis Hipótesis Estadístico de prueba Región de Rechazo
Situación Nula Alternativa bajo H0
m.a. pareada (n) 1) H1: μD  d0
1) H : μ = d d0 1) T -t1-α/2 T t1-α/2
de  Normal 0 D 0

2) H1: μD > d0 D - μD
Di = Y1i – Y2i
2) H0: μD < d0 T  t(n - 1) 2) T  t1-α 
SD / n
3) H0: μD > d0 3) H1: μD < d0 3) T  -t1-α 

Ejemplo: En cierta publicación que se encuentra en internet, se afirma que al añadir cierto aditivo a la gasolina, aumentara el
rendimiento medio en el consumo de este combustible en más de un kilómetro por litro. Para analizar dicha afirmación se
seleccionó una muestra aleatoria de 12 automóviles, que en primer lugar utilizaron gasolina sin el aditivo, y posteriormente, sin
cambiar de conductor ni de ruta, usaron gasolina con aditivo. Se observó el rendimiento por consumo de gasolina en cada
caso, obteniéndose los siguientes resultados en kilómetros por litro:

Auto 1 2 3 4 5 6 7 8 9 10
Sin aditivo 4,7 5,5 6,8 7,6 7,8 5,3 6,3 6,4 7,7 5,5
Con aditivo 6,1 6,8 8,1 8,3 8,6 6,4 7,6 7,7 8,5 7,2

Los datos obtenidos, ¿apoyan la afirmación de la publicación?. Justifique su repuesta con un nivel de significancia 0,05.

Página 24
Ejercicios
1. Un diseñador de productos está interesado en reducir el tiempo de secado de una pintura. Se prueban dos fórmulas de
pintura; la fórmula 1 (E) tiene un contenido químico estándar y la fórmula 2 (N) tiene un nuevo ingrediente secante que
tiende a reducir el tiempo de secado. Se pintan 12 placas con la fórmula 1 y otras 12 placas con la fórmula 2. Lo tiempos
de secado en minutos se muestran a continuación:
Y = Tiempo de secado n prom s
E (1) 114,0 123,7 118,5 124,4 98,2 116,9 121,6 115,7 117,5 120,7 124,9 126,3
N (2) 113,6 105,8 108,0 126,2 125,6 122,9 98,5 114,1 127,8 107,3 101,5 102,5
Suponiendo Normalidad en la distribución de los datos:
¿A qué conclusión puede llegar el diseñador del producto sobre la eficacia del nuevo ingrediente, al nivel de
significación de 0,10?

2. En motocicletas, de cierto modelo, se realizó un estudio a los neumáticos. Se midió el desgaste (Y) de neumáticos de
ruedas delanteras y traseras, en milímetros después de 20.000 km de uso. En una muestra aleatoria de diez
motocicletas se obtuvo la siguiente información:
Motocicleta 1 2 3 4 5 6 7 8 9 10
Rueda delantera (1) 3,6 2,4 1,9 3,2 2,5 2,4 2,7 2,5 2,7 2,9
Rueda trasera (2) 3,7 2,2 2,3 3,3 2,8 2,5 3,4 2,3 3,0 3,1
Analice con un nivel de significación de 0,05, que el desgate promedio es mayor en los neumáticos de ruedas traseras
que en los neumáticos de la ruedas delanteras.

3. La utilización de materiales sintéticos tales como nylon, poliéster y látex en la producción de telas, ha provocado
debates acerca de la calidad y resistencia de estas fibras comparadas con las fibras naturales. Un fabricante de una
nueva fibra sintética asegura que en promedio su producto supera en más de 30 kg la resistencia a la tracción a las
fibras naturales. Para tal efecto se seleccionan al azar 12 unidades de telas elaboradas con la nueva fibra sintética y 10
elaboradas con fibra natural, a cada una de las cuales se les midió la resistencia a la tracción. Los resultados
muestrales obtenidos se dan a continuación:
Tela n Promedio Desviación estándar
Fibra natural (N) 10 273,90 52,193
Fibra sintética (S) 12 345,67 42,991
Suponiendo Normalidad en la distribución de los datos, analice la aseveración del fabricante con un nivel de significación de
0,05.
Página 25
4. Para controlar las mediciones del ángulo de ruptura de la torsión de alambres de acero en dos máquinas similares (I y
II) se tomó una muestra de 10 pares de alambre, cada par del mismo tipo, obteniéndose los siguientes resultados:

Tipo de alambre 1 2 3 4 5 6 7 8 9 10
Máquina I (1) 32 35 38 28 40 42 36 29 33 37
Máquina II (2) 30 33 39 26 37 31 37 30 30 32
Suponiendo Normalidad en la distribución de los datos:
¿Existe evidencia estadística, con un nivel de significación del 5% que permita concluir que en las máquinas I y II las
mediciones (Y) del ángulo de ruptura promedio difieren?

5. En el desarrollo de un nuevo producto alimenticio se desea comparar el efecto del tipo de envase sobre la vida de anaquel1 del
producto. Para ello existen dos tipos de envases: envase D, fabricado por la industria DIKA y el envase L fabricado por la industria
LOGE. Para decidir cuál utilizar, envasaron el producto alimenticio en una muestra de 10 envases de la industria DIKA y en otros
10 envases de la Industria LOGE.
Y = duración del producto (días)
Envase D 31 36 34 24 30 28 34 29 31 24
Envase L 38 43 40 46 38 39 43 41 37 45

Se elegiría el envase de la industria LOGE que tiene un mayor costo, siempre y cuando la duración media del alimento en envase LOGE
supere en más de siete días a la duración media del alimento en envases de la industria DIKA. Asumiendo normalidad en la distribución
de los datos, analice con un nivel de significación 0,05, si es conveniente elegir el envase L.

1
Vida de anaquel de un alimento: tiempo en el cual éste conservará sus propiedades fisicoquímicas, organolépticas y nutricionales.

Página 26
6. (Evaluación 2020-2) En un estudio sobre contaminación de la aguas fluviales, se pretende comparar la cantidad media de
fosfatos en dos lugares diferentes en el curso de un río.
Para ello, se toma una muestra de 10 observaciones de una determinada cantidad de agua en un lugar (L1) cerca de una
ciudad, con mucha afluencia de personas. Se toma otra muestra en el curso del río, de 10 observaciones en lugar (L2),
lejos de la ciudad, con muy poca afluencia de personas. Los datos obtenidos son los siguientes:

Y= cantidad de fosfatos en mg/l en el rio.


L1 103,6 158,1 130,9 93,3 120,9 134,8 127,2 100,3 115,1 160,6
L2 99,7 103,5 95,4 90,9 92,3 93,1 101,4 90,7 84 78,8

Asuminedo que la cantidad de fosfatos en mg/l se distribuye Normal en el curso del río, y en base a la información obtenida:

a) Analice con α = 0,03 si la cantidad media de fosfatos en el lugar 1 supera en más 15 mg/l a la cantidad media de
fosfato del lugar 2.

b) Determine el nivel de confianza (1 – α) que se utilizó en el siguiente intervalo, para estimar la varianza de la cantidad
fosfatos en mg/l , en el lugar 1:
2
IC( σ L1 ) = [265,995136 ; 1508,603216 ]

c) Para realizar otro estudio con el objeto de estimar la cantidad media de fosfatos en el lugar 1, ¿cuál debe ser el
mínimo tamaño de muestra para tener una precisión de 8 mg/l en la estimación de la cantidad media de fosfatos, con
un nivel confianza de 95%? Utilice el valor 22 mg/l como desviación estándar poblacional.

Página 27
Diseño y análisis de experimento de un solo factor
Análisis de la Varianza simple (ANOVA simple)

Modelo de diseño unifactorial


Este modelo es el más sencillo del diseño de experimentos, en el cual una variable respuesta cuantitativa puede depender de
la influencia de un único factor cualitativo, de forma que el resto de las causas de variación se engloban en el error
experimental.
Se supone que el experimento ha sido aleatorizado por completo, es decir, todas las unidades experimentales han sido
asignadas al azar a los tratamientos.
Vamos a considerar el modelo de efectos fijos

Modelo de efectos fijos


Variable dependiente que se desea analizar: “y” (es cuantitativa), se puede resolver dos tipos de problemas:
1. Comparar la respuesta (y) en k poblaciones Normales con media µi y varianza común σ2, para ello se extrae
una muestra aleatoria de tamaño ni (i = 1,2, …, k) de cada población.
(todas las poblaciones tienen la misma varianza ≡ homocedasticidad)
2. Se tiene una única población Normal, es decir, y ~ Normal, se toma una m.a de tamaño n de la población y las
unidades de la muestra se reparten aleatoriamente en los k tratamientos o niveles de un factor fijo, el objeto es
comparar los resultados yij de los tratamientos. (diseño completamente aleatorizado).

En cualquiera de los dos casos cada valor de y, yij = μi + εij


εij es el error aleatorio, μi = μ+ i media del tratamiento i; i= 1,2, ...,k
k

i = 1,2, …k ; j = 1,2, …, ni ; ni n
i=1

Las observaciones yij se descomponen en: parte predecible µi + parte aleatoria εij

Página 28
Donde:
 El parámetro µ es la media global de la variable dependiente y (parámetro común de todos los tratamiento)
 Parámetro µi es la media del tratamiento i. i = 1,2,3, …, k
 i = µi - µ representa el efecto del tratamiento i (parámetro asociado con el tratamiento i-ésimo). Se definen

como desviaciones respecto a la media global. Por lo tanto i 0 ; i =0


i = 1,2,3, …, k ; ; j = 1,2 …, nk
i j i

 εij = yij - μi es el error aleatorio

Análisis de la varianza con un factor fijo (ANOVA SIMPLE)


 El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer la variabilidad de un
experimento en componentes independientes que puedan asignarse a causas distintas.
 Permite analizar el efecto de una variable independiente cualitativa (factor) sobre una variable dependiente cuantitativa
(variable respuesta)
 La técnica estadística de Análisis de la varianza simple es la extensión de la prueba T de diferencias de medias con dos
muestras independientes.
Los datos se pueden resumir en la tabla siguiente:
ni
Promedios
Tratamiento Observaciones Total y ij =y i. μ̂ i = y i. ˆi= yi. - y..
j=1

1 y11 y12 ... y1n1 y 1. y1. y1. - y.. n = n 1 + n 2 … nk

2 y 21 y 22 ... y 2n2 y 2. y 2. y 2. - y..

… … … … …
k yk1 yk2 ... yknk y k. y k. y k. - y..

k ni k ni

y..= y ij y ij
i=1 =j=1
i=1 =j=1
y.. =
n

Página 29
El interés es probar la hipótesis nula
H0: μ1 = μ2 = …= μk frente a la alternativa
H1: no todos μi son iguales i = 1,2, .., k

La prueba de hipótesis, está basada en un análisis de la variabilidad o dispersión total de los datos
(numerador de la varianza de la variable de interés o dependiente y)

Se resuelve ¿a qué se debe la fuente de variabilidad de los datos?, al tratamiento? o al error?


A la variabilidad se le llama Suma de Cuadrados (SC)
 Variabilidad Total: SC(total) = (yi. -y.. )2 (numerador de lavarianza muestral de y)
i j

 Variabilidad debida a los tratamientos): SC(Tratamiento) o SC(entre


grupos) o SC(Inter-grupos)

 Variabilidad debida al error: SC(Error) o SC (dentro los tratamientos)


o SC(Intra-grupos)
Descomposición de la variabilidad

SC(Total) = SC(Tratamiento) + SC(Error)

Página 30
El procedimiento estadístico (análisis de la varianza) que permite probar la hipótesis nula: μ 1 = μ2 = … = μk ,
se resumen en la tabla siguiente:

ANOVA
Fuente Suma de Media Cuadrática F0
Variación (FV) cuadrados gl (Varianzas) (estadístico de prueba)
(yi. -y.. )2
2
Tratamiento (yi. -y.. ) k -1
i j MC(Tratamientos)
(Entre) i j k-1 MC(Error)

Error (y ij -yi. )2
(yij -yi. )2 n–k
(dentro) i j
i j
n-k

Total (yij -y.. )2 n–1


i j

n = n 1 + n2 … nk

(y ij -yi. )2
(n1 -1)s12 + (n1 -1)s 22 + ... + (nk -1)s k2
MC (Error) = i j
= S2e
n-k n-k

MC(Error) mide la variabilidad dentro de los tratamientos o grupos y es debida al error experimental.

MC(Tratamiento) mide la variabilidad entre tratamientos. Si es pequeña, es porque las medias podrían ser similares.

Página 31
Se rechaza la hipótesis nula: μ1 = μ2 = … = μk si el valor de F (calculado con los datos de la muestra) es
mayor que el valor tabla F(1- α ; k-1, n – k), donde α en el nivel de significación, esto quiere decir, que
rechazamos para valores grande de F lo que implica que rechazamos cuando la varianza explicada por el
tratamiento es mucho mayor que la varianza de error.

F(k-1, n-k)

Ejemplo (Hines, Montgomery, Golsman, Borror; Prob. y Est. para Ingeniería): Un fabricante de papel que se emplea para
manufacturar bolsas para comestibles, está interesado en mejorar la resistencia a la tensión del producto. Los
ingenieros industriales consideran que la resistencia a la tensión es una función de la concentración de madera en la
pulpa, y que el intervalo de concentraciones de madera dura de interés práctico está entre 5 y 20%. El ingeniero
responsable del estudio decide investigar cuatro niveles de madera dura: 5, 10, 15 y 20%. Elabora seis
especímenes de prueba por cada nivel de concentración, utilizando una planta piloto. Los 24 especímenes se
analizan en un probador de tensión de laboratorio, en orden aleatorio. Los datos obtenidos es este experimento se
muestran a continuación
Concentraciones
de madera dura Observaciones (ó replicas)
(%) Totales μ̂i =y i. ˆi = y i. - y..
𝟔𝟎
C5 7 8 15 11 9 10 60 𝟔
= 10,0000 -5,9583
𝟗𝟒
C10 12 17 13 18 19 15 94 𝟔
=15,6667 -0,2917
𝟏𝟎𝟐
C15 14 18 19 17 16 18 102
𝟔
= 17,0000 1,4042
𝟏𝟐𝟕 5,2083
C20 19 25 22 23 18 20 127 = 21,1667
𝟔

Estimación de la
media global
VD: y= resistencia a la tensión del producto (psi) 383 -----
μ̂ = y.. =𝟑𝟖𝟑
𝟐𝟒
=15,9583

Página 32
Asumiendo los supuestos necesarios (Normalidad, Homocedasticidad)
A un nivel de significación del 5%, ¿Existen diferencias significativas en la resistencia de los 4 niveles de
concentración de madera dura?
H0: μ5 = μ10 = μ15 = μ20
H1: Por lo menos una media es distinta
Nivel de significación: α = 0,05
M.C.(Explicada)
Estadístico: F =  F(k-1 = 3, n- k= 20) ; k = 4 ; n = 24;
M.C.(Error)

RC = {F > F0,95(3,20) = 3,0984} α = 0,05

p-valor = P(F(3, 20) > 19,6052) ≈ 0,00


Como F0 = 19,6052 es mayor que el punto crítico 3,0984
(o p_valor < 0,05), debe rechazarse la hipótesis nula y se
concluye que hay diferencias significativa con α = 0,05 en
la resistencia en los 4 niveles de concentración de madera
dura

Página 33
EJERCICIO

Para analizar la inflamabilidad de 3 tipos de telas que se utiliza para elaborar ropa de dormir, se seleccionaron 11 prendas de cada
tela y se sometieron a un test de inflamabilidad. Los resultados, expresados en un determinado índice de inflamabilidad (mayor índice
indica que la tela soporta más el fuego), se muestran a continuación:

T1 T2 T3
2,9 4,7 2,7
3,1 4,7 3,4
3,1 4,3 3,6
3,7 4,8 3,2
3,1 3,7 4,0
4,2 4,1 4,1
3,7 3,4 3,8
3,9 4,1 3,8
3,1 4,3 4,3
3,0 4,1 3,4
2,9 4,5 3,3

a) Realice un análisis descriptivo (medidas de resumen y gráfico)


b) Pruebe con α= 0,05, que no hay diferencias significativas en el índice medio de inflamabilidad de las tres telas.

Página 34

También podría gustarte