Analisis de Varianza
Analisis de Varianza
Analisis de Varianza
El análisis de varianza ANOVA es una técnica estadística, cuyo objetivo es comprobar si son iguales
las medias de dos o más poblaciones independientes, mediante el análisis y la comparación varianza
insesgadas de muestras de diversas fuentes, mediante la prueba F de Fisher.
Cada método del análisis la varianza está asociada a un modelo matemático especifico los modelos se
clasifican según el número de variables que han de ser probadas. Si es una variable, el modelo se
denomina de clasificación simple o de un factor, si son dos variables el modelo se denomina de
clasificación doble o de 2 factores.
Sea un “X” una variable aleatoria en “K” poblaciones o tratamientos diferentes, con medias
TRATAMIENTO
1 2 ⋯⋯ i ⋯⋯ k
X 11 X 21 ⋯⋯ Xi1 ⋯⋯ X k1
X 12 X 22 ⋯⋯ Xi2 ⋯⋯ X k2
⋮ ⋮ ⋮ ⋮
⋮ ⋮ ⋮ ⋮
X1n 1
X2n 2
⋯⋯ Xin i
⋯⋯ Xkn k
TOTAL T 1. T 2. ⋯⋯ T i. ⋯⋯ T k . T ..
ni n1 n2 ⋯⋯ ni ⋯⋯ nk n
MEDIAS X́ 1. X́ 2. ⋯⋯ X́ i . ⋯⋯ X́ k. X́ ..
ni
i=1,2 , … . k ; j=1,2 ,… n i ; ∑ αi=0 ,
i−1
Dónde:
X ij : Es la observación de la muestra
μ: Media Total
α i: Efecto del i-ésimo tratamiento
ε ij: Desviación del dato observado X ij (error o residuo)
Dónde:
k ni k ni
2 2 T 2..
SCT=∑ ∑ (X ij − X́ ..) =∑ ∑ X ij −C , donde C=
i=1 j=1 i =1 j=1 n
ni
k
2 T 2i .
k
SCC=∑ ∑ ( X́ i . − X́ .. ) =∑ −C
i=1 j=1 i=1 ni
SCE=SCT−SCC
4. Región critica
5. Conclusión
Si F cal > F0 , se rechaza H 0, caso contrario se acepta la H 0
PRACTICA 1
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas
diferentes con el fin de adquirir la más veloz para su uso en una confección específica. Para esto
observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma
aleatoria. Con un nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la
misma velocidad por unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60
Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)
Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60
T ( 1333 )2
2
2 3322 ..
Suma /n =18370.67 21480.17 21241.50 13537.50 = =74037.04
6 n 24
T 2i.
k
∑ n =74629.83
i=1 i
Fuente de Grados de
F0 Valor p
Suma de cuadrados Cuadrado de medias Fcal
variación libertad
SCC
k
T 2i. T 2.. CMT = =¿ 197.5
Tratamientos SCC=∑ − =74629.83−74037.04=592.792 k −1=3 k −1
i=1 ni n
97
SCE CMT
CME= =¿56.55 Fcal= =¿3.4
Error SCE=SCT−SCC=1723.958−592.792=1131.167 n−k =20 n−k CME 3.098 0,035 < 0,05
8 94
ni
k
T 2..
Total SCT=∑ ∑ X ij 2− =75761−74037.04=1723.958 n−1=23
i=1 j=1 n
Gráfica de distribución
confianza se afirma que, las maquinas no utilizan la misma
F; df1=3; df2=20
0,8 velocidad por unidad de confección.
0,7
Conclusión: (Utilizando el valor p, de un software estadístico)
0,6
Regla de decisión:
0,5
Densidad
0,1
Como p=0,035<0,05 se rechaza la hipótesis nula, es decir Al 95%
0,05
0,0
0 3,098
de confianza se afirma que, las maquinas no utilizan la misma
X F cal=3.494
velocidad por unidad de confección.
PROCEDIMIENTO PARA REALIZAR ANOVA CON EXCEL
1. Llevar los datos a una ventana de Excel
Archivo → Opciones → Complementos → Heramientas para análisis → Ir
PRACTICA 1
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso
en una confección específica. Para esto observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con un
nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60
Formulación de hipótesis:
Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)
Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección
Estadístico de prueba:
Se lleva los datos a una ventana de Excel y en análisis de datos seleccionamos Análisis de varianza de un factor
ANÁLISIS DE VARIANZA
Promedio de
Origen de las Suma de Grados de Valor crítico
los Fcal Probabilidad
variaciones cuadrados libertad para F0
cuadrados
Entre grupos 592,791667 3 197,597222 3,49368892 0,03469183 3,09839121
Dentro de los grupos 1131,16667 20 56,5583333
Total 1723,95833 23
Región crítica
F 0=F [ α , ( k−1 , n−k ) gl ]=F [ 0,05 ( 3,20 ) ] Cola a la derecha
Gráfica de distribución
F; df1=3; df2=20
0,8
0,7
0,6
0,5
Densidad
0,4
0,3
0,2
0,1
0,05
0,0
0 3,098
X F cal=3.494
Conclusión:
Como Fcal> F 0 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las maquinas no utilizan la misma velocidad por
unidad de confección.
Como p=0,035<0,05 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las maquinas no utilizan la misma velocidad por
unidad de confección.
PROCEDIMIENTO PARA REALIZAR ANOVA CON MINITAB
PRACTICA 1
El gerente de compras de la empresa MODA desea comparar la velocidad de 4 máquinas de marcas diferentes con el fin de adquirir la más veloz para su uso
en una confección específica. Para esto observó los tiempos que cada máquina utiliza para producir 6 unidades de la confección en forma aleatoria. Con un
nivel de significancia de 0.05. Es posible concluir que las maquinas utilizan la misma velocidad por unidad de confección.
M1 M2 M3 M4
55 60 64 42
46 58 62 45
45 68 51 52
73 58 57 44
50 63 65 42
63 52 58 60
Máquina Velocidad
M1 55
M1 46
M1 45
M1 73
M1 50
M1 63
M2 60
M2 58
M2 68
M2 58
M2 63
M2 52
M3 64
M3 62
M3 51
M3 57
M3 65
M3 58
M4 42
M4 45
M4 52
M4 44
M4 42
M4 60
90
Porcentaje
10
Residuo
50
0
10
-10
1
-20 -10 0 10 20 50 55 60
Residuo Valor ajustado
4,5
Frecuencia
Residuo 10
3,0
0
1,5
-10
0,0
-12 -8 -4 0 4 8 12 16 2 4 6 8 10 12 14 16 18 20 22 24
Residuo Orden de observación
NORMALIDAD
Formulación de hipótesis
Hipótesis nula: Los datos tienen el comportamiento de una distribución normal
Hipótesis alterna: Los datos NO tienen el comportamiento de una distribución normal
Regla de decisión
Si p < 0.05 se rechaza la hipótesis nula
Si p > 0.05 se acepta la hipótesis nula
Estadísticas → Estadísticas básicas → Prueba de normalidad
Gráfica de probabilidad de Velocidad
Normal
99
Media 55,54
Desv.Est. 8,658
95 N 24
RJ 0,989
90
Valor p >0,100
80
70
Porcentaje
60
50
40
30
20
10
5
1
30 40 50 60 70 80
Velocidad
Conclusión
Como p = 0,100 > 0,05 se acepta la hipótesis nula, es decir, los datos tienen el comportamiento de una distribución normal
HOMOGENEIDAD
Formulación de hipótesis
Hipótesis nula: Las varianzas de los tiempos empleados por maquina son homogéneos
Hipótesis alterna: Existe diferencia entre las varianzas de los tiempos empleados por maquina
Regla de decisión
Si p < 0.05 se rechaza la hipótesis nula
Si p > 0.05 se acepta la hipótesis nula
M1 Valor p 0,325
M2
Máquina
M3
M4
0 10 20 30 40
Intervalos de confianza de Bonferroni de 95% para Desv.Est.
Conclusión
Como p = 0,325 > 0,05 se acepta la hipótesis nula, es decir, Las varianzas de los tiempos empleados por maquina son homogéneos
PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE PROMEDIOS
Formulación de hipótesis:
Hipótesis nula: Las maquinas utilizan la misma velocidad por unidad de confección (son homogéneas)
Hipótesis alterna: Las maquinas no utilizan la misma velocidad por unidad de confección
Estadístico de prueba:
Estadísticas → ANOVA → Un solo factor
En opciones indicar si las varianzas son iguales
En comparaciones activamos en procedimiento: TUKEY y en resultados: Pruebas
En gráficos activamos: Cuatro en uno
En almacenamientos activamos: Ajustes y Residuos
Aceptar
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Máquin 3 592,8 197,60 3,49 0,035
a
Error 20 1131,2 56,56
Total 23 1724,0
Región crítica
F 0=F [ α , ( k−1 , n−k ) gl ]=F [ 0,05 ( 3,20 ) ] Cola a la derecha
Gráfica de distribución
F; df1=3; df2=20
0,8
0,7
0,6
0,5
Densidad
0,4
0,3
0,2
0,1
0,05
0,0
0 3,098
X F cal=3.494
Conclusión:
Como Fcal> F 0 se rechaza la hipótesis nula, es decir Al 95% de confianza se afirma que, las maquinas no utilizan la misma velocidad por
unidad de confección.
Medias
Máquin
a N Media Desv.Est. IC de 95%
M1 6 55,33 10,89 (48,93; 61,74)
M2 6 59,83 5,38 (53,43; 66,24)
M3 6 59,50 5,24 (53,10; 65,90)
M4 6 47,50 7,15 (41,10; 53,90)
Desv.Est. agrupada = 7,52053
65
60
Velocidad
55
50
45
40
M1 M2 M3 M4
Máquina
La desviación estándar agrupada se utilizó para calcular los intervalos.
Interpretación:
Al 95 % de confianza se afirma que el tiempo promedio que emplea la máquina 1 en producir una unidad de confección se encuentra entre 48.93 min a 61.74
min, la máquina 2 emplea un tiempo promedio entre 53.43 min a 66.24 min, la máquina 3 emplea un tiempo promedio entre 53.1 min a 65.9 min y la maquina
4 emplea en tiempo promedio entre 41.1 min a 53.9 min.
COMPARACIÓN MÚLTIPLE
Se forman dos grupos homogéneos. Si se desea adquirir la maquina más veloz para el uso de una confección se recomienda la máquina 4.
Regla de decisión:
p<0,05 se rechaza H 0
p>0,05 se acepta H 0
M2 - M1
M3 - M1
M4 - M1
M3 - M2
M4 - M2
M4 - M3
PRACTICA 3
Un promotor inmobiliario está considerando invertir en un centro comercial a construirse en Arequipa, Cusco, Iquitos, Piura, en donde es muy importante el
nivel de ingresos mensuales de las familias. Para resolver este problema se diseñó una prueba de hipótesis de varias medias seleccionando una muestra
aleatoria de ingresos familiares en cada una de las ciudades, obteniéndose los siguientes ingresos en cientos de dólares.
Ingresos mensuales
Cusc
Arequipa Iquitos Piura
o
61 71 56 50
56 73 61 40
49 66 47 50
55 61 51 50
46 58 50
TAREA 1
Una empresa de enlatado decide comprar nuevas máquinas para lo que dispone de cuatro ofertas.
Antes de elegir una, decide realizar una prueba para saber si las cuatro máquinas ofertadas pueden
producir la misma cantidad de unidades por hora. Para ello, observa la producción de las cuatro
máquinas y los resultados se reflejan en la tabla adjunta. ¿Qué conclusiones se deducen de este
experimento?
TAREA 2
Una compañía desea comparar cuatro tipos de procesos productivos. Se asignó aleatoriamente los
procesos de producción a seis empresas semejantes. La duración de los procesos (en horas) se dan en
la siguiente tabla:
Al nivel de significancia del 5%. ¿Se puede concluir que existe alguna diferencia en los rendimientos
medios de los procesos de producción?