Análisis de Varianza
Análisis de Varianza
Análisis de Varianza
X
ANÁLISIS DE LA VARIANZA
1. Introducción
El resultado de un experimento puede ser diferente al realizarlo
varias veces, aunque las condiciones bajo las que se realiza sean
siempre las mismas. Ello es consecuencia de las variaciones de muchos
factores fuera de nuestro control que no permanecen constantes y que
influyen en el resultado del experimento. Si además se cambian las
condiciones en las que se realiza el experimento, el resultado del
mismo variará en mayor medida.
Como por ejemplo, podemos considerar los rendimientos de un
mismo cultivo en parcelas diferentes, que aunque labradas en las
mismas condiciones, producen cosechas que son distintas. Esta
variabilidad de rendimientos es producida por una multitud de factores
controlables (fertilizante, riego, etc.), donde cada factor puede presentar
diferentes niveles (diferentes tipos de fertilizante, distintas modalidades
de riego, etc.); sin embargo, la variabilidad también puede ser
producida por factores no controlables como la humedad, el clima, las
plagas, etc.
Teóricamente, es posible dividir la variabilidad del resultado de
un experimento en dos partes: la originada por los factores que influyen
directamente en el resultado del experimento, estudiados en sus
distintos niveles, y la producida por el resto de los factores con
influencia en el resultado, pero que no son controlables y que se le
conoce con el nombre de error experimental.
x 2
12 558 19 662 9230 41 450
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
variación cuadrados libertad medio F
Tratamiento 992 2 496
Error 90 9 10 49.6
Total 1082
El valor de F es 49.6, el cual es mayor que el valor crítico 8.02.
Se rechaza H0, por lo tanto, las medias poblacionales no todas son
iguales.
Ejemplo 2
No Grasa es el nuevo lavavajilla para el hogar, cuya demanda se
prueba exhibiéndolo en tres lugares diferentes dentro de varios
supermercados. A continuación se muestra el número de envases de 45
gramos que se vendieron en cada ubicación:
Lugar Ventas
Cerca del pan 20 15 24 18
Cerca de las cervezas 12 18 10 15
Con otros limpiadores 25 28 30 32
x
2
247 2
SSTotal x 2
5651 566.92
n 12
T 2 x
2
77 2 552 1152 247 2
SST c 460.67
n n 4 4 4 12
c
d) Tabla ANOVA
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 460.67 2 230.335
19.51
Error 106.25 9 11.806
Total 566.92
e) Se rechaza H0.
2.3. Inferencias acerca de las medias de tratamiento
Supóngase que al aplicar el procedimiento ANOVA, se decide
rechazar la hipótesis nula. Esto permite concluir que todas las medias
de tratamiento no son iguales. En algunos casos esta conclusión puede
considerarse satisfactoria; sin embargo, en otros casos no y se desea
saber qué medias de tratamiento son diferentes. Para resolver esta
situación podemos aplicar el procedimiento de la diferencia mínima de
Fisher, para determinar dónde están las diferencias.
662 Estadística para Administración y Economía
La distribución t, que se describió en el capítulo VII, se utiliza
como base para esta prueba. Se debe tener en cuenta que una de las
suposiciones básicas del ANOVA es que las varianzas poblacionales
son iguales para todos los tratamientos. Este valor poblacional común
se denomina error cuadrado medio (MSE). A continuación se detalla el
proceso de Fisher basado en el estadístico de prueba t.
2.3.1. Procedimiento de la diferencia significativa mínima de Fisher
Planteamiento de hipótesis:
H 0: i j
H1: i u j
Regla de decisión:
2 2
–t t
( nn–kk,, ) (n – k , )
( nk , )
Región de rechazo 22 22 Región de rechazo
Donde:
n: Total de observaciones.
k: Número de tratamientos.
: Nivel de significancia.
Regla de decisión:
Rechazar H 0 si:
t t ó t t
( n k , ) ( nk , )
2 2
Estadístico de prueba:
xi x j
t
1 1
MSE
ni n j
Análisis de la varianza 663
Ejemplo 3
Los siguientes datos representan el costo de colegiaturas (en miles
de dólares) de una muestra de universidades privadas en diversas
regiones de Estados Unidos. Al nivel de significancia del 5%, ¿puede
concluirse que existe una diferencia en el costo promedio de las
colegiaturas?
Noreste Sureste Oeste
(miles US$) (miles US$) (miles US$)
10 8 7
11 9 8
12 10 6
10 8 7
12 6
a) Enuncie las hipótesis nula y alternativa.
b) ¿Cuál es la regla de decisión?
c) ¿Cuál es el valor estadístico de prueba calculado?
d) ¿Cuál es su decisión con respecto a la hipótesis nula?
e) ¿Podría haber una diferencia significativa entre la colegiatura
media del Noreste y la del Oeste? Si es así, utilice el
procedimiento de la diferencia significativa mínima de Fisher
para probar dicha diferencia.
Solución
a) Planteamiento de hipótesis:
H 0: 1 2 3
H1: No todas las medias son iguales.
b) g.l. en el numerador = 3 – 1= 2
g.l. en el denominador = 14 – 3 = 11
0.05
De acuerdo a la tabla tenemos que el valor F 2,11,0.05 3.98, así
que la regla de decisión es: rechazar H0 si el valor calculado de F
es mayor a 3.98.
x
2
124
2
c) SSTotal x 2
1152 53.71
n 14
T 2 x
2
552 352 342 1242
SST c 44.16
n
c n 5 4 5 14
SSE 53.71 44.16 9.55
664 Estadística para Administración y Economía
Estos valores se han calculado de acuerdo a la siguiente tabla:
x 2
609 309 234
Región de rechazo
–tt(0.025,11)
(0.025,11)
– 2.201
2.20 t(0.025 ,11)
t(0.025,11) 2.201
2.20
Estadístico de prueba:
xi x j
t
1 1
MSE
ni n j
De acuerdo a los datos se obtienen las siguientes medias
muestrales:
Noreste Sureste Oeste
(miles US$) (miles US$) (miles US$)
10 8 7
11 9 8
12 10 6
10 8 7
12 6
xi 11 8.75 6.8
ni 5 4 5
TABLA ANOVA
Fuente de Suma de Grados de
Cuadrado medio F
variación cuadrados libertad
SST MST
Tratamiento SST k 1 MST
k 1 MSE
SSB MSB
Bloques SSB b 1 MSB
b 1 MSE
SSE
Error SSE (k 1)(b 1) MSE
(k 1)(b 1)
Total SSTotal n 1
Donde:
SSB : Bloques de suma de cuadrados y se calcula con la siguiente
fórmula:
B2 x
2
SSB r
k n
Br: Se refiere al total de bloques, esto es, el total para la fila, y k
es el número de elementos en cada bloque.
SSE:Error de suma de cuadrados, dos direcciones; asimismo:
SSE SS Total SST SSB
b: Número de bloques.
Ejemplo 4
La empresa Colan Shampoo vende tres tipos de champú: para
cabello seco, normal y graso. Las ventas, en miles de soles, durante los
últimos cinco meses, se presentan en la siguiente tabla:
Ventas (miles S/.)
Mes Seco Normal Graso
Junio 7 9 12
Julio 11 12 14
Agosto 13 11 8
Septiembre 8 9 7
Octubre 9 10 13
Utilizando el nivel de 0.05, aplique el procedimiento ANOVA
para probar si:
a) Las ventas promedio de los tipos de producto para cabello seco,
normal y graso son iguales.
668 Estadística para Administración y Economía
b) Las ventas promedio son las mismas para cada uno de los cinco
meses.
Solución
Planteamiento de hipótesis:
a) y b)
Primero se probará la hipótesis referente a las medias de
tratamiento, es decir, para los tipos de champú:
H0: 1 = 2 = 3
H1: Las medias de tratamiento no son iguales.
g.l. en el numerador = k – 1 = 3 – 1 = 2
g.l. en el denominador : (b 1)(k 1) (5 1)(3 1) 8
0.05
De acuerdo a la tabla tenemos que el valor es F 2,8, 0.05 4.46,
así la regla de decisión es: rechazar H0 si el valor calculado de F
es mayor a 4.46.
Ahora plantearemos la hipótesis para el segundo factor, es decir,
los meses:
H0: 1 = 2 = 3= 4 = 5
H1: Las medias de bloques no son iguales.
g.l. en el numerador: b 1 5 1 4
g.l. en el denominador : (b 1)(k 1) (5 1)(3 1) 8
0.05
De acuerdo a la tabla tenemos que el valor es F 4,8, 0.05 3.84, así
que la regla de decisión es: rechazar H0 si el valor calculado de F
es mayor a 3.84.
Los datos necesarios para la tabla ANOVA se detallan a
continuación:
Suma de
Seco Normal Graso
bloques
7 9 12 28
11 12 14 37
13 11 8 32
8 9 7 24
9 10 13 32
x 48 51 54 153
x 2
484 527 622 1633
x
2
153
2
Tc2 x
2
482 512 542 1532
SST 3.6
nc n 5 5 5 15
B2 x
2
SSB r
k n
Donde Br se refiere al total de bloques, esto es, el total para la fila,
y k es el número de elementos en cada bloque, entonces:
B2 x
2
SSB r
k n
282 37 2 322 242 322 1532
SSB 31.73
3 3 3 3 3 15
Ahora encontremos el error de suma de cuadrados:
SSE SS Total SST SSB 72.4 3.6 31.73
SSE 72.4 3.6 31.73 37.07
Los valores obtenidos los remplazamos en la tabla ANOVA:
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
EJERCICIOS RESUELTOS
1. El fabricante de una bebida baja en calorías está considerando la
importancia del color del envase (rojo, amarillo o azul) en las
ventas de la bebida. Para ello elige 16 tiendas más o menos del
mismo tamaño, y lleva envases rojos a seis de las tiendas, amarillos
a cinco y azules a los cinco restantes. Después de unos cuantos días,
se anotan las ventas (en decenas de envases) en las diferentes
tiendas, dándose los resultados que aparecen en la siguiente tabla:
Z.
Z. Rechazo
rechazo
0.01
Z. aceptación
Z. Aceptación
Rechazar H 0 si F 6.7.
Análisis de la varianza 671
x 2
24 092 15 089 15 056 54 237
x
2
897
2
SSTotal x 2
54 237 3948.938
n 16
T 2 x
2
3722 2652 2602 897 2
SST c 340.938
nc n 6 5 5 16
SSE 3948.938 340.938 3608
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 340.94 2 170.47
Error 3608 13 277.54 0.6142
Total 3948.94 15
Z.Rechazo
Z. rechazo
0.05
Z.Z.aceptación
Aceptación
Rechazar H 0 si F 3.68.
PROVEEDOR A PROVEEDOR B PROVEEDOR C TOTAL
x 2
6200 3678 7353 17 231
Análisis de la varianza 673
x
2
547
2
SSTotal x 2
17 231 608.28
n 18
SST 354.11
nc n 6 6 6 18
SSE 608.28 354.11 254.17
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 354.11 2 177.05
10.449
Error 254.17 15 16.945
Total 608.28 17
Solución
H0: 1 = 2 = 3
H1: Las consumos promedio no son todos iguales.
g.l. en el numerador = 2
g.l. en el denominador = 12
0.01
674 Estadística para Administración y Economía
Regla de decisión:
Z.
Z.Rechazo
rechazo
0.01
Z.aceptación
Z. Aceptación
Rechazar H 0 si F 6.93.
x 2
1521.34 1377.83 1508.43 4407.6
x
2
256
2
SSTotal x 2
4407.6 38.53
n 15
Tc2 x
2
87 2 82.52 86.52 2562
SST 2.43
nc n 5 5 5 15
SSE 38.53 2.43 36.1
Análisis de la varianza 675
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 2.4333 2 1.2167
0.4044
Error 36.1 12 3.0083
Total 38.5333 14
Z.
Z.Rechazo
rechazo
0.05
Z. aceptación
Z. Aceptación
x 2
37 040 40 427 42 064 119 531
x
2
1565
2
SSTotal x 2
119 531 2901.2381
n 21
T 2 x
2
5022 527 2 5362 15652
SST c 88.67
nc n 7 7 7 21
SSE 2901.2381 88.67 2812.57
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
variación cuadrados libertad medio F
Tratamiento 88.67 2 44.34
Error 2812.57 18 156.25 0.28378
Total 2901.2381 20
Z.
Z. rechazo
Rechazo
0.01
Z.aceptación
Z. Aceptación
Rechazar H 0 si F 5.95.
NORTE SUR ESTE OESTE TOTAL
2 2 2 2
xi x i
xi x i
xi x i
xi xi
6.8 46.24 7.2 51.84 4.2 17.64 9 81
4.2 17.64 6.6 43.56 4.8 23.04 8 64
5.4 29.16 5.8 33.64 5.8 33.64 7.2 51.84
5 25 7 49 4.6 21.16 7.6 57.76
Tc 21.4 26.6 19.4 31.8 99.2
nc 4 4 4 4 16
x 2
118.04 178.04 95.48 254.6 646.16
x
2
92.2
2
SSTotal x 2
646.16 31.12
n 16
678 Estadística para Administración y Economía
T 2 x
2
21.42 26.62 19.42
SST c
nc n 4 4 4
31.82 99.22
23.24
4 16
SSE 31.12 23.24 7.88
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 23.24 3 7.7467
11.796
Error 7.88 12 0.6567
Total 31.12 15
Z.
Z. Rechazo
rechazo
0.05
Z.
Z. Aceptación
aceptación
F 2, 3.47
21, 0.05) 3.47
F(2,21,0.05 FFV1 ,V2
(V1, V2 )
Rechazar H 0 si F 3.47.
x 2
276 256 234 766
x
2
132
2
SSTotal x 2
766 40
n 24
Tc2 x
2
462 442 422 1322
SST 1
nc n 8 8 8 24
SSE 40 1 39
680 Estadística para Administración y Economía
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 1 2 0.5
0.269
Error 39 21 1.857
Total 40 23
Z. Rechazo
rechazo
0.05
Aceptación
Z. aceptación
FF(3, 3.13
19, 0.05) 3.13 F(VV11 ,,VV22)
3, 19,0.05
Rechazar H 0 si F 3.13.
Aerolíneas Menudeo Hotelería Automotriz Total
2 2 2 2
xi xi
xi xi
xi x i
xi xi
59 3481 63 3969 70 4900 49 2401
56 3136 49 2401 68 4624 55 3025
47 2209 60 3600 62 3844 48 2304
46 2116 54 2916 69 4761 49 2401
55 3025 56 3136 59 3481 50 2500
54 2916 55 3025
48 2304
Tc 365 337 328 251 1281
nc 7 6 5 5 23
x 2
19 187 19 047 21 610 12 631 72 475
x
2
1281
2
SSTotal x 2
72 475 1128.87
n 23
Tc2 x
2
3652 337 2 3282
SST
nc n 7 6 5
2512 12812
731.18
5 23
SSE 1128.87 731.18 397.69
682 Estadística para Administración y Economía
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
variación cuadrados libertad medio F
Tratamiento 731.18 3 243.73
Error 397.69 19 20.931 11.644
Total 1128.87 22
Z.
Z. Rechazo
rechazo
0.05
Z.aceptación
Z. Aceptación
FF
18, 0.05) 3.55
2,(2,18,0.05
3.55 F(VV11, VV22)
Análisis de la varianza 683
g.l. en el numerador: k 1 3 1 2
g.l. en el denominador: n k 21 3 18
Regla de decisión:
Rechazar H 0 si F 3.55.
Prov_1 Prov_2 Prov_3 Total
2 2 2
xi xi
xi x i
xi xi
5 25 5 25 4 16
6 36 4 16 5 25
6 36 5 25 2 4
5 25 5 25 6 36
6 36 6 36 5 25
6 36 5 25 2 4
7 49 4 16 4 16
Tc 41 34 28 103
nc 7 7 7 21
x 2
243 168 126 537
x
2
103
2
SSTotal x 2
537 31.81
n 21
T 2 x
2
412 342 282 1032
SST c 12.095
nc n 7 7 7 21
SSE 31.81 12.095 19.715
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 12.095 2 6.0475
5.521
Error 19.715 18 1.0953
Total 31.81 20
Z.
Z. Rechazo
rechazo
0.05
Z.
Z. aceptación
Aceptación
FF2, 3.68
15, 0.05) 3.68 F(VV11, VV22)
(2,15,0.05
Análisis de la varianza 685
Rechazar H 0 si F 3.68.
Sup_A Sup_B Sup_C Total
2 2 2
xi xi
xi x i
xi x i
2.2 4.84 3.7 13.69 3.8 14.44
2.4 5.76 2.1 4.41 4.1 16.81
2.7 7.29 3.2 10.24 3.9 15.21
3.8 14.44 2.9 8.41 2.7 7.29
3.2 10.24 3.9 15.21 4.1 16.81
3.9 15.21 3.8 14.44 3.2 10.24
Tc 18.2 19.6 21.8 59.6
nc 6 6 6 18
x 2
57.78 66.4 80.8 204.98
x
2
59.6
2
SSTotal x 2
204.98 7.638
n 18
SST c 1.098
nc n 6 6 6 18
SSE 7.638 1.098 6.54
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 1.098 2 0.549
1.259
Error 6.54 15 0.436
Total 7.638 17
Z.
Z.Rechazo
rechazo
0.05
Z.aceptación
Z. Aceptación
F(3,3,20,
F 3.1
0.05) 3.1 FF(V1V,1V,V22)
20,0.05
Rechazar H 0 si F 3.1.
Análisis de la varianza 687
x
2
19 565.6
2
SSTotal x 2
16 556 074 605 544.69
n 24
688 Estadística para Administración y Economía
T 2 x
2
5573.7 2 5345.12 4385.42
SST c
nc n 6 6 6
4261.42 19 565.62
220 718.83
6 24
SSE 605 544.69 220 718.83 384 825.86
TABLA ANOVA
Fuente de Suma de Grados de Cuadrado
F
variación cuadrados libertad medio
Tratamiento 220 718.83 3 73 572.94
3.8237
Error 384 825.86 20 19 241.29
Total 605 544.69 23
Profesor
A B C
73 88 68
89 78 79
82 48 56
43 91 91
80 51 71
73 85 71
66 74 87
60 77 41
45 31 59
93 78 68
36 62 53
77 76 79
96 15
80
56
Análisis de la varianza 691
¿Existe una diferencia significativa en las calificaciones promedio
obtenidas con los tres profesores?
Utilice un nivel de significancia de 0.05.
5. Los siguientes datos representan las calificaciones finales obtenidas
por 5 alumnos de la Facultad de Ciencias Económicas y
Empresariales de la UDEP en Matemática Básica I, Matemática
Básica II, Matemáticas Empresariales, Estadística e Investigación
de Operaciones.
Cursos
Investigación
Matemática Matemática Matemáticas
Alumnos Estadística de
Básica I Básica II Empresariales
Operaciones
Juan 14 13 14 16 18
Pedro 13 18 15 19 12
María 11 16 13 18 14
Claudia 12 15 12 16 17
Oscar 12 14 16 13 19
B1 B2 B3
4 5 7
6 8 10
1 6 5
A1
2 10 12
5 10 10
1 7 8
1 2 4
3 6 6
3 5 4
A2
1 4 7
5 6 5
2 8 7
A B C
1 7 5
4 5 4
3 3 4
3 6 5
2 4 7
5 7 8
Amenazas 52 57 55 59
Robo 46 52 51 50
Agresión 44 53 50 51
Secuestro 42 39 44 41
70 50
47 52
48 60
Mucha
52 58
58 62
88 90 110
87 91 110
15’ 91 94 117
79 83 90
85 88 109
83 96 118
85 97 120
30’ 85 99 125
79 88 119
81 93 114
Estudiar si existe variabilidad entre las dosis y entre los tiempos, y si es
significativa la interacción. ¿Cuál es la principal causa de variabilidad?
Solución
Comenzamos introduciendo los datos en una hoja de cálculo
Excel, tal como se indica en la siguiente figura:
Análisis de la varianza 705