Slide 5
Slide 5
Slide 5
CLASE 5
Análisis de la varianza (ANOVA)
de uno y dos factores
Descripción General
Análisis de la Varianza (ANOVA)
H0 : μ1 μ2 μ3 μc
Todas las medias poblacionales son iguales
sin variación en las medias entre los grupos (no hay
efecto del factor)
μ1 μ 2 μ 3
ANOVA de un Factor
(continuación)
H0 : μ1 μ2 μ3 μc
H1 : No todas μ j son iguales
La Hipótesis Nula no es verdadera
Al menos una de las medias es diferente
(El efecto del factor esta presente)
μ1 μ2 μ3 μ1 μ2 μ3
Dividiendo la Variación
SST ( Xij X) 2
2 2 2
SST ( X 11 X ) ( X 12 X ) ( X cn X )
c
Response, X
SSA
Variación debida a
MSA
diferencias entre grupos
c 1
Cuadrado medio entre =
SSA/grados de libertad
i j
Variación entre grupos
(continuación)
SSA n1 (X1 X) n 2 (X 2 X) n c (X c X)
2 2 2
Response, X
X3
X
X2
X1
SSW ( Xij X j ) 2
j1 i1
donde:
SSW = Suma de cuadrados dentro de los grupos
c = número de grupos
nj = tamaño de muestra del grupo j
Xj = media muestral del grupo j
Xij = ith observación en el grupo j
Variación dentro de los grupos
(continuación)
c nj
SSW ( Xij X j )2
j1 i1
SSW
Sumar la variación dentro de
MSW
cada grupo y luego sumar
sobre todos los grupos nc
Cuadrado medio dentro =
SSW/grados de libertad
μj
Variación dentro de los grupos
(continuación)
Response, X
X3
X2
X1
SST
MST Cuadrado medio Total
n 1 (d.f. = n-1)
Tabla: ANOVA de un factor
c = número de grupos
n = suma de los tamaños de muestra de todos los grupos
df = grados de libertad
ANOVA de un factor
Estadístico de prueba F
H0: μ1= μ2 = … = μc
H1: Al menos dos medias poblacionales son diferentes
Prueba estadística
MSA
FSTAT
MSW
MSA (cuadrados medios entre los grupos)
MSW (cuadrados medios dentro de los grupos)
Grados de libertad
df1 = c – 1 (c = número de grupos)
df2 = n – c (n = número total de elementos)
Interpretando el estadístico de
prueba F
El estadístico F es la razón de la estimación de
la varianza entre los grupos y la estimación de
la varianza dentro de los grupos.
La razón siempre debe ser positiva
df1 = c -1 normalmente será pequeño
df2 = n - c normalmente será grande
Regla de Decisión:
Rechazar H0 si FSTAT > Fα,
de lo contrario no rechazar
H0 0 No rechazar H0 Rechazar H0
Fα
Ejemplo del ANOVA de un factor
1 2 3
Club
Ejemplo del ANOVA de un factor
(cálculos)
Club 1 Club 2 Club 3 X1 = 249.2 n1 = 5
254 234 200 X2 = 226.0 n2 = 5
263 218 222
X3 = 205.8 n3 = 5
241 235 197
237 227 206 n = 15
X = 227.0
251 216 204 c=3
SSA = 5 (249.2 – 227)2 + 5 (226 – 227)2 + 5 (205.8 – 227)2 = 4716.4
SSW = (254 – 249.2)2 + (263 – 249.2)2 +…+ (204 – 205.8)2 = 1119.6
Valor Decisión:
crítico:
Rechazar H0 at = 0.05
Fα = 3.89
= .05 Conclusión:
Hay evidencia de que
0 Do not Reject H
0
al menos una μj se
reject H0
FSTAT = 25.275 diferencia del resto
Fα = 3.89
Ejemplo del ANOVA de un factor
(salida)
Resumen
Grupos cantidad Suma Promedio Varianza
Club 1 5 1246 249.2 108.2
Club 2 5 1130 226 77.5
Club 3 5 1029 205.8 94.2
ANOVA
Fuente de
SS df MS F P-value F crit
Variación
Entre
4716.4 2 2358.2 25.275 4.99E-05 3.89
grupos
Dentro de
1119.6 12 93.3
los grupos
Total 5836.0 14
El procedimiento de Tukey-Kramer
μ1= μ2 μ3 x
Rango crítico de Tukey-Kramer
MSW 1 1
Critical Range Q α
2 n j n j'
donde:
Qα = Valor crítico de cola superior de la distribución
de rango estudentizada con c y n - c grados de
libertad (ver tabla)
MSW = Cuadrados medios dentro
nj y nj’ = Tamaños de muestra de los grupos j y j’
Rango crítico de Tukey-Kramer
El procedimiento de Tukey-
Kramer: Ejemplo
1. Calcule las diferencias medias
Club 1 Club 2 Club 3 absolutas :
254 234 200
263 218 222 x1 x 2 249.2 226.0 23.2
241 235 197 x1 x 3 249.2 205.8 43.4
237 227 206
251 216 204 x 2 x 3 226.0 205.8 20.2
Q α 3.77
El procedimiento de Tukey-
Kramer: Ejemplo
(continuación)
3. Calcular el rango crítico :
MSW 1 1 93.3 1 1
Critical Range Q α 3.77 16.285
2 n j n j' 2 5 5
4. Compare:
5. Todas las diferencias medias
x1 x 2 23.2
absolutas son mayores que el rango
crítico. Por lo tanto, hay una diferencia x1 x 3 43.4
significativa entre cada par de medias
al 5% de nivel de significación. Por lo x 2 x 3 20.2
tanto, con un 95 % de confianza, podemos
concluir que la distancia media del palo 1 es
mayor que el palo 2 y el palo 3, y que el palo
2 es mayor que el palo 3.
Supuestos del ANOVA
Aleatoriedad e independencia
Seleccione muestras aleatorias para los c grupos (o
asignar aleatoriamente los niveles)
Normalidad
Los valores de muestra para cada grupo provienen
de una población normal
Homogeneidad de la varianza
Todas las poblaciones muestreadas tienen la misma
varianza.
Se puede probar con la prueba de Levene
Supuestos del ANOVA
(Prueba de Levene)
donde:
c = número de grupos =3
r = número de bloques=6
Partición de la Variación
r
SSBL c ( Xi. X) 2
i1
donde:
c = número de grupos
r = número de bloques
Xi. = media de todos los valores en el bloque i
X = media total (media de todos los valores)
Suma de cuadrados para bloques
SST = SSA + SSBL + SSE
r
SSBL c ( Xi. X)2
i1
Partición de la Variación
La variación total ahora se puede dividir en tres
partes :
SSBL
MSBL Mean square blocking
r 1
SSA
MSA Mean square among groups
c 1
SSE
MSE Mean square error
(r 1)(c 1)
Tabla del ANOVA de bloques
aleatorizados
Fuente de
SS df MS F
variación
Entre MSBL
bloques SSBL r-1 MSBL
MSE
Entre SSA c-1 MSA MSA
grupos
MSE
Error SSE (r–1)(c-1) MSE
Total SST rc - 1
c = número de grupos rc = número total de observaciones
r = número de bloques df = grados de libertad
Tabla del ANOVA de bloques
aleatorizados
MSA
FSTAT =
MSE Test del factor: df1 = c – 1
df2 = (r – 1)(c – 1)
MSBL
FSTAT =
MSE Test de los bloques: df1 = r – 1
df2 = (r – 1)(c – 1)
Examina el efecto de
Dos factores de interés sobre la variable
dependiente.
por ejemplo, porcentaje de carbonatación y velocidad
de la línea en el proceso de embotellado de
refrescos.
Interacción entre los diferentes niveles de estos
dos factores
por ejemplo, ¿Depende el efecto de un nivel de
carbonatación particular del nivel establecido en la
velocidad de la línea?
ANOVA de dos factores
(continuación)
Supuestos
Las poblaciones se distribuyen
normalmente.
Las poblaciones tienen varianzas
iguales
Se extraen muestras aleatorias
independientes
ANOVA de dos factores
(Fuentes de Variación)
Dos factores de interés : A y B
r = número de niveles del factor A
c = número de niveles del factor B
n’ = número de repeticiones para cada celda
n = número total de observaciones en todas
las celdas n = (r)(c)(n’)
Xijk = valor de la kth observación del nivel i del
factor A y el nivel j del factor B
ANOVA de dos factores
(Fuentes de Variación)(continuación)
SST = SSA + SSB + SSAB + SSE Grados de
libertad:
SSA r–1
Variación del factor A
Variación Total: r c n
SST ( Xijk X) 2
i1 j1 k 1
i1
i1 j1 k 1
Ecuaciones del ANOVA de dos
factores
(continuación)
r c n
donde: X
i1 j1 k 1
ijk
X Grand Mean
c n
rcn
X
j1 k 1
ijk
X ijk
X. j. i1 k 1
Mean of jth level of factor B (j 1, 2, ..., c)
rn
n
Xijk
Xij.
r = número de niveles del factor A
Mean of cell ij
k 1 n
c = número de niveles del factor B
n’ = número de repeticiones en cada celda
Cálculos de los cuadrados medios
SSA
MSA Mean square factor A
r 1
SSB
MSB Mean square factor B
c 1
SSAB
MSAB Mean square interaction
(r 1)(c 1)
SSE
MSE Mean square error
rc(n'1)
ANOVA de dos factores:
El estadístico de prueba F
Prueba F para el efecto del factor A
H0: μ1..= μ2.. = μ3..= • • = µr..
MSA Rechazar H0
H1: No todas las μi.. son FSTAT si FSTAT > Fα
iguales MSE
Prueba F para el efecto del factor B
H0: μ.1. = μ.2. = μ.3.= • • = µ.c.
MSB Rechazar H0
H1: No todas las μ.j. son FSTAT si FSTAT > Fα
iguales MSE
Prueba F para el efecto de interacción
H0: la interacción de A y B es igual
a cero.
MSAB
H1: la interacción de A y B no es
igual a cero.
FSTAT Rechazar H0
MSE si FSTAT > Fα
ANOVA de dos factores
(Tabla de resumen)
Fuente de Suma de Grados de Cuadrados
cuadrados
F
variación libertad medios
MSA MSA
Factor A SSA r–1
= SSA /(r – 1) MSE
MSB MSB
Factor B SSB c–1
= SSB /(c – 1) MSE
AB MSAB MSAB
SSAB (r – 1)(c – 1)
(Interacción) = SSAB / (r – 1)(c – 1) MSE
MSE =
Error SSE rc(n’ – 1)
SSE/rc(n’ – 1)
Total SST n–1
Características del ANOVA de dos
factores (prueba F)
Se conservan los grados los grados de libertad
n-1 = rc(n’-1) + (r-1) + (c-1) + (r-1)(c-1)
Total = error + factor A + factor B + interacción
Los denominadores de la Prueba F son siempre
los mismos pero los numeradores son diferentes.
Se conserva la suma de cuadrados
SST = SSE + SSA + SSB + SSAB
Total = error + factor A + factor B + interacción
Ejemplos:
Interacción vs. No Interacción
Sin interacción: los segmentos La interacción está presente:
de línea son paralelos algunos segmentos de línea
no son paralelos
Factor B Nivel 1
Factor B Nivel 1
Factor B Nivel 3
Media
Media
Factor B Nivel 2
Factor B Nivel 2
Factor B Nivel 3