Anova y Comparaciones Múltiples - Casos Ejemplos
Anova y Comparaciones Múltiples - Casos Ejemplos
Anova y Comparaciones Múltiples - Casos Ejemplos
El análisis de la varianza (ANOVA) es una herramienta estadística poderosa que se utiliza para
comparar las medias de tres o más grupos de datos. Una de las principales ventajas de realizar una
prueba ANOVA es que permite determinar si hay una diferencia significativa entre las medias de los
grupos.
Si la varianza entre los grupos es mayor que la varianza dentro de los grupos, entonces es probable
que exista una diferencia significativa en las medias. Si la varianza dentro de los grupos es mayor que
la varianza entre los grupos, entonces cualquier diferencia observada en las medias podría ser
simplemente aleatoria.
Si estás recopilando datos métricos con tus encuestas, tal vez en forma de respuestas a una escala
de Likert, la cantidad gastada en un producto, los puntajes de satisfacción del cliente o el número de
compras realizadas, se puede analizar las diferencias en el puntaje promedio entre grupos de
encuestados.
Si estás comparando dos grupos a la vez (por ejemplo, hombres frente a mujeres, clientes nuevos
vs. existentes, empleados vs. gerentes, etc.), entonces es apropiado usar una prueba t de Student
para evaluar la importancia de cualquier diferencia. Sin embargo, si hay más de dos grupos, es
necesario recurrir a otra técnica.
ANOVA o sus equivalentes no paramétricos, te permiten determinar si las diferencias en los valores
medios entre tres o más grupos son por casualidad o si son significativamente diferentes.
ANOVA utiliza la prueba F para determinar si la variación en respuesta a las preguntas de satisfacción
es lo suficientemente grande como para ser considerada estadísticamente significativa.
El uso adecuado de ANOVA para analizar los datos de la encuesta requiere que se cumplan algunas
suposiciones, incluida la distribución normal de los datos; independencia de los casos e igualdad de
varianza (la varianza de cada grupo es igual).
Prueba de Anova
Suposiciones:
- Dentro del grupo (SCW): Calculando las desviaciones con respecto a la media dentro de cada
muestra (insesgada)
- Entre el grupo (SCB): Calculando la desviación entre las medias de las muestras y la media
general.
- Con estas estimaciones, se calcula el valor F. Esto genera el valor P, que usualmente
debe ser menor a alfa=0,01 para rechaza la hipótesis nula.
Descriptivos
XXX vende mercadería de calidad
95% del intervalo de confianza
Desviación Error para la media Mínimo Máximo
N Media estándar estándar Límite inferior Límite superior
TA 167 3,69 ,768 ,059 3,57 3,81 1 5
TV 134 3,69 ,816 ,070 3,55 3,83 2 5
TP 138 3,39 ,900 ,077 3,24 3,54 1 5
Total 439 3,60 ,835 ,040 3,52 3,68 1 5
ANOVA
XXX vende mercadería de calidad
Suma de Media
cuadrados Gl cuadrática F Sig.
Entre grupos (SCB) 8,502 2 4,251 6,238 ,002
Dentro de grupos
297,133 436 ,681
(SCW)
Total 305,636 438
VALOR P (SIG) = 0,002 < 0,01 ➔ rechazo Ho (No todas las medias son iguales o Al menos
una de las medias es diferente).
VALOR P (SIG) = 0.017 < 0,05 (SE RECHAZA H0, ES DECIR, LAS VARIANZAS NO SON IGUALES). NO
CUMPLE PRIMER SUPUESTO.
SUPUESTO #2: Otro supuesto tiene que ver con la distribución normal de las variables:
Ho: La distribución es normal
H1: La distribución no es normal
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
tienda Estadístico gl Sig. Estadístico gl Sig.
XXX vende mercadería de TA ,322 167 ,000 ,828 167 ,000
calidad TV ,266 134 ,000 ,862 134 ,000
TP ,251 138 ,000 ,881 138 ,000
a. Corrección de significación de Lilliefors
Se rechaza cuando p <= 0,05
G.L. > 50 entonces utilizo Kolmogorov-Smirnov. El Valor p (SIG) es 0,000 < 0,05, entonces rechazo
Ho (distribución no es normal). No cumple el segundo supuesto.
SUPUESTO #3: Muestras son independientes. El diseño del estudio se hizo con tres encuestas
separadas por tienda, por lo que por diseño, se cumple el supuesto de independencia de las
muestras.
En este caso, la ANOVA no es sustentable, pues se cumple sólo 1 de 3 supuestos, por lo que no
puedo dar certeza estadística de la diferencia de medias.
PROCEDIMIENTOS DE COMPARACIÓN MÚLTIPLE
Cuando ya pudimos responder la pregunta general (son todas las medias iguales?) nos queda
determinar cuál de ellas es diferente a las otras y es donde entran las comparaciones múltiples.
Se llama el análisis “Post-Hoc” y este se aplica sólo en el caso que se haya rechazado la hipótesis
nula. Se utiliza la prueba de Tukey para esto:
Comparaciones múltiples
Variable dependiente: XXX vende mercadería de calidad
HSD Tukey
(I) tienda (J) tienda medias (I-J) Error estándar Sig. Límite inferior Límite superior
TA & TV, el valor p (Sig) es 0,998 > 0,05, por lo que acepto Ho, es decir las medias de Ta y
TV son iguales.
TA & TP: El valor p (Sig.) es 0,005 < 0,05, por lo que rechazo Ho, es decir TA & TP no tiene
medias iguales.
tienda N 1 2
TP 138 3,39
TA 167 3,69
TV 134 3,69
Sig. 1,000 ,998
Se visualizan las medias para los grupos en los
subconjuntos homogéneos.
a. Utiliza el tamaño de la muestra de la media
armónica = 144,948.
b. Los tamaños de grupo no son iguales. Se utiliza la
media armónica de los tamaños de grupo. Los niveles
de error de tipo I no están garantizados.