Anova y Ancova
Anova y Ancova
Anova y Ancova
Leonel Villacrés
Carlos Dota
El análisis de regresión se usa para explicar o modelar la relación entre una variable
continua Y, llamada variable respuesta o variable dependiente, y una o más variables
continuas X1,.....,Xp, llamadas variables explicativas o independientes. Cuando p = 1, se
denomina regresión simple y cuando p > 1 se denomina regresión múltiple. Cuando hay más
de una variable respuesta Y, entonces el análisis se denomina regresión múltiple
multivariada. Cuando las Y son totalmente independientes entre sí, entonces hacer una
regresión múltiple multivariada sería el equivalente a realizar tantas regresiones múltiples
invariadas como Y’s haya.
Por ´ultimo, es posible que en el mismo análisis aparezcan tanto variables explicativas
continuas como categóricas, y en este caso el análisis pasaría a denominarse análisis de la
covarianza o ANCOVA. Aquí ya no haríamos distinción entre ´único o múltiple ya que este
análisis se compone siempre de, al menos, dos variables explicativas (una continua y una
categórica).
El análisis de la varianza (o ANOVA por sus siglas en inglés, Analysis of Variance) es una
técnica estadística que señala si dos variables (una independiente y otra dependiente) están
relacionadas en base a si las medias de la variable dependiente son diferentes en las
categorías o grupos de la variable independiente. Es decir, señala si las medias entre dos o
más grupos son similares o diferentes.
𝑯𝒐: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 =. . . 𝜇𝑛
Las K muestras sobre las que se aplican los tratamientos son independientes.
Las poblaciones tienen la misma varianza (homocedasticidad).
Objetivo.
Tabla de ANOVA.
Significación: si es menor de 0,05 es que las dos variables están relacionadas y por
tanto que hay diferencias significativas entre los grupos
Valor de F: cuanto más alto sea F, más están relacionadas las variables, lo que
significa que las medias de la variable dependiente difieren o varían mucho entre
los grupos de la variable independiente.
Interpretación. Utilice una gráfica de caja para examinar la dispersión de los datos
y para identificar cualquier posible valor atípico. Las gráficas de caja funcionan
mejor cuando el tamaño de la muestra es mayor que 20.
Conclusiones.
Nota: Cuando se tiene más de dos grupos se debe aplicar la prueba de ANOVA.
Datos.
A B C
37 40 19
33 19 25
37 23 52
57 15 59
26 11 65
59 30 15
20 39 47
54 27 31
52 26 48
44 12 29
61 32 20
35 31 52
62 29 44
17 10 37
55 39 65
16 40 52
53 32 51
46 49 22
37 48 16
20 35 22
25 35 22
57 28 51
17 19 36
25 18 32
53 35 63
Resultados.
Excel.
Hipótesis Nula: El promedio de edad en los tres grupos es igual, con un 95% de
confiabilidad
Hipótesis Alterna: en al menos un grupo, el promedio de edad es distinto, con 95%
de confiabilidad (no tenemos la suficiente evidencia para rechazar la hipótesis nula)
¿Qué grupo o que grupos son los que están haciendo la diferencia?
LSD de Fisher
Bonferroni
HSD de Tuckey
Duncan
Newman-Keuls
Scheffé
La covarianza indica el sentido de la correlación entre las variables; si es positivo nos dice
que se relacionarían de forma directa y si es negativa de forma inversa.
Uso de Ancova
Uno de los métodos que usa la covarianza (aunque Pandas lo va a hacer solo) es el
coeficiente de correlación lineal de Pearson. Cuanto más se acerque a 1 o -1 más
correlacionadas están las variables. Su uso en Pandas es muy similar a la covarianza.
Siendo:
Usando las funciones de varianza, media y covarianza Pandas no es muy complicado hacer
una recta de regresión