Pruebas Estdidticas Homosteseacidad
Pruebas Estdidticas Homosteseacidad
Pruebas Estdidticas Homosteseacidad
Introducción
En primer lugar se plantea el ajuste de una recta entre dos variables. Sea Y la
variable dependiente (variable cuyos valores se desea predecir), y X la variable
independiente (también llamada variable explicativa y que se utiliza para predecir
el valor de la variable dependiente).
En primer lugar, antes de realizar la regresión vamos a visualizar la nube de
puntos. Para ello se seleciona en el menú principal Gráficos/Cuadros de diálogo
antiguos/Dispersión/Puntos...
Se pulsa el botón Gráficos...
Por ejemplo:
Se pulsa el botón Guardar...
y en Valores pronosticados y Residuos se elige Tipificados. Se
pulsa Continuar. En la ventana del Editor de datos se han creado dos variables
con los nombres ZPR_1 (para los valores pronosticados tipificados)
y ZRE_1 (para los residuos tipificados).
Se pulsa Continuar y Aceptar. Y se obtienen, entre otros, los siguientes
resultados
Esta tabla muestra los resultados del ajuste del modelo de regresión. El valor
de R cuadrado, que corresponde al coeficiente de determinación, mide la
bondad del ajuste de la recta de regresión a la nube de puntos, el rango de valores
es de 0 a 1. Valores pequeños de R cuadrado indican que el modelo no se ajusta
bien a los datos. R cuadrado = 0.481 indica que el 48.1% de la variabilidad
de Y es explicada por la relación lineal con X. El valor R (0.694) representa el
valor absoluto del Coeficiente de Correlación, es decir es un valor entre 0 y 1.
Valores próximos a 1 indican una fuerte relación entre las variables. La última
columna nos muestra el Error típico de la estimación (raíz cuadrada de la
varianza residual) con un valor igual a 16.52243
En la Tabla ANOVA, se muestra la descomposición de la Variabilidad Total
(SCT = 10000) en la Variabilidad debida a la Regresión (SCR_{reg = 4813.175)
y la Variabilidad Residual (SCR = 5186.825) es decir en Variabilidad explicada
por el modelo de regresión y la Variabilidad no explicada. SCT = SCR_{eg} +
SCR. La Tabla de Ánalisis de la Varianza (Tabla ANOVA) se construye a partir
de esta descomposición y proporciona el valor del estadístico F que permite
contrastar la hipótesis nula de que la pendiente de la recta de regresión es igual a
cero contra la alternativa de que la pendiente es distinta de cero, es decir:
En este apartado vamos a comprobar que se verifcan los supuestos del modelo de
regresión lineal (normalidad, homocedasticidad (igualdad de varianzas) y
linealidad) estos supuestos resultan necesarios para validar la inferencia respecto
a los parámetros. Utilizaremos el analisis de los residuos para realizar los
contrastes a posteriori de dichas hipótesis del modelo. Los residuos se definen
como la diferencia entre el valor observado y el valor predicho por el modelo.
Normalidad
Histograma
Representaremos los residuos mediante un histograma superponiendo sobre él
una curva normal de media cero. Si los residuos siguen un distribución normal
las barras del histograma deberán representar un aspecto similar al de dicha
curva.
Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de
que los residuos surgieran de una distribución normal y los valores observados.
Se distingue entre la mayor diferencia en valor absoluto, la mayor diferencia
positiva y la mayor diferencia negativa. Se muestra el valor del estadístico Z
(0.861) y el valor del p-valor asociado (0.448). Por lo tanto no se puede rechazar
la hipótesis de normalidad de los residuos.
Homocedasticidad
Comprobamos la hipótesis de homogeneidad de las varianzas gráficamente
representando los residuos tipificados frente a los tiempos de incubación
estimados tipificados. El análisis de este gráfico puede revelar una posible
violación de la hipótesis de homocedasticidad, por ejemplo si detectamos que el
tamaño de los residuos aumenta o disminuye de forma sistemática para algunos
valores ajustados de la variable Y, si observamos que el gráfico muestra forma de
embudo... Si por el contario dicho gráfico no muestra patrón alguno, entonces no
podemos rechazar la hipótesis de igualdad de varianzas.
Se selecciona Analizar/Regresión/Lineal... se pulsa el botón Gráficos... y en
el Cuadro de diálogo correspondiente se selecciona la variable *ZRESID para el
eje Y (dicha variable representa los residuos tipificados) y la
variable *ZPRED (variable que representa los valores predichos tipificados) para
el eje X
También podemos realizar la comparación del ajuste de los dos modelos a partir
de las varianzas residuales. Para ello se debe marcar en la ventana de Estimación
curvilínea la opción Mostrar tabla de ANOVA
Y se muestran los siguientes resultados
Tabla de contenidos
3 posibles soluciones
Los problemas de los métodos clásicos
Revisemos los principales problemas de los métodos paramétricos clásicos para entender
su importancia.
I. Los datos reales suelen ser multimodales, asimétricos y con largas colas en su
distribución de valores, por lo que raramente son normales.
III. Variabilidad inherente a los datos. Los grupos definidos por un factor pre-existente
pueden tener varianzas diferentes. Por ejemplo, la respuesta a un test cognitivo es más
variable en personas mayores que en los jóvenes. También puede ocurrir que una
variable experimental cause diferencias en la variabilidad entre grupos. Por ejemplo, la
respuesta de los sujetos ante un nuevo fármaco pueden generar gran variabilidad en el
grupo experimental, mientras que el grupo control tendrá una respuesta bastante
homogénea; aún cuando en el pre-test los grupos fueran homogéneos en su respuesta.
2. Argumento erróneo sobre la resistencia. Se suele decir que las pruebas paramétricas
clásicas son resistentes a las variaciones en los supuestos de normalidad y
homocedasticidad, negando así la necesidad de utilizar procedimientos alternativos. Sin
embargo, esta afirmación se basa en estudios que solo analizan el impacto de pequeñas
desviaciones de la normalidad y homocedasticidad, no en grandes desviaciones que son
las más frecuentes en los datos reales. Incluso estos estudios suelen analizar dichos
supuestos de manera aislada cuando en la práctica los dos supuestos se incumplen al
mismo tiempo.
3 posibles soluciones
En muchas ocasiones no se cumplen los supuestos de la estadística
clásica (normalidad y homocedasticidad) y por ende, las técnicas paramétricas no nos
son útiles. En estos casos tenemos 3 posibles soluciones:
Los métodos robustos modernos son diseñados para obtener un buen desempeño
cuando los supuestos clásicos se cumplen y también cuando se incumplen.
Y ahora te toca actuar a ti, ¿cómo vas a realizar tus próximos análisis de datos?
Erceg-Hurn, D. M., & Mirosevich, V. M. (2008). Modern robust statistical methods: an easy
way to maximize the accuracy and power of your research. American Psychologist, 63(7),
591.
Artículos Relacionados
Si quieres conseguir una super hoja de ruta para saber qué prueba estadística debes
elegir para analizar tus datos continúa leyendo este post. Ah… y un plus, ¡la lista de
funciones en R Software para realizar cada tipo de prueba!
Ver más