Analisis de Regresion PDF
Analisis de Regresion PDF
Analisis de Regresion PDF
n
R
e
s
i
d
u
o
t
i
p
i
f
i
c
a
d
o
2
1
0
-1
-2
-3
El segundo supuesto que deben cumplir los datos es el de homoscedasticidad
(igualdad de las varianzas). La heteroscedasticidad se detecta tambin mediante
16 los grficos de residuos estudentizados que, para constatar la existencia de
varianzas distintas, debera adoptar la forma de tringulo od diamante que se
muestra la figura 3.
Figura 3. Patrones tpicos de heteroscedasticidad
13
que, comparados con la figura 2 que resume los resultados para nuestra base de
ejemplo, permiten constatar el cumplimiento de la hiptesis de homoscedasticidad.
La siguiente hiptesis que deben cumplir los datos para permitir la aplicacin del
anlisis de regresin, es la independencia de los trminos de error. En una
regresin asumimos que cada valor predicho es independiente, es decir que no
afecta a otra prediccin. Esta hiptesis se constata mediante el estadstico de
Durbin Watson, que mide el grado de autocorrelacin entre el residuo
correspondiente a cada observacin y la anterior. Si su valor est prximo a 2, los
residuos estarn incorrelados, si se aproxima a 4 estarn negativamente
autocorrelados y si se aproxima a 0 estarn positivamente autocorrelados. En
nuestro caso, la salida de SPSS proporciona el valor de 1.910 del estadstico de
Durbin-Watson, como recoge el cuadro 3, luego podemos considerar que los datos
cumplen la hiptesis de independencia de los residuos.
La ltima condicin de aplicabilidad que debe considerarse, es el de normalidad
multivariable del trmino de error. Como indicamos en el primer tema, el mejor
procedimiento para detectar la ausencia de normalidad es recurrir a los llamados
grficos q-q donde, si el comportamiento no es normal, los puntos adoptaran
patrones sistemticos por encima o debajo de la lnea recta lo que, como puede
comprobarse en la figura 6.4, no es el caso en nuestros datos de ejemplo.
Figura 4. Prueba de normalidad de los residuos.
14
Grfico P-P normal de regresin Residuo tipificado
Variable dependiente: Nivel de uso
Prob acum observada
1,0 ,8 ,5 ,3 0,0
P
r
o
b
a
c
u
m
e
s
p
e
r
a
d
a
1,0
,8
,5
,3
0,0
Luego despus de comprobar la posible violacin de todas las hiptesis,
comprobamos que slo la violacin de la hiptesis de normalidad por parte de las
variables X2, X4 y X6 puede ejercer algn tipo de influencia sobre los resultados.
Tal como indicamos en el tema 1, procede transformarlas mediante logaritmos y
comprobar si los resultados difieren sustancialmente de los que ya hemos obtenido.
El cuadro 5 ofrece la solucin con las variables transformadas. Puede comprobarse
que la capacidad explicativa del modelo apenas mejora (R2 = 0.771 frente a 0.768
en el caso anterior) y entran las mismas variables en la ecuacin luego, en este
caso, las 18 consecuencias de la violacin de una de las hiptesis que deben
cumplir los datos, apenas ejerce influencia alguna.
En resumen, como se ha podido comprobar, los anlisis de los residuos
proporcionan una buena herramienta para determinar si se estn violando las
condiciones de aplicabilidad de la tcnica de regresin. Con frecuencia este anlisis
no se lleva a cabo pudiendo provocarse sesgos y errores como la falta de fiabilidad
de los test que detectan la significatividad de los coeficientes de la regresin.
La ltima cuestin que deba analizarse en este paso de la regresin lineal, es si
existen valores anmalos de alguna de las variables que intervienen que puedan
tener una influencia importante sobre los resultados de la regresin. En la figura
6.5 se ilustran la naturaleza de estas posibles influencias, que pueden ser poco
graves, como en el caso a) o tremendamente influyentes, como en el b).
15
Figura 5. Posible influencia de las observaciones anmalas
La mejor herramienta para identificar a los outliers (observaciones anmalas, o no
bien predichas por la recta de regresin) es mediante el anlisis de los residuos. Si
no estn bien predichas esas observaciones por la recta de regresin, sus residuos
deben ser grandes. Se trabaja normalmente con los residuos estudentizados, que
es un procedimiento de estandarizacin bastante comn, consistente en
transformar todos los residuos de tal forma que tengan media 0 y desviacin tpica
1, slo que la desviacin tpica necesaria para estandarizar se calcula omitiendo el
caso para el que se est calculando el residuo en ese momento. El trabajar con
residuos estudentizados tiene la ventaja de que puede fcilmente considerarse
anmala cualquier observacin cuyo residuo supere el valor de 1.96 para un nivel
de significacin de 0.05. La figura 6.6 muestra que cuatro observaciones (7, 11, 14
y 100) puede ser considerados como outliers y deberan ser eliminados del anlisis.
Figura 6. Grfico de los residuos estudentizados
16
Paso 5. I nterpretacin de los resultados
Una vez estimado el modelo y llevados a cabo los diagnsticos que confirman la
validez de los resultados, podemos escribir nuestra recta de regresin como sigue
(ver cuadro 3):
Y = 6,514 + 3,376X3 + 7,623X5 + 1,400X6
Con esta ecuacin, puede predecirse el nivel de uso de los productos de HATCO que
har un determinado cliente, si conocemos sus percepciones de esta empresa. A
ttulo ilustrativo, de un cliente que hubiese valorado los tres atributos (X3, X5 y X6)
con un 4, podramos esperar un nivel de utilizacin de:
Nivel de uso predicho = 6,514 + 3,3764 + 7,6234 + 1,4004 = 43,089
es decir, que cabe esperar que comprase el 43% de su maquinaria a HATCO.
Pero, adems de predecir el nivel de uso de los productos, los coeficientes de
regresin nos permiten tambin establecer la importancia relativa de las variables
individuales para predecir la variable dependiente. Como en este caso todas las
variables estn medidas en la misma escala, las comparaciones pueden efectuarse
directamente sobre los coeficientes. Pero en la mayora de las ocasiones, los
coeficientes vienen afectados por las diferentes escalas de las variables a las que
van asociados, por lo que para efectuar el anlisis se ha de recurrir a los
coeficientes estandarizados que, en el cuadro 3, venan bajo el ttulo de
Coeficientes estandarizados, beta. En este caso es evidente que la variable X5
(Servicio) es la ms importante (0,608) seguida de cerca por X3 flexibilidad de
precios (0.521) y mucho ms distanciada X6 imagen de los vendedores (0,120).
Debe tenerse alguna cautela, sin embargo, al analizar los coeficientes
estandarizados. En primer lugar, deben utilizarse solamente en situaciones de baja
17
colinealidad, como analizaremos inmediatamente. En segundo lugar, los valores
beta, solo pueden interpretarse en el contexto de las otras variables de la ecuacin,
as el valor beta de la variable X5 es importante slo respecto a X3 y X6, pero no
en trminos absolutos. Si se hubiera introducido otra variable en la ecuacin, el
valor beta de X5 hubiera cambiado con casi toda seguridad.
En cualquier interpretacin de los resultados de un anlisis de regresin, el
investigador debe prestar especial atencin a analizar el efecto de la
multicolinealidad, esto es, la posible correlacin entre las variables independientes.
Aunque este es un problema de los datos, no de la especificacin del modelo, puede
tener importantes consecuencias: limita el valor del coeficiente de determinacin,
hace difcil determinar la contribucin de cada variable individualmente, dado que
sus efectos se enmascaran en las correlaciones de unas con otras, pudiendo
ocasionar que los coeficientes de cada variable sean incorrectamente estimados y
tengan signos equivocados. Vemoslo con un ejemplo, cuyos datos se recogen en
el cuadro 6.
Cuadro 6. Ejemplo de multicolinealidad
Si estimamos las rectas de regresin, estimando por separado A y B como variables
independientes, llegaramos a la siguiente solucin:
D = -5 + 1,5 A
D = 30 - 2,0 B
donde es evidente que la relacin entre A y D es positiva, y entre B y D negativa.
Cuando estimamos la recta de regresin introduciendo simultneamente A y B, el
resultado es el siguiente:
D = 50 -1,0A - 3,0B
donde parece ahora que la relacin entre A y D es negativa cuando, de hecho,
sabemos que no es as. Luego vemos que los efectos de la multicolinealidad pueden
18
ser importantes. Veremos a continuacin los mecanismos para detectar la
existencia de multicolinealidad y para determinar en qu medida est afectando a
los coeficientes. De ser esta influencia importante, veremos distintos mecanismos
de correccin.
Dos de las medidas ms habituales para establecer la existencia de
multicolinealidad, son los llamados valor de tolerancia y su inversa, el factor de
inflacin de varianza (FIV). Estos factores nos indican en qu medida una
variable independiente est explicada por otras variables independientes, en
trminos ms sencillos, cada variable independiente es considerada como
dependiente y regresada contra el resto de independientes. La tolerancia es la
cantidad de variacin de la variable independiente seleccionadas que no es
explicada por el resto de variables indepen- 23 dientes. Por lo tanto, valores muy
pequeos de tolerancia (y por lo tanto grandes de FIV) denotan una alta
colinealidad. Un punto de corte bastante comn es 0,10, que corresponde a valores
de FIV superiores a 10. Este valor se da cuando el coeficiente de determinacin de
la regresin sealada es de 0,95.
En el caso en que la multicolinealidad sea muy elevada, se proponen normalmente
las siguientes soluciones:
1. Eliminar una o ms de las variables que estn altamente correladas e
identificar otras posibles variables independientes para ayudar en la
prediccin.
2. Utilizar el modelo con todas las variables slo con fines predictivos y no
intentar en ningn momento interpretar los coeficientes de regresin.
3. Utilizar los coeficientes de correlacin simples entre la variable dependiente
y las independientes para entender la relacin entre ambas variables.
4. Recurrir a procedimientos ms sofisticados de anlisis de regresin, como la
bayesiana o la regresin en componentes principales que, evidentemente, se
alejan del objetivo de este curso.
En el cuadro 3 aparecen, para nuestra base de datos de ejemplo, los estadsticos de
tolerancia y FIV de la regresin realizada. Puede comprobarse que los niveles de
tolerancia son muy altos (0,937 para X5, 0,993 para X3 y 0,940 para X6) y, en
todo caso, superiores al nivel de corte clsico de 0,1. Por ello, la interpretacin que
hemos realizado de los coeficientes de la regresin, no se ve afectada por la
multicolinealidad.
Paso 6. Validacin de los resultados
Una vez estimado y analizado un modelo, el paso siguiente es establecer su
generalizabilidad, esto es, que represente realmente al conjunto de la poblacin y
19
no slo a la muestra que lo ha generado. La mejor forma de hacerlo sera ver en
qu medida los resultados se compadecen con modelos tericos previos o trabajos
ya validados sobre el mismo tema. Sin embargo, en muchos casos estos resultados
o teora previos no existen y es necesario recurrir a otros procedimientos empricos
de validacin.
El procedimiento ms indicado para la validacin emprica de los resultados de una
regresin, pasa por volver a estimar el modelo en una nueva muestra extrada 24
de la poblacin. Una nueva muestra asegurar la representatividad de los
resultados y puede emplearse de diversas maneras. El modelo estimado sobre la
muestra anterior puede predecir valores de la nueva muestra y, de esta manera,
establecer alguna medida de los aciertos. Otra alternativa es estimar un nuevo
modelo sobre la nueva muestra y luego comparar las dos ecuaciones sobre
caractersticas tales como: variables incluidas, signo, importancia relativa de las
variables y poder predictivo.
La mayora de las veces, sin embargo, la posibilidad de recoger nuevos datos est
limitada por factores como el coste, limitaciones de tiempo o disponibilidad de los
encuestados. En este caso, el investigador puede dividir su muestra en dos partes:
una submuestra para estimar el modelo y una submuestra de validacin usada para
evaluar la ecuacin. Existen muchos procedimientos para dividir la muestra, ya
sean sistemticos o aleatorios y cada programa estadstico tiene los suyos.
Cuadro 7. Resultados de las regresiones sobre las muestras divididas
20
Comparando los resultados de la dos regresiones efectuadas sobre la muestra
dividida, con la muestra total, se observa que el ajuste de los modelos es muy
similar, ya se mida por la R2 como por la R2 ajustada que corrige por el tamao de
la muestra. La nica diferencia relevante, es que en la primera regresin con la
muestra dividida, la variable X6 no entra en la ecuacin, lo que confirma la
impresin que ya obtuvimos de que era un regresor poco influyente, como pudimos
comprobar al analizar su coeficiente beta (0,120) muy inferior al de las otras dos
variables. Los coeficientes de las otras dos variables en la muestra 1 o de las tres
variables en la muestra 2, no varan radicalmente mantenindose, adems, la
importancia relativa entre ellos.