Tema 1.1 - Incumplimiento de Hipótesis Básicas Del Modelo de Regresión Con R
Tema 1.1 - Incumplimiento de Hipótesis Básicas Del Modelo de Regresión Con R
Tema 1.1 - Incumplimiento de Hipótesis Básicas Del Modelo de Regresión Con R
PID_00211047
Ninguna parte de esta publicación, incluido el diseño general y la cubierta,
puede ser copiada, reproducida, almacenada o transmitida de ninguna forma, ni
por ningún medio, sea este eléctrico, químico, mecánico, óptico, grabación,
fotocopia, o cualquier otro, sin la previa autorización escrita de los titulares del
copyright.
c FUOC • PID_00211047 Incumplimiento de las hipótesis básicas del modelo de regresión con R
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Heteroscedasticidad y autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1. Definición teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Ejemplo práctico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Estimación eficiente de la MVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3. Errores en la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2. Observaciones atípicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4. Permanencia estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
c FUOC • PID_00211047 5 Incumplimiento de las hipótesis básicas del modelo de regresión con R
Introducción
Objetivos
8. Dominar las herramientas que permiten detectar una posible rotura de la perma-
nencia estructural, así como poder efectuar estimaciones más adecuadas partiendo
la muestra en diferentes partes.
c FUOC • PID_00211047 7 Incumplimiento de las hipótesis básicas del modelo de regresión con R
Hay un aspecto muy importante del estimador MCO que hay que tener en cuenta. Por Errores y residuos
ê = Y − X β̂,
β̂ = (X 0 X)−1 X 0 Y
= (X 0 X)−1 X 0 (Xβ + e)
= (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 e
= β + (X 0 X)−1 X 0 e
c FUOC • PID_00211047 8 Incumplimiento de las hipótesis básicas del modelo de regresión con R
El concepto de consistencia hace referencia a la convergencia en probabilidad del Según la teoría asintótica, podemos
entender el concepto de convergencia en
estimador con los verdaderos parámetros del modelo de regresión, a medida que el ta- probabilidad como el límite que alcanza
una determinada secuencia de valores a
maño muestral n tiende a infinito. Siguiendo esta definición, diremos que el estimador medida que incrementa el conjunto de
información.
β̂ es consistente si se cumple que plimn→∞ (β̂) = β, es decir, si el estimador converge
en probabilidad con el verdadero parámetro del modelo.
X0e
!
plimn→∞ =0
n
X 0 X −1 X 0 e
! !
plimn→∞ (β̂) = β + plimn→∞
n n
!−1
X0 X X0e
!
= β + plimn→∞ plimn→∞
n n
=β
1.3. Eficiencia
yi = xi0 β + ei
E(ei |xi ) = 0
yi = α + βxi∗ + ei
E(ei |xi∗ ) = 0
E(e2i |xi∗ ) = σ2
Si dispusiéramos de datos para las variables (yi , xi∗ ), y suponiendo que se cumplieran
los dos supuestos del modelo, la estimación MCO sería (1) insesgada, (2) consistente
c FUOC • PID_00211047 10 Incumplimiento de las hipótesis básicas del modelo de regresión con R
xi = xi∗ + vi
Supongamos, además, que el error de medida vi es una variable aleatoria, con media
cero y varianza constante, no correlacionada ni con el error de la regresión ni con la
auténtica variable que no podemos observar xi∗ :
E(vi ) = 0,
E(v2i ) = σ2v ,
E(vi ei ) = 0,
E(vi |xi∗ ) = 0.
En este caso, ¿cómo afecta este error de medida en la estimación? Bien, introduzcamos
el error de medida en el modelo de regresión lineal:
yi = α + β(xi − vi ) + ei
= α + βxi − βvi + ei
= α + βxi + ui ,
ui = ei − βvi
Introduciendo el error de medida en el modelo, vemos que el error del modelo pasa a
ser ui = ei − βvi . Con este error, comprobamos que la condición de ortogonalidad no
se cumple:
= −β Cov(vi , vi ) = −βσ2v
Esto implica que la estimación por MCO sea sesgada e inconsistente. El estimador
MCO se puede expresar de la siguiente manera:
Cov(xi , ui ) −βσ2
=β+ =β+ 2 v 2
Var(xi ) σ x∗ + σv
σ2x∗
!
=β
σ2x∗ + σ2v
1.4.2. Endogeneidad
yt = βxt + γyt−1 + et
Este tipo de modelos siempre será sesgado, es decir, tendremos sesgo por endoge-
neidad. Ahora bien, dependiendo de cuál sea la estructura del error, las propiedades
asintóticas del error serán unas u otras. Supongamos que el modelo es esférico, de
manera que el error se caracteriza por:
et ∼ iid(0, σ2 In )
!−1
X0 X X0e
!
plimn→∞ (β̂) = β + plimn→∞ plimn→∞ =β
n n
Ahora bien, supongamos que el término de error está correlacionado, y sigue una
estructura autorregresiva, con lo que el error ya no es esférico:
et =ρ et−1 + ut ,
ut ∼ iid(0, σ2u In )
plimn→∞ (β̂) , β
c FUOC • PID_00211047 13 Incumplimiento de las hipótesis básicas del modelo de regresión con R
2. Heteroscedasticidad y autocorrelación .
En primer lugar, definamos la matriz de varianzas y covarianzas del error del modelo
de regresión:
σ1 σ12 σ1n
2
···
σ21 σ22 σ2n
···
MVC(e) = E(ee ) =
0
.. .. .. ..
. . . .
σn1 σn2 σ2n
···
n×n
Los elementos de la diagonal son las varianzas de los errores, y fuera de la diagonal
están situadas las covarianzas. Aquí nos podemos encontrar ante varias situaciones:
MVC(e) = E(ee0 ) = σ2 In
Ct = β0 + β1 Rt + et
Una vez importados los datos, un buen inicio es una representación gráfica de los da-
tos, lo que es inmediato si solo hay un regresor. Mediante la siguiente ruta, obtenemos
un diagrama de dispersión de las variables explicativa y explicada:
10000
8000
6000
consumo
4000
2000
0
renta
La interpretación de este gráfico es muy intuitiva. Para niveles bajos de renta, los
niveles de consumo varían poco en el eje de ordenadas (y). Sin embargo, a medida
que aumentan los niveles de renta, se observa una variabilidad superior de la variable
explicativa. Esto es un signo de la existencia de heteroscedasticidad, cuya existencia
ha de ser validadada estadísticamente mediante los contrastes correspondientes.
Call:
lm( formula = consumo ~ renta , data = Datos)
Residuals :
Min 1Q Median 3Q Max
-5475.7 -560.9 96.0 513.0 5082.2
Coefficients :
Estimate Std. Error t value Pr ( > t )
( Intercept ) 920.372 76.855 11.97 <2e -16 ***
renta 5.250 0.133 39.47 <2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
H0 : σ2t = σ2
H1 : σ2t , σ2
Aparecerá el siguiente cuadro de diálogo, en el que tendremos que introducir los valo-
res del contraste. Es decir, tenemos la posibilidad de introducir la forma funcional de
la varianza, en caso de conocerla. En nuestro caso, aceptaremos la opción por defecto,
que adquiere los valores ajustados de la regresión como fórmula para la varianza:
c FUOC • PID_00211047 17 Incumplimiento de las hipótesis básicas del modelo de regresión con R
El resultado del test nos indica que caemos en la región de rechazo de la hipótesis
nula, de manera que determinamos que existe heteroscedasticidad en nuesto modelo.
Aparecerá el siguiente cuadro de diálogo, donde tenemos que indicar la hipótesis al-
ternativa. Si tenemos información previa de que el verdadero valor del parámetro ρ es
positivo, seleccionaremos H1 : ρ > 0, y lo correspondiente para un valor negativo de ρ.
Si no tenemos información previa sobre este parámetro, seleccionaremos H1 : ρ , 0:
c FUOC • PID_00211047 18 Incumplimiento de las hipótesis básicas del modelo de regresión con R
El resultado del test nos indica claramente, para cualquier nivel de confianza, que
rechazamos la hipótesis nula, es decir, existe autocorrelación en el modelo.
En esta sección nos encargamos de cómo realizar una estimación eficiente en presencia
de autocorrelación y/o heteroscedasticidad. White (1980) argumentó que no siempre
es posible conocer la estructura de los errores y valorar el modelo mediante MCG.
Cuando eso sucede, en el caso de estar ante un modelo heteroscedástico, la mejor
opción es valorar los parámetros del modelo mediante MCO e intentar obtener una
estimación robusta de la matriz de varianzas y covarianzas de los parámetros mediante
la fórmula:
n
X
MVC(β̂ MCO ) = n(X 0 X)−1 n−1 ê2i xi xi0 (X 0 X)−1
i=1
Para ilustrarlo con un ejemplo, generaremos con R unos datos ficticios que generen
un modelo heteroscedástico y autocorrelacionado. Antes de nada, cargaremos tres li-
brerías que nos serán de ayuda:
yt = α + βxt + ut , t = 1, . . . , T.
Simularemos los datos, de manera que los parámetros poblacionales son α = 100 y
β = 5. Además, fijamos el tamaño muestral como T = 1000. El modelo se construye
de manera que el término de error no es esférico, ya que va a estar autocorrelacionado
y va a ser heteroscedástico:
ut =ρut−1 + εt
εt ∼N(0, γt)
Vamos a visualizar las variables creadas para ver cómo se relacionan entre ellas. Este
gráfico ya nos debe dar la impresión de que la varianza no se comporta aleatoriamente.
2000
0 −2000
MVC(u) = E(uu0 ) = σ2 IT
En nuestro caso, vemos que esto no se cumple. Vamos a valorar primero el estimador
MCO y ver cómo se comporta:
Call:
lm( formula = y ~ x)
Residuals :
Min 1Q Median 3Q Max
-5740.7 -964.1 157.1 724.6 6262.2
Coefficients :
Estimate Std. Error t value Pr ( > t )
( Intercept ) -345.0854 119.8442 -2.879 0.00407 **
x 5.3828 0.2074 25.951 < 2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
2.5 % 97.5 %
( Intercept ) -580.260897 -109.909888
x 4.975785 5.789846
Vamos a representar visualmente la recta estimada (α̂ y β̂) sobre el diagrama de dis-
persión de los puntos:
2000
0 −2000
x
c FUOC • PID_00211047 22 Incumplimiento de las hipótesis básicas del modelo de regresión con R
β̂ MCO = (X 0 X)−1 X 0 Y
Sin embargo, hemos visto que la MVC del término de perturbación es, realmente:
σ1 σ12 σ1T
2
···
σ21 σ22 σ2T
···
MVC(u) = E(uu ) = Ω =
0
.. .. .. ..
. . . .
σT 1 σT 2 σ2T
···
T ×T
0.950404
Coefficients :
Value Std.Error t-value p-value
( Intercept ) -455.9404 753.9217 -0.604758 0.5455
x 5.7711 1.2923 4.465694 0.0000
Correlation :
(Intr)
x -0.858
Standardized residuals :
Min Q1 Med Q3 Max
-2.96297027 -0.53634973 0.07080453 0.37691878 3.00744997
La función plot aplicada al modelo estimado por MCG nos muestra el gráfico de los
residuos:
> plot(gls_1)
2
Standardized residuals
−1
−2
−3
Fitted values
c FUOC • PID_00211047 24 Incumplimiento de las hipótesis básicas del modelo de regresión con R
Y ahora estimamos de nuevo el modelo mediante MCG, asumiendo esta vez tanto
autocorrelación como heteroscedasticidad:
Coefficients :
Value Std.Error t-value p-value
( Intercept ) 104.94599 37.42416 2.804231 0.0051
x 4.46403 0.53408 8.358306 0.0000
Correlation :
(Intr)
x -0.293
Standardized residuals :
Min Q1 Med Q3 Max
-2.74838335 -0.69033419 -0.05426096 0.70224709 2.73602972
De nuevo, la función plot aplicada al modelo estimado por MCG nos muestra el
gráfico de los residuos:
> plot(gls_2)
2
Standardized residuals
−1
−2
−3
Fitted values
Es relevante recordar que White (1980) argumentó que no siempre es posible conocer
la estructura de los errores y valorar el modelo mediante MCG. Cuando eso sucede,
en el caso de estar ante un modelo heteroscedástico, la mejor opción es estimar los
parámetros del modelo mediante MCO e intentar obtener una estimación robusta de
la matriz de varianzas y covarianzas de los parámetros mediante la fórmula:
n
X
MVC(β̂ MCO ) = n(X 0 X)−1 n−1 û2i xi xi0 (X 0 X)−1
i=1
En este sentido, hay muchas maneras de calcular eficientemente Ω̂. El programa R nos
ofrece dos de ellas:
t test of coefficients :
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
t test of coefficients :
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
t test of coefficients :
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Como vemos, el hecho de estimar la verdadera matriz MVC revela que las varianzas
reales son en realidad mayores que las estimadas por MCO y, consecuentemente, los
intervalos de confianza para β̂ son también mayores.
c FUOC • PID_00211047 27 Incumplimiento de las hipótesis básicas del modelo de regresión con R
3. Errores en la muestra .
3.1. Multicolinealidad
Si visualizamos los datos importados, observamos que están incluidas las siguientes
variables:
Seleccionamos el nombre del modelo estimado y las variables que se deben incluir en
la estimación en el siguiente cuadro de diálogo:
c FUOC • PID_00211047 29 Incumplimiento de las hipótesis básicas del modelo de regresión con R
Demografia )
Call:
data = Demografia )
Residuals :
Coefficients :
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
¿Qué podemos destacar de esta matriz de correlaciones? La correlación lineal entre las
variables POB (población) y TRAB (trabajadores) es de 0,98, es decir, es una corre-
lación lineal positiva casi perfecta. Realmente, ¿es necesario incorporar en el modelo
que estimar dos variables que aportan casi la misma información? Esto no solo tiene
consecuencias negativas en cuanto al proceso de estimación, sino que puede llevar a
estimaciones erróneas de los coeficientes.
El resultado muestra claramente cómo todas las variables tienen un FIV bajo menos
dos: POB y TRAB. Para estas dos variables el valor del FIV es altísimo, con lo que
una de las dos ha de ser eliminada de la especificación del modelo.
El resultado del segundo modelo estimado nos muestra una contradicción respecto a
la primera estimación. El coeficiente asociado a la variable POB ahora no es signifi-
cativo, mientras que en el modelo estimado anteriormente sí lo era. ¿Qué nos indica
esto? Pues que no hay que confiar en las estimaciones de parámetros en presencia
de multicolinealidad.
c FUOC • PID_00211047 32 Incumplimiento de las hipótesis básicas del modelo de regresión con R
Demografia )
Call:
Demografia )
Residuals :
Coefficients :
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Claramente, todos los valores son menores que 5, con lo que hemos resuelto el pro-
blema de multicolinealidad.
c FUOC • PID_00211047 33 Incumplimiento de las hipótesis básicas del modelo de regresión con R
1) Hay errores en la recogida de la muestra, de manera que hay valores erróneos que
no se corresponden con la realidad.
POBi = β0 + β1 MIGi + ei
Call:
lm( formula = POB ~ MIG , data = Demografia )
Residuals :
Min 1Q Median 3Q Max
-31.31 -8.01 -3.91 -0.86 1607.93
Coefficients :
Estimate Std. Error t value Pr ( > t )
( Intercept ) -0.3875 3.1626 -0.123 0.9025
MIG 0.7979 0.2474 3.226 0.0013 **
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
¿Es posible que exista algún outlier en las variables? Veamos los gráficos de diagnós-
tico de la estimación efectuada: lm(TRAB ~ MIG)
19 19
25
600
Residuals
15
0 200
101
905
101
905
0
0 2 4 6 8 10 12 14 −3 −2 −1 0 1 2 3
Standardized residuals
19
5
25
4
3
15
2
101
905 1
0.5
0 5
1
101905
Cook’s distance
0
la medición de esta observación no es errónea, ya que es lógico que este valor sea tan
alto comparado con el resto de las observaciones.
El resultado muestra dos valores atípicos, el más destacado de los cuales es la obser-
vación 19, correspondiente a Barcelona.
19
80
60
Studentized Residuals
40
20
101
624 353
0
Hat−Values
c FUOC • PID_00211047 36 Incumplimiento de las hipótesis básicas del modelo de regresión con R
El segundo aparece en la consola. Nos muestra una lista de posibles outliers, mostrán-
dose además la distancia de Cook (CookD). Esta medida permite detectar la extrañeza
de una observación, sirviendo para detectar aquellas observaciones que tienen un efec-
to mayor en el ajuste que el resto, y que pueden hacer cambiar los valores estimados
por los parámetros del modelo de una manera sustancial.
> influencePlot ( RegModel .3, id. method =" noteworthy ", id.n=2)
StudRes Hat CookD
19 83.0487509 0.002045796 0.92045949
101 4.3222485 0.004034997 0.19272734
353 -0.5104403 0.033011959 0.06671540
624 -0.5668982 0.027758536 0.06775765
Según esta medida, el principal outlier sigue siendo la observación 19. ¿Cuál puede
ser la solución a la presencia de esta observación tan particular? Excluirla del modelo
estimado podría ser una solución, pero la observación no es errónea, y obviarla signi-
fica no considerar la principal ciudad de Cataluña en un estudio sobre este territorio.
No parece, pues, una solución recomendable. Una solución alternativa es cambiar la
forma funcional de la especificación, que puede pasar por transformar alguna variable.
Vamos a optar por expresar la variable dependiente en logaritmos, esto es:
log(POB)i = β0 + β1 MIGi + ei
El resultado muestra una mejora significativa del ajuste del modelo y de la significa-
ción individual de los coeficientes respecto al modelo anterior.
Call:
lm( formula = log(POB) ~ MIG , data = Demografia )
Residuals :
Min 1Q Median 3Q Max
-3.3525 -1.1869 -0.2454 0.9859 6.5293
Coefficients :
Estimate Std. Error t value Pr ( > t )
( Intercept ) -0.729731 0.087897 -8.302 3.54e -16 ***
MIG 0.090751 0.006875 13.200 < 2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
4. Permanencia estructural .
Este problema surge cuando se rompe una de las hipótesis básicas del modelo de re-
gresión estándar, que es la hipótesis de permanencia estructural. El problema surge
cuando, en una serie temporal, en un punto del tiempo cambia la relación entre la va-
riable dependiente y uno de los regresores. Para estudiar este problema con un ejemplo
sencillo, analizaremos el efecto del tiempo sobre la evolución del precio de un activo
financiero ficticio, que denominaremos y. Es decir, estudiaremos el siguiente modelo:
yt = β0 + β1 t + et
Call:
lm( formula = y ~ tiempo , data = Finanzas )
Residuals :
Min 1Q Median 3Q Max
-123.724 -46.900 -2.406 44.058 150.465
Coefficients :
Estimate Std. Error t value Pr ( > t )
( Intercept ) 24.443812 3.499777 6.984 5.22e -12 ***
tiempo 0.374961 0.006057 61.903 < 2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Como vemos, es un ajuste bastante bueno, y tanto los coeficientes valorados como
el modelo estimado global son significativos estadísticamente. Esta estimación da un
coeficiente hatβ1 = 0, 37. ¿Hasta qué punto es esta estimación correcta? Para enten-
der mejor el concepto de permanencia estructural, veamos en un plano cartesiano el
diagrama de dispersión de las dos variables: el tiempo en el eje horizontal y el precio
del activo financiero en el eje vertical. Este gráfico se obtiene acudiendo a la opción
Gráficas del menú desplegable.
999
995
500
400
y
300
200
100
tiempo
c FUOC • PID_00211047 40 Incumplimiento de las hipótesis básicas del modelo de regresión con R
En este gráfico también aparece la recta estimada en el modelo (24, 44 + 0, 37t), que es
la misma para todos los puntos. Sin embargo, vemos cómo la relación funcional entre
ambas variables cambia sobre el punto t = 600. Vemos que antes y después la pen-
diente cambia de manera significativa, como lo muestra la recta curva que resigue las
observaciones. Así pues, parece razonable estimar dos modelos, partiendo la muestra
en dos partes, con coeficientes estimados diferentes.
Una vez instalada esta librería, hay que cargarla. Esto lo haremos acudiendo a la ruta
del menú desplegable:
10000
5000
0
Time
¿Qué nos dice este gráfico? Pues que el valor del estadístico F alcanza su máximo
aproximadamente el en 60 % de la muestra, que coincide con el punto t = 600. Nuestra
estrategia será estimar dos modelos, uno con la submuestra t = 1, . . . , 600 y otro con
la submuestra t = 601, . . . , 1000. Para hacerlo, en el cuadro de diálogo del modelo
lineal introduciremos, en la opción Expresión de la selección, la submuestra para la
que queremos estimar el modelo.
Call:
Residuals :
Coefficients :
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
=601:1000)
Call:
Residuals :
Coefficients :
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Bibliografía
Artís Ortuño, M.; del Barrio Castro, T.; Clar López, M.; Guillén Estany, M.; Su-
riñach Caralt, J. (2011). Econometría. Barcelona. Material didáctico UOC.
Liviano Solís, D.; Pujol Jover, M. (2013). Matemáticas y Estadística con R. Barce-
lona. Material didáctico UOC.