Tema 1.1 - Incumplimiento de Hipótesis Básicas Del Modelo de Regresión Con R

Incumplimiento de
las hipótesis básicas

del modelo de
regresión con R
Daniel Liviano Solís
Maria Pujol Jover
PID_00211047
Ninguna parte de esta publicación, incluido el diseño general y la cubierta,
puede ser copiada, reproducida, almacenada o transmitida de ninguna forma, ni
por ningún medio, sea este eléctrico, químico, mecánico, óptico, grabación,
fotocopia, o cualquier otro, sin la previa autorización escrita de los titulares del
copyright.
c FUOC • PID_00211047 Incumplimiento de las hipótesis básicas del modelo de regresión con R
Índice
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1. Propiedades de la estimación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1. Estimador MCO y la condición de ortogonalidad . . . . . . . . . . . . . . . . . . . 7
1.2. Sesgo y consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Eficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Causas del sesgo y de la inconsistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1. Errores de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.2. Endogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. Heteroscedasticidad y autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1. Definición teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Ejemplo práctico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3. Estimación eficiente de la MVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3. Errores en la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2. Observaciones atípicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4. Permanencia estructural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
c FUOC • PID_00211047 5 Incumplimiento de las hipótesis básicas del modelo de regresión con R
Introducción
En el primer módulo hemos estudiado cómo implementar el estimador de Mínimos

Cuadrados Ordinarios (MCO) para obtener una estimación de los parámetros de un
modelo de regresión. El estimador MCO es la manera más simple y directa de obtener
una estimación, pero para que esta sea válida es necesario que se cumplan una serie
de requisitos (o restricciones) en los datos y en el modelo construido. Desafortuna-
damente, muy a menudo estos requisitos no se cumplen, de modo que es necesario
acudir a otras técnicas para obtener una estimación fiable.
El primer capítulo de este módulo es un repaso teórico de las propiedades de la esti-

mación de un modelo econométrico: ortogonalidad, sesgo, consistencia y eficiencia.
El segundo capítulo se encarga del problema de la eficiencia de una estimación, esto
es, su varianza. De esta manera, se introducen las definiciones de heteroscedasticidad
y autocorrelación, fenómenos que hacen que la matriz de varianzas y covarianzas de la
estimación no sea esférica. Además, con un ejemplo se estudia cómo detectar y corre-
gir estos fenómenos con R y con R-Commander. El tercer capítulo analiza el fenómeno
de errores en la muestra. La primera parte estudia la multicolinealidad, fenómeno que
aparece cuando entre los regresores hay variables altamente correlacionadas entre sí,
lo que dificulta la estimación y muestra resultados erróneos. La segunda parte analiza
qué sucede cuando hay observaciones atípicas, esto es, muy alejadas del resto de las
observaciones. Por último, el cuarto capítulo está dedicado al análisis de la permanen-
cia estructural, es decir, si una misma estimación es válida para todos los datos de la
muestra o, por el contrario, hay que dividir la muestra en varios fragmentos, ya que
entre estos se detecta una relación funcional distinta.
Objetivos
1. Comprender todas las características de un modelo de regresión lineal, así como

las propiedades de la estimación por mínimos cuadrados ordinarios (MCO) del
mismo.
2. Entender cuál es la condición de ortogonalidad, y por qué es fundamental para el

resultado de la estimación.
3. Saber diferenciar y explicar las propiedades sesgo, consistencia y eficiencia de una

estimación econométrica.
4. Estudiar las propiedades de la estimación de la varianza de un modelo, esto es, la

esfericidad de la matriz de varianzas y covarianzas.
5. Saber relacionar la no esfericidad de la matriz de varianzas y covarianzas con los

problemas de heteroscedasticidad y autocorrelación.
6. Poder identificar la presencia de multicolinealidad entre los regresores de un mo-

delo de regresión, además de dominar las técnicas pertinentes para solucionarlo.
7. Ser capaz de detectar la presencia de observaciones atípicas o outliers, y poder

tenerlo en cuenta a la hora de efectuar la estimación econométrica.
8. Dominar las herramientas que permiten detectar una posible rotura de la perma-
nencia estructural, así como poder efectuar estimaciones más adecuadas partiendo
la muestra en diferentes partes.
1. Propiedades de la estimación del modelo .
1.1. Estimador MCO y la condición de ortogonalidad
Hay un aspecto muy importante del estimador MCO que hay que tener en cuenta. Por Errores y residuos
construcción, el estimador MCO garantiza la condición de ortogonalidad. Dicho de

Es muy importante tener
otra manera, una vez obtenemos los residuos de la estimación del modelo de regresión presente la diferencia entre los
errores del modelo de regresión
ei y los residuos resultantes de la
estimación del modelo êi .
êi = yi − xi0 β̂,
siendo su expresión matricial
ê = Y − X β̂,
es imposible verificar si se cumple la condición E(X 0 e) = 0, ya que el estimador de

los parámetros hace que se cumpla que:
X 0 ê = X 0 (Y − X β̂) = X 0 Y − X 0 X(X 0 X)−1 X 0 Y = X 0 Y − X 0 Y = 0.
Con lo cual, el investigador deberá determinar si se cumple la condición de ortogona-

lidad considerando otros criterios, tema que se abordará más adelante.
1.2. Sesgo y consistencia
El estimador β̂ es un estadístico, y como tal tiene una distribución. En general, es-

ta distribución es desconocida. Si asumimos que los errores siguen una distribución
normal, podemos establecer que el estimador también sigue esa distribución.
Antes de definir el sesgo y la consistencia de un estimador, resulta útil relizar la si-

guiente descomposición del estimador MCO:
β̂ = (X 0 X)−1 X 0 Y
= (X 0 X)−1 X 0 (Xβ + e)
= (X 0 X)−1 X 0 Xβ + (X 0 X)−1 X 0 e
= β + (X 0 X)−1 X 0 e
Esta descomposición muestra cómo la distribución de β̂ está determinada únicamente

por la distrubución conjunta de (xi , ei ).
El sesgo del estimador será la esperanza matemática de la diferencia entre el valor

esperado del estimador y el parámetro del modelo, es decir, E(β̂ − β). En el momento
en el que se cumple E(β̂ − β) = 0, o bien E(β̂) = β, el estimador β̂ es insesgado.
Si tomamos la expresión del estimador que viene dada por (1,29), vemos que si se
cumple la condición E(X 0 e) = 0, es decir, si se cumple la condición de ortogonalidad,
el estimador será insesgado:
E(β̂) = β + E((X 0 X)−1 )E(X 0 e) = β
El concepto de consistencia hace referencia a la convergencia en probabilidad del Según la teoría asintótica, podemos
entender el concepto de convergencia en
estimador con los verdaderos parámetros del modelo de regresión, a medida que el ta- probabilidad como el límite que alcanza
una determinada secuencia de valores a
maño muestral n tiende a infinito. Siguiendo esta definición, diremos que el estimador medida que incrementa el conjunto de
información.
β̂ es consistente si se cumple que plimn→∞ (β̂) = β, es decir, si el estimador converge
en probabilidad con el verdadero parámetro del modelo.
plim significa límite en probabilidad. Una

Así pues, afirmamos que el estimador será consistente si el error es asintóticamente notación también usada que indica
convergecia en probabilidad de una
ortogonal a los regresores, es decir: variable con otra es β̂ −→ p β.
X0e
!
plimn→∞ =0
n
En este caso, se cumplirá que:
 X 0 X −1 X 0 e 
 ! !
plimn→∞ (β̂) = β + plimn→∞  
n n 
!−1
X0 X X0e
!
= β + plimn→∞ plimn→∞
n n
=β
Conviene recordar que, aunque un estimador sea sesgado, es decir, E(xi ei ) , 0, es

posible que asintóticamente el error sea ortogonal a los regresores, de manera que
0
plimn→∞ Xne = 0, siendo en este caso el estimador sesgado pero consistente. Ahora
bien, un estimador inconsistente siempre será sesgado.
1.3. Eficiencia
La eficiencia de un estimador es una propiedad que hace referencia a su varianza. Un

estimador será eficiente si alcanza una varianza mínima entre otros posibles estima-
dores de los parámetros del modelo. Si retomamos el modelo de regresión lineal:
yi = xi0 β + ei
E(ei |xi ) = 0
vemos cómo estamos imponiendo la condición de que la esperanza condicional del

error es nula, siendo esta varianza condicional del modelo:
E(e2i |xi ) = σ2i
En el siguiente capítulo analizamos en detalle los casos particulares en los que un

estimador no será eficiente, esto es, en presencia de heteroscedasticidad y/o autoco-
rrelación.
1.4. Causas del sesgo y de la inconsistencia
Como se demuestra en la sección anterior, el estimador MCO garantiza la ortogona-

lidad de los regresores con los residuos, de manera que E(X 0 ê) = 0, por lo que es
imposible saber a partir de dicha estimación si el error del modelo está correlacionado
con los regresores. Dicho de otra manera, el análisis de los residuos de la regresión
no contiene información sobre el sesgo y la consistencia de la estimación. En esta
sección se detallan las dos situaciones en las que no se cumplen las condiciones de
ortogonalidad: errores de medida y endogeneidad.
1.4.1. Errores de medida
Supongamos que disponemos del siguiente modelo de regresión lineal esférico, en el

que tenemos un solo regresor (la variable xi∗ ):
yi = α + βxi∗ + ei
E(ei |xi∗ ) = 0
E(e2i |xi∗ ) = σ2
Si dispusiéramos de datos para las variables (yi , xi∗ ), y suponiendo que se cumplieran
los dos supuestos del modelo, la estimación MCO sería (1) insesgada, (2) consistente
y (3) eficiente. Desafortunadamente, vamos a suponer que medimos el regresor con

error, de manera que no observamos xi∗ , sino xi :
xi = xi∗ + vi
Supongamos, además, que el error de medida vi es una variable aleatoria, con media
cero y varianza constante, no correlacionada ni con el error de la regresión ni con la
auténtica variable que no podemos observar xi∗ :
E(vi ) = 0,
E(v2i ) = σ2v ,
E(vi ei ) = 0,
E(vi |xi∗ ) = 0.
En este caso, ¿cómo afecta este error de medida en la estimación? Bien, introduzcamos
el error de medida en el modelo de regresión lineal:
yi = α + β(xi − vi ) + ei
= α + βxi − βvi + ei
= α + βxi + ui ,
ui = ei − βvi
Introduciendo el error de medida en el modelo, vemos que el error del modelo pasa a
ser ui = ei − βvi . Con este error, comprobamos que la condición de ortogonalidad no
se cumple:
E(xi ui ) = Cov(xi , ui ) = Cov(xi∗ + vi , ei − βvi )
= −β Cov(vi , vi ) = −βσ2v
Esto implica que la estimación por MCO sea sesgada e inconsistente. El estimador
MCO se puede expresar de la siguiente manera:
(1/n) ni=1 (xi − x̄)(yi − ȳ)

P Pn
i=1 (xi − x̄)(ui − ū)
β̂ MCO = = β +
(1/n) ni=1 (xi − x̄)2
P Pn 2
i=1 (xi − x̄)
A continuación, analizamos la consistencia del estimador:
plim(1/n) ni=1 (xi − x̄)(ui − ū)

P
plimn→∞ β̂ MCO =β+
plim(1/n)(xi − x̄)2
Cov(xi , ui ) −βσ2
=β+ =β+ 2 v 2
Var(xi ) σ x∗ + σv
σ2x∗
!
=β
σ2x∗ + σ2v
Como podemos observar, en este caso el error de medida provoca un sesgo en la

estimación del parámetro hacia cero, es decir, la estimación del parámetro muestra
un valor inferior al del verdadero valor. Dicho sesgo crece a medida que la varianza
del error σ2v aumenta. Además, en el caso de que tuviéramos un modelo con varios
parámetros, las estimaciones de todos ellos se verían afectadas, aun cuando el error
de medida se diera en una sola variable. Cabe añadir que si hay más de un regresor
medido con error, no se conocerá la dirección del sesgo.
1.4.2. Endogeneidad
Técnicamente, los conceptos de

Uno de los supuestos en que nos basamos a la hora de plantear un modelo de regre- exogeneidad y predeterminación no son
exactamente equivalentes, aunque
sión hace referencia a los regresores. Estos han de ser exógenos o predeterminados, nosotros usemos ambos términos de
es decir, no ha de haber ningún elemento en el modelo que los determine. Un ejem- manera indistinta.
plo de endogeneidad se da en los modelos de ecuaciones simultáneas, en los que los

regresores de una ecuación son generados en otras ecuaciones con una componente
estocástica. Otro ejemplo lo encontramos en los modelos que consideran datos tem-
porales cuando uno de los regresores es la variable endógena retardada, esto es:
yt = βxt + γyt−1 + et
Este tipo de modelos siempre será sesgado, es decir, tendremos sesgo por endoge-
neidad. Ahora bien, dependiendo de cuál sea la estructura del error, las propiedades
asintóticas del error serán unas u otras. Supongamos que el modelo es esférico, de
manera que el error se caracteriza por:
et ∼ iid(0, σ2 In )
En este caso, si analizamos la covarianza entre regresor y error, obtenemos:
Cov(yt−1 , et ) = Cov(βxt−1 + γyt−2 + et−1 , et ) = Cov(et−1 , et ) = 0

De este modo, obtenemos consistencia en el estimador:
!−1
X0 X X0e
!
plimn→∞ (β̂) = β + plimn→∞ plimn→∞ =β
n n
Ahora bien, supongamos que el término de error está correlacionado, y sigue una
estructura autorregresiva, con lo que el error ya no es esférico:
et =ρ et−1 + ut ,
ut ∼ iid(0, σ2u In )
Fijémonos en que en este caso el modelo incorpora el regresor estocástico ρ et−1 . A la

hora de analizar la covarianza entre regresor y error, obtenemos:
Cov(yt−1 , et ) = Cov(βxt−1 + γyt−2 + et−1 , ρ et + ut ) = ρ Cov(et−1 , et−1 ) = ρ σ2
En este caso, la estimación ya no es consistente, dado que
plimn→∞ (β̂) , β
2. Heteroscedasticidad y autocorrelación .
2.1. Definición teórica
En primer lugar, definamos la matriz de varianzas y covarianzas del error del modelo
de regresión:
 
 σ1 σ12 σ1n
 2 
··· 
 
 σ21 σ22 σ2n
 
···
MVC(e) = E(ee ) = 
0

 .. .. .. ..

 . . . .


 

σn1 σn2 σ2n

···
n×n
Los elementos de la diagonal son las varianzas de los errores, y fuera de la diagonal
están situadas las covarianzas. Aquí nos podemos encontrar ante varias situaciones:
• Elementos de la diagonal. El modelo de regresión lineal es homoscedástico si los

elementos de la diagonal son todos idénticos, esto es, si se cumple que σ2i = σ2 .
En este caso, la esperanza del cuadrado del error no varía a través de los elementos
muestrales. En cambio, estaremos ante un modelo de regresión lineal heterosce-
dástico si se cumple que σ2i = σ2 (xi ), es decir, si σ2i varía para cada elemento i.
• Elementos fuera de la diagonal. Si estos no son nulos, esto es, σi j , 0, ∀i , j,

el modelo de regresión está autocorrelacionado, y análogamente si son nulos, el
modelo no estará autocorrelacionado.
Partiendo de estas definiciones, decimos que estamos ante un modelo de regresión

lineal esférico (también se suele denominar un modelo de regresión lineal con una
matriz de varianzas y covarianzas esférica) si la matriz de varianzas y covarianzas es
homoscedástica y no correlacionada, de manera que podemos expresar la matriz de
varianzas y covarianzas como:
MVC(e) = E(ee0 ) = σ2 In
Siendo In la matriz identidad de dimensión n × n. En este caso, la estimación del mo-

delo por MCO es eficiente.
El hecho de estar ante un modelo de regresión lineal homoscedástico o heteroscedás-

tico tiene implicaciones a la hora de valorar tanto los parámetros del modelo como
la matriz de varianzas y covarianzas. Esto es, en presencia de heteroscedasticidad y/o
autocorrelación, tendremos un modelo de regresión lineal no esférico. En este caso,
la estimación del modelo por MCO no será eficiente, ya que no estaremos incorporan-
do la estructura del error en la estimación de los parámetros. En este caso, el Teorema
de Gauss-Markov establece que el mejor estimador lineal insesgado y de mínima va-
rianza es el de Mínimos Cuadrados Generalizados (MCG). Así, suponiendo que
la matriz de varianzas y covarianzas adquiere la forma MVC(e) = E(ee0 ) = Ω, este
estimador se define como:
β̂ MCG = (X 0 Ω−1 X)−1 X 0 Ω−1 Y
Frecuentemente no se conoce Ω, por lo que se ha de valorar (o bien directamente

o bien imponiendo una estructura). Una vez obtenemos la estimación Ω̂, podemos
calcular el estimador por Mínimos Cuadrados Generalizados Factibles (MCGF):
β̂ MCGF = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 Y
2.2. Ejemplo práctico
En esta sección realizaremos un ejercicio práctico de análisis de heteroscedasticidad y

autocorrelación con R-Commander. Para ello, analizaremos el siguiente modelo tem-
poral de consumo con datos simulados:
Ct = β0 + β1 Rt + et
Donde Ct corresponde al consumo y Rt es el nivel de renta. Los datos son temporales

y corresponden a una economía, de manera que t = 1, . . . , T .
Una vez importados los datos, un buen inicio es una representación gráfica de los da-
tos, lo que es inmediato si solo hay un regresor. Mediante la siguiente ruta, obtenemos
un diagrama de dispersión de las variables explicativa y explicada:
Gráficas / Diagrama de dispersión

Lo que resulta en el siguiente gráfico:
10000
8000
6000
consumo
4000
2000
0
0 200 400 600 800 1000
renta
La interpretación de este gráfico es muy intuitiva. Para niveles bajos de renta, los
niveles de consumo varían poco en el eje de ordenadas (y). Sin embargo, a medida
que aumentan los niveles de renta, se observa una variabilidad superior de la variable
explicativa. Esto es un signo de la existencia de heteroscedasticidad, cuya existencia
ha de ser validadada estadísticamente mediante los contrastes correspondientes.
Para realizar la estimación del modelo con R-Commander, acudiremos a la siguiente

ruta:
Estadísticos / Ajuste de modelos / Regresión lineal
Aparecerá el siguiente cuadro de diálogo, en el que introducimos la variable explica-

tiva y la explicada:
El resultado de la estimación MCO del modelo es la siguiente:
> summary ( RegModel .1)
Call:
lm( formula = consumo ~ renta , data = Datos)
Residuals :
Min 1Q Median 3Q Max
-5475.7 -560.9 96.0 513.0 5082.2
Coefficients :
Estimate Std. Error t value Pr ( > t )
( Intercept ) 920.372 76.855 11.97 <2e -16 ***
renta 5.250 0.133 39.47 <2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 1214 on 998 degrees of freedom

Multiple R- squared : 0.6095 , Adjusted R- squared : 0.6091
F- statistic : 1558 on 1 and 998 DF , p-value: < 2.2e -16
Para la detección de la posible heteroscedasticidad, un test adecuado es el de Breusch-

Pagan. Este test, válido cuando se dispone de muestras suficientemente grandes, pre-
supone que es posible expresar la varianza del término de perturbación como una com-
binación lineal de un número determinado (p) de variables explicativas. El contraste
se plantea de la siguiente manera:
H0 : σ2t = σ2
H1 : σ2t , σ2
Es decir, bajo la hipótesis alternativa, la varianza no es constante, sino que depende de

alguna variable. Con R-Commander, este test se realiza accediendo a la siguiente ruta:
Diagnósticos numéricos / Test de Breusch-Pagan para heteroscedasticidad
Aparecerá el siguiente cuadro de diálogo, en el que tendremos que introducir los valo-
res del contraste. Es decir, tenemos la posibilidad de introducir la forma funcional de
la varianza, en caso de conocerla. En nuestro caso, aceptaremos la opción por defecto,
que adquiere los valores ajustados de la regresión como fórmula para la varianza:
El resultado del test nos indica que caemos en la región de rechazo de la hipótesis
nula, de manera que determinamos que existe heteroscedasticidad en nuesto modelo.
> bptest ( consumo ~ renta , varformula = ~ fitted . values ( RegModel

.1) , studentize =FALSE , data=Datos)
Breusch - Pagan test
data: consumo ~ renta

BP = 351.9272 , df = 1, p-value < 2.2e -16
El segundo problema que hay que analizar es la posible existencia de autocorrelación

en el modelo. Para esto realizaremos el contraste de Durbin-Watson. Este test permite
contrastar si el término de perturbación está autocorrelacionado según un esquema
AR(1), es decir, la hipótesis nula indica que si el término de perturbación es de la
forma et = ρet−1 + εt . Específicamente, el contraste se define del siguiente modo:
H0 : et ∼ AR(1) con ρ=0
H1 : et ∼ AR(1) con ρ≷0
Con R-Commander, este test se realiza accediendo a la siguiente ruta:
Diagnósticos numéricos / Test de Durbin-Watson para autocorrelación
Aparecerá el siguiente cuadro de diálogo, donde tenemos que indicar la hipótesis al-
ternativa. Si tenemos información previa de que el verdadero valor del parámetro ρ es
positivo, seleccionaremos H1 : ρ > 0, y lo correspondiente para un valor negativo de ρ.
Si no tenemos información previa sobre este parámetro, seleccionaremos H1 : ρ , 0:
El resultado del test nos indica claramente, para cualquier nivel de confianza, que
rechazamos la hipótesis nula, es decir, existe autocorrelación en el modelo.
> dwtest ( consumo ~ renta , alternative ="two.sided", data=Datos)
Durbin - Watson test
data: consumo ~ renta

DW = 0.4037 , p-value < 2.2e -16
alternative hypothesis : true autocorrelation is not 0
2.3. Estimación eficiente de la MVC
En esta sección nos encargamos de cómo realizar una estimación eficiente en presencia
de autocorrelación y/o heteroscedasticidad. White (1980) argumentó que no siempre
es posible conocer la estructura de los errores y valorar el modelo mediante MCG.
Cuando eso sucede, en el caso de estar ante un modelo heteroscedástico, la mejor
opción es valorar los parámetros del modelo mediante MCO e intentar obtener una
estimación robusta de la matriz de varianzas y covarianzas de los parámetros mediante
la fórmula:
n
X
MVC(β̂ MCO ) = n(X 0 X)−1 n−1 ê2i xi xi0 (X 0 X)−1
i=1
Este procedimiento se conoce con varios nombres en la literatura: Fórmula de Whi-

te, Fórmula de Eicker-White, Fórmula de Huber, Fórmula de Huber-White o Matriz
de covarianzas GMM, entre otros. Este procedimiento es problemático en muestras
pequeñas.
En este capítulo veremos cómo efectuar la estimación de un modelo ante heterosce-

dasticidad y/o autocorrelación. Como veremos, existen dos grandes aproximaciones
al respecto:
1) Estimar el modelo mediante Mínimos Cuadrados Generalizados (MCG).

2) Estimar el modelo mediante MCO y a continuación valorar eficientemente la ma-

triz de varianzas y covarianzas.
Para ilustrarlo con un ejemplo, generaremos con R unos datos ficticios que generen
un modelo heteroscedástico y autocorrelacionado. Antes de nada, cargaremos tres li-
brerías que nos serán de ayuda:
> library ( sandwich )

> library ( lmtest )
> library (nlme)
Supongamos el siguiente modelo de regresión lineal:
yt = α + βxt + ut , t = 1, . . . , T.
Simularemos los datos, de manera que los parámetros poblacionales son α = 100 y
β = 5. Además, fijamos el tamaño muestral como T = 1000. El modelo se construye
de manera que el término de error no es esférico, ya que va a estar autocorrelacionado
y va a ser heteroscedástico:
ut =ρut−1 + εt
εt ∼N(0, γt)
Fijamos los valores ρ = 0, 95 y γ = 1, 1. Con el modelo definido, lo introduccimos en

R y lo representamos gráficamente:
> T <- 1000

> alpha <- 100
> beta <- 5
> rho <- 0.95
> gamma <- 1.1
> x <- 1:T
> y0 <- alpha + beta * x
> err <- rep (0, T)
> set.seed (12)
> err [1] <- rnorm (1, 0, 1)
> set.seed (12)
> for (i in 2:T) {
+ err[i] <- err[i - 1] * rho + rnorm (1, 0, i * gamma)
+ }
> y <- y0 + err
Vamos a visualizar las variables creadas para ver cómo se relacionan entre ellas. Este
gráfico ya nos debe dar la impresión de que la varianza no se comporta aleatoriamente.
> plot(x, y, col = "blue")

8000 10000
6000
4000
y
2000
0 −2000
0 200 400 600 800 1000
Como vemos, el modelo por construcción no tiene un término de perturbación esfé-

rico. ¿Cuál es el problema de aplicar el estimador de mínimos cuadrados ordinarios
(MCO)? Bueno, para que el estimador MCO sea eficiente (mínima varianza de la es-
timación), la matriz de varianzas y covarianzas de u debe ser esférica, es decir:
1) Homoscedástica: la varianza de u no varía entre los elementos de la muestra, de

manera que σ2t = σ2 y los elementos de la diagonal de MVC(u) son idénticos.
2) No autocorrelacionada: si los elementos fuera de la diagonal no son nulos (σi j ,

0, ∀i , j), el modelo de regresión está autocorrelacionado, y viceversa.
Si a) y b) se cumplen, la matriz MVC(u) será:
MVC(u) = E(uu0 ) = σ2 IT
Siendo IT la matriz identidad de dimensión T × T .
En nuestro caso, vemos que esto no se cumple. Vamos a valorar primero el estimador
MCO y ver cómo se comporta:
> m_mco <- lm(y ~ x)

> summary (m_mco)
Call:
lm( formula = y ~ x)
Residuals :
-5740.7 -964.1 157.1 724.6 6262.2
Coefficients :
( Intercept ) -345.0854 119.8442 -2.879 0.00407 **
x 5.3828 0.2074 25.951 < 2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 1893 on 998 degrees of freedom

F- statistic : 673.5 on 1 and 998 DF , p-value: < 2.2e -16
Veamos un intervalo de confianza al 95 % para los parámetros estimados:
> confint (m_mco)
2.5 % 97.5 %
( Intercept ) -580.260897 -109.909888
x 4.975785 5.789846
Vamos a representar visualmente la recta estimada (α̂ y β̂) sobre el diagrama de dis-
persión de los puntos:
> plot(x, y, col = "blue")

> abline ( lsfit(x, y), lty = 1, lwd = 4, col = "red")
8000 10000
6000
4000
y
2000
0 −2000
0 200 400 600 800 1000
x
Este estimador se construye mediante la siguiente fórmula:
β̂ MCO = (X 0 X)−1 X 0 Y
Y calcula la varianza y covarianzas de β̂ así:
MVC(β̂) = σ̂2u (X 0 X)−1
Sin embargo, hemos visto que la MVC del término de perturbación es, realmente:
 
 σ1 σ12 σ1T
 2 
··· 
 
 σ21 σ22 σ2T
 
···
MVC(u) = E(uu ) = Ω = 
0

 .. .. .. ..

 . . . .


 

σT 1 σT 2 σ2T

···
T ×T
Con lo que, en realidad, la varianza de los parámetros es:
MVC(β) = (X 0 X)−1 X 0 ΩX(X 0 X)−1
La cuestión es, ¿cómo estimamos el modelo? Hay dos opciones. Teóricamente, si

conocemos exactamente la forma de Ω, la podemos introducir directamente en el es-
timador por Mínimos Cuadrados Generalizados (MCG):
β̂ MCG = (X 0 Ω−1 X)−1 X 0 Ω−1 Y
En R, vamos a estimar MCG sabiendo que ρ = 0, 95 y γ = 1, 1. Primero asumiendo

solo autocorrelación:
> gls_1 <- gls(y ~ x, correlation = corAR1 (rho))

> summary (gls_1)
Generalized least squares fit by REML

Model : y ~ x
Data: NULL
AIC BIC logLik
15686.43 15706.05 -7839.214
Correlation Structure : AR (1)

Formula : ~1
Parameter estimate (s):
Phi
0.950404
Coefficients :
Value Std.Error t-value p-value
( Intercept ) -455.9404 753.9217 -0.604758 0.5455
x 5.7711 1.2923 4.465694 0.0000
Correlation :
(Intr)
x -0.858
Standardized residuals :
Min Q1 Med Q3 Max
-2.96297027 -0.53634973 0.07080453 0.37691878 3.00744997
Residual standard error: 1990.35

Degrees of freedom : 1000 total; 998 residual
La función plot aplicada al modelo estimado por MCG nos muestra el gráfico de los
residuos:
> plot(gls_1)
2
Standardized residuals
−1
−2
−3
0 1000 2000 3000 4000 5000
Fitted values
Y ahora estimamos de nuevo el modelo mediante MCG, asumiendo esta vez tanto
autocorrelación como heteroscedasticidad:
> gls_2 <- gls(y ~ x, correlation = corAR1 (rho), weights =

varPower ( gamma))
> summary (gls_2)
Generalized least squares fit by REML

Model : y ~ x
Data: NULL
AIC BIC logLik
14797.58 14822.1 -7393.788
Correlation Structure : AR (1)

Formula : ~1
Parameter estimate (s):
Phi
0.9353005
Variance function :
Structure : Power of variance covariate
Formula : ~ fitted (.)
Parameter estimates :
power
1.183458
Coefficients :
Value Std.Error t-value p-value
( Intercept ) 104.94599 37.42416 2.804231 0.0051
x 4.46403 0.53408 8.358306 0.0000
Correlation :
(Intr)
x -0.293
Standardized residuals :
Min Q1 Med Q3 Max
-2.74838335 -0.69033419 -0.05426096 0.70224709 2.73602972
Residual standard error: 0.1528423

Degrees of freedom : 1000 total; 998 residual
De nuevo, la función plot aplicada al modelo estimado por MCG nos muestra el
gráfico de los residuos:
> plot(gls_2)
2
−1
−2
−3
0 1000 2000 3000 4000
Fitted values
Es relevante recordar que White (1980) argumentó que no siempre es posible conocer
la estructura de los errores y valorar el modelo mediante MCG. Cuando eso sucede,
en el caso de estar ante un modelo heteroscedástico, la mejor opción es estimar los
parámetros del modelo mediante MCO e intentar obtener una estimación robusta de
la matriz de varianzas y covarianzas de los parámetros mediante la fórmula:
n
X
MVC(β̂ MCO ) = n(X 0 X)−1 n−1 û2i xi xi0 (X 0 X)−1
i=1
En este sentido, hay muchas maneras de calcular eficientemente Ω̂. El programa R nos
ofrece dos de ellas:
1) HC : Heteroskedasticity Consistent matrix.
2) HAC : Heteroskedasticity and Autocorrelation Consistent matrix.
Entonces, a partir de MCO, calculamos Ω̂ de ambas maneras y así recalculamos las

varianzas (y los contrastes de significación asociados) de los coeficientes:
> coeftest (m_mco)
t test of coefficients :
( Intercept ) -345.08539 119.84419 -2.8795 0.004069 **
x 5.38282 0.20742 25.9512 < 2.2e -16 ***

---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
> coeftest (m_mco , vcovHC (m_mco))
( Intercept ) -345.08539 72.74869 -4.7435 2.406e -06 ***
x 5.38282 0.22307 24.1310 < 2.2e -16 ***

---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
> coeftest (m_mco , vcovHAC (m_mco))
( Intercept ) -345.08539 302.01809 -1.1426 0.2535
x 5.38282 0.75061 7.1712 1.446e -12 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Como vemos, el hecho de estimar la verdadera matriz MVC revela que las varianzas
reales son en realidad mayores que las estimadas por MCO y, consecuentemente, los
intervalos de confianza para β̂ son también mayores.
3. Errores en la muestra .
3.1. Multicolinealidad
La multicolinealidad aparece cuando dos o más variables explicativas en un modelo

de regresión múltiple están altamente correlacionadas. De manera alternativa, se pue-
de afirmar que, en presencia de multicolinealidad, una variable explicativa se puede
predecir linealmente a partir de otras variables explicativas.
La multicolinealidad implica que las estimaciones de los coeficientes de la regresión

múltiple pueden cambiar de forma errática ante pequeños cambios en la especificación
del modelo o cambios en los datos. Además, un alto grado de multicolinealidad puede
causar problemas a la hora de calcular la matriz inversa de X 0 X, necesaria para el
cálculo de los coeficientes de regresión.
Recordemos que existen tres grados de multicolinealidad:
1) Ausencia total de multicolinealidad. Sucede cuando no existe correlación entre

las variables explicativas del modelo.
2) Presencia de un cierto grado de multicolinealidad. Existe un alto grado de co-

rrelación lineal entre algunas variables explicativas. Cuanto más elevado sea este gra-
do de correlación (es decir, el coeficiente de correlación de Pearson se acerque a 1),
mayor será el grado de multicolinealidad.
3) Presencia de multicolinealidad perfecta. Existe alguna variable explicativa que

se puede obtener a partir de la combinación lineal de otras variables explicativas, lo
que implica que algunas variables explicativas son linealmente dependientes entre sí.
En este caso, la estimación del modelo es imposible debido a la imposibilidad de
invertir la matriz X 0 X.
Veamos un ejemplo práctico, con R-Commander, de cómo analizar el problema de la

multicolinealidad. Para ello consideraremos un estudio demográfico para los munici-
pios de Cataluña en el año 2009. El primer paso será importar los datos de un archivo
de Excel y crear un conjunto de datos al que daremos el nombre de Demografia:
Si visualizamos los datos importados, observamos que están incluidas las siguientes
variables:
La descripción de las variables es la siguiente:
MUNICIPIO: código postal y nombre del municipio.
EDAD: media de edad de la población.
POB: población total (en miles de personas).
TRAB: número de trabajadores (en miles de personas).
MIG: porcentaje de población inmigrante.
POBACT: porcentaje de población activa.
ALT: altitud del municipio (en kilómetros).
TRANS: tiempo de transporte hasta la capital más cercana.
El primer modelo de regresión considera la variable EDAD como variable explicada,

y el resto de las variables como variables explicativas. Para valorar un modelo de
regresión lineal, como sabemos, tenemos la siguiente ruta en el menú desplegable:
Seleccionamos el nombre del modelo estimado y las variables que se deben incluir en
la estimación en el siguiente cuadro de diálogo:
El resultado de la estimación se muestra a continuación. A simple vista, aunque el

ajuste del modelo sea más bien pobre (R2 = 0, 3), todos los coeficientes estimados
son significativos con un nivel de significación menor que 1 %, y la estimación es
significativa en su conjunto, dado el resultado del test F.
> RegModel .1 <- lm(EDAD~ALT+MIG+POB+ POBACT +TRAB+TRANS , data=
Demografia )
Call:
lm( formula = EDAD ~ ALT + MIG + POB + POBACT + TRAB + TRANS ,
data = Demografia )
Residuals :
-10.4061 -2.4548 -0.3131 2.3616 16.2820
Coefficients :
( Intercept ) 39.634134 0.513051 77.252 < 2e -16 ***

ALT 1.407579 0.450937 3.121 0.00185 **
MIG -0.154346 0.018279 -8.444 < 2e -16 ***
POB -0.037418 0.012169 -3.075 0.00217 **
POBACT -0.040815 0.005446 -7.495 1.54e -13 ***

TRAB 0.074415 0.023209 3.206 0.00139 **
TRANS 0.059654 0.006064 9.838 < 2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 3.62 on 934 degrees of freedom
¿Significa esto que el resultado de la estimación es satisfactorio, y que podemos dar

este resultado como válido? La verdad es que no necesariamente. Antes de realizar
una estimación, resulta útil visualizar la matriz de correlaciones simple entre todas las
variables. Aunque existen técnicas más avanzadas y eficientes para detectar la multi-
colinealidad, esta matriz siempre mostrará información útil:
Resúmenes / Matriz de correlaciones

En el cuadro de opciones resultante seleccionamos todas las variables explicativas, así

como el Coeficiente de correlación de Pearson.
Esta ruta nos muestra la siguiente información:
> cor( Demografia [,c("ALT","MIG","POB"," POBACT ","TRAB","TRANS")

Para facilitar la interpretación del
resultado, se ha limitado a dos decimales
], use=" complete ")
cada valor de esta matriz. En realidad, el
resultado muestra más decimales.
ALT MIG POB POBACT TRAB TRANS

ALT 1 ,00 -0,32 -0,11 -0,11 -0,07 0,43
MIG -0,32 1,00 0,10 0,00 0,06 0,12
POB -0,11 0,10 1,00 0,07 0,98 -0,12
POBACT -0,11 0,00 0,07 1,00 0,08 -0,11
TRAB -0,07 0,06 0,98 0,08 1,00 -0,08
TRANS 0 ,43 0,12 -0,12 -0,11 -0,08 1,00
¿Qué podemos destacar de esta matriz de correlaciones? La correlación lineal entre las
variables POB (población) y TRAB (trabajadores) es de 0,98, es decir, es una corre-
lación lineal positiva casi perfecta. Realmente, ¿es necesario incorporar en el modelo
que estimar dos variables que aportan casi la misma información? Esto no solo tiene
consecuencias negativas en cuanto al proceso de estimación, sino que puede llevar a
estimaciones erróneas de los coeficientes.
En el cálculo del FIV no afecta cuál sea la

Un procedimiento más refinado para evaluar la posible existencia de multicolineali- variable explicada, ya que en su cálculo
solo intervienen las variables explicativas
dad entre las variables explicativas (o regresores) es el Factor de Incremento de la o regresores.
Varianza (FIV) de cada una de las variables explicativas. El FIV es un estadístico

que permite determinar si la varianza de un estimador está inflada por la presencia
de multicolinealidad en el modelo respecto al caso de ortogonalidad entre regresores.
Esto es, si la correlación entre todos los regresores fuera igual a cero (ortogonalidad
perfecta), la varianza de la estimación sería óptima y el FIV de cada regresor sería

igual a cero. En la práctica, cada regresor tendrá un FIV más elevado cuanto mayor
sea su correlación con el resto de los regresores. En la práctica, no existe un valor
umbral de los FIV a partir del cual se deba afirmar que hay problemas graves de mul-
ticolinealidad, pero se suele considerar que, para cada regresor, un FIV > 5 indica un
grado de multicolinealidad elevado que ha de ser corregido.
A partir del modelo estimado anteriormente, con R-Commander calcularemos el FIV

accediendo a la siguiente ruta:
Modelos / Diagnósticos numéricos / Factores de inflación de varianza
El resultado muestra claramente cómo todas las variables tienen un FIV bajo menos
dos: POB y TRAB. Para estas dos variables el valor del FIV es altísimo, con lo que
una de las dos ha de ser eliminada de la especificación del modelo.
> vif( RegModel .1)
ALT MIG POB POBACT TRAB TRANS

1.514863 1.306153 33.629262 1.029765 33.160244 1.432465
Ahora optaremos por retirar la variable TRAB de la especificación, y estimar un se-

gundo modelo de forma análoga al caso anterior:
El resultado del segundo modelo estimado nos muestra una contradicción respecto a
la primera estimación. El coeficiente asociado a la variable POB ahora no es signifi-
cativo, mientras que en el modelo estimado anteriormente sí lo era. ¿Qué nos indica
esto? Pues que no hay que confiar en las estimaciones de parámetros en presencia
de multicolinealidad.
> RegModel .2 <- lm(EDAD~ALT+MIG+POB+ POBACT +TRANS , data=
Demografia )
Call:
lm( formula = EDAD ~ ALT + MIG + POB + POBACT + TRANS , data =
Demografia )
Residuals :
-10.6718 -2.4594 -0.3481 2.4163 16.5107
Coefficients :
( Intercept ) 39.2802715 0.5035203 78.011 < 2e -16 ***
ALT 1.4575008 0.4528992 3.218 0.00133 **
MIG -0.1654489 0.0180364 -9.173 < 2e -16 ***
POB 0.0009936 0.0021441 0.463 0.64318
POBACT -0.0392892 0.0054517 -7.207 1.18e -12 ***
TRANS 0.0631734 0.0059932 10.541 < 2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Para asegurarnos de que el problema de multicolinealidad está resuelto, obtendremos

los VIF de los coeficientes de esta segunda estimación.
Modelos / Diagnósticos numéricos / Factores de inflación de varianza
> vif( RegModel .2)

ALT MIG POB POBACT TRANS
1.513057 1.259275 1.033843 1.021903 1.385527
Claramente, todos los valores son menores que 5, con lo que hemos resuelto el pro-
blema de multicolinealidad.
3.2. Observaciones atípicas
Este problema surge cuando en la muestra algunas observaciones manifiestan un valor

muy diferente del resto de las observaciones. Visualmente, esto se corresponde con
una nube de puntos de la variable en la que un punto está muy alejado del resto de las
observaciones. Dos explicaciones pueden dar respuesta a este hecho:
1) Hay errores en la recogida de la muestra, de manera que hay valores erróneos que
no se corresponden con la realidad.
2) El valor recogido en la muestra de estas observaciones outliers se debe a particu-

laridades de la observación, de modo que no hay ningún error en la muestra.
En ambos casos, la presencia de outliers tiene consecuencias negativas para la estima-

ción del modelo econométrico, ya que los errores estándares de los estimadores son
mayores y empeora el ajuste global del modelo (R2 y F de Snedecor.
Estudiaremos este hecho a partir del conjunto de datos Demografia, introducido en

el apartado anterior. En este caso, estimaremos un MRLS en el que el porcentaje de
inmigración explica la población total de cada municipio:
POBi = β0 + β1 MIGi + ei
Al igual que en el caso anterior, valoramos el modelo accediendo a la siguiente ruta:
El resultado se muestra a continuación, obteniendo un efecto positivo y estadística-

mente significativo del regresor sobre la variable dependiente:
> RegModel .3 <- lm(POB~MIG , data= Demografia )

Call:
lm( formula = POB ~ MIG , data = Demografia )
Residuals :
-31.31 -8.01 -3.91 -0.86 1607.93
Coefficients :
( Intercept ) -0.3875 3.1626 -0.123 0.9025
MIG 0.7979 0.2474 3.226 0.0013 **
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

F- statistic : 10.41 on 1 and 939 DF , p-value: 0.0013
¿Es posible que exista algún outlier en las variables? Veamos los gráficos de diagnós-
tico de la estimación efectuada: lm(TRAB ~ MIG)
Residuals vs Fitted Normal Q−Q

19 19
25
600
Residuals
15
0 200
101
905
101
905
0
0 2 4 6 8 10 12 14 −3 −2 −1 0 1 2 3
Fitted values Theoretical Quantiles
Scale−Location Residuals vs Leverage

19
19
5
25
4
3
15
2
101
905 1
0.5
0 5
1
101905
Cook’s distance
0
0 2 4 6 8 10 12 14 0.000 0.010 0.020 0.030
Fitted values Leverage
En todos los gráficos observamos que el residuo asociado a la observación 19 se aleja

considerablemente del resto de los residuos. Comprobemos qué observación ocupa
esa posición visualizando el conjunto de datos Demografia. Vemos que la observación
atípica corresponde al municipio de Barcelona. Este resultado es lógico: este munici-
pio tiene muchos más habitantes que el resto de los municipios catalanes, con lo que
la medición de esta observación no es errónea, ya que es lógico que este valor sea tan
alto comparado con el resto de las observaciones.
¿Cómo se puede identificar la presencia de outliers? A partir de un modelo estimado,

una opción es el test de valores atípicos de Bonferroni, el cual reporta el p-valor para
los residuos estudentizados absolutos, usando la distribución t. En R-Commander, esto
se hace accediendo a la siguiente ruta del menú desplegable:
Modelos / Diagnósticos numéricos / Test de valores atípicos de Bonferroni
El resultado muestra dos valores atípicos, el más destacado de los cuales es la obser-
vación 19, correspondiente a Barcelona.
> outlierTest ( RegModel .3)

rstudent unadjusted p-value Bonferonni p
19 83.048751 0.0000 e+00 0.000000
101 4.322249 1.7094e -05 0.016086
Alternativamente, se puede calcular el gráfico de influencias, que compara en un grá-

fico bidimensional los valores estimados del modelo (hat values) y los residuos esti-
dentizados. Se realiza accediendo a la siguiente ruta:
Modelos / Gráficas / Gráfica de influencias
Esta acción muestra dos resultados. El primero es gráfico, en el que se ve cómo el

valor de la observación 19 está claramente apartada del resto de las observaciones:
19
80
60
Studentized Residuals
40
20
101
624 353
0
0.000 0.005 0.010 0.015 0.020 0.025 0.030
Hat−Values
El segundo aparece en la consola. Nos muestra una lista de posibles outliers, mostrán-
dose además la distancia de Cook (CookD). Esta medida permite detectar la extrañeza
de una observación, sirviendo para detectar aquellas observaciones que tienen un efec-
to mayor en el ajuste que el resto, y que pueden hacer cambiar los valores estimados
por los parámetros del modelo de una manera sustancial.
> influencePlot ( RegModel .3, id. method =" noteworthy ", id.n=2)
StudRes Hat CookD
19 83.0487509 0.002045796 0.92045949
101 4.3222485 0.004034997 0.19272734
353 -0.5104403 0.033011959 0.06671540
624 -0.5668982 0.027758536 0.06775765
Según esta medida, el principal outlier sigue siendo la observación 19. ¿Cuál puede
ser la solución a la presencia de esta observación tan particular? Excluirla del modelo
estimado podría ser una solución, pero la observación no es errónea, y obviarla signi-
fica no considerar la principal ciudad de Cataluña en un estudio sobre este territorio.
No parece, pues, una solución recomendable. Una solución alternativa es cambiar la
forma funcional de la especificación, que puede pasar por transformar alguna variable.
Vamos a optar por expresar la variable dependiente en logaritmos, esto es:
log(POB)i = β0 + β1 MIGi + ei
Se dan dos consecuencias al producirse esta transformación. La primera es que los

valores de la variable POB se comprimen, existiendo menos distancia entre el valor
19 y el resto. Por otra parte, también cambia la interpretación de los coeficientes. Para
efectuar esta estimación, hay que acceder a la ruta de un Modelo lineal, en cuyo cuadro
de diálogo podemos especificar la relación funcional entre las variables:
Estadísticos / Ajuste de modelos / Modelo lineal

El resultado muestra una mejora significativa del ajuste del modelo y de la significa-
ción individual de los coeficientes respecto al modelo anterior.
> LinearModel .4 <- lm(log(POB) ~ MIG , data= Demografia )
> summary ( LinearModel .4)
Call:
lm( formula = log(POB) ~ MIG , data = Demografia )
Residuals :
-3.3525 -1.1869 -0.2454 0.9859 6.5293
Coefficients :
( Intercept ) -0.729731 0.087897 -8.302 3.54e -16 ***
MIG 0.090751 0.006875 13.200 < 2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

4. Permanencia estructural .
Este problema surge cuando se rompe una de las hipótesis básicas del modelo de re-
gresión estándar, que es la hipótesis de permanencia estructural. El problema surge
cuando, en una serie temporal, en un punto del tiempo cambia la relación entre la va-
riable dependiente y uno de los regresores. Para estudiar este problema con un ejemplo
sencillo, analizaremos el efecto del tiempo sobre la evolución del precio de un activo
financiero ficticio, que denominaremos y. Es decir, estudiaremos el siguiente modelo:
yt = β0 + β1 t + et
El primer paso es importar y visualizar los datos.
Aunque aquí solo se muestren 10

observaciones, el conjunto de datos
contiene T = 1000 observaciones
temporales.
El primer paso es valorar el modelo de regresión:

El resultado de la estimación es el siguiente:
> RegModel .1 <- lm(y~tiempo , data= Finanzas )
Call:
lm( formula = y ~ tiempo , data = Finanzas )
Residuals :
-123.724 -46.900 -2.406 44.058 150.465
Coefficients :
( Intercept ) 24.443812 3.499777 6.984 5.22e -12 ***
tiempo 0.374961 0.006057 61.903 < 2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Como vemos, es un ajuste bastante bueno, y tanto los coeficientes valorados como
el modelo estimado global son significativos estadísticamente. Esta estimación da un
coeficiente hatβ1 = 0, 37. ¿Hasta qué punto es esta estimación correcta? Para enten-
der mejor el concepto de permanencia estructural, veamos en un plano cartesiano el
diagrama de dispersión de las dos variables: el tiempo en el eje horizontal y el precio
del activo financiero en el eje vertical. Este gráfico se obtiene acudiendo a la opción
Gráficas del menú desplegable.
999
995
500
400
y
300
200
100
0 200 400 600 800 1000
tiempo
En este gráfico también aparece la recta estimada en el modelo (24, 44 + 0, 37t), que es
la misma para todos los puntos. Sin embargo, vemos cómo la relación funcional entre
ambas variables cambia sobre el punto t = 600. Vemos que antes y después la pen-
diente cambia de manera significativa, como lo muestra la recta curva que resigue las
observaciones. Así pues, parece razonable estimar dos modelos, partiendo la muestra
en dos partes, con coeficientes estimados diferentes.
Estadísticamente, ¿cómo detectamos la presencia de un cambio estructural? Un test

útil en este sentido es el Test de Chow. Este contraste consiste en estimar dos modelos
separando la muestra en dos submuestras a partir de un punto de corte determinado,
para después comparar las SCE de la regresión para todo el tamaño muestral con las
SCE de las regresiones para cada una de las dos submuestras fijadas. Este test es un
tanto arbitrario, ya que requiere que fijemos un punto de corte de antemano de manera
aproximada.
En R-Commander este contraste no está disponible en el menú, pero esto no signifi-

ca que no se pueda efectuar mediante código. Para ello, hay que instalar el paquete
strucchange en la consola:
> install . packages (" strucchange ")
Una vez instalada esta librería, hay que cargarla. Esto lo haremos acudiendo a la ruta
del menú desplegable:
Opciones / Cargar paquetes
En el cuadro de diálogo que nos aparecerá, seleccionamos el paquete que acabamos

de instalar.
La función de R incluida en este paquete que calcula el estadístico de Chow es Fstats.

Un hecho positivo es que, opcionalmente, podemos introducir el período temporal en
el que sospechamos que se produce el cambio estructural. Si no lo especificamos, esta
función calcula el estadístico para todos los puntos de corte en la muestra. La instruc-
ciones que debemos introducir en la ventana de instrucciones son las siguientes:
> Fs <- Fstats (y ~ tiempo , data = Finanzas )

> plot(Fs)
El gráfico resultante tiene la siguiente forma:

15000
F statistics
10000
5000
0
0.2 0.3 0.4 0.5 0.6 0.7 0.8
Time
¿Qué nos dice este gráfico? Pues que el valor del estadístico F alcanza su máximo
aproximadamente el en 60 % de la muestra, que coincide con el punto t = 600. Nuestra
estrategia será estimar dos modelos, uno con la submuestra t = 1, . . . , 600 y otro con
la submuestra t = 601, . . . , 1000. Para hacerlo, en el cuadro de diálogo del modelo
lineal introduciremos, en la opción Expresión de la selección, la submuestra para la
que queremos estimar el modelo.
Veamos el resultado de la primera estimación para la submuestra t = 1, . . . , 600.
Estadísticos / Ajuste de modelos / Modelo lineal

> LinearModel .2 <- lm(y ~ tiempo , data=Finanzas , subset =1:600)
Call:
lm( formula = y ~ tiempo , data = Finanzas , subset = 1:600)
Residuals :
-33.897 -6.760 0.229 6.522 33.266
Coefficients :
( Intercept ) 1.001e+02 8.268e -01 121.08 <2e -16 ***
tiempo 9.884e -02 2.384e -03 41.47 <2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Y ahora el resultado de la segunda estimación para la submuestra t = 601, . . . , 1000.

> LinearModel .3 <- lm(y ~ tiempo , data=Finanzas , subset
=601:1000)
Call:
lm( formula = y ~ tiempo , data = Finanzas , subset = 601:1000)
Residuals :
-42.796 -10.810 -0.868 10.745 47.448
Coefficients :
( Intercept ) -3.814e+02 5.315e+00 -71.77 <2e -16 ***
tiempo 8.957e -01 6.571e -03 136.31 <2e -16 ***
---
Signif . codes : 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
F- statistic : 1.858e+04 on 1 and 398 DF , p-value: < 2.2e -16
De estas dos estimaciones obtenemos importantes conclusiones. La primera es que

los parámetros estimados son muy diferentes, esto es, para la primera submuestra
obtenemos una pendiente β̂1 w 0, 1; y para la segunda submuestra β̂1 w 0, 9. La
relación entre las variables ha cambiado, pues, considerablemente en el punto t =
600. Además, el ajuste de los dos submodelos es mucho mejor que para el modelo
global, ya que las dos rectas estimadas se ajustan mucho mejor a los dos tramos de
observaciones.
Bibliografía
Artís Ortuño, M.; del Barrio Castro, T.; Clar López, M.; Guillén Estany, M.; Su-
riñach Caralt, J. (2011). Econometría. Barcelona. Material didáctico UOC.
Liviano Solís, D.; Pujol Jover, M. (2013). Matemáticas y Estadística con R. Barce-
lona. Material didáctico UOC.

Tema 1.1 - Incumplimiento de Hipótesis Básicas Del Modelo de Regresión Con R

Cargado por

Copyright:

Formatos disponibles

Tema 1.1 - Incumplimiento de Hipótesis Básicas Del Modelo de Regresión Con R

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 1.1 - Incumplimiento de Hipótesis Básicas Del Modelo de Regresión Con R

Cargado por

Copyright:

Formatos disponibles

Incumplimiento de

las hipótesis básicas

1. Propiedades de la estimación del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

En el primer módulo hemos estudiado cómo implementar el estimador de Mínimos

El primer capítulo de este módulo es un repaso teórico de las propiedades de la esti-

1. Comprender todas las características de un modelo de regresión lineal, así como

2. Entender cuál es la condición de ortogonalidad, y por qué es fundamental para el

3. Saber diferenciar y explicar las propiedades sesgo, consistencia y eficiencia de una

4. Estudiar las propiedades de la estimación de la varianza de un modelo, esto es, la

5. Saber relacionar la no esfericidad de la matriz de varianzas y covarianzas con los

6. Poder identificar la presencia de multicolinealidad entre los regresores de un mo-

7. Ser capaz de detectar la presencia de observaciones atípicas o outliers, y poder

1. Propiedades de la estimación del modelo .

1.1. Estimador MCO y la condición de ortogonalidad

construcción, el estimador MCO garantiza la condición de ortogonalidad. Dicho de

siendo su expresión matricial

es imposible verificar si se cumple la condición E(X 0 e) = 0, ya que el estimador de

X 0 ê = X 0 (Y − X β̂) = X 0 Y − X 0 X(X 0 X)−1 X 0 Y = X 0 Y − X 0 Y = 0.

Con lo cual, el investigador deberá determinar si se cumple la condición de ortogona-

1.2. Sesgo y consistencia

El estimador β̂ es un estadístico, y como tal tiene una distribución. En general, es-

Antes de definir el sesgo y la consistencia de un estimador, resulta útil relizar la si-

Esta descomposición muestra cómo la distribución de β̂ está determinada únicamente

El sesgo del estimador será la esperanza matemática de la diferencia entre el valor

E(β̂) = β + E((X 0 X)−1 )E(X 0 e) = β

plim significa límite en probabilidad. Una

En este caso, se cumplirá que:

Conviene recordar que, aunque un estimador sea sesgado, es decir, E(xi ei ) , 0, es

La eficiencia de un estimador es una propiedad que hace referencia a su varianza. Un

vemos cómo estamos imponiendo la condición de que la esperanza condicional del

E(e2i |xi ) = σ2i

En el siguiente capítulo analizamos en detalle los casos particulares en los que un

1.4. Causas del sesgo y de la inconsistencia

Como se demuestra en la sección anterior, el estimador MCO garantiza la ortogona-

1.4.1. Errores de medida

Supongamos que disponemos del siguiente modelo de regresión lineal esférico, en el

y (3) eficiente. Desafortunadamente, vamos a suponer que medimos el regresor con

E(xi ui ) = Cov(xi , ui ) = Cov(xi∗ + vi , ei − βvi )

(1/n) ni=1 (xi − x̄)(yi − ȳ)

A continuación, analizamos la consistencia del estimador:

plim(1/n) ni=1 (xi − x̄)(ui − ū)

Como podemos observar, en este caso el error de medida provoca un sesgo en la

Técnicamente, los conceptos de

plo de endogeneidad se da en los modelos de ecuaciones simultáneas, en los que los

En este caso, si analizamos la covarianza entre regresor y error, obtenemos:

Cov(yt−1 , et ) = Cov(βxt−1 + γyt−2 + et−1 , et ) = Cov(et−1 , et ) = 0

De este modo, obtenemos consistencia en el estimador:

Fijémonos en que en este caso el modelo incorpora el regresor estocástico ρ et−1 . A la

Cov(yt−1 , et ) = Cov(βxt−1 + γyt−2 + et−1 , ρ et + ut ) = ρ Cov(et−1 , et−1 ) = ρ σ2

En este caso, la estimación ya no es consistente, dado que

2.1. Definición teórica

• Elementos de la diagonal. El modelo de regresión lineal es homoscedástico si los

• Elementos fuera de la diagonal. Si estos no son nulos, esto es, σi j , 0, ∀i , j,

Partiendo de estas definiciones, decimos que estamos ante un modelo de regresión

Siendo In la matriz identidad de dimensión n × n. En este caso, la estimación del mo-

El hecho de estar ante un modelo de regresión lineal homoscedástico o heteroscedás-

β̂ MCG = (X 0 Ω−1 X)−1 X 0 Ω−1 Y

Frecuentemente no se conoce Ω, por lo que se ha de valorar (o bien directamente

β̂ MCGF = (X 0 Ω̂−1 X)−1 X 0 Ω̂−1 Y