Apuntes Econometria
Apuntes Econometria
Apuntes Econometria
Apuntes Econometria
Econometría (UNED)
Nota: Las siguientes 21 hojas son todas las preguntas largas que han caído desde 2000-2013. El archivo "pdf" original contiene "post-it"
amarillos con alguna ampliación más y corrección de pequeñas erratas. Si lo imprimís las notas post-it desaparecen. Por favor, copiadlas a mano
en vuestras copias impresas porque son importantes.
EL PROBLEMA DE LA MULTICOLINEALIDAD EN ECONOMETRIA
Un supuesto del modelo clásico de regresión lineal (MCRL) es la no existencia de multicolinealidad
entre las regresoras incluidas en el modelo de regresión. Sin embargo, existen razones de índole
económica para que se presente multicolinealidad, es decir, no independencia entre los regresores.
Como fuentes multicolinealidad se pueden citar:
1.- Multicolinealidad “perfecta” o exacta entre algunas o todas las variables explicativas: Para la
regresión con k variables que incluye las variables explicativas X1, X2, . . . , Xk (donde X1 = 1 para todas
las observaciones de forma que den cabida al término del intercepto), se dice que existe una relación
lineal exacta si se satisface la siguiente condición:
λ1X1 + λ2X2 + ·· ·+λk Xk = 0 [1]
donde λ1, λ2,. . . , λk, son constantes tales que no todas son simultáneamente iguales a cero.
2.- Multicolinealidad “menos que perfecta”: Cuando hay X variables intercorrelacionadas pero no en
forma perfecta, de la siguiente manera
λ1X1 + λ2X2 + ·· ·+λk Xk + vi = 0 [2]
donde vi es un término de error estocástico.
La multicolinealidad, como la definimos, se refiere sólo a relaciones lineales entre las variables X. Este
concepto no aplica a las relaciones no lineales entre ellas. La multicolinealidad se considera una
cuestión de grado, no cualitativa. La distinción importante es su presencia o ausencia, no su grado.
Puesto que se refiere a la condición de los regresores que se suponen no estocásticos, es una
característica de la muestra y no de la población.
Para el caso particular de dos variables, si existiera una combinación lineal perfecta entre ambas, en tal
caso se verificaría que:
DETECCIÓN DE LA MULTICOLINEALIDAD
F(k-2), (n-k+1)
Si la F calculada excede a la Fi crítica en el nivel de significancia seleccionado, se dice que la Xi
particular es colineal con las demás X; si no excede a la Fi crítica, se dice que ésta no es colineal
con las demás X, en cuyo caso se puede mantener la variable en el modelo. Si Fi es
estadísticamente significativa, aún hay que decidir si la Xi en consideración debe eliminarse del
modelo.
ELIMINACIÓN DE LA MULTICOLINEALIDAD:
No existe una solución adecuada pero se pueden citar los siguiente remedios que atenúan el problema:
1. Utilizar información obtenida a priori: Por ejemplo, en la función de producción tipo Cobb-
Douglas si esperamos que prevalezcan los rendimientos constantes a escala, entonces (β2 + β3)
= 1, en cuyo caso podemos efectuar la regresión, con la regresión de la razón producto-trabajo
(Y/W) sobre la razón capital-trabajo (K/W). Si existe colinealidad entre el trabajo y el capital
dicha transformación puede reducir o eliminar el problema.
2. Combinar información de corte transversal y de series de tiempo:
3. Eliminación de una(s) variable(s) y el sesgo de especificación: Una de las soluciones más
simples es omitir del modelo una de las variables colineales. Sin embargo, se puede incurrir en
ESTIMACIÓN DE MODELOS CON PERTURBACIONES HETEROSCEDÁSTICAS
REVISIÓN HIPÓTESIS HOMOSCEDASTICIDAD
LA HIPÓTESIS DE HOMOSCEDASTICIDAD: DEFINICIÓN, CONSECUENCIAS DE INCUMPLIMIENTO,
METODO DE DETECCIÓN y POSIBLES SOLUCIONES
Un supuesto básico del modelo clásico de regresión lineal es que la varianza de cada término de
perturbación ui, es constante e igual a σ2. Si este supuesto se incumple hay heteroscedasticidad
(“heteros” = distinta; “cedasticidad” = dispersión) Simbólicamente:
El problema de heteroscedasticidad es más común en la información de corte transversal que en la
de series de tiempo. Hay diversas razones por las cuales las varianzas de ui pueden ser variables,
algunas de las cuales son las siguientes:
1) Aprendizaje de los errores: A medida que la gente aprende disminuyen sus errores de
comportamiento con el tiempo. En este caso, esperamos que σi2 se reduzca.
2) En un modelo ahorro‐renta es posible que σi2 aumente con la renta pues ello implica más
opciones de ahorro (variabilidad)
3) Mejores técnicas de recogida de datos reducen la varianza.
4) La heteroscedasticidad también surge por la presencia de datos atípicos o aberrantes.
5) Sesgo de especificación debido a la omisión del algún regresor relevante, forma funcional
incorrecta o incorrecta transformación de datos (p. ej., primeras diferencias)
6) La asimetría en la distribución de una o más regresoras incluidas en el modelo.
CONSECUENCIAS:
La heteroscedasticidad tiene consecuencias sobre las propiedades de los estimadores. En presencia
de heteroscedasticidad (básicamente igual que en presencia de autocorrelación) los estimadores de
MCO usuales, a pesar de ser lineales, insesgados y consistentes dejan de tener varianza mínima entre
todos los estimadores lineales insesgados. En resumen, no son eficientes. Como resultado las
pruebas usuales t, F y χ2 pueden no ser válidas.
1) E[ ]
2) Var [ ] ( X ' X ) 1 X ' E[u ' u ] X ( X ' X ) 1
si E(u’u) ≠ σ2 entonces evidentemente es diferente a σ2∙(X’X)‐1 y el estimador no es eficiente
DETECCIÓN DE LA HETEROSCEDATISCIDAD:
1.‐ Método Gráfico: Se realiza la regresión con el supuesto de que no hay heteroscedasticidad y se
2 2
hayan los u i (representan a los ui2). Posteriormente se grafica u i frente a Yi o frente cualquier de
las variables explicativas Xi para ver si exhiben un patrón sistemátrico. Si no hay patrón
problablemente no haya heteroscedasticidad. Si encontramos un patrón definido (como una
relación cuadrática) es posible transformar el modelo para eliminar la heteroscedasticidad.
2.‐ Prueba de Goldfeld y Quandt: Es aplicable si σi2 esta relacionado con una de las variables
explicativas (σi2 = f[Xi]). Se llevan a cabo los siguientes pasos:
a) Ordenar los valores de Xi a partir del valor más bajo.
b) Omita “c” observaciones centrales (usualmente n/3) y divida las observaciones restantes
(c‐n) en dos grupos cada uno de (c‐n)/2 observaciones.
c) Se estima la regresión en cada uno de los dos grupos y se calculan SCR1 y SCR2. Cada SCR
tiene [(n‐c‐2k)/2] grados de libertad (k = nº de parámetros incluido intercepto)
d) Se calcula la razón:
SCR2
( n c 2k ) 2
F( nc2 k ) 2 (si el supuesio de homoscesdasticidad es válido)
SCR1
( n c 2k ) 2
Si la razón calculada es superior al F crítico en el nivel de significancia seleccionado, podemos
rechazar la hipótesis de homoscedasticidad y afirmar que la heteroscedasticidad es muy
probable.
3.‐ Prueba de Breusch‐Pagan: La idea del contraste es comprobar si se puede encontrar un conjunto
de variable Z que sirvan para explicar la evolución de la varianza de las perturbaciones aleatorias,
estimada ésta a partir del cuadrado de los errores del modelo inicial. Se supone que σi2 está
relacionada con todas las variables explicativas.
Se llevan a cabo los siguientes pasos:
a) Se realiza la regresión del modelo y se obtienen los residuos u1 , u 2 ,.... u n
e) Se obtiene la SCR de la regresión anterior.
1
f) Se calcula la razón: · SCR m2 (asintóticamente)
2
Por consiguiente, si la razón calculada excede al valor crítico χ2 en el nivel de significancia
seleccionado, se rechaza la hipótesis Ho de homoscedasticidad; de lo contrario, no se rechaza.
4.‐ Prueba de White: También se supone que σi2 está relacionada con todas las variables
explicativas. Se llevan a cabo los siguientes pasos:
a) Se realiza la regresión del modelo y se obtienen los residuos u1 , u 2 ,.... u n
b) Se efectúa la regresión auxiliar:
es decir, con el cuadrado de los residuos de la regresión original se hace la regresión sobre las
regresoras X originales, sobre sus valores al cuadrado y sobre el (los) producto(s) cruzado(s)
de las regresoras (esto último es opcional)
c) Se obtiene el coeficiente de determinación R2 de la misma.
d) Se calcula la razón: n · R 2 gl2 (gl = numero de regresoras en la regresión auxiliar)
Si la razón de la razón obtenida excede al χ2 crítico en el nivel de significancia seleccionado, la
conclusión es que hay heteroscedasticidad; si éste no excede no hay heteroscedasticidad.
MEDIDAS CORRECTORAS:
1.‐ Si se conoce σi2 aplicando el método de los mínimos cuadrados ponderados:
Yi 1 2 X 2 ui
Usando el modelo transformado: puesto que
i i i i
<<27/Mayo/2013>> Intro Econometria. UNED. José Luis Ortega 49
2.‐ Si no se conoce σi2:
a) Emplear la transformación logarítmica: Pues comprime las escalas en las que se mide las
variables.
b) Hacer supuestos razonables sobre el patrón de heteroscedasticidad:
Por ejemplo, si la varianza del error es proporcional a Xi2, esto es: se puede
realizar la siguiente transformación:
puesto que ahora:
c) Utilizar estimadores consistentes a la heteroscedasticidad:
La varianza de todo coeficiente de regresión parcial j se calcula mediante la expresión:
siendo u i los residuos de la regresión original y w j son los residuos proporcionados por la
regresión (auxiliar) de la regresora Xj sobre las regresoras restantes en el modelo original.
El empleo de estimadores robustos es la solución que últimamente se emplea más. La ventaja
es sobre todo práctica (la mayoría de los paquetes los calculan automáticamente) En su
contra está el hecho de que el método es válido en muestras grandes y, además, el estimador
podría ser menos eficiente que MCP.
ESTIMACIÓN CON MODELOS CON PERTURBACIONES AUTOCORRELACIONADAS
MODELOS CON PERTURBACIONES AUTOCORRELACIONADAS
REVISIÓN HIPÓTESIS AUTOCORRELACIÓN
Nota: Hablando con el Equipo Docente me indican que: 1) las tres son la misma pregunta pero expresadas de forma diferente 2) hay que mencionar
todo aunque no sea en detalle pues sino la puntuación no será máxima e irán restando en proporción a la información omitida.
La no correlación entre las perturbaciones estocásticas es un supuesto del modelo clásico de
regresión lineal. Si este supuesto se incumple los valores de las ui están autocorrelacionados.
Simbólicamente: E(ui , uj) ≠ 0 ( i ≠ j)
Se considera que la autocorrelación es un problema propio de las series históricas pues las
observaciones siguen un orden natural respecto al tiempo de modo que es muy posible que haya
intecorrelaciones entre observaciones sucesivas, en particular si el tiempo es corto (día, semana, o
mes en lugar de años)
La presencia de autocorrelación se debe a los siguientes factores:
1) Inercia del sistema: P. ej., en series de tiempo de PNB, producción, empleo, etc.
2) Transformación de datos: P. ej. la transformación en primeras diferencias.
3) Sesgo de especificación: Debido bien a la omisión de algún regresor, bien a retardos en
alguno de los regresores bien en una forma funcional incorrecta.
4) Manipulación de datos: P. ej., al aplicar medias móviles para desestacionalizar o al interpolar /
extrapolar datos.
Los casos de autocorrelación que más se estudian son aquellos definidos por algún tipo de relación
lineal entre las perturbaciones. El más importante y sencillo de todos ellos es el denominado
esquema autorregresivo de primer orden AR(1) de Markov que se define cuando las perturbaciones
ut verifican la relación:
AR(1): ut = ρ∙ut‐1 + εt con |ρ| < 1 y εt N[0 ; σε] e independientes
εt satisface los supuestos clásicos de MCO
donde ρ es el coeficiente de autocorrelación de primer orden y se corresponde con el coeficiente de
la pendiente en la regresión de ut sobre ut−1.
CONSECUENCIAS: La autocorrelación tiene consecuencias sobre las propiedades de los estimadores.
En presencia de autocorrelación (básicamente igual que en presencia de heteroscedasticidad) los
estimadores de MCO usuales, a pesar de ser lineales, insesgados y consistentes dejan de tener
varianza mínima entre todos los estimadores lineales insesgados. En resumen, no son eficientes.
Como resultado las pruebas usuales t, F y χ2 pueden no ser válidas.
1) E
Var Cov X ' X X ' 2 X X ' X donde Var‐Cov (u’u) = σ ∙Ω
1 1 2
2)
que evidentemente difiere de Var Cov 2 X ' X 1 en caso de no autocorrelación.
DETECCIÓN DE LA AUTOCORRELACIÓN:
1.‐ Gráfico de residuos: Un examen visual de las u t puede dar indicación de la presencia de
autocorrelación.
<<27/Mayo/2013>> Intro Econometria. UNED. José Luis Ortega 51
2.‐ Prueba de las rachas: Si ut es aleatoria no deberían observarse rachas de valores (+) ó (‐)
3.‐ Prueba DW de Durbin‐Watson:
0 ≤ DW ≤ 4
Si ρ = 0 entonces DW será aproximadamente 2. La regla de decisión es:
Supuestos: Regresión con intercepto; X no estocástica; AR(1); no hay retardos en la regresada.
4.‐ Prueba de Breusch‐Godfrey: Es un contraste general que evita los problemas del de DW.
Suponiendo un AR(p) se ejecuta de la siguiente manera:
1) Se realiza la regresión normal y se obtienen los u t y a partir de estos los u t 1 ,.... u t p
2) Se realiza la regresión auxiliar de u t sobre todas las Xt originales y las u t 1 ,.... u t p :
y se calcula R2 de esta regresión auxiliar.
3) Hipótesis nula H0: ρ1 = ρ2 =………= ρp = 0
El estadístico [(n‐p) ∙ R2 ] χp2 (asintoticamente)
4) Si el [(n‐p)∙R2] calculado excede el valor crítico en el nivel de significancia seleccionado,
podemos rechazar la hipótesis nula. Por lo menos una ρ en es significativamente
diferente de cero.
MEDIDAS CORRECTORAS:
Si al aplicar el contraste de Durbin‐Watson se detectase la presencia de autocorrelación de primer
orden de Markov (AR1), sabiendo en este caso la falta de eficiencia de los estimadores de MCO,
hemos de corregir el problema.
A.‐ Si se conoce ρ: El problema se resuelve fácilmente utilizando la ecuación en diferencias.
<<27/Mayo/2013>> Intro Econometria. UNED. José Luis Ortega 52
B.‐ Si no se conoce ρ:
1.‐ Método de primeras diferencias: Si suponemos que ρ=1 entonces la ecuación en diferencias de
arriba se transforma en:
Ahora el término de error está libre de correlación serial. Este método solo es válido para valores de
ρ muy altos (superiores a 0,8) o si el estadístico DW es muy bajo. Un característica importante del
modelo es que carece de intercepto.
2.‐ ρ basado en el estadístico DW (Durbin‐Watson):
Esta relación solo es aplicable en muestras grandes.
5.‐ Método de Newey‐West:
Se trata de una generalización de los errores estándar consistentes con heteroscedasticidad de
White. Los errores estándar corregidos se conocen como errores estándar CHA (consistentes con
heteroscedasticidad y autocorrelación) o errores Newey‐West.
MODELOS ARCH y GARCH:
Son modelos en los que la autocorrelación afecta a la varianza σt2. Si la varianza está correlacionada
con un esquema autorregresivos de primer orden sería una modelo ARCH. Si está correlacionada con
varios periodos del pasado sería un modelo GARCH
Esta NO es larga
JUNIO 2012 PRIMERA SEMANA
Los estimadores de MV y MCO de los coeficientes de regresión, los β, son idénticos, y esto es válido para
regresiones simples al igual que para las regresiones múltiples.
ui
El estimador de MV de σ es , independientemente del número de variables del modelo. Este
2
n
ui
estimador es sesgado. El estimador de de MCO de σ2 para un modelo de k variables es , que es
(n k )
insesgado. En resumen, el estimador MCO tiene en cuenta el número de grados de libertad mientras que el
MV no.
Al comparar estos dos estimadores de σ2, se ve que, conforme aumenta el tamaño de la muestra n, los dos
estimadores de σ2 tienden a ser iguales. Por tanto, asintóticamente (es decir, a medida que n crece
indefinidamente), el estimador MV de σ2 también es insesgado y tiende al mismo valor que el MCO.
Los valores que toma la regresora X pueden considerarse fijos en muestras repetidas (el caso de la
regresora fija) o haber sido muestreados junto con la variable dependiente Y (el caso de la regresora
estocástica).
es estocástica
Con carácter general puede concluirse:
1) Si se supone que la(s) variable(s) Xi y el término de error ui son independientes, esto es, cov(Xi,ui) =
0, entonces las propiedades estadísticas de los mínimos cuadrados del modelo de regresora fija
siguen siendo válidos y los estimadores MCO son insesgados y consistentes.
2) Si los regresores Xi son estocásticos y están incorrelacionados contemporáneamente con las
perturbaciones ui, los estimadores MCO son sesgados para muestras finitas pero siguen siendo
consistentes.
3) Si los regresores Xi son estocásticos y están correlacionados para los valores sucesivos de ui,
entonces los estimadores son sesgados e inconsistentes.
Se comprueba a continuación la insesgadez del primer caso y la sesgadez del segundo:
Sabemos que = (X’X)‐1 (X`Y) y también que Y= Xβ + U por tanto, sustituyendo Y en la primera
obtenemos = (X’X)‐1 X`(Xβ + U) = (X’X)‐1 (X`X)β + (X’X)‐1 X`U = β + (X’X)‐1 X`U
Por tanto ( X ' X ) 1 · X 'U
Tomando la esperanza matemática:
E
E ( X ' X ) · X 'U E c.q.d. insesgadez (puesto que E[U] = 0
1
En cambio, en caso de no ser independientes, el estimador sería sesgado lo cual es evidente puesto que
E dependería no E[U] = 0 sino de E X i ,U i 0
En cuando a la matriz de Varianzas‐Covarianzas:
'
Var Cov ( ) E · E ( X ' X ) 1 · X 'U · ( X ' X ) 1 · X 'U
E ( X ' X )
' 1
· X 'UU ' X ( X ' X ) 1
2 · E ( X ' X ) 1
Por tanto, ya no sería estimador ELIO (Estimador Lineal Insesgado Óptimo) porque no tendría varianza
mínima.
Se demuestra ahora la consistencia si los regresores Xi son estocásticos y están incorrelacionados
contemporáneamente con las perturbaciones ui:
Y = Xβ + U
Sabemos que = (X’X)‐1 (X`Y) y también que Y= Xβ + U por tanto, sustituyendo Y en la primera
obtenemos = (X’X)‐1 X`(Xβ + U) = (X’X)‐1 (X`X)β + (X’X)‐1 X`U = β + (X’X)‐1 X`U
( X ' X ) 1 X 'U
Por tanto ( X ' X ) 1 · X 'U ·
n n
donde, en el segundo paso, dividimos (X’X)‐1 y (X’U) entre el número total de observaciones en la muestra, n,
de manera que (X’X)‐1 son la varianza‐covarianza muestral de X.
debe ser (X'X)^-1 / n
Un estimador es consistente si el límite de su probabilidad, o plím para abreviar, es igual a su verdadero
valor (poblacional):
X 'U
p lim
p lim n c.q.d. la consistencia del estimador
( X ' X ) 1
p lim
n
Pues los términos de varianza‐covarianza de X, por la hipótesis de convergencia, tiene un límite finito y los
términos X’U/n son nulos si se acepta la hipótesis de insesgadez.
Finalmente, si los regresores Xi son estocásticos y están correlacionados para los valores sucesivos de ui,
entonces los estimadores son sesgados e inconsistentes por ser las X estocásticas. En este caso no se
debería utilizar MCO sino aplicar el modelo neoclásico de regresión lineal (MNRL)
FORMAS DE ELIMINACIÓN DE LAS TENDENCIAS:
1) Tendencia polinómicas:
Dentro de los métodos estadísticos la tendencia se puede calcular utilizando polinomios de grado bajo o
medias móviles. Eliminando de la serie histórica observada la tendencia, se obtiene una posible
medición del ciclo empírico. Además, existen otros procedimientos como las primeras diferencias o las
tasas de variación que eliminan la tendencia directamente.
La serie de primeras diferencias resulta de calcular xt xt xt 1 y las tasas, en tanto por uno
xt
xt
xt 1
Las primeras diferencias y las tasas de variación tienen el problema de que amplifican los ciclos de corta
duración.
El cálculo de una tendencia mediante polinomios de grado bajo puede circunscribirse históricamente a
tendencias lineales, parabólicas y cúbicas. Por ejemplo, una tendencia lineal de los precios se estimaría
mediante la ecuación:
En coeficiente “b” indicativo de la pendiente de la tendencia viene dado por:
Y el intercepto por:
En los casos de tendencia parabólica o cúbica se puede recurrir a regresiones múltiples en las que las
potencias sucesivas de t son nuevos regresores. Por ejemplo, una tendencia parabólica de los precios se
estimaría mediante la ecuación:
que equivale, si hacemos la transformación z=t2 a ajustar la siguiente ecuación de regresión múltiple:
Finalmente, el uso de las medias móviles tiene el problema de la indeterminación del tamaño de la
media móvil (3, 4, 5, etc.) y que, tienden a amplificar las oscilaciones de mayor duración, especialmente
si el tamaño de la media móvil es pequeño. Una media móvil de tamaño 5 para la variable regresora X se
calcularía de acuerdo con la fórmula:
m1 m2 m3 m4 m5
mx
5
2) Tendencia exponencial:
El empleo de una tendencia exponencial resuelve el problema de la explosividad de los valores
extremos. En este caso lo que se lleva a cabo es una transformación logarítmica de la variable regresora,
transformando así la tendencia en lineal en logaritmos. Para el caso de la variable regresora “precio”, la
tendencia exponencial se estimaría mediante la ecuación:
1
<<27/Mayo/2013>> Intro Econometria. UNED. José Luis Ortega 56
calculándose la pendiente “b” y el intercepto “a” por mínimos cuadrados, como ya se ha explicado.
En comparación con la tendencia lineal, si se considera la tendencia exponencial corrige la explosividad
de los valores extremos de la serie.
Los métodos de estimación de la tendencia detallados hasta aquí no son la solución satisfactoria pues:
1) No necesariamente existe una sola tendencia para todo el ciclo histórico;
2) No necesariamente la mejor aproximación a la tendencia se corresponde con el criterio de ajuste
mínimo cuadrático (este criterio está pensado para minimizar errores de medida pero no para
separar tendencia y ciclo)
Siendo tendencia y ciclo movimientos inobservables, en la eliminación de la tendencia existe el riesgo de
incluir parte de la tendencia en el ciclo o parte del ciclo en la tendencia lo que distorsionaría la medición de
teorías económicas basadas en los ciclos.
3) Método de la cuerda:
Cuando se considera que la tendencia es lineal, el problema comentado de la explosividad del ciclo en
los valores extremos se debe, no solo a la que la linealidad no es perfecta, sino también a que la
pendiente y el intercepto de la tendencia se calculan por mínimos cuadrados lo que obliga a pasar a la
tendencia por el centro de gravedad de la distribución (la recta de regresión pasa por las medias) siendo
ese, precisamente, el punto de mejor ajuste(1) y peor en los extremos.
Para solventar este problema se puede utilizar el método de la cuerda que calcula la tendencia de
acuerdo a la recta que pasa por los extremos de la serie. Además, otra ventaja de su utilización es que
en determinados casos admite una interpretación económica clara. Por ejemplo, en una serie histórica
de precios, mediría la perdida de poder adquisitivo debido a la inflación (en la unidad de cuenta
correspondiente) entre los dos extremos de la serie histórica (la tendencia en los precios podría deberse
a la inflación); en el caso de una serie histórica en cantidades, la tendencia podría deberse al crecimiento
de la población o otras causa (no solo debido al ciclo empírico)
El método de la cuerda proporciona directamente el ciclo empírico. Éste se calcula mediante la fórmula:
El término entre corchetes representa la tendencia de manera que, el ciclo empírico resulta
directamente de la diferencia entre la serie histórica original (Yt) y la tendencia. Numéricamente este
ciclo empírico comienza y termina en cero. Se le puede restar la media, si es positiva o sumarla, si es
negativa. Dividido por la desviación estándar permite obtener su ciclo normalizado. Normalmente
conviene trabajar con un número par de observaciones.
(1)
Creo que, precisamente por este mismo motivo, cuando se utiliza una recta de regresión para extrapolar valores de la regresada hay que tener
mucho cuidado de que el valor de la regresora no caiga en los extremos de la recta de regresión porque, en ese caso, el error que se cometerá
será mucho mayor que si el valor de la regresora está próximo al centro.
2
<<27/Mayo/2013>> Intro Econometria. UNED. José Luis Ortega 57
1) Predicción media:
2) Predicción individual:
2
E (Y0 Y 0 ) 2 E ( 1 1 ) X 0 ( 2 2 ) u o
E ( 1 1 ) 2 X 02 · E ( 2 2 ) 2 E (u o ) 2 2· X 0 ·u 0 ·Cov ( 1 , 2 ) 2 E [u 0 ·( 1 1 )] 2 E [u 0 ·( 2 2 )]
E (Y0 Y 0 ) 2 Var ((Y0 Y 0 ) Var ( 1 ) Var ( 2 ) Var (u 0 ) 2 Cov ( 1 , 2 )
Operando se obtiene:
Nota: Las siguientes 80 páginas son preguntas que han caído en exámenes o me he inventado yo.
Abarcan todo el temario pero el Equipo Docente suele reducir tal al aproximarse la fecha examen.
1) ¿QUÉ ES LA ECONOMETRÍA y CUALES SON SUS OBJETIVOS?
En términos literales Econometría significa “medición económica”. Sin embargo, si bien es cierto que la medición es una
parte importante de la econometría, el alcance de esta disciplina es mucho más amplio. Según Gerhard Tintner, "la
econometría, resultado de cierta perspectiva sobre el papel que desempeña la economía, consiste en la aplicación de la
estadística matemática a los datos económicos para dar soporte empírico a los modelos construidos por la economía
matemática y obtener resultados numéricos".
Como indica la definición anterior la econometría es una amalgama de teoría económica, economía matemática, estadística
económica y estadística matemática:
A) La teoría económica hace afirmaciones o formula hipótesis de naturaleza sobre todo cualitativa. Por ejemplo, la teoría
económica postula una relación negativa o inversa entre el precio y la cantidad demandada de un bien. Pero la teoría por sí
sola no proporciona medida numérica alguna de la relación entre los dos. El trabajo del econometrista es proporcionar
tales estimaciones numéricas. En otras palabras, la econometría da contenido empírico a gran parte de la teoría
económica.
B) El interés principal de la economía matemática es expresar la teoría económica en una forma matemática (ecuaciones)
sin preocuparse por la capacidad de medición o de verificación empírica de la teoría. La econometría se interesa sobre
todo en la verificación empírica de la teoría económica. El econometrista suele emplear ecuaciones matemáticas,
propuestas por el economista matemático, pero las expresa de forma que se presten para la prueba empírica.
C) La estadística económica se relaciona con la recopilación, procesamiento y presentación de cifras económicas en forma
de gráficos y tablas. Éste es el trabajo del estadístico económico. Los datos así reunidos constituyen la materia prima del
trabajo econométrico. Pero el estadístico económico no va más allá de la recolección de información. Es el econometrista
quien se ocupa de realizar esta labor.
D) Aunque la estadística matemática proporciona muchas herramientas para esta ciencia, el econometrista a menudo
necesita métodos especiales por la naturaleza única de la mayoría de las cifras económicas, pues no se generan como
resultado de un experimento controlado sino que provienen de la observación. El econometrista suele depender de cifras
que no controla directamente.
2) METODOLOGÍA DE LA ECONOMETRÍA
En términos generales, la metodología econométrica tradicional o clásica se ajusta a las siguientes etapas:
1. Planteamiento de la teoría o de la hipótesis: Por ejemplo, la propensión marginal a consumir (PMC) es mayor que cero
pero menor que uno (Keynes)
2. Especificación del modelo matemático de la teoría: Y = β1 + β2X 0 < β2 < 1
3. Especificación del modelo econométrico o estadístico de la teoría: Y = β1 + β2X + u (u = perturbación estocástica)
4. Obtención de datos: Para obtener los estimadores se necesitan datos (transversales, series históricas, etc.)
5. Estimación de los parámetros del modelo econométrico: La técnica estadística principal para obtener las estimaciones
es la regresión. La función consumo estimada podría ser Yˆt = −299.5913 + 0.7218Xt
6. Pruebas de hipótesis: En el supuesto de que el modelo ajustado sea una aproximación razonablemente buena de la
realidad, tenemos que establecer criterios apropiados para comprobar si los valores estimados obtenidos en una ecuación
como la anterior, por ejemplo, concuerdan con las expectativas de la teoría que estamos probando.
7. Pronóstico o predicción: Si el modelo escogido no refuta la hipótesis o la teoría en consideración, servirá para predecir el
(los) valor(es) futuro(s) de la variable dependiente Y, o de pronóstico, con base en el (los) valor(es) futuro(s) conocido(s) o
esperado(s) de la variable explicativa, o predictora, X. Por ejemplo: Yˆ2006 = −299.5913 + 0.7218 (11319.4) =7870.7516
8. Utilización del modelo para fines de control o de políticas. Mediante una mezcla apropiada de política fiscal y
monetaria, el gobierno puede manejar la variable de control X para producir el nivel deseado de la variable objetivo Y.
3) RELACIÓN ENTRE REGRESIÓN y CAUSALIDAD
A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto de otras variables, esto
no implica causalidad necesariamente. “Una relación estadística, por más fuerte y sugerente que sea, nunca podrá
establecer una conexión causal: nuestras ideas de causalidad deben provenir de estadísticas externas y, en último término,
de una u otra teoría”.
En el ejemplo del rendimiento del cultivo citado, no hay una razón estadística para suponer que la lluvia no depende del
rendimiento del cultivo. Considerar que el rendimiento del cultivo depende de la lluvia (entre otras cosas) se debe a
cuestiones no estadísticas: el sentido común indica que la relación no puede ser a la inversa, pues no es posible controlar la
lluvia mediante el rendimiento del cultivo.
Una relación estadística por sí misma no puede, por lógica, implicar causalidad. Para aducir causalidad se debe acudir a
consideraciones a priori o teóricas. Así, es posible recurrir a la teoría económica para afirmar que el consumo depende del
ingreso real.
4) NATURALEZA, FUENTES y LIMITACIONES DE LOS DATOS PARA ANÁLISIS EMPÍRICO
Hay tres tipos de datos disponibles para el análisis empírico: series de tiempo, series transversales e información
combinada (combinación de series de tiempo y transversales)
A) Datos de series de tiempo
Una serie de tiempo es un conjunto de observaciones sobre los valores de una variable en diferentes momentos. Tal
información debe recopilarse en intervalos regulares, es decir, en forma diaria, semanal, mensual, trimestral, anual,
quinquenal, decenal, ETC.
Si bien los datos de series de tiempo se utilizan mucho en estudios econométricos, presentan algunos problemas especiales
para los econometristas. la mayor parte del trabajo empírico con datos de series de tiempo supone que éstas son
estacionarias. En términos generales, una serie de tiempo es estacionaria si su media y varianza no varían
sistemáticamente con el tiempo. El comportamiento de la oferta de dinero M1 en Estados Unidos durante el periodo del
primero de enero de 1959 a septiembre de 1999 presenta una tendencia ascendente constante, así como variabilidad con
el transcurso de los años, lo cual indica que la serie de tiempo M1 no es estacionaria.
B) Datos transversales
Los datos transversales consisten en datos de una o más variables recopilados en el mismo punto del tiempo. Así como los
datos de series de tiempo crean problemas especiales (por la estacionariedad), los datos transversales también tienen sus
propios problemas, en concreto, el de la heterogeneidad.
C) Datos combinados
Los datos combinados reúnen elementos de series de tiempo y transversales.
D) Datos en panel, longitudinales o en micropanel.
Son un tipo especial de datos combinados en el cual se estudia a través del tiempo la misma unidad transversal (por
ejemplo, una familia o una empresa).
La calidad de los datos es absolutamente fundamental para la investigación económica. el investigador debe tener siempre
en mente que el resultado de la investigación será tan bueno como lo sea la calidad de los datos. Por tanto, si en algunas
situaciones los investigadores concluyen que los resultados de la investigación son “insatisfactorios”, la causa puede ser la
mala calidad de los datos y no un modelo equivocado. Por desgracia, debido a la naturaleza no experimental de los datos
de la mayoría de los estudios de ciencias sociales, los investigadores con frecuencia no tienen más remedio que depender
de la información disponible. Sin embargo, siempre deben tener presente que los datos pueden no ser los mejores y tratar
de no ser muy dogmáticos sobre los resultados de un estudio dado, sobre todo cuando la calidad de los datos no es
confiable.
5) DIFERENCIA ENTRE DISCREPANCIA y PERTURBACIÓN ALEATORIA
ui = Yi – β1 – β2Xi es la perturbación estocástica (un variable aleatoria no observable que adopta valores positivos o
negativos) Es el error en la explicación de Y a través del modelo o ecuación propuestos. Da carácter aleatorio a la relación
teórica lo que permite efectuar su análisis utilizando técnicas estadísticas. La perturbación estocástica es una variable no
observable, pues depende de los parámetros β1 y β2 que son desconocidos.
u i Yi 1 2 · X i son los errores, discrepancias o residuos. A partir de la información muestral se obtienen
estimaciones de los parámetros β1 y β2 ( 1 y 2 ) y con ellos de las discrepancias, que son los errores en la
explicación de Y a través del modelo estimado. Coincide con una medida del ciclo cuando se está midiendo la
tendencia lineal, es decir, cuando X es el tiempo.
La perturbación estocástica tiene una utilidad teórica; la discrepancia tiene un valor empírico. u i es un
estimador de ui
Nota: Se han puesto las fórmulas de perturbación y discrepancia para un modelo de dos variables.
6) ¿QUÉ REPRESENTA LA PERTURBACIÓN ESTOCÁSTICA?
ui representa la influencia combinada (sobre la variable dependiente Y) de un gran número de variables
independientes que no se introdujeron explícitamente en el modelo de regresión. Se espera que la influencia de
estas variables omitidas o descartadas sea pequeña (en caso contrario habría que introducirlas en el modelo o
estaríamos cometiendo un “error de sesgo”) y, en el mejor de los casos, aleatoria.
Gracias al conocido teorema central del límite (TCL) en estadística se puede demostrar que, si existe un gran
número de variables aleatorias independientes con idéntica distribución, entonces, con pocas excepciones, la
distribución de su suma tiende a ser normal a medida que se incrementa al infinito el número de tales variables.
Este teorema del límite central es el que proporciona una justificación teórica para el supuesto de normalidad de
ui.
7) HIPÓTESIS BÁSICAS DEL MODELO CLÁSICO DE REGRESIÓN LINEAL
Los siguientes supuestos se refieren a la FRP:
1) Modelo de regresión lineal: El modelo de regresión es lineal en los parámetros, aunque puede o no ser lineal
en las variables. Es decir, el modelo de regresión como se muestra en la ecuación: Yi = β1 + β2 Xi + ui
Este modelo puede extenderse para incluir más variables explicativas. La regresada “Y” y la regresora “X”
pueden no ser lineales.
2) Valores fijos de X, o valores de X independientes del término de error: Los valores que toma la regresora X
pueden considerarse fijos en muestras repetidas (el caso de la regresora fija), o haber sido muestreados junto
con la variable dependiente Y (el caso de la regresora estocástica). En el segundo caso se supone que la(s)
variable(s) X y el término de error son independientes, esto es, cov(Xi, ui) = 0.
3) El valor medio de la perturbación ui es igual a cero: Dado el valor de Xi, la media o el valor esperado del
término de perturbación aleatoria ui es cero. Simbólicamente, tenemos que E(ui|Xi) = 0 o, si X no es estocástica,
E(ui ) = 0
4) Homoscedasticidad o varianza constante de ui: La varianza del término de error, o de perturbación, es la
misma sin importar el valor de X. Simbólicamente, tenemos que Var (ui)= E(ui2) = σ2
FALTA ESTE OTRO: No existe multicolinealidad perfecta entre las variables explicativas.
5) No hay autocorrelación entre las perturbaciones: Dados dos valores cualesquiera de X, Xi y Xj (i ≠ j ), la
correlación entre dos ui y uj cualesquiera (i ≠ j ) es cero. En pocas palabras, estas observaciones se muestrean de
manera independiente. Simbólicamente, cov(ui, uj) = 0, donde i y j son dos observaciones diferentes y “cov”
significa covarianza.
6) Perturbación estocástica ui normalmente distribuida con
Media: E(ui ) = 0
Varianza: E[ui − E(ui)]2 = E(ui)2 = σ2
Cov(ui, uj): E{[(ui − E(ui)][uj − E(uj )]} = E(ui uj ) = 0 i ≠ j
Estos supuestos se expresan en forma más compacta como ui N(0, σ2)
7) El número de observaciones n debe ser mayor que el número de parámetros por estimar: Sucesivamente, el
número de observaciones n debe ser mayor que el número de variables explicativas.
8) La naturaleza de las variables X: No todos los valores X en una muestra determinada deben ser iguales.
Técnicamente, var(X) debe ser un número positivo. Además, no puede haber valores atípicos de la variable X, es
decir, valores muy grandes en relación con el resto de las observaciones.
8) TEOREMA DE GAUSS‐MARKOV
Establece que, dados los supuestos del modelo clásico de regresión lineal, los estimadores de mínimos
cuadrados, dentro de la clase de estimadores lineales insesgados, tienen varianza mínima, es decir, son MELI.
En la figura se presenta la distribución muestral del estimador de MCO 2 , es
decir, la distribución de los valores asumidos por 2 en experimentos repetidos
de muestreo. Como indica la figura, la media de los valores 2 [ E ( 2 ) ], es
igual al verdadero β2. En esta situación se dice que 2 es un estimador
*
insesgado de β2. En la figura b) se aprecia la distribución muestral de 2 ,
estimador alterno de β2, obtenido con otro método (diferente al de MCO). Por
*
conveniencia, suponga que 2 también es insesgado, es decir, que su valor
*
promedio o esperado es igual a β2. Supongamos además que 2 y 2 son
estimadores lineales, es decir, funciones lineales de Y. ¿Cuál estimador
*
escogería 2 ó 2 ? Para responder, sobreponga las dos figuras, como en c).
*
Es obvio que si bien ambos son insesgados, la distribución de 2 está más
difusa o dispersa alrededor del valor de la media que la distribución de 2 . En
*
otras palabras, la varianza de 2 es mayor que la varianza de 2 . Dados dos
estimadores a la vez lineales e insesgados, sería preferible el estimador con la
menor varianza, porque es probable que esté más cercano a β2, que el
estimador alterno. En resumen, se escogería el estimador MELI.
9) INTERPRETACIÓN CONJUNTA DEL TEST F Y DE LOS CONTRASTE INDIVIDUALES DE LA t
La aceptación de la hipótesis nula del test de la F, H0 : β2 = ∙ ∙ ∙ = βk = 0, puede ser debida a:
a) Independencia de la variable explicada frente a todos los regresores.
b) Existe dependencia no lineal de la variable explicada frente a algún regresor.
El rechazo de la hipótesis nula del test de la F signica que la variable explicada depende linealmente de alguno
de los regresores. Para saber cuál o cuáles de los regresores explican signicativamente a la variable dependiente
es necesario atender a los contrastes individuales de la t.
La siguiente tabla contiene el conjunto de los casos posibles al realizar el test de la F y los contrastes de la t en
regresión múltiple:
Caso 1: Cuando el contraste de la F es signicativo y todos los contrastes de la t también lo son, se interpreta que
todos los regresores influyen signicativamente en la variable explicada.
Caso 2: Si el contraste de la F es signicativo y sólo algunos de los regresores lo son, se interpreta que los
regresores no signicativos deben ser eliminados del modelo, o bien transformados si se intuye relación de
dependencia no lineal entre la variable dependiente y alguno de ellos.
Caso 3: Cuando el test de la F es signicativo y ninguno de los contrastes individuales lo es, se da una situación
paradójica que, frecuentemente, se origina por un problema denominado multicolinealidad.
Casos 4 y 5: Si el test de la F es no signicativo y todos o algunos de los contrastes individuales sí lo son, se origina
igualmente una situación paradójica que responden a casos particulares de multicolinealidad.
Caso 6: Si el test de la F no es signicativo y ninguno de los contrastes individuales lo es, no se detecta relación de
dependencia lineal entre la variable explicada y los regresores.
10) ANTES DE REALIZAR UN MODELO DE REGRESIÓN ES NECESARIO VERIFICAR EL CUMPLIMIENTO DE LAS
HIPÓTESIS BÁSICAS DEL MODELO. ¿CÓMO HARÍA USTED ESTO?
Al igual que en el caso de la regresión simple, antes de emplear un modelo de regresión es necesario verificar las
hipótesis básicas del modelo. Esta verificación (diagnosis) se realiza a través del análisis de los residuos. En
particular:
La normalidad del error se analiza realizando el test de normalidad de la prueba de normalidad de
Jarque‐Bera.
Las hipótesis de linealidad, homocedasticidad e independencia se verifican a través del gráfico de
residuos frente a los valores previstos y frente a los valores de los regresores.
La conveniencia de introducir una nueva variable en el modelo se puede analizar por medio del gráfico
de los residuos frente a esta nueva variable.
11) PROPIEDADES DEL COEFICIENTE DE DETERMINACIÓN (R2)
El coeficiente de determinación es una medida de la “bondad del ajuste” de la línea de regresión al conjunto de
datos (cuan bien se ajusta a los datos). Verbalmente, R2 mide la proporción o el porcentaje de la variación total
en Y explicada por el modelo de regresión.
El Coeficiente de determinación tiene las siguientes propiedades:
a) Es una cantidad no negativa.
b) 0 ≤R2≤1. Cuando R2 = 1, la relación entre la variable explicada y los regresores es exacta (ajuste perfecto);
R2= 0 significa que no hay relación alguna entre la variable regresada y la variable regresora (es decir,
2 0 . La mejor predicción de cualquier valor de Y es, simplemente, el valor de su media.
c) R2 × 100 representa el porcentaje de variabilidad de Y explicada por el modelo. Un valor de R2 × 100 bajo
puede ser debido a la omisión de variables explicativas relevantes en el modelo.
d) R2 aumenta siempre con la introducción de nuevas variables en el modelo. Para evitar este inconveniente
se calcula el coeficiente de determinación corregido por grados de libertad.
e) En regresión simple, el coeficiente de determinación es el cuadrado del coeficiente de correlación lineal.
12) ¿POR QUÉ DEBE FORMULARSE EL SUPUESTO DE NORMALIDAD DE ui?
1. ui representa la influencia combinada (sobre la variable dependiente) de un gran número de variables
independientes que no se introdujeron explícitamente en el modelo de regresión. Se espera que la influencia de
estas variables omitidas o descartadas sea pequeña y, en el mejor de los casos, aleatoria. Ahora, gracias al
teorema central del límite (TCL) se puede demostrar que, si existe un gran número de variables aleatorias
independientes con idéntica distribución, entonces, la distribución de su suma tiende a ser normal a medida que
se incrementa al infinito el número de tales variables. Este teorema del límite central es el que proporciona una
justificación teórica para el supuesto de normalidad de ui.
2. Una variante del teorema del límite central establece que, aunque el número de variables no sea muy grande,
o si estas variables no son estrictamente independientes, su suma puede estar aún normalmente distribuida.
3. Con el supuesto de normalidad, se derivan con facilidad las distribuciones de probabilidad de los estimadores
de MCO, pues, una propiedad de la distribución normal es que cualquier función lineal de variables
normalmente distribuidas estará también normalmente distribuida. Como sabemos los estimadores de MCO
1 y 2 son funciones lineales de ui. Por consiguiente, si ui está normalmente distribuida, también lo están ellos,
lo cual hace que la tarea de probar hipótesis sea muy fácil.
4. La distribución normal es una distribución comparativamente sencilla y requiere sólo dos parámetros (la
media y la varianza); es muy conocida y sus propiedades teóricas se han estudiado con amplitud en estadística
matemática. Además, al parecer muchos fenómenos se rigen por la distribución normal.
5. Si trabajamos con una muestra finita o pequeña, con datos de 100 o menos observaciones, la suposición de
normalidad desempeña un papel relevante. No sólo contribuye a derivar las distribuciones de probabilidad
exactas de los estimadores de MCO, sino también permite utilizar las pruebas estadísticas t, F y χ2 para los
modelos de regresión. Si el tamaño de la muestra es razonablemente grande, se puede flexibilizar el supuesto
de normalidad.
6. Por último, en muestras grandes, los estadísticos t y F tienen aproximadamente las distribuciones de
probabilidad de t y F, por lo que las pruebas t y F que se basan en el supuesto de que el término de error está
distribuido normalmente pueden seguir aplicándose con validez.
La diferencia entre la predicción de la media y la individual consiste en sus varianzas ya que sus medias son
exactamente iguales. Al tener diferentes varianzas, evidentemente, también serán distintos los intervalos de
confianza y contrastes.
14) ¿ES NECESARIO QUE LAS UI ESTÉN NORMALMENTE DISTRIBUIDAS PARA QUE LOS
ESTIMADORES DE MCO SEAN MELI?
Los estimadores de MCO son MELI sin importar que las ui estén normalmente distribuidas o no. Con el supuesto
de normalidad, sin embargo, es posible establecer que los estimadores de MCO de los coeficientes de regresión
siguen la distribución normal, que [ˆσ ∙(n − k)/σ2 ] sigue la distribución χ2 y que pueden utilizarse las pruebas t y
F para verificar diversas hipótesis estadísticas, sin importar el tamaño de la muestra.
Entonces se toma en cuenta la siguiente extensión del teorema central del límite (el teorema central del límite
se emplea para justificar el supuesto de normalidad): Si las perturbaciones [ui] son independientes y están
idénticamente distribuidas con media cero y varianza [constante] σ2, y si las variables explicativas son
constantes en muestras repetidas, los estimadores de MC[O] de los coeficientes son asintóticamente normales
con medias iguales a las β correspondientes. Por consiguiente, los procedimientos de prueba usuales —las
pruebas t y F— son aún válidas asintóticamente, es decir, en muestras grandes, pero no en muestras finitas o
pequeñas. Debido a que las muestras pequeñas son la regla más que la excepción cuando se trata de una
muestra finita, se debe realizar la prueba explícita del supuesto de normalidad, por ejemplo la prueba de
Jarque‐Bera de normalidad (a los residuos de la regresión). Por tanto, en muestras finitas sin el supuesto de
normalidad, los estadísticos usuales t y F pueden no seguir las distribuciones t y F.
16) ¿POR QUÉ SUPONE EL MODELO CLÁSICO DE REGRESIÓN LINEAL QUE NO HAY
MULTICOLINEALIDAD ENTRE LAS X?
El razonamiento es el siguiente: Si la multicolinealidad es perfecta, los coeficientes de regresión de las variables
X son indeterminados, y sus errores estándar, infinitos. Si la multicolinealidad es menos que perfecta, los
coeficientes de regresión, aunque sean determinados, poseen grandes errores estándar (en relación con los
coeficientes mismos), lo cual significa que los coeficientes no pueden ser estimados con gran precisión o
exactitud.
Recuerde el significado de 2 : da la tasa de cambio en el valor promedio de Y a medida que X2 cambia en una
unidad, manteniendo X3 constante. Pero si X3 y X2 son perfectamente colineales, no hay forma de que X3 se
mantenga constante: a medida que X2 cambia, también lo hace X3 por el factor λ. Esto significa, entonces, que
no hay forma de desenredar las influencias separadas de X2 y X3 de la muestra dada: para fines prácticos, X2 y X3
son indistinguibles. En el caso de multicolinealidad perfecta, no puede obtenerse una solución única para los
coeficientes de regresión individual.
La multicolinealidad no viola los supuestos básicos de la regresión. Se presentarán estimaciones consistentes e
insesgadas y sus errores estándar se estimarán en la forma correcta. El único efecto de la multicolinealidad tiene
que ver con la dificultad de obtener los coeficientes estimados con errores estándar pequeños. Sin embargo, se
presenta el mismo problema al contar con un número reducido de observaciones o al tener variables
independientes con varianzas pequeñas. (De hecho, en el nivel teórico, los conceptos de multicolinealidad,
número reducido de observaciones y varianzas pequeñas en las variables independientes forman parte esencial
del mismo problema.) Por tanto, la pregunta “¿qué debe hacerse entonces con la multicolinealidad?” es similar
a “¿qué debe hacerse si no se tienen muchas observaciones?” Al respecto no hay una respuesta estadística.
Por supuesto, casi siempre existe cierto grado de colinealidad entre las variables económicas. Con tal de que no
sea exacto se pueden estimar los parámetros del modelo. No hay que preocuparse cuando todos los
coeficientes de las regresoras tienen los signos correctos (los esperados según el modelo económico), cada
coeficiente es muy significativo estadísticamente en lo individual y el valor F también es estadísticamente muy
significativo, lo que indica que, en conjunto, todas las variables tienen efecto significativo en el gasto de
consumo. El valor R2 también es muy alto.
En presencia tanto de autocorrelación como de heteroscedasticidad, los estimadores de MCO usuales, a pesar de
ser lineales, insesgados, consistentes (conforme el tamaño de la muestra se aumenta de manera indefinida el
valor estimado converge al verdadero) y tener distribución asintóticamente normal (es decir, en muestras
grandes), dejan de tener varianza mínima entre todos los estimadores lineales insesgados. En resumen, no son
eficientes en relación con los demás estimadores lineales e insesgados. Dicho de otro modo, es posible que no
sean los mejores estimadores lineales insesgados (MELI). Como resultado, las pruebas usuales t, F y χ2 pueden
no ser válidas. Para obtener estimadores MELI se puede utilizar el método de los mínimos cuadrados ponderados
o generalizados, si se conocen las variaciones heteroscedásticas; si no se conocen entonces se puede bien
emplear la transformación logarítmica, bien hacer supuestos razonables sobre dichas variaciones
heteroscedásticas o, mejor aún, utilizar estimadores consistentes a la heteroscedasticidad.
21) ¿SEÑALE ALGUNAS RAZONES POR LAS QUE LAS PERTURBACIONES PUEDEN SER
HETEROSCEDÁSTICAS ?
El problema de la heteroscedasticidad se más común en la información de corte transversal (miembros de una
población en un momento dado) que en la de series históricas. Un caso frecuente de incumplimiento de la
varianza constante de las perturbaciones aleatorias se da en los modelos "consumo‐renta". La varianza de las
perturbaciones aumentaría con la renta pues cabe considerar que los agentes económicos consumidores con
mayores rentas tengan consumos más variados. También se sabe que en el caso de series históricas, las variables
medidas en unidades monetarias nominales experimentan mayor dispersión en su evolución temporal.
Guajarati añade otras razones a las anteriores:
1.‐ Aprendizaje de errores: a medida que la gente aprende disminuyen sus errores de comportamiento con el
tiempo.
2.‐ Mayor variabilidad en las empresas con mayores beneficios: Las empresas orientadas al crecimiento
probablemente presentarán una mayor variabilidad en sus tasas de pagos de dividendos que las empresas
ya establecidas.
3.‐ La reducción de la dispersión con la mejora de los procesos de recogida de datos.
4.‐ La presencia de datos atípicos o aberrantes.
5.‐ La no correcta especificación del modelo de regresión.
6.‐ La asimetría en la distribución de una o más regresoras (X) incluidas en el modelo: es bien sabido que la
distribución del ingreso y la riqueza en la mayoria de las sociedad es desigual pues la mayor parte del
ingreso o la riqueza corresponde a individuos correspondientes a los estratos superiores.
7.‐ Incorrecta transformación de los datos o utilizar una forma funcional incorrecta (por ejemplos, modelos
lineales frente a modelos log‐lineales).
Los supuestos en los que se basa son los siguientes:
1.‐ El modelo de regresión incluye el término del intercepto.
2.‐ Las variables explicativas X son no estocásticas: El problema más grave de la prueba d es el supuesto de
que las regresoras son no estocatiscas, es decir, sus valores son fijos para muestras grandes. Este supuesto
a menudo resultad dificil de sostener en los modelos con datos de series de tiempos. En este caso es mejor
utilizar la prueba de Breusch‐Godfrey que es general porque permite regresoras no estocásticas)
3.‐ Las perturbaciones ut han de generarse mediante el esquema autorregresivo de primer orden (no se
puede utilizar para esquemas autorregresivos de orden superior)
4.‐ Se supone que el término del error ut está normalmente distribuido.
5.‐ El modelo de regresión no incluye valores rezagados de la variable dependiente como una variable
explicativa.
6.‐ No hay observaciones a las que le falten datos (si por alguna razón en una regresión faltara datos de
alguna observación el estadístico DW no permitiría la ausencia de tales observaciones)
1) Regresoras no estocásticas
2) Valores rezagados de las variables regresadas
3) Esquemas autorregresivos de mayor orden que AR(1) tales como AR(2), AR(3), etc.
4) Promedios móviles simples o de orden superior de los términos de et (et = "error de ruido blanco", es
decir, satisface todos los supuestos clásicos, a saber, E(et)=0; Var(et)= σe2; y Cov(et,et+s) = 0
Es falsa ya que la autocorrelación no solo abarca las relaciones entre los términos del error actuales y anteriores
sino que también abarca las varianzas de los errores actuales y anteriores. Si la varianza del error está
relacionada con el término del error al cuadrado en el periodo anterior se denomina heteroscedasticidad
condicional autorregresiva (ARCH); si la varianza del error está relacionada con los términos del error al cuadrado
de varios periodos en el pasado (GARCH).
Con la utilización de ordenadores, el contraste de hipótesis puede contemplarse desde otra perspectiva mucho
más racional. Así, los programas de ordenador suelen ofrecer, junto al estadístico de contraste una probabilidad.
Esta probabilidad, a la cual se le denomina “valor‐p” (p‐value) ‐es decir, valor de probabilidad‐, también es
conocida como nivel de significación crítico o exacto, o probabilidad exacta de cometer un error de tipo I. Más
técnicamente, el valor‐p se define como el más bajo nivel de significación al que puede ser rechazada una
hipótesis nula.
Una vez que el valor‐p ha sido determinado, sabemos que la hipótesis nula se rechaza para cualquier nivel de
significación α ≥ (valor‐p); por el contrario, la hipótesis nula no se rechaza cuando α<(valor‐p). Por lo tanto, el
valor‐p es un indicador del nivel de admisibilidad de la hipótesis nula: cuanto mayor sea el valor‐p, más confianza
podemos tener en la hipótesis nula. El uso de valor‐p cambia por completo el enfoque en el contraste de
hipótesis. Así, en lugar de fijar a priori el nivel de significación, se calcula el valor‐p, que nos permite determinar
los niveles de significación para los que se rechaza la hipótesis nula.
27) EXPLIQUE LAS VENTAJAS E INCONVENIENTES DE LA UTILIZACIÓN DE LOGARITMOS EN LOS MODELOS
ECONOMÉTRICOS
Algunas variables se utilizan a menudo en forma logarítmica. Así es en el caso de las variables monetarias que,
en general, son positivas o de otras variables con valores elevados. La utilización de modelos con
transformaciones logarítmicas tiene además sus ventajas. Una de ellas es que los coeficientes tienen
interpretaciones atractivas (elasticidades o semi‐elasticidades). Otra es la invariancia de los coeficientes de
pendiente cuando hay cambios de escala en las variables. Tomar logaritmos puede
ser conveniente debido a que reduce el rango de las variables, lo que hace que las estimaciones sean menos
sensibles a los valores extremos de las variables. Los supuestos del MLC se satisfacen más a menudo en modelos
que aplican logaritmos a la variable endógena, que en los modelos que no aplican ninguna transformación. Así,
sucede que la distribución condicional de y es frecuentemente heteroscedástica, mientras que ln(y) puede ser
homoscedástica.
Una limitación de la transformación logarítmica es que no se puede utilizar cuando la variable original toma
valores cero o negativos. Por otro lado, algunas variables que se miden en años y en otras variables que son una
proporción o un porcentaje, se utiliza la variable original sin ninguna transformación.
Para el modelo con error de sesgo deberíamos obtener la matriz de β a través de (X`X)-1 ·X’y pero,
sabemos que, para un modelo de dos variables regresoras:
Los estimadores de MV y MCO de los coeficientes de regresión, los β, son idénticos, y esto es válido para
regresiones simples al igual que para las regresiones múltiples.
ui
El estimador de MV de σ es , independientemente del número de variables del modelo. Este
2
n
ui
estimador es sesgado. El estimador de de MCO de σ2 para un modelo de k variables es , que es
(n k )
insesgado. En resumen, el estimador MCO tiene en cuenta el número de grados de libertad mientras que el
MV no.
Al comparar estos dos estimadores de σ2, se ve que, conforme aumenta el tamaño de la muestra n, los dos
estimadores de σ2 tienden a ser iguales. Por tanto, asintóticamente (es decir, a medida que n crece
indefinidamente), el estimador MV de σ2 también es insesgado y tiende al mismo valor que el MCO.
Los valores que toma la regresora X pueden considerarse fijos en muestras repetidas (el caso de la
regresora fija) o haber sido muestreados junto con la variable dependiente Y (el caso de la regresora
estocástica).
Con carácter general puede concluirse:
1) Si se supone que la(s) variable(s) Xi y el término de error ui son independientes, esto es, cov(Xi,ui) =
0, entonces las propiedades estadísticas de los mínimos cuadrados del modelo de regresora fija
siguen siendo válidos y los estimadores MCO son insesgados y consistentes.
2) Si los regresores Xi son estocásticos y están incorrelacionados contemporáneamente con las
perturbaciones ui, los estimadores MCO son sesgados para muestras finitas pero siguen siendo
consistentes.
3) Si los regresores Xi son estocásticos y están correlacionados para los valores sucesivos de ui,
entonces los estimadores son sesgados e inconsistentes.
Se comprueba a continuación la insesgadez del primer caso y la sesgadez del segundo:
Sabemos que = (X’X)‐1 (X`Y) y también que Y= Xβ + U por tanto, sustituyendo Y en la primera
obtenemos = (X’X)‐1 X`(Xβ + U) = (X’X)‐1 (X`X)β + (X’X)‐1 X`U = β + (X’X)‐1 X`U
Por tanto ( X ' X ) 1 · X 'U
Tomando la esperanza matemática:
E
E ( X ' X ) · X 'U E c.q.d. insesgadez (puesto que E[U] = 0
1
En cambio, en caso de no ser independientes, el estimador sería sesgado lo cual es evidente puesto que
E dependería no E[U] = 0 sino de E X i ,U i 0
En cuando a la matriz de Varianzas‐Covarianzas:
'
Var Cov ( ) E · E ( X ' X ) 1 · X 'U · ( X ' X ) 1 · X 'U
E ( X ' X )
' 1
· X 'UU ' X ( X ' X ) 1
2 · E ( X ' X ) 1
Por tanto, ya no sería estimador ELIO (Estimador Lineal Insesgado Óptimo) porque no tendría varianza
mínima.
Se demuestra ahora la consistencia si los regresores Xi son estocásticos y están incorrelacionados
contemporáneamente con las perturbaciones ui:
Y = Xβ + U
Sabemos que = (X’X)‐1 (X`Y) y también que Y= Xβ + U por tanto, sustituyendo Y en la primera
obtenemos = (X’X)‐1 X`(Xβ + U) = (X’X)‐1 (X`X)β + (X’X)‐1 X`U = β + (X’X)‐1 X`U
( X ' X ) 1 X 'U
Por tanto ( X ' X ) 1 · X 'U ·
n n
donde, en el segundo paso, dividimos (X’X)‐1 y (X’U) entre el número total de observaciones en la muestra, n,
de manera que (X’X)‐1 son la varianza‐covarianza muestral de X.
Un estimador es consistente si el límite de su probabilidad, o plím para abreviar, es igual a su verdadero
valor (poblacional):
X 'U
p lim
p lim n c.q.d. la consistencia del estimador
( X ' X ) 1
p lim
n
Pues los términos de varianza‐covarianza de X, por la hipótesis de convergencia, tiene un límite finito y los
términos X’U/n son nulos si se acepta la hipótesis de insesgadez.
Finalmente, si los regresores Xi son estocásticos y están correlacionados para los valores sucesivos de ui,
entonces los estimadores son sesgados e inconsistentes por ser las X estocásticas. En este caso no se
debería utilizar MCO sino aplicar el modelo neoclásico de regresión lineal (MNRL)
EXAMEN Septiembre 2012
3.‐ Describa Brevemente el test de Goldfeld‐Quandt indicando para qué se emplea.
El test de Goldfeld-Quandt se usa para contrastar la hipótesis de homocedasticidad. Es aplicable si se supone que la
varianza heteroscedástica, i2 , está relacionada positivamente con una de las variables explicativas en el modelo de
regresión.
Por simplicidad, consideramos el modelo usual con dos variables: Yi =β1 + β2·Xi + ui
Supongamos que i2 está relacionado positivamente con X , en la forma i2 2 · X i2 donde σ es una constante. Este
i
2
supuesto postula que i es proporcional al cuadrado de la variable X, es decir, que i sería mayor mientras mayores
2 2
fueran los valores de Xi. Si éste resulta ser el caso, es muy probable que haya heteroscedasticidad.
Para probar esto explícitamente, Goldfeld y Quandt sugieren los siguientes pasos:
Pa so 1 : Ordenar las observaciones de acuerdo con los valores de Xi, a partir del valor más bajo de X.
Pa so 2 : Omitir las “c” observaciones centrales y dividir las observaciones restantes (n − c) en dos grupos. Cada uno
tendra, por tanto, (n − c)/2 observaciones.
Pa so 3 : Realizar por separado las regresiones por MCO a las primeras (n − c)/2 observaciones y a las últimas (n − c)/2
observaciones y obtener las respectivas sumas de cuadrados residuales SCR1 y SCR2; SCR1 representa la SCR de la
regresión correspondiente a los valores más bajos de Xi (el grupo de varianza pequeña), y SCR2, a los valores más
grandes de Xi (el grupo de varianza grande). Cada SCR tiene los siguientes grados de libertad:
( n c) ( n c 2k )
k o lo que es lo mismo gl
2 2
donde k es el número de parámetros que deben estimarse, incluido el intercepto.
Pa so 4 : Calcule la razón:
SCR 2
gl
SCR1
gl
Si suponemos que las ui están normalmente distribuidas y si el supuesto de homoscedasticidad es válido, entonces se
( n c 2k )
demuestra que λ sigue la distribución F con un número de gl en el numerador y denominador igual a
2
Si en una aplicación λ (= F) calculada es superior al F crítico en el nivel de significancia seleccionado, podemos rechazar
la hipótesis de homoscedasticidad, es decir, podemos afirmar que la heteroscedasticidad es muy probable.
4.‐ Estimación por el Método de Máxima Verosimilitud.
El método de máxima verosimilitud (MV) es una alternativa al método de mínimos cuadrados. Definimos primero el
concepto "función de verosimilitud".
Sea una muestra aleatoria simple de tamaño n (X1,X2,..,Xn) procedente de una población con función de densidad f(x;β)
donde β es un parámetro desconocido. Definimos la función de verosimilitud de n variables aleatorias denotada como
L(x;β) a la fu n ción de de n sida d con j u n t a de dichas n variables. Como en el caso de una muestra aleatoria simple las
variables X1,X2,..,Xn son independientes:
n
L( x; ) L( x1 , x2 ... xn ; ) f (x ; )
i 1
i
Para utilizar el método de MV se hace el supuesto de que las ui siguen una distribución normal. La función de densidad
de una distribución normal de media "µ" y varianza "σ2 " [N(µ; σ2)] es:
Por tanto, la función de densidad conjunta para n observaciones es:
( xi ) 2
1
·
1 2· 2
f ( x)
n
· e
n · 2
es decir, la función de densidad conjunta es el producto de las n funciones de densidad individuales.
Supongamos ahora el modelo de regresión de k variables:
Yi 1 2 X 2i ..... ki ui
donde las Yi son independientes y normalmente distribuidas con media 1 2 X 1i ..... y varianza σ2. La función
de densidad conjunta es, por tanto:
(Yi 1 2 X 2 i .... k X ki ) 2
1
·
1 2· 2
f (Yi )
n
· e
n · 2
El método de máxima verosimilitud, como su propio nombre indica, consiste en estimar los parámetros desconocidos de
manera que la probabilidad de observar las Y dadas sea lo más alta (o máxima) posible. Por consiguiente, se tiene que
encontrar el máximo de la función en la ecuación anterior. Es un ejercicio de cálculo diferencial. Para la diferenciación, es
más fácil expresar la citada ecuación en términos de la función logaritmo de la siguiente manera:
Al diferenciar parcialmente esta expresión respecto a 1 , 2 ,..... k y 2 obtenemos las siguientes (k+1)
ecuaciones:
Al igualar estas ecuaciones a cero (la condición de primer orden para el máximo) y definiendo
2
1 , 2 ,... k y como estimadores MV obtenemos, después de simples manipulaciones algebraicas:
que son precisamente las ecuaciones normales de la teoría de mínimos cuadrados. Por consiguiente, los estimadores de
MV, los , son los mismos que los estimadores de MCO.
Sustituyendo los estimadores de MV obtenidos en las “k” primeras ecuaciones (idénticos a los de MCO) en la ecuación
“k+1” obtenemos el estimador de MV de σ2:
2
El modelo clásico de regresión lineal supone que no existe autocorrelación en las perturbaciones ui.
Simbólicamente:
Por tanto, el término de perturbación relacionado con una observación cualquiera no recibe
influencia del término de perturbación relacionado con cualquier otra observación. Sin embargo, si
existe tal dependencia (modelos con perturbaciones autocorrelacionadas), hay autocorrelación.
Simbólicamente:
Se considera que la autocorrelación es un problema propio de series históricas, pues las
observaciones en estos datos siguen un ordenamiento natural respecto del tiempo, de modo que
es muy posible que las observaciones sucesivas muestren intercorrelaciones, sobre todo si el
intervalo entre observaciones sucesivas es muy corto (día, semana o mes en lugar de año)
La presencia de autocorrelación se debe a los siguientes factores:
1. Inercia del sistema: Las series de tiempo (PNB; producción; empleo) presentan ciclos
económicos. Es probable que en las regresiones que consideran datos de series de tiempo
las observaciones sucesivas sean interdependientes
2. Sesgo de especificación: Debido bien a la omisión de algún regresor, bien a retardos en
alguno de los regresores bien en una forma funcional incorrecta.
3. Transformación de datos: La autocorrelación puede inducirse como resultado de
transformar el modelo original (p. ej., la transformación en primeras diferencias)
4. Manipulación de datos: Por ejemplo, aplicar medias moviles para desestacionalizar las
series históricas o la interpolación/extrapolación de datos.
Los casos de autocorrelación que más se estudian son aquellos definidos por algún tipo de relación
lineal entre las perturbaciones. El más importante y sencillo de todos ellos es el denominado
esquema autorregresivo de primer orden AR(1) de Markov que se define cuando las
perturbaciones ut verifican la relación:
AR(1): ut = ρ∙ut‐1 + εt con |ρ| < 1 y εt N[0;σε] e independientes [1]
En este caso se puede demostrar que:
1) E(ut) = 0
2) = constante
3)
Donde ρ es el coeficiente de autocorrelación de primer orden y se corresponde con el coeficiente
de pendiente en la regresión de ut sobre ut−1 en [1].
La autocorrelación tiene consecuencias sobre las propiedades de los estimadores. En presencia
tanto de autocorrelación (al igual que de heteroscedasticidad) los estimadores de MCO usuales, a
pesar de ser lineales, insesgados y tener distribución asintóticamente normal (es decir, en muestras
grandes), dejan de tener varianza mínima entre todos los estimadores lineales insesgados. En
resumen, no son eficientes. Es posible que no sean los mejores estimadores lineales insesgados
(MELI) y como resultado, las pruebas usuales t, F y χ2 pueden no ser válidas.
Se demostrará a continuación, bajo el supuesto de autocorrelación, la insesgadez del estimador y
se determinará su varianza.
Si Cov(ut,ut+s) = E(ut,ut‐s) ≠ 0 los elementos de la matriz E(uu’) serían distintos de cero, es decir,
serán de la forma E(ut,ut+s) = ρsσ2 (pues la correlación entre ut y ut+s es ρs). Si se conserva el
supuesto de homoscedasticidad los elementos de la diagonal seguirán siendo σ2. En lenguaje
matricial:
E(uu’) =
Se sigue cumpliendo que E(ut) = 0. La nueva matriz de varianzas‐ covarianzas se representa como
Var‐Cov (uu’) = σ2Ω.
1.‐ Insesgadez:
( X `X ) 1 X `Y ( X `X ) 1 X `( X U ) ( X ' X ) 1 X 'U
E ( X `X ) 1 E U c.q.d.
2.‐ Varianza:
Var Cov E ( )( ) ' E ( X ' X ) 1 X 'U ) ( X ' X ) 1 X 'U ) ( X ' X ) 1 X ' E (UU ' ) X ( X ' X ) 1
'
Var Cov ( X ' X ) 1 X ' 2 X ( X ' X )
que difiere de σ2∙(X’X)‐1 bajo el supuesto de no autocorrelación.
Si al aplicar el contraste de Durbin‐Watson se detectase la presencia de autocorrelación de primer
orden de Markov (AR1), sabiendo en este caso la falta de eficiencia de los estimadores de MCO,
hemos de corregir el problema.
Simplificando para un modelo de dos variables, supongamos que la especificación correcta del
modelo es:
[1]
y que el término del error sigue un modelo autorregresivos AR1: ‐1<ρ<1
Una posible solución sería transformar adecuadamente el modelo. Si [1] es válida para el tiempo
“t” también los será para “t‐1”, es decir:
Multiplicando esta última por ρ en ambos miembros:
y restado a [1] esta última ecuación tenemos:
donde A la ecuación anterior se la conoce como ecuación en diferencias.
Si realizamos a la misma la siguiente transformación:
donde
resultado un modelo transformado del original con las siguientes características:
‐ Es un modelo de regresión lineal simple que satisface los supuestos de MCO. Por tanto, los
estimadores del modelo transformado son MELI.
‐ Las nuevas perturbaciones aleatorias son: ut – ρ∙ut‐1 = εt N[0;σε] e independientes, no
existiendo problema de autocorrelación.
‐ Se pierde la primera observación (la primera observación no tiene una anterior) Para evitar
dicha pérdida la primera observación se transforma de la siguiente forma:
Para obtener los parámetros originales desde el modelo transformado hemos de recordar que en
un esquema AR1:
Aunque esta solución es muy sencilla en la práctica pocas veces se conocer ρ. Por tanto se
requieren formas de estimarlo para, después, aplicar la transformación. Hay varias posibilidades:
1.‐ Método de primeras diferencias:
Como ‐1<ρ<1 partimos de la suposición de que toma ρ toma el valor extremo ρ=1. En este caso la
ecuación en diferencias de arriba toma el valor particular:
Ahora el término de error está libre de correlación serial. Por tanto, todo lo que hay que hacer es
calcular las primeras diferencias tanto de la regresada como de la regresora y se realiza la regresión
sobre estas primeras diferencias.
Este método solo es válido para valores de ρ muy altos (superiores a 0,8) o si el estadístico DW es
muy bajo. Un característica importante del modelo es que carece de intercepto.
2.‐ ρ basado en el estadístico d (Durbin‐Watson):
Si ρ no está lo suficientemente cerca de la unidad y no se puede utilizar el método anterior de las
primeras diferencias se puede estimar éste de forma aproximada a través de la siguiente relación:
Esta relación solo es aplicable en muestras grandes. Para muestras pequeñas Theil y Nagar
proponen esta otra relación:
(k= número de coeficientes a estimar, incluido el intercepto; n= número de observaciones; d=
estadístico Durbin‐Watson)
3.‐ ρ estimado a partir de los residuos:
Puesto que el esquema autorregresivo de primer orden AR(1) de Markov que se define cuando las
perturbaciones ut verifican la relación
ut = ρ∙ut‐1 + εt
se observa que ρ no es más que la pendiente de la regresión ut frente a ut‐1
n
u u t t 1
t 2
n 1
u t 1
2
t
4.‐ Métodos iterativos:
Los más comunes son el procedimiento iterativo de Cochrane‐Orcutt, el procedimiento de dos
pasos de Durbin y el procedimiento de rastreo o de búsqueda de Hildreth‐Lu.
a) Procedimiento iterativo de Cochrane‐Orcutt: Cochrane‐Orcutt recomiendan lo siguiente
para estimar ρ:
1.‐ Con el procedimiento habitual de MCO haga la regresión y obtenga los residuos ut
2.‐ Con los residuos calculados anteriormente haga esta otra regresión:
3.‐ Con el obtenido calcule la ecuación en diferencias generalizadas.
b) Método de Durbin:
Partiendo de la ecuación en diferencias, esto es:
se desuella Yt quedando una ecuación de regresión múltiple:
c) Método de Hildreth‐Lu:
d)
INDIQUE LA RELACIÓN ENTRE LA RAZÓN DE VON NEUMANN y EL ESTADISTICO DW
La razón de Von Neumann (η) fue utilizada inicialmente para determinar la existencia de
autocorrelación de primer orden. Se basa en la distribución en el muestro del cociente entre la
media cuadrática de las diferencias sucesivas definidas por
y la varianza:
Por tanto:
Para n grande η sigue una distribución normal con esperanza matemática próxima a 2. Es aplicable
para medir la autocorrelación entre los valores sucesivos de una variable endógena observada.
Aplicarlo a perturbaciones aleatorias ut medidas por las discrepancias de la regresión sería
inadecuado.
El estadistico DW esta definido como:
Por tanto la relación entre uno y otro es:
Por tanto, D/ σ2 es el cociente de (n‐k) variables aleatorias distribuidas como N(0,1) elevadas al
cuadrado (puesto que las perturbaciones se distribuyen según una distribución normal). Por tanto,
se distribuirá como una Chi‐cuadrado con (n‐k) grados de libertad.
Se utiliza para contrastar hipótesis (construir intervalos de confianza) sobre la varianza de las
perturbaciones aleatorias (σ2)
ESTIMACIÓN CON MODELOS CON PERTURBACIONES AUTOCORRELACIONADAS
MODELOS CON PERTURBACIONES AUTOCORRELACIONADAS
REVISIÓN HIPÓTESIS AUTOCORRELACIÓN
Nota: Hablando con el Equipo Docente me indican que: 1) las tres son la misma pregunta pero expresadas de forma diferente 2) hay que mencionar
todo aunque no sea en detalle pues sino la puntuación no será máxima e irán restando en proporción a la información omitida.
La no correlación entre las perturbaciones estocásticas es un supuesto del modelo clásico de
regresión lineal. Si este supuesto se incumple los valores de las ui están autocorrelacionados.
Simbólicamente: E(ui , uj) ≠ 0 ( i ≠ j)
Se considera que la autocorrelación es un problema propio de las series históricas pues las
observaciones siguen un orden natural respecto al tiempo de modo que es muy posible que haya
intecorrelaciones entre observaciones sucesivas, en particular si el tiempo es corto (día, semana, o
mes en lugar de años)
La presencia de autocorrelación se debe a los siguientes factores:
1) Inercia del sistema: P. ej., en series de tiempo de PNB, producción, empleo, etc.
2) Transformación de datos: P. ej. la transformación en primeras diferencias.
3) Sesgo de especificación: Debido bien a la omisión de algún regresor, bien a retardos en
alguno de los regresores bien en una forma funcional incorrecta.
4) Manipulación de datos: P. ej., al aplicar medias móviles para desestacionalizar o al interpolar /
extrapolar datos.
Los casos de autocorrelación que más se estudian son aquellos definidos por algún tipo de relación
lineal entre las perturbaciones. El más importante y sencillo de todos ellos es el denominado
esquema autorregresivo de primer orden AR(1) de Markov que se define cuando las perturbaciones
ut verifican la relación:
AR(1): ut = ρ∙ut‐1 + εt con |ρ| < 1 y εt N[0 ; σε] e independientes
εt satisface los supuestos clásicos de MCO
donde ρ es el coeficiente de autocorrelación de primer orden y se corresponde con el coeficiente de
la pendiente en la regresión de ut sobre ut−1.
CONSECUENCIAS: La autocorrelación tiene consecuencias sobre las propiedades de los estimadores.
En presencia de autocorrelación (básicamente igual que en presencia de heteroscedasticidad) los
estimadores de MCO usuales, a pesar de ser lineales, insesgados y consistentes dejan de tener
varianza mínima entre todos los estimadores lineales insesgados. En resumen, no son eficientes.
Como resultado las pruebas usuales t, F y χ2 pueden no ser válidas.
1) E
Var Cov X ' X X ' 2 X X ' X donde Var‐Cov (u’u) = σ ∙Ω
1 1 2
2)
que evidentemente difiere de Var Cov 2 X ' X 1 en caso de no autocorrelación.
DETECCIÓN DE LA AUTOCORRELACIÓN:
1.‐ Gráfico de residuos: Un examen visual de las u t puede dar indicación de la presencia de
autocorrelación.
<<27/Mayo/2013>> Intro Econometria. UNED. José Luis Ortega 125
2.‐ Prueba de las rachas: Si ut es aleatoria no deberían observarse rachas de valores (+) ó (‐)
3.‐ Prueba DW de Durbin‐Watson:
0 ≤ DW ≤ 4
Si ρ = 0 entonces DW será aproximadamente 2. La regla de decisión es:
Supuestos: Regresión con intercepto; X no estocástica; AR(1); no hay retardos en la regresada.
4.‐ Prueba de Breusch‐Godfrey: Es un contraste general que evita los problemas del de DW.
Suponiendo un AR(p) se ejecuta de la siguiente manera:
1) Se realiza la regresión normal y se obtienen los u t y a partir de estos los u t 1 ,.... u t p
2) Se realiza la regresión auxiliar de u t sobre todas las Xt originales y las u t 1 ,.... u t p :
y se calcula R2 de esta regresión auxiliar.
3) Hipótesis nula H0: ρ1 = ρ2 =………= ρp = 0
El estadístico [(n‐p) ∙ R2 ] χp2 (asintoticamente)
4) Si el [(n‐p)∙R2] calculado excede el valor crítico en el nivel de significancia seleccionado,
podemos rechazar la hipótesis nula. Por lo menos una ρ en es significativamente
diferente de cero.
MEDIDAS CORRECTORAS:
Si al aplicar el contraste de Durbin‐Watson se detectase la presencia de autocorrelación de primer
orden de Markov (AR1), sabiendo en este caso la falta de eficiencia de los estimadores de MCO,
hemos de corregir el problema.
A.‐ Si se conoce ρ: El problema se resuelve fácilmente utilizando la ecuación en diferencias.
<<27/Mayo/2013>> Intro Econometria. UNED. José Luis Ortega 126
B.‐ Si no se conoce ρ:
1.‐ Método de primeras diferencias: Si suponemos que ρ=1 entonces la ecuación en diferencias de
arriba se transforma en:
Ahora el término de error está libre de correlación serial. Este método solo es válido para valores de
ρ muy altos (superiores a 0,8) o si el estadístico DW es muy bajo. Un característica importante del
modelo es que carece de intercepto.
2.‐ ρ basado en el estadístico DW (Durbin‐Watson):
Esta relación solo es aplicable en muestras grandes.
5.‐ Método de Newey‐West:
Se trata de una generalización de los errores estándar consistentes con heteroscedasticidad de
White. Los errores estándar corregidos se conocen como errores estándar CHA (consistentes con
heteroscedasticidad y autocorrelación) o errores Newey‐West.
MODELOS ARCH y GARCH:
Son modelos en los que la autocorrelación afecta a la varianza σt2. Si la varianza está correlacionada
con un esquema autorregresivos de primer orden sería una modelo ARCH. Si está correlacionada con
varios periodos del pasado sería un modelo GARCH
ESTIMACIÓN DE MODELOS CON PERTURBACIONES HETEROSCEDÁSTICAS
REVISIÓN HIPÓTESIS HOMOSCEDASTICIDAD
Un supuesto básico del modelo clásico de regresión lineal es que la varianza de cada término de
perturbación ui, es constante e igual a σ2. Si este supuesto se incumple hay heteroscedasticidad
(“heteros” = distinta; “cedasticidad” = dispersión) Simbólicamente:
El problema de heteroscedasticidad es más común en la información de corte transversal que en la
de series de tiempo. Hay diversas razones por las cuales las varianzas de ui pueden ser variables,
algunas de las cuales son las siguientes:
1) Aprendizaje de los errores: A medida que la gente aprende disminuyen sus errores de
comportamiento con el tiempo. En este caso, esperamos que σi2 se reduzca.
2) En un modelo ahorro‐renta es posible que σi2 aumente con la renta pues ello implica más
opciones de ahorro (variabilidad)
3) Mejores técnicas de recogida de datos reducen la varianza.
4) La heteroscedasticidad también surge por la presencia de datos atípicos o aberrantes.
5) Sesgo de especificación debido a la omisión del algún regresor relevante, forma funcional
incorrecta o incorrecta transformación de datos (p. ej., primeras diferencias)
6) La asimetría en la distribución de una o más regresoras incluidas en el modelo.
CONSECUENCIAS:
La heteroscedasticidad tiene consecuencias sobre las propiedades de los estimadores. En presencia
de heteroscedasticidad (básicamente igual que en presencia de autocorrelación) los estimadores de
MCO usuales, a pesar de ser lineales, insesgados y consistentes dejan de tener varianza mínima entre
todos los estimadores lineales insesgados. En resumen, no son eficientes. Como resultado las
pruebas usuales t, F y χ2 pueden no ser válidas.
1) E[ ]
2) Var [ ] ( X ' X ) 1 X ' E[u ' u ] X ( X ' X ) 1
si E(u’u) ≠ σ2 entonces evidentemente es diferente a σ2∙(X’X)‐1 y el estimador no es eficiente
DETECCIÓN DE LA HETEROSCEDATISCIDAD:
1.‐ Método Gráfico: Se realiza la regresión con el supuesto de que no hay heteroscedasticidad y se
2 2
2
hayan los u i (representan a los ui ). Posteriormente se grafica u i frente a Yi o frente cualquier de
las variables explicativas Xi para ver si exhiben un patrón sistemátrico. Si no hay patrón
problablemente no haya heteroscedasticidad. Si encontramos un patrón definido (como una
relación cuadrática) es posible transformar el modelo para eliminar la heteroscedasticidad.
2.‐ Prueba de Goldfeld y Quandt: Es aplicable si σi2 esta relacionado con una de las variables
explicativas (σi2 = f[Xi]). Se llevan a cabo los siguientes pasos:
a) Ordenar los valores de Xi a partir del valor más bajo.
b) Omita “c” observaciones centrales (usualmente n/3) y divida las observaciones restantes
(c‐n) en dos grupos cada uno de (c‐n)/2 observaciones.
c) Se estima la regresión en cada uno de los dos grupos y se calculan SCR1 y SCR2. Cada SCR
tiene [(n‐c‐2k)/2] grados de libertad (k = nº de parámetros incluido intercepto)
d) Se calcula la razón:
SCR2
( n c 2k ) 2
F( nc2 k ) 2 (si el supuesio de homoscesdasticidad es válido)
SCR1
( n c 2k ) 2
Si la razón calculada es superior al F crítico en el nivel de significancia seleccionado, podemos
rechazar la hipótesis de homoscedasticidad y afirmar que la heteroscedasticidad es muy
probable.
3.‐ Prueba de Breusch‐Pagan: La idea del contraste es comprobar si se puede encontrar un conjunto
de variable Z que sirvan para explicar la evolución de la varianza de las perturbaciones aleatorias,
estimada ésta a partir del cuadrado de los errores del modelo inicial. Se supone que σi2 está
relacionada con todas las variables explicativas.
Se llevan a cabo los siguientes pasos:
a) Se realiza la regresión del modelo y se obtienen los residuos u1 , u 2 ,.... u n
e) Se obtiene la SCR de la regresión anterior.
1
f) Se calcula la razón: · SCR m2 (asintóticamente)
2
Por consiguiente, si la razón calculada excede al valor crítico χ2 en el nivel de significancia
seleccionado, se rechaza la hipótesis Ho de homoscedasticidad; de lo contrario, no se rechaza.
4.‐ Prueba de White: También se supone que σi2 está relacionada con todas las variables
explicativas. Se llevan a cabo los siguientes pasos:
a) Se realiza la regresión del modelo y se obtienen los residuos u1 , u 2 ,.... u n
b) Se efectúa la regresión auxiliar:
es decir, con el cuadrado de los residuos de la regresión original se hace la regresión sobre las
regresoras X originales, sobre sus valores al cuadrado y sobre el (los) producto(s) cruzado(s)
de las regresoras (esto último es opcional)
c) Se obtiene el coeficiente de determinación R2 de la misma.
d) Se calcula la razón: n · R 2 gl2 (gl = numero de regresoras en la regresión auxiliar)
Si la razón de la razón obtenida excede al χ2 crítico en el nivel de significancia seleccionado, la
conclusión es que hay heteroscedasticidad; si éste no excede no hay heteroscedasticidad.
MEDIDAS CORRECTORAS:
1.‐ Si se conoce σi2 aplicando el método de los mínimos cuadrados ponderados:
Yi 1 2 X 2 ui
Usando el modelo transformado: puesto que
i i i i
<<27/Mayo/2013>> Intro Econometria. UNED. José Luis Ortega 129
2.‐ Si no se conoce σi2:
a) Emplear la transformación logarítmica: Pues comprime las escalas en las que se mide las
variables.
b) Hacer supuestos razonables sobre el patrón de heteroscedasticidad:
Por ejemplo, si la varianza del error es proporcional a Xi2, esto es: se puede
realizar la siguiente transformación:
puesto que ahora:
c) Utilizar estimadores consistentes a la heteroscedasticidad:
La varianza de todo coeficiente de regresión parcial j se calcula mediante la expresión:
siendo u i los residuos de la regresión original y w j son los residuos proporcionados por la
regresión (auxiliar) de la regresora Xj sobre las regresoras restantes en el modelo original.
El empleo de estimadores robustos es la solución que últimamente se emplea más. La ventaja
es sobre todo práctica (la mayoría de los paquetes los calculan automáticamente) En su
contra está el hecho de que el método es válido en muestras grandes y, además, el estimador
podría ser menos eficiente que MCP.
1) Predicción media:
2) Predicción individual:
2
E (Y0 Y 0 ) 2 E ( 1 1 ) X 0 ( 2 2 ) u o
E ( 1 1 ) 2 X 02 · E ( 2 2 ) 2 E (u o ) 2 2· X 0 ·u 0 ·Cov ( 1 , 2 ) 2 E [u 0 ·( 1 1 )] 2 E [u 0 ·( 2 2 )]
E (Y0 Y 0 ) 2 Var ((Y0 Y 0 ) Var ( 1 ) Var ( 2 ) Var (u 0 ) 2 Cov ( 1 , 2 )
Operando se obtiene:
SCEB-SCEA
SCEB
Nota: Problema de “Econometría” Gujarati, 5ª, página 263 (sin resolver)
3 3
t t20 3 Por tanto, si el ee de X3 del enunciado es correcto, entonces el valor de
ee 3
23.195 0
t17 debería ser: t17 5.4257
4.2750
n k
donde m = número de variables adicionales en el modelo completo
n = número de observaciones
k = número de parámetros en el modelo completo
0.9388 0.9776
Por tanto, sustituyendo: F1,17 1 0.0388 29.447481
(1 0.9776) 0.0013176
20 3
Que, básicamente, coincide con el valor esperado de t17. Por tanto, el error estándar de X3 es el
indicado en el enunciado (el signo proviene de que la t tiene una distribución simétrica)
El concepto de grados de libertad. Justificación.
El número de grados de libertad es el número de variables aleatorias muestrales independientes con las que
construimos el estimador. La regla general establece que se pie r de n t a n t os gr a dos de libe r t a d com o pa r á m e t r os
se e st im a n .
Por ejemplo, para estimar la varianza poblacional σ2 usamos su mejor estimador lineal insesgado, esto es, la varianza
muestral, cuya fórmula es:
2 1 n __
· ( X i X ) 2
n 1 1 1
__
Para una muestra aleatoria de tamaño "n", las n variables (Xi X ) no son independientes ya que su suma ha de ser
necesariamente cero, esto es:
n __
( X
11
i X) 0
es decir, el número máximo de variables independientes entre ellas es de n – 1, que son los grados de libertad. Como
se ha estimado la media hay que dividir por (n-1) en lugar de n. Ello se debe a que la media obtenida por MCO, resulta
de minimizar las desviaciones:
n __
( X i X )2
11
__
2· ( X i X )·( 1) 0
X 1 1
que implica la restricción de que la suma de las desviaciones de xi respecto a su media sea nula. Supongamos que n=3.
n __
Dando dos valores cualesquiera ( X i X ) 8 7 ? 0
11
el tercero tiene que ser necesariamente -15 para que
Lo mismo sucede en el caso de una regresión simple donde estimamos los parámetros poblaciones β1 y β2 mediante sus
estimadores MCO lineales e insesgados, esto es
De forma análoga a lo expuesto para el un modelo de regresión simple, para un modelo con k regresores, se perderían k
grados de libertad si se estiman k parámetros.