Guía de Clases
Guía de Clases
Guía de Clases
PABLO”
GUÍA DE CLASES DE
ECONOMETRÍA
Docente: Horacio Villegas Quino
Contenido
Tema 1. Naturaleza de la econometría y el análisis de regresión................................................. 4
1.1 ¿Qué es la econometría?............................................................................................... 4
1.2 ¿Qué es una regresión? ................................................................................................. 4
1.3. Relaciones estadísticas y relaciones deterministas ...................................................... 5
1.4. Regresión y causalidad .................................................................................................. 6
1.5. Regresión y correlación ................................................................................................. 7
1.6. Terminología y notación................................................................................................ 9
1.7. Naturaleza y fuentes de datos para el análisis económico ......................................... 10
1.7.1. Tipos de datos ..................................................................................................... 10
1.7.2. Fuentes de datos ................................................................................................. 12
1.7.3. Precisión de los datos .......................................................................................... 12
Tema 2. Paquetes econométricos ............................................................................................... 13
2.1. GAUSS .......................................................................................................................... 13
2.2. Mathematica ............................................................................................................... 13
2.3. SAS ............................................................................................................................... 15
2.4. Stata ............................................................................................................................ 17
2.5. EViews ......................................................................................................................... 18
Tema 3. Análisis de regresión con dos variables ......................................................................... 19
3.1. Ejemplo Hipotético ...................................................................................................... 19
3.2. Concepto de función de regresión poblacional (FRP) ................................................. 21
3.3. Significado del término lineal ...................................................................................... 22
3.4. Especificación estocástica de la FRP............................................................................ 23
3.5. Importancia del término de perturbación estocástica ............................................... 24
3.6. Función de regresión muestral (FRM) ......................................................................... 26
Tema 4. Estimación de los parámetros de una regresión ........................................................... 27
4.1. Planteamiento ............................................................................................................. 27
4.2. Estimador de Mínimos Cuadrados Ordinarios ............................................................ 27
4.2.1. Derivación no matricial de la expresión de los estimadores MCO...................... 28
4.2.2. Derivación matricial de la expresión de los estimadores MCO........................... 30
4.3. Estimador Máximo Verosímil ...................................................................................... 31
4.4. Interpretación “intuitiva” de los estimadores MCO en la regresión múltiple ............ 33
Tema 5. Propiedades de los estimadores MCO/MV ................................................................... 38
5.1. Introducción ................................................................................................................ 38
1
5.2. Linealidad .................................................................................................................... 39
5.3. Insesgadez ................................................................................................................... 40
5.4. Óptimo (Eficiencia) ...................................................................................................... 40
5.5. Consistencia ................................................................................................................ 45
5.6. Corolario ...................................................................................................................... 45
Tema 6. Estimadores de la varianza de los errores..................................................................... 46
6.1. Estimadores de la varianza de los errores .................................................................. 46
6.2. Estimador insesgado de la varianza de las perturbaciones aleatorias........................ 47
Tema 7. Contrastes de significatividad individual de los parámetros......................................... 51
7.1. Introducción ................................................................................................................ 51
7.2. Intervalo de confianza de los parámetros................................................................... 53
7.3. Contraste del estadístico t .......................................................................................... 54
Tema 8. Contrastes de significación conjunta............................................................................. 57
8.1. Contrastes de significación conjunta a través de una F de Snedecor ......................... 57
Tema 9. Contrastes de significación conjunta a partir del coeficiente de determinación lineal
𝑹𝟐................................................................................................................................................ 65
9.1. Relación entre el contraste de nulidad conjunta de parámetros “F Snedecor” y la 𝑹𝟐 .
..................................................................................................................................... 66
9.2. Contraste de restricción de parámetros a partir del test de Wald ............................. 67
Tema 10: Multicolinealidad......................................................................................................... 69
10.1. ¿Qué es la multicolinealidad? ................................................................................. 69
10.2. ¿Por qué se produce? .............................................................................................. 69
10.3. ¿Cuáles son las consecuencias sobre el MBRL? ...................................................... 70
10.4. ¿Cómo se detecta? .................................................................................................. 71
10.5. ¿Cómo se corrige? ................................................................................................... 73
Tema 11. Heterocedasticidad ..................................................................................................... 75
11.1. ¿Qué es la heterocedasticidad? .............................................................................. 75
11.2. Causas frecuentes de heterocedasticidad .............................................................. 76
11.3. Efectos de la heterocedasticidad sobre el MBRL .................................................... 79
11.4. ¿Cómo se detecta la presencia de Heterocedasticidad? ........................................ 81
11.4.1. Contrastes Gráficos ............................................................................................. 81
11.4.2. Contrastes numéricos ......................................................................................... 83
11.5. ¿Cómo se corrige la heteroscedasticidad? .............................................................. 88
Tema 12: La Autocorrelación ...................................................................................................... 93
12.1. Introducción ............................................................................................................ 93
2
12.2. Detección de la autocorrelación ............................................................................. 94
12.2.1. Aproximación gráfica.......................................................................................... 94
12.2.2. Métodos numéricos ........................................................................................... 96
12.3. Diagnóstico de la regresión ..................................................................................... 99
12.4. Corrección de la autocorrelación .......................................................................... 101
Tema 13: Modelos de elección discreta.................................................................................... 110
13.1. Introducción .......................................................................................................... 110
13.2. Modelo lineal de probabilidad (MLP) .................................................................... 111
13.2.1. Especificación e interpretación del MLP ........................................................... 111
13.2.2. Limitaciones de la estimación por MCO ........................................................... 113
13.3. Modelos de probabilidad no lineal ....................................................................... 114
13.4. Estimación de los parámetros en los modelos Logit ............................................. 116
13.5. Interpretación de los coeficientes: efectos marginales ........................................ 116
13.6. Contraste y validación de hipótesis....................................................................... 117
Tema 14. Introducción a los datos de panel ............................................................................. 120
14.1. Modelos de Efectos Fijos (FE) y Efectos Aleatorios (RE) ....................................... 121
14.2. Estimación con datos de panel estáticos................................................................ 122
14.2.1. Estimación con efectos fijos ............................................................................. 122
14.2.2. Estimación con efectos aleatorios .................................................................... 123
14.3. El test de Hausman ................................................................................................ 124
3
Tema 1. Naturaleza de la econometría y el análisis de regresión
Ejemplo
𝐶 = 𝐶0 + 𝑐𝑌𝐷
𝐶 = Consumo
𝐶0 = Consumo autónomo o fijo
𝑐 = Propensión marginal a consumir (PMC)
𝑌𝐷 = Ingreso disponible Y(1 − t)
4
Gráfico 1: Propensión Marginal a Consumir (PMC)
C = C0+cYD
C0
1
YD
Fuente: Elaboración propia.
Ejemplo
5
Los fenómenos deterministas, por otra parte, implican relaciones como la ley de
la gravedad de Newton.
Fuente: http://www.oklahomahomeschool.com/Math_Internet.html
Esta ley establece que toda partícula en el universo atrae a cualquier otra
partícula con una fuerza directamente proporcional al producto de sus masas e
inversamente proporcional al cuadrado de la distancia entre ellas.
En términos matemáticos:
F = k (m1m2/r2)
Donde;
F es la fuerza,
m1 y m2 son las masas de las dos partículas,
r es distancia y
k es una constante de proporcionalidad
A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable
respecto de otras variables, esto no implica causalidad necesariamente.
Una relación estadística, por más fuerte y sugerente que sea, nunca podrá establecer una
conexión causal: nuestras ideas de causalidad deben provenir de estadísticas
externas y, en último término, de una u otra teoría.
6
Ejemplos
1. En el ejemplo del rendimiento del cultivo citado, no hay una razón estadística
para suponer que la lluvia no depende del rendimiento del cultivo.
Fuente:https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php
Ejemplos de correlación
7
Gráfico 3. Cáncer de pulmón y cigarrillos comprados
Fuente: http://blog.statwing.com/the-ecological-fallacy/
Fuente: https://www.utexas.edu/courses/bio301d/Topics/Correlation/Text.html
8
En el análisis de regresión, en cambio, se trata de estimar o predecir el valor
promedio de una variable con base en los valores fijos de otras.
Las X (X1,X2,…, Xk), las variables explicativas, con Xk como la k-ésima variable
explicativa.
Los subíndices i o t denotan la observación o valor i-ésimo o t-ésimo. Xki (o Xkt) denota
la i-ésima (o la t-ésima) observación de la variable Xk.
Por convención, se utiliza el subíndice de observación i para los datos transversales (es
decir, información recopilada en un momento determinado), y el subíndice t, para datos
de series de tiempo (es decir, información reunida a lo largo de un periodo).
Hay tres tipos de datos disponibles para el análisis empírico: series de tiempo, series
transversales e información combinada (combinación de series de tiempo y
transversales).
Una serie de tiempo es un conjunto de observaciones sobre los valores de una variable
en diferentes momentos.
10
Gráfico 5. PIB a precios de mercado
35.000.000
30.000.000
25.000.000
20.000.000 PIB
15.000.000
10.000.000
1983
1980
1986
1989
1992
1995
1998
2001
2004
2007(p)
2010(p)
Fuente: Elaboración propia en base a datos del INE
2. Datos transversales
3. Datos combinados
Algunas bases de datos tienen características tanto de corte transversal como de series
de tiempo.
Ejemplo
Combinar (o juntar) los cortes transversales de años distintos suele ser una buena
manera de analizar los efectos de las nuevas políticas públicas.
La idea es recolectar datos de años anteriores y posteriores al cambio de la
política.
11
Una combinación de corte transversal se analiza de manera muy parecida a
como se analizan los datos de corte transversal, salvo que suelen tomarse en
cuenta las diferencias que presentan las variables con el tiempo.
Hay un tipo especial de datos combinados en el cual se estudia a través del tiempo la
misma unidad transversal (por ejemplo, una familia o una empresa).
Hay miles de agencias de este tipo que recopilan datos para uno u otro fin.
3. Los métodos de muestreo para obtención de datos llegan a variar tanto que a
menudo es difícil comparar los resultados de las diversas muestras
Por ello se debe tener siempre en mente que el resultado de la investigación será tan
bueno como lo sea la calidad de los datos.
12
Tema 2. Paquetes econométricos
2.1. GAUSS
Fue publicado por primera vez en 1984 para MS-DOS y en la actualidad también está
disponible para Linux, Mac OS X y Windows.
Programación en GAUSS
Fuente: http://www2.hawaii.edu/~suthers/courses/ics311s14/Notes/Topic-21.html
2.2. Mathematica
13
Ejemplos
𝑞 = producto;
𝑓 = factor de productividad;
𝑎 = parámetro de proporción;
𝑘, 𝑙 = factores de producción primarios
(𝑠 − 1)⁄
𝑟= 𝑠 = elasticidad de sustitución
Cuando s = 1, la función de producción de elasticidad constante es equivalente a la
función de producción Cobb Douglas.
Fuente: http://demonstrations.wolfram.com/ConstantElasticityOfSubstitutionProduction/
14
2. Modelo de crecimiento de Solow
Fuente: http://demonstrations.wolfram.com/SolowGrowthModel/
2.3. SAS
Fuente:http://www.sas.com/offices/latinamerica/mexico/technologies/analytics/forecastin
g/ets/index.html
15
Análisis de tendencia: Descomposición estacional y ajuste para series de
tiempo
http://www.sas.com/offices/latinamerica/mexico/technologies/analytics/forecasting/ets/index.html#sectio
n=4
16
2.4. Stata
Análisis de datos
Gestión de datos y gráficos
Fuente: http://www.software-
shop.com/images/img_productos/stata/images/sc4.jpg?width=700&height=372
17
2.5. EViews
EViews puede ser empleado para análisis estadístico general, pero es especialmente útil
para realizar análisis econométrico.
Fuente: http://www.sba.muohio.edu/noblenr/eviews31/estimate.htm
18
Tema 3. Análisis de regresión con dos variables
Para entender esto, consideremos los datos sobre el ingreso y los años de escolaridad de
la Encuesta MECOVI del año 2011.
Tabla 2. El promedio del ingreso laboral como función de los años de educación de las
personas
A estos valores medios se les llama valores esperados condicionales, en virtud de que
dependen de los valores de la variable (condicional) X.
En forma simbólica, se denotan con E(Y / X ), lo cual se lee como el valor esperado de
Y, dado el valor de X.
19
Es importante distinguir entre los valores esperados condicionales y el valor esperado
incondicional del consumo semanal, E(Y).
Si sumamos los ingresos laborales mensuales de todos los individuos que declararon un
ingreso en la MECOVI 2011, independientemente de los años de educación que tienen,
y lo dividimos entre el número total de observaciones (16108 en total), obtendremos la
cantidad de 1623.5 Bs.
0 5 10 15 20
Años de estudio
Ahora bien, si graficamos la media condicional E(Y/X) del ingreso laboral (Y) en
función de los años de estudio (X) tenemos:
20
Gráfico 7: Media del ingreso laboral y años de estudio
5000
Media del ingreso laboral (Bs/Mes)
4000
3000
2000
1000
0 5 10 15 20
Años de estudio
Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo
el lugar geométrico de las medias condicionales de la variable dependiente para los
valores fijos de la(s) variable(s) explicativa(s).
Ejemplos de regresiones
21
La ecuación (3.2.1) se conoce como función de esperanza condicional (FEC),
función de regresión poblacional (FRP) o regresión poblacional (RP), para abreviar.
Por ejemplo, un economista puede plantear que el consumo manifiesta una relación
lineal con el ingreso.
Por tanto, como primera aproximación o hipótesis de trabajo, podemos suponer que la
FRP E(Y/ xi ) es una función lineal de xi, del tipo:
𝐸(𝑌/𝑥𝑖 ) = 𝑦𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 (3.2.2)
22
En este sentido, puede ser o no lineal en la variable X.
Todos los modelos del gráfico 8 son de regresión lineal; es decir, son modelos lineales
en los parámetros.
𝑢𝑖 = 𝑦𝑖 − 𝐸(𝑌/𝑥𝑖 )
23
𝑦𝑖 = 𝐸(𝑌/𝑋𝑖 ) + 𝑢𝑖 (3.4.1)
Si suponemos que E(Y | xi) es lineal en xi, la ecuación (3.4.1) se escribe como:
𝑦𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝑢𝑖 (3.4.2)
O de otra forma,
¿Por qué no se crea un modelo de regresión múltiple con tantas variables como sea
posible?
24
5. Variables representantes (proxy) inadecuadas: En la práctica, los datos pueden
estar plagados de errores de medición.
¿Es el consumo una función lineal (invariable) del ingreso, o es una función no
lineal (invariable)?
Por todas estas razones, las perturbaciones estocásticas ui asumen un papel muy valioso
en el análisis de regresión.
25
3.6. Función de regresión muestral (FRM)
Así, para resumir, concluimos que el objetivo principal del análisis de regresión es
estimar la FRP:
𝑦𝑖 = 𝛽1 + 𝛽2 𝑥𝑖 + 𝑢𝑖
26
Tema 4. Estimación de los parámetros de una regresión
4.1. Planteamiento
donde los parámetros β cuantifican la relación parcial de cada variable exógena X con la
endógena Y.
Se plantea ahora la siguiente pregunta ¿cómo obtener una buena estimación de esos
parámetros β a partir de los datos disponibles para “Y” y para cada una de las
“X”?
Y no como:
27
ei yi yˆ i
Este error dependería, evidentemente, del valor asignado a las estimaciones de los
parámetros β;
n
̂ MCO min(S ) min ei 2
i 1
Para obtener algebraicamente una expresión de cálculo operativa para los estimadores
MCO, procedemos de la siguiente forma:
n n
( S ) ei y i ˆ1 ˆ 2 x 2i ˆ 3 x3i ........ ˆ k x ki
2 2
i 1 i 1
Para obtener los valores de cada uno de los “k” parámetros ˆ j que minimizan esta
expresión derivamos con respecto a cada uno de ellos e igualamos a cero, obteniendo
“k” expresiones del tipo:
(S )
2 y i ˆ1 ˆ 2 x 2i ˆ 3 x 3i ........ ˆ k x ki x ji 0
n
ˆ j i 1
En este sistema de las ecuaciones normales las incógnitas son los parámetros ˆ j a
estimar.
Observadas una a una, para cada parámetro, las expresiones de las ecuaciones normales
son:
28
n n n n n
yi x1i ˆ1 x1i x1i ˆ 2 x 2i x1i ˆ3 x3i x1i ........ ˆ k xki x1i
i 1 i 1 i 1 i 1 i 1
n n n n n
yi x2i ˆ1 x1i x2i ˆ 2 x2i x2i ˆ3 x3i x2i ........ ˆ k x ki x2i
i 1 i 1 i 1 i 1 i 1
n n n n n
yi x3i ˆ1 x1i x3i ˆ 2 x2i x3i ˆ3 x3i x3i ........ ˆ k xki x3i
i 1 i 1 i 1 i 1 i 1
...
n n n n n
yi xki ˆ1 x1i xki ˆ 2 x2i xki ˆ3 x3i xki ........ ˆ k xki xki
i 1 i 1 i 1 i 1 i 1
y1
y
Y 2
...
y
n
ˆ1
ˆ
ˆ 2
...
ˆ
K
29
4.2.2. Derivación matricial de la expresión de los estimadores MCO
min(e' e) min Y Xˆ ' Y Xˆ min Y 'Y Y ' Xˆ ˆ ' X 'Y ˆ ' X ' Xˆ
Obsérvese cómo los productos matriciales Y ' X̂ y ̂ ' X ' Y son en realidad lo mismo e
iguales a un escalar: efectivamente, la primera expresión es la transpuesta de la segunda
y dado que el orden de cada una de ellas es (1x1), es decir, un escalar, estamos viendo
en realidad dos expresiones equivalentes del mismo número (escalar).
min(e' e) min Y Xˆ ' Y Xˆ min Y 'Y 2ˆ ' X 'Y ˆ ' X ' Xˆ
Así pues, podemos escribir Y ' X̂ + ̂ ' X ' Y como 2Y ' X̂ ó bien cómo 2ˆ ' X ' Y de
modo que tenemos:
min(e' e) min Y ' Y 2ˆ ' X ' Y ˆ ' X ' Xˆ
Para resolver ahora la minimización, recurrimos de nuevo al concepto de derivada
parcial.
En el caso de las matrices, debemos recordar una propiedad de utilidad; para cualquier
par de matrices A y B se cumple que:
A' BA
2 BA 2 A' B
A
min(e' e)
(e' e)
0
Y 'Y 2ˆ ' X 'Y ˆ ' X ' Xˆ
0 0 2 X 'Y 2 X ' Xˆ 0
ˆ ˆ
30
de donde nuevamente obtenemos:
Ejercicios
Derivar los estimadores algebraicamente para el caso k=2 y k=3. Considerar el caso de
una ecuación con constante y otra sin constante.
1. Distribución normal
2. Media nula
3. Varianza constante
Es decir:
ui N 0, 2
31
Es decir, un conjunto de errores que van a distribuirse conforme a una determinada
función de densidad conjunta con una determinada media y desviación típica.
U N 0, 2 I
Así pues, la función de densidad de cada uno de los errores será:
u2
f u i 1 1 exp 1 i2
2
2
2
n
u i2
n
L f u f (u i ) 2 exp 1 i 1 2
n / 2 2 n / 2
i 1
2
n
n u i2
max( L) max f (u i ) 2
n / 2
2 n / 2
exp 1 i 1 2
2
i 1
Con el fin de computar la derivada parcial de esa expresión “L” con respecto a los
parámetros estimados, linealizamos la expresión obteniendo:
1
En realidad, la expresión genérica correcta para esta función es:
n
n
u i2
L f u f (u i ) 2 exp 1 i 1 2
n / 2 n / 2
i 1
2
32
Ln( L) n ln 2 n ln 2 1 2 U 'U
2 2 2
maxLn( L) min y Xˆ ' y Xˆ
Que como se ve, es lo mismo que plantear el estimador de Mínimos Cuadrados
Ordinarios revisado anteriormente. Es decir, el estimador Máximo Verosímil va a
coincidir para el Modelo Básico de Regresión Lineal con el estimador de Mínimos
Cuadrados Ordinarios.
La interpretación del significado de los estimadores MCO es mucho más interesante que
los detalles técnicos sobre su derivación. ¿Qué representa un parámetro estimado ˆ j ?
Si imaginamos una ecuación estimada con dos variables exógenas más un término
independiente, el modelo estimado sería:
Imaginemos una muestra temporal donde “i” representa el paso del tiempo. Si
expresamos ahora el modelo “en diferencias”, es decir, si al valor estimado de “y” en el
período “i” ( ŷi ) le restamos el valor estimado de “y” en el período “i-1” ( yˆ i 1 ) tenemos
que:
yˆ i yˆ i 1 ˆ1 ˆ 2 x 2i ˆ3 x3i ˆ1 ˆ 2 x 2i 1 ˆ3 x3i 1
yˆ ˆ x ˆ x
i 2 2i 3 3i
33
¿Qué representa por tanto ̂ 2 ?. Una forma simple de expresar ̂ 2 es:
yˆ i
Si x3i 0 ˆ 2
x2i
Luego, “la regresión múltiple nos permite imitar (…) lo que los científicos hacen en los
entornos (experimentales) controlados de laboratorio: conservar fijos otros factores”.
Ejemplo
Si las ventas y la publicidad están medidas en millones de Bs. y los precios en Bs. por
unidad:
Evidentemente, la empresa nunca movió sólo los precios o sólo la publicidad, sino que
todos los años hizo, probablemente, ambas cosas: sin embargo, la regresión múltiple
permite “aislar” ambos efectos.
Una observación de interés es: ¿qué sucede si sólo utilizamos una de las dos
variables en la regresión?
En ese caso, puede observarse que los resultados de las dos regresiones individuales
son:
34
Los resultados de la regresión sobre el precio son “similares” a los obtenidos en la
regresión múltiple
Utilizando los mismos datos, el signo de la Publicidad en su relación con las ventas es
ahora negativo ¿cómo podemos explicar esto?
Observemos la evolución de las ventas, los precios y la publicidad en los años utilizados
para la estimación:
Gráfico 9. Ventas, precios y publicidad
9
8
7
6
5
ventas
4
precio
3
publicidad
2
1
0
-1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
-2
Cuando tomamos sólo los datos de la publicidad y las ventas, observamos que,
efectivamente, a lo largo de los últimos 15 años la publicidad se ha incrementado
notablemente pero, sin embargo, las ventas han disminuido.
Sin embargo, durante este mismo período, los precios han crecido también de forma
muy significativa, de modo que el efecto teóricamente positivo de la publicidad se ha
visto anulado por un incremento descontrolado de los precios.
Del mismo modo, si sólo observamos la relación entre ventas y precios, subestimamos
también el efecto negativo de un alza en los precios (la realidad es que, si no
hubiésemos elevado la publicidad a lo largo de estos 15 años, la caída de las ventas ante
tal incremento de los precios hubiera sido algo mayor).
35
otras variables que son potencialmente relevantes para observar
adecuadamente ese único parámetro de interés?
Así es, el ejemplo anterior demuestra que, aunque nuestro interés se centre en
una variable exógena, debemos recoger información de las demás variables que
han podido variar durante el período muestral, de otro modo, no podemos
“aislar”, “distinguir del resto”, los efectos de la variable que nos interesa.
Cov(u, x) 0 Cov( y 1 2 x, x) 0
Cov( y, x) Cov( 1 , x) 2 Cov( x, x) 0
Cov( x, y )
Cov( y, x) 2V ( x) 0 2
V ( x)
Cov(u, x) Cov( y 1 2 x, x)
Cov( x, y )
Cov( y, x) 2V ( x) 2
V ( x) V ( x)
Si.
36
Ahora bien, si en nuestra muestra podemos encontrar crecimientos de una
exógena que se hayan combinado con incrementos y disminuciones de la
otra de modo que entre ambas no exista una correlación sistemática, la
muestra es ideal para observar los efectos de forma individual (sin recurrir
a la regresión múltiple) porque los efectos de subestimación y sobreestimación
en esas estimaciones individuales aparecerán “compensados”, resultando nulos o
poco significativos.
En términos técnicos, lo que sucede cuando no existe relación entre la variable
incluida y la omitida, es que no existe tampoco relación entre esa variable
incluida y la perturbación aleatoria (u) que aglutina las variables omitidas, de
modo que vuelve a verificarse Cov(u, x) 0 .
La regresión múltiple permite “separar” los efectos de cada exógena sin cometer
sesgos de sobre o subestimación aun cuando las muestras sean “desfavorables”
en ese sentido (es decir, aun cuando las exógenas estén muy relacionadas).
37
Tema 5. Propiedades de los estimadores MCO/MV
5.1. Introducción
Una vez lograda una expresión matricial para la estimación de los parámetros del
modelo, es pertinente comprobar las propiedades estadísticas de los mismos.
Y X U
nx1 nxk kx1 nx1
Insesgadez
En primer lugar, contar con un estimador insesgado nos asegura que el valor esperado
de nuestro cálculo coincide con el valor real del parámetro.
Eficiencia
La segunda propiedad permite asegurar que los parámetros estimados también serán
“óptimos”; es decir, serán los que cuenten con la varianza más pequeña de entre
todos los insesgados.
Consistencia
2
La expresión de cálculo es la misma para ambos cuando la función de densidad de las perturbaciones
aleatorias se distribuye como una normal.
3
BLUE en inglés (Best Linnear Unbiased Estimator) y, a veces, MELI en algunas traducciones.
38
Esto quiere decir que el valor obtenido en la estimación MCO coincidirá con el valor
de los parámetros reales si en lugar de utilizar una muestra usáramos el total de
los datos (o dicho de otro modo, una muestra infinita).
5.2. Linealidad
Sabiendo cuál es su función de densidad, podremos calcular con facilidad en qué rango
o intervalo se mueven éstos.
Para comprobar que los parámetros estimados son una combinación lineal de las
perturbaciones aleatorias del modelo, basta con sustituir “Y” en la expresión de cálculo
de los mismos por su expresión completa:
ˆ WU
Los estimadores MCO son una combinación lineal de las perturbaciones aleatorias.
39
5.3. Insesgadez
En este momento tiene interés demostrar que el valor esperado del parámetro estimado
con MCO coincide con el valor real del parámetro.
E ( ˆ ) E ( X ' X X 'U )
1
X ' X X ' E (U )
1
E (U ) 0
E ( ˆ )
Para demostrar que el estimador MCO es el estimador óptimo se seguirán cuatro pasos:
40
1. Matriz de varianzas-covarianzas de los estimadores
COV VAR ( ˆ ) E ( ˆ E ( ˆ ))(ˆ E ( ˆ ))'
E ( X ' X X 'U )( X ' X X 'U )'
1 1
E (X ' X X 'U )(X ' X X 'U )'
1 1
E X ' X X 'UU ' X X ' X
1 1
E (UU ' ) I n 2
Sumando una matriz “P” no nula a la expresión del estimador MCO se obtiene la
expresión general de un estimador cualquiera alternativo, del que habrá que
comprobar qué condiciones ha de cumplir para ser insesgado.
X ' X 1 X ' P Y
Y X U
X ' X X ' X X ' X X 'U PX PU
1 1
X ' X X 'U PX PU
1
Una vez contamos con la expresión de un estimador cualquiera alternativo, hay que
comprobar cuáles son las condiciones que este debe cumplir para ser insesgado:
41
E ( ) E X ' X X 'U PX PU
1
X ' X
1
X ' E (U ) PX PE (U )
PX
condición insesgadez PX 0
X ' X 1 X 'U PU
En esta expresión, los parámetros no pueden contener ningún cero, ya que se supone
que la especificación del modelo es correcta (no sobra ninguna variable explicativa).
1
1
COV VAR ( ) E ( X ' X X 'U PU E ( ))( X ' X X 'U PU E ( ))'
Dado que : E ( ) 0
COV VAR ( ) E (X ' X X 'U PU )(X ' X X 'U PU )'
1 1
E X ' X X 'UU ' X X ' X X ' X X 'UU ' P' PUU ' X X ' X PUU ' P'
1 1 1 1
42
Dadoque :
E (UU ' ) I
2
n
2
COV VAR ( ) 2 E (X ' X X ' X X ' X X ' X X ' P' PX X ' X PP' )
1 1 1 1
Pero PX 0
COV VAR ( ) 2 (X ' X PP' )
1
4. Comparación de varianzas
Finalmente hay que comprobar que efectivamente las varianzas de los estimadores
MCO siempre son inferiores a las varianzas de cualquier otro estimador insesgado:
COV VAR( ) 2 (X ' X PP' ) 2 X ' X COV VAR(ˆ )
1 1
Esta condición se verifica siempre, ya que PP’ es una matriz por su transpuesta, luego
en su diagonal siempre hay números positivos y es precisamente la diagonal principal
donde en la matriz de varianzas-covarianzas están las varianzas.
La cota de Cramer – Rao4 expresa una cota inferior para la varianza de un estimador
insesgado (lineal o no, por cierto).
2 ln Lu ,
1
CCR E
2
4
O también cota inferior de Cramér-Rao (CRLB), llamada así en honor a Harald Cramér y Calyampudi
Radhakrishna Rao.
43
n
u i2
n
L f u f (u i ) 2 exp 1 i 1 2
n / 2 2 n / 2
i 1
2
Matricialmente y en logaritmos:
Así pues, la primera derivada respecto a β es (observe que en los dos primeros
sumandos no aparece el término β):
1
Ln( L) 2 2 Y ' Y 2 ' X ' Y ' X ' X
2 2 X ' Y 2 X ' X
1
2
2 Ln( L)
2 X ' X
1
2
2 Lu,
1
1
1
E 2 X ' X E 2 X ' X X ' X 1
1
CCR E
2
2
44
5.5. Consistencia
Por último, se demostrará que los parámetros MCO son consistentes; es decir que
ampliando la muestra al total de la población, el valor estimado coincide con el
real.
Dicho de otra forma, cuando contamos con todos los datos, no con una muestra, el
cálculo de MCO da como resultado los parámetros reales, un cálculo exacto, luego con
varianza igual a cero.
p lim( ˆ ) p lim(var(ˆ )) 0
n n
Sustituyendo esta fórmula por su expresión de cálculo (a la que hemos llegado cuando
realizamos la demostración de la eficiencia u optimalidad de los parámetros) tenemos:
1
2 X'X
p lim(var(ˆ )) 2 X ' X
1
0
n n n
5.6. Corolario
Los estimadores MCO cumplen con las cuatro propiedades propuestas (linealidad,
insesgadez, optimalidad y consistencia).
Además de saber que contamos con las estimaciones paramétricas con mayores
garantías estadísticas, también podemos saber que los coeficientes del modelo se
distribuyen como una Normal, con media el verdadero valor del parámetro (son
insesgados) y varianza COV VAR(ˆ ) 2 X ' X .
1
Es decir:
ˆ N ( ; 2 X ' X 1 )
45
Tema 6. Estimadores de la varianza de los errores
Una vez deducida la fórmula para la estimación de los parámetros del modelo, a través
de los MCO o MV, se comprobó que dichos estimadores son lineales, insesgados,
óptimos y consistentes (ELIO+Consistentes).
Así, y conforme a la primera propiedad - la linealidad -, los estimadores MCO son una
combinación lineal de las perturbaciones aleatorias del modelo (U):
Asumiendo las hipótesis realizadas sobre las perturbaciones, es inmediato deducir que
los estimadores MCO se distribuirán también como una normal, cuya media se deduce
al demostrar que son insesgados y su varianza se calcula en la demostración de la
optimalidad (o eficiencia):
ˆ N ( ; 2 X ' X 1 )
Pero, para ello, deberemos conocer alguna forma de estimar la matriz de varianzas-
covarianzas de los parámetros:
1. X ' X 1 será una matriz fácilmente calculable, dado el carácter de regresores
deterministas que se le suponen por hipótesis a las explicativas del modelo.
46
(ii) El estimador insesgado de la varianzas de las perturbaciones aleatorias.
𝑒 ′ 𝑒 ∑ 𝑒𝑖2
𝜎̃ 2 = =
𝑛 𝑛
2
𝑒′𝑒 ∑ 𝑒𝑖2
𝜎̂ = =
𝑛−𝑘 𝑛−𝑘
Aun así, se puede demostrar que este estimador es sesgado y que la propuesta (2) es
insesgada.
Esta situación dará lugar a que empleemos siempre el segundo estimador propuesto de
la varianza de las perturbaciones aleatorias; es decir, el insesgado, que no es más que el
primero, pero corregido por los grados de libertad.
𝑒′𝑒 ∑ 𝑒𝑖2
𝜎̂ 2 = =
𝑛−𝑘 𝑛−𝑘
2
𝑒 ′𝑒
𝐸(𝜎̂ ) = 𝐸( ) = 𝜎2
𝑛−𝑘
47
Para realizar esta demostración partimos de definir el vector del error “e”:
𝑒 = (𝑌 − 𝑌̂)
= 𝑋𝛽 + 𝑈 − 𝑋𝛽̂
Entonces:
𝑒 = 𝑋𝛽 + 𝑈 − 𝑋𝛽 − 𝑋[𝑋 ′ 𝑋]−1 𝑋 ′ 𝑈
= 𝑈 − 𝑋[𝑋 ′ 𝑋]−1 𝑋 ′ 𝑈
𝑒 = 𝑀𝑈
𝑒′𝑒 = 𝑈′𝑀′𝑀𝑈
𝑒 ′ 𝑒 = 𝑈 ′ 𝑀𝑈
2
𝑒 ′𝑒
𝐸(𝜎̂ ) = 𝐸( ) = 𝜎2
𝑛−𝑘
Con el fin de determinar el resultado de aplicar el operador esperanza a la parte aleatoria
de esa expresión, tenemos:
48
𝑚11 ⋯ 𝑚1𝑛 𝑢1
𝐸(𝑒 𝑒) = 𝐸(𝑈 𝑀𝑈) = 𝐸 [[𝑢1
′ ′ … 𝑢𝑛 ] [ ⋮ ⋱ ⋮ ] [ ⋮ ]]
𝑚𝑛1 ⋯ 𝑚𝑛𝑛 𝑢𝑛
𝑢1
= 𝐸 [[∑ 𝑢𝑖 𝑚𝑖1 … ∑ 𝑢𝑖 𝑚𝑖𝑛 ] [ ⋮ ]]
𝑢𝑛
Considerando las siguientes hipótesis sobre las perturbaciones aleatorias del modelo
(homocedasticidad y no autocorrelación):
𝐸(𝑢𝑖 )2 = 𝜎 2
𝐸(𝑢𝑖 𝑢𝑗 ) = 0 ∀𝑖 ≠𝑗
= 𝐸 (∑ 𝑢𝑖2 𝑚𝑖𝑖 )
= 𝜎 2 ∑ 𝑚𝑖𝑖
Ya que al aplicar el operador esperanza solo serán distintos de cero estos productos, que
se corresponden a 𝐸(𝑢𝑖 )2 = 𝜎 2 , multiplicado por la suma de los elementos de la
diagonal principal de la matriz M; es decir, su traza:
49
𝐸(𝑒′𝑒) = 𝜎 2 ∑ 𝑚𝑖𝑖 = 𝜎 2 𝑇𝑟(𝑀)
Y calculando la traza de estas matrices (Recordemos las propiedades de las trazas que
dicen que 𝑇𝑟(𝐴 ∙ 𝐵) = 𝑇𝑟(𝐵 ∙ 𝐴), donde 𝐵 = 𝑋[𝑋′𝑋]−1 y 𝐴 = 𝑋′):
= 𝜎 2 [𝑇𝑟(𝐼𝑛 ) − 𝑇𝑟(𝐼𝑘 )]
= 𝜎 2 (𝑛 − 𝑘)
𝐸(𝑒 ′ 𝑒) = 𝜎 2 (𝑛 − 𝑘)
𝐸(𝑒 ′ 𝑒)
= 𝜎2
(𝑛 − 𝑘)
(𝑒 ′ 𝑒)
𝐸 = 𝜎2
(𝑛 − 𝑘)
Con lo que queda demostrado que la esperanza del segundo estimador propuesto
coincide con el valor real de la varianza de las perturbaciones aleatorias; luego es
insesgado.
50
Tema 7. Contrastes de significatividad individual de los
parámetros
7.1. Introducción
2
𝑒′𝑒 ∑ 𝑒𝑖2
𝜎̂ = =
𝑛−𝑘 𝑛−𝑘
𝛽̂𝑗 − 𝛽
𝑠(𝛽̂𝑗 )
𝛽̂𝑗 − 𝛽
=
𝜎̂√𝑎𝑗𝑗
̂𝑗 −𝛽
𝛽
(1)
′
√(𝑒 𝑒⁄
𝑛−𝑘 )𝑎𝑗𝑗
donde denominamos 𝑎𝑗𝑗 al elemento fila “j” columna “j” de la matriz X ' X , con lo
1
que el producto de este término por 𝜎̂ 2 no es otra cosa que la varianza del parámetro
estimado “j” (donde j=1...k).
𝑒′𝑒 = 𝑈′𝑀𝑈
51
De esta expresión, es fácil comprobar que, dividiendo por la varianza de la perturbación
aleatoria, tendríamos una función que se distribuye como una chi cuadrado con (n-k)
grados de libertad:
𝑒 ′𝑒
𝜎2
𝑈 ′ 𝑀𝑈
=
𝜎2
𝑈′ 𝑈
= 𝑀
𝜎 𝜎
𝛽̂𝑗 − 𝛽 𝜎
∗
′ 𝜎
√(𝑒 𝑒⁄𝑛 − 𝑘)𝑎𝑗𝑗
𝛽̂𝑗 − 𝛽⁄
𝜎
=
𝑎𝑗𝑗 ′
√ ⁄𝑛 − 𝑘 (𝑒 𝑒⁄ 2 )
𝜎
→ 𝑁(0,1)
2
→ 𝜒𝑛−𝑘
𝛽̂𝑗 − 𝛽
→ 𝑡𝑛−𝑘
𝑠(𝛽̂𝑗 )
52
7.2. Intervalo de confianza de los parámetros
𝜀
⁄2 𝜀/2
𝑃𝑟 [𝛽̂𝑗 − 𝑠(𝛽̂𝑗 )𝑡𝑛−𝑘 < 𝛽𝑗 < 𝛽̂𝑗 + 𝑠(𝛽̂𝑗 )𝑡𝑛−𝑘 ] = 1 − 𝜀
Que, a efectos de cálculo para cada parámetro estimado “j”, se escribiría como:
𝜀⁄2 𝜀/2
𝑃𝑟 [𝛽̂𝑗 − 𝜎̂√𝑎𝑗𝑗 𝑡𝑛−𝑘 < 𝛽𝑗 < 𝛽̂𝑗 + 𝜎̂√𝑎𝑗𝑗 𝑡𝑛−𝑘 ] = 1 − 𝜀 (2)
Ejemplo
𝐷𝑡 = 𝛼0 + 𝛼1 𝑃𝑡 + 𝑈𝑡
𝑛 = 25
Y obtenemos un valor estimado del parámetro de interés de, por ejemplo, 𝛼1 = −0,5 y
una desviación típica de este igual a 𝑠(𝛼1 ) = 0,02.
Para conocer entre qué valores estará realmente el valor de dicho parámetro con un 95%
de confianza, escribimos el intervalo de confianza de la ecuación 2 como:
0,05⁄ 0,05⁄
𝑃𝑟 [−0,5 − 0,02𝑡25−22 < 𝛼1 < −0,5 + 0,02𝑡25−22 ] = 1 − 0,05
53
0,05⁄
donde el valor de tablas de la t-student de 𝑡25−22 es 2,068.
Luego el valor real del parámetro que multiplica a los precios estará, con un 95% de
confianza entre:
Dicho de otra forma, cada punto que aumenten los precios, con una probabilidad del
95%, dará lugar a una reducción de la demanda de entre -0,541 y -0,458 puntos.
Evidentemente, esta medida nos dará idea, en cierto modo, del grado de validez del
modelo que estamos empleando: cuanto mayor sea el intervalo en el que se mueva el
parámetro, más imprecisa será la utilidad del modelo para hacer análisis
estructural, simulación o predicción.
𝜀/2 ̂𝑗 −𝛽
𝛽 𝜀/2
−𝑡𝑛−𝑘 < ̂𝑗 ) < 𝑡𝑛−𝑘 (3)
𝑠(𝛽
De entre las hipótesis más comunes que se pueden realizar, destaca la que nos servirá
para comprobar en qué medida podríamos asumir que el verdadero valor de un
parámetro concreto es igual o cero o no. Es decir, podríamos plantear
𝐻0 : 𝛽𝑗 = 0 y trasladarla a la expresión anterior (ecuación 3) del siguiente modo:
𝛽̂𝑗 − 0
𝑡 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙 =
𝑠(𝛽̂𝑗 )
54
La hipótesis seguirá el siguiente razonamiento:
𝜀/2
|𝑡 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙 | > 𝑡𝑛−𝑘 ⟹ Se rechaza la hipótesis nula
𝜀/2
|𝑡 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙 | < 𝑡𝑛−𝑘 ⟹ Se acepta la hipótesis nula
Recordemos que, tal y como se ha visto que se calcula la desviación típica de los
parámetros, el número de grados de libertad es fundamental para aumentar o
disminuir los resultados de la t-student.
Ejemplo
55
Siguiendo con los datos del recuadro anterior, podríamos contrastar la significatividad
individual del parámetro de la variable precios a partir del cálculo de la t-experimental,
que resultaría del siguiente modo:
𝛼̂1 −0.5
|𝑡 𝑒𝑥𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑎𝑙 | = | |=| | = 25
𝑠(𝛼̂1 ) 0.02
Dicho de otra forma menos académica, “la variable precio en el modelo propuesto
serviría para explicar la demanda”.
56
Tema 8. Contrastes de significación conjunta
El objetivo que se pretende en este tipo de contraste del modelo, es poder dar una
medida numérica representativa de la capacidad global de todas las variables
explicativas para seguir la evolución de la variable endógena.
Para ello, y como es habitual en toda contrastación estadística, cubriremos las siguientes
etapas:
En nuestro caso, tiene interés conocer una ratio que englobe la información contenida
por todos los parámetros (k) de un modelo.
Para ello, y partiendo de la notación como vector (k x 1) que hemos dado a los
parámetros del modelo escrito en su forma matricial, podríamos presentar una
medida del parámetro medio estandarizado (escritos al cuadrado para que no se
compensen signos positivos y negativos) como sigue:
[𝛽̂ − 𝛽]′[𝛽̂ − 𝛽]
[ ] /𝑘
𝜎 2 [𝑋′𝑋]−1
donde no hemos calculado otra cosa que la suma cuadrada de los parámetros
estandarizados (a cada uno se le ha restado su media y se le ha dividido por su
desviación típica y la suma de un vector columna transpuesto por el mismo no es más
que la suma de las componentes al cuadrado).
Conocer cuál es la función de distribución del valor medio de todos los parámetros que
intervienen en un modelo considerados de forma conjunta, como ocurre en esta ratio, es
fácilmente deducible a partir de la constancia de que los parámetros estimados se
distribuyen como una normal ˆ N ( ; 2 X ' X ) .
1
Volviendo a la ratio escrita más arriba, para poder realizar el cálculo en un modelo
concreto habrá que dar un valor estimado a la varianza de la perturbación aleatoria (𝜎 2 ).
57
Realizando una serie de sustituciones matemáticas, obtendríamos la función de
densidad de la ratio de la siguiente manera:
[𝛽̂ − 𝛽]′[𝛽̂ − 𝛽]
[ ] /𝑘
𝜎 2 [𝑋′𝑋]−1
[𝛽̂ − 𝛽]′[𝑋′𝑋][𝛽̂ − 𝛽]
=[ ]
𝜎2𝑘
∑𝑘 𝑁(0,1)2
=
∑𝑛−𝑘 𝑁(0,1)2
→ 𝜒𝑘2
2
→ 𝜒𝑛−𝑘
→ 𝐹𝑘,𝑛−𝑘
58
Es decir, podríamos comprobar si el cálculo de esta ratio sigue comportándose como
una F de Snedecor cuando imponemos alguna característica a los parámetros del
modelo.
A partir de las tablas de esta distribución, podemos saber entre que valores se sitúa una
variable aleatoria de las características de la ratio que hemos construido con un 95% de
probabilidad.
Si el cálculo de esta ratio en un caso concreto, aplicando las características a los
parámetros que queramos (es decir; contrastando una hipótesis nula), deja de estar
comprendido entre los valores en los que lo estaría una 𝐹𝑘,𝑛−𝑘 podremos decir que, con
un 95% de probabilidades, la condición que hemos impuesto a los parámetros es falsa.
Podemos plantear, por ejemplo, una hipótesis nula en la que sostengamos que el valor
real de todos los parámetros es igual a cero, lo que nos serviría para decir que ninguna
de las variables incluidas como explicativas en el modelo es realmente válida para
explicar la endógena.
[𝛽̂ − 𝛽]′[𝑋′𝑋][𝛽̂ − 𝛽] 𝜀
𝑃𝑟 [0 < < 𝐹𝑘,𝑛−𝑘 ]= 1−𝜀
𝜎̂ 2 𝑘
𝛽̂ ′[𝑋′𝑋]𝛽̂ 𝜀
𝑃𝑟 [0 < < 𝐹𝑘,𝑛−𝑘 ]= 1−𝜀
𝜎̂ 2 𝑘
En principio esta ratio debiera estar comprendida entre los valores tabulados para
la F si la restricción impuesta es cierta; es decir, si aceptamos la hipótesis nula.
Esto sería lo mismo que admitir la hipótesis alternativa lógica: por lo menos
alguna de las variables explicativas elegidas sí sirve para explicar el
comportamiento de la endógena con un 95% (o 90% o 99%) de probabilidades.
Por lo tanto, la hipótesis alternativa será muy fácil de lograr (que por lo menos
alguno de los parámetros sea significativamente distinto de cero).
59
Además, el término independiente presente en el modelo recogería una alta carga
de explicación de la endógena si el resto de las variables especificadas no fueran
significativas, por lo que, por lo menos éste, sí sería significativo en el peor de los
casos.
Dicho esto, el contraste de esta ratio difícilmente se cumpliría con la hipótesis
manejada, ya que el parámetro de la constante sería significativo.
Para poder realizar esta misma ratio sobre un modelo sin término independiente,
es necesario escribir dicho modelo en lo que se conoce como desviaciones a la
media que no es sino una combinación lineal de las n ecuaciones anteriores, del
siguiente modo:
dado que la variable x1i es un vector que sólo incluye unos para dar lugar a ese
término independiente, su media también será uno y la resta planteada en la
ecuación superior hará que el parámetro 𝜷𝟏 esté multiplicado por cero en esta
reescritura equivalente del modelo inicial.
El cálculo de la ratio anterior sería ahora (sin incluir ese término constante) igual a:
𝛽̂ ′[𝑋′𝑋]𝛽̂
→ 𝐹𝑘−1,𝑛−𝑘
𝜎̂ 2 (𝑘 − 1)
En esta ratio se podría presentar una hipótesis nula a contrastar más razonable,
que sería la nulidad de todos los parámetros menos el del término independiente
𝑯𝟎 : 𝜷𝟐 = 𝜷𝟑 … = 𝜷𝒌 = 𝟎, siendo de aplicación todo lo dicho anteriormente.
𝛽̂ ′[𝑋′𝑋]𝛽̂
𝜎̂ 2 (𝑘 − 1)
60
(𝑌 ′ 𝑌 − 𝑒 ′ 𝑒)/(𝑘 − 1)
=
𝑒 ′ 𝑒/(𝑛 − 𝑘)
𝑌′𝑌 𝑛−𝑘
=( − 1) ( )
𝑒′𝑒 𝑘−1
𝑌 ′ 𝑌 = ∑(𝑌𝑖 − 𝑌̅)2
𝑖=1
𝑌𝑖 = 𝑐 + 𝑈𝑖
→𝑌̂ = 𝑌̅ (Demostrar)
Por lo tanto, en este caso, la expresión 𝒀′ 𝒀 representa la suma cuadrática del error
de un modelo “ingenuo” en el que no utilicemos ninguna exógena; o dicho de otro
modo, un modelo en el que suponemos “la restricción” de que cualquier variable
exógena adicional no resultaría significativa 𝐻0 : 𝛽2 = 𝛽3 … = 𝛽𝑘 = 0.
61
modo, “irrestricto”, en el que no se impone ninguna restricción sobre la
significatividad de las exógenas incluidas.
𝐻0 : 𝛽2 = 𝛽3 … = 𝛽𝑘 = 0
En términos generales, el contraste “F” permite comparar dos modelos, uno que
impone alguna restricción en los parámetros (por ejemplo la hipótesis anterior de
que todos ellos son nulos) frente a otro que no impone esa restricción.
Por supuesto, para comprobar si esa diferencia entre dos valores del error es
significativamente distinta de cero, necesitamos comparar el valor obtenido con valores
estadísticos críticos predeterminados, y es por ello por lo que recurrimos a una
expresión de cálculo que, además de entenderse de forma intuitiva, se distribuya como
algo conocido, en nuestro caso, una ratio F.
(𝑒𝑟′ 𝑒𝑟 − 𝑒 ′ 𝑒)/𝑞
𝐹= → 𝐹𝑞,𝑛−𝑘
𝑒 ′ 𝑒/(𝑛 − 𝑘)
donde:
62
𝑒𝑟′ 𝑒𝑟 es la suma cuadrática del error del modelo restringido
𝑒 ′ 𝑒 es la suma cuadrática del error del modelo sin restringir
𝑞 es el número de restricciones
Partimos de un modelo general con tres variables explicativas (más la constante) del
tipo:
𝛽1 + 𝛽2 = 1
Operando y despejando:
Generando las nuevas variables que impone la restricción que hemos impuesto,
obtendremos el modelo a estimar:
𝑍1𝑡 = 𝑌𝑡 −𝑋2𝑡
Este sería ahora el modelo restringido, que puede ser estimado por MCO al igual que la
primera ecuación que habíamos planteado.
63
Ejemplo
𝛽
𝑞𝑖 = 𝐾𝑖𝛼 𝐿𝑖 𝑈𝑖
𝐻0 : 𝛼 + 𝛽 = 1
Como alternativa, tenemos el modelo que debemos estimar con la restricción que
supone la hipótesis nula de rendimientos constantes:
𝑞𝑖 𝐾𝑖
𝑙𝑜𝑔 = 𝛼𝑙𝑜𝑔 + 𝑙𝑜𝑔𝑈𝑖
𝐿𝑖 𝐿𝑖
64
Tema 9. Contrastes de significación conjunta a partir del
coeficiente de determinación lineal 𝑹𝟐
Es decir:
𝑠𝑦2̂
𝑅2 =
𝑠𝑦2
Por otra parte, en el modelo se cumple que la varianza de la endógena coincide con la
suma de la varianza de la estimada más la varianza del error:
2
𝑠𝑦2̂
𝑠𝑦2 − 𝑠𝑒2
𝑅 = 2=
𝑠𝑦 𝑠𝑦2
𝑠𝑒2
𝑅2 = 1 −
𝑠𝑦2
65
Ateniéndonos al principio de “parquedad estadística”, parece adecuado que para
comparar entre dos modelos con distinto número de variables se tenga en cuenta
este hecho, penalizando aquél que cuenta con un mayor número de explicativos.
𝑠𝑒2 /(𝑛 − 𝑘)
𝑅̅ 2 = 1 −
𝑠𝑦2 /(𝑛 − 1)
𝑠𝑒2 (𝑛 − 1)
= 1− 2
𝑠𝑦 (𝑛 − 𝑘)
(𝑛 − 1)
𝑅̅ 2 = 1 − [(1 − 𝑅 2 ) ]
(𝑛 − 𝑘)
(𝑌 ′ 𝑌 − 𝑒 ′ 𝑒)/(𝑘 − 1)
→ 𝐹𝑘−1,𝑛−𝑘
𝑒 ′ 𝑒/(𝑛 − 𝑘)
(𝑌 ′ 𝑌/𝑛 − 𝑒 ′ 𝑒/𝑛)/(𝑘 − 1)
𝑒 ′ 𝑒/𝑛(𝑛 − 𝑘)
66
((𝑠𝑦2 − 𝑠𝑒2 )/𝑠𝑦2 )/(𝑘 − 1)
(𝑠𝑒2 /𝑠𝑦2 )/(𝑛 − 𝑘)
A partir de la expresión de 𝑅 2 :
𝑠𝑒2
𝑅2 = 1 −
𝑠𝑦2
𝑠𝑒2
= 1 − 𝑅2
𝑠𝑦2
𝑅 2 /(𝑘 − 1)
→ 𝐹𝑘−1,𝑛−𝑘
(1 − 𝑅 2 )/(𝑛 − 𝑘)
67
Su aportación consiste en realidad en ofrecer un procedimiento matemático
sencillo para elaborar el contraste de restricciones sin necesidad de estimar los dos
modelos por separado.
Siguiendo los mismos pasos que antes, propone la siguiente ratio de la suma cuadrada
de los parámetros estandarizados sujetos a la restricción impuesta:
[𝑅𝛽 − 𝑟]′[𝑋′𝑋][𝑅𝛽 − 𝑟]
𝑊=
𝜎̂ 2
Lo que se distribuiría como una 𝜒 2 con “q” grados de libertad (siendo “q” el número de
restricciones exigidas al modelo).
Si las restricciones son asumibles en el modelo, debe haber una diferencia muy pequeña
entre los errores al cuadrado estimados en uno u otro caso, por lo que el valor de la F
calculada deberá seguir siendo pequeño y estar comprendido entre los valores tabulados
para una confianza del 95% y los grados de libertad especificados.
Nótese que esta última expresión es muy similar a la obtenida finalmente como
contraste conjunto de parámetros F-Snedecor
68
Tema 10: Multicolinealidad
La exacta se define como la existencia de una combinación lineal exacta entre dos o
más variables exógenas incluidas en el modelo.
Otro ejemplo igualmente común es caer en lo que se denomina “La trampa de las
ficticias” que consiste en incluir tantas variables exógenas ficticias (por ejemplo
dicotómicas 0/1) que se acabe por generar una combinación lineal entre las mismas y el
término independiente.
69
10.3. ¿Cuáles son las consecuencias sobre el MBRL?
Las consecuencias sobre las propiedades del Modelo Básico de Regresión Lineal deben
distinguirse nuevamente según se esté hablando de multicolinealidad exacta o
aproximada:
ˆ ( X ' X ) 1 X ' Y
Sin embargo, a pesar de que MCO sigue siendo un estimador eficiente, las
varianzas calculadas de los parámetros serán tanto mayores cuanto mayor
sea la relación entre las variable explicativas.
2
V ( ˆ j )
SSTj (1 R 2j )
70
Donde SSTj representa la variabilidad muestral del regresor Xj, es decir
SST j xij x j y R 2j muestra la relación entre Xj y el resto de variables
2
explicativas.
Si las estimaciones de los parámetros son suficientemente precisas, puede que sea
irrelevante preguntarse entonces si la correlación entre exógenas será elevada o no.
𝑡𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑖𝑎 = 1 − 𝑅𝑗2
1
𝑉𝐼𝐹 =
𝑡𝑜𝑙𝑒𝑟𝑎𝑛𝑐𝑖𝑎
71
Las correlaciones entre variables deben ser menores que un límite determinado.
No hay un límite fijo a partir del cual podamos hablar de un problema; ese límite debe
establecerse desde el sentido común y según las circunstancias de análisis específicas.
Por ejemplo:
En todo caso, si se desea una regla generalmente utilizada, una práctica habitual
consiste en establecer la R2 del modelo original como límite de la correlación observada
entre dos o más variables: diremos que existe multicolinealidad cuando existan
correlaciones entre las variables, superiores al coeficiente de determinación del
modelo.
Las correlaciones entre las variables las calcularemos de tres modos diferentes:
Cov( x j x k )
r jk
DT ( x j ) DT ( x k )
72
Por ejemplo, si se toman datos relativos a 3 tipos de interés a corto plazo en una
economía seguramente se encontrarán elevadas correlaciones simples y múltiples,
sin embargo, será difícil encontrar una correlación parcial entre dos de los tres tipos
de interés considerados ya que, la parte común que les une, es común a los tres y no
existe más parecido bilateral que el que es compartido por todos ellos.
r jkp / a b
El signo “+/-” no expresa la doble solución de la raíz, sino que deberá escogerse una
de las dos soluciones, la positiva o la negativa, según el signo observado en los
coeficientes “ a ” y “b” de las regresiones parciales.
La razón de atender al signo antes de realizar el cálculo es que, por razones obvias
de simetría, el signo de “ a ” siempre será el mismo que el de “b” por lo que, en el
producto “ a ·b”, ese signo se perderá en el caso de ser ambos coeficientes negativos.
- En todo caso, el problema de una menor precisión afecta sólo a los coeficientes
individuales de las variables correlacionadas pero NO al resto de coeficientes.
73
Si se trata de una correlación casual debida generalmente a defectos en la especificación
(por ejemplo, un modelo en niveles), el problema debe solventarse corrigiendo esta
especificación.
- Borrar una de las variables. Una variable explicativa se puede eliminar para producir
un modelo con coeficientes significativos.
Sin embargo, se pierde información (ya que ha omitido una variable). Entonces se
debe considerar el incremento en la varianza del modelo y la presencia de SESGO
por omisión de variables relevantes.
- Obtener más datos, si es posible. Esta es la solución preferida. Más datos pueden
producir estimaciones más precisas de los parámetros (con errores estándar más
bajos).
74
Tema 11. Heterocedasticidad
Varui / X i 2
Varui 2
Para comprender de forma intuitiva esta restricción podemos razonar del siguiente
modo:
5
Etimológicamente, por cierto, la palabra deriva de “hetero” (distinto) y el verbo griego “skedanime” que
significa dispersar o esparcir.
75
11.2. Causas frecuentes de heterocedasticidad
Aunque las que se citan a continuación no son las únicas posibilidades que dan lugar a
un modelo heterocedástico, sí son las más frecuentes:
Esto no es tan evidente como el efecto de la asimetría pero, en cierto modo, y dado que
trabajamos con muestras, la selección de una muestra que favorezca la
heterocedasticidad es más probable en el caso de variables con amplios recorridos que
con escasas varianzas.
76
En este caso no hablamos de las variables seleccionadas, sino precisamente, de las no
seleccionadas.
Este no tiene porque influir del mismo modo en todo el recorrido de la muestra,
pudiendo producir cuantías diferentes de desajuste del modelo y, por tanto, varianza no
constante por subperíodos.
En ese caso, es posible que en las zonas de peor ajuste existan, no sólo errores
mayores, sino también errores más dispersos.
77
B.3.- Modelos de aprendizaje sobre los errores
En todo caso, sea cuál sea el origen del problema, en muchas ocasiones es posible
asociar la varianza no constante de las perturbaciones aleatorias a los valores de alguna
de las variables incluidas en el modelo.
i2 f ( 2 Z i )
78
Sin embargo, asumir este tipo de conexión entre la varianza de “U” y una/s variable/s
está en la base de la mayoría de los procedimientos de detección de la
heterocedasticidad y, desde luego, resulta imprescindible para los mecanismos de
solución de la heterocedasticidad.
79
En este caso, aún resolviendo el problema de cálculo, seguimos enfrentando un
problema de eficiencia lo cual significa, en todo caso, que los contrastes de
significación habituales “t”, “F”, Chi-Cuadrado tenderían a ser más exigentes, a ofrecer
resultados menos concluyentes al tiempo que los intervalos de confianza habitualmente
computados para los parámetros tenderán a ser más amplios.
En este caso, tenemos una varianza que, dado el error de cálculo es un estimador
sesgado del verdadero valor de la varianza (valor correctamente calculado) sin que, en
general, se pueda saber si ese cálculo incorrecto sobreestima o subestima el verdadero
valor. Así pues, las conclusiones derivadas de la utilización de los contrates habituales
son, sencillamente, incorrectas.
Conviene además tener en cuenta que el problema del cálculo incorrecto deriva en
realidad de que el estimador insesgado de la varianza de la perturbación ya no resulta
ser:
e' e
~ 2
nk
Es evidente que esta parece la mejor de las soluciones aunque también debe observarse
que la utilización de este estimador exigiría conocer o estimar de antemano los
valores de los elementos de Σ.
Estimar las “n” varianzas distintas de Σ partiendo de “n” observaciones y “k” variables
explicativas es imposible, de modo que, como se verá más adelante, la utilización de
este estimador exigirá asumir algún supuesto simplificador sobre la causa de una
80
eventual heterocedasticidad, un supuesto simplificador que permita a su vez determinar,
de forma también simplificada, la forma de la matriz Σ.
Por tanto, la mayor parte de los métodos se apoyarán en los residuos obtenidos en
un modelo previo (estimado generalmente con MCO); estos residuos, se utilizarán
como una muestra válida de las perturbaciones aleatorias desconocidas.
11.4.1.1. Gráfica del error a través de las distintas observaciones del modelo
Dado que las series económicas presentan casi siempre una tendencia definida (positiva
o negativa), la simple gráfica de error puede servir para conocer intuitivamente si
el mero transcurso del tiempo da lugar a un incremento/decremento continuado
81
del error, lo que sería significativo de una relación entre la evolución de las variables
del modelo y los valores cada vez mayores o cada vez menores de éste.
10 6
8 4
6
4 2
2 0
0 -2
-2
-4 -4
-6 -6
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
En ambos, la mera evolución del tiempo está correlacionada con valores cada vez
mayores (izquierda) del error o cada vez menores (derecha), con lo que el cálculo
de la varianza por subperíodos arrojaría valores significativamente diferentes; es
decir la serie del error sería heterocedástica.
11.4.1.2. Gráfica del valor cuadrático del error y los valores de “Y” y “X’s”
Este tipo de gráfico, no sólo permite obtener una idea preliminar de si existe o no
heterocedasticidad sino también de la o las variables que pudieran estar conectadas con
la misma.
7
Eventualmente podrían también realizarse los gráficos con valores absolutos del residuo.
82
11.4.2. Contrastes numéricos
Algunos de ellos, no sólo se limitan a cuantificarla sino que, además, permiten valorar
la existencia de heterocedasticidad en términos de probabilidad recurriendo a
distribuciones estadísticas conocidas; este último grupo de contrates se denominan, por
ello, contrastes "paramétricos".
De forma similar al caso anterior, Glesjer propone descartar la variación del error en
función de una variable z, que ahora pueden estar elevadas a una potencia "h" que
estaría comprendida entre -1 y 1. El modelo que se propone es:
2. Estimar cuatro regresiones para los valores absolutos del error del modelo
anterior en función de una variable elevada consecutivamente a "h", que para
cada modelo tomaría los valores -1, -0,5, 0,5 y 1.
| ei | 0 1 z h i h 1,0.5,0.5,1
2. Calcular una serie con los errores del modelo anterior al cuadrado
estandarizados:
e2
e~i 2 i 2
ˆ
e' e
ˆ 2
n
3. Estimar una regresión del error calculado en el paso (2) explicado por una
constante y el conjunto de las variables Z que se pretende saber si producen o no
heterocedasticidad en el modelo, obteniéndose la R2 de este modelo y la varianza
de la estimada:
84
S e~22 S e~ˆ22 S2ˆ
S e~ˆ22 * n
2
85
11.4.2.3. Contraste de White (prueba general de heterocedasticidad de White)
Por otro lado, tal y como se verá a continuación, la prueba no exigirá determinar a
priori las variables explicativas de la heterocedasticidad (lo cual no es
necesariamente una virtud) y es por esta razón por lo que se denomina “prueba
general”.
Y X U
ˆ X ' X 1 X ' Y
Yˆ Xˆ
e Y Yˆ
86
3. El valor de la Re2 de este segundo modelo (paso 2) nos dirá si las variables
elegidas sirven o no para estimar la evolución del error al cuadrado,
representativo de la varianza estimada de las perturbaciones aleatorias.
n·Re2 p 1
En definitiva, si obtenemos un valor del producto n·Re2 mayor que el reflejado por
las tablas de p21 , afirmaremos que existe heterocedasticidad y viceversa, si este
valor es más pequeño diremos que se mantiene la homocedasticidad (luego la hipótesis
nula de este contraste es la homocedasticidad).
- Contraste de Spearman
- Contraste de Harvey
- Contraste test de Park
- Contraste RESET de Ramsey
- Golfeld-Quandt
- Contraste de picos
- LM Arch
87
11.5. ¿Cómo se corrige la heteroscedasticidad?
La mayor parte de los paquetes informáticos incorporan este cálculo de modo que, en
general, su utilización parece recomendable, al menos con fines exploratorios.
88
uˆ12 0 ... 0
ˆ 0 uˆ 22 ... 0
0 0 ... 0
0 0 ... uˆ n2
De esta manera, es posible estimar las varianzas de los estimadores MCO (y sus
errores estándar) utilizando ̂ :
En todo caso, deben hacerse dos puntualizaciones que quizá resulten interesantes al que,
por vez primera, se asome a este procedimiento.
b. Nada garantiza, a priori, que las varianzas de los parámetros estimados con
White sean menores que las originales, dado que debe recordarse que las
MCO originales (mal calculadas) presentaban un sesgo indeterminado, pero
generalmente de infravaloración de la varianza real.
89
Como hemos venido viendo repetidas veces a lo largo del tema, la heterocedasticidad
viene producida por la dependencia de la varianza de las perturbaciones aleatorias
de una o más variables que, a su vez, pueden estar presentes en el modelo o no.
Los distintos métodos de detectar este problema servían para probar la dependencia de
la varianza de la perturbación aleatoria de un conjunto de variables, a partir de lo que
hemos llamado un supuesto simplificador:
i2 f ( 2 Z i )
Por lógica, el modo de subsanar el problema detectado será operar convenientemente las
variables del modelo precisamente eliminando la fuente de heterocedasticidad que
habremos podido definir cuando detectamos la misma.
Como veremos a continuación, si el conjunto total de las variables del modelo
(endógena incluida) es dividido por la forma estimada de esta función de la raíz de
la varianza heterocedástica (una vez algún método de detección nos haya confirmado
que efectivamente el comportamiento de esta varianza se puede seguir
convenientemente con dicha función) estaremos corrigiendo el modelo.
E (u1 ) 2 . E (u1 ) 2 .
E (u1u 2 ) E (u 2 ) 2 2
E (UU ' ) 0 2 I 2
E (u 2 )
... 0 0 ... i n
E (u1u n ) E (u 2 u n ) E (u n ) 2 0 0 0 E (u n ) 2
Formalmente, para probar esto seguimos los siguientes pasos. Dado que la matriz Σ es
una matriz semidefinida positiva (todos los elementos de su diagonal principal son
90
necesariamente positivos), siempre podremos descomponerla en dos matrices de la
forma:
PP' 1 P 1 P 1 '
E (u1 ) 2 . 12 .
0 E (u 2 ) 2
0 2 2
2
0 0 ... 0 0 ...
2
0 0 0 E (u n ) 2 0 0 0 n
'
1 . 1 .
2 0 2 0 2 2 PP'
0 0 ... 0 0 ...
0 0 0 n 0 0 0 n
Si multiplicamos cada variable del modelo por la inversa de esta matriz P, tal y como se
ha sugerido, obtenemos unas nuevas variables del siguiente tipo:
P 1Y P 1 X P 1U
Y * X * U *
donde:
E (UU ' ) 2
E (U *U * ' ) E ( P 1UU ' P 1 ' ) P 1 P 1 ' E (UU ' ) 1 1 1
1 2 2 I n
P P '
91
Por lo que podemos afirmar que el modelo transformado (aquel por el que se han
dividido todas las variables por la desviación típica estimada de las perturbaciones
aleatorias) soporta una matriz de varianzas covarianzas de las perturbaciones
aleatorias escalar, con lo que se puede estimar con toda garantía por MCO.
a) Se estiman los parámetros del modelo por MCO, ignorando por el momento
el problema de la heterocedasticidad de las perturbaciones aleatorias
92
Tema 12: La Autocorrelación
12.1. Introducción
La siguiente regresión muestra una ecuación en la que tratamos de explicar el valor real de
las importaciones trimestrales (IMPK) en función de tres explicativas: el valor real de la
formación bruta de capital fijo (FBCK), el valor real del consumo privado de los hogares
(GTOHOGK) y los precios de importación de productos energéticos (PIMPENER).
Included observations: 86
Para el caso de la inversión, la relación entre inversión e importaciones debería ser positiva;
para el caso de los precios de importación energéticos, la relación más razonable parecería
ser inversa (negativa).
93
Los contrastes individuales son significativos para todos los coeficientes a excepción de
FBCK cuyo p-value es inadmisiblemente elevado: sólo puede rechazarse la hipótesis de
nulidad del parámetro real con un (1-0,37)=0,63% de nivel de confianza.
Efectivamente, y aunque se verá con detalle más adelante, un simple vistazo al valor
del DW indica una fuerte autocorrelación positiva que, seguramente, viene causada por
una indebida especificación en niveles.
Resulta muy probable que la ecuación exhiba, así mismo, problemas de multicolinealidad,
heterocedasticidad u otros incumplimientos básicos pero, por el momento, nos
concentraremos en utilizar este ejemplo con el fin de ilustrar el problema de la
autocorrelación.
𝐸(𝑢𝑖 𝑢𝑗 ) ≠ 0
94
50000
40000
30000
20000
4000
10000
2000
0
-2000
-4000
82 84 86 88 90 92 94 96 98 00 02
4000
2000
RESID(-1)
-2000
-4000
-4000 -2000 0 2000 4000
RESID
95
12.2.2. Métodos numéricos
∑𝑇𝑡=2(𝑢𝑡 − 𝑢𝑡−1 )2
𝑑=
∑𝑇𝑡=1 𝑢𝑡2
Si d < dL,α, existe evidencia estadística de que los términos de error están
autocorrelacionados positivamente
Si d > dU,α, no hay evidencia estadística de que los términos de error están
autocorrelacionados positivamente
96
Recordemos que la correlación serial negativa implica que un error positivo para una
observación aumenta la probabilidad de un error negativo para otra observación y un
error negativo para uno aumenta las posibilidades de un error positivo para otra
observación.
Los valores críticos, dL,α y dU,α, varían según el nivel de significancia (α), el número
de observaciones y el número de predictores en la ecuación de regresión. Su
derivación es compleja. Los estadísticos suelen obtenerse a partir de los apéndices
de textos estadísticos.
En nuestro ejemplo el valor del DW es extremadamente bajo (0,29) lo que, dados los límites
inferior y superior de la distribución DW (1,575 y de 1,721 respectivamente al 5% para K=4
y n=86), confirman la presencia de una fuerte autocorrelación positiva.
De hecho, el valor del coeficiente “ρ” asociado a este valor del Durbin Watson, que
correspondería a un hipotético proceso autorregresivo de orden uno subyacente en el
residuo, resulta ser de 0.85, lo cual es muy indicativo de autocorrelación positiva:
ut ut 1 t
DW
DW 2 (1 ˆ ) ˆ 1 ˆ 0,85
2
ut 4 ut 4 i
97
N
u ut 4
2
t
d4 t 5
N
u
t 1
2
t
d 4 0,78
Los límites inferiores y superiores que corresponden al test de Wallis son, al 95% y
para K=4 y N=86, de d4i=1.48 y d4s=1.67 por lo que, nuevamente, podemos rechazar la
hipótesis nula de ausencia de autocorrelación de orden 4 (es decir, existen también
indicios de autocorrelación estacional).
En nuestro caso, vamos a incluir el retardo de orden 1 y 4 para el residuo además de las
exógenas, obteniendo como resultado de la estimación:
98
GTOHOGK 0.040605 0.056615 0.717215 0.4754
El valor obtenido es claramente superior al valor crítico de tablas (5,99 al 95% para 2 grados
de libertad) lo que obliga al rechazo de la nula y evidencia de nuevo la presencia de
autocorrelación.
Más allá del problema adicional de los signos o la significatividad de FBCK (podríamos
habernos encontrado en la misma situación sin haber observado ninguna incongruencia en
los signos o en la “t”), este tipo de regresiones con buenos valores en los contrastes de
significación y, sin embargo, una acusada autocorrelación, son relativamente
frecuentes y se conocen como Regresiones Espurias.
99
Sin embargo, a finales de la década de los años 20, Yule (1926) ya había arrojado su
particular “primera piedra” en el Journal of the Royal Statistical Society con un artículo con
el inquietante, pero muy descriptivo título: Why do we sometimes get nonsense correlations
between time series? Efectivamente, el problema de las regresiones espurias es que
tienden a admitirse como buenas relaciones económicas que, en realidad, sólo se deben
a aspectos casuales.
Una regresión con evidencias tan claras de autocorrelación debe descartarse inmediatamente
como herramienta de utilidad, sin necesidad de realizar ninguna prueba adicional y por
mucho que nos parezca atractivo el alto grado de significatividad individual o conjunta.
100
12.4. Corrección de la autocorrelación
9
Algunos autores distinguen esta situación de aquella en la que la autocorrelación no viene provocada por
una deficiente especificación. Gujarati, por ejemplo, define esta situación como Autocorrelación Pura.
10
Existen varios contrastes muy utilizados para detectar la No Estacionariedad en varianza de las series. Los
más sencillos y populares son los contrates DF y ADF (Dickey-Fuller y Augmented Dickey-Fuller), el contraste
PP (Phillips – Perron), ambos incluidos desde hace tiempo en E-Views.
101
Regresión con variables en diferencias
102
@PCH(PIMPENER) -0.015416 0.018807 -0.819696 0.4148
Quizá la forma más burda de hacer una corrección “factible” sea simplemente
camuflar el mal dato del DW añadiendo la endógena retardada en la regresión; como
103
puede imaginarse, esta táctica, ni siquiera trata de adaptar la ineficiente herramienta de
estimación MCO al problema de la autocorrelación sino, directamente, distorsionar el
modelo de forma que el DW no refleje la verdadera dimensión de la autocorrelación.
n
h ˆ
1 nˆ 2 ( 1 )
104
Es decir, en nuestro caso, el DW obtenido en la regresión que incluye la variable endógena
retardada es 1.434, que se corresponde con una estimación aproximada del coeficiente
autorregresivo “ρ” de 0.283.
n 85
h ˆ 0.283 2.798
1 nˆ (b1 )
2
1 85 (0.039181) 2
Una transformación algo más elegante, es optar por utilizar la transformada de las
variables originales, es decir, la denominada MCG Factibles (MCGF) o Mínimos
Cuadrados Generalizados Estimados (MCGE):
y t* y t ˆ y t 1
x *jt x jt ˆ x jt 1
105
Dependent Variable: R
11
Hemos denominado a las variables corregidas con el nombre original terminado en una “C”
12
Debe observarse que hemos corregido todas las variables incluido el término independiente. En realidad, la
corrección para la variable del término independiente exige utilizar ahora un vector con el valor de 1-ρ en
lugar del valor de “1” si queremos observar el término constante equivalente a la ecuación original. No
obstante, esta transformación para el término independiente no alteraría los resultados observados en el
resto de la ecuación.
106
Dependent Variable: IMPKC
Como puede observarse, hemos perdido una observación al realizar la regresión de MCGF.
Yi* Yi 1 ˆ 2
X *ji X ji 1 ˆ 2
En realidad, dado que el cálculo directo del “rho” implica cierta probabilidad de error, suele
ser conveniente utilizar el procedimiento de cálculo iterativo de ρ conocido como Cochrane
– Orcutt.
107
El cambio, sin embargo, resulta inevitable dado que hemos pasado desde un modelo
original en niveles a tratar de explicar las diferencias (o semidiferencias), es decir, el
movimiento de las series originales.
Esta corrección, que no se desarrollará teóricamente en este texto, y que en esencia sigue la
misma estrategia que la expuesta para la corrección de heterocedasticidad de White, se
denomina Estimación de Newey – West pero sólo resulta conveniente para muestras
muy grandes.
108
Dependent Variable: IMPK
Included observations: 86
109
Tema 13: Modelos de elección discreta
13.1. Introducción
Se dice que una variable es discreta cuando está formada por un número
finito de alternativas que miden cualidades.
A continuación veremos cuáles son las características de cada uno de estos modelos.
110
13.2. Modelo lineal de probabilidad (MLP)
yi 0 1 X 1 ... k X k ei (1)
Donde:
yi 1 si ocurre una alternativa
yi 0 en caso contrario
1. Uno de ellos formado por las observaciones en las que ocurrió el acontecimiento
objeto de estudio ( yi 1)
111
El Modelo Lineal de Probabilidad, ecuación (1), se puede interpretar en términos
probabilísticos, en el sentido de que un valor concreto de la recta de regresión mide
la probabilidad de que ocurra el acontecimiento objeto de estudio.
112
13.2.2. Limitaciones de la estimación por MCO
La estimación del Modelo Lineal de Probabilidad a través de MCO no garantiza que los
valores estimados de Yi estén entre 0 y 1, lo cual carece de lógica al interpretarse el
valor estimado como una probabilidad.
Dados los valores que toma la perturbación aleatoria no se puede asegurar que
ésta se distribuya como una normal, al tratarse de una distribución binaria o
dicotómica.
113
La estimación por MCO del modelo transformado es equivalente a aplicar MCG en el
modelo (1) y en ambos casos se obtienen estimaciones eficientes de los coeficientes de
regresión.
Sin embargo, uno de los problemas que presenta la estimación por MCG es la
pérdida del término independiente en el modelo.
La omisión del término independiente puede provocar que la suma de los residuos
sea distinta de cero lo que puede tener consecuencias sobre el coeficiente de
determinación (puede ser negativo), la función de verosimilitud estimada a partir
de los residuos y los estadísticos que se obtienen a partir de ella.
Para evitar que la variable endógena estimada pueda encontrarse fuera del
rango (0, 1), las alternativas disponibles son utilizar modelos de probabilidad no
lineales, donde la función de especificación utilizada garantice un resultado en la
estimación comprendido en el rango 0-1.
114
Dado que el uso de una función de distribución garantiza que el resultado de la
estimación esté acotado entre 0 y 1, en principio las posibles alternativas son varias,
siendo las más habituales:
exp( z )
G( z) (2)
1 exp( z )
z
G ( z ) (v ) d v (3)
115
En cuanto a la interpretación de los parámetros estimados, el signo de los
mismos indica la dirección en que se mueve la probabilidad cuando aumenta la
variable explicativa correspondiente.
En el caso de los modelos Logit, al suponer una relación no lineal entre las
variables explicativas y la probabilidad de ocurrencia del acontecimiento, cuando
aumenta en una unidad la variable explicativa los incrementos en la probabilidad
no son siempre iguales ya que dependen del nivel original de la misma.
p( x)
g ( x ) j
x j
dG
Donde g ( z ) ( z)
dz
Sin embargo, el signo del efecto viene dado por el signo de βj.
116
13.6. Contraste y validación de hipótesis
̂) )
𝑵(𝜷; √𝑽𝒂𝒓(𝜷
117
Este estadístico compara el valor de la función de verosimilitud de dos
modelos: uno corresponde al modelo estimado que incluye todas las variables
explicativas (modelo completo) y el otro sería el del modelo cuya única variable
explicativa es la constante (modelo restringido).
𝑳𝒐𝒈 𝑳
𝑰𝑪𝑽 = 𝟏 −
𝑳𝒐𝒈 𝑳(𝟎)
Para medir la bondad del ajuste también se utilizan medidas del error que
cuantifican la diferencia entre el valor observado y el estimado.
118
En concreto, para contrastar la hipótesis nula de que:
̂𝑖
𝐻0 : 𝑌𝑖 = 𝑀
Lo que equivale a:
̂𝑖 = 𝑒𝑖 = 0
𝐻0 : 𝑌𝑖 − 𝑀
𝑛 𝑛
(𝑌𝑖 − 𝑀̂𝑖 )2
2
𝑥 = ∑ 𝑒𝑖2 =∑
̂𝑖 (1 − 𝑀
𝑀 ̂𝑖 )
𝑖=1 𝑖=1
El ajuste del modelo será mejor cuanto más cerca de cero esté el valor del
estadístico.
Para saber a partir de qué valor puede considerarse el ajuste como aceptable es
necesario conocer la distribución del estadístico.
119
Tema 14. Introducción a los datos de panel
Es decir, se trata de una base de datos que va “siguiendo” a los individuos de una
muestra aleatoria a lo largo de varios periodos consecutivos de tiempo (“datos
longitudinales”).
Ejemplos
No tiene qué ser así necesariamente, pero en general subyace esto como
hipótesis de trabajo.
120
En segundo lugar, resulta común enfrentarse a paneles incompletos en los
que para algunos individuos se tiene un mayor número de observaciones
temporales consecutivas que para otros (que se “pierden”, “salen”, “mueren”).
Por ejemplo, en una ecuación de salarios parece lógico considerar una variable
explicativa que haga referencia a las “habilidades” o la “destreza” que tengan los
individuos.
121
Lo trascendental radica en si la heterogeneidad se considera fija,
determinista, o por el contrario se define como la composición de una parte fija
común, más una aleatoria específica para cada individuo.
122
14.2.2. Estimación con efectos aleatorios
vit =hi + e it
Por esta razón a estos modelos se les llama también modelos con errores
compuestos (error components models).
123
A este estimador se le denomina estimador Balestra-Nerlove ó Estimador
Entre Grupos, nombre este último que proviene de la equivalencia entre estos
resultados y los que se obtendrían planteando la estimación MCO entre las medias
grupales de “y” y “x”.
124
Implementación del test:
chi2(4) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 130.93
Prob>chi2 = 0.0000
(V_b-V_B is not positive definite)
Entonces, los efectos individuales parecen estar correlacionados con los regresores
125