Modelos ARIMA y Estacionariedad
Modelos ARIMA y Estacionariedad
1. Introducción
Una parte importante de esta metodología está pensada para liberar al investigador de la tarea
de especificación de los modelos dejando que los propios datos temporales de la variable a estudiar
nos indiquen las características de la estructura probabilística subyacente.
Se comenzará analizando los modelos en los que una variable es explicada utilizando
exclusivamente una "exógena": su propio pasado.
Podemos decir que la consideración exclusiva de los valores pasados de una determinada
variable para explicar su evolución presente y futura supone, al mismo tiempo, ventajas e
inconvenientes:
- las ventajas radican en el hecho de no necesitar distintas series de datos (distintas variables)
referidas al mismo período de tiempo (característica común a todos los modelos univariantes) y, al
mismo tiempo, ahorrarnos la identificación y especificación del modelo en el sentido de la econometría
tradicional,
Como es habitual en economía, definiremos una estructura que nos permita, por sus
características, cumplir el fin último de predicción: proceso estocástico estacionario.
Posteriormente, analizaremos los modelos más simples (que emplean menos retardos)
conforme a una serie de funciones características (covarianza, autocorrelación total y autocorrelación
parcial), describiendo sus condiciones y planteando estructuras teóricas que luego puedan ser
identificables con series temporales reales.
2. Conceptos Básicos
Por ejemplo, la siguiente sucesión de variables aleatorias puede ser considerada como
proceso estocástico:
Cada una de las variables Yt que configuran un proceso estocástico tendrán su propia función
de distribución con sus correspondientes momentos.
Esto mismo ocurrirá, ya no para cada par de variables, sino para conjuntos más amplios de
las mismas.
( Y t1 ,Y t2 ,Y t3 ,....Y tm )
UCB - Econometría II Horacio Villegas – 1/2020
Habitualmente, conocer esas funciones de distribución resulta complejo de forma que, para
caracterizar un proceso estocástico, bastará con especificar la media y la varianza para cada yt y
la covarianza para variables referidas a distintos valores de t:
Sin embargo, de todos los tipos de procesos estocásticos posibles, nos interesan especialmente
dos de ellos a los que la estadística ha dado nombres precisos:
- ruido blanco es una sucesión de variables aleatorias (proceso estocástico) con esperanza
(media) cero, varianza constante e independientes para distintos valores de t (covarianza
nula).
Decimos que un proceso estocástico es estacionario si las funciones de distribución conjuntas son
invariantes con respecto a un desplazamiento en el tiempo (variación de t).
Es decir, considerando que t, t+1, t+2, ...., t+k reflejan períodos sucesivos:
- Las esperanzas matemáticas de las variables aleatorias no dependen del tiempo, son
constantes:
E[Yt ] = E[Yt+m ] m
- Las covarianzas entre dos variables aleatorias del proceso correspondientes a períodos
distintos de tiempo (distintos valores de t) solamente dependen del lapso de tiempo transcurrido
entre ellas:
Una vez introducido el concepto genérico de proceso estocástico puede decirse que una serie
temporal cualquiera es, en realidad una muestra, una realización concreta de un proceso estocástico
teórico, real.
El análisis de series que vamos a estudiar tratará, a partir de los datos de una serie temporal, de
inferir las características de la estructura probabilística subyacente, del verdadero proceso estocástico.
UCB - Econometría II Horacio Villegas – 1/2020
Una tendencia estocástica es un componente estocástico cuya varianza tiende a infinito con el
paso del tiempo.
Una tendencia determinista es una función exacta del tiempo, generalmente lineal o
cuadrática, lo que hace que el valor de la variable crezca o disminuya constantemente; si la
tendencia es lineal, la variable tenderá a más o menos infinito; si la tendencia es cuadrática o de
orden superior, la variable puede estar acotada.
Si una variable presenta una tendencia determinista lineal, su valor esperado tenderá a aumentar o
disminuir continuamente, con lo que será imposible mantener el supuesto de que la esperanza
matemática de la sucesión de variables aleatorias que configura el proceso estocástico
correspondiente a dicha variable, es constante.
Que evoluciona a partir de un valor inicial dado, donde el error es ruido b1anco: sucesión de
variables aleatorias, independientes, con media constante (que suponemos cero), y varianza
constante.
Cuanto mayor sea el número de observaciones consideradas, mayor será la varianza muestral
del camino aleatorio.
Esto es lo que ocurrirá con la inmensa mayoría de los precios cotizados en los mercados
financieros.
El problema de la regresión espúrea fue analizado por Granger y Newbold (1974), quienes
mostraron la posibilidad de que, en determinadas situaciones, estimaciones mínimocuadráticas de
un modelo de regresión lineal que sugieren una estrecha relación entre variable dependiente y
variables independientes, están reflejando, en realidad, una relación espúrea o ficticia, que en
realidad no existe.
Lo que suele ignorarse con demasiada frecuencia es que las condiciones para que una regresión
sea espúrea se dan con mucha frecuencia en la investigación aplicada en Economía, en general, y en
Finanzas, en particular.
Para ello, pensemos en el siguiente ejercicio: comenzamos simulando dos ruidos blancos
independientes, , , t = 1, 2, ..., T, a partir de distribuciones de probabilidad Normal, con
esperanza matemática , (por ejemplo, iguales a cero) y varianzas ; el coeficiente de
correlación muestral entre las series temporales resultantes será, por construcción, muy reducido, si
bien no exactamente igual a cero.
Cuanto mayor sea el tamano muestral, más probable es que dicha correlación sea igual a cero,
debido a que la correlación muestral, es decir, la correlación entre las dos series temporales
simuladas es, por la ley de los grandes números, un estimador consistente de su análogo poblacional,
que es el coeficiente de correlación teórico entre los dos procesos, que es igual a cero.
El gráfico de ambas variables presentará una pauta oscilando alrededor de su media muestral
que, por la misma razón apuntada para el coeficiente de correlación, serán próximas, si bien no
iguales.
En efecto, salvo por el error estadístico, así ocurre cuando llevamos a cabo un ejercicio de
simulación de Monte Carlo: al 95% de confianza, el habitual contraste tipo t rechazará la hipótesis
nula de ausencia de capacidad explicativa de , HO: = 0 aproximadamente en un 5 % de los
casos, y el valor “mediana” del coeficiente de determinación R cuadrado para todas las simulaciones
es muy reducido.
donde a y b son constantes arbitrarias y t es una tendencia determinista, es decir, una variable
que aumenta cada período en una cantidad constante, .
Esto es sorprendente porque, como muestran las expresiones anteriores, cada variable es la
suma de un componente de naturaleza determinista, que no experimenta ninguna fluctuación
aleatoria, y un segundo componente de naturaleza estocástica.
Pero dicha correlación debería ser, por construcción, prácticamente igual a cero, en
contra del resultado que se obtiene cuando se lleva a cabo este ejercicio de simulación.
UCB - Econometría II Horacio Villegas – 1/2020
En todo caso, tal elevada correlación no refleja ninguna relación real entre las variables, por lo
que se denomina correlación espúrea.
Como consecuencia de la misma, si se estima una regresión lineal, tomando cualquiera de estas
variables como variable dependiente y la otra como independiente,
Ambas cosas ocurrirán en un elevado porcentaje de las simulaciones que realicemos, para
distintas series temporales de , , t = 1, 2,..., T.
Este resultado es sorprendente, dado que las variables xt, yt tienen la misma estructura
estocástica que , , por lo que ambas relaciones deberían proporcionar resultados análogos.
Para ello, realizaron el siguiente ejercicio: a partir de la simulación de dos ruidos blancos
independientes que tendrán, por construcción, como antes, un coeficiente de correlación muestral
muy reducido, añadieron una raíz unitaria o tendencia estocástica a cada uno de ellos,
Esto es sorprendente, por cuanto que, a partir de condiciones iniciales conocidas, los valores de
ambas variables en cada instante de tiempo pueden escribirse como,
UCB - Econometría II Horacio Villegas – 1/2020
Que indican que la evolución temporal de cada una de las variables se debe a la acumulación
temporal de sus innovaciones.
Por tanto, la naturaleza estocástica de cada variable está totalmente determinada por la
naturaleza de sus innovaciones.
En todo caso, nuevamente, tal elevada correlación no refleja ninguna relación real entre
las variables, por lo que se denomina correlación espúrea.
Si estimamos una regresión lineal entre estas variables, en cualquier orden, tendremos de
nuevo un R cuadrado elevado y una pendiente significativa, de acuerdo con el criterio habitual de
utilizar su estadístico tipo t−Student, pero la evidencia de capacidad explicativa proporcionada por
esta regresión sería espúrea.
Nuevamente los coeficientes de determinación son muy elevados, lo que sorprende, pues
realmente, xt no explica a yt.
De las dos situaciones descritas anteriormente, es algo más sencilla de tratar la presencia de
tendencias deterministas, cuando se anticipa correctamente que la presencia de las mismas es la
única causa de no estacionariedad de las variables que se pretende relacionar, es decir, cuando las
variables tienen estructura,
UCB - Econometría II Horacio Villegas – 1/2020
Para ello, hay dos posibilidades: la primera consiste en incorporar en el modelo de regresión
una tendencia determinista lineal como variable explicativa
Este término aparecerá como claramente significativo, con un estadístico t muy elevado.
Cuando las variables tienen estructura con tendencia individual cada una.
Sin tendencia, aunque hemos introducido una estructura de media móvil, MA(1), en el término
de error de la regresión resultante
Un proceso con una tendencia determinista cuadrática sigue trayectorias con formas
parabólicas, cóncavas o convexas.
Su primera diferencia presentará una tendencia lineal, mientras que su segunda diferencia
estará libre de tendencia.
UCB - Econometría II Horacio Villegas – 1/2020
Un proceso con una tendencia determinista representada por un polinomio de grado tres puede
tener ciclos.
Por tanto, aparentemente, una solución en el caso en que sospechamos que puede haber
tendencias deterministas en las variables que pretendemos relacionar, consistiría en estimar la
posible relación entre ellas después de haber tomado diferencias temporales.
Sin embargo, con dicha transformación perdemos bastante información acerca de las
fluctuaciones de corto plazo en las variables por lo que los procedimientos anteriormente
descritos son más recomendables.
Una tendencia estocástica es un componente de una variable que hace que su varianza tienda
a infinito con el tamaño de la muestra.
Esto es lo que sucede con el camino aleatorio: cuanto mayor sea el número de observaciones
consideradas, mayor será su varianza muestral.
La propiedad de que la varianza de un camino aleatorio crece sin límite con el tiempo se
mantiene cuando se añaden a la estructura de camino aleatorio componentes autoregresivos o
de medias móviles para yt.
En general, decimos que un proceso estocástico tiene una raíz unitaria cuando la ecuación
característica del polinomio de retardos que representa su estructura autoregresiva la tiene.
UCB - Econometría II Horacio Villegas – 1/2020
Si ρ ˂ 1, el proceso es estacionario.
Es decir, el proceso:
Resulta serlo.
UCB - Econometría II Horacio Villegas – 1/2020
Como en la práctica sólo tenemos una realización de un proceso estocástico (es decir, la muestra),
sólo podemos calcular la función de autocorrelación muestral, ̂ .
Para tal efecto, debemos calcular primero la covarianza muestral en el rezago k, ̂ , y la varianza
muestral, ̂, definidas como:
que es simplemente la razón entre la covarianza muestral (en el rezago k) y la varianza muestral.
Yt = ut
donde ut son términos de error de ruido blanco de forma que cada ut ~ N(0, 1); es decir, cada ut sigue la
distribución normal estándar.
La línea vertical continua de este diagrama representa el eje cero; las observaciones por arriba de
esta línea son valores positivos, y los que están por debajo, negativos.
Como resulta evidente a partir de este diagrama, para un proceso puramente de ruido blanco, las
autocorrelaciones en distintos rezagos se ubican alrededor del cero.
Por tanto, si el correlograma de una serie de tiempo real (económica) se parece al correlograma
de una serie de tiempo de ruido blanco, podemos decir que dicha serie de tiempo es quizá estacionaria.
El coeficiente de autocorrelación comienza en un nivel muy alto y disminuye de modo muy lento
hacia cero, conforme se prolonga el rezago.
Una regla práctica es calcular la FAC hasta un tercio o una cuarta parte de la longitud de la serie de
tiempo.
El mejor consejo práctico es comenzar con rezagos lo bastante grandes y luego reducirlos mediante
un criterio estadístico, como el criterio de información Akaike o de Schwarz.
Por otra parte, también podemos utilizar cualquiera de las siguientes pruebas.
Bartlett demostró que si una serie de tiempo es puramente aleatoria, es decir, si es una muestra
de ruido blanco, los coeficientes de autocorrelación muestrales son aproximadamente:
Por tanto, según las propiedades de la distribución normal estándar, el intervalo de confianza de
95% para cualquier (población) ρk es:
̂ ± 1.96*(ee)
En otras palabras:
̂ - 1.96*(ee) ≤ ρk ̂ + 1.96*(ee)
Una variante del estadístico Q de Box-Pierce es el estadístico Ljung-Box (LB), que se define
como:
Sin duda alguna, el test más habitual a la hora de determinar la estacionariedad de una serie
temporal, consiste en la aplicación del conocido como test de Dickey–Fuller (Test DF) o Dickey-Fuller
Ampliado (Test ADF).
Vamos a suponer inicialmente, como modelo de partida para el análisis de una determinada
serie yt, el de un proceso estacionario autorregresivo de orden uno:
UCB - Econometría II Horacio Villegas – 1/2020
frente a este modelo se plantea, como hipótesis nula H0, el modelo alternativo de un paseo
aleatorio no estacionario del tipo:
yt yt1 t
Si la hipótesis nula fuera cierta, la varianza de yt no sería estacionaria sino que crecería con los
valores de “t” según la expresión de la varianza de un paseo aleatorio.
Sin embargo, para contrastar la unidad del coeficiente ρ, no podemos utilizar el contraste
“t” habitual sobre una estimación por MCO del primer modelo.
Utilizando las palabras de Novales (1993), la distribución de probabilidad asintótica del estimador
de MCO del modelo AR(1) presenta una “discontinuidad” cuando ρ=1 y, como sustituto, deberán
utilizarse las distribuciones derivadas de forma empírica mediante un procedimiento de Montecarlo
realizado por Dickey (1976).
Más recientemente, MacKinnon (1991) realizó un número mayor de simulaciones que las
tabuladas por Dickey y Fuller.
donde xt son regresores exógenos opcionales que pueden consistir en constante, o una constante y
tendencia.
Por tanto, la hipótesis nula inicial, se transforma ahora en H0: α=0 frente a H1: α< 0.
Decir que α es nulo es lo mismo que decir que ρ=1, o sea, que existe una raíz unitaria, decir
que es menor que cero equivale a decir que ρ es menor que la unidad (proceso autorregresivo
estacionario).
El procedimiento básico para la aplicación simple del test DF es, a partir de aquí,
aparentemente sencillo.
Se estima el modelo propuesto y se calcula el valor estimado de la “t” del parámetro analizado.
Una vez calculado se compara con el valor empírico de referencia obtenido con las tablas de
Dickey y Fuller o de MacKinnon.
El modelo expuesto hasta el momento es el más simple posible, pero cabe que el modelo más
adecuado a la realidad incluya otros términos rezagados.
Dolado et al. (1990) y Perron (1990) propusieron, entre otros autores, seguir un proceso en
etapas a fin de garantizar el éxito en la elección del modelo de referencia:
- Dado que el principal error de esta táctica inicial consistiría en la escasa potencia del
contraste para el rechazo de la hipótesis nula por inclusión de variables irrelevantes, si los
valores críticos indican rechazo (ausencia de raíz unitaria), terminaríamos el
procedimiento.
Dado que, en este punto, estaríamos bajo la hipótesis ya admitida de que α=0, utilizaríamos
el valor de referencia de e incluso, para mayor seguridad, también el contraste
conjunto 3 (a2=α=0).
- Sea cual sea el resultado del test con las nuevas tablas finalizaríamos aquí el contraste
admitiendo o rechazando la presencia de una raíz unitaria.
estimado pasándose a examinar otro con término constante pero sin esta tendencia
determinista.
Con este modelo se vuelve a analizar la presencia de una raíz unitaria (α=0).
Si el término independiente resulta significativo usamos de nuevo las tablas de una normal
para contrastar la presencia de la raíz unitaria, concluyendo de nuevo aquí el contraste.
Está claro que lo expuesto hasta este momento permite contrastar la presencia de una o más
raíces unitarias en una determinada serie temporal para la que se supone un proceso AR(1).
No parece, por tanto, muy correcto, contrastar la presencia de una o más raíces
unitarias utilizando siempre la estructura de un modelo AR(1) ya que las raíces unitarias pueden
aparecer también en estructuras más complejas.
Este problema da lugar a lo que se conoce como test de raíces unitarias de Dickey-Fuller
Ampliado (DFA):
Si se quiere contrastar la presencia de una raíz unitaria en una serie que sigue un proceso
AR(p), deberá aplicarse el procedimiento expuesto para el caso simple AR(1), pero suponiendo ahora el
modelo:
Si la serie presenta un orden mayor de rezagos, se viola el supuesto de ruido blanco en las
perturbaciones.
Un resultado importante obtenido por Fuller es que la distribución asintótica del ratio t para α
UCB - Econometría II Horacio Villegas – 1/2020
Por otra parte, mientras que la suposición de que y sigue un proceso autorregresivo (AR) puede
parecer restrictiva, Said y Dickey (1984) demuestran que la prueba ADF es asintóticamente válida en
presencia de componentes de media móvil (MA), siempre que hayan suficientes términos rezagados
incluidos la regresión de prueba.
Al igual que en el test de DF, es posible optar por incluir una constante, o una constante y una
tendencia lineal en la regresión ADF.
Para estos dos casos, ERS (1996) proponen una simple modificación de las pruebas ADF en la
que se quita la tendencia a los datos.
ERS definen una cuasi-diferencia de yt que depende del valor “a”, representando el punto
específico con el que deseamos probar la hipótesis nula:
A continuación, consideremos una regresión por mínimos cuadrados de los datos cuasi-
diferenciados de y en función de los datos cuasi-diferenciados en x:
donde xt contiene ya sea una constante, o una constante y tendencia, y dejemos que delta sea el
estimador mínimo cuadrático de esta regresión.
Definamos ahora los datos sin tendencia GLS, usando los estimados asociados de ̅:
Entonces la prueba DFGLS implica estimar la ecuación de prueba estándar ADF sustituyendo
los datos sin tendencia GLS:
Como con el test ADF, consideraremos el estadístico t de ̂ para realizar el test de esta
ecuación.
Mientras que el ratio t DFGLS sigue una distribución Dickey-Fuller en el modelo con
constante, la distribución asintótica es diferente cuando se incluyen tanto una constante y una
tendencia.
ERS (1996) simula los valores críticos del test estadístico para T = { }.
Por lo tanto, se utilizarán los valores críticos de MacKinnon para el caso con constante, pero se
interpolarán a partir de los valores de ERS para el caso con constante y tendencia.
Phillips y Perron (1988) proponen un método alternativo (no paramétrico) para controlar la
correlación serial al testear raíz unitaria.
La distribución asintótica del ratio t modificado de PP es la misma que la del estadístico ADF.
Por ello deberán utilizarse los valores críticos de Mackinnon para realizar este test.
Davidson and MacKinnon (2004) muestran que el test de Phillips–Perron no funciona tan bien
como el de Dickey-Fuller aumentado en muestras finitas.
Muchas de las pruebas de raíz unitaria requieren una estimación consistente del espectro
residual de frecuencia cero.
Existen varios tipos de estimadores de este espectro, por ej.: estimadores de kernel basados en
la suma de covarianzas, y estimadores autorregresivos de densidad espectral.
Dentro del primer tipo de estimadores existe una variedad de funciones de Kernel;
El estimador del espectro de frecuencia cero basado en la función de kernel, calcula una suma
ponderada de las autocovarianzas.
Al igual que con la mayoría de los estimadores kernel, la elección del parámetro de ancho de
banda l es de considerable importancia.
Newey West permite una selección automática de los rezagos al calcular la matriz HAC.
Los experimentos de Monte Carlo de Newey West muestran que es más importante la
selección del rezago y no así del kernel.
La prueba KPSS (1992) se diferencia de las otras pruebas de raíces unitarias descritas
anteriormente en que se supone que yt es estacionaria (en tendencia) bajo la hipótesis nula.
El estadístico KPSS se basa en los residuos de la regresión por mínimos cuadrados de yt sobre
las variables exógenas xt:
UCB - Econometría II Horacio Villegas – 1/2020
donde f0, es un estimador del espectro residual de frecuencia cero y donde S(t) es una función
acumulada de residuos:
Se debe recalcar que el estimador de δ usado en esta cálculo difiere del estimador de δ
utilizado en la prueba de Dickey-Fuller sin tendencia GLS, ya que se basa en una regresión que
involucra los datos originales y no los datos en cuasi-diferencia.
Los valores críticos reportados para la estadística de prueba LM se basan en los resultados
asintóticos presentados por KPSS (1992).
ERS proponen una versión modificada del test t de DF que presenta mayor “poder” cuando la
serie tiene una media desconocida o una tendencia lineal.
Y sea:
UCB - Econometría II Horacio Villegas – 1/2020
Luego, el test estadístico de punto óptimo ERS (factible) con la hipótesis nula de que α = 1
frente a la alternativa de que α = ̅, se define como:
ERS sugiere utilizar un estimador de densidad espectral autorregresivo estimado por Mínimos
Cuadrados Ordinarios.
Los valores críticos del test ERS se computan al interpolar los resultados de la simulación
provistos por ERS para T = { }
donde:
Ng y Perron (2001) construyen cuatro pruebas estadísticas que se basan en los datos sin
tendencia GLS, .
Donde:
Los test de Ng y Perron son útiles cuando hay errores con una raíz de media móvil cercana a -
1.
3.7. Conclusiones
Una gran ventaja del test de Philips-Perron es que este es no parámetrico; no requiere la selección
del nivel de correlación serial, como en el test ADF.
Este considera la misma estimación que un test DF, pero corrige el estadístico por
heterocedasticidad y autocorrelación (matrices HAC).
La principal desventaja del test de PP es que está basado en teoría asintótica; solo funciona bien
en muestras grandes
Aunque la práctica común ha sido utilizar el test ADF o el de PP, existen test para casos
específicos y con propiedades muy buenas.
Elliott, Rothenberg and Stock (ERS) proponen un test eficiente utilizando la lógica de mínimos
cuadrados generalizados.
Ellos demuestran que el test tiene un mejor desempeño que el de DF en muestras pequeñas.
Finalmente, Ng y Perron permiten detectar la presencia de raíz unitaria cuando los errores tienen
la presencia de una media móvil con raíz cercana a -1.
El uso de pruebas de raíz unitaria para distinguir entre datos estacionarios en tendencia o en
diferencia se ha convertido en una herramienta esencial en la investigación aplicada.
Sin embargo, como señala Perron (1989), cambio estructural y raíces unitarias están
estrechamente relacionados.
UCB - Econometría II Horacio Villegas – 1/2020
Se debe tener en cuenta que las pruebas de raíz unitaria convencionales están sesgadas hacia una
falsa hipótesis nula de raíz unitaria cuando los datos son estacionarios en tendencia con quiebre
estructural.
4.1. Antecedentes
Para una discusión en profundidad ver Perron (1989), Vogelsang y Perron (1998), Zivot y
Andrews (1992), Banerjee et al. (1992) y otros.
Antes de continuar, será útil definir algunas variables que nos permitan caracterizar los quiebre.
Sea 1(·) una función indicador que toma el valor 1 si el argumento (·) es cierto, y 0 en caso
contrario.
que toma el valor 0 para todas las fechas antes del quiebre, y 1 de ahí en adelante.
que toma el valor 0 para todas las fechas antes del quiebre, y es una tendencia post quiebre para
todas las fechas posteriores.
4.3. El modelo
Siguiendo a Perron (1989), consideramos cuatro modelos básicos con un quiebre de una sola
vez.
Para datos sin tendencia, tenemos un modelo con (O) un cambio de una sola vez en el nivel;
Para datos con tendencia, tenemos modelos con (A) un cambio en el nivel, (B) un cambio tanto
en nivel y tendencia, y (C) un cambio en la tendencia.
Además, consideramos dos versiones de los cuatro modelos que difieren en su tratamiento de
la dinámica de quiebre:
El modelo de outliers en las innovaciones (IO) que asume que el quiebre ocurre gradualmente,
y que este sigue la misma trayectoria dinámica que las innovaciones.
Por otro lado, el modelo de outlier aditivo (AO) asume que el quiebre ocurre inmediatamente.
Los tests considerados evalúan la hipótesis nula de que los datos siguen un proceso de raíz
unitaria, posiblemente con un quiebre, contra la hipótesis alternativa de que la serie es estacionaria en
tendencia con quiebre.
Tenga en cuenta que las variables de quiebre entran en el modelo con la misma dinámica que
las innovaciones .
Debemos construir una ecuación general del test de Dickey-Fuller que combine ambas
hipótesis:
Como con las ecuaciones convencionales del test de raíz unitaria de Dickey-Fuller, las k
diferencias rezagadas de y son incluidas en la ecuación para eliminar el efecto de la estructura de
correlación del error sobre la distribución asintótica del estadístico.
Con este marco general, podemos especificar diferentes modelos para la hipótesis nula y
alternativa, asumiendo restricciones en uno o más de los parámetros de tendencia y quiebre, .
Fijando el coeficiente de quiebre de la tendencia γ a cero produce un test de caminata aleatoria con
constante contra un modelo estacionario en tendencia con quiebre en el intercepto.
UCB - Econometría II Horacio Villegas – 1/2020
La ecuación sin restricciones de Dickey-Fuller testea caminata aleatoria con constante contra la
alternativa de serie estacionaria en tendencia con intercepto y quiebre en la tendencia.
Fijando los coeficientes del quiebre en el intercepto y las dummies de quiebre a cero se testea
una caminata aleatoria con constante en contra de una serie estacionaria en tendencia con quiebre en la
tendencia.
Hay que tener en cuenta que si se especifica una fecha conocida de quiebre o por el contrario,
se debe calcular esta, afectará a las especificaciones permitidas para la hipótesis nula.
Si se estima la fecha de quiebre, los test considerados no permiten quiebre en la tendencia bajo
la hipótesis nula.
Vogelsang y Perron (1998) ofrecen una discusión detallada sobre este punto, notando que esta
restricción indeseable es requerida para obtener resultados distribucionales para el estadístico t
resultante del test de Dickey-Fuller.
Ellos ofrecen consejos prácticos para testear casos en los que γ es diferente a cero bajo la nula.
Luego usamos la serie sin tendencia para testear si hay raíz unitaria utilizando una regresión
modificada de Dickey -Fuller.
En el primer paso de la prueba de AO, quitamos la tendencia a los datos utilizando un modelo
con tendencia apropiada y variables de quiebre:
Al igual que con los test IO, cuando estimamos la fecha de quiebre usando los datos, los
resultados distribucionales requieren que no haya quiebre en la tendencia bajo la hipótesis nula.
Para cualquiera de los modelos descritos anteriormente, se debe elegir un número de retardos k a
incluirse.
Las propiedades teóricas de los test estadísticos requieren que elijamos el número de rezagos en
las ecuaciones de Dickey-Fuller.
La idea es que k sea lo suficientemente grande como para eliminar el efecto de la estructura de
correlación de los errores en la distribución asintótica del estadístico.
Todos los métodos restantes dependen de los datos y requieren la especificación de un rezago
máximo, kmax.
Test t
Siguiendo a Perron (1989), Perron y Vogelsang (1992), y Vogelsang y Perron (1998), k* se elige
de manera tal que el último coeficiente de la variable dependiente en diferencias rezagada sea
significativa a un valor de probabilidad especificada, mientras que los coeficientes mayores a kmax sean
todos no significativos.
Test F
hasta kmax.
Si cualquiera de los test contra los rezagos de mayor orden son significativos a un nivel de
probabilidad especificada, fijaremos k* = k0 + 1
Criterios de información
Entre los criterios usuales están el Akaike, Schwarz, Hannan-Quinn, Akaike Modificado, Schwarz
Modificado, Hannan-Quinn Modificado.
La investigación posterior (Zivot y Andrews, 1992; Banerjee et al., 1992; Vogelsang y Perron,
1998) se ha centrado en la determinación endógena de la fecha de quiebre usando los datos.
Selecciona la fecha proveyendo la mayor evidencia contra la hipótesis nula de raíz unitaria y en
favor de la hipótesis alternativa de quiebre en la tendencia.
Las opciones alternativas de minimizar y maximizar son provistas para permitir la evaluación de
alternativas de una sola cola, y producirán diferentes valores críticos para el test estadístico final de
Dickey-Fuller y mayor poder que las alternativas no direccionales.
UCB - Econometría II Horacio Villegas – 1/2020
1. Modelos autorregresivos
Los modelos autorregresivos se abrevian con la palabra AR tras la que se indica el orden del
modelo: AR(1), AR(2),....etc.
Y t = 0 + 1Y t -1 + at
El término de error de los modelos de este tipo se denomina generalmente ruido blanco
cuando cumple las tres hipótesis básicas tradicionales:
- media nula
- varianza constante
- covarianza nula entre errores correspondientes a observaciones diferentes
Y t = 0 + 1Y t-1 + 2 Y t- 2 + ......+ p Y t- p + at
p (L)Y t = 0 + at
p (L) = 1 - 1 L - 2 L2 - ......- p Lp
UCB - Econometría II Horacio Villegas – 1/2020
y donde, a su vez, el término L es lo que se conoce como operador retardo tal que, aplicado al valor
de una variable en t, dé como resultado el valor de esa misma variable en t-1:
LYt=Yt-1
Lp Yt=Yt-p
Un modelo de los denominados de medias móviles es aquel que explica el valor de una
determinada variable en un período t en función de un término independiente y una sucesión de errores
correspondientes a períodos precedentes, ponderados convenientemente.
Estos modelos se denotan normalmente con las siglas MA, seguidos, como en el caso de los
modelos autorregresivos, del orden entre paréntesis.
que de nuevo puede abreviarse utilizando el polinomio de retardos (como en el caso de los modelos
AR):
Y t = q (L) at +
Al igual que en el caso de los modelos autorregresivos, el orden de los modelos de medias
móviles suele ser bajo MA(1), MA(2) o corresponderse con la periodicidad de los datos analizados
MA(4), para series trimestrales, o MA(12) para series mensuales.
¿Qué significa que una variable aleatoria se explique en función de los errores cometidos en
UCBperíodos precedentes?
- Econometría II Horacio Villegas
¿De dónde proceden esos errores? ¿Cuál es la justificación – 1/2020de
de un modelo
este tipo?
Y t = Y t -1 + at
Y t-1 = Y t- 2 + at -1
y sustituyendo queda:
Y t = at + at-1 + Y t -2
2
si ahora sustituimos yt-2 por su expresión autorregresiva y así sucesivamente llegamos a un modelo del
tipo:
que es la expresión, sin término independiente, de un modelo de medias móviles como el planteado
anteriormente.
En realidad, de forma estricta, el paso de un modelo a otro debería realizarse al contrario (de
un MA a un AR) utilizando el teorema general de descomposición de Wold.
Los modelos de series de tiempo analizados se basan en el supuesto de que las series de tiempo
consideradas son (débilmente) estacionarias.
En pocas palabras, la media y la varianza de una serie de tiempo débilmente estacionaria son
constantes y su covarianza es invariante en el tiempo.
Pero sabemos que muchas series de tiempo económicas son no estacionarias, es decir, son integradas.
Sin embargo, si una serie de tiempo es integrada de orden 1 [es decir, si es I(1)], sus primeras
diferencias son I(0), es decir, estacionarias.
En forma similar, si una serie de tiempo es I(2), sus segundas diferencias son I(0).
En general, si una serie de tiempo es I(d), después de diferenciarla d veces se obtiene una serie I(0).
Por consiguiente, si debemos diferenciar una serie de tiempo d veces para hacerla estacionaria y luego
aplicarle el modelo ARMA(p,q), decimos que la serie de tiempo original es ARIMA(p, d, q), es decir,
es una serie de tiempo autorregresiva integrada de promedios móviles, donde p denota el número de
términos autorregresivos, d el número de veces que la serie debe diferenciarse para hacerse estacionaria
y q el número de términos de promedios móviles.
Así, una serie de tiempo ARIMA(2, 1, 2) tiene que diferenciarse una vez (d = 1) antes de que se haga
estacionaria, y la serie de tiempo estacionaria (en primeras diferencias) puede modelarse como un
proceso ARMA(2, 2), es decir, tiene dos términos AR y dos términos MA.
Desde luego, si d= 0 (es decir, si para empezar la serie es estacionaria), ARIMA(p, 0, q) = ARMA(p,
q).
El punto importante es que, para utilizar la metodología Box-Jenkins (que veremos en breve), debemos
tener una serie de tiempo estacionaria o una serie de tiempo que sea estacionaria después de una o
más diferenciaciones.
Entonces, si se va a pronosticar con este modelo estimado, debe suponerse que sus características son
constantes a través del tiempo y, en particular, en periodos futuros.
Así, la sencilla razón para requerir datos estacionarios es que todo modelo que se infiera a partir de
estos datos pueda interpretarse como estacionario o estable en sí mismo, y proporcione, por
consiguiente, una base válida para pronosticar.
UCB - Econometría II Horacio Villegas – 1/2020
En seguida veremos la forma como el correlograma y el correlograma parcial ayudan en esta labor.
Paso 2. Estimación. Tras identificar los valores apropiados de p y q, la siguiente etapa es estimar los
parámetros de los términos autorregresivos y de promedios móviles incluidos en el modelo.
Algunas veces, este cálculo se efectúa mediante mínimos cuadrados ordinarios, pero otras hay que
recurrir a métodos de estimación no lineal (en parámetros).
Es por esto que el diseño de modelos ARIMA de Box-Jenkins es un arte más que una ciencia; se
requiere gran habilidad para seleccionar el modelo ARIMA correcto.
Una simple prueba del modelo seleccionado es ver si los residuales estimados a partir de este modelo
son ruido blanco; si lo son, aceptamos el ajuste particular; si no lo son, debemos empezar de nuevo.
Paso 4. Pronóstico. Una razón de la popularidad del proceso de construcción de modelos ARIMA es
su éxito en el pronóstico.
En muchos casos, los pronósticos obtenidos por este método son más confiables que los obtenidos de
modelos econométricos tradicionales, en particular en el caso de pronósticos de corto plazo.
4.1. Identificación
En forma similar, la autocorrelación parcial ρkk mide la correlación entre observaciones (series de
tiempo) separadas k periodos y mantiene constantes las correlaciones en los rezagos intermedios (es
decir, rezagos menores de k).
Ahora, ¿cómo permiten los correlogramas encontrar el patrón ARMA de una serie de tiempo?
Como cada proceso estocástico presenta patrones habituales de FAC y de FACP, si la serie de
tiempo en estudio se ajusta a alguno de estos patrones, la podemos identificar con tal proceso.
Desde luego, será necesario aplicar pruebas de diagnóstico para determinar si el modelo
seleccionado ARMA es razonablemente preciso.
UCB - Econometría II Horacio Villegas – 1/2020
El estudio de las propiedades de los diversos procesos estándar ARIMA consumiría mucho
espacio.
Observe que las FAC y las FACP de los procesos AR(p) y MA(q) tienen patrones opuestos; en
el caso AR(p), la FAC decrece geométrica o exponencialmente, pero la FACP se corta después de
cierto número de rezagos, mientras que sucede lo opuesto a un proceso MA(q).
Geométricamente tenemos:
Como en la práctica no se observan las FAC y FACP teóricas y se depende, por tanto, de sus
aproximaciones muestrales, las FAC y FACP estimadas no concordarán exactamente con sus
contrapartes teóricas.
UCB - Econometría II Horacio Villegas – 1/2020
Buscamos una similitud entre las FAC y las FACP teóricas y muestrales de manera que
señalen la dirección correcta en la construcción de los modelos ARIMA.
Es por esto que la elaboración de modelos ARIMA requiere gran habilidad, lo cual, desde
luego, se obtiene con la práctica.
1. El método Box-Jenkins para pronósticos económicos es una opción respecto de los modelos
tradicionales uniecuacionales.
Los correlogramas asociados a FAC y FACP son, con frecuencia, buenas herramientas de
diagnóstico visual.
b) Si la serie de tiempo es no estacionaria, debe diferenciarse una o más veces para alcanzar
la estacionariedad.
e) Se examinan los residuos de este modelo tentativo para establecer si son de ruido blanco.