0% encontró este documento útil (0 votos)
511 vistas44 páginas

Modelos ARIMA y Estacionariedad

Este documento introduce conceptos clave para entender los modelos ARIMA, incluyendo estacionariedad, raíz unitaria y procesos estocásticos. Explica que un proceso es estacionario si sus medias, varianzas y covarianzas no cambian a través del tiempo. También discute cómo determinar si una serie es estacionaria a través de pruebas de raíz unitaria, y cómo transformar series no estacionarias mediante diferencias para lograr la estacionariedad.

Cargado por

Sofía Carranza
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
511 vistas44 páginas

Modelos ARIMA y Estacionariedad

Este documento introduce conceptos clave para entender los modelos ARIMA, incluyendo estacionariedad, raíz unitaria y procesos estocásticos. Explica que un proceso es estacionario si sus medias, varianzas y covarianzas no cambian a través del tiempo. También discute cómo determinar si una serie es estacionaria a través de pruebas de raíz unitaria, y cómo transformar series no estacionarias mediante diferencias para lograr la estacionariedad.

Cargado por

Sofía Carranza
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 44

UCB - Econometría II Horacio Villegas – 1/2020

Estacionariedad, raíz unitaria y los modelos ARIMA

I. Estacionariedad y raíz unitaria

1. Introducción

En 1970, Box y Jenkins desarrollaron un cuerpo metodológico destinado a identificar, estimar y


diagnosticar modelos dinámicos de series temporales en los que la variable tiempo juega un papel
fundamental.

Una parte importante de esta metodología está pensada para liberar al investigador de la tarea
de especificación de los modelos dejando que los propios datos temporales de la variable a estudiar
nos indiquen las características de la estructura probabilística subyacente.

En parte, los procedimientos que vamos a analizar se contraponen a la "forma tradicional" de


identificar y especificar un modelo apoyándonos en las teorías subyacentes al fenómeno analizado
aunque, convenientemente utilizados, los conceptos y procedimientos que examinaremos constituyen una
herramienta útil para ampliar y complementar los conocimientos econométricos básicos.

Se comenzará analizando los modelos en los que una variable es explicada utilizando
exclusivamente una "exógena": su propio pasado.

Podemos decir que la consideración exclusiva de los valores pasados de una determinada
variable para explicar su evolución presente y futura supone, al mismo tiempo, ventajas e
inconvenientes:

- las ventajas radican en el hecho de no necesitar distintas series de datos (distintas variables)
referidas al mismo período de tiempo (característica común a todos los modelos univariantes) y, al
mismo tiempo, ahorrarnos la identificación y especificación del modelo en el sentido de la econometría
tradicional,

- el inconveniente es que, al renunciar a la inclusión de un conjunto más amplio de variables


explicativas, no atendemos a las relaciones que sin duda existen entre casi todas las variables
económicas perdiendo capacidad de análisis al tiempo que renunciamos implícitamente al estudio teórico
previo del fenómeno y a su indudable utilidad.

Dentro de estos modelos univariantes se desarrollarán los conocidos con el nombre de


ARIMA.

Posteriormente se complementará esta perspectiva univariante añadiéndose a la especificación


una o más variables exógenas al modelo "tradicional" aproximándonos al estudio de los conocidos como
modelos de transferencia.
UCB - Econometría II Horacio Villegas – 1/2020

Como es habitual en economía, definiremos una estructura que nos permita, por sus
características, cumplir el fin último de predicción: proceso estocástico estacionario.

Posteriormente, analizaremos los modelos más simples (que emplean menos retardos)
conforme a una serie de funciones características (covarianza, autocorrelación total y autocorrelación
parcial), describiendo sus condiciones y planteando estructuras teóricas que luego puedan ser
identificables con series temporales reales.

2. Conceptos Básicos

Proceso estocástico y estacionariedad

Los modelos autorregresivos o de medias móviles que más tarde conceptualizaremos


necesitan para su comprensión de la introducción del concepto de proceso estocástico.

Un proceso estocástico es una sucesión de variables aleatorias Y t ordenadas, pudiendo


tomar t cualquier valor entre - e .

Por ejemplo, la siguiente sucesión de variables aleatorias puede ser considerada como
proceso estocástico:

y-4 , y-3 , y-2 ,........ y3 , y4

El subíndice t no tiene, en principio, ninguna interpretación a priori, aunque si hablamos de


proceso estocástico en el contexto del análisis de series temporales este subíndice representará el paso
del tiempo.

Cada una de las variables Yt que configuran un proceso estocástico tendrán su propia función
de distribución con sus correspondientes momentos.

Asimismo, cada par de esas variables tendrán su correspondiente función de distribución


conjunta y sus funciones de distribución marginales.

Esto mismo ocurrirá, ya no para cada par de variables, sino para conjuntos más amplios de
las mismas.

De esta forma, para caracterizar un proceso estocástico deberíamos especificar las


funciones de distribución conjunta de cualquier conjunto de variables:

( Y t1 ,Y t2 ,Y t3 ,....Y tm )
UCB - Econometría II Horacio Villegas – 1/2020

Habitualmente, conocer esas funciones de distribución resulta complejo de forma que, para
caracterizar un proceso estocástico, bastará con especificar la media y la varianza para cada yt y
la covarianza para variables referidas a distintos valores de t:

Las distribuciones de probabilidad podrían no estar completamente caracterizadas en algunas


de las variables, los momentos podrían no coincidir o incluso no existir para alguna de las variables
aleatorias, lo mismo puede ocurrir con las distribuciones conjuntas o marginales.

Sin embargo, de todos los tipos de procesos estocásticos posibles, nos interesan especialmente
dos de ellos a los que la estadística ha dado nombres precisos:

- ruido blanco es una sucesión de variables aleatorias (proceso estocástico) con esperanza
(media) cero, varianza constante e independientes para distintos valores de t (covarianza
nula).

- proceso estocástico estacionario.

Decimos que un proceso estocástico es estacionario si las funciones de distribución conjuntas son
invariantes con respecto a un desplazamiento en el tiempo (variación de t).

Es decir, considerando que t, t+1, t+2, ...., t+k reflejan períodos sucesivos:

F( Y t ,Y t+1 ,.....Y t+k ) = F( Y t+m ,Y t+1+m ,.....,Y t+k+m )

para cualquier t, k y m; por ejemplo:


UCB - Econometría II Horacio Villegas – 1/2020

Esta definición de estacionariedad se conoce como estacionariedad en sentido estricto o


fuerte y puede relajarse sustancialmente utilizando la denominada estacionariedad en sentido
amplio o débil.

Decimos que un proceso estocástico es débilmente estacionario si:

- Las esperanzas matemáticas de las variables aleatorias no dependen del tiempo, son
constantes:

E[Yt ] = E[Yt+m ] m

- Las varianzas tampoco dependen del tiempo y son finitas:

Var[Yt ] = Var[ Yt+m ]   m

- Las covarianzas entre dos variables aleatorias del proceso correspondientes a períodos
distintos de tiempo (distintos valores de t) solamente dependen del lapso de tiempo transcurrido
entre ellas:

Cov(Yt ,Ys ) = Cov(Yt+m ,Ys+m ) m

De esta última condición se desprende que, si un fenómeno es estacionario, sus variables


pueden estar relacionadas linealmente entre sí, pero de forma que la relación entre dos variables sólo
depende de la distancia temporal k transcurrida entre ellas.

Lógicamente, la estacionariedad en sentido estricto garantiza la estacionariedad en sentido


amplio pero no al revés.

Una vez introducido el concepto genérico de proceso estocástico puede decirse que una serie
temporal cualquiera es, en realidad una muestra, una realización concreta de un proceso estocástico
teórico, real.

El análisis de series que vamos a estudiar tratará, a partir de los datos de una serie temporal, de
inferir las características de la estructura probabilística subyacente, del verdadero proceso estocástico.
UCB - Econometría II Horacio Villegas – 1/2020

3. ¿Cómo se comprueba si una serie es estacionaria? Orden de integración

3.1. Tendencias deterministas y tendencias estocásticas

La ausencia de estacionariedad en variables económicas puede reflejarse mediante la presencia


de tendencias estocásticas o de tendencias deterministas.

Una tendencia estocástica es un componente estocástico cuya varianza tiende a infinito con el
paso del tiempo.

Una tendencia determinista es una función exacta del tiempo, generalmente lineal o
cuadrática, lo que hace que el valor de la variable crezca o disminuya constantemente; si la
tendencia es lineal, la variable tenderá a más o menos infinito; si la tendencia es cuadrática o de
orden superior, la variable puede estar acotada.

Si una variable presenta una tendencia determinista lineal, su valor esperado tenderá a aumentar o
disminuir continuamente, con lo que será imposible mantener el supuesto de que la esperanza
matemática de la sucesión de variables aleatorias que configura el proceso estocástico
correspondiente a dicha variable, es constante.

En consecuencia, tampoco podrá mantenerse que la distribución de probabilidad de dichas


variables es la misma a través del tiempo.

La presencia de una tendencia estocástica requiere transformar la variable, generalmente en


primeras diferencias temporales, o tomando las diferencias entre las observaciones
correspondientes a una misma estación cronológica, en el caso de una variable estacional.

Consideremos un modelo muy popular en el análisis de mercados financieros, el camino


aleatorio:

Que evoluciona a partir de un valor inicial dado, donde el error es ruido b1anco: sucesión de
variables aleatorias, independientes, con media constante (que suponemos cero), y varianza
constante.

Mediante sucesivas sustituciones, este proceso puede escribirse, de modo equivalente:

En consecuencia, un camino aleatorio yt tiene varianza creciente en el tiempo:


UCB - Econometría II Horacio Villegas – 1/2020

Ello se debe a que el último sumando en la representación anterior es un ejemplo de


tendencia estocástica.

Cuanto mayor sea el número de observaciones consideradas, mayor será la varianza muestral
del camino aleatorio.

Esto es lo que ocurrirá con la inmensa mayoría de los precios cotizados en los mercados
financieros.

Aunque la presencia de tendencias estocásticas se produce generalmente junto con estructuras


más complejas que la de un camino aleatorio, la implicación acerca de una varianza creciente con el
tiempo se mantiene cuando se añaden a ésta componentes autoregresivos o de medias móviles para
yt.

3.2. Regresión espúrea

El problema de la regresión espúrea fue analizado por Granger y Newbold (1974), quienes
mostraron la posibilidad de que, en determinadas situaciones, estimaciones mínimocuadráticas de
un modelo de regresión lineal que sugieren una estrecha relación entre variable dependiente y
variables independientes, están reflejando, en realidad, una relación espúrea o ficticia, que en
realidad no existe.

Es evidente que tal posibilidad sería extremadamente peligrosa, tanto en la estimación de


coeficientes de impacto o elasticidades, como en la contrastación de hipótesis teóricas.

Lo que suele ignorarse con demasiada frecuencia es que las condiciones para que una regresión
sea espúrea se dan con mucha frecuencia en la investigación aplicada en Economía, en general, y en
Finanzas, en particular.

Comenzamos describiendo el tipo de dificultades a que puede dar lugar la ausencia de


estacionariedad de las variables dependiente e independiente en un modelo de regresión lineal.

Para ello, pensemos en el siguiente ejercicio: comenzamos simulando dos ruidos blancos
independientes, , , t = 1, 2, ..., T, a partir de distribuciones de probabilidad Normal, con
esperanza matemática , (por ejemplo, iguales a cero) y varianzas ; el coeficiente de
correlación muestral entre las series temporales resultantes será, por construcción, muy reducido, si
bien no exactamente igual a cero.

Cuanto mayor sea el tamano muestral, más probable es que dicha correlación sea igual a cero,
debido a que la correlación muestral, es decir, la correlación entre las dos series temporales
simuladas es, por la ley de los grandes números, un estimador consistente de su análogo poblacional,
que es el coeficiente de correlación teórico entre los dos procesos, que es igual a cero.

Por tanto, al aumentar T, la distribución de probabilidad del coeficiente de correlación muestral se


concentra alrededor de cero.
UCB - Econometría II Horacio Villegas – 1/2020

El gráfico de ambas variables presentará una pauta oscilando alrededor de su media muestral
que, por la misma razón apuntada para el coeficiente de correlación, serán próximas, si bien no
iguales.

Si estimamos una regresión del tipo:

Deberíamos obtener una estimación de no significativamente diferente de cero, y un R


cuadrado prácticamente nulo.

En efecto, salvo por el error estadístico, así ocurre cuando llevamos a cabo un ejercicio de
simulación de Monte Carlo: al 95% de confianza, el habitual contraste tipo t rechazará la hipótesis
nula de ausencia de capacidad explicativa de , HO: = 0 aproximadamente en un 5 % de los
casos, y el valor “mediana” del coeficiente de determinación R cuadrado para todas las simulaciones
es muy reducido.

El término constante sólo resultaría significativo si en la generación de las series temporales,


hemos utilizado valores diferentes de las medias.

Este resultado no se ve afectado significativamente en ningún otro sentido por la presencia de


tales términos constantes, ni tampoco por cambios en el valor de las respectivas varianzas.

En definitiva, en esta primera parte del ejercicio tendremos el resultado que


esperaríamos: una regresión no significativa, excepto en lo relativo al nivel escogido para el
contraste.

3.2.1. Regresión espúrea bajo tendencias deterministas

A continuación, añadimos una tendencia lineal determinista a cada una de ellos,

donde a y b son constantes arbitrarias y t es una tendencia determinista, es decir, una variable
que aumenta cada período en una cantidad constante, .

Si calculamos el coeficiente de correlación muestral entre xt e yt, apreciaremos que es


elevado.

Esto es sorprendente porque, como muestran las expresiones anteriores, cada variable es la
suma de un componente de naturaleza determinista, que no experimenta ninguna fluctuación
aleatoria, y un segundo componente de naturaleza estocástica.

Pero dicha correlación debería ser, por construcción, prácticamente igual a cero, en
contra del resultado que se obtiene cuando se lleva a cabo este ejercicio de simulación.
UCB - Econometría II Horacio Villegas – 1/2020

En todo caso, tal elevada correlación no refleja ninguna relación real entre las variables, por lo
que se denomina correlación espúrea.

Como consecuencia de la misma, si se estima una regresión lineal, tomando cualquiera de estas
variables como variable dependiente y la otra como independiente,

Los resultados cambian sustancialmente: se obtiene un R cuadrado elevado pues, como ya


sabemos, es igual al cuadrado del coeficiente de correlación entre ambas variables, a la vez que una
pendiente aparentemente significativa, de acuerdo con el criterio habitual de utilizar su
estadístico tipo t−Student.

Ambas cosas ocurrirán en un elevado porcentaje de las simulaciones que realicemos, para
distintas series temporales de , , t = 1, 2,..., T.

Por consiguiente, creeríamos que la capacidad explicativa de la variable xt sobre yt es muy


importante.

Este resultado es sorprendente, dado que las variables xt, yt tienen la misma estructura
estocástica que , , por lo que ambas relaciones deberían proporcionar resultados análogos.

Esta apariencia ficticia de capacidad explicativa es lo que se conoce como regresión


espúrea.

3.2.2. Regresión espúrea bajo tendencias estocásticas

En su trabajo pionero, Granger y Newbold (1974) trataron el problema de no estacionariedad


producido por la presencia de tendencias estocásticas o raíces unitarias.

Para ello, realizaron el siguiente ejercicio: a partir de la simulación de dos ruidos blancos
independientes que tendrán, por construcción, como antes, un coeficiente de correlación muestral
muy reducido, añadieron una raíz unitaria o tendencia estocástica a cada uno de ellos,

Obteniendo que el coeficiente de correlación entre xt e yt era muy próximo a la unidad.

Esto es sorprendente, por cuanto que, a partir de condiciones iniciales conocidas, los valores de
ambas variables en cada instante de tiempo pueden escribirse como,
UCB - Econometría II Horacio Villegas – 1/2020

Que indican que la evolución temporal de cada una de las variables se debe a la acumulación
temporal de sus innovaciones.

Por tanto, la naturaleza estocástica de cada variable está totalmente determinada por la
naturaleza de sus innovaciones.

Si y son independientes, entonces también deberían serlo xt e yt, en contra de los


valores obtenidos para sus coeficientes de correlación muestrales en simulaciones repetidas.

En todo caso, nuevamente, tal elevada correlación no refleja ninguna relación real entre
las variables, por lo que se denomina correlación espúrea.

Si estimamos una regresión lineal entre estas variables, en cualquier orden, tendremos de
nuevo un R cuadrado elevado y una pendiente significativa, de acuerdo con el criterio habitual de
utilizar su estadístico tipo t−Student, pero la evidencia de capacidad explicativa proporcionada por
esta regresión sería espúrea.

En un ejercicio de simulación como el descrito, Granger y Newbold encontraron una


frecuencia aproximada de rechazos de la hipótesis nula HO : = 0 del 76%.

La frecuencia de rechazos de la capacidad explicativa global de la regresión se eleva muy


significativamente al aumentar el número de variables explicativas independientes con estructura de
ruido blanco.

Nuevamente los coeficientes de determinación son muy elevados, lo que sorprende, pues
realmente, xt no explica a yt.

El estadístico de Durbin-Watson habitualmente utilizado para contrastar ausencia de


autocorrelación se reduce hacia cero, por lo que la combinación de este hecho con un elevado
R2 suele utilizarse como indicio de una regresión espúrea.

3.3. Tratamiento de tendencias deterministas

De las dos situaciones descritas anteriormente, es algo más sencilla de tratar la presencia de
tendencias deterministas, cuando se anticipa correctamente que la presencia de las mismas es la
única causa de no estacionariedad de las variables que se pretende relacionar, es decir, cuando las
variables tienen estructura,
UCB - Econometría II Horacio Villegas – 1/2020

Para ello, hay dos posibilidades: la primera consiste en incorporar en el modelo de regresión
una tendencia determinista lineal como variable explicativa

En la que el coeficiente estimado ̂ y su desviación típica serán, aproximadamente, los mismos


que habríamos estimado en la regresión,

La regresión de y en función de x que incluye la tendencia determinista, todavía tendrá un R


cuadrado muy elevado, debido a la capacidad explicativa que el término γt tiene sobre yt, debido a la
presencia de una tendencia determinista en esta última variable.

Este término aparecerá como claramente significativo, con un estadístico t muy elevado.

Si ambas innovaciones son independientes, ̂ será un coeficiente reducido en magnitud, y


estadísticamente no significativo, en términos de su estadístico t de Student.

Esto es distinto del resultado que se obtiene en la estimación de la regresión habitual,

Cuando las variables tienen estructura con tendencia individual cada una.

La diferenciación elimina las tendencias deterministas.

Si consideramos una tendencia determinista:

La primera diferencia del proceso es:

Sin tendencia, aunque hemos introducido una estructura de media móvil, MA(1), en el término
de error de la regresión resultante

Un proceso con una tendencia determinista cuadrática sigue trayectorias con formas
parabólicas, cóncavas o convexas.

Su primera diferencia presentará una tendencia lineal, mientras que su segunda diferencia
estará libre de tendencia.
UCB - Econometría II Horacio Villegas – 1/2020

Si consideramos una tendencia determinista de segundo grado:

Cuya primera diferencia es:

Siendo su segunda diferencia:

Un proceso con una tendencia determinista representada por un polinomio de grado tres puede
tener ciclos.

La primera diferencia de este proceso tendrá una tendencia cuadrática.

Por tanto, aparentemente, una solución en el caso en que sospechamos que puede haber
tendencias deterministas en las variables que pretendemos relacionar, consistiría en estimar la
posible relación entre ellas después de haber tomado diferencias temporales.

Sin embargo, con dicha transformación perdemos bastante información acerca de las
fluctuaciones de corto plazo en las variables por lo que los procedimientos anteriormente
descritos son más recomendables.

3.4. Tratamiento de tendencias estocásticas

Una tendencia estocástica es un componente de una variable que hace que su varianza tienda
a infinito con el tamaño de la muestra.

Esto es lo que sucede con el camino aleatorio: cuanto mayor sea el número de observaciones
consideradas, mayor será su varianza muestral.

La tendencia estocástica aparece debido al coeficiente unitario del retardo de yt en el modelo


AR(1) que explica el comportamiento de esta variable.

En el lenguaje estadístico, se dice que el proceso yt tiene una raíz unitaria.

La propiedad de que la varianza de un camino aleatorio crece sin límite con el tiempo se
mantiene cuando se añaden a la estructura de camino aleatorio componentes autoregresivos o
de medias móviles para yt.

En general, decimos que un proceso estocástico tiene una raíz unitaria cuando la ecuación
característica del polinomio de retardos que representa su estructura autoregresiva la tiene.
UCB - Econometría II Horacio Villegas – 1/2020

Por ejemplo, teniendo en cuenta el operador de retardos:

El proceso AR(1) puede escribirse:

La posible presencia de una constante no añade nada a esta argumentación.

La ecuación característica de su polinomio de retardos es:

Que tiene por solución:

Si ρ = 1, entonces el proceso AR(1) tiene una raíz unitaria.

Si ρ ˂ 1, el proceso es estacionario.

Lo contrario sucede si ρ > 1.

Un proceso AR(2) puede representarse:

Y el proceso será estacionario si la ecuación característica:

De modo similar puede analizarse la estacionariedad en modelos más complejos.

En todo caso, esta depende exclusivamente de las propiedades de la estructura autoregresiva


del proceso, pues el componente de media móvil no afecta a la estacionariedad del mismo.

Es decir, el proceso:

Será estacionario si y sólo si el proceso:

Resulta serlo.
UCB - Econometría II Horacio Villegas – 1/2020

3.5. Pruebas de estacionariedad

3.5.1. Función de autocorrelación (FAC) y correlograma

Una prueba sencilla de estacionariedad se basa en la denominada función de autocorrelación


(FAC).

La FAC en el rezago k, denotada por ρk, se define como:

ρk se encuentra entre -1 y 1, igual que cualquier coeficiente de correlación.

Si graficamos ρk respecto de k, la gráfica obtenida se conoce como correlograma poblacional

Como en la práctica sólo tenemos una realización de un proceso estocástico (es decir, la muestra),
sólo podemos calcular la función de autocorrelación muestral, ̂ .

Para tal efecto, debemos calcular primero la covarianza muestral en el rezago k, ̂ , y la varianza
muestral, ̂, definidas como:

donde n es el tamaño de la muestra y ̅ es la media muestral.

Por consiguiente, la función de autocorrelación muestral en el rezago k es:

que es simplemente la razón entre la covarianza muestral (en el rezago k) y la varianza muestral.

La gráfica de ̂ frente a k se conoce como correlograma muestral.

¿Cómo saber con un correlograma si una serie de tiempo particular es estacionaria?

Para este propósito, primero presentaremos correlogramas muestrales de un proceso puramente


UCB - Econometría II Horacio Villegas – 1/2020

aleatorio de ruido blanco y un proceso de caminata aleatoria.

Supongamos el siguiente modelo:

Yt = ut

donde ut son términos de error de ruido blanco de forma que cada ut ~ N(0, 1); es decir, cada ut sigue la
distribución normal estándar.

Mediante un generador de números aleatorios se obtuvieron 500 valores de u y se generó Yt.

En el correlograma se muestran hasta 30 rezagos.

Correlograma asumiendo que el término de error es ruido blanco

Observe la columna AC, que es la función de autocorrelación muestral, y el primer diagrama de


UCB - Econometría II Horacio Villegas – 1/2020

la izquierda, llamado autocorrelación.

La línea vertical continua de este diagrama representa el eje cero; las observaciones por arriba de
esta línea son valores positivos, y los que están por debajo, negativos.

Como resulta evidente a partir de este diagrama, para un proceso puramente de ruido blanco, las
autocorrelaciones en distintos rezagos se ubican alrededor del cero.

Ésta es una imagen de un correlograma de una serie de tiempo estacionaria.

Por tanto, si el correlograma de una serie de tiempo real (económica) se parece al correlograma
de una serie de tiempo de ruido blanco, podemos decir que dicha serie de tiempo es quizá estacionaria.

Ahora observe el correlograma de una serie de caminata aleatoria

La característica más sobresaliente de este correlograma es que los coeficientes de


autocorrelación, para diversos rezagos, son muy altos, incluso hasta para un rezago de 33 periodos.

Correlograma asumiendo que un proceso de caminata aleatoria


UCB - Econometría II Horacio Villegas – 1/2020

De hecho, si consideramos rezagos de hasta 60 periodos, los coeficientes de autocorrelación son


muy altos.

La figura es un correlograma habitual de una serie de tiempo no estacionaria.

El coeficiente de autocorrelación comienza en un nivel muy alto y disminuye de modo muy lento
hacia cero, conforme se prolonga el rezago.

3.5.1.1. Elección de la longitud del rezago

Se trata básicamente de un asunto empírico.

Una regla práctica es calcular la FAC hasta un tercio o una cuarta parte de la longitud de la serie de
tiempo.

El mejor consejo práctico es comenzar con rezagos lo bastante grandes y luego reducirlos mediante
un criterio estadístico, como el criterio de información Akaike o de Schwarz.

Por otra parte, también podemos utilizar cualquiera de las siguientes pruebas.

Significancia estadística de los coeficientes de autocorrelación

¿Cómo decidir si un coeficiente de correlación es estadísticamente significativo?

Bartlett demostró que si una serie de tiempo es puramente aleatoria, es decir, si es una muestra
de ruido blanco, los coeficientes de autocorrelación muestrales son aproximadamente:

es decir, en muestras grandes, los coeficientes de autocorrelación muestrales están normalmente


distribuidos y tienen media cero y varianza igual a 1 sobre el tamaño de la muestra.

Por tanto, según las propiedades de la distribución normal estándar, el intervalo de confianza de
95% para cualquier (población) ρk es:

̂ ± 1.96*(ee)

En otras palabras:

̂ - 1.96*(ee) ≤ ρk ̂ + 1.96*(ee)

Si el intervalo anterior incluye el valor cero, no rechazamos la hipótesis de que la verdadera ρk es


cero, pero si este intervalo no incluye 0, rechazamos la hipótesis de que la verdadera ρk es cero.
UCB - Econometría II Horacio Villegas – 1/2020

En lugar de probar la significancia estadística de cualquier coeficiente de autocorrelación


individual, para probar la hipótesis conjunta de que todos los ρk hasta ciertos rezagos son
simultáneamente iguales a cero, podemos utilizar el estadístico Q desarrollado por Box y Pierce, que se
define como:

donde n es el tamaño de la muestra y m la longitud del rezago.

El estadístico Q es común para probar si una serie de tiempo es de ruido blanco.

En muestras grandes, este estadístico se distribuye aproximadamente como la distribución ji


cuadrada con m gl.

En una aplicación, si la Q calculada excede el valor Q crítico de la distribución ji cuadrada en el


nivel de significancia seleccionado, podemos rechazar la hipótesis nula de que todos los ρk (verdaderos)
son iguales a cero; por lo menos algunos de ellos deben ser diferentes de cero.

Una variante del estadístico Q de Box-Pierce es el estadístico Ljung-Box (LB), que se define
como:

Aunque en muestras grandes tanto el estadístico Q como el estadístico LB siguen la distribución ji


cuadrada con m gl, se ha visto que el estadístico LB tiene mejores propiedades en muestras pequeñas
(más potente, en el sentido estadístico) que el estadístico Q.

3.6. Test de raíz unitaria

Sin duda alguna, el test más habitual a la hora de determinar la estacionariedad de una serie
temporal, consiste en la aplicación del conocido como test de Dickey–Fuller (Test DF) o Dickey-Fuller
Ampliado (Test ADF).

Éste es un contraste de “No estacionariedad” ya que la hipótesis nula es precisamente la


presencia de una raíz unitaria en el proceso generador de datos de la serie analizada.

Vamos a suponer inicialmente, como modelo de partida para el análisis de una determinada
serie yt, el de un proceso estacionario autorregresivo de orden uno:
UCB - Econometría II Horacio Villegas – 1/2020

frente a este modelo se plantea, como hipótesis nula H0, el modelo alternativo de un paseo
aleatorio no estacionario del tipo:

yt  yt1  t

se trata por tanto de contrastar si el coeficiente ρ es igual a la unidad o distinto de ella.

Si la hipótesis nula fuera cierta, la varianza de yt no sería estacionaria sino que crecería con los
valores de “t” según la expresión de la varianza de un paseo aleatorio.

Sin embargo, para contrastar la unidad del coeficiente ρ, no podemos utilizar el contraste
“t” habitual sobre una estimación por MCO del primer modelo.

Utilizando las palabras de Novales (1993), la distribución de probabilidad asintótica del estimador
de MCO del modelo AR(1) presenta una “discontinuidad” cuando ρ=1 y, como sustituto, deberán
utilizarse las distribuciones derivadas de forma empírica mediante un procedimiento de Montecarlo
realizado por Dickey (1976).

Más recientemente, MacKinnon (1991) realizó un número mayor de simulaciones que las
tabuladas por Dickey y Fuller.

Además, MacKinnon estimó la superficie de respuesta usando los resultados de la simulación, lo


que permite calcular los valores críticos del test DF para cualquier tamaño muestral y cualquier número
de variables en el lado derecho de la ecuación.

En la práctica, por cuestiones de sencillez operativa, el modelo utilizado para el contraste DF no


es el expuesto al comienzo del epígrafe sino otro, equivalente al anterior, que se obtiene restando a uno
y otro lado el término yt-1:

Para mostrarlo, cambiamos ligeramente nuestro proceso AR (1) :

donde xt son regresores exógenos opcionales que pueden consistir en constante, o una constante y
tendencia.

Se asume que los errores son ruido blanco.

 Si |ρ|˂1 y es una serie estacionaria (en tendencia).

La prueba estándar DF se lleva a cabo mediante la estimación de la ecuación anterior restando


yt-1 de ambos lados de la ecuación:
UCB - Econometría II Horacio Villegas – 1/2020

Por tanto, la hipótesis nula inicial, se transforma ahora en H0: α=0 frente a H1: α< 0.

Decir que α es nulo es lo mismo que decir que ρ=1, o sea, que existe una raíz unitaria, decir
que es menor que cero equivale a decir que ρ es menor que la unidad (proceso autorregresivo
estacionario).

El procedimiento básico para la aplicación simple del test DF es, a partir de aquí,
aparentemente sencillo.

Se estima el modelo propuesto y se calcula el valor estimado de la “t” del parámetro analizado.

Una vez calculado se compara con el valor empírico de referencia obtenido con las tablas de
Dickey y Fuller o de MacKinnon.

Si el valor estimado para α es inferior en valor absoluto al tabulado dado un determinado


nivel de confianza, admitiremos la hipótesis nula, o sea, la presencia de una raíz unitaria.

El modelo expuesto hasta el momento es el más simple posible, pero cabe que el modelo más
adecuado a la realidad incluya otros términos rezagados.

Dolado et al. (1990) y Perron (1990) propusieron, entre otros autores, seguir un proceso en
etapas a fin de garantizar el éxito en la elección del modelo de referencia:

- En primer lugar se estimaría el modelo menos restringido (con término constante y


tendencia determinista).

- Dado que el principal error de esta táctica inicial consistiría en la escasa potencia del
contraste para el rechazo de la hipótesis nula por inclusión de variables irrelevantes, si los
valores críticos indican rechazo (ausencia de raíz unitaria), terminaríamos el
procedimiento.

- En el caso de no rechazarse la hipótesis nula de presencia de una raíz unitaria, es decir,


en el caso en que admitamos la presencia de una raíz unitaria (H0: α=0) pasaríamos
ahora a examinar la significatividad del parámetro tendencial determinista (llamémoslo
a2).

Dado que, en este punto, estaríamos bajo la hipótesis ya admitida de que α=0, utilizaríamos
el valor de referencia de  e incluso, para mayor seguridad, también el contraste
conjunto 3 (a2=α=0).

- Si el término tendencial resulta significativo (a20) contrastaremos de nuevo la presencia


de una raíz unitaria (H0: α=0) pero utilizando entonces las tablas de una normal
estandarizada.

- Sea cual sea el resultado del test con las nuevas tablas finalizaríamos aquí el contraste
admitiendo o rechazando la presencia de una raíz unitaria.

- Si el término tendencial es no significativo, deberá replantearse el modelo inicialmente


UCB - Econometría II Horacio Villegas – 1/2020

estimado pasándose a examinar otro con término constante pero sin esta tendencia
determinista.

Con este modelo se vuelve a analizar la presencia de una raíz unitaria (α=0).

- En el caso en que, nuevamente, se sostenga la presencia de una raíz unitaria, se


contrastará entonces la adecuación del término independiente a0 bien con el contraste ,
bien con 1.

Si el término independiente resulta significativo usamos de nuevo las tablas de una normal
para contrastar la presencia de la raíz unitaria, concluyendo de nuevo aquí el contraste.

- Sólo si la constante a0 es no significativa se utiliza el modelo más simple como modelo de


referencia contrastándose, de nuevo, la presencia de raíz unitaria.

En este caso, no tiene cabida el uso de la distribución normal estandarizada.

Está claro que lo expuesto hasta este momento permite contrastar la presencia de una o más
raíces unitarias en una determinada serie temporal para la que se supone un proceso AR(1).

Sin embargo, muchas serie temporales se ajustan más adecuadamente a procesos


autorregresivos de orden superior, por ej. AR(2) o AR(3).

No parece, por tanto, muy correcto, contrastar la presencia de una o más raíces
unitarias utilizando siempre la estructura de un modelo AR(1) ya que las raíces unitarias pueden
aparecer también en estructuras más complejas.

Este problema da lugar a lo que se conoce como test de raíces unitarias de Dickey-Fuller
Ampliado (DFA):

Si se quiere contrastar la presencia de una raíz unitaria en una serie que sigue un proceso
AR(p), deberá aplicarse el procedimiento expuesto para el caso simple AR(1), pero suponiendo ahora el
modelo:

La prueba simple de raíz unitaria de Dickey-Fuller sólo es válida si la serie es un proceso AR


(1).

Si la serie presenta un orden mayor de rezagos, se viola el supuesto de ruido blanco en las
perturbaciones.

La prueba Dickey-Fuller Ampliada (ADF) construye una corrección paramétrica suponiendo


que la serie y sigue un proceso AR (p) y adicionando p rezagos en diferencia de la variable dependiente
al lado derecho de la regresión.

Un resultado importante obtenido por Fuller es que la distribución asintótica del ratio t para α
UCB - Econometría II Horacio Villegas – 1/2020

es independiente del número de primeras diferencias rezagadas incluidas en la regresión ADF.

Por otra parte, mientras que la suposición de que y sigue un proceso autorregresivo (AR) puede
parecer restrictiva, Said y Dickey (1984) demuestran que la prueba ADF es asintóticamente válida en
presencia de componentes de media móvil (MA), siempre que hayan suficientes términos rezagados
incluidos la regresión de prueba.

En la práctica se tendrá que especificar el número de términos en diferencia rezagados (que


denominaremos la “longitud de rezago”) que se añadirán a la regresión de prueba (con “0” se obtiene la
prueba estándar DF; enteros mayores que 0 corresponden a tests ADF).

El consejo habitual es incluir un número de retardos suficientes para eliminar la correlación


serial en los residuos.

3.6.1. Prueba Dickey-Fuller sin tendencia GLS (DFGLS)

Al igual que en el test de DF, es posible optar por incluir una constante, o una constante y una
tendencia lineal en la regresión ADF.

Para estos dos casos, ERS (1996) proponen una simple modificación de las pruebas ADF en la
que se quita la tendencia a los datos.

ERS definen una cuasi-diferencia de yt que depende del valor “a”, representando el punto
específico con el que deseamos probar la hipótesis nula:

A continuación, consideremos una regresión por mínimos cuadrados de los datos cuasi-
diferenciados de y en función de los datos cuasi-diferenciados en x:

donde xt contiene ya sea una constante, o una constante y tendencia, y dejemos que delta sea el
estimador mínimo cuadrático de esta regresión.

Todo lo que necesitamos ahora es un valor para a.

ERS recomiendan usar ̅:


UCB - Econometría II Horacio Villegas – 1/2020

Definamos ahora los datos sin tendencia GLS, usando los estimados asociados de ̅:

Entonces la prueba DFGLS implica estimar la ecuación de prueba estándar ADF sustituyendo
los datos sin tendencia GLS:

Tenga en cuenta que, dado que se ha eliminado la tendencia de yt, no se incluyen xt en la


ecuación prueba DFGLS.

Como con el test ADF, consideraremos el estadístico t de ̂ para realizar el test de esta
ecuación.

Mientras que el ratio t DFGLS sigue una distribución Dickey-Fuller en el modelo con
constante, la distribución asintótica es diferente cuando se incluyen tanto una constante y una
tendencia.

ERS (1996) simula los valores críticos del test estadístico para T = { }.

Por lo tanto, se utilizarán los valores críticos de MacKinnon para el caso con constante, pero se
interpolarán a partir de los valores de ERS para el caso con constante y tendencia.

3.6.2. Prueba de Phillips-Perron (PP)

Phillips y Perron (1988) proponen un método alternativo (no paramétrico) para controlar la
correlación serial al testear raíz unitaria.

El método PP estima la ecuación de prueba no aumentada

Y modifica el ratio t del coeficiente de modo que la correlación serial no afecta a la


distribución asintótica del test estadístico.

La prueba PP se basa en el estadístico:


UCB - Econometría II Horacio Villegas – 1/2020

Donde ̂ es el estimado, y el ratio t de , ̂ es el error estándar del coeficiente, y s es el


error estándar del test de la regresión.

Además, es un estimador consistente de la varianza del error, calculada como ,


donde k es el número de regresores.

El término restante, , es un estimador del espectro residual de frecuencia cero.

Hay muchos métodos para estimar .

La distribución asintótica del ratio t modificado de PP es la misma que la del estadístico ADF.

Por ello deberán utilizarse los valores críticos de Mackinnon para realizar este test.

El test es robusto con respecto a autocorrelación y heterocedastidad no específicas de los


errores en la ecuación a ser testeada.

Davidson and MacKinnon (2004) muestran que el test de Phillips–Perron no funciona tan bien
como el de Dickey-Fuller aumentado en muestras finitas.

3.6.2.1. Estimación del espectro de frecuencia cero

Muchas de las pruebas de raíz unitaria requieren una estimación consistente del espectro
residual de frecuencia cero.

Existen varios tipos de estimadores de este espectro, por ej.: estimadores de kernel basados en
la suma de covarianzas, y estimadores autorregresivos de densidad espectral.

Dentro del primer tipo de estimadores existe una variedad de funciones de Kernel;

Ejemplos de funciones de Kernel


UCB - Econometría II Horacio Villegas – 1/2020

El test de taíz unitaria de PP utiliza el kernel de Bartlett.

3.6.2.2. Espectro de frecuencia cero basado en la función de kernel

El estimador del espectro de frecuencia cero basado en la función de kernel, calcula una suma
ponderada de las autocovarianzas.

La ponderación se la realiza con los pesos definidos por la función kernel.

El estimador toma la forma,

donde l es un parámetro de ancho de banda (que actúa como un rezago de truncamiento en el


peso de las covarianzas, K es una función kernel, y ̂ es la autocovarianza muestral j-ésima del
residuo ̃ t de la ecuación DF en un modelo AR(1), definida como:

Al igual que con la mayoría de los estimadores kernel, la elección del parámetro de ancho de
banda l es de considerable importancia.

Para elegir l, podemos utilizar la opción Newey-West (1994) o la de Andrews (1991).

Newey West permite una selección automática de los rezagos al calcular la matriz HAC.

Los experimentos de Monte Carlo de Newey West muestran que es más importante la
selección del rezago y no así del kernel.

3.6.3. La prueba de Kwiatkowski, Phillips, Schmidt y Shin (KPSS)

La prueba KPSS (1992) se diferencia de las otras pruebas de raíces unitarias descritas
anteriormente en que se supone que yt es estacionaria (en tendencia) bajo la hipótesis nula.

El estadístico KPSS se basa en los residuos de la regresión por mínimos cuadrados de yt sobre
las variables exógenas xt:
UCB - Econometría II Horacio Villegas – 1/2020

El estadístico LM se puede definir como:

donde f0, es un estimador del espectro residual de frecuencia cero y donde S(t) es una función
acumulada de residuos:

Basado en los residuos: ̂ ̂

Se debe recalcar que el estimador de δ usado en esta cálculo difiere del estimador de δ
utilizado en la prueba de Dickey-Fuller sin tendencia GLS, ya que se basa en una regresión que
involucra los datos originales y no los datos en cuasi-diferencia.

Para especificar la prueba KPSS, se debe especificar el conjunto de regresores exógenos xt y un


método para estimar f0.

KPSS sugieren utilizar el kernel de Bartlett.

Los valores críticos reportados para la estadística de prueba LM se basan en los resultados
asintóticos presentados por KPSS (1992).

3.6.4. El test del punto óptimo de Elliot, Rothenberg y Stock (ERS)

ERS proponen una versión modificada del test t de DF que presenta mayor “poder” cuando la
serie tiene una media desconocida o una tendencia lineal.

La prueba del punto óptimo ERS se basa en la regresión en cuasi-diferencias definida en la


ecuación:

Definamos los residuos de esta ecuación como:

Y sea:
UCB - Econometría II Horacio Villegas – 1/2020

La función de la suma de residuos al cuadrado.

Luego, el test estadístico de punto óptimo ERS (factible) con la hipótesis nula de que α = 1
frente a la alternativa de que α = ̅, se define como:

donde f0, es un estimador del espectro residual en la frecuencia cero.

Para calcular la prueba ERS, se debe especificar el conjunto de regresores exógenos xt y un


método para estimar f0

ERS sugiere utilizar un estimador de densidad espectral autorregresivo estimado por Mínimos
Cuadrados Ordinarios.

Los valores críticos del test ERS se computan al interpolar los resultados de la simulación
provistos por ERS para T = { }

El test ERS funciona mejor en muestras pequeñas.

3.6.4.1. Estimador de Densidad Espectral Autorregresivo

El estimador de densidad espectral autorregresivo de frecuencia cero se basa en la varianza


residual y los coeficientes estimados de la regresión auxiliar:

Existen varios métodos espectrales autorregresivos, por ejemplo:

dónde ̂ son los coeficientes estimados de la regresión:

El estimador espectral autorregresivo de frecuencia cero se define como:


UCB - Econometría II Horacio Villegas – 1/2020

donde:

Es la varianza residual, y ̂ son los estimados de

El estimador del espectro es sensible al número de términos de diferencia retardados en la


ecuación auxiliar.

Utilizaremos el criterio de Schwarz para elegir los rezagos.

3.6.5. Prueba de Ng y Perron (NP)

Ng y Perron (2001) construyen cuatro pruebas estadísticas que se basan en los datos sin
tendencia GLS, .

Primero, definamos el término:

Los estadísticos modificados pueden escribirse como:


UCB - Econometría II Horacio Villegas – 1/2020

Donde:

Los test de Ng y Perron son útiles cuando hay errores con una raíz de media móvil cercana a -
1.

En estas situaciones los criterios de Akaike y el BIC tienden a seleccionar un rezago de


truncamiento (k) muy pequeño.

ERS proponen criterios de información modificados.

3.7. Conclusiones

Una gran ventaja del test de Philips-Perron es que este es no parámetrico; no requiere la selección
del nivel de correlación serial, como en el test ADF.

Este considera la misma estimación que un test DF, pero corrige el estadístico por
heterocedasticidad y autocorrelación (matrices HAC).

La principal desventaja del test de PP es que está basado en teoría asintótica; solo funciona bien
en muestras grandes

Si no hay evidencia contundente es aconsejable usar los 2 tests.

Aunque la práctica común ha sido utilizar el test ADF o el de PP, existen test para casos
específicos y con propiedades muy buenas.

Elliott, Rothenberg and Stock (ERS) proponen un test eficiente utilizando la lógica de mínimos
cuadrados generalizados.

Ellos demuestran que el test tiene un mejor desempeño que el de DF en muestras pequeñas.

Finalmente, Ng y Perron permiten detectar la presencia de raíz unitaria cuando los errores tienen
la presencia de una media móvil con raíz cercana a -1.

4. Test de raíz unitaria con quiebre estructural

El uso de pruebas de raíz unitaria para distinguir entre datos estacionarios en tendencia o en
diferencia se ha convertido en una herramienta esencial en la investigación aplicada.

Sin embargo, como señala Perron (1989), cambio estructural y raíces unitarias están
estrechamente relacionados.
UCB - Econometría II Horacio Villegas – 1/2020

Se debe tener en cuenta que las pruebas de raíz unitaria convencionales están sesgadas hacia una
falsa hipótesis nula de raíz unitaria cuando los datos son estacionarios en tendencia con quiebre
estructural.

Esto observación ha estimulado el desarrollo de una gran cantidad de literatura esbozando


diversas pruebas de raíz unitaria que permanecen válidas en la presencia de un quiebre (ver Hansen,
2001 para una revisión).

Es posible calcular pruebas de raíz unitaria con quiebre estructural donde:

• El quiebre ocurra lentamente o inmediatamente.


• El quiebre consista en un cambio de nivel, un quiebre en la tendencia, o ambos.
• La fecha del quiebre sea conocida, o desconocida estimada a partir de los datos.
• Los datos tienen tendencia o no presentan tendencia.

4.1. Antecedentes

Comenzaremos con una breve discusión de las especificaciones subyacentes a la metodología de


los test.

Como siempre, la discusión será necesariamente breve.

Para una discusión en profundidad ver Perron (1989), Vogelsang y Perron (1998), Zivot y
Andrews (1992), Banerjee et al. (1992) y otros.

Para una descripción de la literatura en el tema, véase Perron (2006).

4.2. Variables de quiebre

Antes de continuar, será útil definir algunas variables que nos permitan caracterizar los quiebre.

Sea 1(·) una función indicador que toma el valor 1 si el argumento (·) es cierto, y 0 en caso
contrario.

A continuación, se definen las siguientes variables en términos de un quiebre específico Tb,

 Una variable de quiebre en el intercepto

que toma el valor 0 para todas las fechas antes del quiebre, y 1 de ahí en adelante.

 Una variable de quiebre en la tendencia


UCB - Econometría II Horacio Villegas – 1/2020

que toma el valor 0 para todas las fechas antes del quiebre, y es una tendencia post quiebre para
todas las fechas posteriores.

 Una variable dummy de quiebre de una sola vez

que toma el valor de 1 sólo en la fecha de quiebre y 0 en caso contrario.

4.3. El modelo

Siguiendo a Perron (1989), consideramos cuatro modelos básicos con un quiebre de una sola
vez.

Para datos sin tendencia, tenemos un modelo con (O) un cambio de una sola vez en el nivel;

Para datos con tendencia, tenemos modelos con (A) un cambio en el nivel, (B) un cambio tanto
en nivel y tendencia, y (C) un cambio en la tendencia.

Además, consideramos dos versiones de los cuatro modelos que difieren en su tratamiento de
la dinámica de quiebre:

El modelo de outliers en las innovaciones (IO) que asume que el quiebre ocurre gradualmente,
y que este sigue la misma trayectoria dinámica que las innovaciones.

Por otro lado, el modelo de outlier aditivo (AO) asume que el quiebre ocurre inmediatamente.

Los tests considerados evalúan la hipótesis nula de que los datos siguen un proceso de raíz
unitaria, posiblemente con un quiebre, contra la hipótesis alternativa de que la serie es estacionaria en
tendencia con quiebre.

4.3.1. Test de outliers en las innovaciones

Para el modelo de IO, consideramos la siguiente hipótesis nula:

donde son innovaciones iid, y ) es un polinomio de rezagos que representa la dinámica


ARMA del error.
UCB - Econometría II Horacio Villegas – 1/2020

Tenga en cuenta que las variables de quiebre entran en el modelo con la misma dinámica que
las innovaciones .

Para la hipótesis alternativa, asumiremos un modelo estacionario en tendencia con quiebres en


el intercepto y la tendencia.

Nuevamente, con los quiebres siguiendo la dinámica de las innovaciones.

Debemos construir una ecuación general del test de Dickey-Fuller que combine ambas
hipótesis:

Y usar el estadístico t para comparar ̂ a 1y así evaluar la hipótesis nula.

Como con las ecuaciones convencionales del test de raíz unitaria de Dickey-Fuller, las k
diferencias rezagadas de y son incluidas en la ecuación para eliminar el efecto de la estructura de
correlación del error sobre la distribución asintótica del estadístico.

Con este marco general, podemos especificar diferentes modelos para la hipótesis nula y
alternativa, asumiendo restricciones en uno o más de los parámetros de tendencia y quiebre, .

Siguiendo a Perron (1989), Vogelsang y Perron (1992), consideraremos 4 distintas


especificaciones para la regresión de Dickey-Fuller, la que corresponde a diferentes supuestos para la
tendencia y el quiebre:

Modelo 0: Datos in tendencia con quiebre en el intercepto

Fijando los coeficientes de tendencia y quiebre de tendencia a cero da un test de caminata


aleatoria contra un modelo estacionario con quiebre en el intercepto.

Modelo 1: Datos con tendencia y quiebre en el intercepto:

Fijando el coeficiente de quiebre de la tendencia γ a cero produce un test de caminata aleatoria con
constante contra un modelo estacionario en tendencia con quiebre en el intercepto.
UCB - Econometría II Horacio Villegas – 1/2020

Modelo 2: Datos con tendencia, intercepto y quiebre en la tendencia:

La ecuación sin restricciones de Dickey-Fuller testea caminata aleatoria con constante contra la
alternativa de serie estacionaria en tendencia con intercepto y quiebre en la tendencia.

Modelo 3: Datos con tendencia con quiebre en la tendencia:

Fijando los coeficientes del quiebre en el intercepto y las dummies de quiebre a cero se testea
una caminata aleatoria con constante en contra de una serie estacionaria en tendencia con quiebre en la
tendencia.

Hay que tener en cuenta que si se especifica una fecha conocida de quiebre o por el contrario,
se debe calcular esta, afectará a las especificaciones permitidas para la hipótesis nula.

Si la fecha de quiebre se conoce como en Perron (1989), los modelos 0, 1 y 2 permiten


quiebres bajo la hipótesis nula.

El modelo 3 no permite quiebre bajo la hipótesis nula.

Si se estima la fecha de quiebre, los test considerados no permiten quiebre en la tendencia bajo
la hipótesis nula.

Vogelsang y Perron (1998) ofrecen una discusión detallada sobre este punto, notando que esta
restricción indeseable es requerida para obtener resultados distribucionales para el estadístico t
resultante del test de Dickey-Fuller.

Ellos ofrecen consejos prácticos para testear casos en los que γ es diferente a cero bajo la nula.

Kim y Perron (2009) abordan directamente esta cuestión.

4.3.2. Test de outliers aditivos

La hipótesis nula del modelo general AO es:

donde son innovaciones iid, y ) es un polinomio de rezagos que representa la dinámica


ARMA del error y β es la constante.
UCB - Econometría II Horacio Villegas – 1/2020

Tenga en cuenta que el impacto de las variables de quiebre se produce inmediatamente.

La hipótesis alternativa es un modelo estacionario en tendencia con posibles quiebres en la


tendencia y en el intercepto:

La prueba de raíz unitaria en el marco AO es un procedimiento de dos etapas donde primero


usamos el intercepto, la tendencia y las variables de quiebre para quitar la tendencia a la serie usando
MCO.

Luego usamos la serie sin tendencia para testear si hay raíz unitaria utilizando una regresión
modificada de Dickey -Fuller.

En el primer paso de la prueba de AO, quitamos la tendencia a los datos utilizando un modelo
con tendencia apropiada y variables de quiebre:

Modelo 0: Datos sin tendencia con quiebre en el intercepto:

Modelo 1: Datos con tendencia con quiebre en el intercepto:

Modelo 2: Datos con tendencia y quiebre en la tendencia y el intercepto:

Modelo 3: Datos con tendencia y quiebre en la tendencia:

En el segundo paso, sean ̂ los residuos obtenidos de la ecuación sin tendencia.

El test de raíz unitaria de Dickey-Fuller resultante está dado por:


UCB - Econometría II Horacio Villegas – 1/2020

Donde usaremos el estadístico t para evaluar la hipótesis nula.

Estas son ecuaciones estándar de Dickey-Fuller Aumentado con la adición de k + 1 variables


dummy de quiebre Dt-i(Tb) para eliminar la dependencia asintótica del test estadístico sobre la
estructura de correlación de los errores y para asegurar que la distribución asintótica sea idéntica a la
correspondiente de la especificación IO.

Al igual que con los test IO, cuando estimamos la fecha de quiebre usando los datos, los
resultados distribucionales requieren que no haya quiebre en la tendencia bajo la hipótesis nula.

4.4. Opciones de test

Para cualquiera de los modelos descritos anteriormente, se debe elegir un número de retardos k a
incluirse.

Asimismo, se debe especificar la fecha de Tb con la que se evaluará el quiebre.

4.4.1. Selección de retraso

Las propiedades teóricas de los test estadísticos requieren que elijamos el número de rezagos en
las ecuaciones de Dickey-Fuller.

La idea es que k sea lo suficientemente grande como para eliminar el efecto de la estructura de
correlación de los errores en la distribución asintótica del estadístico.

Existen varias posibilidades:

 Fijo (en base a la sugerencia hecha por Said y Dickey, 1984).

Todos los métodos restantes dependen de los datos y requieren la especificación de un rezago
máximo, kmax.

 Test t

Siguiendo a Perron (1989), Perron y Vogelsang (1992), y Vogelsang y Perron (1998), k* se elige
de manera tal que el último coeficiente de la variable dependiente en diferencias rezagada sea
significativa a un valor de probabilidad especificada, mientras que los coeficientes mayores a kmax sean
todos no significativos.

Los valores de probabilidad para los estadísticos se calculan usando la distribución t.

 Test F

Basados en la aproximación de Said y Dickey (1984), la aproximación usa un test F de


significancia conjunta de los coeficientes hasta un rezago k0 dado contra todos los rezagos mayores
UCB - Econometría II Horacio Villegas – 1/2020

hasta kmax.

Si cualquiera de los test contra los rezagos de mayor orden son significativos a un nivel de
probabilidad especificada, fijaremos k* = k0 + 1

Si ninguno de los test estadísticos es significativo, bajamos k0 en 1 y continuamos.

Comenzaremos el procedimiento con k0 = kmax -1 y continuaremos hasta que alcancemos un


rechazo con k* = k0 + 1.

O hasta que el límite inferior k0 = 0 sea evaluado con rechazo y fijemos k* = 0

 Criterios de información

Siguiendo la aproximación de Hall (1994) y Ng y Perron (1995), k* se elige para minimizar el


criterio de información especificado entre los modelos con 0 a kmax rezagos.

Entre los criterios usuales están el Akaike, Schwarz, Hannan-Quinn, Akaike Modificado, Schwarz
Modificado, Hannan-Quinn Modificado.

4.4.2. Selección de la fecha de quiebre

Perron (1989) especifica una fecha de quiebre a priori.

La investigación posterior (Zivot y Andrews, 1992; Banerjee et al., 1992; Vogelsang y Perron,
1998) se ha centrado en la determinación endógena de la fecha de quiebre usando los datos.

Tenemos los siguientes métodos de selección de la fecha de quiebre:

 Minimizar el estadístico ̂ de Dickey-Fuller

Selecciona la fecha proveyendo la mayor evidencia contra la hipótesis nula de raíz unitaria y en
favor de la hipótesis alternativa de quiebre en la tendencia.

 Minimizar o maximizar el estadístico t de ( ̂ ), maximizar el estadístico t de | | |̂| ),


minimizar o maximizar el estadístico t de ( ̂ ), maximizar el estadístico t de | | |̂| ),
maximizar el estadístico F de ( ̂ ̂ ).

Se elige la fecha con la mayor evidencia de quiebre.

Las opciones alternativas de minimizar y maximizar son provistas para permitir la evaluación de
alternativas de una sola cola, y producirán diferentes valores críticos para el test estadístico final de
Dickey-Fuller y mayor poder que las alternativas no direccionales.
UCB - Econometría II Horacio Villegas – 1/2020

II. Los Modelos ARIMA

1. Modelos autorregresivos

La palabra ARIMA significa Modelos Autorregresivos Integrados de Medias Móviles.

Definimos un modelo como autorregresivo si la variable endógena de un período t es


explicada por las observaciones de ella misma correspondientes a períodos anteriores añadiéndose,
como en los modelos estructurales, un término de error.

Los modelos autorregresivos se abrevian con la palabra AR tras la que se indica el orden del
modelo: AR(1), AR(2),....etc.

El orden del modelo expresa el número de observaciones retrasadas de la serie temporal


analizada que intervienen en la ecuación.

Así, por ejemplo, un modelo AR(1) tendría la siguiente expresión:

Y t =  0 + 1Y t -1 + at

El término de error de los modelos de este tipo se denomina generalmente ruido blanco
cuando cumple las tres hipótesis básicas tradicionales:

- media nula
- varianza constante
- covarianza nula entre errores correspondientes a observaciones diferentes

La expresión genérica de un modelo autorregresivo, de un AR(p) sería la siguiente:

Y t =  0 + 1Y t-1 + 2 Y t- 2 + ......+ p Y t- p + at

Pudiéndose escribir de forma abreviada como:

 p (L)Y t =  0 + at

donde p(L) es lo que se conoce como operador polinomial de retardos:

 p (L) = 1 -  1 L -  2 L2 - ......-  p Lp
UCB - Econometría II Horacio Villegas – 1/2020

y donde, a su vez, el término L es lo que se conoce como operador retardo tal que, aplicado al valor
de una variable en t, dé como resultado el valor de esa misma variable en t-1:

LYt=Yt-1

y aplicado sucesivamente p veces retarda el valor en p períodos:

Lp Yt=Yt-p

Normalmente, se suele trabajar con modelos autorregresivos de órdenes bajos: AR(1) o


AR(2), o bien con órdenes coincidentes con la periodicidad de los datos de la serie analizada (si es
trimestral AR(4), si es mensual AR(12)....).

2. Modelos de medias móviles

Un modelo de los denominados de medias móviles es aquel que explica el valor de una
determinada variable en un período t en función de un término independiente y una sucesión de errores
correspondientes a períodos precedentes, ponderados convenientemente.

Estos modelos se denotan normalmente con las siglas MA, seguidos, como en el caso de los
modelos autorregresivos, del orden entre paréntesis.

Así, un modelo con q términos de error MA(q) respondería a la siguiente expresión:

Y t =  + at + 1 at-1 + 2 at-2 + ....+q at -q

que de nuevo puede abreviarse utilizando el polinomio de retardos (como en el caso de los modelos
AR):

Y t =  q (L) at + 

Al igual que en el caso de los modelos autorregresivos, el orden de los modelos de medias
móviles suele ser bajo MA(1), MA(2) o corresponderse con la periodicidad de los datos analizados
MA(4), para series trimestrales, o MA(12) para series mensuales.

2.1. Interpretación de un modelo de medias móviles

Así como un modelo autorregresivo es intuitivamente sencillo de comprender, la formulación


de un modelo de medias móviles resulta sorprendente.

¿Qué significa que una variable aleatoria se explique en función de los errores cometidos en
UCBperíodos precedentes?
- Econometría II Horacio Villegas
¿De dónde proceden esos errores? ¿Cuál es la justificación – 1/2020de
de un modelo
este tipo?

En realidad, un modelo de medias móviles puede obtenerse a partir de un modelo autorregresivo


sin más que realizar sucesivas sustituciones.

Efectivamente, un modelo AR(1), sin término independiente, tiene la expresión:

Y t =  Y t -1 + at

si consideramos t-1 en lugar de t el modelo sería en este caso:

Y t-1 =  Y t- 2 + at -1

y sustituyendo queda:

Y t = at + at-1 + Y t -2
2

si ahora sustituimos yt-2 por su expresión autorregresiva y así sucesivamente llegamos a un modelo del
tipo:

Y t = at + a t-1+  a t -2 + a t-3 +....+ a t- j + ....


2 3 j

que es la expresión, sin término independiente, de un modelo de medias móviles como el planteado
anteriormente.

En realidad, de forma estricta, el paso de un modelo a otro debería realizarse al contrario (de
un MA a un AR) utilizando el teorema general de descomposición de Wold.

3. Proceso autorregresivo y de promedios móviles (ARMA)

Desde luego, es muy probable que Y tenga características de AR y de MA a la vez, y, por


consiguiente, sea ARMA.

Así, Yt sigue un proceso ARMA(1, 1) si se escribe como:

Yt = θ + α1Yt−1 + β0ut + β1ut−1

Porque hay un término autorregresivo y uno de promedios móviles.

En general, en un proceso ARMA(p, q), habrá p términos autorregresivos y q términos de


promedios móviles.

3.1. Proceso autorregresivo integrado de promedios móviles (ARIMA)


UCB - Econometría II Horacio Villegas – 1/2020

Los modelos de series de tiempo analizados se basan en el supuesto de que las series de tiempo
consideradas son (débilmente) estacionarias.

En pocas palabras, la media y la varianza de una serie de tiempo débilmente estacionaria son
constantes y su covarianza es invariante en el tiempo.

Pero sabemos que muchas series de tiempo económicas son no estacionarias, es decir, son integradas.

Sin embargo, si una serie de tiempo es integrada de orden 1 [es decir, si es I(1)], sus primeras
diferencias son I(0), es decir, estacionarias.

En forma similar, si una serie de tiempo es I(2), sus segundas diferencias son I(0).

En general, si una serie de tiempo es I(d), después de diferenciarla d veces se obtiene una serie I(0).

Por consiguiente, si debemos diferenciar una serie de tiempo d veces para hacerla estacionaria y luego
aplicarle el modelo ARMA(p,q), decimos que la serie de tiempo original es ARIMA(p, d, q), es decir,
es una serie de tiempo autorregresiva integrada de promedios móviles, donde p denota el número de
términos autorregresivos, d el número de veces que la serie debe diferenciarse para hacerse estacionaria
y q el número de términos de promedios móviles.

Así, una serie de tiempo ARIMA(2, 1, 2) tiene que diferenciarse una vez (d = 1) antes de que se haga
estacionaria, y la serie de tiempo estacionaria (en primeras diferencias) puede modelarse como un
proceso ARMA(2, 2), es decir, tiene dos términos AR y dos términos MA.

Desde luego, si d= 0 (es decir, si para empezar la serie es estacionaria), ARIMA(p, 0, q) = ARMA(p,
q).

Observe que un proceso ARIMA(p, 0, 0) significa un proceso estacionario AR(p) puro;

Un ARIMA (0, 0, q) es un proceso estacionario MA(q) puro.

El punto importante es que, para utilizar la metodología Box-Jenkins (que veremos en breve), debemos
tener una serie de tiempo estacionaria o una serie de tiempo que sea estacionaria después de una o
más diferenciaciones.

La razón para suponer estacionariedad se explica de la siguiente manera: El objetivo de BJ [Box-


Jenkins] es identificar y estimar un modelo estadístico que se interprete como generador de los datos
muestrales.

Entonces, si se va a pronosticar con este modelo estimado, debe suponerse que sus características son
constantes a través del tiempo y, en particular, en periodos futuros.

Así, la sencilla razón para requerir datos estacionarios es que todo modelo que se infiera a partir de
estos datos pueda interpretarse como estacionario o estable en sí mismo, y proporcione, por
consiguiente, una base válida para pronosticar.
UCB - Econometría II Horacio Villegas – 1/2020

4. Metodología de Box-Jenkins (BJ)

El método considera cuatro pasos:

Paso 1. Identificación. Es decir, encontrar los valores apropiados de p, d y q.

En seguida veremos la forma como el correlograma y el correlograma parcial ayudan en esta labor.

Paso 2. Estimación. Tras identificar los valores apropiados de p y q, la siguiente etapa es estimar los
parámetros de los términos autorregresivos y de promedios móviles incluidos en el modelo.

Algunas veces, este cálculo se efectúa mediante mínimos cuadrados ordinarios, pero otras hay que
recurrir a métodos de estimación no lineal (en parámetros).

Paso 3. Examen de diagnóstico. Después de seleccionar un modelo ARIMA particular y de estimar


sus parámetros, tratamos de ver si el modelo seleccionado se ajusta a los datos en forma
razonablemente buena, pues es posible que exista otro modelo ARIMA que también lo haga.

Es por esto que el diseño de modelos ARIMA de Box-Jenkins es un arte más que una ciencia; se
requiere gran habilidad para seleccionar el modelo ARIMA correcto.

Una simple prueba del modelo seleccionado es ver si los residuales estimados a partir de este modelo
son ruido blanco; si lo son, aceptamos el ajuste particular; si no lo son, debemos empezar de nuevo.

Por tanto, la metodología BJ es un proceso iterativo

Paso 4. Pronóstico. Una razón de la popularidad del proceso de construcción de modelos ARIMA es
su éxito en el pronóstico.

En muchos casos, los pronósticos obtenidos por este método son más confiables que los obtenidos de
modelos econométricos tradicionales, en particular en el caso de pronósticos de corto plazo.

Por supuesto, cada caso debe verificarse.


UCB - Econometría II Horacio Villegas – 1/2020

Metodología de Box-Jenkins (BJ)

4.1. Identificación

Las herramientas principales en la identificación son la función de autocorrelación (FAC), la


función de autocorrelación parcial (FACP) y los correlogramas resultantes, que son simplemente
los gráficos de FAC y de FACP respecto de la longitud del rezago.

El concepto de autocorrelación parcial es análogo al concepto de coeficiente de regresión parcial.

En el modelo de regresión múltiple con k variables, el k-ésimo coeficiente de regresión βk mide la


tasa de cambio en el valor medio de la variable regresada ante un cambio unitario en la k-ésima
regresora Xk, para mantener constante la influencia de todas las demás regresoras.

En forma similar, la autocorrelación parcial ρkk mide la correlación entre observaciones (series de
tiempo) separadas k periodos y mantiene constantes las correlaciones en los rezagos intermedios (es
decir, rezagos menores de k).

En otras palabras, la autocorrelación parcial es la correlación entre Yt y Yt–k después de eliminar el


efecto de las Y intermedias.

Ahora, ¿cómo permiten los correlogramas encontrar el patrón ARMA de una serie de tiempo?

Una forma de lograrlo es considerar la FAC y la FACP, y los correlogramas asociados.

Como cada proceso estocástico presenta patrones habituales de FAC y de FACP, si la serie de
tiempo en estudio se ajusta a alguno de estos patrones, la podemos identificar con tal proceso.

Desde luego, será necesario aplicar pruebas de diagnóstico para determinar si el modelo
seleccionado ARMA es razonablemente preciso.
UCB - Econometría II Horacio Villegas – 1/2020

El estudio de las propiedades de los diversos procesos estándar ARIMA consumiría mucho
espacio.

En su lugar, veamos los lineamientos generales;

Observe que las FAC y las FACP de los procesos AR(p) y MA(q) tienen patrones opuestos; en
el caso AR(p), la FAC decrece geométrica o exponencialmente, pero la FACP se corta después de
cierto número de rezagos, mientras que sucede lo opuesto a un proceso MA(q).

Geométricamente tenemos:

Como en la práctica no se observan las FAC y FACP teóricas y se depende, por tanto, de sus
aproximaciones muestrales, las FAC y FACP estimadas no concordarán exactamente con sus
contrapartes teóricas.
UCB - Econometría II Horacio Villegas – 1/2020

Buscamos una similitud entre las FAC y las FACP teóricas y muestrales de manera que
señalen la dirección correcta en la construcción de los modelos ARIMA.

Es por esto que la elaboración de modelos ARIMA requiere gran habilidad, lo cual, desde
luego, se obtiene con la práctica.

4.2. Estimación del modelo ARIMA (ver paper)

4.3. Verificación de diagnostico (ver paper)

4.4. Pronóstico (ver paper)

4.5. Resumen y conclusiones

1. El método Box-Jenkins para pronósticos económicos es una opción respecto de los modelos
tradicionales uniecuacionales.

2. Para pronosticar valores de una serie de tiempo, la estrategia básica de Box-Jenkins es la


siguiente:

a) Examinar primero si la serie es estacionaria.

Esto se logra al calcular la función de autocorrelación (FAC) y la función de autocorrelación


parcial (FACP), o mediante un análisis formal de raíz unitaria.

Los correlogramas asociados a FAC y FACP son, con frecuencia, buenas herramientas de
diagnóstico visual.

b) Si la serie de tiempo es no estacionaria, debe diferenciarse una o más veces para alcanzar
la estacionariedad.

c) Se calculan entonces la FAC y la FACP de la serie de tiempo estacionaria para


determinar si la serie es autorregresiva pura, del tipo de promedios móviles puro, o una
mezcla de las dos.

En esta etapa, el modelo ARMA(p, q) seleccionado es tentativo.


d) ) Entonces se estima el modelo tentativo.

e) Se examinan los residuos de este modelo tentativo para establecer si son de ruido blanco.

Si lo son, el modelo tentativo es quizás una buena aproximación al proceso estocástico


subyacente.
UCB - Econometría II Horacio Villegas – 1/2020

Si no lo son, el proceso se inicia de nuevo.

Por consiguiente, el método de Box-Jenkins es iterativo.

f ) El modelo finalmente seleccionado sirve para pronosticar.

También podría gustarte