Cours Series Temporelles Ab

Université Nationale des Sciences,
Technologies, Ingénierie et Mathématiques
Ecole Nationale Supérieure de Génie

Mathématique et Modélisation
(ENSGMM)
Séries Temporelles
Saisi par : ENSEIGNANT :
Etudiants en GMM-2 Dr. Nicodème ATCHADE
Version 2022-2023
ENSGMM II 2 Cours de Séries Temporelles
TABLE DES MATIÈRES
1 INTRODUCTION AUX SÉRIES TEMPORELLES 5

1.1 Introduction et premières définitions . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tendances et composantes saisonnières . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Indices descriptifs d’une série temporelle . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Indices de tendance centrale . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 Indices de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.3 Indices de dépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Lissages exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 Lissage exponentiel double . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.3 Méthode de Holt-Winters . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.4 Mise en oeuvre sous R . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 ETUDE UNIVARIEE : MODELISATION D’UNE SERIE TEMPORELLE 19

2.1 Fonctions d’autocorrélation : simple et partielle . . . . . . . . . . . . . . . . . 19
2.2 Séries stationnaires : processus TS et DS . . . . . . . . . . . . . . . . . . . . 19
2.3 Tests de stationnarité (ou tests de racine unitaire) . . . . . . . . . . . . . . . . 21
2.4 Processus ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.6 Méthode de Box et Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Processus ARCH : ARCH, GARCH, EGARCH, TARCH, ARCH-M . . . . . . 31
3 ETUDE MULTIVARIEE : MODELISATION DE LA RELATION ENTRE DEUX

SERIES TEMPORELLES : 35
3.1 Séries non stationnaires, cointegration et modèle à correction d’erreur . . . . . 35
3.2 Modèle VAR et test de causalité au sens de Granger . . . . . . . . . . . . . . . 38
4 CONCLUSION 41
3
CHAPITRE
INTRODUCTION AUX SÉRIES

TEMPORELLES
1.1 Introduction et premières définitions

Une série temporelle (ou série chronologique) à temps discret est une suite réelle finie
(xt )1≤t≤n , où t représente le temps (en minute, jour, année...).
Voici quelques exemples de séries temporelles :
Ex 1 : Nombre de morts accidentelles aux Etats-Unis de 1973 à 1978
Figure 1.1 – Nombre de morts accidentelles aux Etats-Unis de 1973 à 1978
5
CHAPITRE 1. INTRODUCTION AUX SÉRIES TEMPORELLES
Ex 2 : Nombre de passagers par mois (en milliers) dans les transports aériens, de 1949 à 1960
Figure 1.2 – Nombre de passagers par mois (en milliers) dans les transports aériens, de
1949 à 1960
Ex 3 : Nombre annuel de tâches solaires observées à la surface du soleil de 1700 à 1980
Figure 1.3 – Nombre annuel de tâches solaires observées à la surface du soleil de 1700 à
1980
Ex 4 : Taille de la population française (en milliers) de 1985 à 2005
Figure 1.4 – Taille de la population française (en milliers) de 1985 à 2005
Ex 5 : Valeurs de clôtures journalières du CAC40 de 1991 à 1998

1.1. INTRODUCTION ET PREMIÈRES DÉFINITIONS
Figure 1.5 – Valeurs de clôtures journalières du CAC40 de 1991 à 1998
Excepté l’exemple 4, ces données sont disponibles dans le logiciel R sous les noms : EuStock-
Markets, USAccDeaths, AirPassengers et sunspot.year.
Exercice 1 : Repérer les tendances (croissance, décroissance, linéaire, quadratique...) et

saisonnalités (périodicités)de chacune de ces séries.
Un des objectifs principaux de l’étude d’une série temporelle est la prévision des réalisa-
tions futures, très souvent pour des raisons économiques (prévoir l’évolution de la vente d’un
produit pour ajuster au mieux les moyens de production, prévoir l’évolution d’un marché
financier ...).
Bien entendu, aucun modèle ne correspond exactement à la réalité, et il est impossible de
prévoir parfaitement le devenir d’une série temporelle. Lorsque cela sera possible, nous don-
nerons des intervalles de prévisions, afin de pouvoir apporter une information quant à la
précision de la prévision.
Pour ce faire, il existe un large choix de modèle utilisable :
- les modèles de régression, comme par exemple :

xt = α1 t2 + α2 t + α3 + εt , t = 1, ......., n (1.1)
Une fois les coefficients de ce modèle estimés, la prévision de xt+1 sera xt+1 ˆ = αˆ1 (t +
2
1) + αˆ2 (t + 1) + αˆ3 .
- les lissages exponentiels qui sont très simples à mettre en oeuvre, et qui feront l’objet
d’un chapitre suivant,
- les modèles de type ARMA, qui consistent à enlever de la série les tendances et saison-
nalités (ou périodicités) évidentes et à modéliser le résidu restant. Ces méthodes sont
plus sophistiquées et plus lourdes numériquement (temps de calcul) que les précédentes,
mais également plus performantes.
Parmi les 5 exemples précédents, celui relatif au nombre de passagers dans les transports
aériens (figure 2) est une série assez typique de ce que l’on rencontre en économétrie, et elle
donne lieu à de bonnes prévisions pour toutes les méthodes classiques. Au contraire, l’évolu-
tion des marchés boursiers (figure 11) est beaucoup plus difficile à prévoir.
Les défis que nous allons devoir relever sont les suivants :
- définir un modèle avec un nombre fini de paramètres,
- estimer les paramètres de ce modèle,
- vérifier la qualité d’ajustement du modèle, comparer différents modèles (partage de
l’échantillon d’observations en 80% pour l’apprentissage et 20% pour le test),
- effectuer des prédictions.

1.2 Tendances et composantes saisonnières

On parle de tendance lorsque la série (xt )1≤t≤n peut s’écrire, à une erreur d’ajustement εt
près, comme une combinaison linéaire de m fonctions du temps, choisies a priori (par exemple
fonction puissance, exponentielle, logarithmique...) :
m
X
xt = αj fj (t) + εt 1≤t≤n (1.2)
j=1
Lorsque xt = αt + β + εt la tendance est linéaire (m = 1etf (t) = αt + β).

Une tendance polynomiale se traduira par xt = α1 tp + αp−1 tp−1 + ... + αp+1 + εt .
Exercice 2.Comment semble être la tendance dans l’exemple 5 ?
On parle de composante périodique lorsque la série (xt )1≤t≤n peut se décomposer en :

x t = s t + εt 1≤t≤n (1.3)
où st est périodique,c’est-à-dire st+T = st , avec T la période (supposé eentière).
Lorsque la période est de 6 mois ou 1 an, on parle généralement de composante saisonnière.
Enfin, il est fréquent qu’une série comporte à la fois une tendance et une composante pério-
dique(cf. exemple 2).
1.3 Indices descriptifs d’une série temporelle

1.3.1 Indices de tendance centrale
Nous utilisons comme indicateurde la tendance centrale la moyenne :
n
1X
x¯n = xt (1.4)
n t=1
1.3.2 Indices de dispersion

Nous utilisons comme indicateur de dispersion la variance empirique(et sa racine carrée,l’écart-
type empirique) :
n
1X
σˆn (0) = (xt − x¯n )2 (1.5)
n t=1
1.3.3 Indices de dépendance

Ces notions, plus spécifiques à l’étude de série temporelle, renseignent sur la dépendance
entre les données xt .
Auto-covariance : L’auto-covariance empirique d’ordre 1 renseigne sur la dépendance entre
deux données successives :
1 n−1
X
σ̂n (1) = (xt − x̄n )(xt+1 − x¯n ) (1.6)
n − 1 t=1
l’auto-covariance empirique d’ordre 2 renseigne sur la dépendance entre deux données écartées
de deux pas de temps :
1 n−1
X
σ̂n (2) = (xt − x̄n )(xt+2 − x¯n ) (1.7)
n − 2 t=1

1.4. LISSAGES EXPONENTIELS
et ainsi de suite.Pour des raisons de bon sens statistique,nous ne considèrerons les covariances
empiriques que jusqu’à un ordre h pas trop grand.
On appelle fonction d’auto-covariance (empirique)la fonction qui à h associe σˆn (h).
Auto-corrélation : Les auto-corrélations empiriques sont les quotients des covariances

empiriques par la variance empirique :
σ̂n (h)
ρ̂n (h) = (1.8)
σ̂n (0)
Ce sont les auto-corrélations empiriques que nous utiliserons pour caractériser la dépendance
entre les variables.
On appelle fonction d’auto-corrélation (empirique)la fonction qui à h associe ρ̂n (h)
Première analyse de la série à l’aide des auto-corrélations
Proposition 1. Si la série (xt )1≤t≤n est une tendance linéaire pure xt = at + b, t = 1, ..., n
alors on a pour h fixé :
−→ 1
ρ̂n (h) n→∞ (1.9)
Exercice3. Faire la preuve.
Proposition 1. Si la série (xt )1≤t≤n est une série périodique pure xt = a cos 2tπ
T
,t =
1, ....., n, on a pour h fixé :
2hπ
ρ̂n (h) −→ cos (1.10)
n→∞ T
En interprétant l’auto-corrélation grâce à ces deux propositions, il sera possible de deviner
si une série temporelle admet une tendance (l’auto-corrélation tend vers 1) ou une saisonnalité
(la saisonnalité se voit sur l’auto-corrélation).
1.4 Lissages exponentiels

Les méthodes de lissages exponentiels constituent un outil permettant de réaliser des
prévisions à partir de l’observation d’une série temporelle. Ces méthodes étant relativement
basiques et simples de mise en oeuvre, elles sont souvent utilisées dans l’industrie, notamment
lorsque le nombre de prévisions à réaliser est important (par exemple, prévisions des ventes
de centaines de produits dans une grande surface).
Nous présentons trois types de lissage exponentiel :
- le lissage exponentiel simple qui consiste à ajuster localement à la série temporelle une
constante,
- le lissage exponentiel double qui ajuste quant à lui une droite,
- le lissage exponentiel de Holt-Winters qui considère des fonctions plus complexes(polynomiales,périod

1.4.1 Lissage exponentiel simple

Disposant d’une série temporelle x1 , ..., xn , l’objectif du lissage exponentiel est d’estimer
la valeur xn+h non encore observée. Nous noterons x̂n,h ,h cette prévision. Etant donnéeune
constante de lissage 0 inf α inf 1, on définit la prévision par lissage exponentiel simple :
n−1
(1 − α)j xn−j
X
x̂n,h = α (1.11)
j=0
La prévision est une moyenne de toutes les observations passées,pondérée de sorte que plus
l’observation soit ancienne moins elle ait d’importance.
Une constante de lissage α prochede 0(⩽ 0.3) donne une importance significative aux observa-
tions éloignées, tandis qu’un α proche de 1(⩾ 0.7) tend à négliger ces observations éloignées.
Remarque : la prévision x̂n,h ne dépend pas de h!
Formules récursives de mise à jour : La définition (1) vérifiant la formule récursive

suivante :
x̂n,h = αxn + (1 − α)x̂n−1,h (1.12)
la prévision x̂n,h peut être obtenue immédiatement à partir de la connaissance de :
1 - la prévision x̂n−1,h basée sur les n 1-èmes premières observations,
2 - l’observation xn .
L’utilisation de cette récurrence permet de réaliser des algorithmes très rapides d’estimation
de la prévision par lissage exponentiel(en initialisant à x̂1,h = x1 .
Exercice 4. Ecrire et interpréter la valeur de x̂n,1 à partir de l’équation de récurrence.

Exercice 5. Montrer que x̂n,h défini en est solution asymptotique d’un problème de moindres
carrés pondérés.
Choix de la constante de lissage :Pour choisir la constante de lissage, une solution prag-
matique consiste à tester plusieursvaleurset à choisircelle minimisantun critère d’erreur mini-
male. Pourcela on partage l’échantillon d’observations en un échantillon d’apprentissage(les
8
80% premièresobservations : x1 , ..., xm où m est par exemple l’entier le plus proche de 10 n)
et un échantillon test (les 20% dernières :xm+1 , ..., xn ), on estime le modèle de lissage expo-
nentielà partir de l’échantillon d’apprentissage,et on évalue l’erreursur l’échantillon test :
n−m
X
erreur = (x̂m,h − x̂m+h ) (1.13)
h=1
On répéte cette opération pour plusieurs valeurs de la constante de lissage α, et on choisit
celle conduisant à l’erreur la plus petite.
1.4.2 Lissage exponentiel double

On ajuste au voisinage de l’instant n une droite d’équation yt = a1 + a2 (t − n).
La prévision par lissage exponentiel double est :
x̂n,h = â1 (n) + â2 (n)h (1.14)
où â1 (n) et â2 (n) sont solution de :
n−1
(1 − α)j (xn−j − (a1 + a2 j))2
X
inf (1.15)
α1 ,α2 ∈R j=0

Les solutions de cette équation sont :
â1 (n) = 2L1 (n) − L2 (n) (1.16)
et
α
â2 (n) = (L1 (n) − L2 (n)) (1.17)
1−α
où L1 (n) = α n−1 j
j=0 (1 − α) xn−j et L2 (n) = α
n−1 j
j=0 (1 − α) L1 (n − j) sont deux lissages expo-
P P
nentiels simples successifs.

Remarque : commepour le lissage exponentielsimple, l’estimateur de la prévision est la
meilleureapproximationau sens des moindres carrés pondérés.
Formules récursives de mise à jour
â1 (n) = â1 (n − 1) + â2 (n − 1) + α(2 − α)(xn − x̂n−1,1 ) (1.18)
â2 (n) = â2 (n − 1) + α(2 − α)(xn − x̂n−1,1 ) (1.19)
où â1 (n) et â2 (n) sont les estimations des paramètres a1 et a2 lorsque l’on a observé la série
jusqu’à la n − ème réalisation. Les valeurs initiales étant â1 (0) = x1 et â2 (0) = x2 − x1 .
1.4.3 Méthode de Holt-Winters

Méthode non saisonnière
Comme la méthode de lissage exponentiel double, celle de Holt-Winters non saisonnière

revient à estimer au voisinage de l’instant n une droite
yt = a1 + a2 (t − n) (1.20)
La prévision prend la forme

x̂n,h = â1 (n) + â2 (n)h (1.21)
La variante par rapport à la méthode de lissage exponentiel double est au niveau des formules
de mise à jour dans l’estimation des paramètres a1 et a2 .
Soient deux constantes de lissages 0< α < 1 et 0 < β < 1. Les formules de mise à jour sont :
â1 (n) = αxn + (1 − α)[â1 (n − 1) + â2 (n − 1)] (1.22)
â2 (n) = β[â1 (n) − â1 (n − 1) + (1 − β)â2 (n − 1)] (1.23)
Exercice 6. Montrer que les formules de mise à jour du lissage exponentiel double sont un
cas particulier de ces dernières.
Remarque :
- l’introductionde deux constantes rend la méthodeplus souple quele lissage exponentiel-
double : la constante α joue un rôle dans l’estimation de l’ordonnée à l’origine de la
droite, a1 , et la constante β dans celle de la pente de la droite, a2 .
- si α et β sont petits le lissage est importantcar on tient compte du passé lointain.

Méthode saisonnière additive

On cherche maintenant à ajuster au voisinage de l’instant n une droite d’équation :
yt = a1 + a2 (t − n) + st (1.24)
où st est une composante périodique de période T .

Les formules récursives de mise à jour sont :
â1 (n) = α(xn − ŝn−T ) + (1 − α)[â1 (n − 1) + â2 (n − 1)] (1.25)
â2 (n) = β[â1 (n) − â1 (n − 1)] + (1 − β)â2 (n − 1) (1.26)
ŝn = γ[xn − â1 (n)] + (1 − γ)ŝn−T (1.27)

Les prévisions sont de la forme :
x̂n,h = â1 + â2 h + ŝn+h−T 1⩽h⩽T (1.28)
x̂n,h = â1 + â2 h + ŝn+h−2T T + 1 ⩽ h ⩽ 2T (1.29)

et ainsi de suite pour h ≥ 2T .
Les trois constantes de lissages, α, β et γ ont le même effet que précédemment, plus elles sont
petites et plus l’importance des données éloignées est significative. Elles agissent respective-
ment sur les paramètres a1 , a2 et st .
Se référer à Gouriéroux et Monfort 1983 [5] pour les valeurs d’initialisation.
Méthode saisonnière multiplicative

On ajuste au voisinage de l’instant n une droite d’équation
yt = [a1 + a2 (t − n)] × st (1.30)
où st est une composante périodique de période T .

Les formules récursives de mise à jour sont :
xn
â1 (n) = α + (1 − α)[â1 (n − 1) + â2 (n − 1)] (1.31)
ŝn−T
â2 (n) = β[â1 (n) − â1 (n − 1)] + (1 − β)â2 (n − 1) (1.32)
xn
sˆn = γ + (1 − γ)ŝn−T (1.33)
ân
Les prévisions sont de la forme :
x̂n,h = [aˆ1 + aˆ2 h]ŝn+h−T 1⩽h⩽T (1.34)
x̂n,h = [aˆ1 + aˆ2 h]ŝn+h−2T T + 1 ⩽ h ⩽ 2T (1.35)

Se référer égalementà [5] pour les valeurs d’initialisation.

1.4.4 Mise en oeuvre sous R

Les méthodes de lissages exponentielssont disponibles sous R, grâce à la fonction HoltW inters.
Pour une série temporelle x, cette procédurepermet :
- un lissage exponentiel simple :
xlisse <-HoltWinters(x, alpha=α, beta=FALSE, gamma=FALSE),
- un lissage de Holt-Winters sans composante saisonnière :
xlisse <- HoltWinters(x, alpha=α, beta=β, gamma=FALSE),
- un lissage Holt-Winters additif :
xlisse <- HoltWinters(x, alpha=α, beta=β, gamma=γ, seasonal=’add’),
- un lissage Holt-Winters multiplicatif :
xlisse <-HoltWinters(x, alpha=α, beta=β, gamma=γ, seasonal=’mul’).
A noter que pour un lissage de Holt-Winters avec composante saisonnière la série temporelle
x doit obligatoirement être un objet de type série temporelle, défini avec la fonction ts en
précisant la saisonnalité.
L’affichage et la visualisation des résultats peuvent être réalisés à l’aide des commandes :
- summary(xlisse) :description de l’objet xlisse obtenu précédemment par la procédure
HoltWinters,
- plot(xlisse) :représentation des valeurs observées et des valeurs lissées,
- plot(xlisse$fitted[,1]) : représentation de l’ajustement de la série remis à jour à chaque
observation.
Les prévisions à l’horizon h sont réalisées à l’aide de la fonction predict :

p<-predict(xlisse,n.ahead=h).
Un intervalle de confiance (dont le fondementthéorique n’a pas été étudié dans ce cours) peut
être obtenu en validant (à TRUE ) l’option prediction.interval.
Remarque : lorsque les constantes de lissage sont fixées à NULL (valeur par défaut),
un algorithme interne à la procédure HoltWinters se charge d’estimer la meilleur constante
possible à partir de la série des observations.

Figure 1.6 – Lissage et prévision par lissage exponentiel double d’un bruit blanc gaussien

Figure 1.7 – Lissage et prévision par lissage exponentiel double de la série X(t) = 0.5t + 2εt
avec εt ∽ N (0, 1)

Figure 1.8 – Lissage et prévision par lissage exponentiel double de la série X(t) = 0.5t +
εt + 3 cos(t π6 ) avec εt ∽ N (0, 1)

Figure 1.9 – Lissage et prévision par lissage exponentiel simple, double, et Holt-Winters
avec composante saisonnière de la série X(t) = 0.5t + εt + 3 cos(t π6 ) avec εt ∽ N (0, 1)


CHAPITRE
ETUDE UNIVARIEE : MODELISATION

D’UNE SERIE TEMPORELLE
2.1 Fonctions d’autocorrélation : simple et partielle

Définition 1 : La fonction d’autocorrélation est la fonction notée ρk qui mesure la
corrélation de la série avec elle-même décalée de k périodes :
n
t=k+1 (yt − ȳ)(yt−k − ȳ)
P
Cov(yt , yt−k )
ρk = = qP qP (2.1)
σyt σyt−k n
t=k+1 (y t − ȳ) 2 n
t=k+1 (yt−k − ȳ)
2
Nous pouvons en déduire que :
ρ0 = 1 et − 1 ≤ ρk ≤ 1, ∀k (2.2)
Le graphe de la fonction d’autocorrélation est appelé corrélogramme.
Définition 2 : La fonction d’autocorrélation partielle mesure la corrélation entre yt et

yt−k , l’influence des autres variables (yt−1 , yt−2 , . . ., yt−k+1 ) ayant été retirée.
Sous R, on utilise les fonctions pacf et acf.
2.2 Séries stationnaires : processus TS et DS

Définition 3 : Bruit blanc
Un processus de bruit blanc est une suite de variables aléatoires (Xt )t indépendantes,
d’espérance et de variance constantes.
Si l’espérance est nulle, le bruit blanc est centré, et si les variables aléatoires sont
gaussiennes, le bruit blanc est gaussien.
19
CHAPITRE 2. ETUDE UNIVARIEE : MODELISATION D’UNE SERIE TEMPORELLE
Définition 4 : Une série yt pour t = 1, . . ., T est dite stationnaire si :
(i) E(yt ) = µ, ∀t (constante, ne dépend pas de t) ;
(ii) V ar(yt ) = σy2 < ∞, ∀t (constante, ne dépend pas de t) ;
(iii) Cov(yt , yt+k ) = E[(yt − µ)(yt+k − µ)] = γk (ne dépend pas de t).
La série ϵt dont E(εt ) = 0, V ar(εt ) = σε2 , Cov(εt , εt+k ) = 0 est donc une série station-
naire. Elle est appelée aussi bruit blanc ( remarque : un bruit blanc n’est pas nécessai-
rement gaussien).
Une série stationnaire ne doit comporter ni tendance et ni saisonnalité.
Définition 5 : Séries non stationnaires : processus TS et DS

a/Processus TS :
Le processus TS (Trend Stationary) s’écrit :
yt = α + βt + εt (2.3)
où εt représente l’erreur du modèle à la date t.
Il présente une non stationnarité de nature déterministe.
Le processus TS est non stationnaire car E(yt ) = α + βt dépend du temps t.
Le processus yt peut être stationnarisé en retranchant à yt la valeur estimée α̂ + β̂t

par la méthode des Moindres Carrés Ordinaires.
b/ Processus DS :
Le processus DS (Differency Stationary) avec dérive (β ̸= 0) s’exprime comme
suit : yt = yt−1 + β + εt .
Le processus DS avec dérive est appelé aussi marche au hasard (ou marche aléa-
toire ou Random Walk) avec dérive. Il présente une non stationnarité de nature
stochastique. Par récurrence, on obtient (dans le cas avec dérive) :
y1 = y0 + β + ε1
y2 = y1 + β + ε2 = y0 + β + ε1 + β + ε2 = y0 + 2β + ε1 + ε2
...
yt = y0 + βt + ti=1 εi
P
où εi ⇝ iid(0, σε2 ) , εi est identiquement et indépendamment distribuée.

Le processus DS avec dérive est non stationnaire car on a E(yt ) = y0 + βt qui
dépend du temps t. Plus t → ∞ et plus E(yt ) → ∞ .
Le processus DS (Differency Stationary) sans dérive (β = 0) s’écrit :
yt = yt−1 + εt (2.4)

2.3. TESTS DE STATIONNARITÉ (OU TESTS DE RACINE UNITAIRE)
Le processus DS sans dérive est appelé aussi marche au hasard (ou marche aléa-
toire).
Par récurrence, on obtient (dans le cas sans dérive) :
y1 = y0 + ε1 y2 = y1 + ε2 = y0 + ε1 + ε2
...
yt = y0 + ti=1 εi
P
où εi ⇝ iid(0, σε2 )

Le processus DS sans dérive est non stationnaire car on a :
t t t
σε2 = tσε2
X X X
V ar(yt ) = V ar( εi ) = V ar(εi ) = (2.5)
i=1 i=1 i=1
On constate que la variance du processus DS sans dérive dépend du temps t. Plus

t → ∞ et plus V ar(yt ) → ∞ .
Pour stationnariser le processus DS (avec ou sans dérive), il suffit de le passer en
différence première :
yt − yt−1 = β + εt (cas avec dérive) (2.6)
ou
yt − yt−1 = εt (cas sans dérive). (2.7)
Définition 6 : Une série est dite intégrée d’ordre d (notée yt ⇝ I(d)) s’il convient de
la différencier d fois afin de la stationnariser. La série stationnarisée est alors intégrée
d’ordre 0 et est notée yt ⇝ I(0).
2.3 Tests de stationnarité (ou tests de racine unitaire)

Il existe plusieurs tests de racine unitaire : tests de Dickey-Fuller simple et Dickey-Fuller
Augmenté, test de Phillips et Perron, test de Kwiatkowski, Phillips, Schmidt et Shin (test de
KPSS). Nous n’étudierons ici que les tests de Dickey-Fuller et de Phillips-Perron.
a/ Test de Dickey-Fuller simple :
Le test de Dickey-Fuller permet de savoir si une série est stationnaire ou non et permet
aussi de déterminer la bonne manière de stationnariser la série.
Les hypothèses du test sont les suivantes :




H0 : processus non stationnaire, il correspond à une de ces formes de non stationnarité :



 [1] yt =ϕ1 yt−1 +εt




 [2] yt =ϕ1 yt−1 + c +εt
[3] yt =ϕ1 yt−1 + bt + c +εt





où ϕ1 = 1 et εt ⇝ iid(0,σε2 )











H1 : |ϕ1 | < 1

On peut écrire aussi les hypothèses sous la forme suivante :




H0 : processus non stationnaire, il correspond à une de ces formes de non stationnarité :



 [1] ∆yt = (ϕ1 −1) yt−1 +εt
∆yt = (ϕ1 −1) yt−1 + c +εt




 [2]
[3] ∆yt = (ϕ1 −1) yt−1 + bt + c +εt





où (ϕ1 − 1) = 0 et εt ⇝ iid(0,σε2 )











H1 :ϕ1 < 1
Sous H0 vraie, la statistique de test pour l’estimateur de ϕ1 est donnée par :
ϕˆ1 − 1
tϕˆ1 = (2.10)
σ̂ϕˆ1
On commence par étudier le modèle général [3]. On regarde si b est significativement différent
de 0 ou non. Si b est significativement non différent de 0, on passe à l’étude du modèle [2] et
on cherche à savoir si c est significativement différent de 0 ou pas. Si c est significativement
non différent de 0, on étudie le modèle [1].
ATTENTION : Sous H0 vraie, les t de Student de la constante et de la tendance sont à

comparer avec les valeurs de la table de Dickey-Fuller (Pour une taille d’échantillon supé-
rieure à 500 observations, les valeurs critiques sont : 2.78 à 5% pour la tendance du modèle
[3], 2.52 pour la constante du modèle [2] et −1.95 pour le paramètre ϕ1 ) car sous H0 vraie
le processus étudié est non stationnaire (yt ⇝ I(1)) et l’estimateur de ϕ1 ne suit pas la loi
normale.
Les règles de décision sont les suivantes :
Si t > tDF où tDF désigne la valeur critique donnée par table de DF ⇒ on accepte H1 :
le coefficient de la variable explicative est significativement différent de 0.
Si on a b significativement différent de 0 pour le modèle [3], le test s’arrête ici, on n’étudie
pas les autres modèles. De même que si on arrive au modèle [2] et que l’on a la constante
qui est significativement différente de 0, le test s’arrête au modèle [2].
Si |tϕ1 | > tDF ⇒ On accepte H0 : la série est non stationnaire

(ATTENTION : il faut observer ici que pour |tϕ1 | > tDF ⇒ , on n’a pas H1 ! La règle de
décision est ici inversée).
Sous R, on peut aussi utiliser la fonction ur.df(yt )dupackageurcapourtesterlastionnarité(avecousanstenda

b/ Test de Dickey-Fuller Augmenté :
DansletestdeDickey − F ullerquenousvenonsd′ étudier, leprocessusεt est par hypothèse un
bruit blanc. Or il n’y a aucune raison pour que, a priori, l’erreur soit non corrélée. Le test
de Dickey-Fuller Augmenté ne suppose pas que εt est un bruit blanc.

2.3. TESTS DE STATIONNARITÉ (OU TESTS DE RACINE UNITAIRE)
Les hypothèses du test de Dickey-Fuller Augmenté se définissent de la façon suivante :


 H0 : processus non stationnaire, il correspond à une de ces formes de non stationnarité :
[1]∆yt = ρyt−1 − pk=2 γk ∆yt−k+1 + ηt

 P


[2]∆yt = ρyt−1 − pk=2 γk ∆yt−k+1 + c + ηt

 P

Pp

 [3]∆yt = ρyt−1 − k=2 γk ∆yt−k+1 + bt + c + ηt
où ρ = 0, ϕ1 = 1 et ηt ; iid(0, ση2 )






H1 :ϕ1 < 1

Démonstration de l’écriture des modèles [1], [2] et [3] :

On a yt = ϕ1 yt−1 + εt où εt ⇝ AR(p − 1), εt n’est pas un bruit blanc :
εt = p−1 2
P
i=1 θi εt−i + ηt où ηt ⇝ iid(0, ση )(2.11)
On peut écrire ces équations à l’aide de l’opérateur de décalage B tel que Byt = yt−1 et
Bypt = yt−p . On obtient alors :
(1 − ϕ1 B)yt = εt (2.12)
et
Pp−1
εt = θ1 Bεt + θ2 B 2 εt + . . . + θp−1 B p−1 εt + ηt ⇔ (1 − i=1 θi B i )εt = ηt (2.13)
Pp−1
On peut alors écrire : (1 − i=1 θi B i )(1 − ϕ1 B)yt = ηt
(1 − p−1 θi B i )(1 − ϕ1 B)yt = ηt

P
i=1
Pp−1
⇔ (1 − i=1 θi B i )(1 − ϕ1 yt−1 ) = ηt
⇔ (yt − ϕ1 yt−1 ) − p−1 θi B i (yt − ϕ1 yt−1 ) = ηt
P
Pi=1
p−1
⇔ (yt − ϕ1 yt−1 ) − i=1 θi yt−1 + ϕ1 p−1
P
i=1 θi yt−1−i = ηt
⇔ yt − ϕ1 yt−1 − ϕ2 yt−2 − ... − ϕp−1 yt−(p−1) + ϕ1 θ1 yt−2 + ϕ1 θ2 yt−3 + ... + ϕ1 θp−1 yt−p = ηt
⇔ yt = (ϕ1 + θ1 )yt−1 + (θ2 − ϕ1 θ1 )yt−2 + ... + (θp−1 − ϕ1 θp−2 )yt−p+1 − ϕ1 θp−1 yt−p + ηt
⇔ ∆yt = [(ϕ1 − 1)(1 − θ1 − θ2 − ... − θp−1 )]yt−1 − p−1
P
k=1 γk ∆yt−k +ηt
car on a :
yt = (ϕ1 + θ1 )yt−1 + (θ2 − ϕ1 θ1 )yt−2 + ... + (θp−1 − ϕ1 θp−2 )yt−p+1 − ϕ1 θp−1 yt−p + ηt
yt = α1 yt−1 + ηt
⇔ yt − yt−1 = α1 yt−1 − yt−1 + ηt
⇔ ∆yt = (α1 − 1)yt−1 + ηt
Pour un modèle AR(2), il vient :

yt = α1 yt−1 + α2 yt−2 + ηt
⇔ yt − yt−1 = −yt−1 + α1 yt−1 + α2 yt−2 + α2 yt−1 − α2 yt−1 + ηt
⇔ ∆yt = (α1 + α2 − 1)yt−1 + α2 (yt−2 − yt−1 ) + ηt

⇔ ∆yt = (α1 + α2 − 1)yt−1 − α2 (yt−1 − yt−2 ) + ηt

⇔ ∆yt = (α1 + α2 − 1)yt−1 + α2 ∆yt−1 + ηt
Pour un modèle AR(3), on obtient :

yt = α1 yt−1 + α2 yt−2 + α3 yt−3 + ηt
⇔ ∆yt = (α1 + α2 + α3 − 1)yt−1 − (α2 + α3 ∆yt−1 − α3 ∆yt−2 ) + ηt
On constate donc que pour un modèle AR(p) :
Pp Pp−1 Pp
∆yt = ( i=1 αi − 1) yt−1 − k=1 i=k+1 αi ∆yt−k + ηt
Comme on avait supposé que :

α1 = ϕ1 + θ1 , α2 = θ2 − ϕ1 θ1 , . . . , αp = −ϕ1 θp−1
α1 = ϕ1 + θ1 , α2 = θ2 − ϕ1 θ1 , . . . , αp = −ϕ1 θp−1
On obtient alors : P
∆yt = (ϕ1 + θ1 + θ2 − ϕ1 θ1 + ... + θp−1 − ϕ1 θp−2 − ϕ1 θp−1 − 1)yt−1 − p−1 p
P
k=1 i=k+1 α i ∆yt−k + ηt
Pp−1
⇔ ∆yt = (ϕ1 + θ1 + θ2 − ϕ1 θ1 + ... + θp−1 − ϕ1 θp−2 − ϕ1 θp−1 − 1)yt−1 − k=1 γk ∆yt−k + ηt
⇔ ∆yt = (ϕ1 (1 − θ1 − θp−2 − θp−1 ) + θ1 + θ2 + ... + θp−1 − 1)yt−1 − p−1
P
Pp−1 k=1 γk ∆yt−k + ηt
⇔ ∆yt = [(ϕ1 − 1)(1 − θ1 − θ2 − ... − θp−1 )]yt−1 − k=1 γk ∆yt−k + ηt
On trouve alors l’écriture du modèle [1] en posant ρ = (ϕ1 − 1)(1 − θ1 − θ2 − θ3 − ... − θp−1 ) :
p−1
X
∆yt = ρyt−1 − γk ∆yt−k + ηt (2.14)
k=1
ou encore
p−1
X
∆yt = ρyt−1 − γk ∆yt−k+1 + ηt (2.15)
k=2
Détermination du retard p du test ADF :

La valeur p est déterminée à l’aide du corrélogramme partiel de la série différenciée ∆yt .
Une fois déterminée la valeur p, on procède de la même façon qu’avec le test de DickeyFuller
simple : on commence par étudier la significativité de b du modèle [3]. La règle de décision
est la même que pour le test de DF simple.
La statistique de test pour l’estimateur de ϕ1 est :
ϕˆ1 − 1
tϕˆ1 = (2.16)
σ̂ϕˆ1
qui est à comparer avec la valeur critique tDF de la table de Dickey-Fuller. Si |tϕ1 | > tDF ⇒
On accepte H0 : la série est non stationnaire (ATTENTION : il faut observer comme dans
le cas du test de DF simple que pour |tϕ1 | > tDF , on n’a pas H1 ! La règle de décision est
inversée ici ! ).
c/ Test de Phillips-Perron :
Le test de Phillips et Perron permet de prendre en compte à la fois l’autocorrélation et
l’hétéroscédasticité des erreurs. Il s’appuie sur les mêmes modèles que ceux du test de Di-
ckey et Fuller simple mais propose une correction non-paramétrique de la statistiquetϕˆ1 . Le
déroulement du test de Phillips-Perron s’effectue en quatre étapes qui sont :
1) Estimation par la méthode des moindres carrés ordinaires les trois modèles du test de
Dickey-Fuller simple et calcul des résidus εˆt .

2.4. PROCESSUS ARIMA
2) Détermination de la variance dite de court terme :

n
1X
σ̂ 2 = εˆt 2 (2.17)
n t=1
3) Estimation du facteur correctif s2t appelé variance de long terme :
n b n
1X 2 j 1 X
s2t
X
= εˆt + 2 (1 − ) εˆt ε̂t−j (2.18)
n t=1 j=1 b + 1 n t=j+1
où
n 2/9
b ≈ 4( ) (2.19)
100
4) Calcul de la statistique de Phillips et Perron :
√ (ϕˆ1 − 1) n(k − 1)σ̂ϕˆ1

tPϕˆ1P = k× + √ (2.20)
σ̂ϕˆ1 k
σˆ2
k= (2.21)
s2t
Phillips et Perron (1988) montrent que cette correction non-paramétrique apportée à tϕˆ1 ne
modifie pas la distribution asymptotique de la statistique qui reste identique à celle qui est
observée dans le cas du test de Dickey-Fuller simple. En conséquence, les valeurs critiques
tabulées par Dickey et Fuller demeurent également valables pour le test de Phillips-Perron.
2.4 Processus ARIMA

Lorsque l’on a une série yt à non stationnarité stochastique, il convient de la modéliser à
l’aide d’un processus ARIMA(p, d, q) où d désigne l’ordre de différenciation (ou d’intégration).
Définition 7 : Un processus ARIMA(p,d,q) ou ”Autoregressive Integrated Moving Average”

d’ordre p, d, et q pour la série yt est un processus de la forme suivante :
(1 − Φ1 B − ... − Φp B p )∇d yt = (1 − θ1 B − ... − θq Bq )εt (2.22)
ou encore
(1 − Φ1 B − ... − Φp B p )(1 − B)d yt = (1 − θ1 B − ... − θq Bq )εt (2.23)
où εt ⇝ BB(0, σε2 ), B est l’opérateur de retard tel que Byt = yt−1 et B p yt = yt−p , ∇d
est l’opérateur de différence de degré d ( d ≥ 0 est un entier positif), (Φ1 , . . ., Φp ) et
(θ1 , . . ., θq ) sont des coefficients à estimer.
La série yt est une série non stationnaire alors que la série wt = ∇d yt est une série stationnaire.
Estimer les paramètres du processus ARIMA(p, d, q) pour la série yt non stationnaire revient
à estimer les coefficients du processus ARMA(p, q) pour la série wt stationnaire.

2.5 Processus ARMA

Wold (1954) montre que les séries stationnaires peuvent être représentées par les processus
ARMA.
Définition 8 : Soit yt une série stationnaire. Le modèle AR(p) ou autorégressif d’ordre p est défini
par :
yt − Φ1 yt−1 − Φ2 yt−2 − ... − Φp yt−p = εt (2.24)
ou encore
(1 − Φ1 B − ... − Φp B p ) = εt (2.25)
où Φ1 , Φ2 , ..., Φp sont des coefficients (positifs ou négatifs) à estimer et εt ⇝ BB(0, σε2 ).
Un modèle AR(p) présente un corrélogramme simple caractérisé par une décroissance
géométrique de ses termes et un corrélogramme partiel caractérisé par ses p premiers
termes différents de 0.
Définition 9 : Le modèle M A(q) ou ”Moving Average” (moyenne mobile) d’ordre q est donné par :
yt = εt − θ1 εt−1 − θ2 εt−2 − ... − θq εt−q (2.26)
ou encore
yt = (1 − θ1 B − ... − θq B q )εt (2.27)
où θ1 , θ2 , . . ., θq sont des paramètres à estimer. Un modèle M A(q) présente un corrélo-
gramme simple défini par ses q premiers termes significativement différents de 0 et un
corrélogramme partiel caractérisé par une décroissance géométrique des retards.
Définition 10 : Le modèle ARM A(p, q) est une combinaison des processus AR(p) et M A(q) :
yt − Φ1 yt−1 − Φ2 yt−2 − ... − Φp yt−p = εt − θ1 εt−1 − θ2 εt−2 − ... − θq εt−q (2.28)
ou encore
(1 − Φ1 B − ... − Φp B p )yt = (1 − θ1 B − ... − θq B q )εt (2.29)
ou encore
Φ(B)yt = θ(B)εt (2.30)
où εt ⇝ BB(0, σε2 ).
Le modèle ARM A(p, q) présente un corrélogramme simple et partiel qui sont un mélange des
deux corrélogrammes des processus AR et M A purs.
2.6 Méthode de Box et Jenkins

La méthode de Box et Jenkins permet de déterminer le modèle ARIMA pouvant convenir
à une série temporelle selon ses caractéristiques. Elle se décompose en plusieurs étapes :

2.6. MÉTHODE DE BOX ET JENKINS
Détermination et élimi-
nation de la saisonnalité
de la série chronologique
Analyse du corrélo-
gramme simple et partiel
Tests de stationnarité :
test de Dickey-Fuller
test de Phillips-Perron
test de KPSS (Kwiatkowski,
Phillips, Schmidt et Shin)
Détermination et élimination
de la tendance de la série
chronologique désaisonnalisée
Détermination des ordres p et q

du modèle ARMA : analyse des si le résidu n’est pas un bruit blanc
corrélogrammes simple et partiel
Estimation des co-

efficients du modèle
Méthode du maxi-
Analyse des coeffi- mum de vraisemblance
cients et des résidus
Prévision
Figure 2.1 – Procédure de la modélisation ARIM A par la méthode de Box et Jekins
a/Estimation des paramètres du processus ARM A(p, q) :

L’estimation des coefficients du processus ARMA(p,q) s’effectue principalement à l’aide
de la méthode du maximum de vraisemblance. On suppose pour cela que εt ⇝ N (0, σε2 ).
Méthode d’estimation du maximum de vraisemblance :

La méthode du maximum de vraisemblance est couramment utilisée pour estimer les

coefficients des modèles des séries temporelles car c’est une méthode simple à mettre
en place pour estimer des modèles plus complexes que le modèle linéaire.
Soit le modèle suivant :
y t = a0 + a1 x t + ε t (2.31)
On a alors :
E(yt ) = a0 + a1 xt et V ar(yt = σε2 ) (2.32)
La fonction de densité de la loi normale de la variable yt s’écrit :
" # " #
1 −(yt − E(yt ))2 1 −(yt − a0 − a1 xt )2
f (yt ) = √ exp = √ exp (2.33)
σε 2π 2σε2 σε 2π σε2
La fonction de vraisemblance est donnée par :

n
" #
1 −(yt − a0 − a1 xt )2
f (y1 , y2 , ...; a0 , a1 , σε2 )
Y
= √ exp (2.34)
t=1 σε 2π σε2
!n " n #
1 −(yt − a0 − a1 xt )2
f (y1 , y2 , ...; a0 , a1 , σε2 )
X
= √ exp (2.35)
σε 2π t=1 σε2
Pour faciliter les calculs, on considère plutôt le logarithme de la fonction de vraisem-
blance. Il vient alors :
" n #
−(yt − a0 − a1 xt )2
1
ln(f (y1 , y2 , ...; a0 , a1 , σε2 ))
X
= n ln( )− √
σε 2π t=1 σε2
" n #
n n X −(yt − a0 − a1 xt )2
2 2
⇔ ln(f (y1 , y2 , ...; a0 , a1 , σε )) = − lnσε − ln2π −
2 2 t=1 σε2
Cette fonction est à maximiser. Les valeurs des coefficients qui permettent de maximiser
la fonction sont issues des conditions du premier ordre suivantes :
∂lnf (...) ∂lnf (...) ∂lnf (...)

= 0, = 0, =0 (2.36)
∂a0 ∂a1 ∂σε
b/ Validation du processus ARM A(p, q) :

Lors de la détermination des ordres p et q du processus ARM A(p, q) à l’aide des cor-
rélogrammes simple et partiel, on peut être amené à sélectionner plusieurs ordres pos-
sibles p et q pour le processus ARM A(p, q). Après avoir estimé les différents processus
ARM A(p, q) possibles, il reste à les valider et à les départager. La validation des pro-
cessus passe par un examen des coefficients estimés (ils doivent être significativement
différents de 0) et par un examen des résidus (les résidus estimés doivent suivre un
processus de bruit blanc : et ⇝ BB(0, σε2 ) où et est l’estimateur de l’erreur εt puisque
l’on a supposé que εt ⇝ BB(0, σε2 ) lors de la définition du processus ARM A(p, q)).
b.1/ Tests sur les coefficients :
Parmi les processus ARMA estimés, on ne retiendra que ceux dont tous les co-
efficients ont un t de Student > 1, 96 (pour un risque de 5% et pour une taille
d’échantillon suffisamment grande : T > 30).
b.2/ Tests sur les résidus :

2.6. MÉTHODE DE BOX ET JENKINS
Tests d’autocorrélation :
Il existe un grand nombre de tests d’autocorrélation, les plus connus sont ceux
de Box et Pierce (1970) et Ljung et Box (1978).Le test de Ljung et Box est à
appliquer lorsque l’échantillon est de petite taille.
Test de Box et Pierce
Soit une autocorrélation des erreurs d’ordre K (K > 1) :
εt = ρ1 εt−1 + ρ2 εt−2 + ... + ρK εt−K + υt (2.37)
où υt ⇝ N (0, συ2 )
Les hypothèses du test de Box-Pierce sont les suivantes :
(
H0 : ρ1 = ρ2 = ... = ρK = 0
H1 : il existe au moins un ρi significativement différent de 0
Pour effectuer ce test, on a recours à la statistique Q qui est donnée par :
K
X
Q=n ρˆk (2.38)
k=1
où n est le nombre d’observations et ρˆk est le coefficient d’autocorrélation

d’ordre k des résidus estimés et .
Sous l’hypothèse H0 vraie, Q suit la loi du Khi-deux avec K degrés de liberté :
K
ρˆk ⇝ χ2 (K)
X
Q=n (2.39)
k=1
La règle de décision est la suivante :

si Q > k ∗ où k ∗ est la valeur donnée par la table du Khi-Deux pour un risque
fixé et un nombre K de degrés de liberté
⇒ On rejette H0 et on accepte H1 (autocorrélation des erreurs).
Test de Ljung et Box
Les hypothèses du test de Ljung et Box sont les suivantes :
(
H0 : Pas d’auto-correlation
H1 : Présence d’auto-correlation
La statistique du test est :
X ρ̂k
θJB = n(n + 2) (2.40)
k n−k
Sous R, on utilisera la fonction Box.test du package stats pour effectuer les
test de Box-Pierce et Ljung-Box.
Si la p-value du test est inférieure à 0.05 alors on rejette l’hypothèse nulle
d’absence d’autocorrelation .
Remarque : Les test d’auto-correlation présentés plus tôt sont d’ordre k(k >
1) ce qui justifie leur préférence au test de Durbin-Watson (DW).
Test de Durbin-Watson
Les hypothèses du test de Durbin-Watson sont les suivantes :
(
H0 : Pas d’auto-correlation
H1 : Présence d’auto-correlation

La statistique du test est :

Pn 2
t=2 (εt − εt−1 )
DW = Pn 2
, DW ∈ [0, 4] (2.41)
t=1 εt
Sous R, on utilisera la fonction dwtest du package lmtest.

Si la p-value du test est inférieure à 0.05 alors on rejette l’hypothèse nulle
d’absence d’autocorrelation .
Tests d’hétéroscédasticité :
Il existe plusieurs tests possibles : test de Goldfeld et Quandt, test de White,
test de Breusch et Pagan et test ARCH de Engle. Nous étudierons ici le
test ARCH car il est très fréquemment employé en économétrie des séries
temporelles financières.
Test ARCH(AutoRegressive Conditional Heteroskedasticity) :
Le test ARCH consiste à effectuer une régression autorégressive des résidus
carrés sur q retards :
q
e2t αi e2t−i
X
= α0 + (2.42)
i=1
où et désigne le résidu à l’instant t issu de l’estimation des paramètres du
processus ARM A(p, q).
Pour déterminer le nombre de retards q, on étudie le corrélogramme des rési-
dus au carré.
Les hypothèses du test ARCH sont les suivantes :


 H0 :homoscédasticité et α1 = ... = αq = 0
H1 : hétéroscédasticité et il y a au moins un coefficient αi


significativement différent de 0
Pour mener le test, on utilise la statistique de test n × R2 où n correspond au
nombre d’observations de la série et et R2 représente le coefficient de déter-
mination associé à la régression e2t = α0 + qi=1 αi e2t−i
P
Sous l’hypothèse H0 , la statistique de test n × R2 suit la loi du Khi-deux à q

degrés de liberté. La règle de décision est alors :
- Si n × R2 ≤ χ2 (q) où χ2 (q) désigne la valeur critique figurant dans la table

du Khi-deux , on accepte ici l’hypothèse H0 d’homoscédasticité.
- Si n × R2 > χ2 (q) où χ2 (q) désigne la valeur critique valeur figurant dans
la table du Khideux, on rejette ici l’hypothèse H0 d’homoscédasticité et
on admet qu’il y a de l’hétéroscédasticité.
b.3/ Critères de choix des modèles :
Après examen des coefficients et des résidus, certains modèles sont écartés. Pour
départager les modèles restants, on fait appel aux critères standards et aux critères
d’information.
∗ Critères standards :
L’erreur absolue moyenne (Mean Absolute Error) :

1X
M AE = |et | (2.43)
n t

2.7. PROCESSUS ARCH : ARCH, GARCH, EGARCH, TARCH, ARCH-M
où et est le résidu du modèle ARM A étudié et n le nombre d’observation.
Racine de l’erreur quadratique moyenne (Root Mean Squared Error) :

v
u1
u X
RM SE = t e2t (2.44)
n t
Ecart absolu moyen en pourcentage (Mean Absolute Percentage Error) :

1 X et
M AP E = 100 | | (2.45)
n t Xt
Plus la valeur de ces critères est faible, plus le modèle estimé est proche
des observations.
∗ Critères d’information :
Le critère d’Akaike :
2(p + q)
AIC = lnσε2 + (2.46)
n
Le critère de Schwarz :
ln(n)
SIC = lnσε2 + (p + q) (2.47)
n
Le critère d’information de Hannan-Quinn :
ln(n)
SIC = lnσε2 + α(p + q) (2.48)
n
où α(> 2) est une constante.
On choisit le modèle qui minimise les critères standards et les critères d’informa-
tion. Le modèle sélectionné sera alors utilisé pour la prévision.
2.7 Processus ARCH : ARCH, GARCH, EGARCH, TARCH,

ARCH-M
Les processus ARCH (AutoRegressive Conditional Heteroskedasticity) sont utilisés pour
modéliser la volatilité d’une série.
On a vu que le modèle ARM A(p, q) s’écrivait
Φ(B)yt = θ(B)εt (2.49)
où εt ⇝ BB(0, σε2 )
Or σε2 peut ne pas être constant. On peut avoir V (εt |εt−1 ) = σt2 qui est une variance
conditionnelle. On utilise alors les processus ARCH pour modéliser cette variance condition-
nelle. En plus du processus ARCH, nous avons aussi les processus GARCH, EGARCH,
T GARCH,ARCH − M, ...

Définition 11 : Un processus ARCH(q) s’exprime de la manière suivante :
q
σt2 = α0 + ε2t−i
X
(2.50)
i=1
avec α0 > 0 et αi ≥ 0 ∀i
Définition 12 : Un processus GARCH(p, q) (Generalized ARCH) est défini comme
suit :
q p
σt2 = α0 + ε2t−i + 2
X X
βj σt−j (2.51)
i=1 j=1
où α0 > 0, αi ≥ 0 et βj ≥ 0 ∀i et j.
Définition 13 : Un processus EGARCH(p, q) (Exponential GARCH) s’écrit de la fa-
çon suivante :
q p
lnσt2 = α0 + 2
X X
αi (ϕzt−i + γ(|zt−i |) − E|zt−i |)) + βj σt−j (2.52)
i=1 j=1
où zt−i = σεt−i

t−i
représente l’erreur standardisée.
On peut remarquer ici qu’il n’y a pas de contrainte de positivité qui pèse sur les co-
efficients car l’équation de la variance s’exprime en log. A la différence des processus
ARCH et GARCH, le processus EGARCH(p, q) permet à la volatilité de réagir diffé-
remment selon le signe des chocs.
Définition 14 : Un processus T GARCH(p, q) (Threshold GARCH) est défini par :
q
− −
(αi+ ε+
X
σt = α0 + t−i − αi εt−i ) (2.53)
i=1
−
où ε+
t = max(εt , 0) et εt = min(εt , 0).
Le modèle comporte des contraintes de positivité qui sont : α0 > 0, αi+ ≥ 0, αi− ≥
0, βj ≥ 0 ∀i, j.
Toutefois, le modèle permet ici de considérer les effets asymétriques des chocs sur la
volatilité.
Définition 15 : Un processus ARCH − M est donné par :
(
Φ(B)yt = θ(B)εt + δσt2
Pq
σt2 = α0 + 2
i=1 αi εt−i où α0 > 0 et αi ≥ 0 ∀i
La structure ARM A est appelée équation de la moyenne. Pour un processus ARCH − M

,on ajoute une variance dans l’équation de la moyenne. On peut avoir aussi un processus
GARCH − M, T GARCH − M, ...
Les processus ARCH, GARCH, EGARCH,. . . sont estimés à l’aide du maximum de vraisem-
blance (ou plutôt du pseudo maximum de vraisemblance car les erreurs des séries temporelles
en finance ne suivent pas pour la plupart une loi normale).
La fonction log-vraisemblance à maximiser s’écrit ici de la façon suivante :
n
" 2 #
n 1X εt

lnf (ε1 , ε2 , εn , θ) = − ln(2π) − ln(σt2 ) + (2.55)
2 2 t=1 σt

2.7. PROCESSUS ARCH : ARCH, GARCH, EGARCH, TARCH, ARCH-M
où θ est un vecteur contenant les paramètres à estimer des processus ARM A et de la volatilité
(ARCH, GARCH, . . .).


CHAPITRE
ETUDE MULTIVARIEE : MODELISATION

DE LA RELATION ENTRE DEUX SERIES
TEMPORELLES :
3.1 Séries non stationnaires, cointegration et modèle à cor-

rection d’erreur
Soient yt ⇝ I(1), xt ⇝ I(1) , xt et yt sont indépendants, si on estime à l’aide des M CO
le modèle suivant :
yt = axt + b + εt (3.1)
on obtient :
yt − axt − b = εt ⇝ I(1) (3.2)
εt ≁ I(0), εt n’est donc pas stationnaire (le DW est ici très faible).
De plus, on aboutit à une régression dite fallacieuse ou illusoire (”spurious regression”)caractérisée
par un R2 et des t de Student très élevés alors que les deux variables n’ont aucun lien entre
elles !
On peut éviter ce problème en passant les variables en différences premières afin de les rendre
stationnaires (∆yt ; I(0) et ∆xt ; I(0) si xt et yt sont des processus non stationnaires
aléatoires) et en effectuant la régression suivante :
∆yt = a∆xt + b + µt (3.3)
Par ailleurs, on obtient :

∆yt − a∆xt − b = µt ; I(0) (3.4)
Toutefois, il arrive que l’on souhaite travailler avec des variables plutôt en niveau qu’en dif-
férences premières (donc plutôt avec des variables non stationnaires). Dans ce cas, comment
savoir si la régression effectuée est fallacieuse ou non ? C’est alors que la notion de cointé-
gration prend toute son importance ici. Nous n’avons pas de régression fallacieuse lorsque les
35
CHAPITRE 3. ETUDE MULTIVARIEE : MODELISATION DE LA RELATION
ENTRE DEUX SERIES TEMPORELLES :
variables xt et yt sont cointégrées, c’est à dire lorsque l’on a yt − axt − b = εt ; I(0) alors
que yt ; I(1) et xt ; I(1).
a/ Définition de la cointégration :
Granger a montré que si on avait deux variables non stationnaires (yt ; I(1) et xt ;
I(1)), on pouvait avoir :
yt − axt − b = εt ; I(1) (3.5)
ou
yt − axt − b = εt ; I(0)! (3.6)
Définition 16 : Deux séries non stationnaires (yt ; I(1)etxt ; I(1)) sont dites cointé-
grées si on a :
yt − axt − b = εt ; I(0) (3.7)
Les séries yt et xt sont alors notées :
xt , yt ; CI(1, 1) (3.8)
b/ Modèle à correction d’erreur :

Si on a deux séries cointégrées (yt ˘âxt ˘b̂ ; I(0)), on peut estimer le modèle à correction
d’erreur (MCE) suivant :
∆yt = γ∆xt + δ(yt−1 − axt−1 − b) + υt avec δ < 0 (3.9)
On peut remarquer que le paramètre δ doit être négatif pour qu’il y ait un retour de
yt à sa valeur d’équilibre de long terme qui est (axt−1 + b). En effet, lorsque yt−1 est
supérieur à (axt−1 + b), il n’y a une force de rappel vers l’équilibre de long terme que si
δ < 0.
Le MCE permet de modéliser conjointement les dynamiques de court et long terme.
La dynamique de court terme s’écrit :
yt = α0 + α1 yt−1 + α2 xt + α3 xt−1 + υt (3.10)
La dynamique de long terme s’exprime de la manière suivante :
yt = axt + b + εt (3.11)
car à long terme, on a yt−1 = yt , xt−1 = xt et la dynamique de court terme devient à

long terme :
yt = α0 + α1 yt−1 + α2 xt + α3 xt−1 + υt (3.12)
(1 − α1 )yt = (α2 + α3 )xt + α0 + υt (3.13)
yt = axt + b + εt (3.14)
où a = α1−α
2 +α3
1
α0
, b = 1−α 1
υt
, εt = 1−α 1
.
Le MCE s’obtient à partir de la dynamique de court terme :
yt = α0 + α1 yt−1 + α2 xt + α3 xt−1 + υt (3.15)

yt − yt−1 = α0 + α1 yt−1 − yt−1 + α2 xt − α2 xt−1 + α2 xt−1 + α3 xt−1 + υt (3.16)
∆yt = (α1 − 1)yt−1 + α2 (xt − xt−1 ) + α0 + (α2 + α3 )xt−1 + υt (3.17)

3.1. SÉRIES NON STATIONNAIRES, COINTEGRATION ET MODÈLE À
CORRECTION D’ERREUR
∆yt = −(1 − α1 )yt−1 + α2 (xt − xt−1 ) + α0 + (α2 + α3 )xt−1 + υt (3.18)
α2 + α3 α0

∆yt = −(1 − α1 ) yt−1 − xt−1 − + α2 ∆xt + υt (3.19)
1 − α1 1 − α1
∆yt = γ∆xt + δ(yt−1 − axt−1 − b) + υt (3.20)

α2 +α3 α0
où α2 = γ, δ = −(1 − α1 ), a= 1−α1
et b= 1−α1
.
c/ Test de cointégration entre deux variables :
Etape 1 : tester l’ordre d’intégration des variables :

Une condition nécessaire de cointégration est que les séries doivent être intégrées
de même ordre. Si les séries ne sont pas intégrées de même ordre, elles ne peuvent
être cointégrées.
Il convient donc de vérifier l’ordre d’intégration des chroniques étudiées à l’aide
par exemple du test de Dickey-Fuller (simple ou augmenté).
Si les séries considérées ne sont pas intégrées de même ordre, il n’y a alors pas de
risque de cointégration et la procédure s’arrête à cette première étape.
Etape 2 : estimation de la relation de long terme
Si on a :
xt ; I(1) et yt ; I(1)
On estime par les MCO la relation de long terme :

yt = axt + b + εt (3.21)
Pour qu’il y ait cointégration, il faut que le résidu et issu de la régression soit
stationnaire :
et = yt − âxt − b̂ ∼ I(0) (3.22)

La stationnarité du résidu est testée à l’aide du test DF ou DFA.
On remarque ici que la relation porte sur les résidus estimés et non pas sur les
vrais résidus de l’équation de cointégration. Par conséquent, nous ne pouvons
pas nous référer aux tables de Dickey-Fuller pour mener le test de stationnarité.
Il faut regarder ici les tables de MacKinnon.
Si le résidu est stationnaire nous pouvons alors estimer un modèle appelé modèle
à correction d’erreur (MCE) qui intègre les variables en variation et en niveau
(théorème de la représentation de Granger). L’emploi d’un modèle à correction
d’erreur dans le cas de la cointégration permet d’obtenir des prévisions plus fiables
que si on avait utilisé la relation de long terme car les résultats de l’estimation de
cette relation sont faussés par la non stationnarité des séries.
d/ Estimation du MCE avec une seule variable explicative :
Si les séries Yt et Xt sont cointégrées :
xt , yt ; CI(1, 1) (3.23)
nous pouvons estimer le MCE.

Etape 1 : estimation par les MCO de la relation de la relation de long terme :
yt = axt + b + εt (3.24)
Etape 2 : estimation par les MCO de la relation du modèle dynamique de court
terme :
∆yt = γ∆xt + δet−1 + υt avec δ < 0 (3.25)

où et = yt − âxt − b̂.
Le coefficient δ doit être significativement négatif. Dans le cas contraire, la spéci-
fication de type MCE n’est pas valable.
3.2 Modèle VAR et test de causalité au sens de Granger

L’absence de cointégration entre deux séries non stationnaires y1,t et y2,t .
(y1,t ; I(1)ety2,t ; I(1)), mais l’existence d’une causalité entre les séries stationnaires ∆y1,t
et ∆y2,t (∆y1,t ; I(0)et∆y2, t ; I(0)) nous permet d’estimer un modèle VAR.
a/ Présentation du modèle VAR :
Le modèle VAR(”Vector AutoRegressive”) à k variables (hors constante) et p retards
noté V AR(p) s’écrit :
Yt = A0 + A1 Yt−1 + A2 Yt−2 + ... + Ap Yt−p + νt (3.26)
a11,1 a11,2 · · · a11,k a21,1 a21,2 · · · a21,k

         
y1,t a0,1 y1,t−1 y1,t−2
  1
y2,t 
 
a0,2  a

a12,2 · · · a2,k  y2,t−1  a2,1 a22,2 · · ·
1    2 2 
a2,k  y2,t−2 
 .  =  . + 2,1

 .   .. .. .. ..   . + . .. .. ..   .. +· · ·
    
 . 
 .   .   . . . .   ..   .. . . .  . 
1 1 1 2 2
yk,t y0,k ak,1 ak,2 · · · ak,k yk,t−1 ak,1 ak,2 · · · a2k,k yk,t−2
(3.27)
 p
a1,1 ap1,2 · · · ap1,k
   
y1,t−p ν1,t
 p p p 
a2,1 a2,2 · · · a2,k  y2,t−p  ν2,t 
 

+
 .. .. .. ..   ..  +  .. 
   
 . . . .  .   . 
apk,1 apk,2 · · · apk,k yk,t−p νk,t
Les variables y1,t , y2,t , · · · , yk,t sont stationnaires. Les perturbations ν1,t , ν2,t , · · · , νk,t
sont des bruits blancs de variances constantes et non autocorrélées.
b/ Test de causalité au sens de Granger :
Soit le modèle V AR(p) pour lequel les variables y1,t et y2,t sont stationnaires :
(
y1,t = γ1 + α1,1 y1,t−1 + α1,2 y1,t−2 + · · · + α1,p y1,t−p + β1,1 y2,t−1 + β1,2 y2,t−2 + · · · + β1,p y2,t−p + ν1,t
y2,t = γ2 + α2,1 y2,t−1 + α2,2 y2,t−2 + · · · + α2,p y2,t−p + β2,1 y2,t−1 + β2,2 y2,t−2 + · · · + β2,p y2,t−p + ν2,t
Le test consiste à poser ces deux hypothèses :

3.2. MODÈLE VAR ET TEST DE CAUSALITÉ AU SENS DE GRANGER
y2,t ne cause pas y1,t si l’hypothèse H0 suivante est acceptée :
β1,1 = β1,2 = β1,3 = · · · = β1,p = 0 (3.28)

y1,t ne cause pas y2,t si l’hypothèse H0 suivante est acceptée :
α1,1 = α1,2 = α1,3 = · · · = α1,p = 0 (3.29)

On teste ces deux hypothèses à l’aide d’un test de Fisher classique. On peut faire le
test équation par équation :
(
H0 : β1,1 = β1,2 = β1,3 = · · · = β1,p = 0 et y1,t = γ1 + α1,1 y1,t−1 + α1,2 y1,t−2 + · · · + α1,p y1,t−p + ν1,
H1 : au moins un des coefficients β ̸= 0 et y2,t cause y1,t
(
H0 : α2,1 = α2,2 = α2,3 = · · · = α2,p = 0 et y2,t = γ2 + β2,1 y2,t−1 + β2,2 y2,t−2 + · · · + β2,p y2,t−p + ν2,
H1 : au moins un des coefficients α ̸= 0 et y1,t cause y2,t
Si nous sommes amenés à accepter les deux hypothèses que y1,t cause y2,t et que y2,t
cause y1,t ,on parle de boucle rétroactif.
c/ Estimation du modèle V AR(p) :

Dans le cas du modèle V AR, chacune des équations peut être estimée par les M CO,
indépendamment les unes des autres (ou par la méthode de vraisemblance).
Comme il y a énormément de coefficients à estimer dans un modèle V AR, il est préfé-
rable d’effectuer un test de causalité avant de chercher à estimer le modèle V AR. On
pourra ainsi éliminer du modèle à estimer les variables qui n’interviennent pas sur la
variable à expliquer.


CHAPITRE
CONCLUSION
Si xt , yt ; I(0) et yt − xt a − b ; I(0) : on estime yt = xt a + b + εt ou un modèle VAR

en niveau pour plusieurs variables.
Si xt , yt ; I(1) et yt − xt a − b ; I(0) : on estime un modèle à correction d’erreur ou
un modèle V ECM pour plusieurs variables.
Si xt , yt ; I(1) et yt − xt a − b ≁ I(0) et ∆xt , ∆yt ; I(0) avec lien de causalité : on
estime la relation ∆yt = ∆xt a + b + ηt ou un modèle V AR en différence première pour
plusieurs variables.
41
CHAPITRE 4. CONCLUSION

BIBLIOGRAPHIE UTILISÉE
— Lardic S. and Mignon V.(2002), Econométrie des Séries Temporelles Macroéconomiques

et Financière, Economica.
— Bourbonnais R. (2000), Econométrie, DUNOD
43

Cours Series Temporelles Ab

Transféré par

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Cours Series Temporelles Ab

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Series Temporelles Ab

Transféré par

Droits d'auteur :

Formats disponibles

Université Nationale des Sciences,

Technologies, Ingénierie et Mathématiques

Ecole Nationale Supérieure de Génie

Saisi par : ENSEIGNANT :

Etudiants en GMM-2 Dr. Nicodème ATCHADE

1 INTRODUCTION AUX SÉRIES TEMPORELLES 5

2 ETUDE UNIVARIEE : MODELISATION D’UNE SERIE TEMPORELLE 19

3 ETUDE MULTIVARIEE : MODELISATION DE LA RELATION ENTRE DEUX

INTRODUCTION AUX SÉRIES

1.1 Introduction et premières définitions

Ex 1 : Nombre de morts accidentelles aux Etats-Unis de 1973 à 1978

Figure 1.1 – Nombre de morts accidentelles aux Etats-Unis de 1973 à 1978

Ex 3 : Nombre annuel de tâches solaires observées à la surface du soleil de 1700 à 1980

Ex 4 : Taille de la population française (en milliers) de 1985 à 2005

Figure 1.4 – Taille de la population française (en milliers) de 1985 à 2005

Ex 5 : Valeurs de clôtures journalières du CAC40 de 1991 à 1998

ENSGMM II 6 Cours de Séries Temporelles

Figure 1.5 – Valeurs de clôtures journalières du CAC40 de 1991 à 1998

Exercice 1 : Repérer les tendances (croissance, décroissance, linéaire, quadratique...) et

- les modèles de régression, comme par exemple :

ENSGMM II 7 Cours de Séries Temporelles

1.2 Tendances et composantes saisonnières

Lorsque xt = αt + β + εt la tendance est linéaire (m = 1etf (t) = αt + β).

On parle de composante périodique lorsque la série (xt )1≤t≤n peut se décomposer en :

1.3 Indices descriptifs d’une série temporelle

1.3.2 Indices de dispersion

1.3.3 Indices de dépendance

ENSGMM II 8 Cours de Séries Temporelles

On appelle fonction d’auto-covariance (empirique)la fonction qui à h associe σˆn (h).

Auto-corrélation : Les auto-corrélations empiriques sont les quotients des covariances

Première analyse de la série à l’aide des auto-corrélations

Exercice3. Faire la preuve.

1.4 Lissages exponentiels

ENSGMM II 9 Cours de Séries Temporelles

1.4.1 Lissage exponentiel simple

Formules récursives de mise à jour : La définition (1) vérifiant la formule récursive

Exercice 4. Ecrire et interpréter la valeur de x̂n,1 à partir de l’équation de récurrence.

1.4.2 Lissage exponentiel double

ENSGMM II 10 Cours de Séries Temporelles

Les solutions de cette équation sont :

â1 (n) = 2L1 (n) − L2 (n) (1.16)

nentiels simples successifs.

â1 (n) = â1 (n − 1) + â2 (n − 1) + α(2 − α)(xn − x̂n−1,1 ) (1.18)

â2 (n) = â2 (n − 1) + α(2 − α)(xn − x̂n−1,1 ) (1.19)

1.4.3 Méthode de Holt-Winters

Comme la méthode de lissage exponentiel double, celle de Holt-Winters non saisonnière

La prévision prend la forme

â1 (n) = αxn + (1 − α)[â1 (n − 1) + â2 (n − 1)] (1.22)

â2 (n) = β[â1 (n) − â1 (n − 1) + (1 − β)â2 (n − 1)] (1.23)

ENSGMM II 11 Cours de Séries Temporelles

Méthode saisonnière additive

où st est une composante périodique de période T .

â1 (n) = α(xn − ŝn−T ) + (1 − α)[â1 (n − 1) + â2 (n − 1)] (1.25)

â2 (n) = β[â1 (n) − â1 (n − 1)] + (1 − β)â2 (n − 1) (1.26)

ŝn = γ[xn − â1 (n)] + (1 − γ)ŝn−T (1.27)

x̂n,h = â1 + â2 h + ŝn+h−T 1⩽h⩽T (1.28)

x̂n,h = â1 + â2 h + ŝn+h−2T T + 1 ⩽ h ⩽ 2T (1.29)

Méthode saisonnière multiplicative

Si |tϕ1 | > tDF ⇒ On accepte H0 : la série est non stationnaire