Cours Series Temporelles Ab
Cours Series Temporelles Ab
Cours Series Temporelles Ab
Séries Temporelles
Version 2022-2023
ENSGMM II 2 Cours de Séries Temporelles
TABLE DES MATIÈRES
4 CONCLUSION 41
3
ENSGMM II 4 Cours de Séries Temporelles
CHAPITRE
5
CHAPITRE 1. INTRODUCTION AUX SÉRIES TEMPORELLES
Ex 2 : Nombre de passagers par mois (en milliers) dans les transports aériens, de 1949 à 1960
Figure 1.2 – Nombre de passagers par mois (en milliers) dans les transports aériens, de
1949 à 1960
Figure 1.3 – Nombre annuel de tâches solaires observées à la surface du soleil de 1700 à
1980
Excepté l’exemple 4, ces données sont disponibles dans le logiciel R sous les noms : EuStock-
Markets, USAccDeaths, AirPassengers et sunspot.year.
Un des objectifs principaux de l’étude d’une série temporelle est la prévision des réalisa-
tions futures, très souvent pour des raisons économiques (prévoir l’évolution de la vente d’un
produit pour ajuster au mieux les moyens de production, prévoir l’évolution d’un marché
financier ...).
Bien entendu, aucun modèle ne correspond exactement à la réalité, et il est impossible de
prévoir parfaitement le devenir d’une série temporelle. Lorsque cela sera possible, nous don-
nerons des intervalles de prévisions, afin de pouvoir apporter une information quant à la
précision de la prévision.
Pour ce faire, il existe un large choix de modèle utilisable :
Les défis que nous allons devoir relever sont les suivants :
- définir un modèle avec un nombre fini de paramètres,
- estimer les paramètres de ce modèle,
- vérifier la qualité d’ajustement du modèle, comparer différents modèles (partage de
l’échantillon d’observations en 80% pour l’apprentissage et 20% pour le test),
- effectuer des prédictions.
et ainsi de suite.Pour des raisons de bon sens statistique,nous ne considèrerons les covariances
empiriques que jusqu’à un ordre h pas trop grand.
σ̂n (h)
ρ̂n (h) = (1.8)
σ̂n (0)
Ce sont les auto-corrélations empiriques que nous utiliserons pour caractériser la dépendance
entre les variables.
On appelle fonction d’auto-corrélation (empirique)la fonction qui à h associe ρ̂n (h)
Proposition 1. Si la série (xt )1≤t≤n est une tendance linéaire pure xt = at + b, t = 1, ..., n
alors on a pour h fixé :
−→ 1
ρ̂n (h) n→∞ (1.9)
Proposition 1. Si la série (xt )1≤t≤n est une série périodique pure xt = a cos 2tπ
T
,t =
1, ....., n, on a pour h fixé :
2hπ
ρ̂n (h) −→ cos (1.10)
n→∞ T
En interprétant l’auto-corrélation grâce à ces deux propositions, il sera possible de deviner
si une série temporelle admet une tendance (l’auto-corrélation tend vers 1) ou une saisonnalité
(la saisonnalité se voit sur l’auto-corrélation).
- le lissage exponentiel simple qui consiste à ajuster localement à la série temporelle une
constante,
- le lissage exponentiel double qui ajuste quant à lui une droite,
- le lissage exponentiel de Holt-Winters qui considère des fonctions plus complexes(polynomiales,périod
La prévision est une moyenne de toutes les observations passées,pondérée de sorte que plus
l’observation soit ancienne moins elle ait d’importance.
Une constante de lissage α prochede 0(⩽ 0.3) donne une importance significative aux observa-
tions éloignées, tandis qu’un α proche de 1(⩾ 0.7) tend à négliger ces observations éloignées.
Remarque : la prévision x̂n,h ne dépend pas de h!
Choix de la constante de lissage :Pour choisir la constante de lissage, une solution prag-
matique consiste à tester plusieursvaleurset à choisircelle minimisantun critère d’erreur mini-
male. Pourcela on partage l’échantillon d’observations en un échantillon d’apprentissage(les
8
80% premièresobservations : x1 , ..., xm où m est par exemple l’entier le plus proche de 10 n)
et un échantillon test (les 20% dernières :xm+1 , ..., xn ), on estime le modèle de lissage expo-
nentielà partir de l’échantillon d’apprentissage,et on évalue l’erreursur l’échantillon test :
n−m
X
erreur = (x̂m,h − x̂m+h ) (1.13)
h=1
On répéte cette opération pour plusieurs valeurs de la constante de lissage α, et on choisit
celle conduisant à l’erreur la plus petite.
et
α
â2 (n) = (L1 (n) − L2 (n)) (1.17)
1−α
où L1 (n) = α n−1 j
j=0 (1 − α) xn−j et L2 (n) = α
n−1 j
j=0 (1 − α) L1 (n − j) sont deux lissages expo-
P P
où â1 (n) et â2 (n) sont les estimations des paramètres a1 et a2 lorsque l’on a observé la série
jusqu’à la n − ème réalisation. Les valeurs initiales étant â1 (0) = x1 et â2 (0) = x2 − x1 .
yt = a1 + a2 (t − n) (1.20)
La variante par rapport à la méthode de lissage exponentiel double est au niveau des formules
de mise à jour dans l’estimation des paramètres a1 et a2 .
Soient deux constantes de lissages 0< α < 1 et 0 < β < 1. Les formules de mise à jour sont :
Exercice 6. Montrer que les formules de mise à jour du lissage exponentiel double sont un
cas particulier de ces dernières.
Remarque :
- l’introductionde deux constantes rend la méthodeplus souple quele lissage exponentiel-
double : la constante α joue un rôle dans l’estimation de l’ordonnée à l’origine de la
droite, a1 , et la constante β dans celle de la pente de la droite, a2 .
- si α et β sont petits le lissage est importantcar on tient compte du passé lointain.
yt = a1 + a2 (t − n) + st (1.24)
xn
sˆn = γ + (1 − γ)ŝn−T (1.33)
ân
Les prévisions sont de la forme :
Remarque : lorsque les constantes de lissage sont fixées à NULL (valeur par défaut),
un algorithme interne à la procédure HoltWinters se charge d’estimer la meilleur constante
possible à partir de la série des observations.
Figure 1.6 – Lissage et prévision par lissage exponentiel double d’un bruit blanc gaussien
Figure 1.7 – Lissage et prévision par lissage exponentiel double de la série X(t) = 0.5t + 2εt
avec εt ∽ N (0, 1)
Figure 1.8 – Lissage et prévision par lissage exponentiel double de la série X(t) = 0.5t +
εt + 3 cos(t π6 ) avec εt ∽ N (0, 1)
Figure 1.9 – Lissage et prévision par lissage exponentiel simple, double, et Holt-Winters
avec composante saisonnière de la série X(t) = 0.5t + εt + 3 cos(t π6 ) avec εt ∽ N (0, 1)
ρ0 = 1 et − 1 ≤ ρk ≤ 1, ∀k (2.2)
19
CHAPITRE 2. ETUDE UNIVARIEE : MODELISATION D’UNE SERIE TEMPORELLE
(iii) Cov(yt , yt+k ) = E[(yt − µ)(yt+k − µ)] = γk (ne dépend pas de t).
La série ϵt dont E(εt ) = 0, V ar(εt ) = σε2 , Cov(εt , εt+k ) = 0 est donc une série station-
naire. Elle est appelée aussi bruit blanc ( remarque : un bruit blanc n’est pas nécessai-
rement gaussien).
yt = α + βt + εt (2.3)
où εt représente l’erreur du modèle à la date t.
b/ Processus DS :
Le processus DS (Differency Stationary) avec dérive (β ̸= 0) s’exprime comme
suit : yt = yt−1 + β + εt .
Le processus DS avec dérive est appelé aussi marche au hasard (ou marche aléa-
toire ou Random Walk) avec dérive. Il présente une non stationnarité de nature
stochastique. Par récurrence, on obtient (dans le cas avec dérive) :
y1 = y0 + β + ε1
y2 = y1 + β + ε2 = y0 + β + ε1 + β + ε2 = y0 + 2β + ε1 + ε2
...
yt = y0 + βt + ti=1 εi
P
yt = yt−1 + εt (2.4)
Le processus DS sans dérive est appelé aussi marche au hasard (ou marche aléa-
toire).
Par récurrence, on obtient (dans le cas sans dérive) :
y1 = y0 + ε1 y2 = y1 + ε2 = y0 + ε1 + ε2
...
yt = y0 + ti=1 εi
P
Le test de Dickey-Fuller permet de savoir si une série est stationnaire ou non et permet
aussi de déterminer la bonne manière de stationnariser la série.
Les hypothèses du test sont les suivantes :
H0 : processus non stationnaire, il correspond à une de ces formes de non stationnarité :
[1] yt =ϕ1 yt−1 +εt
[2] yt =ϕ1 yt−1 + c +εt
[3] yt =ϕ1 yt−1 + bt + c +εt
où ϕ1 = 1 et εt ⇝ iid(0,σε2 )
H1 : |ϕ1 | < 1
H0 : processus non stationnaire, il correspond à une de ces formes de non stationnarité :
[1] ∆yt = (ϕ1 −1) yt−1 +εt
∆yt = (ϕ1 −1) yt−1 + c +εt
[2]
[3] ∆yt = (ϕ1 −1) yt−1 + bt + c +εt
où (ϕ1 − 1) = 0 et εt ⇝ iid(0,σε2 )
H1 :ϕ1 < 1
ϕˆ1 − 1
tϕˆ1 = (2.10)
σ̂ϕˆ1
On commence par étudier le modèle général [3]. On regarde si b est significativement différent
de 0 ou non. Si b est significativement non différent de 0, on passe à l’étude du modèle [2] et
on cherche à savoir si c est significativement différent de 0 ou pas. Si c est significativement
non différent de 0, on étudie le modèle [1].
Si t > tDF où tDF désigne la valeur critique donnée par table de DF ⇒ on accepte H1 :
le coefficient de la variable explicative est significativement différent de 0.
Si on a b significativement différent de 0 pour le modèle [3], le test s’arrête ici, on n’étudie
pas les autres modèles. De même que si on arrive au modèle [2] et que l’on a la constante
qui est significativement différente de 0, le test s’arrête au modèle [2].
H0 : processus non stationnaire, il correspond à une de ces formes de non stationnarité :
[1]∆yt = ρyt−1 − pk=2 γk ∆yt−k+1 + ηt
P
[2]∆yt = ρyt−1 − pk=2 γk ∆yt−k+1 + c + ηt
P
Pp
[3]∆yt = ρyt−1 − k=2 γk ∆yt−k+1 + bt + c + ηt
où ρ = 0, ϕ1 = 1 et ηt ; iid(0, ση2 )
H1 :ϕ1 < 1
εt = p−1 2
P
i=1 θi εt−i + ηt où ηt ⇝ iid(0, ση )(2.11)
On peut écrire ces équations à l’aide de l’opérateur de décalage B tel que Byt = yt−1 et
Bypt = yt−p . On obtient alors :
(1 − ϕ1 B)yt = εt (2.12)
et
Pp−1
εt = θ1 Bεt + θ2 B 2 εt + . . . + θp−1 B p−1 εt + ηt ⇔ (1 − i=1 θi B i )εt = ηt (2.13)
Pp−1
On peut alors écrire : (1 − i=1 θi B i )(1 − ϕ1 B)yt = ηt
yt = (ϕ1 + θ1 )yt−1 + (θ2 − ϕ1 θ1 )yt−2 + ... + (θp−1 − ϕ1 θp−2 )yt−p+1 − ϕ1 θp−1 yt−p + ηt
yt = α1 yt−1 + ηt
⇔ yt − yt−1 = α1 yt−1 − yt−1 + ηt
⇔ ∆yt = (α1 − 1)yt−1 + ηt
On obtient alors : P
∆yt = (ϕ1 + θ1 + θ2 − ϕ1 θ1 + ... + θp−1 − ϕ1 θp−2 − ϕ1 θp−1 − 1)yt−1 − p−1 p
P
k=1 i=k+1 α i ∆yt−k + ηt
Pp−1
⇔ ∆yt = (ϕ1 + θ1 + θ2 − ϕ1 θ1 + ... + θp−1 − ϕ1 θp−2 − ϕ1 θp−1 − 1)yt−1 − k=1 γk ∆yt−k + ηt
⇔ ∆yt = (ϕ1 (1 − θ1 − θp−2 − θp−1 ) + θ1 + θ2 + ... + θp−1 − 1)yt−1 − p−1
P
Pp−1 k=1 γk ∆yt−k + ηt
⇔ ∆yt = [(ϕ1 − 1)(1 − θ1 − θ2 − ... − θp−1 )]yt−1 − k=1 γk ∆yt−k + ηt
On trouve alors l’écriture du modèle [1] en posant ρ = (ϕ1 − 1)(1 − θ1 − θ2 − θ3 − ... − θp−1 ) :
p−1
X
∆yt = ρyt−1 − γk ∆yt−k + ηt (2.14)
k=1
ou encore
p−1
X
∆yt = ρyt−1 − γk ∆yt−k+1 + ηt (2.15)
k=2
ϕˆ1 − 1
tϕˆ1 = (2.16)
σ̂ϕˆ1
qui est à comparer avec la valeur critique tDF de la table de Dickey-Fuller. Si |tϕ1 | > tDF ⇒
On accepte H0 : la série est non stationnaire (ATTENTION : il faut observer comme dans
le cas du test de DF simple que pour |tϕ1 | > tDF , on n’a pas H1 ! La règle de décision est
inversée ici ! ).
c/ Test de Phillips-Perron :
Le test de Phillips et Perron permet de prendre en compte à la fois l’autocorrélation et
l’hétéroscédasticité des erreurs. Il s’appuie sur les mêmes modèles que ceux du test de Di-
ckey et Fuller simple mais propose une correction non-paramétrique de la statistiquetϕˆ1 . Le
déroulement du test de Phillips-Perron s’effectue en quatre étapes qui sont :
1) Estimation par la méthode des moindres carrés ordinaires les trois modèles du test de
Dickey-Fuller simple et calcul des résidus εˆt .
n b n
1X 2 j 1 X
s2t
X
= εˆt + 2 (1 − ) εˆt ε̂t−j (2.18)
n t=1 j=1 b + 1 n t=j+1
où
n 2/9
b ≈ 4( ) (2.19)
100
4) Calcul de la statistique de Phillips et Perron :
σˆ2
k= (2.21)
s2t
Phillips et Perron (1988) montrent que cette correction non-paramétrique apportée à tϕˆ1 ne
modifie pas la distribution asymptotique de la statistique qui reste identique à celle qui est
observée dans le cas du test de Dickey-Fuller simple. En conséquence, les valeurs critiques
tabulées par Dickey et Fuller demeurent également valables pour le test de Phillips-Perron.
ou encore
où εt ⇝ BB(0, σε2 ), B est l’opérateur de retard tel que Byt = yt−1 et B p yt = yt−p , ∇d
est l’opérateur de différence de degré d ( d ≥ 0 est un entier positif), (Φ1 , . . ., Φp ) et
(θ1 , . . ., θq ) sont des coefficients à estimer.
La série yt est une série non stationnaire alors que la série wt = ∇d yt est une série stationnaire.
Estimer les paramètres du processus ARIMA(p, d, q) pour la série yt non stationnaire revient
à estimer les coefficients du processus ARMA(p, q) pour la série wt stationnaire.
Définition 8 : Soit yt une série stationnaire. Le modèle AR(p) ou autorégressif d’ordre p est défini
par :
yt − Φ1 yt−1 − Φ2 yt−2 − ... − Φp yt−p = εt (2.24)
ou encore
(1 − Φ1 B − ... − Φp B p ) = εt (2.25)
où Φ1 , Φ2 , ..., Φp sont des coefficients (positifs ou négatifs) à estimer et εt ⇝ BB(0, σε2 ).
Un modèle AR(p) présente un corrélogramme simple caractérisé par une décroissance
géométrique de ses termes et un corrélogramme partiel caractérisé par ses p premiers
termes différents de 0.
Définition 9 : Le modèle M A(q) ou ”Moving Average” (moyenne mobile) d’ordre q est donné par :
ou encore
yt = (1 − θ1 B − ... − θq B q )εt (2.27)
où θ1 , θ2 , . . ., θq sont des paramètres à estimer. Un modèle M A(q) présente un corrélo-
gramme simple défini par ses q premiers termes significativement différents de 0 et un
corrélogramme partiel caractérisé par une décroissance géométrique des retards.
Définition 10 : Le modèle ARM A(p, q) est une combinaison des processus AR(p) et M A(q) :
ou encore
(1 − Φ1 B − ... − Φp B p )yt = (1 − θ1 B − ... − θq B q )εt (2.29)
ou encore
Φ(B)yt = θ(B)εt (2.30)
où εt ⇝ BB(0, σε2 ).
Le modèle ARM A(p, q) présente un corrélogramme simple et partiel qui sont un mélange des
deux corrélogrammes des processus AR et M A purs.
Détermination et élimi-
nation de la saisonnalité
de la série chronologique
Analyse du corrélo-
gramme simple et partiel
Tests de stationnarité :
test de Dickey-Fuller
test de Phillips-Perron
test de KPSS (Kwiatkowski,
Phillips, Schmidt et Shin)
Détermination et élimination
de la tendance de la série
chronologique désaisonnalisée
Méthode du maxi-
Analyse des coeffi- mum de vraisemblance
cients et des résidus
Prévision
coefficients des modèles des séries temporelles car c’est une méthode simple à mettre
en place pour estimer des modèles plus complexes que le modèle linéaire.
Soit le modèle suivant :
y t = a0 + a1 x t + ε t (2.31)
On a alors :
E(yt ) = a0 + a1 xt et V ar(yt = σε2 ) (2.32)
La fonction de densité de la loi normale de la variable yt s’écrit :
" # " #
1 −(yt − E(yt ))2 1 −(yt − a0 − a1 xt )2
f (yt ) = √ exp = √ exp (2.33)
σε 2π 2σε2 σε 2π σε2
Cette fonction est à maximiser. Les valeurs des coefficients qui permettent de maximiser
la fonction sont issues des conditions du premier ordre suivantes :
Tests d’autocorrélation :
Il existe un grand nombre de tests d’autocorrélation, les plus connus sont ceux
de Box et Pierce (1970) et Ljung et Box (1978).Le test de Ljung et Box est à
appliquer lorsque l’échantillon est de petite taille.
Test de Box et Pierce
Soit une autocorrélation des erreurs d’ordre K (K > 1) :
εt = ρ1 εt−1 + ρ2 εt−2 + ... + ρK εt−K + υt (2.37)
où υt ⇝ N (0, συ2 )
Les hypothèses du test de Box-Pierce sont les suivantes :
(
H0 : ρ1 = ρ2 = ... = ρK = 0
H1 : il existe au moins un ρi significativement différent de 0
Pour effectuer ce test, on a recours à la statistique Q qui est donnée par :
K
X
Q=n ρˆk (2.38)
k=1
Test de Durbin-Watson
Les hypothèses du test de Durbin-Watson sont les suivantes :
(
H0 : Pas d’auto-correlation
H1 : Présence d’auto-correlation
∗ Critères standards :
Plus la valeur de ces critères est faible, plus le modèle estimé est proche
des observations.
∗ Critères d’information :
Le critère d’Akaike :
2(p + q)
AIC = lnσε2 + (2.46)
n
Le critère de Schwarz :
ln(n)
SIC = lnσε2 + (p + q) (2.47)
n
Le critère d’information de Hannan-Quinn :
ln(n)
SIC = lnσε2 + α(p + q) (2.48)
n
où α(> 2) est une constante.
On choisit le modèle qui minimise les critères standards et les critères d’informa-
tion. Le modèle sélectionné sera alors utilisé pour la prévision.
Or σε2 peut ne pas être constant. On peut avoir V (εt |εt−1 ) = σt2 qui est une variance
conditionnelle. On utilise alors les processus ARCH pour modéliser cette variance condition-
nelle. En plus du processus ARCH, nous avons aussi les processus GARCH, EGARCH,
T GARCH,ARCH − M, ...
q
σt2 = α0 + ε2t−i
X
(2.50)
i=1
avec α0 > 0 et αi ≥ 0 ∀i
Définition 12 : Un processus GARCH(p, q) (Generalized ARCH) est défini comme
suit :
q p
σt2 = α0 + ε2t−i + 2
X X
βj σt−j (2.51)
i=1 j=1
où α0 > 0, αi ≥ 0 et βj ≥ 0 ∀i et j.
Définition 13 : Un processus EGARCH(p, q) (Exponential GARCH) s’écrit de la fa-
çon suivante :
q p
lnσt2 = α0 + 2
X X
αi (ϕzt−i + γ(|zt−i |) − E|zt−i |)) + βj σt−j (2.52)
i=1 j=1
où θ est un vecteur contenant les paramètres à estimer des processus ARM A et de la volatilité
(ARCH, GARCH, . . .).
35
CHAPITRE 3. ETUDE MULTIVARIEE : MODELISATION DE LA RELATION
ENTRE DEUX SERIES TEMPORELLES :
variables xt et yt sont cointégrées, c’est à dire lorsque l’on a yt − axt − b = εt ; I(0) alors
que yt ; I(1) et xt ; I(1).
a/ Définition de la cointégration :
Granger a montré que si on avait deux variables non stationnaires (yt ; I(1) et xt ;
I(1)), on pouvait avoir :
yt − axt − b = εt ; I(1) (3.5)
ou
yt − axt − b = εt ; I(0)! (3.6)
Définition 16 : Deux séries non stationnaires (yt ; I(1)etxt ; I(1)) sont dites cointé-
grées si on a :
yt − axt − b = εt ; I(0) (3.7)
Les séries yt et xt sont alors notées :
xt , yt ; CI(1, 1) (3.8)
On peut remarquer que le paramètre δ doit être négatif pour qu’il y ait un retour de
yt à sa valeur d’équilibre de long terme qui est (axt−1 + b). En effet, lorsque yt−1 est
supérieur à (axt−1 + b), il n’y a une force de rappel vers l’équilibre de long terme que si
δ < 0.
Le MCE permet de modéliser conjointement les dynamiques de court et long terme.
La dynamique de court terme s’écrit :
yt = axt + b + εt (3.11)
α2 + α3 α0
∆yt = −(1 − α1 ) yt−1 − xt−1 − + α2 ∆xt + υt (3.19)
1 − α1 1 − α1
yt = axt + b + εt (3.24)
Etape 2 : estimation par les MCO de la relation du modèle dynamique de court
terme :
p
a1,1 ap1,2 · · · ap1,k
y1,t−p ν1,t
p p p
a2,1 a2,2 · · · a2,k y2,t−p ν2,t
+
.. .. .. .. .. + ..
. . . . . .
apk,1 apk,2 · · · apk,k yk,t−p νk,t
Les variables y1,t , y2,t , · · · , yk,t sont stationnaires. Les perturbations ν1,t , ν2,t , · · · , νk,t
sont des bruits blancs de variances constantes et non autocorrélées.
b/ Test de causalité au sens de Granger :
Soit le modèle V AR(p) pour lequel les variables y1,t et y2,t sont stationnaires :
(
y1,t = γ1 + α1,1 y1,t−1 + α1,2 y1,t−2 + · · · + α1,p y1,t−p + β1,1 y2,t−1 + β1,2 y2,t−2 + · · · + β1,p y2,t−p + ν1,t
y2,t = γ2 + α2,1 y2,t−1 + α2,2 y2,t−2 + · · · + α2,p y2,t−p + β2,1 y2,t−1 + β2,2 y2,t−2 + · · · + β2,p y2,t−p + ν2,t
Le test consiste à poser ces deux hypothèses :
(
H0 : β1,1 = β1,2 = β1,3 = · · · = β1,p = 0 et y1,t = γ1 + α1,1 y1,t−1 + α1,2 y1,t−2 + · · · + α1,p y1,t−p + ν1,
H1 : au moins un des coefficients β ̸= 0 et y2,t cause y1,t
(
H0 : α2,1 = α2,2 = α2,3 = · · · = α2,p = 0 et y2,t = γ2 + β2,1 y2,t−1 + β2,2 y2,t−2 + · · · + β2,p y2,t−p + ν2,
H1 : au moins un des coefficients α ̸= 0 et y1,t cause y2,t
Si nous sommes amenés à accepter les deux hypothèses que y1,t cause y2,t et que y2,t
cause y1,t ,on parle de boucle rétroactif.
CONCLUSION
41
CHAPITRE 4. CONCLUSION
43