L M BOX Jenkins: A Éthode
L M BOX Jenkins: A Éthode
L M BOX Jenkins: A Éthode
JENKINS
INTRODUCTION
PARTIE I : LA THEORIE.
PARTIE IV : APPLICATION
22
INTRODUCTION
L’objectif de cet exposé est de permettre une bonne utilisation des logiciels
d’analyse d’une série chronologique à l’aide de la méthode de BOX JENKINS.
22
PARTIE : LA THEORIE
Nous allons exposer dans cette partie les principaux résultats théorique
indispensables à l’utilisation de la méthode de BOX JENKINS. La plupart des
résultats seront donnés sans démonstration, et nous renvoyons implicitement
aux références citées pour démonstrations et approfondissements.
22
Cette notion de bruit correspond aux hypothèses faites sur les résidus
en régression multiple. Les variables aléatoires at sont aussi appelées
chocs aléatoires. On suppose implicitement que les chocs at suivent
une loi normale N (0, ).
On considère que la série étudiée, notée aussi (zt,…, zn), est une
réalisation particulière d’une portion d’un processus aléatoire (zt) .
Les séries économiques sont rarement stationnaires. Elles peuvent
présenter une tendance et des variations saisonnaires. L’amplitude des
variations de la série peut aussi dépendre de son niveau .Il est
cependant souvent possible de stationnariser la série à l’aide de
transformations permettant d’éliminer tendance et saisonnalité, et de
stabiliser la variance.
• Une série chronologique assez longue (n 50).
• Exemple : Ventes d’anti-inflammatoires en France de
janvier 1978 à juillet 1982.
• Objectif : Prévoir les ventes d’août à décembre 1982.
22
1.5 Les autocorrélations
(w w)(w t t k w)
rk t k 1
N
= estimation de k
(w w)
t 1
t
2
22
Régression de wt sur wt-1,…, wt-k :
wt 0 k 1k wt 1 ... kk wt k t
kk
Autocorrélations partielle d’ordre k :
kk Cor ( wt , wt k | wt 1 ,..., wt k 1 )
ˆ kk
Calcul pratique de estimation de kk
1 1 L k 2 1 Soit :
1 1 L k 3 2 1
M 11 1
1
k 1 k 2 L 1 k
kk
1 1 L k 2 k 1 1 1
1 1 L k 3 k 2 1 2 2 12
M 22
1 1 1 12
k 1 k 2 L 1 1
1 1
ˆkk des
ETC…………..
On obtient les estimations kk en remplaçant les k
par rk
22
PARTIE II : LE PROCESSUS (AR) ET LE
PROCESSUS (MA).
Chapitre I : Le processus AR
Nous allons présenter une famille de processus aléatoires qui sont censés
recouvrir une gamme très larges d’évolution possible de séries chronologiques :
Il s’agit dans ce chapitre du processus autorégressif AR et le processus de
moyenne mobile MA, et dans le 3éme chapitre on verra les deux autres
méthodes ARMA et ARIMA.
Parmi les procédures courantes qui permettent de modéliser des séries, dont on
ne connaît pas les variables explicatives mais dont on peut penser qu’elles
suivent des lois temporels, est celle des modèles autorégressifs.
Un processus autorégressif d’ordre p est celui où l’observation présente y t est
générée par une moyenne pondérée des observations passées jusqu’à la p-ième
période sous la forme suivante :
AR (1) : y t 1 y t 1 t
AR (2) : y t = 1y t-1 + 2 y t-2 + t
...
AR(p) : y t = 1 +y t-1 + 2 y t-2 +...+ p y t-p + t E
(1 1D 2 D 2 ... p D p ) y t t
22
MA (1) : y t = t -1 t-1
MA(2) : y t = t 1 t 1 2 t 2
...
MA (q ) : y t = t -1 t-1 - 2 t-2 -...- q t-q E'
(1 1D 2 D 2 ... q D q ) t y t
Dans ce processus, comme dans le modèle autorégressif AR, les aléas sont
supposés être engendrés par un processus de type bruit blanc. Le modèle MA
peut être interpréter comme étant représentatif d’une série chronologique
fluctuant autour de sa moyenne de manière aléatoire, ce qui justifie le terme de
moyenne mobile dans la mesure où celle-ci ‘‘gomme’’ le bruit créé par l’aléa.
Il est à noter qu’il y équivalence entre un processus MA(1) et un processus AR
d’ordre p infini :
MA (1) AR()
i i k
k i 0
i q Pour k=0,1,…q et k 0 pour k q
i 0
i
2
C’est à dire que seuls les q premiers termes du corrélogramme simple sont
significativement différents de zéro.
Le corrélogramme partiel est caractérisé par une décroissance géométrique des
retards
22
Partial Autocorrelations
Series: ventes
Partial
Lag Autocorrelation Std. Error Rejet de
1 -.515 .154
H0 : kk = 0
2 -.339 .154
3 .039 .154 si:
ˆ kk 2 / N
4 -.073 .154
5 -.073 .154
6 .186 .154
7 -.012 .154
8 -.097 .154
9 .001 .154 Corrélogramme partiel observé
10 -.139 .154
11 .238 .154
12 -.116 .154
13 .029 .154
14 -.343 .154
15 .022 .154
16 -.053 .154
AR(1)
(a) :
wt 0.5wt 1 at , (b) :
wt 0.5wt 1 at
22
Corrélogramme Corrélogramme partiel
(a) (a)
(b) (b)
AR(2)
22
(a) :
wt .8wt 1 .15wt 2 at
(b) :
wt wt 1 .5wt 2 at
(b) (b)
22
MA(1)
(a) :
wt at .7at 1
(b) :
wt at .7 at 1
(b) (b)
MA(q)
(a) : q = 2
wt at .5at 1 .3at 2
22
(b) : q = 5
wt at .7at 5
(c) : q = 6
wt at .3at 1 .6at 6
Corrélogramme de différents processus MA(q)
(a)
(b)
(c)
22
Maintenant que l’on dispose des tests permettant de diagnostiquer le caractère
stationnaire d’une série, on s’interroge sur la façon de représenter les séries
stationnaires, c’est-à-dire sur la nature du processus aléatoire sous-jacent .deux
processus sont couramment utilisés : les processus ARMA proposés par Box et
Jenkins et les processus à hétéroscédasticité conditionnelle de Engle.
Définition
Xt =piXt-i+t (1)
L’équation (1) peut être réécrite en utilisant l’operateur de retard L soit Lixt-i :
t= (1-1L-2L2-…..-iLi-…-pLp) xt
xt= (1-1L-2L2-…..-iLi-…-qLq) t
Dans le cas d’une série stationnaire, on doit noter qu’un processus MA (q) peut
être inversé et s’écrire sous la forme d’un processus AR(∞). De la même façon
un processus AR(p) peut s’inverser et s’écrire sous d’un MA(∞).
22
Dans le processus ARMA, a série stationnaire dépend de ses valeurs passées et
d’une moyenne mobile des innovations passées :
Xt = i Xt-i - - t-i+t
t q i
(1-1L-2L2-…..-iLi-…-pLp) xt=(1-1L-2L2-…..-iLi-…-qLq) t
Le théorème de la décomposition WOLD
Xt = i Xt-i - - t-i+t
t q i (2)
Problématique :
A- La phase de l’identification :
22
On définit Yt la fonction d’autocorrélations simple à l’ordre k de la manière
suivante :
Dans le cas d’un AR (p), il est possible à partir des coefficients du modèle on
peut montrer que les fonctions d’autocorrélations décroissent régulièrement avec
k .On montre que les autocorrélations dans un processus MA(q) deviennent
nulles lorsque k devient plus grand que q et donc que le corrélogramme des
autocorrélations simples est troqué.
B - La phase d’estimation :
Un processus AR (p) peut être estimé pas MCO alors que l’estimation des
processus A (q) ou ARMA (p, q) repose généralement sur des techniques
d’estimation fondées sur la maximisation d’une fonction de vraisemblance.
Cette méthode exige cependant une hypothèse supplémentaire sur la distribution
des écarts aléatoires.
Les tests portent d’abord sur les coefficients du modèle. On applique le ratio de
Student pour tester séquentiellement le caractère significatif des retards. Ce test porte
sur le retard le plus élevé. Autrement dit, dans l’hypothèse nulle, le processus est
ARMA (p-1,q) et dans l’hypothèse alternative il s’agit d’un ARMA (p,q).un test
identique peut être réalisé sur l’ordre du processus MA.
Es tests portent ensuite sur les écarts aléatoire. Celui-ci doit être un bruit blanc
.on s’en assurera par la batterie usuelle su tests : Normalité, homoscédacité et
indépendance sérielle. En cas d échec, il convient de reformuler le modèle.
D - La phase de prévision :
22
Sachant que la mémé série peut avoir plusieurs représentations ARMA, il
convient alors de retenir le modèle dont le pouvoir prédictif est le plus élevé
.Pour cela, on dispose des critères d’information. Les plus utilisés sont ceux
d’Akaike (AIC) et de Schwartz (SC).
AIC=Ln ( )+ avec SCR e : somme des carré des résidus de
l’ARMA (p,q).
SC= Ln ( )+
22
Estimation des paramètres : les méthodes d’estimation différente selon le type
de processus diagnostiqué.
Dans le cas d’un modèle AR, nous pouvons appliquer une méthode des
moindres carrées ou bien nous pouvons utiliser les relations existantes entre les
autos corrélations et les coefficients des modèles (équations YULLE-
WALKER).
L’estimation des paramètres d’un modèle MA s’avère plus complexe.
Box et Jenkins suggèrent d’utiliser une procédure itérative de typa balayage qui
peut être illustré de la manière suivante :
Supposons le processus :
1 D D y 1 D D
1 2
2
t 1 2
2
t
ˆ 2 y 2
ˆ 3 y 3 ˆ 1 ˆ 2
ˆ 4 y 4 ˆ 1 ˆ 3 ˆ 2 ˆ 2
22
2-3 : Tests de validation du modèle Box-Jenkins :
Q = n ∑ hk=1 ρkˆ²
n : Nombre d’observation
p : Autocréation d’ordre k
h : Nombre de retards
Les statistiques Q et Q’ sont distribués asymptotiquement comme une khi-deux à
(h-p-q) degré de liberté. Donc nous rejetons l’hypothèse de bruit blanc, au seuil
, si les statistiques Q et Q’ sont supérieur à khi-deux lu dans la table (1-) et
(h-p-q) ddl.
22
Chapitre III : La prévision :
Ce qui sera intéressant dans cette section c’est la première source d’erreurs
qu’on va traiter.
Dans lequel les t sont i.i.d (0,²) et la forme la plus pratique s’écrit comme
suit :
yt = (1- ) µ + yt-1 + t
Dans tout ce qui suit, nous supposons qu’on dispose de valeurs observées de y
pour la période allant de 1 à n, et que toutes les prévisions sont faites
conditionnellement à l’information disponible à l’instant n. Ainsi que :
Yn+s = valeur inconnu de y à la période futur n+s
Ŷ n+s = prévision de la valeur yn+s faite sur la base de l’information
disponible à n
en+s = yn+s – ýn+s = erreur de prévision
Considérons la prévision de yn+1 pour le processus AR (1), la vraie valeur est
donnée par yn+1 = (1- ) µ + yn + t+1
Estimée par
Ŷ n+1 = E (yn+1 / yn) = (1- ) µ + yn
D’où
Ŷ n+1 - µ = (yn - µ)
ŷ n+s - µ = s (yn - µ)
22
3-2 : Prévision du processus MA (1) :
22
Dans la pratique le modèle BOX-JENKINS est bien plus complexe. il incorpore
également un trend et une composante saisonnière, et il est connu sous le nom
SARIMA il peut être utiliser à des fins prévisionnelles une fois que les paramètres sont
estimés.
Yt = (B) t
Yt = Tj=1 j t-J
La somme Tj=1 L+j t-J contient l’information passée jusqu’à la date t incluse. Il
va de soi que la prévision Ŷt (L) ne peut s’appuyer que sur l’information
disponible à la date t :
22
En s’appuyant sur Ŷt (1) ; Ŷt (2)…Et ainsi de suite jusqu'à atteindre l’horizon
final L pour lequel la prévision s’écrit
PARTIE IV : Application
22
DATE. Fit for ventes 95% LCL 95% UCL SE of Fit
1 AUG 1982 3716.13 3319.22 4113.04 196.53
2 SEP 1982 4763.13 4340.43 5185.82 209.30
3 OCT 1982 5204.13 4757.13 5651.12 221.34
4 NOV 1982 4750.13 4280.09 5220.17 232.75
5 DEC 1982 4718.13 4226.12 5210.14 243.62
Modèle MA(1) :
22
Amélioration du modèle MA(1)
wt bt bt 1
bt at at 12 , où at bruit blanc
De
wt (1 B )bt et bt (1 B12 )at
22
On déduit :
wt (1 B )(1 B12 )at
Demande SPSS
Résultats
wt (1 B )(1 B )at 12
22
Residual Diagnostics
Number of Residuals 42
Number of Parameters 2
Residual df 39
Adjusted Residual
1268226.611
Sum of Squares
Residual Sum of Squares 1336414.106
Residual Variance 25544.245
Model Std. Error 159.826
Log-Likelihood -276.531
Akaike's Information
559.062
Criterion (AIC)
Schwarz's Bayesian
564.275
Criterion (BIC)
Parameter Estimates
Non-Seasonal Seasonal
Lags Lags
MA1 Seasonal MA1 Constant
Estimates .715 .765 -11.468
Std Error .107 .399 5.219
t 6.693 1.918 -2.197
Approx Sig .000 .062 .034
Melard's algorithm was used for estimation.
22
Étude de la voie autorégressive
22
On choisit les paramètres, 1,…,14 et 2 à l’aide de la méthode du maximum
de vraisemblance.
Résultats
Residual Diagnostics
Number of Residuals 42
Number of Parameters 14
Residual df 27
Adjusted Residual Sum of
949178.0
Squares
Residual Sum of Squares 1041062
Residual Variance 28699.741
Model Std. Error 169.410
Log-Likelihood -270.689
Akaike's Information
571.379
Criterion (AIC)
Schwarz's Bayesian
597.444
Criterion (BIC)
22
Parameter Estimates
22
Demande SPSS
Résultats
22
Residual Diagnostics
Number of Residuals 42
Number of
5
Parameters
Residual df 36
Adjusted Residual
1093774.600
Sum of Squares
Residual Sum of
1192109.813
Squares
Residual Variance 25711.840
Model Std. Error 160.349
Log-Likelihood -273.114
Akaike's Information
558.228
Criterion (AIC)
Schwarz's Bayesian
568.654
Criterion (BIC)
Parameter Estimates
22
Modèle AR : p = (1, 2,12,13,14) sans constante
Demande SPSS
Résultats
22
Re sidua l Dia gnostics
Number of
42
Residuals
Number of
5
Parameters
Residual df 37
Adjusted Residual
1172013
Sum of Squares
Residual Sum of
1233379
Squares
Residual Variance 27877.941
Model Std. Error 166.967
Log-Likelihood -274.563
Akaike's Information
559.127
Criterion (AIC)
Schwarz's Bayesian
567.815
Criterion (BIC)
Parameter Estimates
22
Modèle AR : p = 2, P = 1 avec constante
(1 1 B 2 B 2 )(1 B12 ) wt at
Demande SPSS
Résultats
(1 1 B 2 B )(1 B ) wt at
2 12
22
Residual Diagnostics
Number of
42
Residuals
Number of
3
Parameters
Residual df 38
Adjusted Residual
1196121
Sum of Squares
Residual Sum of
1286077
Squares
Residual Variance 27725.190
Model Std. Error 166.509
Log-Likelihood -274.998
Akaike's Information
557.997
Criterion (AIC)
Schwarz's Bayesian
564.948
Criterion (BIC)
Parameter Estimates
22
Modèle AR : p = 2, P = 1 sans constante
(1 1 B 2 B 2 )(1 B12 ) wt at
Demande SPSS
22
Résultats
(1 1 B 2 B 2 )(1 B12 ) wt at
Residual Diagnostics
Number of
42
Residuals
Number of
3
Parameters
Residual df 39
Adjusted Residual
1256636
Sum of Squares
Residual Sum of
1315334
Squares
Residual Variance 29246.908
Model Std. Error 171.017
Log-Likelihood -276.033
Akaike's Information
558.066
Criterion (AIC)
Schwarz's Bayesian
563.279
Criterion (BIC)
Parameter Estimates
22
22
Bibliographie
22