Poly Regression Non Parametrique Hurlin

MASTER ECONOMETRIE ET
STATISTIQUE APPLIQUEE (ESA)

Université d’Orléans
Econométrie et Statistique Non

Paramétrique (Partie II)
Régressions Non Paramétriques Univariées
Christophe Hurlin
Année Universitaire 2007-2008
Master Econométrie et Statistique Appliquée (ESA)

Université d’Orléans
Faculté de Droit, d’Economie et de Gestion
Bureau A 224
Rue de Blois – BP 6739
45067 Orléans Cedex 2
www.univ-orleans.fr/deg/masters/ESA/
October 10, 2007
Contents
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Principe d’Estimations Non Paramétriques . . . . . . . . . . . . . . . . 2
3 Régressions Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 Régression avec lissage par moyenne mobile . . . . . . . . . . . . 4
3.1.1 Etude de la convergence en probabilité . . . . . . . . . . . 6
3.1.2 Etude de la convergence en distribution et intervalles de
con…ance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Régression avec lissage par opérateur à noyau ou régression kernel 9
3.2.1 Etude de la convergence en probabilité . . . . . . . . . . . 11
3.2.2 Etude de la convergence en loi et intervalles de con…ance . 12
3.3 Sélection du paramètre de lissage dans la régression Kernel . . . . 14
3.3.1 Critère de la MISE et approche GCV . . . . . . . . . . . . 16
3.3.2 Critère de l’AMISE . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Estimation d’une fonction de densité . . . . . . . . . . . . . . . . 18
3.4.1 Procédure UNIVARIATE . . . . . . . . . . . . . . . . . . 20
3.4.2 Procédure KDE . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.3 Procedure SAS INSIGHT . . . . . . . . . . . . . . . . . . 26
3.5 Regressions Kernel : Applications SAS INSIGTH . . . . . . . . . 28
4 Régressions locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1 Régression locale : LOESS et LOWESS regressions . . . . . . . . 30
4.2 Procédure LOESS . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2.1 Sorties graphiques . . . . . . . . . . . . . . . . . . . . . . 39
4.2.2 Sélection du paramètre de lissage . . . . . . . . . . . . . . 40
4.2.3 Autres options de la procédure LOESS . . . . . . . . . . . 45
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 1
1. Introduction
La régression non paramétrique a longtemps été opposée à la régression économétrique
usuelle. En e¤et, dans l’esprit des travaux de la Cowles Commission, cette
dernière est généralement fondée sur une spéci…cation issue de la théorie économique
et peut se ramener à une forme explicite dépendant d’un nombre …ni de paramètres
que l’on cherche ensuite à estimer par la méthode la plus appropriée (maximum de
vraisemeblance, MCO, GMM etc..). A l’inverse, la régression non paramétrique
est une régression "sans modèle", au sens où comme nous allons le voir, on
cherche à estimer la fonction de lien caractérisant la relation entre deux vari-
ables économiques. C’est donc une régression "a-théorique" (au sens de la théorie
économique) par opposition à la régression paramétrique usuelle, censée découler
de l”estimation d’une forme réduite d’un modèle théorique.
Historiquement,le principe des régressions non paramétriques remonte au 19eme

siècle selon Cleveland and Loader (1995), toutefois les premiers travaux mod-
ernes sur ce sujet datent des années 50. La première application que nous verrons
relève de l’estimation de fonctions de densité par des méthodes d’opérateur à
noyau (kernel) avec les travaux fondateurs de Rosenblatt (1956) et de Parzen
(1962). Ces premiers tarvaux ont été éténdus à la notion de régression ker-
nel, imparfaitement traduit en français par le terme de régression avec lissage par
opérateur à noyau. Dans ce domaine, on identi…e deux papiers fondateurs publiés
la même année : Nadaraya (1964) et Watson (1964). En…n, la régression
local polynomiale, plus récente Cleveland et Devlin (1988) constitue une
généralisation de ces méthodes.
Le présent cours ne portera que sur les régressions non paramétriques uni-
variées. Pour les régressions multivariées, nous revoyons le lecteur à l’ouvrage
de référence de Yatchev (2003). Dans ce cours nous présenterons tout d’abord
les grands principes de la régression non paramétrique. Dans une seconde sec-
tion, nous étudierons la regression non paramétrique kernel. Dans ce cadre nous
étudierons comme un cas particulier, le principe de l’estimation kernel d’une den-
sité. En…n, dans une troisième section nous étudierons la régression locale poly-
nomiale et plus spéci…quement les regressions de type LOESS et la LOWESS.
Toutes les applications se feront sur le logiciel SAS à, partir des procédures
UNIVARIATE (estimation kernel de densité), KDE (estimation kernel de den-
sité), SAS INSIGHT (estimation kernel de densité, regression kernel et regression

locale polynomiale) et LOESS (regression locale polynomiale).
2. Principe d’Estimations Non Paramétriques

Lorsque l’on souhaite décrire l’in‡uence d’une variable quantitative sur un éven-
ement en faisant le moins d’hypothèse possible sur la forme de la relation, on
distingue deux approches1 :
L’approche de la régression paramétrique
L’approche de la régression non-paramétrique
Comme on le sait le but d’un modèle de régression consiste à déterminer la

façon dont l’espérance d’une variable dépendante Y dépend d’un ensemble de
variables explicatives X: Supposons pour simpli…er que X 2 R: Le problème
consiste donc à déterminer pour chaque réalisation de la variable x; la valeur de
la fonction f (x), dite fonction de lien.
De…nition 2.1. On appelle fonction de lien, la fonction f (x) qui a toute réali-
sation x de la variable explicative X associe la quantité :
E (Y j X = x) = f (x) (2.1)
Pour caractériser cette fonction de lien, la première approche consiste à utiliser

un modèle de régression paramétrique. On suppose que cette fonction peut
s’écrire comme une fonction explicite des valeurs de X: Cette fonction peut
être linéaire, logarithmique, non-linéaire etc. Par exemple, dans le cas linéaire on
postule que :
E (Y j X = x) = + x (2.2)
On cherche alors à déterminer les meilleures valeurs de et compte tenu d’un
critère, par exemple celui de la MSE.
De…nition 2.2. Dans un modèle de régression paramétrique, la fonction de lien

est (i) de forme explicite et (ii) peut s’écrire en fonction d’un nombre réduit de
paramètres. Exemple :
E (Y j X = x) = f (x; ) (2.3)
où f (:) est connue avec 2 RK :
1
Nous n’évoquerons pas dans ce cours l’approche dite semi-paramétrique, généralement
réservée aux modèles de régression multivariée.
L’exemple typique est celui d’un modèle linéaire, où l’on postule que :
E (Y j X = x) = + x = f (x; ; ) (2.4)
On sait qu’à partir de ce type de modèle, on dispose :
1. D’une mesure synthétique du lien qui lie X à Y qui peut être notamment
confrontée à une théorie économique (tests de spéci…cation, approche
à la Cowles Commission).
2. D’écarts type et d’intervalle de con…ance associés aux paramètres

et aux valeurs prévues de la variable Y
3. De tests simples (inférence) à mettre en oeuvre sur la valeur des paramètres

du modèle.
Au contraire, on peut retenir une approche non paramétrique dans laquelle on

va estimer la relation entre le niveau moyen de Y et toutes les valeurs
réalisées de X: On ne postule aucune forme spéci…que sur la fonction de lien.
De…nition 2.3. Dans un modèle de régression non-paramétrique, la fonction

de lien (i) n’a pas de forme explicite et (ii) ne pas peut s’écrire en fonction d’un
nombre réduit de paramètres.
E (Y j X = x) = f (x) (2.5)
Le principal avantage (ou inconvénient suivant le point de vue adopté) de

cette approche c’est qu’elle ne nécessite aucune hypothèse a priori sur la forme
du lien entre X et Y: On a donc une approche a-théorique, encore plus générale
que celle développée par exemple dans le cadre des modèles VAR de Sims (1980).
Avec une approche non paramétrique, on aboutit à :
1. une représentation graphique de la relation entre X et Y:
2. Il n’existe pas de forme analytique de la fonction de lien f (x) :
Tout le problème consiste alors à estimer cette fonction de lien f (x),

qui est a priori inconnue, et non plus uniquement les paramètres de
cette fonction comme c’est le cas dans l’approche paramétrique stan-

dard2 . Pour cela, il existe deux grandes familles de méthodes de régression non
paramétriques :
1. La régression kernel (Nadaraya, 1964; Watson, 1964)
2. La régression locale polynomiale (Cleveland, 1979; Cleveland et Devlin,

1988)
Nous commencerons par présenter le principe de la régression kernel.
3. Régressions Kernel
Le principe de la régression kernel repose en fait sur des méthodes de lissage.
A…n de bien comprendre le principe d’une régression kernel ou régression par
lissage par opérateur à Noyau, nous commencerons par exposer le principe de la
régression avec lissage par moyenne mobile. Une fois que l’on aura démontré un
certain nombre de résultats dans ce cas simple, nous nous contenterons d’énoncer
plusieurs résultats dans le cas de la régression kernel.
3.1. Régression avec lissage par moyenne mobile

Admettons que le ”vrai”modèle de l’économie s’écrive sous la forme :
yi = f (xi ) + "i i = 1; ::; N (3.1)
où "i est un bruit blanc avec E ("i ) = 0 et E ("2i ) = 2" . On suppose que la fonction
f (:) est inconnue et l’on se propose d’estimer cette fonction par une méthode
de lissage par moyenne mobile (MA). L’idée consiste tout simplement à
appliquer une moyenne mobile aux valeurs de Y pour obtenir un estimateur de
la fonction de lien.
De…nition 3.1. L’estimateur de la fonction de lien par moyenne mobile s’écrit

sous la forme suivante :
fb(xi ) = Y j xj 2V (3.2)
k;xi
où Vk;x désigne un voisinage de xi dé…ni par les k individus ayant les valeurs de
X les plus proches de xi :
2
On peut en e¤et faire le reproche aux économistes - économètres d’être prétentieux au
point de prétendre connaître le modèle, c’est à dire la forme de la fonction de lien f (x; ), et
de simplement prétendre ignorer uniquement la valeur des paramètres. Mais c’est précisèment
tout l’intérêt d’une démarche à la Cowles Commission que de partir de la théorie économique
pour aider à la spéci…cation d’un modèle et d’une forme réduite (fonction de lien).
On peut donner une autre dé…nition de cette fonction de lien.
De…nition 3.2. Supposons que les observations xi sont ordonnées de façon crois-
sante x1 x2 :: xN et que k est un entier impair, alors :
1X
i
fb(xi ) = yj (3.3)
k j=i
où l’on a i = i (k 1) =2 et i = i + (k 1) =2:
Considérons l’exemple suivant. On suppose que l’on dispose d’un échantillon

de N = 5 couples de valeurs (x; y) telles que
f(3; 7) ; (2; 4) ; (6; 16) ; (7; 19) ; (9; 25)g : Les valeurs classées sont alors dé…nies
de la façon suivante :
x1 x2 x3 x4 x5
2 3 6 7 9
y1 y2 y3 y4 y5
4 7 16 19 25
Si l’on suppose que la taille de la fenêtre k = 3; alors on peut calculer 3

estimations de la fonction f (x) aux points x = f3; 6; 7g : On obtient ainsi :
1
fb(x2 ) = fb(3) = (4 + 7 + 16) = 9 (3.4)
3
1
fb(x3 ) = fb(6) = (7 + 16 + 19) = 14 (3.5)
3
1
fb(x4 ) = fb(7) = (16 + 19 + 25) = 20 (3.6)
3
De façon générale, l’estimateur MA de la focntion de lien peut s’écrire sous la

forme :
1X 1X
i i
fb(xi ) = f (xj ) + "j (3.7)
k j=i k j=i
Etudions la convergence de cet estimateur. Pour cela, nous étudierons suc-

cessivement :
1. la convergence en probabilité de fb(xi )
2. la convergence en loi de fb(xi ) a…n d’en déduire des intervalles de

con…ance sur f (xi ) :
3.1.1. Etude de la convergence en probabilité

Considèrons l’écriture suivante :
1X 1X
i i
fb(xi ) = f (xj ) + "j (3.8)
k j=i k j=i
Utilisons une décomposition en séries de Taylor à l’ordre 2 de la fonction f (xj )

autour du point de référence xi . Il vient ; 8j = 1; ::; N :
0
f 0 (xi )
0
f (xj ) = f (xi ) + f (xi ) (xj xi ) + (xj xi )2 + o (xj xi )2
2
0
f 0 (xi )
' f (xi ) + f 0 (xi ) (xj xi ) + (xj xi )2 (3.9)
2
On obtient alors :
1 Xh i 1X
i i
fb(xi ) '
00 2
f (xi ) + f 0 (xi ) (xj xi ) + f (xi ) (xj xi ) + "j
k j=i k j=i
f 0 (xi ) X f (xi ) X 1X
i 00 i i
2
' f (xi ) + (xj xi ) + (xj xi ) + "j
k j=i 2k j=i k j=i
Or, on sait que si les k valeurs xj sont choisies de façon symétrique par rapport
à la valeur pivotale xi on a :
X
i
(xj xi ) = 0 (3.10)
j=i
De plus, on peut montrer que si les xi sont équi-réparties sur un intervale unitaire
:
1 X
i 2
1 (k 2 1) 1 k
(xj xi )2 = ' (3.11)
2k j=i 24 N 2 24 N
On en déduit donc …nalement que :
1X
2 i
1 k
fb(xi ) ' f (xi ) + f (xi )
00
+ "j (3.12)
24 N k j=i
Le dernier terme est une somme de k termes indépendants et indentiquement

distribués dès lors, de variance …nie 2" =k; par conséquent on obtient le résultat
suivant.
Résultat L’estimateur MA de la fonction de lien f (xi ) 8i = 1; ::; N , noté

fb(xi ) ; est tel que :
2
k 1
fb(xi ) = f (xi ) + O + Op (3.13)
N k 1=2
Par conséquent, l’erreur quadratique moyenne véri…e :

h i2 k
4
1
E fb(xi ) f (xi ) = O + Op (3.14)
N k
On sait dès lors que le biais de l’estimateur est dé…ni par :
1X
2 i
1 k
fb(xi )
00
f (xi ) ' f (xi ) + "j (3.15)
24 N k j=i
et que la variance de fb(xi ) est approximativement égale à :

0 1 2 3
h i 1 X i
1 Xi
k 2 2
var fb(xi ) = var @ "j A = 2 4 var ("j )5 = 2" = " (3.16)
k j=i k j=i
k k
On en tire la conséquence suivante :

h i
lim E fb(xi ) f (xi ) = 0 (3.17)
k=N !0
h i
lim V ar fb(xi ) f (xi ) = 0 (3.18)
k!1
De ces deux propriétés, on déduit immédiatement que :

fb(xi ) ; n’est convergent que si conjointement k=N ! 0 et k ! 1 :
p k
fb(xi ) ! f (xi ) 8i = 1; ::; N; ! 0 et k ! 1 (3.19)
N
L’estimateur MA n’est donc pas un bon estimateur, puisque que

pour qu’il soit convergent il faut à la fois une très large fenêtre et
que cette fenêtre ne représente qu’une part in…me des observations de
l’échantillon. Toute l’idée de la régression kernel consistera à améliorer cette
propriété a…n d’obtenir un estimateur qui converge dès lors "simplement" que la
taille de l’échantillon N est "grande".
3.1.2. Etude de la convergence en distribution et intervalles de con…-

ance
Considérons l’écriture suivante :
1X
2 i
1 k
fb(xi ) ' f (xi ) + f (xi )
00
+ "j (3.20)
24 N k j=i
Si le nombre de points de la MA, c’est à dire k; augmente avec N , alors par un

théorème central limite, on montre d’après le Théorème Centrale Limite (TCL)
que le terme de droite est asymptotiquement distribué selon une loi normale de
moyenne nulle et de variance …nie telle que :
0 1
p 1 Xi
D
k@ "j A ! N 0; 2" (3.21)
k j=i N !1
Par conséquent, on en déduit que la quantité :

" #
p 2
1 k
k fb(xi ) f (xi )
00
f (xi ) (3.22)
24 N
converge asymptotiquement vers une loi normale.

fb(xi ) ; véri…e:
" #
p 2
1 k d
k fb(xi ) f (xi )
00
f (xi ) ! N 0; 2" (3.23)
24 N
Tout le problème est que cette propriété ne permet pas de construire

un intervalle de con…ance sur f (xi ) ; puisque par dé…nition la quantité
00
f (xi ) est inconnue. On doit donc chercher une taille de fenêtre qui croît avec
la taille N de l’échantillon et dont la vitesse de convergence "annule" le terme
k 2 00
N
f (xi ) :
Supposons que la taille de la fenêtre véri…e la propriété suivante :
k = k (N ) = N (3.24)
Comment …xer la valeur de de sorte à "annuler" asymptotiquement le terme

k 2 00 00
N
f (xi ) qui dépend de la quantité (…nie) inconnue f (xi ) ? Supposons que
l’on …xe = 4=5, c’est à dire que k = N 4=5 alors
p 2
k 2 1 2
k = N5 N 5 =1 (3.25)
N
La construction d’un IC est alors rendue impossible par la présence du terme

00
f (xi ) : En revanche, si k croît plus lentement que N 4=5 ; c’est à dire si < 4=5;
alors ce terme s’annule asymptotiquement. Par exemple si K = N 3=4 ; alors
p 2
k 3
2=4 1
lim k = lim N 8 N = lim N 8 =0
N !1 N N !1 N !1
Dans ce cas, on montre alors immédiatement que :

p h i
D
k fb(xi ) f (xi ) ! N 0; 2" 8i = 1; ::; N (3.26)
N !1
L’idée est la suivante : si l’on rajoute des observations, on en retient relative-

ment moins dans la fenêtre pour leur permettre de se concentrer autour du point
d’estimation xi :
Résultat Si la fenêtre k est telle que lim kN 4=5 = 0; alors l’estimateur MA de

la fonction de lien f (xi ) 8i = 1; ::; N , noté fb(xi ) ; véri…e :
p h i
D
k fb(xi ) f (xi ) ! N 0; 2" 8i = 1; ::; N (3.27)
N !1
De ce résultat, on déduit les intervalles de con…ance sur f (xi ) :
De…nition 3.3. Si la fenêtre k est telle que lim kN 4=5 = 0; un intervalle de

con…ance au seuil % sur la valeur de f (xi ) pour tous les points x1 ; x2 ; ::; xN est
donné par :
IC = fb(xi ) C1 =2 p ; fb(xi ) + C1 =2 p
" "
(3.28)
k k
où C1 =2 désigne le fractile de la loi N (0; 1) :
Nous allons à présent énoncer directement les résultats concernant la régres-

sion kernel qui pour l’essentiel ressemblent, dans l’esprit, à ceux que nous venons
de démontrer dans le cas de la régression MA.
3.2. Régression avec lissage par opérateur à noyau ou régression kernel

Comme dans la partie précédente, on cherche à estimer la fonction de lien f (xi )
en tout point x1 ; x2 ; :; xN : Pour cela nous allons à présent utiliser le lissage par
opérateur à noyau ou kernel smoother (Nadaraya, 1964 et Watson,1964).
De…nition 3.4. L’estimateur à noyau (kernel estimate) de la fonction de lien

évaluée au point x0 , noté fb(x0 ) ; est dé…ni par :
X
N
fb(x0 ) = wi (x0 ) yi (3.29)
i=1
avec :
xi x0
K
wi (x0 ) = PN xi x0
(3.30)
i=1 K
où K (:) désigne une fonction kernel, > 0 un paramètre de lissage (bandwidth

parameter) et N la taille de l’échantillon utilisé pour l’estimation.
On peut faire ici plusieurs remarques :
Remarque 1 La fonction de lien évaluée au point x0 est donc dé…nie comme

une somme pondérée des observations yi dont les poids wi (x0 ) dépendent
de x0 :
Remarque 2 La fonction wi (x0 ) ou w (x0 ; xi ) dé…nit le poids qui doit être at-
tribué au couple d’observations (xi ; yi ) dans la valeur de la fonction de lien
évaluée au point d’abscisse x0 : Généralement, plus les points xi sont proches
de x0 ; plus le poids sera important : w (x0 ; xi ) est donc décroissante dans
la distance jx0 xi j:
Ces poids dépendent de fonction kernel (ou opérateur à noyau) qui correspon-
dent tout simplement à des fonctions de densité de probabilité.
De…nition 3.5. Une fonction kernel K xi x0 = K (u) véri…ent les propriétés

suivantes :
(i) K (u) 0
(ii) K (u) est normalisé de sorte que
Z
K (u) du = 1 (3.31)
(iii) K (u) atteint son maximum en 0 lorsque xi = x0 et décroît avec la distance

jx0 xi j:
(iv) K (u) est symétrique : le kernel ne dépende que de la distance jx0 xi j et
non du signe de x0 xi :
Di¤érentes fonctions kernel peuvent être utilisées :

1
Uniforme : K (u) = u 2 [ 1; 1] (3.32)
2
Triangulaire : K (u) = 1 juj u 2 [ 1; 1] (3.33)
15 2
Quartic ou BiWeight : K (u) = 1 u2 u 2 [ 1; 1] (3.34)
16
3
Epanechnikov : K (u) = 1 u2 u 2 [ 1; 1] (3.35)
4
35 3
Triweight : K (u) = 1 u2 u 2 [ 1; 1] (3.36)
32
1 1 2
Normal : K (u) = p exp u u 2 [ 1; 1] (3.37)
2 2
Remarque On montre qu’en pratique le choix de la fonction kernel n’in‡uence
que peu les résultats d’estimation. La seule exception notable étant liée à
l’utilisation d’une fonction kernel uniforme qui peut donner des résultats
sensiblement di¤érents des autres kernel.
En…n, les poids wi (x0 ) dépendent en outre du paramètre de lissage qui

contrôle l’amplitude des poids.
Remarque Plus le paramètre de lissage (bandwidth parameter) est élevé, plus

l’on attribue un poids relativement important aux observations xi éloignées
du point de référence x0 dans la construction de f (x0 ) :
Nous verrons dans la section suivante comment choisir le bandwidth parame-

ter.
3.2.1. Etude de la convergence en probabilité

On admet le résultat suivant :
Proposition 3.6. L’estimateur à noyau de Nadaraya-Watson est convergent. Si

les variables X sont distribuées selon une loi de probabilité de densité p (x) ; le
numérateur converge vers f (x0 ) p (x0 ) et le dénominateur converge vers p (x0 ) :
p
fb(xi ) ! f (xi ) N !1 (3.38)
La grande di¤érence avec le cas de la régression MA, c’est que l’estimateur

kernel est convergent dès lors que N tend vers l’in…ni et non plus sous l’hypohèse
d’une condition sur la taille de la fenêtre.
3.2.2. Etude de la convergence en loi et intervalles de con…ance

De la même façon, on peut étudier la distribution de fb(xi ) pour construire un
IC sur f (xi ) : On admet le résultat suivant :
Proposition 3.7. L’estimateur à noyau de Nadaraya-Watson véri…e

p p 1 p0 (x0 ) d bK 2"
fb(x0 ) 2 00 0
N f (x0 ) aK f (x0 ) + 2f (x0 ) !N 0;
2 p (x0 ) p (x0 )
où p (:) désigne la densité de x et

Z Z
aK = u2 K (u) du bK = K (u)2 du (3.39)
Voir Wand et Jones (1995) pour les valeurs de aK et bK pour de nombreux

kernels. On admettra en particulier que :
1
Uniforme : bK =
2
2
Triangulaire : bK =
3
5
Quartic ou BiWeight : bK =
7
3
Epanechnikov : bK =
5
350
Triweight : bK =
429
1
Normal : bK = p (3.40)
2
Comme dans le cas MA, des simpli…cations peuvent être apportées
si la valeur de décroît avec N plus rapidement que = N 1=5 : Dans ce
cas, le terme de biais disparaît et donc on obtient le résultat suivant dans le cas
d’un kernel uniforme (bK = 1=2) :
p p h i 2
d
N fb(x0 ) f (x0 ) ! N 0; "
(3.41)
2p (x0 )
On peut donc en déduire la manière de construire des IC sur les valeurs de

f (xi ):
Proposition 3.8. Sous l’hypothèse que véri…e N1=5 ! 0, l’écart type de

l’estimateur à noyau de Nadaraya-Watson fb(x0 ) véri…e
p p h i
d bK 2"
b
N f (x0 ) f (x0 ) ! N 0;
p (x0 )
où p (:) désigne la densité de x et
Z
bK = K (u)2 du (3.42)
Un intervalle de con…ance sur fb(x0 ) au seuil de % est donc dé…ni par

h i
IC = fb(x0 ) C1 =2 sfb(x0 ) ; fb(xi ) + C1 =2 sfb(x0 ) (3.43)
où C1 =2 désigne le fractile de la loi N (0; 1) et où
s
bK b2"
sfb(x0 ) = (3.44)
pb (x0 )
avec
xi x0
pb (x0 ) = K
La procédure pour obtenir les IC est donc la suivante :

1. On choisit véri…e N 1=5 ! 0 et une fonction kernel K (u) ; d’où l’on
déduit bK :
2. On construit l’estimateur à noyau de Nadaraya-Watson fb(x0 ). On recom-

mence pour toutes les valeurs x1 ; ::; xN :
3. On calcule l’estimateur de la variance des résidus :

1 Xh i2
N
b2" = yi fb(xi )
N i=1
4. On estime la valeur de p (x0 ), densité de X au point x0 (cf. section sur

l’estimation des densités) par :
xi x0
pb (x0 ) = K (3.45)
5. On calcule l’intervalle sur fb(x0 ) au seuil dé…ni par :

2 s s 3
2 2
bK b " b bK b " 5
IC = 4fb(x0 ) C1 =2 ; f (xi ) + C1 =2 (3.46)
pb (x0 ) pb (x0 )
On recommence alors toute la procédure pour toutes les valeurs disponibles

de X, x1 ; ::; xN :
3.3. Sélection du paramètre de lissage dans la régression Kernel

Comment choisir le paramètre de lissage dans le cadre d’une régression kernel
? C’est sans doute le point le plus important de ce type de méthodes. rappelons
que pour certaines fonctions Kernel, les points xi qui sont distants de plus de
du point de référence x0 ne sont pas pris en compte dans le calcul de f (x0 ).
Exemple : dans le cas d’une fonction kernel Epanechnikov, on a

3
4
(1 u2 ) si u 2 [ 1; 1]
K (u) = (3.47)
0 sinon
avec u = (xi x0 ) n : Donc si jxi x0 j > ; alors u 2

= [ 1; 1] ; K (u) = 0 et
par conséquent wi (x0 ) = 0:
Pour les autres kernels (gaussien par exemple), le paramètre représente la

distance au delà de laquelle les observations xi ont un poids négligeable dans la
quantité wi (x0 ) :
Remarque De façon générale, représente le radius de la fenêtre de valeurs xi

autour de x0 prises en compte dans le calcul de m (x0 ) = f (x0 )
Cette fenêtre a donc une amplitude 2 :
De façon générale, il convient de retenir le principe suivant :
Proposition 3.9. Le choix du bandwidth parameter correspond à un

arbitrage variance / biais :
(i) Plus est élevé, plus la courbe fb(x) sera lisse. La variance de
l’estimation est limité, mais l’estimateur f (x) peut être fortement bi-
aisé.
(ii) Plus est faible, plus la courbe fb(x) est irrégulière. Les biais
d’estimation de f (x) sont faibles, mais la variance de fb(x) est très im-
portante.
Le choix de résulte donc d’un arbitrage biais versus variance, mais aussi
d’un arbitrage lissage / non lissage de f (x) :
Exemple 1 : supposons que l’on choisisse tel que ! 1: Dès lors, on a :
xi x0
lim K = K (0) 8xi (3.48)
!1
Ceci implique que les poids de tous les individus i dans le calcul de fb(x0 ) sont
strictement identiques et égaux à :
xi x0
K K (0) 1
lim wi (x0 ) = lim PN xi x0
= = (3.49)
!1 !1
i=1 K N K (0) N
Ainsi, l’estimateur de fb(x0 ) est dé…ni par :

PN 1 PN
lim fb(x0 ) = lim i=1 wi (x0 ) yi = yi = y (3.50)
!1 !1 N i=1
Ainsi si le paramùètre de lissage tend vers l’in…ni, pour tous les points de l’échantillon,
l’estimateur kernel correspond à la moyenne empirique y: La fonction de lien es-
timée correspond à une droite horizontale : la variance de fb(x) est nulle, mais le
biais est sans doute fort.
Exemple 2 : supposons au contraire que l’on choisisse tel que ! 0: Dès

lors, pour tous les points xj di¤érents du point xi de référénce :
xj xi
lim K = K ( 1) = 0 8j 6= i (3.51)
!0
En revanche, pour le point de référence xi on a :

xi xi
K = K (0) 8 (3.52)
Dès lors, pour tous les individus autres que l’individu de référence dans le calcul
de fb(xi ) , les poids wj (xi ) sont nuls :
xj xi
K
lim wj (xi ) = lim PN xj xi =0 8j 6= i (3.53)
j=1 K
!0 !0
En revanche, le poids de l’individu de référence xi véri…e :

xi xi
K
lim wi (xi ) = lim PN xj xi (3.54)
!0 !0
j=1 K
K (0)
= lim P xj xi xi xi
(3.55)
!0
j6=i K +K
K (0)
= =1 (3.56)
K (0)
Ainsi, l’estimateur de fb(x0 ) est dé…ni par :

P
lim fb(xi ) = lim j6=i wj (xi ) yj + lim wi (xi ) yi = yi (3.57)
!0 !0 !0
Ainsi si le paramùètre de lissage tend vers zéro, pour tous les points de l’échantillon,
l’estimateur kernel correspond exactement à l’observation yi : La fonction de lien
estimée passe exactement par tous les points de l’échantillon : la variance de fb(x)
est aussi grande que la variance de y, mais le biais est sans faible.
Toute la question est comment choisir une valeur optimale du paramètre de

lissage permettant d’arbitrer au mieux entre variance et biais.
3.3.1. Critère de la MISE et approche GCV

Il existe des procédure numériques de choix d’un optimal. La première méthode
consiste à choisir de sorte à minimiser la MISE (Mean Integrated Squared
Error). C’est la dé…nition même du paramètre de lissage optimale.
De…nition 3.10. La MISE (Mean Integrated Squared Error) associé à un paramètre

de lissage , correspond à la quantité :
Z h i2
MISE ( ) = E b
f (x; ) f (x) dx (3.58)
x
SAS considère une autre expression de la MISE faisant intervenir la variance

de l’estimateur :
Z h i2 Z h i
MISE ( ) = b
E f (x; ) f (x) dx + V ar fb(x; ) dx (3.59)
x x
La MISE correspond ainsi à la somme de l’intégrale des biais au carré et de

la variance de l’estimateur fb(x; ) : Dans l’absolu on cherche la valeur optimale
de telle que :
M ISE = ArgM inMISE ( )
f 2R +g
Le problème c’est que l’on ne connaît pas la quantité f (x) et que l’on ne
peut donc directement évaluer cette MISE. Donc on utilise une approche qui
asympotiquement nous donne une valeur proche de M ISE : l’approche de la
cross-validation function ou General Cross-Validation (GCV ):
On peut faire l’analogie avec la méthode simple qui consisterait à déterminer

la valeur de qui minimiserait la variance estimée des résidus.
1 Xh i2
N
b2" ( )= yi b
f (x; )
N i=1
Ce critère nous permettrait d’obtenir la valeur de telle que les données sont
parfaitement ajustées. En e¤et, si l’on cherche :
e = ArgM inb2 ( ) (3.60)

"
f 2R +g
on va alors aboutir au résultat e ! 0; puisque si le pareamètre de lissage tend

vers 0, alors nous avons vu que yi = fb(x; ) et donc b2" (0) = 0: Ce critère est
a priori sans intérêt, mais on peut considérer une légère variation connue sous le
nom de cross validation function.
De…nition 3.11. La Cross Validation Function est dé…nie par la quantité :
1 Xh i2
N
CV ( ) = yi b
f 1 (x; )
N i=1
La seule di¤érence avec le critère précédent réside dans l’utilisation de l’indice

b
f 1 : Cet indice signi…e que pour chaque i = 1; ::; N; la valeur de f (xi ) est obtenue
en enlevant la ieme observation xi: Le modèle est estimé sur toutes les autres
observations xj ; j 6= i; puis on estime la valeur de f (:) au point xi à partir
de cette régression. C’est cette valeur estimée (out of sample) qui …gure dans
la formule CV ( ) sous la notation fb 1 (x; ) : Pour chaque valeur de , CV( )
requiert l’estimation de N kernel.
Proposition 3.12. Soit CV la valeur de telle que :
CV = ArgM inCV ( ) (3.61)

f 2R +g
On peut montrer que :

p
M ISE ( CV ) ! M ISE ( M ISE ) (3.62)
N !1
L’utilisation de la fonction CV permet ainsi d’obtenir un estimateur du paramètre

optimal M ISE : Sous SAS, on peut utiliser cette valeur en précisant l’option
C=MISE.
3.3.2. Critère de l’AMISE

En…n, signalons que SAS utilise par défaut un autre critère pour dériver la valeur
optimale du bandwith parameter : il s’agit de l’AMISE.
De…nition 3.13. L’AMISE (Approximate Mean Integrated Squared Error) as-

socié à un paramètre de lissage , correspond à la quantité :
Z 2 Z Z
1 2 1
AMISE ( ) = 4 2
u K (u) du 00
f (x) dx + K (u)2 du
4 u x N u
(3.63)
ou de façon équivalent dans nos notations :
Z
1 4 2 bK
AMISE ( ) = aK f 00 (x)2 dx + (3.64)
4 x N
On reconnaît dans le terme de gauche un indicateur du lissage de la fonc-

tion estimée et dans le terme de droite un indicateur de la variance des résidus
(cf.distribution asymptotique de l’estimateur). Encore une fois, cette quantité
dépend de la fonction f (:) inconnue au travers de f 00 (x) : Mais on admet le ré-
sultat suivant :
= ArgM inAMISE ( ) ' M ISE (3.65)
f 2R +g
Nous verrons trois méthodes permettant de calculer l’AMISE et donc d’en

déduire un paramètre de lissage optimal.
SAS ne permet pas de contrôler directement le bandwidth parameter ; mais

une constante C dé…nie de la façon suivante.
De…nition 3.14. La donnée du paramètre de lissage (bandwidth parameter),

est équivalente à la donnée du paramètre lissé C (standardized bandwidth para-
meter) tel que :
1 1
= CQN 5 () C = N5 (3.66)
Q
où Q = Q3 Q1 désigne l’amplitude de l’interquartile (interquartile range).
Cette formulation de C permet de rendre la valeur du paramètre de lissage

indépendante de l’unité de X:
3.4. Estimation d’une fonction de densité

Naturellement le même type de méthode peut être utilisé pour estimer une fonc-
tion de densité à partir d’un N-échantillon de réalisation. Soit f (x) la fonction
de densité associée à la variable aléatoire X: Soit fxi gN
i=1 un échantillon de taille
N d’observations de cette variable X: On pourrait tout d’abord penser à es-
timer cette densité par un histogramme avec des classes très …nes. Considérons
Figure 3.1: Simulation et Histogramme
l’exemple suivant dans lequel on simule 50000 réalisations d’une variable aléatoire
de loi N (0; 1) :
Dans la procédure UNIVARIATE qui nous permet de grapher l’histogramme,
on sur-impose sur le graphique la fonction de densité d’une loi N (0; 1) : On ob-
serve que pour un découpage …n des classes, les sommets de classes peuvent
consituer des estimateurs des valeurs de la densité f (x) aux points correspon-
dants.
Toutefois, on préférera utiliser un estimateur de f (:) au point x0 obtenu par
lissage des sommets de classe dé…nis au voisinage de x0 : Voilà quel est le principe
de l’estimation par lissage. L’estimateur à noyau (kernel estimate) ne conduit
alors qu’à dé…nir une forme des poids à accorder aux di¤érents valeurs des som-
mets de classes obtenus pour des valeurs xi ; en fonction de la distance entre le
point de référence x0 et le point considéré dans le lissage xi :
De…nition 3.15. L’estimateur à noyau (kernel estimate) de la fonction de dens-

dité de la variable X évaluée au point x0 , noté fb(x0 ) ; est dé…ni par :
X
N
xi x0
fb(x0 ) = K (3.67)
i=1
où K (:) désigne une fonction kernel, un paramètre de lissage (bandwidth para-

meter) et N la taille de l’échantillon utilisé pour l’estimation.
Les règles pour déterminer la valeur du paramètre sont alors les mêmes que
celles évoquées précédemment. Comme précédemment, le choix du kernel n’a que
peu d’importance (cf. section précédente).
Figure 3.2: Histogramme 50000 Simulations d’une loi N (0; 1)
3.4.1. Procédure UNIVARIATE

La première façon d’obtenir l’estimateur à noyau de la densité de X aux points
x1 ; x2; ::xN consiste à utiliser la procédure UNIVARIATE avec l’option HISTOGRAM.
Pour cela, on spéci…e la syntaxe suivante :
HISTOGRAM [Nom Variable] K=NORMAL j QUADRATIC j TRIANGU-
LAR
Le fonction kernel par défaut est la fonction normale. La procédure SAS
permet alors de contrôler la valeur du bandwith parameter au travers de la
valeur de la constante C; (standardized bandwidth parameter) dé…nie par :
1
C= N5 (3.68)
Q
où Q désigne l’amplitude de l’interquartile (interquartile range). Trois solutions

sont alors possibles :
1. On peut …xer une valeur pour C (et donc ) Exemple : C=3.
2. On peut retenir la valeur de C qui minimise le crière AMISE( ) (par défaut)

ou le critère MISE( ) en posant C=MISE:
3. On peut spéci…er plusieurs valeurs de C : Exemple : C=3 2 5 ou C= 3

MISE 5
4. On peut utiliser di¤érentes valeurs de C associées à di¤érents kernel. Si

l’on …xe plus de valeurs de C que de choix de kernel les valeurs de C en
excès sont alors utilisées avec la dernière fonction kernel spéci…ée. Exemple
: kernel(c=1 2 3 k=normal quadratic). The …rst uses a normal kernel and
a bandwidth of 1, the second uses a quadratic kernel and a bandwidth of
2, and the third uses a quadratic kernel and a bandwidth of 3.
Exemple 1 : Estimation Kernel d’une densité d’une variable N (0; 1)

On estime la densité de la variable X à partir d’un kernel Quadratique. On
utilise un paramètre de lissage standardisé C dérivé de l’optimisation du MISE et
un autre éagl à 18. On observe sur le graphique de résultats que pour C = 18; la
densité estimée est très margement eloignée de la vraie densité de la loi normale
(courbe en bleue) ce qui met en lumière l’importance de ce paramètre de lissage
dans l’estimation de f (x) :
Figure 3.3: Estimation Kernel d’une Densité
Exemple 2 : Estimation Kernel de la distribution des rendements

de l’indice SP500
On reprend l’exemple du cours d’Econométrie pour la Finance du rendement
quotidien du SP500 sur la période du 03/07/1989 au 24/11/2003 :
rt = log (pt ) log (pt 1 ) = log (1 + Rt ) (3.69)

où Rt = (pt pt 1 ) =pt désigne la variation relative des prix. Le programme est
alors le suivant pour une fonction kernel de type Normal et un bandwidth optimal
au sens du critère de l’AMISE. On véri…e sur le graphique (3.6) que l’estimateur
”optimal” au sens de le l’AMISE (courbe rouge) ne correpond pas du tout à la
densité d’une loi normale, ce qui con…rme le rejet largement admis de l’hypothèse
d’une distribution normale des rendements …nanciers. On observe notamment des
e¤ets leptokurtiques à partir de l’estimateur à noyau, même si il convient de se
mé…er de la précision des estimateurs kernel concernant les queues de distribution.
Figure 3.4: Résultats d’Estimation Kernel d’une Fonction de Densité N (0; 1)
3.4.2. Procédure KDE

Les deux principaux inconvénients de la procédure UNIVARIATE sont les suiv-
ants : d’une part elle ne permet pas d’évaluer les intervalles de con…ance sur les
estimateurs de la densité, d’autre part elle ne permet pas d’obtenir des valeurs
estimées pour les di¤érentes fractiles qui peuvent être utiles par exemple dans
le cadre d’une application VaR. La procédure KDE (Kernel Density Esti-
mate) permet de palier à ces insu¢ sances. Elle permet de faire une estimation
d’une fonction de densité uniquement à partir d’une fonction kernel de type
normale :
1 X
N 2
b 1 xi x0
f (x0 ) = p exp (3.70)
2 i=1 2
Trois méthodes de détermination du bandwidth parameter sont proposées grâce
à l’option METHOD.
METHOD=SJPI, Sheather-Jones Plug In
METHOD=SNR, Simple Normal Reference
METHOD=SROT, Silverman’s rule of thumb
METHOD=OS, OverSmoothed
Figure 3.5: Estimation Kernel de la Distribution des Rendements du SP500
La méthode Sheather-Jones plug in (SJPI) est la méthode par défaut pour des
densités de variables univariées. Dans les cas 4, il s’agit de déterminer la valeur
de qui permet de minimiser le critère AMISE( ) :
= ArgM inAMISE ( ) (3.71)

f 2R +g
Pour le cas d’un Kernel normal, la valeur de sous l’hypothèse h ! 0 et N h !

1; est dé…nie par :
" #1=5
1
= p R (3.72)
2 2 N x (f 00 )2 dx
R
Naturellement, cette valeur est inconnue puisque la quantité x (f 00 )2 dx est
elle même inconnue. Pour approximer cette valeur optimale par rapport au critère
de l’AMISE, une méthode consiste à déterminer un point …xe de l’application :
0 11=5
R
B (x) dx C
=B
@
x C
A (3.73)
R 2 R 2
N x
fb00 dx x
x 2 (x) dx
où (x) désigne la fonction de densité de la loi normale. C’est la méthode

Sheather-Jones Plug In recommandée notamment par Jones, Marron et Sheater
(1996). La méthode dite Simple Normal Reference considte tout simplement à
déterminer f " (x) dans la formule (3.72) du optimal en postulant que la densité
f (x) correspond à la densité normale. On obtient alors :
1=5
4
SN R =b (3.74)
3N
Figure 3.6: Estimation Kernel de la Distribution des Rendements du SP500
où b désigne l’écart type de l’échantillon. La règle de Silverman, utilisée par

défaut dans d’autres logiciels (comme Eviews 4.0) détermine le bandwitdh para-
meter de la façon suivante :
0:9 Q3 Q1
SROT = min b; (3.75)
N 1=5 1:34
où Q3 et Q1 désignent les troisième et premier quartiles. En…n, la méthode dite
OverSmoothed, pose que :
1=5
1
OS = 3b p (3.76)
70N
Si l’on souhaite ajuster ces valeurs optimales, on peut utiliser un facteur mul-
tiplicatif (valeur par défaut égale à 1) en utilisant l’option BMW= Valeur.
= BMW
La syntaxe générale de cette procédure est la suivante :

PROC KDE DATA=[Nom de Fichier Entrée] OUT=[Nom du Fichier de
Sortie];
BY variables ;
FREQ variable ;
VAR variables ;
WEIGHT variable ;
Les options disponibles pour KDE sont les suivantes :
GRIDL=numlist speci…es the lower grid limits for the kernel density es-
timate. You should specify one number for univariate smoothing and two
numbers separated by a comma for bivariate smoothing. The default values
equal the minimum observed values of the variables.
GRIDU=numlist speci…es the upper grid limits for the kernel density
estimate. You should specify one number for univariate smoothing and two
numbers separated by a comma for bivariate smoothing. The default values
equal the maximum observed values of the variables.
NGRID=numlist ou NG=numlist speci…es the number of grid points as-

sociated with the variables in the VAR statement. You should specify one
number for univariate smoothing and two numbers separated by a comma
for bivariate smoothing. The default values are 401 when there is a single
VAR variable and 60 when there are two VAR variables.
PERCENTILES=numlist lists percentiles to be computed for each VAR

variable. The default percentiles are 0.5, 1, 2.5, 5, 10, 25, 50, 75, 90, 95,
97.5, 99, and 99.5.
OUT=SAS-data-set speci…es the output SAS data set containing the kernel
density estimate. This output data set contains the following variables:
variables you specify in the VAR statement, with values corresponding to
grid coordinates, density, with values equal to kernel density estimates
at the associated grid point and count, containing the number of original
observations contained in the bin corresponding to a grid point
Exemple 1 : Estimation d’une densité d’un échantillon de variables

N (0; 1)
Le programme suivant simule 50000 réalisation d’un variable aléatoire tirée
dans une loi normale N (0; 1) et estime la fonction de densité de cette variable à
partir de cet échantillon. Le graphique de la densité empirique est alors reporté.
Le …chier de résultat comporte tout d’abord les informations reportés sur
le graphique (3.8). On observe que par défaut la procédure KDE utilise un
estimateur Kernel de type normal avec une méthode de séléction du paramètre
de lissage de type Sheather-Jones Plug In. La densité sera évalué par défaut
Figure 3.7: Utilisation de la Procédure KDE
sur 401 points uniformément répartis entre les bornes du tirage, à savoir 4:097
et 3:8659. La valeur du coe¢ cient multiplicatif (égale à l’unité) implique que l’on
adopte la valeur par défaut retenue selon la méthode de sélection du poaramère
de lissage.
La suite des résultats est reportée sur la …gure (3.9). On y trouve la liste
des valeurs des fractiles pour les valeurs par défaut à savoir 0.5, 1, 2.5, 5, 10, 25,
50, 75, 90, 95, 97.5, 99, and 99.5. On véri…e que dans notre exemple, le fractile
à 2.5% correspond au fractile théorique de la loi normale, à savoir 1:95. On
véri…e sur le graphique (3.10) que la densité estimée est identique à cellle d’une
loi normale.
3.4.3. Procedure SAS INSIGHT

Pour estimer une fonction de densité, on peut en outre utiliser la procédure
SAS INSIGTH qui permet d’adopter un environnement convivial (au regard des
procédures SAS...) de programmation. La commande est simple est la suivante
PROC SAS INSIGHT DATA=[Nom du Fichier]; RUN;
Appliquons cette procédure aux données tirées dans une loi normale de l’exemple
précédent. On obtient alors, la sortie de la …gure (??). Dans le menu ANALYZE,
on choisit alors l’onglet DISTRIBUTION. Puis apparaît un écarn dans lequel on
choisit l’option METHOD, dans lequel on choisit DENSITY ESTIMATION.
On peut alors chosir la fonction kernel. Dans tous les cas le paramètre de
lissage optimale est optenu par la méthode de type AMISE (précoédure par défaut
Figure 3.8: Résultats de la Procédure KDE : 1ère Partie
de la procédure KDE). On a donc plus de choix au niveau du kernel, mais moins

de choix a priori sur la méthode de détermination du bandwidth parameter. On
obtient alors la valeur précise des paramètres de lissage et C; ainsi que les
quartiles Q3 et Q1 ; qui permettent de calculer Q = Q3 Q1 et ainsi de passer de
à C selmon la formule :
1 1
= CQN 5 () C = N5 (3.77)
Q
où Q = Q3 Q1 désigne l’amplitude de l’interquartile (interquartile range). Ainsi

dans le cas de la Kernel tringulaire le paramètre de lissage optimal au sens de
l’AMLISE est égal à 0:2931 ce qui correpond à un paramètre de lissage stan-
dardisé C = 1:9096; selon la formule :
1 0:2931 1
C= N5 = 50001 5 = 1:9906 (3.78)
Q 1:3360
car la di¤érence des quartiles Q3 Q1 est dans cet exemple égale à 1:3360 et
N = 50001 comme l’indique le tabelau en bas à droite de la sortie SAS INSIGHT
(…gure 3.13).
Figure 3.9: Résultats Procedure KDE (Partie II)
3.5. Regressions Kernel : Applications SAS INSIGTH

Les applications sous SAS di¤èrent suivant que l’on souhaite faire une régression
ou estimer une densité. Si l’on souhaite e¤ectuer une regression Kernel, on peut
aussi utiliser la procédure SAS INSIGTH :
PROC SAS INSIGHT DATA=[Nom du Fichier]; RUN;
Exemple 1 : Homicide à Toronto

On considère la relation entre le nombre d’homicides dans la mé tropole de
Tonroto entre 1960-1996 (variables HOM) et le la population de cette ville (vari-
able POP). Pour cela on utilise la procédure suivante :
On obtient alors une sortie similaire à la la …gure (??). Toutefois dans le
menu ANALYZE, on choisit alors l’onglet FIT. Puis on choisit la variable ex-
pliquée (HOM) et la variable explicative (POP). On clique alors sur l’onglket
OUTPUT pour faire apparaître une nouvelle fenêtre comme représentée sur la
…gure (3.15). On choisit alors l’onglet KERNEL (Normal CGV) pour Cross Val-
idation Function (voir sections précédentes). Pour régéler les options, on clique
laors sur NONPARAMETRIC CURVES (CGV):
Figure 3.10: Densité Estimée
Une nouvelle fenêtre (…gure 3.16) apparaît dans laquel on peut régler le choix
de la fonction kernel (KERNEL SMOOTHER) pour les poids des observations
dans la regression. SAS/INSIGHT permet de construire trois types de regressions
:
Locally-Weighted Mean
A Locally-Weighted Regression Line (LOESS; LOWESS et KERNEL)
A locally-weighted quadratic polynomial regression (LOESS; LOWESS)
On peut ainsi retrouver nos deux regressions :
1. Kernel regression avec l’option FIXED BANDWIDTH
2. Loess regression ou Lowess (voir section suivante) avec l’option LOESS.
A ce niveau une remarque importante est la suivante :
Remarque Un estimateur de régression locale avec un paramètre de lissgae …xe

(…xed bandwidth local mean estimator) est équivalent à un estimateur kernel.
Les résultats d’estimation pour trois kernel et une regression loess sont rprotés
sur la …gure (3.17).
On voit que la relation entre les homicides et la population est loin des d’être
linéaire (courbe rouge, polynôme de degré 1). En, e¤et, les estimateurs kernel
Figure 3.11: Procedure SAS INSIGTH : Distribution
quelle que soit le choix du kernel et la regression LOess donnent approximative-

ment la même chose. On véri…e en particulier l’existence d’une sorte d’asymptote
à droite de la relation. Aucune forme explicite de la relation n’est donnée, seuls
ces graphiques sont disponibles.
4. Régressions locales
Un des problèmes essentiels avec la régression kernel ou l’estimation de densité
par noyau réside dans le manque de robustesse de ces estimateurs pour
les valeurs extrêmes de X: Une solution alternative, plus robuste pour les
valeurs extrêmes consiste en l’utilisation de régressions locales.
4.1. Régression locale : LOESS et LOWESS regressions

On cherche à estimer la relation yi = f (xi ) + "i où la fonction f (xi ) est inconnue.
L’idée de la regression linéaire locale consiset à utiliser un modèle de régression
Figure 3.12: Estimation d’une Densité par SAS INSIGHT
dé…ni uniquement dans un voisinage du point x0 d’intérêt. Notons N (x0 ) ce

voisinage.
De…nition 4.1. Le principe général d’une régression locale est de posutuler que
la fonction de lien f (x0 ) évaluée au point x0 peut être approximée par la valeur
d’une fonction paramétrique évaluée localement au voisinage N (x0 ) du point de
référence x0 :
Par exemple, on peut penser approcimer f (x0 ) par son estimateur :
fb(x0 ) = b
a (x0 ) + bb (x0 ) x0 (4.1)
où les estimateurs des paramètres b a (x0 ) et bb (x0 ) sont déterminés par le pro-
gramme suivant :
n o X
b b
a (x0 ) ; b (x0 ) = ArgM in [yi a (x0 ) b (x0 ) xi ]2 (4.2)
fa(x0 );b(x0 )g
xi 2N (x0 )
Les paramètres du modèle linéaire varient suivant le point de réference. Dans ce

programme toutes les observations ont le même poids respectifs, mais on peut
Figure 3.13: Résultats d’Estimation SAS INSIGHT
naturellement envisgaer des variantes dans lesquelles les poids des observations
(xi ; yi ) diminue avec la distance entre xi et x0 suivant par exmple une fonction
kernel :
n o X xi x0
ba (x0 ) ; bb (x0 ) = ArgM in [yi a (x0 ) b (x0 ) xi ]2 K (4.3)
fa(x0 );b(x0 )g
xi 2N (x0 )
où désigne un paramètre de lissage. Voir Cleveland (1979) et Cleveland et

Devlin (1988). Pour les constructions d’intervalle de cn…ance voir Fan et Gijbels
(1996). Ces deux types de variantes correspondent aux deux cas :
1. La régression locale ou LOESS (LOcal rEgrESSion) de Cleveland

(1979).
2. La régression locale pondérée ou LOWESS (LOcally WEighted Scat-

terplot Smothing) de Cleveland et Devlin (1988).
Considérons le cas de la LOESS regression. La principale di¤érence avec

la régression kernel c’est que la valeur de f (x0 ) estimé&e n’est pas une
moyenne mais une valeur prévue par une droite de régression. Par contre
Figure 3.14: Kernel Regression
c’est une méthode qui requiert plus de temps de calcul : pour N observations on
doit faire N régressions.
De…nition 4.2. Dans le contexte de la LOESS regression, souvent on carac-

térise la voisinage de la variable x0 ; noté N (x0 ) ; par un rapport constant, appelé
smoothing parameter, quel que soit le point considéré :
dim [N (x0 )]
= 2 ]0; 1] 8x0 (4.4)
N
Si est trop faible, l’estimateur des paramètres a (x0 ) et b (x0 ) manque de pré-
cision car le voisinage est trop petit, si au contraire le voisinage couvre l’ensemble
des observations ( = 1) ; alors on retrouve la droite d’ajustement linéaire (modèle
de régression simple).
4.2. Procédure LOESS

La procédure SAS permettant de réaliser une régession de ce type est tout sim-
plement appellé LOESS. La syntaxe générale de la procédure est la suivante :
PROC LOESS <DATA=SAS-data-set> ;
MODEL dependents=regressors < / options > ;
ID variables ;
BY variables ;
WEIGHT variable ;
SCORE DATA=SAS-data
Exemple 1 : Application LOESS procedure.

On cherche à modléiser le lien entre le nombre d’homocides à Toronto et le la
population de ce centre urbain par une régression de type LOESS. Le graphique
reportant les homicides en fonction de la population est reproduit sur la …gure
(4.1). Le résultat de la procédure LOESS est reporté sur la …gure (4.2). On utilise
Figure 3.15: Kernel Regression : SAS INSIGHT
l’option details(OutputStatistics) a…n d’a¢ cher notamment les valeurs prévues

par la procédure de la fonction de lien.
Le résultat de la procédure LOESS est alors reproduit sur la …gure (4.3) et
la …gure (4.4). On véri…e que par défaut la procédure utilise une approximation
linéaire (degree =1 ) et un paramètre de lissage optimale au sens d’un critère
AIC égal à 0:66216. Sur la …gure (4.4) sont reportées un ensemble de valeurs
estimées de la fonction hom = f (pop) pour l’ensemble des 37 valeurs (Number
of Observations) de la variables pop. Pour chaque valeur est a¢ chée la valeur
estimée correspondante de hom = f (pop) et la vraie valeur réalisée de cette
variable hom. On peut ainsi caculer pour chaque valeur le résidu.
Un certain nombre de remarques doivent être faites à ce niveau sur l’utilisation
de la procédure SAS.
Remarque 1 Comme on le voit la fonction de lien f (x) n’est pas estimée pour
les N = 37 observations de la variable x; mais sur un sous ensemble de
valeurs, ici n = 14 observations.
En e¤et, SAS ne met pas en place l’etimation pour tous les N points sauf si
Figure 3.16: Régression Kernel : SAS INSIGHT (suite)
on le requiert avec l’option DIRECT. Dans le cas contraire (par défaut) SAS
n’estime le polynôme que sur un nombre restreint de points, puis réutilise le
même polynôme au voisinage de ce point. SAS utilise alors une procédure
de type kd tree pour diviser les valeurs de x en segments de sorte à ce que
les valeurs de f (x) correspondantes soient comprises dans des sgments de taille
identique (rectangular cells). Le point médian des segments de x détermine alors
le point x0 autour duquel la fonction de lien f (x0 ) sera estimée par le polynôme
a (x0 )+b (x0 ) x0 . Ce polynôme sera utilisé pour toutes les valeurs xi de ce segment,
en postulant :
fb(xi ) = a (x0 ) + b (x0 ) xi
Le nombre de valeurs de f (xi ) comprises dans chaque segment est reglé par le
paramètre dénommé bucket size, via l’option BUCKET=. Par défaut la valeur
de ce paramètre est égale à :
N
Bucket size = f loor (4.5)
5
Par exemple, dans notre exercice on a = 0:66216 et N = 37; d’où :
N 37 0:66216
= = 4:9 =) Bucket size = 4
5 5
Donc on regroupe les valeurs de la variable explicative pop dans des segments
tels que les valeurs ajustées de f (x) = hom correspondantes soient réparties dans
des segments de taille identiques comprenant au plus 4 valeurs. Il peut y avoir
plus de N=4 segments, dès lors que certains segments sur x peuvent contenir moins
de 4 valeurs. Dans le cas présent, la procédure identi…e 14 segments (Number
of Fitting Points) pour lequels on va considérer les 14 valeurs correpondantes
du point moyen :
popi 2 Ci ; i = 1; ; :; 14
Figure 3.17: Résultats d’Estimation Kernel et Loess : SAS INSIGHT
Pour une classe donnée Ci ; on estime un polynôme de degré un au point moyen

noté x0
n o X
a (pop0 ) ; bb (pop0 ) = ArgM in
b [yi a (pop0 ) b (pop0 ) popi ]2 (4.6)
fa(pop0 );b(pop0 )g pop 2C
i i
et l’on utilise ce polynôme pour estimer f (popi ) pour n’importe quel point popi
appartenant à ce segment Ci par interpolation des valeurs f (popj ) des valeurs
de popj connues sur ce segment. On peut alors choisir entre options pour la
méthode d’interpolation via l’option INTERP= : soit une interpolation linéaire
(par défaut), soit une interpolation cubique (CUBIC). On a donc les options
susivantes :
DEGREE= 1 j 2 sets the degree of the local polynomials to use for each
local regression. The valid values are 1 for local linear …tting or 2 for local
quadratic …tting, with 1 being the default.
DROPSQUARE=(variables) speci…es the quadratic monomials to ex-

clude from the local quadratic …ts. This option is ignored unless the DE-
GREE=2 option has been speci…ed. For example, model z=x y / degree=2
dropsquare=(y) uses the monomials 1, x, y, x2, and x y in performing the
local …tting.
Figure 4.1: Relation Population - Homicides
DIRECT speci…es that local least squares …ts are to be done at every
point in the input data set. When the direct option is not speci…ed, a
computationally faster method is used. This faster method performs local
…tting at vertices of a kd tree decomposition of the predictor space followed
by blending of the local polynomials to obtain a regression surface.
BUCKET=number speci…es the maximum number of points in the leaf

nodes of the kd tree. The default value used is s*n/5, where s is a smoothing
parameter speci…ed using the SMOOTH= option and n is the number of
observations being used in the current BY group. The BUCKET= option
is ignored if the DIRECT option is speci…ed.
INTERP= LINEAR j CUBIC The INTERP= option speci…es the de-

gree of the interpolating polynomials used for blending local polynomial
…ts at the kd tree vertices. This option is ignored if the DIRECT option
is speci…ed in the model statement. INTERP=CUBIC is not supported for
models with more than two regressors. The default is INTERP=LINEAR.
Exemple 2 : On estime la relation entre les homicides et la population en

mode DIRECT c’est à dire pour chacun des points (…gure 4.5). Les résultats sont
reportés sur la …gure (4.6). On véri…e que la mention Number of Fitting Points a
disparu compartivement à la …gure (4.3), puisque la régression est évaluée pour
Figure 4.2: LOESS Procedure
Figure 4.3: LOESS Regression
chacune des N = 37 valeurs de la variable pop. De plus le paramètre de lissage

optimal est passé de 0.6616 à 0.7162. De mêm la mention BLENDING LINEAR
a disparu puisque qu’il n’y a pas d’interpolation entre les valeurs de pop:
Remarque 2 La procédure LOESS attribue des poids selon une fonction de type
tri-cubique en fonction de la distance au centre de classe.
Supposons que l’on ait q point au voisinage d’un point x0 et que l’on dnote
d1 ; d2 ; ::dq les distances par ordre croissant des q points du segment par rapport au
point de référence. Chaque observation xi se verra attribué un poids en fonction
de sa distance :
n o X
a (x0 ) ; bb (x0 ) = ArgM in
b [yi a (x0 ) b (x0 ) xi ]2 wi (4.7)
fa(x0 );b(x0 )g
xi 2N (x0 )
Figure 4.4: LOESS Regression
Figure 4.5: Estimation LOESS REGRESSION en mode Direct
" #
3 3
32 di
wi = 1 di = jxi x0 j (4.8)
5 dq
Si le paramètre de lissage > 1; tous les points sont pris en compte dans la
régression et le poids est alors dé…ni par :
1=p
wi = dq (4.9)
4.2.1. Sorties graphiques

La sortie des résultats se fait en utilisant une procédure de type ODS. On utilise
pour cela l’option ODS OUTPUT. On peut sortir deux types de résultats :
Figure 4.6: Estimation Regression LOESS en mode DIRECT
OutputStatistics = [Nom de …chier]
FitSummary = [Nom de …chier] contient les éléments de la table Fit

Summary
PredAtVertices= [Nom de …chier] contient les valeurs prévues aux points

d’estimation
Remarque Si l’on veut sortir les valeurs des résidus et des intervalles de con-
…ance sur les valeurs estimées, les options RESIDUAL et CLM sont néces-
saires dans la spéci…cation MODEL.
Exemple 2 : On estime la relation entre les homicides et la population pour

la valeur optimale du paramètre de lissage (…gure 4.5). On cherche ensuite à
grapher la relation estimée entre les variables homicides et populations pour ces
deux valeurs. Les résultats sont reportés sur la …gure (4.6).
Exemple 3 : On estime la relation entre les homicides et la population

pour des valeurs de 0:3; 0:4; 0:5 et de 0:6 du paramètre de lissage (…gure 4.9).
On cherche ensuite à grapher la relation estimée entre les variables homicides et
populations pour ces deux valeurs. Les résultats sont reportés sur la …gure (4.10)
avec 4 graphiques pour les quatre valeurs du paramètre de lissage : Dans ce cas
précis, l’allure générale de la relation est relativement peu senisble au choix de ,
mais cette observation est très loin d’être générale.
4.2.2. Sélection du paramètre de lissage

Sous SAS on peut tout d’abord utiliser l’option SMOOTH pour spéci…er un en-
semble de valeurs pour le paramètre de lissage pour lesquelles on estimera la
Figure 4.7: Estimation LOESS Regression : optimal
régression. En l’absence de critère de selection le modèle sera estimé pour cha-

cune des valeurs retenues. C’est ce que nous avons vu dans la section précédente.
On peut en outre utiliser un critère de sélection du paramètre de lissage optimal.
Ces critères d’information sont toujours de la forme suivante :
Critère = log b2" + (L)
où b2" désigne un estimateur de la variance moyenne des résidus et où (:) désigne
une fonction de pénalité construite de sorte à être croissante avec l’aspect lisse
de la composante ajustée fb(x) : On a donc un arbitrage traditionnel entre la la
variance des résidus et la variance de la composante ajustée ou …t. Soit la matrice
de lissgae L telle que :
yb = fb(x) = Ly (4.10)
Un de ces critères est le critère d’Akaike corrigé pour les petits échantillons
qui staisfait alors la dé…nition suivante :
De…nition 4.3. Le critère d’information d’Akaike corrigé AICC est dé…ni par
la relation :
2N
AICC = N log b2" + (4.11)
(N 1)
Un autre critère d’Akaike corrigé est en outre proposé :
De…nition 4.4. Le critère d’information d’Akaike corrigé ou AICC1 d’Hurvich,
Simono¤, et Tsai (1998) est dé…ni par la relation :
( 1 = 2 ) (N + v1 )
AICC1 = N log b2" + N 2 (4.12)
1= 2 2
Figure 4.8: Graphique Estimation LOESS Regression
où N est le nombre d’observations,
1= Trace (I L)0 (I L) (4.13)

n o
2
2 = Trace (I L)0 (I L) (4.14)
v1 = Trace (L0 L) (4.15)
Ce critère tend à corriger la tendance qu’avit le critère d’Akaike usuel à ne

pas assez lisser la composante ajustée. La valeur de v1 correspond ainsi à ce
que l’on appelle le nombre équivalent de paramètre (Equivalent Number of
Parameter) a¢ ché par SAS lorsque l’on spéci…e l’option ALL comme l’indique
la …gure (4.11).
Exemple 1 : Calcul de critère AICC et AICC1 : Calculons le critère AICC

à partir des éléments de la …gure (4.11). On a donc
2N
AICC = N log b2" + (4.16)
(N 1)
2 37
= 37 log 8:330652 + = 158: 93 (4.17)
37 1
Figure 4.9: LOESS Regression avec plusieurs Valeurs de
En ce qui concerne le critère AIC1 , on a immédiatement que :
v1 = 4:1040
1 = 31:70190
2 = 31:26808
On en déduit alors, la valeur du critère AICC1 égale à 202:31423:
Si l’on ne spéci…e pas de liste de valeurs pour le paramètre de lissage avec

l’option SMOOTH= et si l’on ne spéci…e pas de critère de séelction avec l’option
SELECT=, la procédure LOESS détermine par défaut le paramètre de lissage
par minimisation du critère d’information d’Akaike corrigé AICC (et
non le critère AICC1 ) :
= ArgM inAICC ( ) (4.18)
2[0;1]
Au contraire on peut spéci…er la méthode de séléection grâce à l’option SE-

LECT= :
1. AICC pour le Biais Corrected Akaike Information Criteria.
2. AICC1 pour le Biais Corrected Akaike Information Criteria AICC1

(Hurvich, Simono¤, and Tsai 1998).
Figure 4.10: Estimation LOESS Regression Pour di¤érentes valeurs de :
3. GCV Generalized Cross-Validation criterion (Craven and Wahba

1979).
On peut en…n croiser di¤érents critères : chercher par un critère la valeur

optimale de sur une liste de paramètres en utilisant de façon simultannée les
options SELECT et SMOOTH. On peut en outre soit rechercher un optimum
global sur le segment dé…nies par les valeurs retenues dans l’ption SMOOTH
avec l’option
SELECT=Criterion(GLOBAL)
Ou alors on peut restreindre le domaine en utilisant l’option :
SELECT=Criterion(RANGE(lower, upper)))
Dans ce cas on limite la recherche sur un segment dé…ni entre deux valeurs.
Pare xemple, on peut utiliser les syntaxes suivantes :
SELECT= GCV
Figure 4.11: LOESS Procedure avec Option ALL
SELECT= AICC(GLOBAL)
SELECT= AICC1(RANGE(0.2,0.6))
Ainsi, la procédure LOESS admet di¤érentes options au niveau de l’instruction

MODEL.
SMOOTH=value-list speci…es a list of positive smoothing parameter val-

ues. A separate …t is obtained for each smoothing value speci…ed.
TRACEL option speci…es that the trace of the prediction matrix as well
as the GCV and AICC statistics are to be included in the ”FIT Sum-
mary”table. The use of any of the MODEL statement options ALL, CLM,
DFMETHOD=EXACT, DIRECT, SELECT=, or T implicitly selects the
TRACEL option.
DFMETHOD= option speci…es the method used to calculate the ”lookup”

degrees of freedom used in performing statistical inference. The default is
DFMETHOD=NONE. Approximate methods for computing the ”lookup”
degrees of freedom are not currently supported. The use of any of the
MODEL statement options ALL, CLM or T or any SCORE statement
CLM option implicitly selects the DFMETHOD=EXACT option.
4.2.3. Autres options de la procédure LOESS

En…n la procédure LOESS présente un certain nombre d’otpions permettant no-
tamment de calculer des intervalles de con…ance sur les estimateurs de f (x) :
ALL requests all these options: CLM, RESIDUAL, SCALEDINDEP,

STD, and T.
ALPHA=number sets the signi…cance level used for the construction of

con…dence intervals for the current MODEL statement. The value must be
between 0 and 1; the default value of 0.05 results in 95% intervals.
CLM requests that con…dence limits on the mean predicted value be added
to the ”Output Statistics”table. By default, 95% limits are computed; the
ALPHA= option in the MODEL statement can be used to change the -level.
The use of this option implicitly selects the model option DFMETHOD=EXACT
if the DFMETHOD= option has not been explicitly used.
DETAILS < ( tables ) > selects which tables to display, where tables is
one or more of kdTree (or TREE), PredAtVertices (or FITPOINTS), and
OutputStatistics (or STATOUT). A speci…cation of kdTree outputs the kd
tree structure, PredAtVertices outputs …tted values and coordinates of the
kd tree vertices where the local least squares …tting is done, and Output-
Statistics outputs the predicted values and other requested statistics at the
points in the input data set. The kdTree and PredAtVertices speci…cations
are ignored if the DIRECT option is speci…ed in the MODEL statement.
Specifying the option DETAILS with no qualifying list outputs all tables.
ITERATIONS=number speci…es the number of iterative reweighting steps

to be done. Such iterations are appropriate when there are outliers in the
data or when the error distribution is a symmetric long-tailed distribution.
The default number of iterations is 1.
RESIDUAL j R speci…es that residuals are to be included in the ”Output

Statistics”table.
SCALE= NONE j SD < (number) > speci…es the scaling method to be

applied to scale the regressors. The default is NONE, in which case no
scaling is applied. A speci…cation of SD(number) indicates that a trimmed
standard deviation is to be used as a measure of scale, where number is the
trimming fraction. A speci…cation of SD with no quali…cation defaults to
10% trimmed standard deviation.
SCALEDINDEP speci…es that scaled regressor coordinates be included in

the output tables. This option is ignored if the SCALE= model option is
not used or if SCALE=NONE is speci…ed.
STD speci…es that standardized errors are to be included in the ”Output

Statistics”table.
T speci…es that t statistics are to be included in the ”Output Statistics”

table.

Poly Regression Non Parametrique Hurlin

Transféré par

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Poly Regression Non Parametrique Hurlin

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly Regression Non Parametrique Hurlin

Transféré par

Droits d'auteur :

Formats disponibles

MASTER ECONOMETRIE ET

STATISTIQUE APPLIQUEE (ESA)

Econométrie et Statistique Non

Régressions Non Paramétriques Univariées

Année Universitaire 2007-2008

Master Econométrie et Statistique Appliquée (ESA)

Historiquement,le principe des régressions non paramétriques remonte au 19eme

sité), SAS INSIGHT (estimation kernel de densité, regression kernel et regression

2. Principe d’Estimations Non Paramétriques

L’approche de la régression paramétrique

L’approche de la régression non-paramétrique

Comme on le sait le but d’un modèle de régression consiste à déterminer la

Pour caractériser cette fonction de lien, la première approche consiste à utiliser

De…nition 2.2. Dans un modèle de régression paramétrique, la fonction de lien

On sait qu’à partir de ce type de modèle, on dispose :

2. D’écarts type et d’intervalle de con…ance associés aux paramètres

3. De tests simples (inférence) à mettre en oeuvre sur la valeur des paramètres

Au contraire, on peut retenir une approche non paramétrique dans laquelle on

De…nition 2.3. Dans un modèle de régression non-paramétrique, la fonction

Le principal avantage (ou inconvénient suivant le point de vue adopté) de

1. une représentation graphique de la relation entre X et Y:

2. Il n’existe pas de forme analytique de la fonction de lien f (x) :

Tout le problème consiste alors à estimer cette fonction de lien f (x),

cette fonction comme c’est le cas dans l’approche paramétrique stan-

1. La régression kernel (Nadaraya, 1964; Watson, 1964)

2. La régression locale polynomiale (Cleveland, 1979; Cleveland et Devlin,

Nous commencerons par présenter le principe de la régression kernel.

3.1. Régression avec lissage par moyenne mobile

yi = f (xi ) + "i i = 1; ::; N (3.1)

De…nition 3.1. L’estimateur de la fonction de lien par moyenne mobile s’écrit

On peut donner une autre dé…nition de cette fonction de lien.

Considérons l’exemple suivant. On suppose que l’on dispose d’un échantillon

Si l’on suppose que la taille de la fenêtre k = 3; alors on peut calculer 3

De façon générale, l’estimateur MA de la focntion de lien peut s’écrire sous la

Etudions la convergence de cet estimateur. Pour cela, nous étudierons suc-

1. la convergence en probabilité de fb(xi )

2. la convergence en loi de fb(xi ) a…n d’en déduire des intervalles de

3.1.1. Etude de la convergence en probabilité

Utilisons une décomposition en séries de Taylor à l’ordre 2 de la fonction f (xj )

On en déduit donc …nalement que :

Le dernier terme est une somme de k termes indépendants et indentiquement

Résultat L’estimateur MA de la fonction de lien f (xi ) 8i = 1; ::; N , noté

Par conséquent, l’erreur quadratique moyenne véri…e :

On sait dès lors que le biais de l’estimateur est dé…ni par :

et que la variance de fb(xi ) est approximativement égale à :

On en tire la conséquence suivante :

De ces deux propriétés, on déduit immédiatement que :

Résultat L’estimateur MA de la fonction de lien f (xi ) 8i = 1; ::; N , noté

L’estimateur MA n’est donc pas un bon estimateur, puisque que

3.1.2. Etude de la convergence en distribution et intervalles de con…-

Si le nombre de points de la MA, c’est à dire k; augmente avec N , alors par un

Par conséquent, on en déduit que la quantité :

converge asymptotiquement vers une loi normale.

Résultat L’estimateur MA de la fonction de lien f (xi ) 8i = 1; ::; N , noté

Tout le problème est que cette propriété ne permet pas de construire

Supposons que la taille de la fenêtre véri…e la propriété suivante :

Comment …xer la valeur de de sorte à "annuler" asymptotiquement le terme

La construction d’un IC est alors rendue impossible par la présence du terme