Poly Regression Non Parametrique Hurlin
Poly Regression Non Parametrique Hurlin
Poly Regression Non Parametrique Hurlin
Christophe Hurlin
Contents
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Principe d’Estimations Non Paramétriques . . . . . . . . . . . . . . . . 2
3 Régressions Kernel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 Régression avec lissage par moyenne mobile . . . . . . . . . . . . 4
3.1.1 Etude de la convergence en probabilité . . . . . . . . . . . 6
3.1.2 Etude de la convergence en distribution et intervalles de
con…ance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Régression avec lissage par opérateur à noyau ou régression kernel 9
3.2.1 Etude de la convergence en probabilité . . . . . . . . . . . 11
3.2.2 Etude de la convergence en loi et intervalles de con…ance . 12
3.3 Sélection du paramètre de lissage dans la régression Kernel . . . . 14
3.3.1 Critère de la MISE et approche GCV . . . . . . . . . . . . 16
3.3.2 Critère de l’AMISE . . . . . . . . . . . . . . . . . . . . . . 17
3.4 Estimation d’une fonction de densité . . . . . . . . . . . . . . . . 18
3.4.1 Procédure UNIVARIATE . . . . . . . . . . . . . . . . . . 20
3.4.2 Procédure KDE . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4.3 Procedure SAS INSIGHT . . . . . . . . . . . . . . . . . . 26
3.5 Regressions Kernel : Applications SAS INSIGTH . . . . . . . . . 28
4 Régressions locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1 Régression locale : LOESS et LOWESS regressions . . . . . . . . 30
4.2 Procédure LOESS . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2.1 Sorties graphiques . . . . . . . . . . . . . . . . . . . . . . 39
4.2.2 Sélection du paramètre de lissage . . . . . . . . . . . . . . 40
4.2.3 Autres options de la procédure LOESS . . . . . . . . . . . 45
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 1
1. Introduction
La régression non paramétrique a longtemps été opposée à la régression économétrique
usuelle. En e¤et, dans l’esprit des travaux de la Cowles Commission, cette
dernière est généralement fondée sur une spéci…cation issue de la théorie économique
et peut se ramener à une forme explicite dépendant d’un nombre …ni de paramètres
que l’on cherche ensuite à estimer par la méthode la plus appropriée (maximum de
vraisemeblance, MCO, GMM etc..). A l’inverse, la régression non paramétrique
est une régression "sans modèle", au sens où comme nous allons le voir, on
cherche à estimer la fonction de lien caractérisant la relation entre deux vari-
ables économiques. C’est donc une régression "a-théorique" (au sens de la théorie
économique) par opposition à la régression paramétrique usuelle, censée découler
de l”estimation d’une forme réduite d’un modèle théorique.
Le présent cours ne portera que sur les régressions non paramétriques uni-
variées. Pour les régressions multivariées, nous revoyons le lecteur à l’ouvrage
de référence de Yatchev (2003). Dans ce cours nous présenterons tout d’abord
les grands principes de la régression non paramétrique. Dans une seconde sec-
tion, nous étudierons la regression non paramétrique kernel. Dans ce cadre nous
étudierons comme un cas particulier, le principe de l’estimation kernel d’une den-
sité. En…n, dans une troisième section nous étudierons la régression locale poly-
nomiale et plus spéci…quement les regressions de type LOESS et la LOWESS.
Toutes les applications se feront sur le logiciel SAS à, partir des procédures
UNIVARIATE (estimation kernel de densité), KDE (estimation kernel de den-
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 2
De…nition 2.1. On appelle fonction de lien, la fonction f (x) qui a toute réali-
sation x de la variable explicative X associe la quantité :
E (Y j X = x) = f (x) (2.1)
L’exemple typique est celui d’un modèle linéaire, où l’on postule que :
E (Y j X = x) = + x = f (x; ; ) (2.4)
1. D’une mesure synthétique du lien qui lie X à Y qui peut être notamment
confrontée à une théorie économique (tests de spéci…cation, approche
à la Cowles Commission).
E (Y j X = x) = f (x) (2.5)
3. Régressions Kernel
Le principe de la régression kernel repose en fait sur des méthodes de lissage.
A…n de bien comprendre le principe d’une régression kernel ou régression par
lissage par opérateur à Noyau, nous commencerons par exposer le principe de la
régression avec lissage par moyenne mobile. Une fois que l’on aura démontré un
certain nombre de résultats dans ce cas simple, nous nous contenterons d’énoncer
plusieurs résultats dans le cas de la régression kernel.
où "i est un bruit blanc avec E ("i ) = 0 et E ("2i ) = 2" . On suppose que la fonction
f (:) est inconnue et l’on se propose d’estimer cette fonction par une méthode
de lissage par moyenne mobile (MA). L’idée consiste tout simplement à
appliquer une moyenne mobile aux valeurs de Y pour obtenir un estimateur de
la fonction de lien.
où Vk;x désigne un voisinage de xi dé…ni par les k individus ayant les valeurs de
X les plus proches de xi :
2
On peut en e¤et faire le reproche aux économistes - économètres d’être prétentieux au
point de prétendre connaître le modèle, c’est à dire la forme de la fonction de lien f (x; ), et
de simplement prétendre ignorer uniquement la valeur des paramètres. Mais c’est précisèment
tout l’intérêt d’une démarche à la Cowles Commission que de partir de la théorie économique
pour aider à la spéci…cation d’un modèle et d’une forme réduite (fonction de lien).
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 5
De…nition 3.2. Supposons que les observations xi sont ordonnées de façon crois-
sante x1 x2 :: xN et que k est un entier impair, alors :
1X
i
fb(xi ) = yj (3.3)
k j=i
où l’on a i = i (k 1) =2 et i = i + (k 1) =2:
x1 x2 x3 x4 x5
2 3 6 7 9
y1 y2 y3 y4 y5
4 7 16 19 25
1X 1X
i i
fb(xi ) = f (xj ) + "j (3.8)
k j=i k j=i
1 Xh i 1X
i i
fb(xi ) '
00 2
f (xi ) + f 0 (xi ) (xj xi ) + f (xi ) (xj xi ) + "j
k j=i k j=i
f 0 (xi ) X f (xi ) X 1X
i 00 i i
2
' f (xi ) + (xj xi ) + (xj xi ) + "j
k j=i 2k j=i k j=i
Or, on sait que si les k valeurs xj sont choisies de façon symétrique par rapport
à la valeur pivotale xi on a :
X
i
(xj xi ) = 0 (3.10)
j=i
De plus, on peut montrer que si les xi sont équi-réparties sur un intervale unitaire
:
1 X
i 2
1 (k 2 1) 1 k
(xj xi )2 = ' (3.11)
2k j=i 24 N 2 24 N
1X
2 i
1 k
fb(xi ) ' f (xi ) + f (xi )
00
+ "j (3.12)
24 N k j=i
1X
2 i
1 k
fb(xi )
00
f (xi ) ' f (xi ) + "j (3.15)
24 N k j=i
h i
lim V ar fb(xi ) f (xi ) = 0 (3.18)
k!1
p k
fb(xi ) ! f (xi ) 8i = 1; ::; N; ! 0 et k ! 1 (3.19)
N
1X
2 i
1 k
fb(xi ) ' f (xi ) + f (xi )
00
+ "j (3.20)
24 N k j=i
k = k (N ) = N (3.24)
X
N
fb(x0 ) = wi (x0 ) yi (3.29)
i=1
avec :
xi x0
K
wi (x0 ) = PN xi x0
(3.30)
i=1 K
Remarque 2 La fonction wi (x0 ) ou w (x0 ; xi ) dé…nit le poids qui doit être at-
tribué au couple d’observations (xi ; yi ) dans la valeur de la fonction de lien
évaluée au point d’abscisse x0 : Généralement, plus les points xi sont proches
de x0 ; plus le poids sera important : w (x0 ; xi ) est donc décroissante dans
la distance jx0 xi j:
Ces poids dépendent de fonction kernel (ou opérateur à noyau) qui correspon-
dent tout simplement à des fonctions de densité de probabilité.
Le choix de résulte donc d’un arbitrage biais versus variance, mais aussi
d’un arbitrage lissage / non lissage de f (x) :
xi x0
lim K = K (0) 8xi (3.48)
!1
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 15
Ceci implique que les poids de tous les individus i dans le calcul de fb(x0 ) sont
strictement identiques et égaux à :
xi x0
K K (0) 1
lim wi (x0 ) = lim PN xi x0
= = (3.49)
!1 !1
i=1 K N K (0) N
Dès lors, pour tous les individus autres que l’individu de référence dans le calcul
de fb(xi ) , les poids wj (xi ) sont nuls :
xj xi
K
lim wj (xi ) = lim PN xj xi =0 8j 6= i (3.53)
j=1 K
!0 !0
Ainsi si le paramùètre de lissage tend vers zéro, pour tous les points de l’échantillon,
l’estimateur kernel correspond exactement à l’observation yi : La fonction de lien
estimée passe exactement par tous les points de l’échantillon : la variance de fb(x)
est aussi grande que la variance de y, mais le biais est sans faible.
Le problème c’est que l’on ne connaît pas la quantité f (x) et que l’on ne
peut donc directement évaluer cette MISE. Donc on utilise une approche qui
asympotiquement nous donne une valeur proche de M ISE : l’approche de la
cross-validation function ou General Cross-Validation (GCV ):
1 Xh i2
N
b2" ( )= yi b
f (x; )
N i=1
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 17
Ce critère nous permettrait d’obtenir la valeur de telle que les données sont
parfaitement ajustées. En e¤et, si l’on cherche :
1 Xh i2
N
CV ( ) = yi b
f 1 (x; )
N i=1
l’exemple suivant dans lequel on simule 50000 réalisations d’une variable aléatoire
de loi N (0; 1) :
Dans la procédure UNIVARIATE qui nous permet de grapher l’histogramme,
on sur-impose sur le graphique la fonction de densité d’une loi N (0; 1) : On ob-
serve que pour un découpage …n des classes, les sommets de classes peuvent
consituer des estimateurs des valeurs de la densité f (x) aux points correspon-
dants.
Toutefois, on préférera utiliser un estimateur de f (:) au point x0 obtenu par
lissage des sommets de classe dé…nis au voisinage de x0 : Voilà quel est le principe
de l’estimation par lissage. L’estimateur à noyau (kernel estimate) ne conduit
alors qu’à dé…nir une forme des poids à accorder aux di¤érents valeurs des som-
mets de classes obtenus pour des valeurs xi ; en fonction de la distance entre le
point de référence x0 et le point considéré dans le lissage xi :
X
N
xi x0
fb(x0 ) = K (3.67)
i=1
Les règles pour déterminer la valeur du paramètre sont alors les mêmes que
celles évoquées précédemment. Comme précédemment, le choix du kernel n’a que
peu d’importance (cf. section précédente).
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 20
1
C= N5 (3.68)
Q
METHOD=OS, OverSmoothed
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 23
La méthode Sheather-Jones plug in (SJPI) est la méthode par défaut pour des
densités de variables univariées. Dans les cas 4, il s’agit de déterminer la valeur
de qui permet de minimiser le critère AMISE( ) :
= BMW
VAR variables ;
WEIGHT variable ;
Les options disponibles pour KDE sont les suivantes :
GRIDL=numlist speci…es the lower grid limits for the kernel density es-
timate. You should specify one number for univariate smoothing and two
numbers separated by a comma for bivariate smoothing. The default values
equal the minimum observed values of the variables.
GRIDU=numlist speci…es the upper grid limits for the kernel density
estimate. You should specify one number for univariate smoothing and two
numbers separated by a comma for bivariate smoothing. The default values
equal the maximum observed values of the variables.
OUT=SAS-data-set speci…es the output SAS data set containing the kernel
density estimate. This output data set contains the following variables:
variables you specify in the VAR statement, with values corresponding to
grid coordinates, density, with values equal to kernel density estimates
at the associated grid point and count, containing the number of original
observations contained in the bin corresponding to a grid point
sur 401 points uniformément répartis entre les bornes du tirage, à savoir 4:097
et 3:8659. La valeur du coe¢ cient multiplicatif (égale à l’unité) implique que l’on
adopte la valeur par défaut retenue selon la méthode de sélection du poaramère
de lissage.
La suite des résultats est reportée sur la …gure (3.9). On y trouve la liste
des valeurs des fractiles pour les valeurs par défaut à savoir 0.5, 1, 2.5, 5, 10, 25,
50, 75, 90, 95, 97.5, 99, and 99.5. On véri…e que dans notre exemple, le fractile
à 2.5% correspond au fractile théorique de la loi normale, à savoir 1:95. On
véri…e sur le graphique (3.10) que la densité estimée est identique à cellle d’une
loi normale.
Appliquons cette procédure aux données tirées dans une loi normale de l’exemple
précédent. On obtient alors, la sortie de la …gure (??). Dans le menu ANALYZE,
on choisit alors l’onglet DISTRIBUTION. Puis apparaît un écarn dans lequel on
choisit l’option METHOD, dans lequel on choisit DENSITY ESTIMATION.
On peut alors chosir la fonction kernel. Dans tous les cas le paramètre de
lissage optimale est optenu par la méthode de type AMISE (précoédure par défaut
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 27
Une nouvelle fenêtre (…gure 3.16) apparaît dans laquel on peut régler le choix
de la fonction kernel (KERNEL SMOOTHER) pour les poids des observations
dans la regression. SAS/INSIGHT permet de construire trois types de regressions
:
Locally-Weighted Mean
Les résultats d’estimation pour trois kernel et une regression loess sont rprotés
sur la …gure (3.17).
On voit que la relation entre les homicides et la population est loin des d’être
linéaire (courbe rouge, polynôme de degré 1). En, e¤et, les estimateurs kernel
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 30
4. Régressions locales
Un des problèmes essentiels avec la régression kernel ou l’estimation de densité
par noyau réside dans le manque de robustesse de ces estimateurs pour
les valeurs extrêmes de X: Une solution alternative, plus robuste pour les
valeurs extrêmes consiste en l’utilisation de régressions locales.
De…nition 4.1. Le principe général d’une régression locale est de posutuler que
la fonction de lien f (x0 ) évaluée au point x0 peut être approximée par la valeur
d’une fonction paramétrique évaluée localement au voisinage N (x0 ) du point de
référence x0 :
fb(x0 ) = b
a (x0 ) + bb (x0 ) x0 (4.1)
où les estimateurs des paramètres b a (x0 ) et bb (x0 ) sont déterminés par le pro-
gramme suivant :
n o X
b b
a (x0 ) ; b (x0 ) = ArgM in [yi a (x0 ) b (x0 ) xi ]2 (4.2)
fa(x0 );b(x0 )g
xi 2N (x0 )
naturellement envisgaer des variantes dans lesquelles les poids des observations
(xi ; yi ) diminue avec la distance entre xi et x0 suivant par exmple une fonction
kernel :
n o X xi x0
ba (x0 ) ; bb (x0 ) = ArgM in [yi a (x0 ) b (x0 ) xi ]2 K (4.3)
fa(x0 );b(x0 )g
xi 2N (x0 )
c’est une méthode qui requiert plus de temps de calcul : pour N observations on
doit faire N régressions.
dim [N (x0 )]
= 2 ]0; 1] 8x0 (4.4)
N
Si est trop faible, l’estimateur des paramètres a (x0 ) et b (x0 ) manque de pré-
cision car le voisinage est trop petit, si au contraire le voisinage couvre l’ensemble
des observations ( = 1) ; alors on retrouve la droite d’ajustement linéaire (modèle
de régression simple).
Remarque 1 Comme on le voit la fonction de lien f (x) n’est pas estimée pour
les N = 37 observations de la variable x; mais sur un sous ensemble de
valeurs, ici n = 14 observations.
En e¤et, SAS ne met pas en place l’etimation pour tous les N points sauf si
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 35
on le requiert avec l’option DIRECT. Dans le cas contraire (par défaut) SAS
n’estime le polynôme que sur un nombre restreint de points, puis réutilise le
même polynôme au voisinage de ce point. SAS utilise alors une procédure
de type kd tree pour diviser les valeurs de x en segments de sorte à ce que
les valeurs de f (x) correspondantes soient comprises dans des sgments de taille
identique (rectangular cells). Le point médian des segments de x détermine alors
le point x0 autour duquel la fonction de lien f (x0 ) sera estimée par le polynôme
a (x0 )+b (x0 ) x0 . Ce polynôme sera utilisé pour toutes les valeurs xi de ce segment,
en postulant :
fb(xi ) = a (x0 ) + b (x0 ) xi
Le nombre de valeurs de f (xi ) comprises dans chaque segment est reglé par le
paramètre dénommé bucket size, via l’option BUCKET=. Par défaut la valeur
de ce paramètre est égale à :
N
Bucket size = f loor (4.5)
5
Par exemple, dans notre exercice on a = 0:66216 et N = 37; d’où :
N 37 0:66216
= = 4:9 =) Bucket size = 4
5 5
Donc on regroupe les valeurs de la variable explicative pop dans des segments
tels que les valeurs ajustées de f (x) = hom correspondantes soient réparties dans
des segments de taille identiques comprenant au plus 4 valeurs. Il peut y avoir
plus de N=4 segments, dès lors que certains segments sur x peuvent contenir moins
de 4 valeurs. Dans le cas présent, la procédure identi…e 14 segments (Number
of Fitting Points) pour lequels on va considérer les 14 valeurs correpondantes
du point moyen :
popi 2 Ci ; i = 1; ; :; 14
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 36
et l’on utilise ce polynôme pour estimer f (popi ) pour n’importe quel point popi
appartenant à ce segment Ci par interpolation des valeurs f (popj ) des valeurs
de popj connues sur ce segment. On peut alors choisir entre options pour la
méthode d’interpolation via l’option INTERP= : soit une interpolation linéaire
(par défaut), soit une interpolation cubique (CUBIC). On a donc les options
susivantes :
DEGREE= 1 j 2 sets the degree of the local polynomials to use for each
local regression. The valid values are 1 for local linear …tting or 2 for local
quadratic …tting, with 1 being the default.
DIRECT speci…es that local least squares …ts are to be done at every
point in the input data set. When the direct option is not speci…ed, a
computationally faster method is used. This faster method performs local
…tting at vertices of a kd tree decomposition of the predictor space followed
by blending of the local polynomials to obtain a regression surface.
Remarque 2 La procédure LOESS attribue des poids selon une fonction de type
tri-cubique en fonction de la distance au centre de classe.
Supposons que l’on ait q point au voisinage d’un point x0 et que l’on dnote
d1 ; d2 ; ::dq les distances par ordre croissant des q points du segment par rapport au
point de référence. Chaque observation xi se verra attribué un poids en fonction
de sa distance :
n o X
a (x0 ) ; bb (x0 ) = ArgM in
b [yi a (x0 ) b (x0 ) xi ]2 wi (4.7)
fa(x0 );b(x0 )g
xi 2N (x0 )
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 39
" #
3 3
32 di
wi = 1 di = jxi x0 j (4.8)
5 dq
Si le paramètre de lissage > 1; tous les points sont pris en compte dans la
régression et le poids est alors dé…ni par :
1=p
wi = dq (4.9)
Remarque Si l’on veut sortir les valeurs des résidus et des intervalles de con-
…ance sur les valeurs estimées, les options RESIDUAL et CLM sont néces-
saires dans la spéci…cation MODEL.
Un de ces critères est le critère d’Akaike corrigé pour les petits échantillons
qui staisfait alors la dé…nition suivante :
De…nition 4.3. Le critère d’information d’Akaike corrigé AICC est dé…ni par
la relation :
2N
AICC = N log b2" + (4.11)
(N 1)
Un autre critère d’Akaike corrigé est en outre proposé :
De…nition 4.4. Le critère d’information d’Akaike corrigé ou AICC1 d’Hurvich,
Simono¤, et Tsai (1998) est dé…ni par la relation :
( 1 = 2 ) (N + v1 )
AICC1 = N log b2" + N 2 (4.12)
1= 2 2
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 42
2N
AICC = N log b2" + (4.16)
(N 1)
2 37
= 37 log 8:330652 + = 158: 93 (4.17)
37 1
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 43
v1 = 4:1040
1 = 31:70190
2 = 31:26808
On en déduit alors, la valeur du critère AICC1 égale à 202:31423:
SELECT=Criterion(GLOBAL)
SELECT=Criterion(RANGE(lower, upper)))
Dans ce cas on limite la recherche sur un segment dé…ni entre deux valeurs.
Pare xemple, on peut utiliser les syntaxes suivantes :
SELECT= GCV
Master ESA. Econometrie Non Parametrique. Cours de C. Hurlin 45
SELECT= AICC(GLOBAL)
SELECT= AICC1(RANGE(0.2,0.6))
TRACEL option speci…es that the trace of the prediction matrix as well
as the GCV and AICC statistics are to be included in the ”FIT Sum-
mary”table. The use of any of the MODEL statement options ALL, CLM,
DFMETHOD=EXACT, DIRECT, SELECT=, or T implicitly selects the
TRACEL option.
CLM requests that con…dence limits on the mean predicted value be added
to the ”Output Statistics”table. By default, 95% limits are computed; the
ALPHA= option in the MODEL statement can be used to change the -level.
The use of this option implicitly selects the model option DFMETHOD=EXACT
if the DFMETHOD= option has not been explicitly used.
DETAILS < ( tables ) > selects which tables to display, where tables is
one or more of kdTree (or TREE), PredAtVertices (or FITPOINTS), and
OutputStatistics (or STATOUT). A speci…cation of kdTree outputs the kd
tree structure, PredAtVertices outputs …tted values and coordinates of the
kd tree vertices where the local least squares …tting is done, and Output-
Statistics outputs the predicted values and other requested statistics at the
points in the input data set. The kdTree and PredAtVertices speci…cations
are ignored if the DIRECT option is speci…ed in the MODEL statement.
Specifying the option DETAILS with no qualifying list outputs all tables.