Statnp

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 75

Statistique non paramétrique

Pr.Ghizlane Lakhnati

Finance et Ingénierie Décisionnelle

ENSA AGADIR
2018-2019
Plan 2

1. Estimation par Maximum de vraisemblance;


2. Test d’indépendance;
3. Test de conformité en loi;
4. Estimation fonctionnelle;
5. Tests non paramétriques.
Introduction 3
Une expérience statistique consiste à recueillir une observation x
d’un élément aléatoire X, à valeurs dans un espace E et dont on ne
connait pas exactement la loi de probabilité P.
Des considérations de modélisation amènent à admettre que P
appartient à une famille P de lois de probabilité possibles.

Définition: Le modèle statistique (ou la structure statistique)


associé à une expérience est le triplet (Ω; A; P), où :
- Ω est l’espace des observations, ensemble de toutes les
observations possibles.
- A est la tribu des événements observables associée.
-P est une famille de lois de probabilités possibles définie sur A.

On dit que le modèle est discret quand E est fini ou dénombrable;


On dit que le modèle est continu quand E ∈ Rn et ∀P ∈ P, P
admet une densité.
Introduction 4
Modèle paramétrique ou non paramétrique:
Un modèle paramétrique est un modèle où l’on suppose que le type
de loi de X est connu, mais qu’il dépend d’un paramètre θ inconnu,
de dimension d. Alors, la famille de lois de probabilité possibles
pour X peut s’écrire
P = Pθ ; θ ∈ Θ ⊂ Rd


Un modèle non paramètrique est un modèle où P ne peut pas se


mettre sous la forme ci-dessus. Par exemple, P peut être:
l’ensemble des lois de probabilité continues sur R, l’ensemble des
lois de probabilité dont le support est [0, 1], ou l’ensemble des lois
de probabilité sur R symétriques par rapport à l’origine,...
Donc, la statistique non paramétrique regroupe l’ensemble des
méthodes statistiques qui permettent de tirer de l’information
pertinente de données sans faire l’hypothèse que la loi de
probabilité appartient à une famille paramétrée connue.
Introduction 5

Pour estimer θ on ne dispose que des données x1 ; ...; xn , donc une


estimation de θ sera une fonction de ces observations.

Définition: Une statistique h est une fonction des observations


x1 ; ...; xn
h : Rn → Rm qui associe à (x1 ; ...; xn ) 7→ h(x1 ; ...; xn )

Définition: Un estimateur d’une grandeur θ est une statistique θn à


valeurs dans l’ensemble des valeurs possibles de θ. Une estimation
de θ est une réalisation h de l’estimateur θn .
Estimation par maximum de vraisemblance 6

La méthode du maximum de vraisemblance


Introduite par le statisticien Fisher en 1922.
Fonction de vraisemblance
Définition: Quand les observations sont toutes discrètes ou toutes
continues, on appelle fonction de vraisemblance pour l’échantillon
x1 ; ...; xn , la fonction du paramètre θ:
L(θ; x1 , ..., xn ) = P (X1 = x1 , ..., Xn = xn ; θ) si les Xi sont discrètes;
L(θ; x1 , ..., xn ) = f(X1 ,...,Xn ) (x1 , ..., xn ; θ) si les Xi sont continues;
Si les Xi sont indépendantes, la fonction de vraisemblance s’écrit :
L(θ; x1 , ..., xn ) = Πni=1 P (Xi = xi ; θ) = Πni=1 P (X = xi ; θ) si les Xi
sont discrètes;
L(θ; x1 , ..., xn ) = f(X1 ,...,Xn ) (x1 , ..., xn ; θ) = Πni=1 fXi (xi ; θ) =
Πni=1 f (xi ; θ) si les Xi sont continues
Estimation par maximum de vraisemblance 7

Log-vraisemblance:

l(θ; x1 , ..., xn ) = ln L(θ; x1 , ..., xn )


Pour des résolutions mathématiques, il est plus commode d’étudier
la log vraisemblance que la vraisemblance.
L et l, considérées comme des fonctions de θ, ont le même sens de
variation.
Estimation par maximum de vraisemblance 8

-Information: Un sondage (une réalisation de l’échantillon


aléatoire) nous apporte un certaine information sur θ. Elle doit
être suffisante pour pouvoir espérer estimer θ.

-Exhaustivité : L’estimation de θ faite à partir de ce sondage perd


forcement une partie de cette information: partant de n valeurs, on
n’en construit qu’une seule, l’estimation. Et la connaissance de la
seule estimation ne permet pas de remonter à l’échantillon tout
entier.

La perte doit être minimale pour construire un estimateur précis.


Estimation par maximum de vraisemblance 9

Score de l’échantillon: Si le domaine de définition des Xi ne


dépend pas de θ et f (x, θ) est différentiable en θ, l est une fonction
dérivable de θ, et le score est sa dérivée:
δ 1 δ
Sn (θ) = l(θ; X1 , ..., Xn ) = L(θ; X1 , ..., Xn )
δθ L(θ; X1 , ..., Xn ) δθ
-Pour tout θ, Le score est une variable aléatoire
- Le score s’annule à un optimum en θ de la fonction de
vraisemblance.
- Pour une réalisation donnée (x1 , ..., xn ) de l’échantillon aléatoire
la valeur du score est une fonction de θ.
Estimation par maximum de vraisemblance 10

Définition: On appelle quantité d’information de Fisher sur θ


apportée par l’échantillon (X1 , ..., Xn ) la quantité (si elle existe):
 
δ
In (θ) = V ar l(θ; X1 , ..., Xn ) = V ar (Sn (θ))
δθ
Propriétés:
δ

• E δθ
l(θ; X1 , ..., Xn ) = E(Sn (θ)) = 0;
h 2 i
• Par suite In (θ) = E δθδ l(θ; X1 , ..., Xn ) = E [(Sn (θ))2 ];
 2  h i
• In (θ) = −E δδ2 θ l(θ; X1 , ..., Xn ) = −E δSδθn (θ)
.

L’intérêt de cette quantité d’information de Fisher est qu’elle


fournit une borne inférieure pour la variance de n’importe quel
estimateur de θ.
Estimation par maximum de vraisemblance 11

L’information de Fisher mesure l’information apportée par un échantillon sur le


paramètre : une information de Fisher proche de zero indique un échantillon
peu informatif sur la valeur de θ.
- Pour un sondage particulier, la valeur du score mesure la sensibilité de la
vraisemblance à la valeur de θ. Si le score est faible, la vraisemblance est peu
sensible à de petites variations du paramètre: les observations n’arrivent pas à
s’accorder entre elles sur la direction du changement à apporter à la valeur de θ
pour augmenter la vraisemblance de l’échantillon. On doit donc s’attendre à ce
que l’échantillon contienne peu d’information sur la vraie valeur de ce
paramètre.
- En moyenne pour un θ fixé, le score est nul. Si sa variance (information de
Fisher) est très petite pour une valeur donnée de θ, alors, presque tous les jeux
de données auront alors un score proche de 0 (l’espérance du score), et donc
presque tous les échantillons ne contiendront qu’une faible quantité
d’information sur la valeur réelle de θ.
Estimation par maximum de vraisemblance 12

Théorème: Inégalité de Fréchet-Darmois-Cramer-Rao


(FDCR)
Si le domaine de définition des Xi ne dépend pas de θ alors pour
tout θn de θ:

δ
2
δθ
E(θn )
V ar(θn ) ≥
In (θ)
Appelée la borne de Cramer-Rao. La variance d’un estimateur
quelconque de θ est forcément supérieure à cette borne.
Estimation par maximum de vraisemblance 13
On appelle efficacité d’un estimateur θn , la quantité :
δ
2
δθ
E(θn )
Ef f (θn ) =
In (θ).V (θn )
On a 0 ≤ Ef f (θn ) ≤ 1.
θn est dit estimateur efficace si

Ef f (θn ) = 1;

θn est dit asymptotiquement efficace si

lim Ef f (θn ) = 1;
n→∞

Si θn est un estimateur sans biais (E(θn ) = θ) alors


1
Ef f (θn ) =
In (θ).V (θn )
Estimation par maximum de vraisemblance 14
Estimation:
Définition: On suppose que pour toute réalisation x = (x1 , ...., xn )
de X = (X1 , ...., Xn ) il existe une unique valeur θn (x) ∈ Θ qui
maximise la vraisemblance de la réalisation x:

max L(x1 , ...., xn , θ)


θ∈Θ

Alors la statistique θ̂n = θn (x) est appelée estimateur de maximum


de vraisemblance de θ.

Explication: Dans la plupart des cas la fonction de vraisemblance


s’exprime comme un produit. Il est alors plus commode de
remarquer que la valeur qui rend maximale une fonction rend aussi
maximal son logarithme. Par conséquent θ̂n sera en général calculé
en annulant la dérivée du logarithme de la vraisemblance.
Estimation par maximum de vraisemblance 15

Quand θ = (θ1 , ..., θp ) ∈ Rp , θ̂n est une solution du système


d’équations
δ
ln L(θ; x1 , ..., xn ) = 0; ∀1 ≤ i ≤ p
δθi
Un estimateur de M.V n’est pas forcément unique ni sans biais ni
de variance minimale ni efficace.
Estimation par maximum de vraisemblance 16

Propriétés:
P.S
• Θ̂n → θ;
• limn→∞ E(Θ̂n ) = 0 asympt ss biais;
• limn→∞ V (Θ̂n ) = In1(θ) asympt efficace;
 
p L
• In (θ) Θ̂n − θ →n→∞ N (0, 1);
√ L
• n(Θ̂n − θ) → N (0, √ 1 )
I1 (θ)
Estimation par maximum de vraisemblance 17

En pratique:
δ
• Condition nécessaire: δθ
ln L(θ̂) = 0;
δ2
• δ2 θ
ln L(θ̂) ≤ 0;
Exemple:
• Poisson;
• Normale
Estimation par maximum de vraisemblance 18

Exercice 1: Soit X une variable aléatoire dont la densité de probabilité f est


définie par :
1 x
f (x) = exp − si x > 0; 0 si x ≤ 0.
θ θ
où θ est un paramètre réel strictement positif.
1. Déterminer l’estimateur du maximum de vraisemlance θ̂ de θ d’un
r-échantillon de X.
2. Calculer l’espérance et la variance de θ̂. Que peut-on conclure ?
3. Calculer la quantité d’information de Fisher. En déduire que θ̂ est efficace.
Estimation par maximum de vraisemblance 19

Exercice 2: Soit X une variable aléatoire dont la densité de probabilité f est


définie par :
1
f (x) = si x ∈ [0; θ], 0 sinon
θ
où θ est un paramètre réel.
1. Déterminer la fonction de répartition de X.
2. Calculer la quantité d’information de Fisher.
3. Déterminer l’estimateur du maximum de vraisemlance de θ̂ de θ d’un
r-échantillon de X.
4. Calculer l’espérance et la variance de θ̂. Que peut-on conclure ?
5. Dans le cas où θ̂ est biasé, proposer un estimateur sans biais de θ.
Tests d’indépendance 20
Test d’indépendance de deux variables qualitatives:
Dans la plupart des tests vus, on suppose toujours les valeurs de
l’échantillon indépendantes. C’est une condition nécessaire. Il est
donc souvent utile de vérifier cette hypothèse par un test. Ce test
met en place une variable aléatoire qui suit une loi du χ2 , aussi ce
test est appelé Test d’indépendance du χ2 .
Ce test permet de contrôler l’indépendance de deux caractères dans
une population donnée. On dispose de deux variables aléatoires X
et Y , les valeurs possibles de X sont réparties en l modalités (ou
classes) X1 ; ...; Xl , celles de Y en k modalités Y1 ; ...; Yk . Pour
chaque intersection de modalités Xi et Yj , un effectif Nij est
observé. Ainsi
Xl X k
n= Nij
i=1 j=1

Hypothèse testée H0 : Les variables X et Y sont indépendantes.


Tests d’indépendance 21

Déroulement du test :
1. On crée le tableau des effectifs qui est un tableau à
double-entrée.
A l’intersection de la i-ème ligne et de la j-ième colonne, on
écrit l’effectif Nij .
Pk
On calcule les effectifs marginaux : Si = j=1 Nij est la somme
des termes sur la i-ème ligne,
Pl
Ti = i=1 Nij est la somme des termes sur la j-ième colonne.
2. On calcule les effectifs théoriques:
Si × Tj
Cij =
n
Sous H0 , Cij = Nij
Tests d’indépendance 22

3. On considère la variable test:


X (Nij − Cij )2
χ2 =
i,j
Cij

qui suit une loi de χ2(l−1)(k−1)


puis on calcule sa valeur χ2c .
4. On cherche la valeur critique de χ2α pour le niveau de risque
choisi dans la table de Khi-deux.
5. Si χ2c < χ2α on accepte H0 .
6. Conditions d’application: Il faut que Cij ≥ 5 pour tous i, j.
Tests d’indépendance 23
Test d’indépendance de deux variables quantitatives: Test
de corrélation nulle
Rappel: covariance
L’objectif de la covaraince est de quantifier la liaison entre X et Y .
1. Cov(X, Y ) = E [(X − E(Y ))(Y − E(Y ))] =
E(XY ) − E(X)E(Y );
2. si Cov(X, Y ) > 0 relation positive, Cov(X, Y ) = 0 absence de
relation monotone, Cov(X, Y ) < 0 relation négative;
3. Cov(X, Y ) = Cov(Y, X);
Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z); Cov(X, a) = 0;
Cov(a + bX, Y ) = bCov(X, Y );
4. V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y );
X et Y indépendantes alors Cov(X, Y ) = 0.
Tests d’indépendance 24

Estimation de la covariance
Soit un échantillon de taille n composée des observations Xi , Yi ,
1 ≤ i ≤ n.
La covariance empirique est
Pn
i=1 (Xi − X̄)(Yi − Ȳ )
SXY =
n
n−1
E(SXY ) = n
Cov(X, Y )
Pn
n i=1 (Xi − X̄)(Yi − Ȳ )
Cov(X,
d Y)= SXY =
n−1 n−1
Tests d’indépendance 25

Rappel: Coefficient de corrélation de Pearson


1.
Cov(X, Y ) Cov(X, Y )
rXY =p =
V (X)V (Y ) σ(X)σ(Y )
2. X et Y indépendantes alors rXY = 0;
3. Lorsque X et Y indépendantes et de loi normale uniquement
dans ce cas: X et Y indépendantes ⇔ rXY = 0;
4. −1 ≤ r ≤ 1, si r = 1 (−1) relation positive (négative) parfaite
linéaire.
Tests d’indépendance 26

Estimation du coefficient de corrélation


Le coefficient de corrélation empirique est
Pn
i=1 (Xi − X̄)(Yi − Ȳ )
R̂XY = pPn Pn
2 2
i=1 (Xi − X̄) i=1 (Yi − Ȳ )

Ou encore
P
Xi Yi − X̄ Ȳ
i
R̂XY = p Pn Pn
( i=1 Xi − nX̄ )( i=1 Yi2 − nȲ 2 )
2 2

Donc, L’estimateur du coefficient de corrélation est


SXY
r̂ =
SX .SY
Tests d’indépendance 27

Le test d’indépendance est équivaut à tester le coefficient de


corrélation r = 0 ssi X et Y sont indépendantes
H0 : r = 0
Dans le cas où (X, Y ) suit une loi normale ou n > 30:
Sous H0 , la statistique

T =p
(1 − r̂2 )/n − 2
T suit la loi de Student Tn−2 ;
r̂ est le coefficient de corrélation empirique
Tests d’indépendance 28

Décision du test:
1. On calcule t;
2. On cherche la valeur de tα ou t α2 sur la table de la loi de student
pour le degré de liberté α;
3. Si l’hypothèse alternative est H1 : r 6= 0 (cas bilatéral) : rejet
 
de H0 au risque α si t ∈/ −t α2 ,n−2 , t α2 ,n−2 .
Si l’hypothèse alternative est H1 : r > 0 (cas unilatéral) : rejet
de H0 au risque α si t > tα,n−2
Si l’hypothèse alternative est H1 : r < 0 (cas unilatéral) : rejet
de H0 au risque α si t < −tα,n−2
Tests d’indépendance 29

Exercice 1: Il s’agit de rechercher chez 160 traders un lien entre l’intensité du


stress professionnel et la qualité des relations familiales. On a établi le tableau
suivant :

Stress - Qualité TB N M Total


Fort 22 28 28 78
Faible 12 33 37 82
Total 34 61 65 160

Tester l’hypothèse H0 : ”l’intensité du stress professionnel et la qualité des


relations familiales” au niveau de risque 5%.
Tests d’indépendance 30

Exercice 2: Au cours d’une élection, il y a 5 candidats en présence.


Une enquête d’opinion est faite sur un échantillon de 875 sujets, 410 hommes
et 465 femmes. Que peut-on déduire au risque de 1%.

Candidat A B C D E Total
H 25 75 105 130 75 410
F 147 116 17 80 105 465
Total 172 191 122 210 180 875
Tests d’indépendance 31
Exercice 3: Sur un échantillon de 200 ménages choisis au hasard, on a étudié
la propension moyenne à épargner (variable Y ) en fonction du revenu
disponible (variable X).
Pour la variable X, on a distingué 3 classes : x1 : faibles revenus, x2 : revenus
intermédiaires, x3 : revenus élevés.
De même, les taux d’épargne ont été classés en 3 niveaux : y1 : faibles taux, y2
: taux intermédiaires, y3 : taux élevés.
Les résultats sont présentés dans la table de contingence :

R-E y1 y2 y3 Total
x1 53 14 6 73
x2 15 58 8 81
x3 7 10 29 46
Total 75 82 43 200
Existe t-il une relation entre le taux d’épargne et le niveau de revenu
disponible?
Tests d’indépendance 32

Exercice 4: Effectuez un test d’indépendence entre les deux variables: X (QI


du père) et Y (QI du fils).

1 2 3 4 5 6 7 8 9 10 11 12
X 123 144 105 110 98 138 131 90 119 109 125 100
Y 102 138 126 133 95 146 115 100 142 105 130 120
Tests de conformité en loi 33

Test d’adéquation du χ2
Soit X une variable aléatoire de loi L (inconnue). On souhaite
tester l’ajustement de cette loi à une loi connue L0 (Poisson,
Exponentielle, normale,...) retenue comme étant un modèle
convenable.
On teste donc H0 : L = L0 contre H1 : L = 6 L0 .
Les n observations de X sont partagées en k classes. On désigne
par Oi l’effectif observé de la classe i.
Pk
i=1 Oi = n
Remarque:
-Dans le cas discret, on prend les k observations distinctes;
-Dans le cas continu: Il faut regrouper les observations en classe et
npi ≥ 5.
Tests de conformité en loi 34

Pour chaque classe, l’effectif théorique est défini:


ci = n × P (X ∈ classe i | X suit L0 ) = npi
Sous H0 , on s’attends à observer en moyenne (théoriquement)
npi = ci .
Il s’agit donc de déterminer si les Oi (effectifs réels) sont
significativement proches ou éloignés des npi = ci .
On
nPpeut alors penser o à une région critique de la forme
k 2
i=1 (Oi − c i ) > lα
Pour déterminer lα , il faut connaitre la loi sous H0 de
Pk 2
i=1 (O i − c i ) ou d’une variable analogue.
Il est clair que, pour tout i: Oi ∼ B(n, pi ), E(Oi ) = ci et
V (Oi ) = (1 − pi )ci
Tests de conformité en loi 35

Théorème de Pearson:
k
X (Oi − ci )2 L
→ χ2k−1−r
i=1
ci

r est le nombre de paramètre de la loi utilisée.


Estimer un paramètre de dimension r revient à enlever r degré de
liberté de la loi de χ2 .
Poisson r = 1, normale r = 2,...
Tests de conformité en loi 36

Décision:
- On calcule la valeur de χ2c ;
- On lit sur la table de χ2 la valeur observée χ2obs,α tq
P (χ2 ≤ χ2obs,α ) = 1 − α;
- Si χ2c ≤ χ2obs,α , on accepte H0 ;
Si χ2c > χ2obs,α , on accepte H1 .
Tests de conformité en loi 37

Exemple:
Un portefeuille de crédit aux particuliers d’une banque contient
trois catégories de salariés: fonctionnaires, salariés du secteur privé
et les indépendants.
On veut savoir si on peut considérer que le portefeuille contient
autant de clients de chaque catégorie.
Catégorie Fon Priv Indep
Effectif 144 118 136
On cherche s’il y a équirépartition des clients entres les 3
cataégories.
Tests de conformité en loi 38

Test de Kolmogorov Smirnov:

Est un test d’ajustement. La différence avec le test du χ2 est qu’il


est fondé sur les fonctions de répartition plutôt que sur la densité.
L’hypothèse nulle est H0 : la loi de P a la même fonction de
répartition d’une loi continue donnée.
L’idée est que si H0 est vraie, la fonction de répartition empirique
F̂n doit être proche de F (la loi choisie).
Tests de conformité en loi 39

Fonction de répartition empirique:


On cherche à obtenir une fonction estimation de la fonction de
répartition à partir de l’échantillon observé afin de la comparer
ensuite à la fonction de répartition de la loi théorique.
Pour cela on commence par trier par ordre croissant les valeurs Xi
de E, on les appelle des statistiques d’ordre.
x1 < x2 < ... < xn ;
La fonction de répartition empirique est définie:
F̂n (x) = 0 si x < x1
F̂n (x) = ni si xi ≤ x < xi+1
F̂n (x) = 1 si x ≥ xn
Tests de conformité en loi 40
Pour effectuer le test de H0 , on définit la distance de Kolmogorov:
Dn = sup |Fn (x) − F (x)|
x∈R

où Fn est la proportion des observation dont la valeur est inférieure


ou égale à x.
Une valeur elevé de D indique que la distribution de l’échantillon
s’éloigne de la distribution de référence F et il est donc peu
probable que H0 soit correcte.
Théorème:
Soit X1 , ..., Xn un échantillon de loi P et Fn la fonction de
répartition empirique associée.
On suppose que F est continue, alors
√ L
nDn → La loi de Kolmogorov Smirnov

P ( nDn > c(α)) → P (KS > c(α)) = 1 − FKS (c(α)) = α
Tests de conformité en loi 41

 
limn P supx∈R |Fn (x) − F (x)| > √cn → α(c) =
P∞ k−1 −2k2 c2
2 k=1 (−1) e
P∞ k−1 −2k2 c2
FKS (c) = 1 + 2 k=1 (−1) e
Tests de conformité en loi 42
Alors on considère DKS
 
i (i − 1)
DKS = max F (xi ) − , F (xi ) −
n n
• On calcule la valeur de DKS .
• On compare la valeur obtenue à une valeur critique Dα (n)
fournie par les tables de Kolmogorov-Smirnov. Si
DKS < Dα (n), on accepte H0 .
• Pour n grand, la valeur critique est une approximation de la
forme √cn ,
Les valeurs usuelles de c en fonction de α sont
α 0.2 0.1 0.05 0.02 0.01
c 1.073 1.223 1.358 1.518 1.629
si DKS > √c on rejette H0 .
n
Tests de conformité en loi 43

Exemple:
Pour 5 assurés indépendants, on a calculé le temps (en jours)
jusqu’à leur première réclamation:
1 2 3 4 5
133 169 8 122 58
On voudrait tester si le temps suit une loi de probabilité
exponentielle.
Tests de conformité en loi 44
Tests de normalité: Méthodes graphiques (Droite de
Henry)
La droite de Henry est une méthode pour visualiser les chances
qu’une distribution est gaussienne. Elle permet de lire rapidement
la moyenne et l’écart-type de cette distribution.
Principe: On représente les quantiles théoriques en fonction des
quantiles observés.
Soit X une v.a gaussienne de moyenne x̄ et de variance σ 2 et Z une
v.a normale centrée réduite, on a
P (X < xi ) = P (Z < xiσ−x̄ ) = FZ ( xiσ−x̄ ) = FZ (zi )=p
Alors zi = FZ−1 (p).
Pour chaque valeur xi de X, on peut calculer P (X < xi ) puis on
déduit à l’aide de la table de la loi normale zi
Si la variable est gaussienne les points (xi , zi ) sont alignés sur la
droite d’équation z = x−x̄σ
Tests de conformité en loi 45

Exemple:
Lors d’un examen, on obtient les résultats suivants:
10% des étudiants ont obtenu une note < 4;
30% des étudiants ont obtenu une note < 8;
60% des étudiants ont obtenu une note < 12;
80% des étudiants ont obtenu une note < 16.

On cherche à déterminer si la distribution est gaussienne


Tests de conformité en loi 46

Tests de normalité: Test de Jarque-Bera


Les paramètres de dispersion évaluent le niveau d’étalement de la
série autour de la valeur centrale:
• Ecart interquantile: est la taille de l’intervalle situé au centre de
la série et incluant 50% des observations, écart= Q3 − Q1 , plus
il est grand plus la dispersion observée est forte;
• La variance: mesure la dispersion des réalisation de la v.a par
rapport à sa moyenne;
• Le coefficient d’asymétrie ou Skewness: c’est moment d’odre 3;
• Le coefficient d’aplatissement ou Kurtosis: c’est moment
d’ordre 4.
Tests de conformité en loi 47

Le coefficient d’asymétrie ou Skewness:


m3 = E ((X − E(X))3 );
Le coefficient d’asymétrie de Fisher est
m3
S= 3
σ
Lorsque la distribution est symétrique le coefficient de Skewness est
nul.
Lorsque la distribution possède une forte queue vers la droite le S
est positif (les + l’emportent);
Lorsque la distribution possède une forte queue vers la gauche le S
est négatif (les - l’emportent).
Le S = 0 pour la loi normale centrée réduite.
Tests de conformité en loi 48

Le coefficient d’aplatissement ou Kurtosis:


m4 = E ((X − E(X))4 );
Pearson a définit le coefficient d’aplatissement (Kurtosis) qui
permet d’etudier la forme plus au moins pointue ou aplatie
m4
K= 4
σ
K = 3 pour la loi normale centrée réduite.
0
Fisher propose d’étudier K = K − 3 ce qui permet de faire
référence à la loi normale.
0
K = 0 distribution normale;
0
K > 0 indique que les queues comptent plus d’observations que
dans la distribution normale;
0
K < 0 indique que les queues comptent moins d’observations que
dans la distribution normale.
Tests de conformité en loi 49

Exemple:
Montrer que la série est moins aplatie qu’une distribution normale
0
(K < 0)
Revenus ni fi
]0, 100] 3 0.3
]100, 200] 5 0.5
]200, 300] 2 0.2
Tests de conformité en loi 50

Le test de Jarque-Bera consiste à tester si la distribution est


normale H0 ou non.
On peut traduire l’hypothèse de normalité par
H0 : S = 0 et K = 3 contre H0 : S 6= 0 ou K 6= 3
On définit une fonction de S et K appelée la statistique de
Jarque-Bera:
2
 
n 2 (K − 3)
JB = S +
6 4
où n est le nombre d’observation dans ce test, il faut que n > 30.
La statistique de Jarque-Bera suit asymptotiquement une loi de
χ2 (2).
Sous H0 , pour α niveau de risque:
JB ≤ χ2α on accepte H0 .
Tests de conformité en loi 51

Exercice 1: En lançant successivement 60 fois un dé, un joueur obtient les


résultats suivants:

Faces xi 1 2 3 4 5 6
Effectifs ni 15 7 4 11 6 17

Le dé est-il truqué?


Tests de conformité en loi 52

Exercice 2: On a enregistré le nombre X de clients entrant dans un magasin


en 1 minute. On a obtenu le tableau suivant :
Nombre de clients xi Nombre de minutes
0 23
1 75
2 68
3 51
4 30
5 10
plus de 5 7

Peut-on admettre que les arrivées sont régies par une loi de Poisson de
paramètre 2 (au seuil 0.05)?.
Tests de conformité en loi 53
Exercice 3: Une enquête sur les chiffres d’affaires mensuels de 103 magasins
de détail a donné les résultats suivants
Classes de chiffres d’affaires Centres de classes Nombre de magasins
5.5 à moins de 6.5 6 2
6.5 à moins de 7.5 7 3
7.5 à moins de 8.5 8 12
8.5 à moins de 9.5 9 27
9.5 à moins de 10.5 10 23
10.5 à moins de 11.5 11 15
11.5 à moins de 12.5 12 12
12.5 à moins de 13.5 13 5
13.5 à moins de 14.5 14 2
14.5 à moins de 15.5 15 2

Peut-on considérer que l’échantillon est tiré d’une loi normale?


Tests de conformité en loi 54

Exercice 4: Lors d’une expérience, les résultats observés sur un échantillon de


8 sujets sont les suivants :
Sujet 1 2 3 4 5 6 7 8
xi 5 7 8 11 12 13 13 15

Etudier la normalité de la distribution des résultats dans la population parente.


Tests de conformité en loi 55

Exercice 5: On calcule en pourcentage les rentabilités d’un actif. Voici les 30


données obtenues :
12.6 12.0 20.9 14.2 16.2 15.3 10.4 22.1 19.8 15 12.8 20 11.8 20.6 21.3
11.7 18 9.1 15 15.2 15.1 14.7 13.3 21.7 15.4 16.7 15.6 17.1 7.2 12.6

Est-ce que cette variable suit une loi normale ?


Estimation fonctionnelle 56

En statistique non paramétrique, le modèle n’est pas décrit par un


nombre fini de paramètres.
Comme par exemple :
On s’autorise toutes les distributions possibles: on ne fait aucune
hypothèse sur la forme/nature/type de la distribution
On travaille sur des espaces fonctionnels, de dimension infinie.
Exemple : les densités continues sur [0.1], ou les densités
monotones sur R.
Le nombre de paramètres du modèle n’est pas fixe et varie avec le
nombre d’observations.
Estimation fonctionnelle 57

Exemples de contextes d’utilisation:


- Quand on n’arrive pas à ajuster correctement les observations
avec une distribution paramétrique,
- Quand on n’a aucune idée de modèle, ou qu’on ne veut pas avoir
un a priori sur le modèle,
- Quand le nombre de variables est trop grand (problème de grande
dimension)
Estimation fonctionnelle 58

Estimer une fonction de répartition:


On observe X1 ;...; Xn variables aléatoires (v.a.) réelles, i.i.d. de
fonction de répartition (fdr) F : x 7→ F (x) = P (X1 ≤ x).
L’estimateur naturel de la fdr F est la fdr empirique F̂n définie par:
n
1 X
F̂n (x) = 1{Xi ≤x}
n i=1

C’est un estimateur non paramétrique de la fdr F .


Estimation fonctionnelle 59

Propriétés:
 
1. Estimateur sans biais: E F̂n (x) = F (x);
 
2. Convergent: V ar F̂n (x) = F (x)(1−F
n
(x))
→n→∞ 0;

3. F̂n (x) converge en probabilité vers F (x);


4. La loi des grands nombres F̂n (x) converge en presque surement
vers F (x);
√  
loi
 p 
5. TCL: n F̂n (x) − F (x) → N 0, F (x)(1 − F (x))
Estimation fonctionnelle 60

Loi du logarithme itéré:


2
Pn
Si (Xi )i≥0 v.a i.i.d centrées et de variance σ < ∞ et Sn = i=1 Xi
alors
|Sn |
lim sup √ =1
σ 2nloglogn
En particulier

n F̂n (x) − F (x)
lim sup p =1
F (x)(1 − F (x))2loglogn
Estimation fonctionnelle 61

Inégalité de Dvoretzky-Kiefer-Wolfowitz (DKW)

∀n ∈ N, ∀ > 0;
 
P sup F̂n (x) − F (x) >  ≤ 2. exp(−2n2 )
x∈R
Estimation fonctionnelle 62
Construction
 d’intervalles
h de confiance i exacts de F (x):
∀x ∈ R, P F (x) ∈ F̂n (x) − e, F̂n (x) + e =
 
1 − P F̂n (x) − F (x) > e ≥
 
1 − P supx∈R F̂n (x) − F (x) > e ≥ 1 − 2. exp(−2ne2 )
Pour tout α > 0,qon choisit alors e > 0 tq exp(−2ne2 ) = α, on
prend alors e = log( α2 )/2n
" r r #!
2 2
P F (x) ∈ F̂n (x) − log( )/2n, F̂n (x) + log( )/2n ≥ 1−α
α α
h q q i
Donc F̂n (x) − log( α2 )/2n, F̂n (x) + log( α2 )/2n est IC de F au
niveau de risque α.
Comme
h Fq(x) ∈ [0, 1], si n est petit
q i
F̂n (x) − log( α2 )/2n, F̂n (x) + log( α2 )/2n ∩ [0, 1]
Estimation fonctionnelle 63
Le TCL permet également d’obtenir un IC pour F (x), à condition
d’estimer la variance F (x)(1 − F (x)). Mais cet intervalle est
asymptotique uniquement:
Construction d’intervalles de confiance (IC) de F (x) par
TCL
√  
loi
 p 
On a n F̂n (x) − F (x) → N 0, F (x)(1 − F (x))
√ F̂n (x)−F (x) loi
n√ → N (0, 1)
F (x)(1−F (x))
√ F̂n (x)−F (x) loi
Alors n √ → N (0, 1)
F̂n (x)(1−F̂n (x))
Aors
 pour nh suffisamment grand i  
P F (x) ∈ F̂n (x) − e, F̂n (x) + e = P F̂n (x) − F (x) ≤ e =
√ √
 
F̂n (x)−F (x)
P n√ ≤ n√ e
=1−α
F̂n (x)(1−F̂n (x)) F̂n (x)(1−F̂n (x))

Donc n √ e
=  α2 .
F̂n (x)(1−F̂n (x))
Estimation fonctionnelle 64

q
Par suite e =  α2 F̂n (x)(1−
n
F̂n (x))

On obtient finalement
 s s 
F̂n (x)(1 − F̂n (x)) F̂n (x)(1 − F̂n (x)) 
IC = F̂n (x) −  α2
 , F̂n (x) +  α2
n n
Estimation fonctionnelle 65

Estimation de la densité
On suppose que la loi de l’échantillon est continue et on cherche à estimer sa
densitée f . f est la dérivéee de F , mais la fonction de réepartition empirique
Fn n’est pas dérivable, puisque c’est une fonction en escalier. On ne peut donc
pas utiliser directement les résultats sur la fonction de répartition empirique
pour estimer la densité.
On peut se demander quelle est l’utilité d’estimer la densité alors que l’on a
déjà un très bon estimateur de la fonction de répartition. La principale raison
est que la forme d’une densité est beaucoup plus facile à interprêter que celle
d’une fonction de répartition. Par exemple, on pourra facilement avoir, grâce à
une estimation de densité, des informations sur la symétrie de la loi de
l’échantillon, alors que ce n’est pas du tout facile au seul vu de la fonction de
répartition empirique. De même, une estimation de densité est une aide
importante au choix d’un modèle approprié pour la loi de l’échantillon.
Par exemple, une densité estimée en forme de cloche symétrique peut conduire
à l’adoption d’un modèle de loi normale.
Estimation fonctionnelle 66

Rappels sur les histogrammes:


On se fixe une borne inférieure de l’échantillon a0 et une borne
supérieure ak .
On partitionne l’intervalle ]a0 ; ak ], contenant toutes les
observations, en k classes ]aj−1 ; aj ]
La largeur de la classe j est hj = aj − aj−1 .
L’effectif de la classe j est le nombre d’observations appartenant à
Pn
cette classe : nj = i=1 1]aj−1 ;aj ] (xi ).
n
La fréquence de la classe j est nj .
L’histogramme est constitué de rectangles dont les bases sont les
classes et dont les aires sont égales aux fréquences de ces classes.
Donc l’histogramme est la fonction en escalier constante sur les
nj
classes et qui vaut n.hj sur la classe ]aj−1 ; aj ]
Estimation fonctionnelle 67

Cette fonction peut s’écrire:


k k n
ˆ
X n j 1 X 1 X
f (x) = 1]aj−1 ;aj ] (x) = 1]aj−1 ;aj ] (x) 1]aj−1 ;aj ] (xi )
j=1
n.hj n j=1 hj i=1

Dans l’histogramme à pas fixe, les classes sont de même largeur


h = ak −a
k
0
. Dans ce cas, la hauteur d’un rectangle est
proportionnelle à l’effectif de sa classe.
Le polygone des fréquences est la ligne brisée reliant les milieux des
sommets des rectangles, et prolongée de part et d’autre de
l’histogramme de façon à ce que l’aire totale délimitée par le
polygone soit égale à 1, comme pour une densité.
Estimation fonctionnelle 68

La méthode du noyau:
Les histogrammes et les polygones des fréquences ne sont pas des
estimations très satisfaisantes de la densité de l’échantillon car ce
sont des fonctions en escalier et des lignes brisées alors que la
densité à estimer est en général plus lisse, avec au moins sa dérivée
continue.
D’autre part, l’aléa du au choix du nombre de classes et des bornes
des classes est un élément très perturbant de l’analyse, puisque des
choix différents peuvent aboutir à des histogrammes d’allures
différentes.
L’estimation par noyau a pour but de répondre à ces deux écueils et
de proposer des estimations de densité ayant de bonnes propriétés.
Estimation fonctionnelle 69
Pour cela, on commence par remarquer que la densité est la dérivée
de la fonction de répartition, ce qui permet d’écrire pour tout x:
0
f (x) = F (x) = limh→0 F (x+h)−F
h
(x)
= limh→0
F (x+h)−F (x−h)
2h
.
Donc pour un h > 0 assez petit, on peut penser à estimer f (x) par :
n
ˆ Fn (x + h) − Fn (x − h) 1 X
f (x) = = 1]x−h;x+h] (Xi )
2h 2nh i=1

Alors E(fˆ(x)) = E(Fn (x+h))−E(F


2h
n (x−h))
= F (x+h)−F (x−h)
2h
qui tend vers
f (x) quand h tend vers 0.
Il faut donc faire dépendre h de la taille n, et le faire tendre vers 0
quand n tend vers l’infini, de sorte que fˆ(x) soit un estimateur
asymptotiquement sans biais de f (x). h sera donc dorénavant noté
hn .
Cette démarche est proche de celle de l’histogramme au sens où
cela revient à mettre x au centre d’une classe de largeur 2h et à
calculer l’estimateur histogramme correspondant.
Estimation fonctionnelle 70

La fonction fˆ(x) obtenue a des sauts aux points Xi ± h et est


constante autrement.
La grande différence par rapport à l’histogramme est qu’il n’y a
pas de classe fixée à l’avance: on crée une classe en chaque point où
on veut estimer la densité.
Estimation fonctionnelle 71
L’estimateur fˆ(x) reste une fonction en escalier. Pour obtenir
quelque chose de plus lisse, on peut remarquer que:
ˆ 1
Pn 1
Pn 1
f (x) = 2nhn i=1 1]x−hn ;x+hn ] (Xi ) = nhn i=1 2 1x−hn ≤Xi ≤x+hn =
1
Pn 1 x−Xi 1
Pn x−Xi
nhn
1
i=1 2 [−1;1[ ( hn
) = nhn i=1 K( hn
)
Avec K(u) = 12 1[−1;1[ (u).
La méthode du noyau consiste à généraliser cette approche à
d’autres fonctions K.
Définition: Un estimateur à noyau de la densité f est une
fonction fˆ définie par:
n
ˆ 1 X x − Xi
f= K( )
nhn i=1 hn

où (hn )n est une suite de réels positifs appelés paramétres de


lissage ou largeurs de la fenêtre, qui tend vers 0 quand n tend vers
l’infini, et K est une densité de probabilité appelée noyau.
Estimation fonctionnelle 72
Les noyaux les plus communs sont :
1. le noyau rectangulaire: K(u) = 12 1[−1;1[ (u). C’est celui qui
donne l’estimateur de type histogramme;
2. le noyau triangulaire: K(u) = (1 − |u|) 1[−1;1[ (u);
 2
3. le noyau gaussien: K(u) = √12π exp − u2 ;
3
4. le noyau d’Epanechnikov: K(u) = √
4 5
(1 − u2 ) 1[−√5;√5[ (u).

Dans l’estimation de f (x) par le noyau rectangulaire, le même


poids est accordé à toutes les observations comprises entre x + h et
x − h. Dans les 3 derniers noyaux, le poids d’une observation est
d’autant plus fort qu’elle est proche de x.
fˆ a les mêmes propriétés de continuité et de différentiabilité que K.
Par exemple, si K est le noyau gaussien, fˆ admet des dérivées de
tous ordres.
Estimation fonctionnelle 73

Propriété: Un estimateur à noyau est une densité.

Pour choisir quel noyau prendre et surtout choisir le paramètre de


lissage hn , il faut étudier la qualité de l’estimation de f par fˆ.
Comme les expressions du biais et de la variance de l’estimateur à
noyau ne sont pas simples à traiter, on en donne des équivalents
pour pouvoir étudier leur comportement asymptotique:
Estimation fonctionnelle 74

Propriétés: Si K est la densité d’une loi de probabilité symétrique


par rapport à l’origine et de variance σ 2 , si f admet des déerivées
continues de tous ordres, alors, quand n tend vers l’infini, on a:
 
ˆ h2n σ 2 00
• E f (x) − f (x) ≈ 2 f (x);
  R +∞
• V ar fˆ(x) ≈ nhn −∞ K(u)2 du;
f (x)

 2 
ˆ h4n σ 2 R +∞ 00 1
R +∞
• E f (x) − f (x) ≈ 4 −∞ f (x) dx + nhn −∞ K(u)2 du
2
Estimation fonctionnelle 75
On voit que, dans l’erreur quadratique moyenne, le terme de biais
est une fonction croissante de hn , alors que le terme de variance est
une fonction décroissante de hn . Si hn est grand, la variance sera
faible, mais le biais sera fort. Si hn est petit, c’est l’inverse. La
valeur de hn optimale, qui minimise l’EQM, réalise donc un
compromis entre biais et variance.
Cette valeur optimale est une fonction de f , qui est inconnue. On
ne peut donc en donner qu’une valeur approchée. En pratique, on
choisit souvent:
 
4 1 −1 1  
hn = ( ) n min sn ;
5 5 Q̃n,3 − Q̃n,1
3 1.34
Q̃n,3 et Q̃n,1 Quantiles d’ordre 3 et 1 de la distribution empirique;
sn est l’écart-type estimé de la distribution.
on a plutôt tendance en pratique à choisir le noyau le plus facile à
utiliser, qui est le noyau gaussien.

Vous aimerez peut-être aussi