Chap Stat 1
Chap Stat 1
Chap Stat 1
Skander HACHICHA
Exemple
On suppose qu’on fabrique des pièces sur une machine. Chaque pièce
fabriqué a une probabilité θ inconnue, mais la même pour toutes les
pièces, d’être défectueuse. Ce nombre θ dépend du réglage de la
machine, le réglage est d’autant meilleur que θ est proche de 0, mais
comme le réglage ne peut pas être parfais on n’a jamais θ = 0. Avant
de lancer le cycle de fabrication, on veut vérifier si la machine est
bien réglée, à savoir si θ est suffisamment petit. Pour cela on fabrique
un certain nombre n de pièces qui servent à tester le réglage.
L’observation consiste à compter le nombre Xn de pièces défectueuses
parmi ces n pièces. On peut alors se poser les problèmes suivants :
Exemple
1 Trouver la valeur de θ : cela s’appelle estimer le paramètre θ.
Dans notre exemple, il est naturel de prendre pour estimateur de
θ la proportion θbn = Xnn de pièces défectueuses.
2 Trouver un intervalle dépendant de l’observation qui contient θ
avec une probabilité élevé : estimation par intervalle de
confiance.
3 S’assurer que la vraie valeur de θ ne dépasse pas un seuil
critique θ0 fixé d’avance (sinon il faut refaire le régalage de la
machine): cela s’appelle tester le fait que θ ≤ θ0 .
Exemple
Ces problèmes sont de nature mathématiques assez différentes. Ils ont
cependant en commum le fait qu’on ne peut pas arriver à une
conclusion certaine: dans le cas (1) il est vraisemblable que la valeur
exacte de θ soit proche de l’estimation θbn (au moins si n est assez
grand), mais tout à fait invraisemblable qu’elle lui soit exactement
égale. Dans le cas (2) on peut décider que θ ≤ θ0 si la proportion Xnn
est suffisamment petite, mais on ne sera jamais sûr que la vraie valeur
de θ soit effectivement plus petite que le seuil θ0 .
Remarque
Il s’agit donc de préciser un phénomène sur une population globale, à
partir de son observation sur un échantillon.
La statistique est donc une matière dont l’objectif est destimer une loi
inconnue (ou d’inférer la loi inconnue) à partir des variable aléatoires
X1 , . . . , Xn qui suivent cette loi .
Les donnée Xn = X1 , . . . , Xn s’appelle l’échantillon, n est le nombre
d’échantillon . On supposera dans la suite de ce chapitre que
l’échantillon vérifie l’hypothèse suivante. Hypothèse (E) : Soit X une
variable aléatoire réelle, définie sur l’espace de probabilité (Ω, A, P).
l’ échantillon Xn = X1 , . . . , Xn est une réalisation i.i.d de la même loi
que X.
Exemple
On prélève au hasard n ampoules électriques dans une production.
Pour chaque ampoule i on mesure sa durée de vie xi ∈ R+ . Comme
les caractéristiques de fabrication ne varient pas d’une ampoule à
une autre, les différences entre les xi peuvent être considérés comme
des fluctuations de nature aléatoire. Ce qui justifie d’ailleurs
l’hypothèse fondamentale de la théorie de l’échantillonage à savoir
que les valeurs observées sont des réalisations d’une même variable
aléatoire. Ainsi les xi sont les réalisations d’une variable aléatoire X
appelée variable parente.
Exemple
On peut cependant à chaque ampoule i, associé une variable
aléatoire dont on observe une seule réalisation Xi (ω) = xi . Donc les
Xi ont la même loi que celle de X, de plus elles sont mutuellement
indépendantes. Ainsi les valeurs observées (x1 , · · · , xn ) constituent n
réalisations indépendantes de X ou encore une réalisation unique de
(X1 , · · · , Xn ) où les Xi sont des variables indépendantes de même loi.
Introduction à la statistique 10 / 1
Skander HACHICHA 10 / 1
Échantillon
Introduction à la statistique 11 / 1
Skander HACHICHA 11 / 1
Échantillon
Introduction à la statistique 12 / 1
Skander HACHICHA 12 / 1
Échantillon
Définition
On appelle modèle d’échantillonage un modèle statistique du type
(X n , A⊗n , P⊗n
θ : θ ∈ Θ)
Définition
On appelle n−échantillon de loi Pθ sur (X , A) une suite
(X1 , · · · , Xn ) de n variables aléatoires à valeurs dans l’espace X
indépendantes et de même loi Pθ .
Introduction à la statistique 13 / 1
Skander HACHICHA 13 / 1
Échantillon
∀A1 × · · · × An ∈ A⊗n ;
Introduction à la statistique 14 / 1
Skander HACHICHA 14 / 1
Échantillon
Exemple
1 L’observation (x1 , · · · , xn ) est une réalisation d’un
n−échantillon (X1 , · · · , Xn ) de loi de Bernoulli B(θ) où
θ ∈]0, 1[, alors X = {0, 1}, A = P(X ). (X1 , · · · , Xn ) admet
pour densitéf (x1 , · · · , xn , θ)
Pn Pn
x
= Pθ (X1 = x1 , · · · , Xn = xn ) = θ i=1 i (1 − θ)n− x
i=1 i .
Introduction à la statistique 15 / 1
Skander HACHICHA 15 / 1
Échantillon
Exemple
1 L’observation (x1 , · · · , xn ) est une réalisation d’un
n−échantillon (X1 , · · · , Xn ) de loi normale N (m, σ) où
θ = (m, σ 2 ) ∈ R × R∗+ alors X = R, A = BR . (X1 , · · · , Xn )
admet pour densité
n
!
1 1 X
f (x1 , · · · , xn , θ) = exp − (xi − m)2 .
(2πσ 2 )n/2 2σ 2 i=1
Remarque
Le mot échantillon prend en statistique deux sens différents, selon que
l’on parle des données observées ou du modèle probabiliste. Pour
cela on désigne par (x1 , · · · , xn ) l’échantillon observé et qui est une
réalisation de l’échantillon (X1 , · · · , Xn ) défini au sens de la
définition précédente.
Introduction à la statistique 16 / 1
Skander HACHICHA 16 / 1
Vraisemblance
Définition
Soit (X , A, Pθ : θ ∈ Θ) un modèle statstique où Θ est un ouvert non
vide de R. Soit X une v.a de loi Pθ et de densité f (x, θ). Pour tout
x ∈ X (réalisation de X) on appelle vraisemblance associé à x
l’application
L(x, .) : Θ −→ R∗+
θ −→ L(x, θ) = f (x, θ)
Conséquence
1 Si X est discrète. Pour tout x ∈ X ,
L(x, θ) = f (x, θ) = Pθ (X = x)
2 Si X est v.a de densité fθ . Pour tout x ∈ X ,
Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ . On appelle
vraisemblance associé à la réalisation (x1 , · · · , xn ) de l’échantillon
(X1 , · · · , Xn ), l’application
L(x1 , · · · , xn , .) : Θ −→ R+
n
Y
θ −→ L(x1 , · · · , xn , θ) = f (xi , θ)
i=1
Introduction à la statistique 18 / 1
Skander HACHICHA 18 / 1
Vraisemblance
Conséquence
( Q
n
f (x ) si Pθ est absolument continue
L(x1 , · · · , xn , θ) = Qni=1 θ i
i=1 Pθ (Xi = xi ) si Pθ est discrète
Introduction à la statistique 19 / 1
Skander HACHICHA 19 / 1
Statistiques
Définition
Soit (X , A, Pθ : θ ∈ Θ) un modèle statistique. On appelle statistique
toute variable aléatoire de (X , A) dans (Θ, T ) où T est une tribu sur
Θ.
Introduction à la statistique 20 / 1
Skander HACHICHA 20 / 1
Estimateurs
Introduction à la statistique 21 / 1
Skander HACHICHA 21 / 1
Estimateurs
Définition
Soit (X1 , · · · , Xn ) un n−échantillon de loi Pθ . On appelle estimateur
de θ (resp de g(θ)) toute variable aléatoire Tn = T(X1 , · · · , Xn )
fonction de l’échantillon à valeurs dans (Θ, T ) où T est tribu sur Θ
(resp g(Θ)). Pour toute réalisation (observation) (x1 , · · · , xn ) ∈ X n
la valeur θbn = T(x1 , · · · , xn ) est dite l’estimation de θ (resp de g(θ)) (
θbn = T(x1 , · · · , xn ) est une réalisation de l’estimateur
T(X1 , · · · , Xn )).
Introduction à la statistique 22 / 1
Skander HACHICHA 22 / 1
Estimateurs
Cette définition est un peu vague et cache l’espoir que les valeurs
prises par l’estimateur soient proches de la vraie valeur de θ qui est et
restera inconnue puisque n’importe quelle fonction des observations à
valeurs dans l’ensemble des valeurs possibles de θ est un estimateur.
Mais, un estimateur T(X1 , · · · , Xn ) ne sera satisfaisant que si pour
n’importe quelle observation (x1 , · · · , xn ), l’estimation T(x1 , · · · , xn )
est proche en un certain sens de θ.
Remarque
L’application T ne doit pas dépendre du paramètre inconnu θ.
Introduction à la statistique 23 / 1
Skander HACHICHA 23 / 1
Estimateurs
Remarque
Il importe de bien distinguer les variables aléatoires liées à la
modélisation, de leurs réalisations identifiées aux données. Ainsi un
estimateur de θ est une variable aléatoire Tn = T(X1 , · · · , Xn ) et pour
un n−uplet de données (x1 , · · · , xn ) considéré comme réalisation des
variables aléatoires (X1 , · · · , Xn ), la valeur (réelle) prise par Tn qui
est en faite une réalisation de T(X1 , · · · , Xn ):
θbn = T(x1 , · · · , xn )
Introduction à la statistique 24 / 1
Skander HACHICHA 24 / 1
Estimateurs
Exemple
Soit une pièce dont on ignore si elle est ou non truquée. La probabilité
de tomber sur pile est le paramètre inconnu θ. On se propose de
réaliser 10 lancers de la pièce, que l’on modélisera par un
échantillon de taille 10 de la loi de Bernoulli de paramètre θ. Le
nombre de pile obtenu sur les 10 lancers est une variable aléatoire
qui suit la loi Binoniale B(10, θ). Le quotient de cette variable
aléatoire par 10 (la fréquence) est un estimateur de θ. Effectuons
maintenant les dix lancers en notant chaque fois 1 si pile sort, et 0 si
c’est face. Une réalisation de l’échantillon est par exemple :
1, 0, 0, 1, 0, 0, 0, 1, 1, 0
Introduction à la statistique 25 / 1
Skander HACHICHA 25 / 1
Estimateurs
Exemple
Pour cette réalisation, la fréquence empirique prend la valeur 0,4,
que l’on proposera comme estimation de θ. Bien évidemment, 10
nouveaux lancers de la même pièce pourront conduire à une
réalisation différente de l’échantillon et à une estimation différente de
θ.
Introduction à la statistique 26 / 1
Skander HACHICHA 26 / 1
Estimateurs
Remarque
L’estimation à partir d’un échantillon unique ne conduit
généralement pas à la vraie valeur du paramètre. Cette estimation va
varier d’un échantillon à l’autre. La réalisation d’un très grand
nombre d’échantillons de même taille permet de construire la
distribution de l’estimateur.
Remarque
Soit Tn un estimateur du paramètre θ et ϕ une fonction continue de R
dans R. Alors ϕ(Tn ) est un estimateur de ϕ(θ).
Introduction à la statistique 27 / 1
Skander HACHICHA 27 / 1
Statistique exhaustive
Définition
Une statistique T(X1 , . . . , Xn ) est dite exhaustive si la loi
conditionnelle de (X1 , . . . , Xn ) sachant que T = t ne dépend pas de θ.
(Ou encore de la loi Pθ )
Introduction à la statistique 28 / 1
Skander HACHICHA 28 / 1
Statistique exhaustive
Exemple
Soit (X1 , · · · , Xn ) un n−échantillon de loi de Bernoulli B(θ) de
paramètre θ ∈]0, 1[. Alors la statistique
T(X1 , · · · , Xn ) = X1 + · · · + Xn
Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi de Cauchy C(θ, 1) de densité
1
fθ (x) = π1 1+(x−θ) 2 . La moyenne empirique X
1
T(X1 , · · · , Xn ) = (X1 + · · · + Xn )
n
n’est pas exhaustive : elle contient la même information qu’une seule
observation Xi .
Introduction à la statistique 30 / 1
Skander HACHICHA 30 / 1
Factorisation
Théorème
Une statistique T(X1 , · · · , Xn ) est exhaustive si et seulement si il
existe des fonctions gθ et h mesurables et positives telles que la
densité f (x1 , · · · , xn , θ) de l’échantillon (X1 , · · · , Xn ) se factorise de
la façon suivante :
Introduction à la statistique 31 / 1
Skander HACHICHA 31 / 1
Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi normale N (θ, 1). Alors la
statistique
T(X1 , · · · , Xn ) = X1 + · · · + Xn = nX n
est exhaustive. En effet, on a
n
1X
f (x1 , · · · , xn , θ) = (2π)−n/2 exp(− (xk − θ)2 )
2 k=1
n
1
= (2π)−n/2 exp(− (n(xn − θ)2 +
X
(xk − xn )2 )
2 k=1
1
= (2π)−n/2 exp(− (n(xn − θ)2 )
2
n
1X
exp(− (xk − xn )2 )
2 k=1
Introduction à la statistique 32 / 1
Skander HACHICHA 32 / 1
Exemple
où
1 T(x1 , · · · , xn )
gθ (T(x1 , · · · , xn )) = exp(− (n( − θ)2 )
2 n
et
n
1X
h(x1 , · · · , xn ) = (2π)−n/2 exp(− (xk − xn )2 )
2 k=1
Introduction à la statistique 33 / 1
Skander HACHICHA 33 / 1
Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi uniforme U([−θ, θ]). Alors
la statistique
T(X1 , · · · Xn ) = (min Xi , max Xi )
est exhaustive. En effet , on a
n
f (x1 , · · · , xn , θ) = (2θ)−n
Y
1[−θ,θ] (xi )
i=1
= (2θ)−n 1{−θ≤min xi } 1{max xi ≤θ}
où
gθ (T(x1 , · · · , xn )) = (2θ)−n 1{−θ≤min xi } 1{max xi ≤θ}
et
h(x1 , · · · , xn ) = 1.
Introduction à la statistique 34 / 1
Skander HACHICHA 34 / 1
Exemple
En particulier si la loi est uniforme sur [0, θ] alors la statistique
T(X1 , · · · Xn ) = max Xi
où
gθ (T(x1 , · · · , xn )) = (θ)−n 1{T(x1 ,··· ,xn )≤θ}
et
h(x1 , · · · , xn ) = 1{0≤min xi }
Introduction à la statistique 35 / 1
Skander HACHICHA 35 / 1
Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi Poisson P(θ) alors
f (x1 , · · · , xn , θ) = Pθ (X1 = x1 , · · · , Xn = xn )
Pn
x
θ i=1 ie−nθ
= Qn
i=1 (xi )!
Pn
d’où T(X1 , · · · , Xn ) = i=1 Xi est une statistique exhaustive avec
et
n
(xi )!)−1
Y
h(x1 , · · · , xn ) = (
i=1
Introduction à la statistique 36 / 1
Skander HACHICHA 36 / 1
Exemple
Soit (X1 , · · · , Xn ) un n-échantillon de loi normale N (m, σ),
θ = (m, σ). Alors la statistique
n
X n
X
T(X1 , · · · , Xn ) = ( Xi , Xi2 )
i=1 i=1
Introduction à la statistique 37 / 1
Skander HACHICHA 37 / 1
Exemple
où
n n n n
!
X X
2 −n/2 1 X m X nm2
gθ ( xi , xi2 ) = (2πσ ) exp − 2 xi2 + 2 xi − 2
i=1 i=1
2σ i=1 σ i=1 2σ
et
h(x1 , · · · , xn ) = 1
Cela implique que dans le cas où m est inconnu, la statistique (X n , Sn2 )
où
1 Pn
Sn2 = n−1 2
i=1 (Xi − X n ) est exhaustive de même, si m est connu la
statistique Vn2 = 1n ni=1 (Xi − m)2 , est aussi exhaustive pour le
P
paramètre σ 2 .
Introduction à la statistique 38 / 1
Skander HACHICHA 38 / 1