Echantillonnage Et Estimation PDF
Echantillonnage Et Estimation PDF
Echantillonnage Et Estimation PDF
Chapitre 5
Echantillonnage et Estimation
Echantillonnage
1
28/12/2014
Population
• Une Population est toute collection d’objets à
étudier ayant des propriétés communes
appelés des individus ou unités statistiques
• Une population peut être infinie, ou finie de
taille N.
• La statistique traite des propriétés des
populations plus que celles d’individus
particuliers.
Échantillon
• L’étude de tous les individus d’une population finie
s’appelle un recensement. Lorsque l’on observe qu’une
partie de la population, on parle de sondage.
• La partie étudiée s’appelle l’échantillon.
• Il existe plusieurs méthode de construction d’un
échantillon, dont la plus simple est celle de
l’échantillonnage aléatoire simple correspondant à des
tirages équiprobables et indépendants les uns des
autres.
• Sa taille est notée n<<N
• Dans ces conditions, les observations deviennent des
v.a. ainsi que les résumés numérique usuels: ils
convient donc d’en chercher les lois de probabilité
avant de tenter d’extrapoler (inférés) à la population.
4
2
28/12/2014
Échantillon
• Si on prélève au hasard n individu dans une
population finie de taille N et on veut étudier une
caractéristique X de la population.
• X est une v.a. appelée v.a. mère ou parente.
• À chaque individu i tiré, on associe une v.a. Xi
dont on observe une seule réalisation xi. Alors les
Xi sont des v.a. ayant toutes la même distribution,
celle de X.
• On suppose que les Xi sont mutuellement
indépendantes (ou au moins, indépendantes
deux à deux).
5
Échantillon
• On a donc la double conception suivante: Les
valeurs observées (x1,x2,…,xn) constituent n
réalisations indépendantes d’une v.a. X ou
encore, une réalisation unique du n-uple
(X1,X2,…,Xn) où les Xi sont n v.a.
indépendantes et de même loi.
• On note par la suite un échantillon le n-uple
(X1,X2,…,Xn) .
3
28/12/2014
Les statistiques
• La théorie de l’échantillonnage se propose
d’étudier les propriétés du n-uple (X1,X2,…,Xn)
et des caractéristiques le résumant, les
statistiques, à partir de la distribution
supposée connue de la variable parente X, et
d’étudier en particulier ce qui se passe lorsque
la taille de l’échantillon est élevée.
Les statistiques
• Il est d’usage dans la pratique de résumer les
n valeurs d’un échantillon x1,x2,…,xn par
quelques caractéristiques simples telles que
moyenne, plus grande valeur, etc.
• Ces caractéristiques sont elles-mêmes des
réalisations de v.a. issues de X1,X2,…,Xn.
• Une statistique T est une v.a. fonction
mesurable de X1,X2,…,Xn
T=f (X1,X2,…,Xn )
8
4
28/12/2014
Les statistiques
• Exemples:
• La moyenne empirique d’un échantillon
(X1,X2,…,Xn) est:
1 n
X = ∑ Xi
n i =1
• Sa variance empirique est:
S = ∑ (X i − X )
21 n 2
n i =1
9
La distribution de la moyenne
• Pour une réalisation (x1,x2,…,xn), la statistique X
n
prendra la valeur x = 1 x
n
∑ i =1
i
10
5
28/12/2014
Propriétés
1. L’espérance mathématique, notée µ X , de X
est égale à la moyenne m de la population:
µX = m
En effet, on a:
µ X = E (X ) = E ∑ X i
1 n
n i =1
1 n 1 n
= E ∑ X i = ∑ E ( X i )
n i =1 n i =1
= (m + m + … + m ) = nm = m
1 1
n n
11
Propriétés
σ2
X σ 2
2. La variance de , notée X , est égale à
n
où σ2 est la variance de la population et n la
taille de l’échantillon.
En effet, on a:
1
σ X2 = Var (X ) = Var
n
∑
n i =1
Xi
n
σ2
Var ( X i ) = 2 nσ =
1 1
= 2
n
∑
i =1 n
2
n
où les v.a. Xi sont indépendantes
12
6
28/12/2014
Remarques
• La moyenne et la variance de X sont calculées
pour le cas d’un échantillon de variables
aléatoires indépendantes et identiquement
distribuées (échantillon tiré avec remise d’une
population finie ou échantillon tiré avec ou
sans remise d’une population infinie).
• Si l’échantillon est tiré sans remise d’une
population finie, les variables ne sont plus
indépendantes. Dans ce cas, on a toujours
µ X = E (X ) = m
13
14
7
28/12/2014
[
Cov(X i , X j ) = E ( X i − m )(X j − m ) ]
= ∑∑ ( xl − m )( xk − m )P (X i = xl ; X j = xk )
N N
l =1 k =1
= ∑∑ ( xl − m )( xk − m )P( X i = xl )P (X j = xk / X i = xl )
N N
l =1 k =1
P(X j = xk / X i = xl )
N N
= ∑∑ ( xl − m )( xk − m )
1
l =1 k =1 N
N N
= ∑∑
(xl − m )(xk − m ) 1 1 pour k ≠ l
l =1 k =1
0 pour k = l N N −1
Cov (X i , X j ) =
1 1 N
On a donc: ∑ (xl − m)(xk − m)
N N − 1 l ,k =1
l ≠k 15
2
N N N
Comme ∑ i ( x − m ) ∑ i
= ( x − m )2
+ ∑ (xl − m )(xk − m ),
i =1 i =1 l , k =1
l ≠k
2
N
∑ ( xi − m ) = 0
i =1
N
∑ (x − m) = Nσ 2 ,
2
et i
i =1
on obtient Cov(X i , X j ) =
1 1
N N −1
(
− Nσ 2 )
1 2 N − σ 2 1 2 σ 2
et donc Var(X ) = nσ + ∑
=
n2 nσ − n( n − 1)
n2 l ,k =1 N −1 N −1
l ≠k
σ2 N −n
D’où Var (X ) =
n N −1
N −n
s’appelle facteur d’exhaustivité
N −1 16
8
28/12/2014
Propriété:
• On peut affirmer, en vertu des propriétés de la loi
normale, que lorsque la population a une
distribution normale, la distribution
d’échantillonnage de la moyenne est aussi
normale.
• Le théorème de la limite centrale nous permet
d’affirmer, d’autre part, que quelle que soit la
distribution de la population, la distribution de
X −m est normale N(0,1) lorsque n est grand
σ/ n
(en pratique ceci est vrai dès que n>30).
17
La distribution de la variance
• La variance empirique d’un échantillon aléatoire
(X1,X2,…,Xn) est défini par:
S = ∑ (X i − X )
21 n 2
n i =1
• Pour une réalisation n(x1,x2,…,xn), la statistique S2
prendra la valeur 1 ∑ (xi − x )2 . Pour une autre
n i =1
réalisation, dans les mêmes conditions, un
deuxième échantillon donnera pour réalisation
( x1′, x′2 ,…, x′n ) et S2 prendra alors la valeur
1 n 1 n
∑ (x'i − x ')2 où x'= ∑ x'i
n i =1 n i =1 18
9
28/12/2014
Propriétés
n −1 2
1- E (S 2 ) = σ
n
2- Var S 2 = ( ) n −1
n 3
[
(n − 1)µ 4 − (n − 3)σ 4 ]
3- Cov(X , S 2 ) = n −2 1 µ3
n
19
Propriétés
4. Si la distribution de la population 2est
normale, la variable aléatoire nS 2 suit une
σ
loi du χ2 à n-1 degrés de liberté: nS 2
~ χ 2 (n − 1)
En effet, on a: σ 2
∑ (X i − X) = ( X i − m )2 − n(X − m )2
nS 2 1 n
1 n
2 ∑
2
=
σ2 σ2 i =1 σ i =1
2
X −m X −m
n 2
= ∑ i −
i =1 σ σ / n
20
10
28/12/2014
i =1
21
n
En effet, on a
σ 2 nS 2 σ 2 nS 2 σ 2 σ2
( )
E S 2 = E
σ 2
= E =
σ2 n k = ( n − 1)
n n n
22
11
28/12/2014
σ
= 2 Var 2 = 2 2k = 2 2(n −1)
2
n n σ n n
où 2k est la variance d’une variable aléatoire
qui suit une loi du χ2 à k degrés de liberté
(dans notre cas k=n-1).
23
σ/ n σ2
X −m
rapport σ / n = X − m ~ T ( n − 1) .
nS 2 S2
( n − 1)σ 2 n −1
24
12
28/12/2014
25
Propriétés
1. μfn=E(fn)=p
En effet, la variable aléatoire X=n fn~B(n,p) et
X 1
µ f = E ( f n ) = E = E ( X ) = np = p
1
n n n
n
2. Var( f n ) = p(1 − p)
n
En effet,
X 1 p (1 − p )
Var ( f n ) = Var = 2 Var ( X ) = 2 np (1 − p ) =
1
n n n n
26
13
28/12/2014
Propriétés
3. Si le tirage se fait sans remise, on a toujours
E(fn)=p. Mais la variance dans ce cas, vaut:
p (1 − p ) N − n
Var ( f n ) =
n N −1
• En effet,
X 1
Var ( f n ) = Var = 2 Var ( X ).
n n
Comme X suit une loi hypergéométrique et
N −n
Var ( X ) = np (1 − p)
N −1
On en déduit la formule de Var(fn) au dessus.
27
Propriétés
4. Pour une taille n de l’échantillon assez grande
(en pratique n≥30), on a
fn − µ fn fn − p
= ~ N (0,1)
σf n
p (1 − p )
n
28
14
28/12/2014
Propriétés
1. µ X −Y = m1 − m2
En effet,
µ X −Y = E (X − Y ) = E (X ) − E (Y ) = m1 − m2
2. 1 2 1 2
σ X2 −Y = σ + σ
n1 X n2 Y
En effet,
σ X2 −Y = Var (X − Y ) = Var (X ) + Var (Y )
car X et Y sont indépendantes. On a donc le
résultat pour un tirage exhaustif (avec remise)
30
15
28/12/2014
Propriétés
• (suite 2°) Dans le cas d’un tirage non exhaustif
(sans remise), il faut tenir compte du
coefficient d’exhaustivité car
σ X2 N1 − n1 σ2 N −n
Var (X ) = et Var (Y ) = Y 2 2
n1 N1 − 1 n2 N 2 − 1
3. En supposant n1 et n2 grands, on peut dire
que X et Y suivent toutes deux des lois
normales. Comme elles sont indépendantes,
X − Y suit aussi une loi normale. On conclut
donc que (X − Y ) − µ X −Y = (X − Y ) − (m1 − m2 ) ~ N (0,1)
σ X −Y σ X2 σ Y2
+ 31
n1 n2
Exercice
On choisit au hasard six nombres parmi les
nombres entiers de 1 à 9, chacun de ces
nombres a la même probabilité d’être choisi.
Calculer la moyenne et l’écart-type de la
distribution d’échantillonnage des moyennes
dans les 2 cas:
1. Tirage sans remise.
2. Tirage avec remise.
32
16
28/12/2014
Solution
1+ 2 +⋯ + 9
1. La moyenne de la population est m = =5
9
Sa variance σ2 vaut: σ 2 = 1 [(1 − 5)2 + (2 − 5)2 + ⋯ + (9 − 5)2 ] = 6,67
9
L’écart-type est σ=2,58.
Il y a C96 = 84 façons de choisir six nombres parmi
les 9.
Chacun de ces 84 échantillons possibles a une
1 6
moyenne x = ∑ xi où xi (i=1,2,…,6)
n i =1
représente un des 9 nombres.
33
• D’où σ X = 0,645
34
17
28/12/2014
35
Annexe 1:
Tirage d’un échantillon
36
18
28/12/2014
E(X ) = n
a nab(a + b − n )
et Var ( X ) =
a+b (a + b )2 (a + b − 1)
Mais, a+b=N alors,
nab(N − n )
E(X ) = n
a et Var ( X ) = 2
N N (N − 1)
La probabilité de tirer une boule blanche sera:
a a N −a b
p= et 1− p = q = 1− = =
N N N N
⇒ E ( X ) = np et Var ( X ) = npq
(N − n ) = np(1 − p) (N − n )
(N − 1) (N − 1)
37
19