Cours Hechner Sondages
Cours Hechner Sondages
Cours Hechner Sondages
Cours de Master 2
Florian HECHNER
[email protected]
27 juin 2011
Avant-propos
Ces notes sont celles du cours intitul enqutes et sondages que jai donn au premier
semestre de lanne universitaire 20092010 la fois pour les tudiants en deuxime anne
de Master Mathmatiques et applications, spcialit Statistique et pour les tudiants en
deuxime anne de Master Finances, spcialit Actuariat et gestion de risque tous deux
lUniversit de Strasbourg.
Le cours sappuie essentiellement sur celui donn les annes prcdentes par Myriam
Maumy-Bertrand, dont les transparents sont disponibles sur
www-irma.u-strasbg.fr/~mmaumy
En particulier, le plan est permutation prs celui adopt prcdemment. Les exercices et
leurs corrigs sont directement ceux des annes prcdentes. Ils sont galement disponibles
sur la page personnelle de Mme Maumy-Bertrand.
Ce cours est trs certainement incomplet, et prsente au-moins deux dfauts majeurs :
il manque quelque peu dexemples et il souffre de labsence dune partie dinformatique
avec prsentation des algorithmes courants dchantillonnage. Ces deux manques sont lis
ce qui est lune des spcificits des enqutes : les chantillons sont gnralement assez
grands, ce qui rend presque obligatoire lutilisation dun moyen de calcul automatique, et
lorganisation de lenseignement ne prvoit pas dautre outil quune calculatrice, ce qui
nest pas trs pratique !
Vous pouvez madresser vos critiques, remarques, commentaires, suggestions. . . par courriel
[email protected]
Vous trouverez une page derrata et la version mise jour de ce cours sur ma page personnelle
www-irma.u-strasbg.fr/~hechner
Bibliographie commente
Les ouvrages sur les sondages ne manquent pas : point de vue mathmatique, sociologique,
conomique, politique. . . sont diffrentes facettes de cette matire. Nous nous concentrons
bien sr sur la partie mathmatique. Vous trouverez un certain nombre de livres dans la
bibliographie en fin de polycopi, certains ny figurant qu titre de curiosit. Les principaux
ouvrages consulter absolument sont ceux cits ci-aprs :
Le point de vue adopt dans ce cours est essentiellement celui de Till, dont lexcellent
manuel [11] est la principale source dinspiration. Le principe des diffrents sondages y est
fort bien expliqu, et le livre contient de nombreux exercices parfois corrigs.
Louvrage de Grosbras [9], qui constituait la base du cours de Mme Maumy-Bertrand
est galement un excellent manuel, souvent plus complet encore que celui de Till (il
prsente plus frquemment les rsultats obtenus dans le cas de tirages avec remise, et
insiste galement davantage sur les aspects pratiques et non mathmatiques du sondage).
Nanmoins il souffre mes yeux dune typographie plus ancienne et donc dune plus grande
difficult tre lu ! Le livre dexercices [5] avec des indications de corrig en est un bon
complment.
Le livre dArdilly [1] prsente de faon trs dtaille les techniques de sondage, avec de
nombreux exemples et commentaires. Lauteur a galement crit le livre dexercices corrigs
[2] dont beaucoup dexercices des feuilles de TD sont tirs.
Je recommande trs vivement la lecture du petit livre [6] de la collection que sais-je, qui
contient, en peu de pages, une grande partie de la thorie (bien sr sans les preuves).
Enfin, le livre de Garrigou [7] est galement lire. Il ne sagit point ici de mathmatiques,
mais dune critique acerbe de la faon dont les instituts de sondage agissent, et des rsultats
auxquels ils arrivent.
Bibliographie commente
Gnralits
11
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
15
15
16
17
17
17
18
18
19
19
19
20
20
21
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
23
24
24
24
26
27
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1.4
1.5
1.6
1.7
II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30
32
32
33
34
34
36
36
37
37
38
39
40
41
43
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
distinctes
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
probabilits ingales
probabilits ingales avec remise . . . . . . . . . . . . . . . . . . .
Estimation dune moyenne . . . . . . . . . . . . . . . . . . . . . . .
Estimation dun total . . . . . . . . . . . . . . . . . . . . . . . . . .
Choix des Pi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparaison avec les sondages alatoires simples probabilits gales
avec remise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sondage alatoire simple probabilits ingales sans remise . . . . . . . . .
3.2.1 Estimation dune moyenne . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Estimation dun total . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Un exemple de calcul de probabilits dinclusion . . . . . . . . . . .
45
45
46
47
48
49
49
50
51
51
53
53
54
55
57
58
58
59
59
59
60
60
61
61
.
.
.
.
.
.
.
.
.
.
.
.
.
III
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
64
65
65
66
67
68
69
70
72
72
72
72
.
.
.
.
.
.
75
75
77
78
78
78
79
.
.
.
.
.
.
81
81
81
82
83
84
87
89
7 Stratification a posteriori
7.1 Le principe . . . . . . . . . . . . . . . . . . .
7.2 Les formules . . . . . . . . . . . . . . . . . . .
7.2.1 Estimateur de la moyenne . . . . . . .
7.2.2 Estimateur du total . . . . . . . . . . .
7.3 Comparaison avec un sondage alatoire simple
7.4 Redressement sur critres multiples . . . . . .
91
91
91
92
92
94
96
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
99
100
100
101
102
103
103
.
.
.
.
107
107
107
107
108
109
Bibliographie
113
Premire partie
Gnralits
11
Chapitre 0
Rappels sur lestimation
0.1
Introduction
14
Une autre approche consiste fournir non pas une estimation de mais un intervalle
(alatoire) contenant avec une forte probabilit. Un tel intervalle est appel intervalle de
confiance pour .
Nous allons commencer par donner quelques dfinitions plus rigoureuses, puis les proprits
qui font quun estimateur est bon. Nous donnerons ensuite quelques exemples (en pratique,
pour les sondages, seules moyennes et variances nous intresseront). Ltude de ces exemples
se poursuivra par ltude de la loi suivie par les estimateurs usuels. Enfin, nous conclurons
par la construction dintervalles de confiance, en particulier pour une moyenne.
0.2
Dfinitions
Soit un paramtre inconnu dfini au sein dune population et lensemble des valeurs
possibles du paramtre . Soit X une v.a. dont la loi P dpend de .
Dfinition 0.2.1 :
Soit (X1 , . . . , Xn ) un n-chantillon de loi celle de X. On appelle estimateur de toute
fonction (mesurable) b de lchantillon :
b := h(X1 , . . . , Xn ).
Remarquons que b est ici une variable alatoire dont la loi dpend du paramtre inconnu.
Dfinition 0.2.2 :
Une fois lchantillon prlev, on dispose de n-observations x1 , . . . , xn . Lvaluation
de lestimateur en (x1 , . . . , xn ) est alors appele estimation de :
b := h(x1 , . . . , xn ).
On rencontre l une difficult de notations : en gnral, on note les v.a. par des majuscules,
et leurs ralisations par des minuscules. Cela nest pas vrai ds que lon travaille avec des
lettres grecques, ce qui est gnralement le cas pour les estimateurs ! ! Il convient donc
de faire attention lobjet avec lequel on travaille (v.a. ? rel ?), dautant plus que la
convention nest pas toujours respecte, mme quand elle pourrait ltre (et mme par
moi !)
Bien sr, il est important de disposer de critres objectifs permettant de choisir un estimateur, et de ne pas se fier sa seule intuition. Ces proprits attendues font lobjet du
paragraphe suivant.
15
0.3
Prcisons quun estimateur dpendant des (Xi )16i6n , il dpend en particulier de la taille
b n soit souvent
n de lchantillon. On ne stonnera donc pas que la suite destimateurs ()
identifie lestimateur lui-mme. . .
0.3.1
La premire bonne proprit que lon peut attendre dun estimateur est quil sapproche
de la vraie valeur de quand la taille n de lchantillon tend vers +.
Dfinition 0.3.1 :
Un estimateur b dun paramtre est dit convergent sil converge en probabilit vers
quand la taille de lchantillon tend vers +.
Il est peut-tre ncessaire de rappeler ici la dfinition de la convergence en probabilit :
Dfinition 0.3.2 :
Une suite (Zn ) de v.a. converge en probabilit vers une v.a. Z si
> 0, N, n > N, P(|Zn Z| > ) 6 .
Un outil souvent efficace pour montrer la convergence en probabilit est lingalit de
Bienaym-Tchebychev :
Proposition 0.3.3 :
Soit X une v.a. admettant un moment dordre 2. Alors
> 0, P(|X EX| > ) 6
Var X
.
2
Le corollaire suivant est quelque peu anticip, mais comme il sagit dun chapitre de rappels :
Corollaire 0.3.4 :
Un estimateur sans biais dont la variance tend vers zro est convergent.
0.3.2
Le bon sens impose galement que lestimateur ne soit, n fix, pas trop loin de la vraie
valeur. On peut par exemple sattendre ce que lestimateur ait sa loi centre sur le
paramtre inconnu.
16
Dfinition 0.3.5 :
On dit quun estimateur b dun paramtre est un estimateur sans biais de (ou
quil est non biais) si :
Eb = .
De faon plus gnrale, on dfinit le biais dun estimateur :
Dfinition 0.3.6 :
On appelle biais dun estimateur b du paramtre la quantit :
b := Eb .
B()
Il est rassurant de voir quun estimateur sans biais a un biais nul. . .
Signalons enfin quun estimateur est dit asymptotiquement sans biais si son biais tend vers
0 lorsque la taille de lchantillon tend vers +.
0.3.3
17
0.4. EXEMPLES
Dfinition 0.3.9 :
Un estimateur b1 est dit relativement plus efficace quun estimateur b2 si
EQM (b1 ) 6 EQM (b2 ).
Passons prsent aux exemples classiques.
0.4
Exemples
Dans toute cette partie, on se placera dans le cas de n-chantillons alatoires simples :
(Xi )16i6n est une suite de copies indpendantes de X. (On supposera le cas chant que
X admet un moment dordre suffisant pour les dmonstrations.)
0.4.1
x1 ++xn
n
X1 + + Xn
.
n
Proposition 0.4.2 :
0.4.2
1X
S2n := S2 :=
(Xi
b)2 =
n i=1
1X 2
X
n i=1 i
b2 .
S2n,c := S2c :=
1 X
n
(Xi
b)2 =
S2 .
n 1 i=1
n1
18
Proposition 0.4.4 :
S2c est un estimateur sans biais de 2 , S2 est asymptotiquement sans biais, et S2 est
plus efficace que S2c .
Dmonstration faire en exercice!
Remarque 0.4.5 :
titre dexercice (plus long), vous pouvez montrer que Var S2
=
4
n1
4
((n 1)4 (n 3) ), o 4 := E(X ) est le moment centr dordre
n3
4 de X, et donc que S2c et S2 sont convergents.
0.4.3
0.4.4
Il peut arriver que lon cherche estimer un ratio, cest--dire une quantit de la forme
X
,
R :=
Y
o X et Y sont les moyennes de deux v.a. X et Y.
Si c
c
X et
Y sont respectivement des estimateurs de X et Y , alors un estimateur naturel
de R est
X
b := c
.
R
c
Y
Les calculs de biais et de variance sont dlicats, car on cherche estimer un quotient de
variables alatoires, et la prsence dune variable alatoire au dnominateur complique les
choses. On est amens utiliser des dveloppements limits pour rgler le problme ! On
crit :
c
c
c
Y R
X
Y R
X
b R = c
R
=
,
c
X (1 + )
X
X
o := cX
. Selon le choix de lestimateur c
X , on peut considrer que quand n est grand
X
est petit ( peut tendre vers 0 en probabilit), et on peut alors faire un dveloppement
limit, et crire le biais de la faon suivante :
c
c
Y R
X
2
b
E(R R) = E
.(1 + . . .) .
X
19
0.5
Il est important, pour pouvoir faire des calculs de probabilits, (et a fortiori pour la
construction dintervalles de confiance qui fera lobjet de la dernire partie du chapitre) de
connatre la loi suivie par les estimateurs considrs. En pratique, le statisticien sait mener
bien les calculs dans essentiellement deux cas :
Si X suit une loi normale (dite aussi gaussienne).
Si lchantillon est de taille grande (n > 30).
Dans le second cas, on emploie gnralement le thorme de la limite centre (dit aussi
thorme central limite) :
Thorme 0.5.1 :
Soit (Yi ) une suite de v.a. indpendantes, admettant une mme esprance et une
mme variance 2 . Notons, pour tout n, Zn := Y1 + . . . + Yn la n-ime somme
partielle de la suite (Yi ). Alors la quantit
Zn n
Yn
=
=
n
n
n
converge en loi vers une v.a. Z suivant une loi normale centre rduite quand n
+.
Remarque 0.5.2 :
En pratique, si n > 30 (ou parfois 50), on identifie
0.5.1
Z
n n
n
et la v.a. limite Z.
Proposition 0.5.3 :
Si X suit une loi normale, alors :
b
suit une loi normale centre rduite.
nS2
2 suit une loi 2n1 .
b et S2 sont
indpendants.
Tn1 := n 1 b
suit une loi de Student tn1 .
S
Dmonstration faire en exercice!
0.5.2
20
Proposition 0.5.4 :
Si n est suffisamment grand, alors :
b
suit approximativement une loi normale centre rduite.
S 2
4 4 suit approximativement une loi normale centre rduite.
0.6
Intervalles de confiance
Lestimation que nous avons considre jusqu prsent est lestimation ponctuelle : on
donne une valeur b estimant la vraie valeur . Il est souvent plus agrable de disposer
dun encadrement de la vraie valeur , dautant plus que lon peut alors construire des
procdures permettant de connatre le risque derreur.
On cherche donc fournir un intervalle a 6 6 b, un intervalle de confiance.
0.6.1
Principe gnral
Pour cela, la stratgie est toujours la mme. On suppose quon a trouv un estimateur b
de dont on connat la loi de probabilit pour chaque valeur de . On se fixe un risque a
priori. (Gnralement, = 5%.) On commence par construire un intervalle de probabilit
de niveau 1 pour b :
Dfinition 0.6.1 :
On appelle intervalle de probabilit de niveau 1 pour b un intervalle [a1 , a2 ] tel
que
P(a1 6 b 6 a2 ) > 1 .
(si possible = 1 .)
Remarque 0.6.2 :
videmment, a1 et a2 dpendent de .
En pratique, on choisit souvent un intervalle risque symtrique.
On cherche pivoter la relation pour obtenir un intervalle de confiance :
Dfinition 0.6.3 :
On appelle intervalle de confiance de niveau 1 ou au risque pour un intervalle
b vrifiant :
alatoire [1 , 2 ] (i.e. 1 et 2 sont deux v.a., construites partir de )
P(1 6 6 2 ) > 1 .
0.6.2
Exemples
21
22
Chapitre 1
Introduction aux mthodes de sondage
1.1
Quelques exemples
Tout le monde croit bien connatre la notion de sondage. Pourtant, leur champ dapplication
est bien plus vaste que ce que lon peut croire. Les sondages dopinion ne sont quune petite
partie des sondages pratiqus !
Le mot sonder apparat ds 1342. En 1559, il est dfini comme chercher pntrer (par
Amyot [les vies des hommes illustres. . . ]). Le terme sondage narrive que deux sicles
plus tard, mais dans le mme sens.
Aujourdhui encore, la recherche de gisements ptroliers seffectue par sondage. Mais le
terme dsigne prsent plus gnralement une technique statistique permettant de raliser
des enqutes dans des conditions contrles, sur des sous-ensembles de la population, qui
sont dsigns soit au hasard, soit en fonction de caractristiques particulires. On peut par
exemple citer :
24
1.2
Un bref historique
1.3
1.3.1
Dfinition 1.3.1 :
On considre une population de rfrence U (parfois appele univers) de taille N .
Les lments u1 , . . . , uN de cette population sont appels units statistiques ou units
dobservation, ou encore individus.
Remarque 1.3.2 :
Il est trs important de dfinir trs prcisment la population de rfrence avant de
dbuter une enqute !
Dfinition 1.3.4 :
On suppose quil existe, pour chaque individu de la population, une information
permettant de le reprer prcisment sans aucune ambigut. On suppose galement
quil existe une liste exhaustive de toutes les units dobservation, appele base de
sondage.
Proposition 1.3.5 :
Une base de sondage doit avoir les bonnes proprits suivantes :
1. permettre de reprer lunit sans ambigut ;
2. tre exhaustive : chaque unit de la population de rfrence doit tre rpertorie,
faute de quoi on a une base de sondage incomplte. On parle alors de dfaut de
couverture. (On peut dans une certaine mesure traiter ce problme.)
3. tre sans compte double : un individu ne doit tre prsent quune seule fois dans
la base.
Autrement dit, il est souhaitable davoir une bijection entre la base et la population !
Remarque 1.3.6 :
Si possible, on essaye de conserver toute linformation auxiliaire dont on dispose sur
la base. Ceci est important pour pouvoir redresser les donnes, comme nous le verrons
dans ce cours.
Remarque 1.3.7 :
Dans la suite, on disposera toujours dune base de sondage, et on reprsentera chaque
individu par un numro compris entre 1 et N , son identifiant. On parlera gnralement
de lindividu i et non pas de lindividu ui comme on devrait le faire.
25
26
Remarque 1.3.8 :
Dans la pratique, il est trs difficile davoir une bonne base de sondage, alors que
cest primordial : lannuaire tlphonique manque dexhaustivit, prsence de comptes
doubles ; les listes lectorales ont un dfaut de couverture encore plus important. . .
En labsence de base de sondage, ou si celle-ci est trop importante pour que lon
puisse lutiliser, on peut avoir recours des sondages empiriques, des sondages
plusieurs degrs. . . Nous reparlerons de tout a.
1.3.2
Variable dintrt
Lobjet du sondage porte sur un caractre X, appel plus souvent variable dintrt. (Attention ! ce nest pas une variable alatoire !)
Dfinition 1.3.9 :
On considre un caractre X aussi appel variable dintrt, dfini pour chaque individu de la population, et formalisant linformation qui nous intresse. La valeur prise
par cette variable sur lindividu numro i est note Xi .
Le vecteur (X1 , . . . , XN ) est parfois appel vecteur paramtre.
Remarque 1.3.10 :
Un individu i tant fix, la quantit Xi nest PAS alatoire ! Tout lala du sondage
rside dans le choix de lindividu : on peut choisir ou non lindividu i.
Exemples 1.3.11 :
Revenons aux exemples prcdents. On peut considrer :
1. le budget X dpens par un touriste ;
2. le revenu X du mnage ;
3. la variable X qui indique si une pice est dfectueuse ou non.
Remarque 1.3.12 :
Les variables dintrt peuvent tre quantitatives, comme dans les deux premiers
exemples, qualitatives, dichotomiques, comme cest le cas dans le troisime. . . Pour le
troisime exemple, on considre en pratique la variable indicatrice qui vaut 1 si la pice
est dfectueuse et 0 sinon qui permet de la traiter comme une variable quantitative.
Dans toute la suite du cours, la variable tudie sera quantitative pour simplifier la
prsentation.
27
Remarque 1.3.13 :
Lobjectif du sondage nest pas de collecter des informations sur les units, mais
destimer une fonction dintrt, qui rsume linformation :
:= (X1 , . . . , XN ).
Gnralement, cette fonction est :
1. La moyenne de ces valeurs :
N
1 X
1 X
Xi =
Xi .
X :=
N iU
N i=1
Xi =
iU
N
X
Xi .
i=1
1.3.3
chantillon
Nous allons distinguer deux types dchantillon, selon que lon autorise ou non des remises.
28
Remarque 1.3.15 :
Lensemble des chantillons de taille n ordonns avec remise forme une partie de U n .
Il y a N n chantillons de taille n avec remise que lon peut construire partir dune
population de N individus.
Remarquons quil est possible de crer des chantillons avec remise de taille n pour tout
n N, y compris pour n > N .
Dfinition 1.3.16 :
Un chantillon avec remise est donc un lment de e := U U 2 U 3 . . ..
1.3.4
Dfinition 1.3.20 :
On appelle enqute la dmarche consistant collecter et traiter linformation pour
mieux connatre la population au travers des Xi .
On appelle paramtres de lenqute les quantits que lon cherche estimer, cest-dire les variables dintrt.
On peut distinguer deux types denqutes :
29
Dfinitions 1.3.21 :
1. On appelle recensement une enqute exhaustive, cest--dire une enqute dans
laquelle on mesure les valeurs Xi pour tous les individus i U . Dans ce cas, on
peut calculer exactement les paramtres recherchs.
2. On appelle sondage ou enqute par sondage une enqute dans laquelle la collecte
de linformation X ne seffectue que sur une partie de la population, formant
un chantillon dindividus que lon interroge. La constitution de lchantillon
est lchantillonnage.
Lchantillonnage seffectue laide dun plan de sondage :
Dfinition 1.3.22 :
On appelle plan de sondage avec remise (resp. sans remise) la donne dune probabilit
sur e (resp. ).
Exemple 1.3.23 :
On considre la population U := {1, 2, 3, 4, 5, 6}.
On considre les chantillons : s1 := {1, 2, 3}, s2 := {1, 4, 5}, s3 := {5, 6}.
Un plan de sondage sans remise est donn par :
1
1
1
P(s1 ) := , P(s2 ) := , P(s3 ) := et s
2
4
4
, i = 1, 2, 3, s 6= si , P(s) = 0.
Remarque 1.3.24 :
Un recensement correspond donc au plan de sondage sans remise dfini par
P(U ) = 1,
, s 6= U, P(s) = 0.
30
Notons quil est tout bonnement impossible, dans certaines situations, de procder un
recensement : imaginez de procder par recensement pour tester la rsistance de carrosseries
de voitures un choc violent !
Enfin, procder sans cesse des recensements entranerait sans doute des taux de nonrponse catastrophiques ! !
Remarque 1.3.25 :
Les notions de recensement et de sondage sont donc complmentaires : les recensements fournissent des bases de sondage et de linformation auxiliaire, tandis que les
sondages permettent de tester la qualit des recensements.
Remarque 1.3.26 :
Le recensement nexiste souvent pas en pratique : dmnagement des gens durant la
dure du recensement . . .
1.3.5
Dfinition 1.3.27 :
On notera n la taille dun chantillon obtenu lors dun sondage, cest--dire le nombre
dindividus interrogs pour obtenir lchantillon donn. On a donc 1 6 n 6 N .
e (comme
On notera lchantillon alatoire sans remise (resp. avec remise) S (resp. S)
sample, traduction anglaise dchantillon).
On notera enfin n (resp. e n ) lensemble des chantillons de taille n sans (resp. avec)
remise.
Remarque 1.3.28 :
Un chantillon est donc de taille fixe si Var(n) = 0.
31
Dfinition 1.3.29 :
On appelle taux de sondage la proportion, note f , dindividus sonds :
f :=
n
N
32
1.3.6
Sources derreur
Dfinition 1.3.33 :
1. On appelle erreur de couverture lerreur lie au fait que la base de sondage ne
corresponde pas la population-cible, ce qui rend impossible lapplication du
plan de sondage prvu.
2. On appelle erreur dchantillonnage lerreur qui provient du fait que les estimations obtenues suite un chantillonnage sont uniquement fonctions des
individus formant lchantillon et pas de tous les individus. En pratique, on la
quantifie laide de lcart quadratique moyen de lestimateur considr. Cest
celle que lon va essayer de contrler.
3. On appelle erreur cause par la non-rponse lerreur lie labsence de rponses
de la part de certains individus.
4. On appelle erreur dobservation ou erreur de mesure lerreur qui provient du
fait que linformation collecte sur lindividu i nest pas la vraie valeur. Elle
peut tre due lenquteur ou lenqut.
1.3.7
Le processus complet
1.4
33
Dfinition 1.4.1 :
On appelle mthode de sondage ou mthode dchantillonnage la faon de prlever les
individus pour constituer lchantillon.
Ici encore, on parlera parfois abusivement de sondage au lieu de dire chantillonnage.
On distingue a priori deux types dchantillonnages :
1. Les chantillonnages alatoires, ou probabilistes : on choisit les individus au hasard,
selon certaines contraintes. En particulier, on fixe les probabilits qua lindividu i
dtre slectionn, ce pour chaque i. Il est quivalent de doter la population U dune
distribution de probabilit.
2. Les sondages judicieux, ou encore empiriques, ou encore choix raisonn, dans lesquels les individus slectionns doivent obir des contraintes et ne sont donc pas
tous slectionns simultanment lavance. Cest le cas en particulier de la mthode
des quotas, souvent pratique. Il faut procder ainsi lorsque la base de sondage est
absente ! Mais ces mthodes prsentent des inconvnients, et il est ncessaire davoir
des enquteurs intgres. Les sondages chaud effectus lors dmissions tlvises
pour mesurer le degr de persuasion de lorateur politique invit sont partiaux !
Nous allons dans les chapitres suivants successivement considrer :
1. Les sondages alatoires simples, dans lesquels lchantillon de taille n est choisi parmi
toutes les parties de U , les chantillons tant choisis avec quiprobabilit.
2. Les sondages probabilits ingales, pour lesquels lchantillon est choisi parmi toutes
les parties de U , mais dans lequel tous les individus nont pas la mme chance dtre
choisis.
3. Les sondages stratifis, dans lesquels on commence par diviser la population en plusieurs parties (strates) plus homognes (on utilise pour cela de linformation auxiliaire), puis on effectue un sondage simple dans chacune de ces parties.
4. Les sondages par grappe, dans lesquels on divise la population en plusieurs parties, puis on effectue un premier sondage pour choisir certaines de ces parties dans
lesquelles on fait un recensement.
5. Les sondages plusieurs degrs, dans lesquels on divise la population en plusieurs
parties, puis on effectue un premier sondage pour choisir certaines de ces parties dans
lesquelles on refait un sondage simple.
6. Des mthodes de redressement, parmi lesquelles la post-stratification et lestimation
par le quotient, qui permettent damliorer la qualit des estimateurs.
34
1.5
1.5.1
ON CONSIDRE DANS CETTE SECTION UNIQUEMENT DES TIRAGES SANS REMISE : un individu ne peut apparatre quune fois dans un chantillon.
Terminons ce chapitre par quelques mots sur les probabilits dinclusion, qui interviendront
frquemment dans tous les chapitres ultrieurs.
Dfinition 1.5.1 :
On note i la v.a. indicatrice de lappartenance de lindividu i lchantillon S :
(
1 si lindividu i appartient S
i :=
.
0 si lindividu i nappartient pas S
De telles variables indicatrices sont parfois appeles variables de Cornfield en hommage Cornfield qui les a introduites en 1944.
Les i sont des variables alatoires car ce sont des fonctions de la variable alatoire S.
Remarque 1.5.2 :
La grande utilit de ces variables rside dans le fait de pouvoir crire des galits
comme :
N
X
X
X
Xi =
X i i =
X i i .
iS
iU
i=1
35
2. i U,
N
P
ij = i (n 1).
j=1
j6=i
3.
N P
N
P
i=1
ij = n(n 1).
j=1
j6=i
4. j U,
N
P
ij = 0.
i=1
Dmonstration :
1.
N
P
i =
i=1
n, donc
P
iU
P
E(i ) = E
P
iU
i = n.
iU
2.
N
P
ij = E
j=1
j6=i
le point 1.
3.
N P
N
P
i=1
j=1
j6=i
i,j =
N
P
j=1
j6=i
N
P
i=1
i j = E i
!
P
j i
jU
36
ij =
iU
ij + jj =
iU
i6=j
X
iU
i6=j
(ij i j ) + (j j2 )
iU
i6=j
ij j
i + j j2 = j (n 1) j (n j ) + j j2 = 0.
iU
i6=j
Remarque 1.5.5 :
Ces proprits sont fausses dans le cas o le sondage nest pas de taille fixe.
1.5.2
ATTENTION : dans le cas de sondages avec remise, les proprits prcdentes sont fausses
et la notion de probabilit dinclusion devient sans intrt.
Effectuer un tirage avec remise dun n-chantillon revient effectuer le tirage dun individu
parmi la population, puis renouveler cette exprience N fois de faon indpendante.
Loutil adquat est alors le suivant :
Dfinition 1.5.6 :
On note Pi la probabilit pour lindividu i dtre choisi au moment du choix du
premier individu.
Proposition 1.5.7 :
N
P
On a
Pi = 1.
i=1
1.5.3
37
1.6. LE -ESTIMATEUR
1.6
Le -estimateur
Afin de limiter les calculs dans les chapitres ultrieurs, nous prsentons encore dans ce
chapitre lestimateur de Horvitz-Thompson. Celui-ci, prsent en 1952, est un estimateur
linaire sans biais dun total, utilisable pour tous les plans de sondage sans remise.
Dfinition 1.6.1 :
On appelle estimateur de Horvitz-Thompson
ou -estimateur ou estimateur par les
P
valeurs dilates du total T :=
Xi la quantit :
iU
Tb :=
X Xi
iS
1 et on
kU
utilise le -estimateur :
Dfinition 1.6.2 :
Si la taille N de la population est inconnue, on lestime par son -estimateur :
b :=
N
X 1
.
i
iS
b =
1 b
T ,
N
mais ce nest parfois pas vident (si N est inconnu on peut estimer N comme mentionn
ci-dessus). Il est parfois prfrable dutiliser le ratio de Hjek (voir la section 1.7 ce sujet).
1.6.1
Biais du -estimateur
Proposition 1.6.3 :
Si i > 0 pour tout i U (i.e. sil ny a pas de problme de couverture), alors Tb est
un estimateur sans biais de T .
Dmonstration :
ETb = E
X Xi
iS
!
=E
X Xi
iU
!
i
X Xi
iU
Ei =
X
iU
Xi = T.
38
Remarque 1.6.4 :
Dans le cas dun plan de sondage prsentant un problme de couverture (par exemple
en labsence de base de sondage fiable),
!
X Xi
X Xi
X Xi
X
X
ETb = E
= E
i =
Ei =
Xi = T
Xi .
i
i
i
iS
iU |i >0
iU |i >0
iU |i >0
iU |i =0
Lestimateur est alors biais, et ce biais est impossible estimer puisquon ne peut
pas observer les Xi sur les units manquantes !
1.6.2
Variance du -estimateur
Proposition 1.6.5 :
Si i > 0 pour tout i U , alors
Var Tb =
X X Xi X j
iU jU
i j
ij .
Dmonstration :
Var Tb = Var
X Xi
iU
X X2
i
2
i
iU
!
i
X X2
i (1 i ) +
i
2
i
iU
Var(i ) +
iU
X X Xi X j
iU
jU
j6=i
X X Xi Xj
i j
jU
j6=i
i j
(ij i j ) =
Cov(i , j )
X X Xi Xj
iU jU
i j
ij .
Dans le cas dun plan de taille fixe, Yates et Grundy ainsi que Sen ont montr, indpendamment, en 1953, que :
Proposition 1.6.6 :
Si le plan est de taille fixe et que i > 0 pour tout i U , alors :
2
1 X X Xi Xj
b
Var T =
ij .
2 iU jU i
j
j6=i
39
1.6. LE -ESTIMATEUR
Dmonstration :
1 XX
2 iU jU
Xi X j
i
j
j6=i
2
1 XX
ij =
2 iU jU
Xi Xj
i
j
2
(i j ij )
j6=i
1 X X X2
2
iU
i
i2
jU
j6=i
X X X2
iU
jU
j6=i
i
2
i
Xi Xj Xj2
+ 2
2
i j
j
(i j ij ) +
(i j ij )
X X Xi Xj
iU
jU
j6=i
i j
(i j ij )
X X 2 X
1 X X X Xi Xj
i
=
(i j ij )
ij
j
2
i jU
i j
i
jU
jU
iU
iU
j6=i
j6=i
j6=i
XX
X X2
Xi X j
1
i
(i j ij )
=
n j i (n 1)
2
i
i j
i
jU
iU
iU
j6=i
ij =
(1
)
+
(ij i j )
i
i
2 iU jU i
j
i2
i j
iU
iU jU
j6=i
j6=i
= Var Tb
1.6.3
Lemme 1.6.7 :
Pour toute fonction g de deux variables, lestimateur :
X X g(Xi , Xj )
iS
jS
j6=i
ij
g(Xi , Xj )
jU
j6=i
40
On dduit alors des deux expressions de Var Tb donnes dans la partie prcdente les deux
estimateurs suivants de cette variance :
Proposition 1.6.8 :
\
Var1 Tb :=
et
X X2
i
2
i
iS
(1 i ) +
X X X i Xj
(ij i j ).
ij i j
jS
iS
j6=i
1 XX
\
Var2 Tb :=
2 iS jS
Xi Xj
i
j
2
i j ij
.
ij
j6=i
Remarques 1.6.9 :
1. Le premier estimateur, toujours sans biais, peut prendre des valeurs ngatives.
2. Le second, appel estimateur de Sen-Yates-Grundy nest sans biais que si le plan
est de taille fixe. De plus, il est positif si et seulement si i j ij > 0 i, j 6= i.
Dfinition 1.6.10 :
Les conditions i j ij > 0 i, j 6= i sont appeles conditions de Sen-Yates\
Grundy. Elles assurent que Var2 Tb soit un bon estimateur de Var Tb au sens o cet
estimateur ne prend alors que des valeurs positives.
1.6.4
b u/2 Var(b
)
41
Ces rsultats sont valables si lchantillon est suffisamment grand. Si lchantillon est plus
petit, on considre parfois que lestimateur suit bien une loi normale, mais que comme la
variance est inconnue on doit utiliser le quantile de la loi de Student. Le problme est li
au fait que le passage la limite dans le thorme central limite sapplique souvent quand
n > 30 alors que lapproximation dune loi de Student par une loi normale ne sapplique
souvent que pour n > 50. Mais la taille dun chantillon de sondage est sauf dans les
exercices bien plus grande !
1.7
Lestimateur de Hjek
Il peut arriver que le -estimateur ait de mauvaises proprits, notamment pour les plans
simples de taille alatoire ; de manire gnrale lorsque :
!
X 1
6= 0.
Var
i
iS
En effet, si on cherche alors estimer la moyenne dune constante C, le -estimateur de la
moyenne vaut :
CX 1
b =
N iS i
qui nest pas constant, mais est une variable alatoire de moyenne C ! On en dduit que la
variance de
b dpend non seulement de la dispersion du caractre tudi, mais aussi dun
problme li lestimateur, ce qui est pour le moins gnant. On utilise alors lestimateur
de Hjek suivant :
Dfinition 1.7.1 :
On appelle estimateur de Hjek de la moyenne (ou ratio de Hjek) lestimateur :
bH :=
X 1
i
iS
!1
X Xj
jS
La somme des poids affects aux units vaut alors 1, mais ce sont des variables alatoires.
Il sagit dun estimateur gnralement biais, mais de biais ngligeable en gnral.
Il a t construit en remplaant, dans lexpression du -estimateur de la taille N de la
population par son -estimateur.
42
Deuxime partie
Les mthodes dchantillonnage
43
Chapitre 2
Sondage alatoire simple
Attention, la deuxime section forme une des deux exceptions dans ce cours. Nous y travaillerons avec un sondage avec remise, cest--dire que lon pourra interroger plusieurs fois
le mme individu. Nous montrerons en particulier que cette situation est moins intressante
pour lenqute, justifiant ainsi de ne sintresser quaux sondages sans remise.
2.1
Introduction
Le sondage alatoire simple est la mthode de tirage la plus simple, qui ne ncessite aucune
manipulation pralable dans la population, ni aucun apport dinformation.
Dfinition 2.1.1 :
Un sondage alatoire est simple si tous les chantillons de taille n fixe a priori, prlevs au sein de la population U deffectif N sont ralisables avec la mme probabilit.
Cette dfinition est en fait quivalente pour un sondage sans remise la suivante :
Dfinition 2.1.2 :
Un sondage alatoire sans remise est simple si tous les individus ont la mme probabilit dinclusion, sans quaucune manipulation pralable ne soit utilise, et sans
intervention daucune information auxiliaire.
Il est facile de voir que la dfinition 2.1 entrane la dfinition 2.1 en prenant n = 1. . . La
rciproque est moins claire.
Il est important de savoir que la notion de sondage alatoire simple nest pas stricto sensu
quivalente la notion de sondage probabilits gales, cest--dire de sondage dans lequel
les probabilits dinclusion sont gales. En effet, on peut raliser des sondages tels que
P(S) varie avec S et tels que pourtant i soit indpendant de i (sondages stratifis. . . ) !
Cependant, lorsque lon parle de sondage probabilits gales, on parle gnralement par
abus de langage dun sondage alatoire simple !
45
46
Il est trs important de bien connatre cette mthode dchantillonnage (en fait ces mthodes). En effet, si on essaye en pratique dutiliser autant dinformation auxiliaire que
possible, il sert dlment de comparaison avec les autres types dchantillonnage. De plus,
souvent (sondages stratifis. . . ), le sondage alatoire simple est lune des briques formant
les sondages plus complexes.
On va considrer deux types de sondages alatoires simples :
1. le sondage alatoire simple avec remise, dans lequel on replace chaque individu dans
la population avant le tirage suivant ;
2. le sondage alatoire simple sans remise, dans lequel on ne replace pas chaque individu
dans la population avant le tirage suivant.
2.2
Comme nous lavons dj dit, dans le cas de tirages avec remise, tout se passe comme si on
rptait n fois une mme exprience consistant choisir un individu, de faon indpendante.
N
P
Comme
Pi = 1, et que les Pi sont tous gaux puisque le sondage est simple, on a Pi = N1 .
i=1
2.2.1
47
Estimation de la moyenne
Dfinition 2.2.3 :
Un estimateur de la moyenne de la population U est donn par :
n
bP EAR
1X
1Xe
Xi .
:=
Xi =
n
n i=1
iSe
Proposition 2.2.4 :
Eb
P EAR = et Var
bP EAR =
2
.
n
Remarque 2.2.5 :
La prcision de lestimateur ne dpend que de la variance dans la population et de la
taille de lchantillon ! Elle ne dpend pas de la taille de la population, ce qui nest
pas intuitif. Ainsi, utiliser un sondage alatoire simple avec remise pour slectionner
un chantillon de taille 1000 dans la France entire donnera un rsultat de mme
prcision que la slection dun chantillon de mme taille selon la mme procdure
dans la ville de Strasbourg.
bP EAR = c .
n
Proposition 2.2.7 :
2
EVar\
bP EAR = n .
Dmonstration faire en exercice!
48
Exemple 2.2.8 :
On sintresse la somme (en milliers deuros) disponible sur les comptes de N = 5
individus. Ces sommes sont respectivement 13, 15, 17, 25 et 30.
On cherche estimer la moyenne = 20 de ces sommes en interrogeant deux
individus. Les 52 = 25 chantillons possibles et les estimations correspondantes sont
les suivants (pour simplifier, on omet les rptitions : quand lchantillon (i, j) existe,
lchantillon (j, i) existe galement !) :
1
X
13 13 13 13 13 15 15 15 15 17 17 17 25 25
X2
13 15 17 25 30 15 17 25 30 17 25 30 25 30
1 +X
2
X
b := 2
13 14 15 19 21,5 15 16 20 22,5 17 21 23,5 25 27,5
On peut vrifier les proprits annonces :
1
Eb
= 25
(13 + 2.14 + 2.15 + 2.19 + 2.21, 5 + 15 + 2.16 + + 30) = 20.
Les autres proprits sont laisses titre dexercice !
2.2.2
Estimation du total
Dfinition 2.2.9 :
Un estimateur du total T de la population U est donn par :
n
NX
NXe
b
Xi .
TP EAR := N
b=
Xi =
n
n i=1
iSe
Proposition 2.2.10 :
2
ETbP EAR = T et Var Tb = N 2 n .
Dmonstration faire en exercice!
S
\
Var TbP EAR = N 2 c .
n
Proposition 2.2.12 :
2
\
EVar TbP EAR = N 2 .
n
30
30
30
2.2.3
49
Estimation de la variance
Dfinition 2.2.13 :
Un estimateur de la variance 2 de la population U est donn par :
n
S2c :=
2
1 X e
1 X
(Xi
b)2 =
( Xi
b) .
n1
n 1 i=1
iSe
Proposition 2.2.14 :
1
[(n 1)4 (n 1) 4 ].
ES2c = 2 et Var S2c = n(n1)
Ici aussi, il faudrait estimer la variance de lestimateur. . .
2.2.4
Remarque
En effectuant un prlvement avec remise, il peut arriver quun mme individu apparaisse
plusieurs fois dans lchantillon.
Deux situations peuvent donc survenir :
1. Si les n tirages fournissent n individus distincts, alors Se est un sous-ensemble de U ,
de taille n. On peut conserver les mmes dfinitions de
b, Tb et S2c , en sommant de
1 n, pour peu que lon renumrote les individus de U de sorte que Se = 1, . . . , n.
2. Si les n tirages fournissent m := nSe < n individus distincts, on a deux choix :
on prend en compte lensemble des observations, autant de fois quelles ont t
recueillies ;
on oublie les rptitions, et on ne conserve que les observations distinctes. Dans
ce cas, la taille n de lchantillon nest plus une constante mais devient elle-mme
une variable alatoire.
Cette deuxime situation ncessite quelques explications supplmentaires.
50
2.2.5
On considre ici lchantillon Se constitu de nSe units distinctes, obtenu en supprimant les
rptitions dun chantillon de taille n slectionn en utilisant un plan simple avec remise.
Les dmonstrations des rsultats suivants se trouvent dans la section 4.4 de [11].
Proposition 2.2.15 :
La distribution de probabilit de nSe est donne par
P(nSe = r) =
N!
N n sn(r) ,
(N r)!
r = 1, . . . , min(n, N );
(r)
s(r)
n
1X i
C (1)ri in .
:=
r! i=1 r
On peut remarquer que conditionnellement nSe le plan de sondage est simple sans remise,
i.e :
( 1
si #Se = 1, . . . , min(n, N );
e e) = CN#Se
P(S|n
S
0
sinon.
Le plan de sondage non conditionnel est donc donn par :
( 1
e
e
e = #S) si #S = 1, . . . , min(n, N );
e P(nS
#S
C
e
N
P(S) =
0
sinon.
Proposition 2.2.16 :
Lestimateur suivant de est sans biais :
bnSe :=
1 X
Xk .
nSe
kSe
et sa variance vaut
Var
bnSe
N 1
2 X n1
= n
j .
N j=1
51
2.3
Comme le sondage est sans remise, chaque tirage fait dcrotre la taille de la population U
dune unit. Les observations ne sont donc plus des v.a. indpendantes les unes des autres.
Un plan tant dit simple lorsque tous les chantillons de mme taille ont la mme probabilit
dtre slectionn, le plan de sondage est le suivant :
Dfinition 2.3.1 :
Un plan de taille fixe n est dit simple sans remise si et seulement si :
(
1
lorsque s est de taille n
n
P(s) = CN
0
sinon.
En effet, il y a CNn chantillons de taille n diffrents. Donc P(s) =
1
n .
CN
n
=f;
N
ij = Nn(n1)
(N 1)
3. ij =
;
(
n)
Nn(N
2 (N 1)
si i 6= j
n(N n)
N2
si i = j.
Dmonstration :
1. i =
P
S3i
2. ij =
1
P(S) = CNn1
1 C n =
P
S3i,j
P(S) =
P
S3i,j
1
n
CN
3. Si i 6= j, ij = ij i j =
si i = j, ii = i (1 i ) =
2.3.1
n
.
N
n2
CN
2
n
CN
n(n1)
.
N (N 1)
2
n(n1)
n)
Nn 2 = Nn(N
2 (N 1)
N (N 1)
n
1 Nn = n(NNn)
.
2
N
et
Estimation de la moyenne
Dfinition 2.3.3 :
Un estimateur de la moyenne de la population U est donn par :
bP ESR :=
1X
Xi .
n iS
52
Proposition 2.3.4 :
Eb
P ESR = et Var
bP ESR =
= (1 f ) NN1 n = (1 f ) nc .
Remarque 2.3.5 :
2
Si la taille de la population N est grande, Var
b ' (1 f ) n .
Remarque 2.3.6 :
Si f est petit, ce qui est souvent le cas, on peut considrer que 1 f ' 1 et ngliger
le taux de sondage. (En pratique, f est trs souvent infrieur 1% !) Dans ce cas,
comme dans le cas du sondage alatoire simple avec remise, la prcision de lestimateur de dpend pas de la taille de la population, ce qui nest pas naturel !
Ainsi, si vous avez effectu un sondage selon cette procdure en France sur un chantillon de taille 2000 et que vous voulez le spcialiser la ville de Strasbourg avec la
mme prcision, il vous faudra slectionner galement 2000 strasbourgeois !
Proposition 2.3.7 :
2
Var\
Exemple 2.3.8 :
On reprend lexemple 2.2.1 prcdent : on sintresse la somme (en milliers deuros)
disponible sur les comptes de N = 5 individus. Ces sommes sont respectivement
13, 15, 17, 25 et 30, et on cherche estimer la moyenne := 20 de ces sommes
en interrogeant deux individus selon un sondage simple sans remise. Les C52 = 10
chantillons et les estimations sont donns par :
observation 1 13 13 13 13 15 15 15 17 17
25
observation 2 15 17 25 30 17 25 30 25 30
30
b
14 15 19 21,5 16 20 22,5 21 23,5 27,5
On peut vrifier les proprits annonces :
1
Eb
= 10
(14 + 15 + 19 + 21, 5 + 16 + + 27, 5) = 20.
Les autres proprits sont laisses titre dexercice !
53
2.3.2
Estimation du total
Dfinition 2.3.9 :
Un estimateur du total T de la population U est donn par :
NX
TbP ESR := N
bP ESR =
Xi .
n iS
Remarque 2.3.10 :
P
Cela scrit aussi TbP ESR =
iS
N
Xi
n
P
iS
Xi
i
N
n
individus
Proposition 2.3.12 :
2
\
Var TbP ESR := N 2 (1 f ) Snc est un estimateur sans biais de Var TbP ESR .
Dmonstration faire en exercice!
2.3.3
Estimation de la variance
Dfinition 2.3.13 :
Un estimateur de la variance 2 dune population U est donn par :
bP2 ESR :=
N 1 2
Sc
N
Proposition 2.3.14 :
Eb
P2 ESR = 2
et
Var
bP2 ESR =
N n
(4 (N 1)[N (n 1) (n + 1)]
n(n 1)N (N 2)(N 3)
4 [N 2 (n 3) + 6N 3(n + 1)]
54
2.3.4
X
Dans la section 0.4.4, nous avons mentionn le problme de lestimation dun ratio R := Y
.
Dveloppons ce point ici. On note c
X lestimateur de X obtenu par sondage alatoire
c
X
b
simple sans remise et c
.
Y lanalogue pour Y . On estime R par R := c
X
(1
+
)
X
X
o
:=
c
X X
.
X
S2
est une variable alatoire centre, de variance NNn 2X,cn , et donc converge en probabilit
X
vers 0. On peut donc faire un dveloppement limit.
c
Y R
X
b R ' c
R
(1 )
X
c
c
c
Y R
X
X X
'
1
.
X
X
c
X
= 0.
En prenant lesprance, comme E cY R
X
(Rc
c
c
X
Y )(
X muX )
2X
(Rc
c
c
X X R
Y + Y )(
X X )
'E
2X
b 'E
B(R)
2
RE(c
Y Y )(c
X X ) E(c
X X )
'
2
X
R Var c
Y , c
X Cov(c
X)
'
2
X
Finalement,
b '
B(R)
o
SXY,c =
1 N n
2
(RX,c
XY,c )
2X N n
1 X
(Yk X,c )(Xk Y,c ).
N 1 kU
55
2.4
Nous allons faire ces comparaisons pour les estimateurs de la moyenne, en remarquant que
les deux estimateurs fournis taient sans biais.
La comparaison de deux mthodes produisant des estimateurs sans biais diffrents est
effectue en considrant leffet de sondage :
Dfinition 2.4.1 :
Leffet de sondage de deux estimateurs sans biais b et b dun mme paramtre est
dfini par
b
b = Var .
D(b |)
Var b
b < 1, alors b sera plus prcis que .
b
Si D(b |)
Dans notre cas, rappelons que, en notant
bP EAR lestimateur de la moyenne obtenu par
prlvement avec remise et
bP ESR celui obtenu par prlvement sans remise, Var
bP EAR =
2
2 N n
N n
et Var
bP ESR = n N 1 . Par consquent, D(b
P ESR |b
P EAR ) = N 1 . Si n > 1, cette
n
quantit est strictement plus petite que 1.
La prcision de lestimateur de la moyenne pour un sondage alatoire simple probabilits
gales est donc meilleure pour un estimateur sans remise quavec remise.
Si la taille de la population est grande, leffet de sondage est quivalent
Lamlioration de la prcision est donc dautant meilleure que f est grand.
N n
N
= 1 f.
Quand f est faible (gnralement infrieur 10%), leffet de sondage est proche de 1, et les
deux mthodes fournissent des estimateurs de prcision analogue ! On est souvent amens
56
identifier 1 f et 1.
Remarque 2.4.2 :
Signalons pour finir ce chapitre que dans le cas avec remise, S2c est un estimateur sans
biais de 2 alors que dans le cas sans remise S2c est un estimateur sans biais de c2 . . .
Chapitre 3
Sondage probabilits ingales
Dans le chapitre prcdent, nous avons vu que les tirages probabilits gales ne ncessitent
pas dinformation supplmentaire : il est naturel daccorder un poids gal toutes les units
de la population.
Il est cependant frquent que lon dispose dinformations rsultant denqutes pralablement effectues.
Dans certaines situations, notamment quand les variables sont lies par des effets de taille,
il est intressant dutiliser des sondages probabilits ingales, cest--dire dattribuer un
poids diffrent aux diffrentes units de la population.
Exemple 3.0.3 :
On peut choisir diffrentes formations universitaires proportionnellement leur
nombre dtudiants. . .
Nous verrons au chapitre 6 la notion de sondage a plusieurs degrs, gnralisation du
sondage stratifi, qui est lun des champs dapplication des sondages probabilits ingales :
Exemple 3.0.4 :
Pour faire un sondage parmi des mnages, on peut commencer par choisir des communes en effectuant un sondage probabilits ingales pour lequel on fixe des probabilits dinclusion proportionnelles la taille de la commune, puis on effectue un
sondage alatoire simple dans les communes retenues.
Lide essentielle est quune unit grande apporte plus dinformations quune petite unit.
Dans ce chapitre, nous allons une nouvelle (et dernire) fois considrer le cas de tirages
avec remise.
57
58
3.1
Yi
.
N
P
Yi
i=1
3.1.1
Dfinition 3.1.3 :
Un estimateur de la moyenne est donn par :
bP IAR
n
1 X 1
1 Xg
Xk
:=
Xi =
,
nN Pi
nN k=1 Pk
iS
f
Xk
Xk
o f
dsigne
une
suite
i.i.d.
de
v.a
telles
que
j
1,
N
,
P
=
Pk
Pk
Xj
Pj
= Pj .
Proposition 3.1.4 :
Eb
P IAR = et Var
bP IAR =
1
nN 2
N
P
i=1
1
X2
Pi i
Proposition 3.1.5 :
Un estimateur sans biais de Var
bP IAR est donn par
\
Var
bP IAR
2
n
X 1
X
g
1
1
Xk
:= 2
Xi N
bP IAR = 2
N
bP IAR
N n(n 1) Pi
N n(n 1) k=1 Pk
iS
!2
.
59
3.1.2
Dfinition 3.1.6 :
Un estimateur du total T est donn par :
n
1X 1
1 Xg
Xk
TbP IAR :=
Xi =
.
n Pi
n k=1 Pk
iS
Proposition 3.1.7 :
ETbP IAR = T et Var TbP IAR =
1
n
N
P
i=1
1
X2
Pi i
T .
2
Proposition 3.1.8 :
Un estimateur sans biais de Var TbP IAR est donn par
\
Var TbP IAR
X
1
:=
n(n 1)
iS
1
Xi TbP IAR
Pi
2
n
X
g
1
Xk
=
TbP IAR
n(n 1) i=1 Pk
!2
.
3.1.3
Choix des Pi
Xi
.
N
P
Xi
Bien
i=1
sr, on ne connat pas les Xi (on ne connat leur valeur quaprs sondage), mais on peut
avoir des rsultats trs prcis en choisissant les Pi en fonction dune variable fortement
corrle avec Xi .
3.1.4
Comparaison avec les sondages alatoires simples probabilits gales avec remise
N
P
i=1
ment si
N
P
i=1
N Xi2 >
N
P
i=1
Xi2
,
Pi
cest--dire si et seule-
1
N
60
3.2
3.2.1
Dfinition 3.2.1 :
Lestimateur de Horvitz-Thompson de la moyenne est donn par :
bP ISR :=
1 X 1
Xi .
N iS i
1
2N 2
N P
N
P
j=1
k=1
k6=j
X
(j k jk ) jj
Xk
k
2
Proposition 3.2.3 :
Un estimateur de Var
bP ISR est donn par
\
Var
bP ISR
2
Xk
1 X X j k jk Xj
.
:=
2N 2 jS kS
jk
j
k
k6=j
3.2.2
Dfinition 3.2.4 :
Lestimateur de Horvitz-Thompson du total T est donn par :
TbP ISR :=
X Xi
iS
Proposition 3.2.5 :
ETbP ISR = T et Var TbP ISR =
1
2
N P
N
P
j=1
(j k jk )
k=1
k6=j
Xj
j
Xk
k
2
Proposition 3.2.6 :
Un estimateur de Var TbP ISR est donn par
2
1 X X j k jk Xj
Xk
\
b
Var TP ISR :=
.
2 jS kS
jk
j
k
k6=j
3.2.3
62
iU
Yi
. Ainsi :
donc tre celles donnes par i := 3. 300
i
1
2
3
4
5
6
Yi 1
9 10 70 90 120
1
9
1
7
9
6
i 100
100
10
10
10
5
On observe que 6 > 1, par consquent, on slectionne doffice lunit
P 6 dans lchantillon,
en prenant 6 = 1, et on reprend le calcul prcdent. prsent,
Yi = 180, et il reste
iU \{6}
Yi
deux individus choisir. Donc i = 2 180
. Ainsi :
i
1 2 3
4
5
Yi 1 9 10 70 90
1
1
1
7
i 90
1
10
9
9
Finalement, on slectionne doffice les individus 5 et 6, et on slectionne, parmi les 4
1
1
individus restant, un individu avec les probabilits dinclusion 1 = 90
, 2 = 10
, 3 = 19 et
4 = 79 .
Chapitre 4
Sondage stratifi
4.1
Principes et objectifs
Pour les sondages alatoires simples, que nous avons rencontr dans un chapitre prcdent,
tous les chantillons de taille n taient choisis avec la mme probabilit. Ces mthodes
dchantillonnage ne ncessitaient aucune information auxiliaire, et il en tait de mme
pour les estimateurs mis en uvre. On a galement remarqu que la vraie variance 2
intervenait dans les mesures de dispersion des estimateurs de la moyenne. Autrement dit,
dans une population homogne, lutilisation de la moyenne empirique peut mener de
trs bons rsultats, alors que dans une population inhomogne, les performances de cet
estimateur seront bien moins bonnes.
Lintroduction des sondages probabilits ingales a permis dincorporer de linformation
auxiliaire, en tenant compte de la taille de chaque individu. Mais la mthode consiste nanmoins travailler sur la population entire, sans tenir compte dventuels regroupements
dindividus plus homognes.
Lide du sondage stratifi est alors la suivante : si les individus sont trs diffrents du point
de vue de la variable tudie, on devrait pouvoir dcouper la population en sous-ensembles
appels strates, dont on espre quils soient plus homognes que la population de dpart,
et raliser ensuite un sondage alatoire simple dans chacune des strates.
Les objectifs dune telle approche sont souvent doubles :
exclure les chantillons extrmes et amliorer la prcision des estimateurs ;
rduire les cots denqute (optimisation de la gestion, spcialisation des enquteurs. . . )
63
64
Exemples 4.1.1 :
Les chantillons de mnages ou dindividus peuvent tre stratifis par rgion et
type dhabitat ;
les chantillons dentreprises peuvent tres stratifis par secteur dactivit et par
taille (en effectifs ou chiffre daffaire) ;
les chantillons dexploitation agricoles peuvent tre stratifis par superficie ;
les chantillons de jeunes universitaires peuvent tre stratifis par discipline ;
...
4.2
Dfinitions et notations
H
[
Uh
et Uh Ui = i.
h=1
H
P
Nh
N
Nh = N .
h=1
Remarque 4.2.2 :
Les Nh sont supposs connus, et constituent linformation auxiliaire disponible sur la
population entire.
On considre un chantillon S de taille n pris sans remise dans la population U . On note
Sh := S Uh .
On note nh leffectif de lchantillon propre la strate Uh (donc le cardinal de Sh ), fh := Nnhh
H
P
le taux de sondage dans la strate Uh . Ainsi, n =
nh .
h=1
On note h :=
kUh
65
Dfinition 4.2.3 :
Un sondage alatoire est dit stratifi si, dans chaque strate, on effectue un sondage
de nh units, gnralement par sondage alatoire simple sans remise, et si la slection
dun chantillon dans une strate est indpendante de la slection dun chantillon
dans toutes les autres strates.
P
P
2
On note alors
bh := n1h
Xi et S2h,c := nh11
(Xi
bh )2 les estimateurs de h et h,c
iSh
iSh
N
X
i=1
Xi =
H
X
h=1
iUh
Xi
H
X
h=1
4.3
Comme vous lavez compris, le -estimateur permet de fournir de bons estimateurs dans la
plupart des situations. Dans cette section, nous calculons donc tout dabord les probabilits
dinclusion du plan, puis nous donnons les critures des -estimateurs de la moyenne et du
total.
4.3.1
Probabilits dinclusion
Si lindividu i est dans la strate h, comme on effectue dans cette strate un sondage alatoire
simple sans remise de taille nh dans une population de taille Nh , on a
i =
nh
.
Nh
66
ij =
nh (nh 1)
;
Nh (Nh 1)
ij =
4.3.2
nh nk
.
Nh Nk
Estimateur de la moyenne
Dfinition 4.3.1 :
Le -estimateur de la moyenne de la population U est alors :
bst :=
H
X
Nh
h=1
Rappelons que
bh est dfini par
bh :=
1
nh
bh .
Xi .
iSh
Proposition 4.3.2 :
Eb
st = et Var
bst =
H
P
h=1
Nh2
(1
N2
fh )
2
h,c
.
nh
Proposition 4.3.3 :
Un estimateur sans biais de la variance de
bst est donn par :
\
Var
bst =
H
X
N2
h=1
h
(1
N2
H
s2h,c X
Nh2
s2h
fh )
=
(1
f
)
.
h
2
nh
N
n
h1
h=1
67
bst
17,8 19,8 19 21 20,2 22,2
o
bst = 35 y1 + 25 y2 .
On peut vrifier que lestimateur est aussi sans biais, mais que son cart-type est trois
fois plus faible que pour les sondages simples !
4.3.3
Estimateur du total
Dfinition 4.3.5 :
Le -estimateur du total T de la population U est alors :
Tbst :=
H
X
Nh
bh .
h=1
Proposition 4.3.6 :
H
P
2
ETbst = T et Var Tbst =
Nh2 (1 fh ) nh,c
.
h
h=1
Proposition 4.3.7 :
Un estimateur sans biais de la variance de Tbst est donn par :
H
X
s2h,c X 2
s2
\
Var Tbst =
Nh2 (1 fh )
=
Nh (1 fh ) h .
nh
nh 1
h=1
h=1
Dmonstration faire en exercice!
68
Remarque 4.3.8 :
Remarquons que
Tbst =
H
X
h=1
nh
1 X
Xi
nh i=1
!
=
nh
H X
X
Nh
h=1 i=1
nh
Xi .
Dans cette formule, la variable Xi est pondre par le coefficient Nnhh , appel coefficient
dextrapolation, qui permet dextrapoler les rsultats de la strate h la population.
On remarque que ce coefficient dpend a priori de h, cest--dire que lon effectue un
sondage a probabilits ingales.
Dans la section suivante, nous allons tudier le cas particulier o
auquel cas le sondage est un sondage a probabilits gales.
4.4
Nh
nh
La solution la plus naturelle pour dcider des effectifs des chantillons nh de chaque strate
est de les choisir proportionnels aux tailles Nh , ce qui peut sexprimer ainsi :
Dfinition 4.4.1 :
Lorsque les effectifs des strates sont choisis de sorte que lune des deux conditions
quivalentes suivantes soit vrifie :
les strates ont dans lchantillon des poids nnh gaux leurs poids NNh dans la
population,
les taux de sondages dans toutes les strates sont gaux : fh = Nnhh = Nn = f ,
alors on dit que le sondage est un sondage stratifi proportionnel, ou que lchantillon
est un chantillon stratifi proportionnel, ou encore parfois que lchantillon est un
chantillon stratifi reprsentatif.
Remarque 4.4.2 :
Attention, ce terme de reprsentatif, apprci des instituts de sondage, ne dit pas
que le rsultat est parfait, ni mme que la rpartition soit la meilleure possible. Il dit
juste que la composition de lchantillon est proportionnelle la composition de la
population selon les critres de stratification fixs. Cest en ce sens que lchantillon
reprsente la population.
69
bst =
Xi .
n h=1 iS
h
Var
bst = (1 f )
1 X Nh 2
.
n h=1 N h,c
On retrouve que plus les strates sont homognes, plus la stratification est efficace.
Remarque 4.4.4 :
Soit
b lestimateur issu du sondage alatoire simple sans remise. Alors
H
1 X Nh
(h )2 .
Var
b = Var
bst + (1 f )
n h=1 N
Cette quation, danalyse de la variance, montre que le sondage stratifi proportionnel
est toujours meilleur que le sondage alatoire simple. De plus, le rsultat sera dautant
meilleur que les strates sont diffrentes les unes des autres.
4.5
On dduit de ce qui prcde quon a intrt choisir les strates de telle sorte que :
1. les strates soient aussi homognes que possible ;
2. les strates soient aussi diffrentes que possible.
On cherchera donc utiliser, pour constituer les strates, la variable la plus discriminante
possible, cest--dire une variable Y la plus corrle possible X. Il est ncessaire pour
cela de bnficier dinformation auxiliaire (tudes prcdentes, intuition) et que ces donnes
figurent dans la base de sondage ! Attention, pour deux sondages diffrents sur une mme
population, il peut tre avantageux dutiliser deux stratifications diffrentes !
Le nombre de strates doit quand lui tre en thorie le plus lev possible, mais plus
il augmente, plus le cot augmente et plus le gain statistique est rduit. De plus, il faut
prendre garde au fait que des strates deffectif insuffisant sont davantage soumises au risque
de non-rponse !
70
4.6
Rpartition de Neyman
Dans le cas o X est trs htrogne dans une mme strate, on a intrt ne pas procder
une reprsentation proportionnelle.
On peut en fait plus gnralement chercher quelle est la meilleure rpartition, i.e. celle qui
minimise la variance.
Nous avons vu plus haut que celle-ci tait, pour T , la suivante :
Var Tbst =
H
X
Nh
h=1
Nh nh 2
h,c ;
nh
quantit que lon cherche minimiser (en fonction des nh ) sous la contrainte
H
X
nh = n.
h=1
Lestimateur optimal est obtenu lorsque la rpartition est celle de Neyman, dfinie comme
suit :
Dfinition 4.6.1 :
La rpartition de Neyman consiste rendre constante la quantit :
nh
Nh h,c
qui doit donc tre gale
n
H
P
Nh h,c
h=1
nh =
nNh
h,c .
H
P
N` `,c
`=1
Dmonstration :
Nh2 2
L
+=0
1 6 h 6 H
n
n2h h,c
h
H
P
=
nh n = 0.
L
h=1
71
H
P
nh =
h=1
On obtient ainsi :
H
P
Nh h,c .
h=1
1X
=
Nh h,c .
n h=1
Finalement,
nh =
Nh n
H
P
h,c .
N` `,c
`=1
imposer 0 6 nh 6 Nh . . .
On commencera donc par calculer les nh . On slectionnera doffice tous les individus
dans les strates o nh > Nh . Une fois ceci fait, on recalculera les nh en utilisant la
mme formule sur les strates restantes.
Enfin, il faut souvent arrondir les rsultats obtenus, les nh ntant pas entiers en
gnral.
On peut montrer que le gain de prcision entre le plan de Neyman et lallocation pro2
portionnelle est de lordre de Nn Var(h,c ), Var h,c dsignant ici la variance dune srie
statistique (et non dune v.a.. . . )
En pratique, on regarde si la distribution de X est symtrique par rapport la moyenne
ou non. Si oui, on utilise un sondage proportionnel, et si de loin non, on essaye un sondage
avec rpartition de Neyman.
72
4.7
Un exemple
4.7.1
On effectue un sondage alatoire simple sans remise dans chaque strate, et on veut un
chantillon de taille totale n = 300. Les donnes rcoltes sont fournies par le tableau
suivant :
Tranche de taille
09
1019
2049
50-499
500 et plus
Total
Nh
500
300
150
100
10
1060
ch
5
12
30
150
600
s2h,c
1,5
4
8
100
2500
nh
130
80
60
25
5
300
4.7.2
1
(5.500+12.300+ +10.2500)
1060
= 29, 8.
09
500
142
1019
300
85
2049
150
42
50-499
100
28
500 et plus
10
3
total
1060
300
4.7.3
Nh .sh,c
.
5
P
Nh sh,c
h=1
73
4.7. UN EXEMPLE
Autrement dit, la rpartition devrait tre :
Tranche de taille
Nh
nh
09
500
59
1019
300
57
2049
150
41
50-499
100
96
500 et plus
10
48
total
1060
301
Dans la classe des entreprises de plus de 500 employs, on devrait sonder les 48 entreprises
alors quil ny en a que 10 ! Par consquent on les incorpore toutes les 10 dans lchantillon,
Nh .sh,c
et on reprend les calculs pour les 4 premires strates, avec nh = 290. P
. On obtient :
4
Nh sh,c
h=1
Tranche de taille
Nh
nh
09
500
67
1019
300
66
2049
150
47
50-499
100
110
500 et plus
10
10
total
1060
300
Dans la classe des entreprises de 50 499 employs, on retrouve le mme problme que
prcdemment. On sondera donc toutes les entreprises de cette classe, et on recommence,
pour trouver :
Tranche de taille
Nh
nh
09
500
71
1019
300
70
2049
150
49
50-499
100
100
500 et plus
10
10
total
1060
300
Maintenant tout marche ! Lestimation de la variance de lestimateur est ici 0, 01 : lallocation optimale fournit bien une meilleure prcision que les deux allocations prcdentes
(la variance a t divise par plus de 5 par rapport lallocation proportionnelle !).
74
Chapitre 5
Sondage par grappes
Il peut arriver que la base de sondage ne soit pas connue, mais que lon dispose dune
information sur des paquets dindividus. Par exemple, une enqute portant sur lensemble
des habitants dun pays ncessiterait une liste de tous les habitants, ce qui nexiste pas
a priori. Mais il est facile de se procurer une liste des communes, qui elles disposent en
gnral dune liste des habitants, ou au-moins des logements.
Lobjectif du sondage par grappes est donc de raliser un sondage sans construire compltement la base de sondage ni connatre ncessairement la taille de la population. On peut
galement sen servir pour utiliser de linformation auxiliaire, mais lobjectif de la constitution des grappes est de rduire les cots de sondage, surtout lorsquelles sont construites
gographiquement.
Le sondage par grappes constitue le dual du sondage stratifi : on stratifie, mais on choisit
un chantillon de strates (appeles ici grappes) dans lesquels on fait un recensement. Dans
le chapitre prcdent, on faisait le contraire : stratifier puis faire dans toutes les strates un
sondage !
5.1
Principes et notations
G
[
Ug
et Ug Ui = i.
g=1
On remarque que cette notion est identique celle de strate. Lobjectif ntant pas le
mme, on change de dnomination et de notations ! !
75
76
On a
Ng
N
reprsente le poids de la
Ng = N .
g=1
Remarquons que
T =
Xk =
g=1 kUg
kU
et
G X
X
Xk =
G
X
Tg
g=1
G
G
1 XX
1 X
1 X
Xk =
Xk =
Ng g ,
=
N kU
N g=1 kU
N g=1
g
o Tg :=
kUg
Tg
Ng
reprsente la
1
Ng
2
la variance corrige :
(Xk g )2 la variance de la grappe g, et g,c
kUg
Ng
2.
Ng 1 g
Dfinition 5.1.2 :
On dit que le plan est par grappes si :
on slectionne un chantillon de grappes SG au moyen dun plan pG . On note m le
nombre de grappes ainsi slectionnes ;
on observe ensuite tous les individus des grappes slectionnes (autrement dit on
fait un recensement dans chaque grappe).
S
Lchantillon est alors donn par S :=
Ug .
P gSG
Lchantillon S est de taille nS :=
Ng .
gSG
Remarque 5.1.3 :
Il faut prter attention ce que nS est alatoire mme quand m ne lest pas ! En
gnral, on ne sait pas combien dindividus on va atteindre !
77
5.2
Cas gnral
Comme dhabitude, on commence par calculer les probabilits dinclusion des individus.
Celles-ci dcoulent immdiatement des probabilits dinclusion G des grappes. Ainsi :
si lindividu k appartient la grappe g, k = Gg ;
si k et ` appartiennent la mme grappe g, k` = Gg ;
si k et ` appartiennent deux grappes distinctes g et h, alors k` = Gg Gh .
On trouve hlas les problmes craints au dbut de ce cours : la taille de lchantillon
est alatoire, et les conditions de Sen-Yates-Grundy ne sont pas satisfaites quand deux
2
Gg = Gg (1Gg ).
individus k et ` sont dans la mme grappe g puisque k ` k` = Gg
Dfinition 5.2.1 :
Les -estimateurs de T et sont respectivement donns par :
c :=
T
X Tg
Gg
gS
et
c :=
1 X Ng g
.
N gS Gg
G
Remarque 5.2.2 :
N tant gnralement inconnu dans ce contexte, on utilise plutt lestimateur de
Hjek pour estimer la moyenne, comme annonc au chapitre 1.
Proposition 5.2.3 :
La variance du -estimateur de T est donne par
c =
Var T
G
G X
G
X
X
Tg2
Tg Th
(1 Gg ) +
(Ggh Gg Gh )
Gg
Gg
Gh
h=1
g=1
g=1
h6=g
)
+
.
Gg
2
Gg
Gh
Ggh
Gg
gS
gS hS
G
G
h6=g
78
Proposition 5.2.4 :
Si le nombre m de grappes slectionnes est fixe, alors la variance du -estimateur
de T scrit
2
G
G
1 X X Tg
Th
c
Var T =
(Gg Gh Ggh )
2 g=1 h=1 Gg Gh
h6=g
.
2 gS hS
Gg Gh
Ggh
G
5.3
5.3.1
G
h6=g
On a alors Gg =
m
G
et Ggh =
m(m1)
G(G1)
Proposition 5.3.1 :
La taille de lchantillon est alors alatoire, et vaut en moyenne
Nm
.
G
Dmonstration :
!
E(nS ) = E
P
gSG
Ng
P
gUg
Ng m
=
G
Nm
.
G
Proposition 5.3.2 :
c :=
Le -estimateur du total vaut alors : T
G
m
Tg .
gSG
Remarque 5.3.3 :
Dans ce cas, il est nouveau prfrable dutiliser le ratio de Hjek pour estimer la
moyenne.
5.3.2
c :=
Ng g =
g
N m gS
m gS
g
79
5.4
Il peut arriver que les totaux des grappes soient corrls avec leur taille, auquel cas il peut
tre judicieux de choisir les Gg proportionnels la taille Ng .
Les probabilits de slection sont donc Gg :=
quantits soient toutes plus petites que 1.
mNg
N
Remarque 5.4.1 :
La taille nS de lchantillon est toujours alatoire, de moyenne
m
N
Ng2 .
gUg
Proposition 5.4.2 :
P
Le estimateur de la moyenne vaut
c = m1
g .
gSG
c = N P g .
Le estimateur du total vaut T
m
gSG
Remarque 5.4.3 :
Si on cherche estimer une constante C, g = C et
1
m
C = C : on ne rencontre
gSG
G
h6=g
80
Chapitre 6
Sondage plusieurs degrs
Lide du sondage plusieurs degrs consiste effectuer des tirages successifs. Il sagit
la fois dune gnralisation du sondage stratifi et du sondage par grappes : on effectue un
sondage pour choisir des groupes dindividus et un second pour choisir les individus !
6.1
6.1.1
Principe et notations
Gnralits
Dfinition 6.1.1 :
On commence par slectionner un certain nombre de regroupements dunits, appeles units primaires, souvent par sondage probabilits ingales. Dans un second
temps, dans chaque unit primaire, on choisit un chantillon dunits, appeles units
secondaires, souvent par sondage probabilits gales.
Dfinition 6.1.2 :
On obtient ainsi un sondage deux degrs.
Remarque 6.1.3 :
Cette dfinition se gnralise bien sr des plans de sondages d N degrs.
Dans ce chapitre, nous ne nous intresserons, pour des questions de lourdeurs de notations,
qu des plans de sondage deux degrs.
81
82
Exemples 6.1.4 :
1. On peut effectuer des contrles dobjets en sondant certains lots.
2. Pour les enqutes sur des mnages, la base de sondage est gnralement une
liste de logements. La mise jour de cette base tant longue et coteuse, on
slectionne des units primaires gographiques (communes. . . ) pour lesquelles
on fait un suivi de la base de sondage. On slectionne alors les units secondaires
dans ces communes.
6.1.2
Notations
Notation 6.1.5 :
On suppose que la population U := {1, . . . , N } est compose de M sous-ensembles
(Ui )16i6M qui forment les units primaires. Chaque unit primaire Ui est compose
de Ni units secondaires ou individus.
On choisit un chantillon dunits primaires SI de taille m selon un plan pI (sI ). Ainsi,
P(SI = sI ) = pI (sI ) et SI est de taille m.
Si une unit primaire Ui est slectionne, on y slectionne un chantillon Si de taille
ni dunits secondaires au moyen dun plan pi (si ). Ainsi, P(Si = si ) = pi (si ) et Si est
de taille ni .
Remarque 6.1.6 :
Les plans deux degrs doivent possder les proprits dinvariance et dindpendance. Linvariance signifie que P(Si = si ) = P(Si = si |SI ) : les plans du second
degr ne dpendent pas de ce qui sest pass au premier degr. Lindpendance signifie que les tirages du second degr sont indpendants les uns des autres.
S
Ainsi, lchantillon alatoire est S :=
Si .
iSI
Dfinition 6.1.7 :
Le total calcul au sein de la population peut scrire :
T :=
X
kU
Xk =
M X
X
o
Ti :=
Xk
kUi
Xk =
i=1 kUi
M
X
i=1
Ti
83
o
i :=
1 X
Xk
Ni kU
i
1 X
(Xk i )2
Ni kU
i
et la variance corrige
Ni
I2 .
Ni 1
P
La taille de lchantillon S est ici n :=
ni .
2
ic
=
iSI
6.1.3
Probabilits dinclusion
84
Pour les probabilits dinclusion dordre 2, il faut utiliser les proprits dinvariance et
dindpendance :
Si deux individus k et ` appartiennent la mme unit primaire Ui , alors la probabilit
dinclusion dordre deux vaut k` = Ii k`|i .
Si deux individus k et ` appartiennent deux units primaires distinctes respectivement
Ui et Uj , alors la probabilit dinclusion dordre deux vaut k` = Iij k|i `|j .
Remarquons que le cas particulier o les Ii valent tous 1 est celui des sondages stratifis,
tandis que pour un sondage en grappes les k|i valent tous 1.
6.2
Le -estimateur
XX
iSI kSi
X
Xk
=
Tc
i
Ii k|i iS
I
o Tc
i est le -estimateur de Ti :
Tc
i =
X Xk
,
k|i
iS
i
c :=
1 X X Xk
.
N iS kS Ii k|i
I
Proposition 6.2.2 :
Le -estimateur est un estimateur sans biais de T .
85
6.2. LE -ESTIMATEUR
Proposition 6.2.3 :
Dans un plan deux facteurs, le -estimateur a pour variance :
c = VU P + VU S
Var T
o VU P est le terme de la variance se rapportant aux units primaires :
VU P :=
M X
M
X
Ti Tj
i=1 j=1
Ii Ij
Iij ,
M
X
Var Tc
i
i=1
et
i = 1, . . . , M, Var Tc
i =
Ii
X X Xk X`
k`|i .
k|i `|i
kU `U
i
Dmonstration :
do
X Ti
c |SI ) = Var
Var E(T
Ii
iS
M X
M
X
Ti Tj
=
Iij .
i=1 j=1 Ii Ij
donc
c |SI ) = E
E Var(T
X Var T
c
iSI
2
Ii
!
=
M
X
Var Tc
i
i=1
Ii
86
Remarquons que dans le cas dun plan stratifi, le premier terme de la variance disparat,
puisquon slectionne lensemble des units primaires. Dans le cas dun plan par grappes,
on slectionne toutes les units secondaires et cest le second terme qui disparat.
Un estimateur de cette variance est donn par :
Proposition 6.2.4 :
Dans un plan deux degrs,
\
c = Vc
c
Var1 T
A + VB ,
c , o Vc
est un estimateur sans biais de Var T
A est le terme de variance calcul au
niveau des units primaires (avec Iii = Ii ) :
Vc
A =
X X Tc
c
i Tj Iij
,
Ii Ij Iij
iS jS
I
et Vc
B est le terme de variance calcul au niveau des units secondaires :
Vc
B =
\
X Var
Tc
i
Ii
iSI
Dmonstration :
(
2
Var Tc
i + Ti
c
On commence par remarquer que E(Tc
i Tj |SI ) =
Ti Tj
que :
EVc
A = EE
!
X X Tc
c
i Tj Iij
SI
Ii Ij Iij
iS jS
I
=E
X X Ti Tj Iij
iSI jS
si i = j
. On en dduit
si i =
6 j
M X
M
X
i=1 j=1
Ii Ij Iij
Ti Tj
Iij +
Ii Ij
M
X
i=1
X Var Tc
i
iSI
2
Ii
Var Tc
i
!
(1 Ii )
1
1 .
Ii
87
Dautre part
!
X Var
\
Ti
SI
Ii
EVc
B = EE
iSI
=E
X E(Var
\
Ti |SI )
Ii
iSI
X Var
\
Ti
=E
iSI
M
X
Ii
Var Tc
i
i=1
M
X
Var Tc
i
i=1
Ii
M
X
i=1
1
Var Tc
.
i 1
Ii
c
c
On a donc bien EVc
A + EVB = Var T .
Remarque 6.2.5 :
c
Signalons que Vc
A nest pas un estimateur sans biais de VU P et que VB nest pas un
estimateur sans biais de VU S . Le premier surestime VU P et est en pratique suprieur
au second.
6.3
Supposons les plans de sondage des units primaires et secondaires simples sans remise.
Les probabilits dinclusion pour le premier tirage vaut donc :
Ii =
m
M
et
Iij =
m(m 1)
.
M (M 1)
Pour le second tirage, la taille des chantillons des units primaires tant ni , la probabilit
dinclusion pour lensemble du plan de sondage vaut :
k =
mni
.
M Ni
Dfinition 6.3.1 :
Le -estimateur vaut alors :
X X Ni
c = M
T
Xk .
m iS kS ni
I
88
Proposition 6.3.2 :
La variance du -estimateur vaut :
c = M
Var T
2
M
2
MX 2
ni i,c
m I,c
+
;
1
N 1
M m
m i=1 i
Ni ni
o
2
I,c
2
M
1 X
T
:=
Ti
M 1 i=1
M
et
2
i,c
:=
1 X
(Xk i )2 .
Ni 1 kU
i
Proposition 6.3.3 :
Un estimateur de cette variance est alors
2
M
s2
X
si,c
m
M
n
\
i
I,c
2
2
c = M 1
;
Var T
+
Ni 1
M m
m i=1
Ni ni
o
s2I,c :=
1
m1
M
X
i=1
c
T
Tc
i
M
!2
et
s2i,c :=
1
ni 1 kU
Tc
i
Xk
Ni
!2
.
Troisime partie
Les mthodes de redressement
89
Chapitre 7
Stratification a posteriori
Comme nous lavons vu prcdemment, un sondage bien stratifi est plus prcis quun
sondage alatoire simple.
Il arrive que lon puisse croiser les rsultats dun sondage avec des donnes existantes et
dont on na pas profit lors de llaboration du plan de sondage.
On va alors essayer de redresser lchantillon. La mthode de stratification a posteriori est
lune des mthodes de redressement dchantillon sur une variable qualitative.
7.1
Le principe
7.2
Les formules
Ici, tout se passe comme pour une stratification a priori, mais les effectifs nh sont des
quantits qui ne sont pas fixes lavance : elles dpendent de lchantillon ! Ainsi, les
91
92
tailles nh sont des quantits alatoires. Les calculs (de biais. . . ) vont donc reposer sur des
calculs conditionnels !
h
> 30, ce qui garantit
En gnral, on veille choisir les strates de telle sorte que nN
N
raisonnablement labsence de nh nuls ! On supposera dans la suite que tel est le cas !
7.2.1
Estimateur de la moyenne
Dfinition 7.2.1 :
Un estimateur de la moyenne est donn par :
bpost :=
H
X
Nh
h=1
bh ,
1 X
Xi .
nh iS
bh =
Proposition 7.2.2 :
Eb
post = et
H
P
Nh 2
Var
bpost ' 1f
+
n
N h,c
h=1
1f
n2
H
P
h=1
N Nh 2
h,c .
N
pour n grand.
7.2.2
Estimateur du total
Dfinition 7.2.3 :
Un estimateur du total T est donn par :
Tbpost =
H
X
Nh
bh .
h=1
Proposition 7.2.4 :
ETbpost = T , et,pour n grand,
H
P
2
Var Tbpost ' N 1f
Nh h,c
+
n
h=1
1f
n2
H
P
(N
2
Nh )h,c
.
h=1
Dmonstration :
En fait, ce nest pas tout fait vrai, mais a lest si aucun nh nest nul !
93
Les effectifs post-stratifis nh sont des variables alatoires suivant des lois hypergomtriques H(n; Nh ; N Nh ) car on choisit sans remise dans une population de N individus
dont Nh sont dans la strate h, et N Nh ny sont pas n individus. Ainsi, Enh = n NNh et
h N n
.
Var nh = n NNh N N
N
N 1
Nous pouvons prsent passer la dmonstration proprement parler.
Il sagit bien sr de conditionner par rapport nh , puisque dans chaque strate on effectue
un sondage alatoire simple pour lequel les calculs ont dj t faits ! (Lestimateur
ch est
en particulier un estimateur sans biais de h .)
On commence par crire
E(Td
post |nh ) =
H
X
Nh E(c
h |nh ) =
h=1
H
X
Nh h = T
h=1
d
Donc ETd
post = E(Tpost |nh ) = E(T ) = T .
Pour la variance, on utilise la formule (bien connue ?) :
d
d
Var(Td
post ) = Var E(Tpost |nh ) + E Var(Tpost |nh ).
Le premier terme est nul en vertu des calculs faits juste au-dessus. Il suffit donc de calculer
la variance conditionnelle. Mais comme conditionnellement aux nh le plan est simple sans
remise, on a
H
X
Nh nh 2
d
Var(Tpost |nh ) =
Nh
h,c .
nh
h=1
En prenant lesprance, il vient
Var(Td
post ) =
H
X
1
2
Nh Nh E 1 h,c
.
n
h
h=1
nh
)
E(nh )
1
1
.
,
Enh 1
nh
nh
o := 1 En
=1 N
.
nNh
h
On remarque que est une v.a. centre, de variance
Var nh
Nh N Nh N n N 2
N n N Nh
=
n
=
.
2
2
N
N
N 1 n2 Nh
n Nh (N 1)
(Enh )
94
Si n est grand, Nnn ' 0 et donc tend vers 0 en probabilit. On peut donc faire un
dveloppement limit en probabilit lordre 2, ce qui permet dcrire :
E
1
nh
1
E(1 + + 2 )
Enh
1
(1 + E + Var )
'
Enh
N
N (N Nh ) N n
'
+
.
Nh n Nh n
Nh
n
'
7.3
Rappelons que, comme nous lavons vu en comparant sondage alatoire simple et sondage
stratifi proportionnel,
pour N grand,
H
H
P
P
2
1f
Nh 2
Nh
Var
b' n
+
(h ) .
N h,c
N
h=1
h=1
Par consquent,
H
X Nh
1 X N Nh 2
n
(Var
b Var
bpost ) '
(h )2
h,c .
1f
N
n
N
h=1
h=1
La stratification a posteriori est justifie si cette dernire quantit est positive. Finalement,
il faut :
1. que la variable tudie soit corrle avec le critre de stratification,
2. que n soit assez grand : on ne repondre pas les petits chantillons,
3. Nh /N doit tre assez grand : il est inutile davoir beaucoup de petites strates.
< 20 ans
0, 15
12
21 35 ans
0, 3
18
36 50 ans
0, 3
30
> 50 ans
0, 25
24
< 20 ans
0, 2
21 35 ans
0, 35
36 50 ans
0, 3
> 50 ans
0, 15
Sans redresser, le revenu annuel moyen est estim par la moyenne des observations,
i.e.
b = 0, 15 12 + 0, 3 18 + 0, 3 30 + 0, 25 24 = 22, 2 milliers deuros.
En effectuant le redressement, on obtient lestimation d
post = 0, 2 12 + 0, 35 18 +
0, 3 30 + 0, 15 24 = 21, 3 milliers deuros. Sans stratification a posteriori, on aurait
donc surestim le salaire annuel, en raison de la prsence dans lchantillon de trop
de personnes en fin de carrire, avec des salaires plus levs. Le rsultat est alors plus
prcis, comme on la vu prcdemment.
95
96
7.4
Supposons que lon naie des renseignements, non pas sur un, mais sur deux caractres auxiliaires qualitatifs. Le premier permet de stratifier la population en H strates U1 , . . . , uh , . . . , UH ,
et le second permet de la stratifier en I strates U1 , . . . , Ui , . . . , UI . On obtient ainsi une
stratification croise :
U11
..
.
. . . U1i
..
.
. . . U1I
..
.
U1
..
.
. . . a1i
..
.
. . . a1I
..
.
a1
..
.
1 pice
80
90
10
180
2 pices
170
80
80
330
> 3 pices
150
210
130
490
Total
400
380
220
1000
1 pice
86
85,263
9,545
180,8
2 pices
182,750
75,789
76,364
334,9
> 3 pices
161,250
198,947
124,091
483,4
Total
430
360
210
1000
Les marges ne sont pas encore bonnes, on ajuste sur les colonnes :
Avant 1948
De 1948 1975
Aprs 1975
Total
1 pice
71,346
70,734
7,919
150
2 pices
163,704
67,891
68,405
300
> 3 pices
183,130
225,942
140,928
550
Total
418,1
364,6
217,3
1000
1 pice
73,008
69,380
7,601
150
2 pices
167,641
66,649
65,710
300
> 3 pices
189,351
223,960
136,688
550
Total
430
360
210
1000
97
98
Chapitre 8
Mthodes de redressement utilisant un
caractre quantitatif
Lestimation par le quotient a le mme but que la stratification a posteriori, mais pour des
variables qualitatives. Lobjectif est ici aussi de redresser lchantillon.
8.1
Principe et notations
Nous cherchons ici aussi estimer le total TX (ou la moyenne X ) dune variable X sur
la population U . Supposons que lon connaisse, pour une seconde variable Y dfinie sur la
mme population, le total TY (ou la moyenne Y ). Comme souvent, il est plus ais de faire
les calculs pour le total, ce qui vite les problmes de population de taille inconnue.
Si le caractre Y est li au caractre X, il peut tre intressant de construire un estimateur
de TX utilisant TY .
2
2
Notons X,c
et Y,c
les variances corriges respectives de X et Y dans la population
P
1
2
(Xk X)2 ), et XY,c la covariance corrige de X et Y : XY,c =
(donc X,c := N 1
kU
P
1
(X
)(Y
k
X
k Y ).
N 1
kU
100
8.2
Il est bas sur lide que lcart entre TX et son estimateur est gal celui entre TY et son
estimateur :
Dfinition 8.2.1 :
Lestimateur de TX par la diffrence est donn par :
d
d
[
T
X,D := TX, + TY TY, .
Proposition 8.2.2 :
[
[
ET
X,D = TX , Var TX,D =
N (N n)
2
(X,c
n
2
+ Y,c
2XY,c ).
Proposition 8.2.3 :
Un estimateur sans biais de la variance de lestimateur est donn par :
N (N n) 2
\
2
[
(SX,c + SY,c
2SXY,c ).
Var T
X,D =
n
8.3
101
[
Nous allons voir que lestimateur T
X,Q est en gnral biais, mais quil est parfois plus
prcis que Td
X, .
d
Dans la formule prcdente, Td
X, et TY, sont deux estimateurs, donc des variables alatoires, ce qui va compliquer les calculs.
8.3.1
Proposition 8.3.3 :
Lorsque n est suffisamment grand,
2
XY,c
N n RY,c
N n
[
E(T
TX
= TX +
X,Q ) ' TX +
n
TY
n
o R :=
TX
.
TY
2
Y,c
XY,c
2
TY
TX TY
,
N (N n) 2 2
2
(R Y,c 2RXY,c + X,c
),
n
d
d
Td
Td
Td
X,
X, r TY,
X, r TY,
[
T
TX = TY
=
X,Q TX = TY .
1+
Td
Td
Y,
Y,
o :=
Td
Y, TY
TY
102
2TY Td
Y,
TY
d
dd
d
2Td
X, TY 2RTY, TY TX, TY, + RTY,
2
2
2
d
dd
d
R(Td
Y, 2TY TY, + TY ) RTY + 2TX, TY TX, TY,
2
d
d
d
d
d
d
R(Td
T
)
T
T
+
T
T
+
T
T
T
T
+
(
T
T
T
T
)
Y,
Y
X Y
X, Y
Y, X
X, Y,
X, Y
Y, X
2
d
d
d
d
R(Td
Y, TY ) (TX, TX )(TY, TY ) + (TX, TY TY, TX ) .
En prenant lesprance, comme les -estimateurs sont sans biais, il vient alors :
1
d
d
d
[
R Var(TY, ) Cov(TX, TY, ) .
E TX,Q TX '
Y
Dans notre cas, on effectue des tirages selon un plan simple sans remise, ce qui donne le
rsultat.
2
[
[
Lerreur quadratique moyenne EQM T
X,Q = E(TX,Q TX ) . Comme nous lavons dj vu,
d 2
cette quantit quivaut, pour n grand, E(Td
X, RTY, ) . On peut alors achever, comme
prcdemment :
2
d
d
[
EQM TX,Q ' E (TX, TX ) R(TY, TY )
2
d
d d
' Var Td
X, + R Var TY, 2R Cov(TY, , TX, )
N (N n) 2
2
(X,c + R2 Y,c
2RXY,c ).
'
n
Remarque 8.3.4 :
Le biais est de lordre de n1 , donc ngligeable pour des gros chantillons.
Si le coefficient de variation de Y est petit, le biais de Td
Q, est ngligeable devant
c
Var TY .
8.3.2
103
8.4
SXY
SY2
Le biais de cet estimateur ne peut pas tre calcul exactement, mais les techniques de
la dmonstration faite dans le cas de lestimateur par le quotient permettent dcrire les
approximations suivantes :
Proposition 8.4.2 :
d
ETd
X,R ' TX et EQM TX,R '
8.5
N (N n) 2
X (1
n
2 ) o =
XY
X Y
Si la population est de taille importante, lestimateur par la rgression est le meilleur. Mais
il ncessite lestimation du coefficient de rgression. Il peut donc tre prfrable dutiliser
lune des deux autres mthodes.
104
Annexes
Annexe A
Ralisation informatique
Dans ce chapitre, nous voquons rapidement quelques mthodes de ralisation des sondages
rencontrs prcdemment. Nous renvoyons [11] et [9] pour les dtails et dautres mthodes.
A.1
A.2
A.2.1
108
A.2.2
1
0,1
2
0,4
3
0,2
4
0,3
5
0,6
6
0,1
7
0,9
8
0,8
9
0,4
10
0,2
0
0
1
0,1
2
0,5
3
0,7
4
1
5
1,6
6
1,7
7
2,6
8
3,4
9
3,8
10
4
Annexe B
Les dveloppements limits en
probabilit
Nous avons parfois t amens, dans les chapitres prcdents, effectuer des dveloppements limits. Ceux-ci ont t effectus sur des fonctions de variables alatoires, ce qui
pose des problmes pour la dtermination des restes. Loutil adquat pour faire ces tudes
est, comme dans le cas rel, celui des suites ngligeables ou domines, mais en probabilit.
Dfinitions B.0.2 :
Soit (Xn ) une suite de v.a., et (hn ) une suite de nombres rels strictement positifs.
1. On dit que (Xn ) est ngligeable devant (hn ) en probabilit (ou que (hn ) est
prpondrante devant (Xn ) en probabilit), ce que lon note Xn = oP (hn ) si :
Xn
= 0.
n+ hn
lim
2. On dit que (Xn ) est domine par (hn ) en probabilit, ce que lon note Xn =
OP (hn ) si :
> 0, M > 0, n N, P(|Xn | > M hn ) 6 .
Un certain nombre daffirmations bien connues pour des suites relles restent vraies dans
ce cas. Dune part pour la ngligeabilit :
109
110
Thorme B.0.3 :
Soient (Xn ) et (Yn ) deux suites de v.a. Soient (hn ) et (gn ) deux suites de rels
strictement positifs. Soient enfin a R et > 0.
On suppose Xn = oP (hn ) et Yn = oP (gn ). Alors :
1. aXn = oP (hn ) ;
2. |Xn | = oP (hn ) ;
3. Xn Yn = oP (hn gn ) ;
4. Xn + Yn = oP (max(hn , gn )).
Dautre par pour la domination :
Thorme B.0.4 :
Soient (Xn ) et (Yn ) deux suites de v.a. Soient (hn ) et (gn ) deux suites de rels
strictement positifs. Soient enfin a R et > 0.
On suppose Xn = OP (hn ) et Yn = OP (gn ). Alors :
1. aXn = OP (hn ) ;
2. |Xn | = OP (hn ) ;
3. Xn Yn = OP (hn gn ) ;
4. Xn + Yn = OP (max(hn , gn )).
Rappelons que lun des principaux outils dtude de la convergence en probabilit (du
moins dans le contexte de ce cours) est lingalit de Markov (parfois sous la version de
Bienaym-Tchebychev). Elle permet de dmontrer les deux thormes suivants :
Thorme B.0.5 :
Soit (Xn ) une suite de v.a. relles,
et (hn ) une suite de rels strictement positifs.
2
Si EXn = O(hn ), alors Xn = OP ( hn ).
Dmonstration :
Soit > 0. Comme EX2n = O(hn ), il existe M > 0 tel que n, EX2n 6 M hn . En apE|X|2
pliquant lingalit
de
Markov
sous
la
version
:
P(|X|
>
t)
6
, il vient, en prenant
t2
M
M > et t := M hn :
P(|Xn | >
p
EX2n
M hn
M hn ) 6
6
6 .
M hn
M hn
Thorme B.0.6 :
Soit (Xn ) une suite de v.a. relles, et (hn ) une
positifs.
suite de rels strictement
111
Dmonstration :
Il suffit dcrire EX2n = E (Xn EXn )2 + (EXn )2 = O(hn ) en vertu du thorme prcdent.
Exemple B.0.7 :
Si (Xn ) est une suite de v.a. i.i.d et
bn :=
OP 1n .
1
n
n
P
i=1
Xi , alors Var
bn =
2
.
n
Ainsi
bn =
1
X
i=1
(Xn x0 )i
f (i) (x0 )
+ OP (hn ).
i!
112
Bibliographie
[1] Pascal Ardilly. Les techniques de sondage. Technip, 2006.
[2] Pascal Ardilly and Yves Till. Exercices corrigs de mthodes de sondage. Ellipses,
2003.
[3] Gilles Dowek. Peut-on croire les sondages ? Les petites pommes du savoir. Le
pommier, 2002.
[4] Jean-Jacques Droesbeke. lments de statistiques. Universit de Bruxelles. 2001.
[5] Anne-Marie Dussaix and Jean-Marie Grosbras. Exercices de sondage, avec aidemmoire et solutions. Economica, 1982.
[6] Anne-Marie Dussaix and Jean-Marie Grosbras. Les sondages : principes et mthodes. Number 701 in Que sais-je ? Presses universitaires de France, 1996.
[7] Alain Garrigou. Livresse des sondages. La dcouverte, 2006.
[8] Christian Gourieroux. Thorie des sondages. Economica, 1981.
[9] Jean-Marie Grosbras. Mthodes statistiques des sondages. Economica, 1987.
[10] Myriam Maumy-Bertrand. Cours de sondages, M2 Stat.
www-irma.u-strasbg.fr/mmaumy, 2008-2009.
[11] Yves Till. Thorie des sondages. Dunod, 2001.
113