Document 2 EQ
Document 2 EQ
Document 2 EQ
Par:
LEKANA Hermann Clachel
Maître-Assistant
1. Introduction
L'étude de propriétés caractéristiques d'un ensemble, quand on ne dispose pas
encore de données, nécessite d'examiner, d'observer des éléments de cet ensemble.
La manière de recueillir ces données fait l'objet d'une théorie mathématique
appelée théorie des sondages ou encore théorie de l'échantillonnage ( en anglais :
sampling theory ), Cette théorie concerne l'optimisation de la collecte des données
selon divers critères et répond à certaines interrogations sur la façon de procéder
à cette collecte en rapport avec l'information disponible et l'effort
d'échantillonnage consenti.
3. Méthodes d’échantillonnage
L’échantillonnage peut se faire avec ou sans remise et une population peut être
considérée comme finie ou infinie. Une population finie dans laquelle on procède à
un échantillonnage avec remise peut être théoriquement considérée comme
infinie. Dans la pratique, il en va de même pour des populations finies mais de
grandes tailles. Pour chaque distribution d’échantillonnage, on peut calculer une
moyenne, un écart type, une variance…etc. Elles sont également définies comme
un ensemble des méthodes permettant de réaliser un sondage (de prélever un
échantillon de données) au sein d’une population, de manière à reproduire un
échantillon aussi représentatif que possible de cette population. On distingue deux
types de classement des méthodes d’échantillonnage. Les méthodes de
probabilistes ou non et les méthodes de population finie ou infini.
3.1. Les méthodes probabilistes ou non.
3.1.1. Méthodes probabilistes ( Aléatoires )
L’échantillonnage probabiliste repose sur un choix d’unités dans la population fait
au hasard, ce n’est pas l’enquêteur qui choisit les unités, c’est la méthode utilisée
pour la sélection qui le fait. Une des caractéristiques de cette méthode est que
chaque unité de la population a une probabilité mesurable d’être choisie.
L’avantage de la méthode d’échantillonnage probabiliste est qu’elle permet de
généraliser les résultats de l’échantillon à l’ensemble de la population en
s’appuyant sur une théorie statistique reconnue. Son seul inconvénient est qu’il
faut posséder une liste de toutes les unités formant la population avant de
procéder à la sélection de l’échantillon. Voici les quatre types d’échantillonnage
probabiliste que l’on peut effectuer :
- Echantillonnage aléatoire simple :
Un échantillon aléatoire simple est un échantillon sélectionné de manière à ce que
chaque échantillon possible de taille "n" ait la même probabilité d’être sélectionné,
On prélève dans la population des individus au hasard, tous les individus ont la
même probabilité d’être prélevés, et ils le sont indépendamment les uns des
autres.
- Echantillonnage aléatoire stratifié :
On suppose que la population soit stratifiée, constituée de sous-populations
homogènes, les strates. (ex : stratification par tranche d’age). Dans chaque strate,
on fait un échantillonnage aléatoire simple, de taille proportionnelle à la taille de
strate dans la population (échantillon représentatif). Les individus de la
population n’ont pas tous la même probabilité d’être tirés. Nécessite une
homogénéité des strates. Le chercheur divise la population en sous-groupes
distincts et homogènes (strates) à partir desquels il sélectionnera un échantillon
aléatoire simple.
Étapes : 1. choisir une variable de stratification (ex : tranche d’age).
2. Sélectionner un échantillon aléatoire dans chaque strate
- Avantages et désavantages de la méthode :
L'échantillonnage stratifié a l'avantage d'assurer une bonne représentation des
différentes strates de la population dans l’échantillon. Il permet aussi d’obtenir
des estimations pour chacune des strates de la population. Toutefois, pour utiliser
cette méthode il faut avoir des renseignements sur la répartition des strates dans
la population.
- Echantillonnage aléatoire par grappe :
On tire au hasard des grappes ou familles d’individus, et on examine tous les
individus de la grappe (ex: on tire des immeubles puis on interroge tous les
habitants). La méthode est d’autant meilleure que les grappes se ressemblent et
que les individus d’une même grappe sont différents, contrairement aux strates.
Le chercheur divise la population en sous-groupes appelés « grappes ». Les grappes
ont le même profil, la variance d’une grappe à l’autre étant faible. Il sélectionne
par la suite un échantillon aléatoire de grappes et non pas un échantillon aléatoire
à l’intérieur de chaque grappe.
Avantages et désavantages de la méthode :
L'avantage de cette méthode par rapport aux précédentes est qu'elle ne requiert
pas au préalable la liste de la population, seule la liste des unités pour les grappes
pigées est nécessaire. Un désavantage de ce type d'échantillonnage est qu'il
produit des estimations habituellement moins précises que l’échantillonnage
aléatoire simple parce que des unités appartenant à une même grappe ont
tendance à présenter des caractéristiques semblables. Cette perte de précision
peut être compensée par une augmentation de la taille de l’échantillon.
- Echantillonnage aléatoire systématique :
Dans certaines situations, spécialement lorsque les populations sont importantes,
il est coûteux (en temps) de sélectionner un échantillon aléatoire simple en
trouvant tout d’abord un nombre aléatoire et ensuite en cherchant dans la liste de
la population l’élément correspondant. Une alternative de l’échantillonnage
aléatoire simple est l’échantillonnage systématique. Par exemple, si l’on souhaite
sélectionner un échantillon de taille 50 parmi une population contenant 5000
éléments, cela revient à sélectionner un élément tous les (5000/50) = 100 éléments
de la population. Constituer un échantillon systématique dans ce cas consiste à
sélectionner aléatoirement un élément parmi les 100 premiers de la liste de la
population. Les autres éléments de l’échantillon sont identifiés de la façon
suivante : le second élément sélectionné correspond au 100e élément qui suit le
premier élément sélectionné dans la liste de la population, le troisième élément
sélectionné correspond au 100e élément qui suit le deuxième élément sélectionné
dans la liste de la population, et ainsi de suite. En fait, l’échantillon de taille 50
est identifié en se déplaçant systématiquement dans la population et en identifiant
les 100e , 200e , 300e …etc. éléments qui suivent le premier élément choisi
aléatoirement. L’échantillon de taille 50 est généralement plus facile à identifier
de cette manière qu’en utilisant l’échantillonnage aléatoire simple. Puisque le
premier élément sélectionné l’est aléatoirement, un échantillon systématique est
généralement supposé avoir les propriétés d’un échantillon aléatoire simple, cette
hypothèse est particulièrement appropriée lorsque la liste de la population est une
énumération aléatoire des éléments de la population.
3.1.2. Méthodes non probabilistes (Raisonnées ou empirique) :
L'échantillonnage non probabiliste repose sur un choix arbitraire des unités, c’est
l’enquêteur qui choisit les unités et non le hasard. En ce sens, il serait donc
aventureux de généraliser les résultats obtenus pour l’échantillon à toute la
population. Malgré cela, ces méthodes sont souvent utilisées dans certaines
disciplines. En voici quelques-unes :
- Echantillonnage par quota :
Lorsque le chercheur veut reproduire les caractéristiques d’une population (ex.
âge, sexe, revenus, etc.) dans son échantillon.
- Echantillonnage de convenance (de commodité) :
Cas où les unités d’échantillonnage sont faciles à rejoindre, disponibles et
généralement facile à convaincre.
- Echantillonnage selon le jugement :
Le chercheur juge que l’échantillon va lui permettre d’atteindre les objectifs de la
recherche.
- Echantillonnage boule de neige :
Utile dans le cas de la rareté des unités d’échantillonnage ou de l’absence d’un
cadre d’échantillonnage valide. On demande à un répondant de nous référer à un
autre qui présente les mêmes caractéristiques que les siennes, et ainsi de suite.
3.2. Méthodes d’échantillonnage par population finie et infinie.
Une population est un ensemble que l'on observe et qui sera soumis à une analyse
statistique, chaque élément de cet ensemble est un individu ou unité statistique.
On retrouve des populations finies et des populations infinies.
Une Population finie est une population qui consiste en un nombre fini d'éléments.
Elle est catégorise en deux groupes : Homogène et non homogène.
Une population est dite homogène lorsqu’elle est constituée des éléments qui
possèdent les mêmes caractéristiques et que sa distribution est associée à la
méthode d’échantillonnage d’aléatoire simple
Une population est dite non homogène lorsqu’elle est constituée des éléments qui
ne possèdent pas les mêmes caractéristiques et associées aux autres méthodes
d’échantillonnage probabilistes (stratifié ; par grappes et systématique)
Population Infinie. Une population est infinie s’il n'y a pas de limite au nombre
d'éléments qu'il contient. Elle est également décompose en homogène et non
homogène.
Une population infinie est homogène lorsqu’elle est associée aux méthodes non
probabilistes telles que : la méthode systématique ; la méthode de jugement la
méthode de convenance et la méthode de boule de neige
Par contre elle est non homogène quand elle est associée à la méthode
d’échantillonnage de Quota.
4. Distribution d’échantillonnage :
La distribution d’échantillonnage est l’étude de la de probabilité de l’échantillon
en fonction de la distribution de la variable parente lorsque la taille de
l’échantillon augmente. Pour résoudre les problèmes d’estimation de paramètres
inconnus, il faut tout d’abord étudier les distributions d’échantillonnage, c’est à
dire la loi de probabilité suivie par l’estimateur.
CHAPITRE 3 : SONDAGE ALEATOIRE SIMPLE
1. DEFINITION
Un sondage aléatoire est simple (SAS) si tous les échantillons de taille n fixée a
priori, prélevés au sein d’une population U d’effectif N, sont réalisables avec la
même probabilité. Dans ce cas, les individus de la population U ont tous la même
probabilité d’être choisis pour faire partie de l’échantillon S : leur probabilité
d’inclusion est une constante. Si nous reprenons le choix d’une seule observation,
chaque individu de la population U a une probabilité égale à 1/N d’être prélevé
dans la population U afin de constituer l’échantillon S. Il y a deux méthodes pour
sélectionner des individus pour constituer un échantillon S.
La première méthode
La deuxième méthode
𝑛(𝑛−1)
𝑃(𝑢𝑖 , 𝑢𝑗 ∈ 𝑊) = 𝑁(𝑁−1)
b. Les estimateurs dans le cadre d’un PESR
A l’aide des probabilités d’inclusions, nous pouvons donner une version plus
explicite des estimateurs de la moyenne, de la variance, de l’écart type…
𝑠𝑤 ²
𝑉(𝑦̅̂) = (1 − 𝑓)
𝑛
1 N
avec S w ( yi y w )²1ui W
n - 1 i 1
Sw ²
S ( y w ) (1 f )
n
g. Intervalles de Confiance
Sw ² S ²
𝐼𝑦𝑈 = y w z (1 f ) ; y w z (1 f ) w
n n
Sw ²
au niveau 100(1 − α) %, α ∈]0, 1[, la demi-longueur de I𝑦̅𝑈 : z (1 f )
n
Plus dω est petit, plus l’estimation de 𝑦̅𝑈 par 𝑦̅𝑤 est précise.
dw
dw
*
yw
Nz² sw²
d w d0 n
Nd 0² z² sw²
Une incertitude relative de 𝑦̅𝑈 au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale
à (100 × 𝑑1 )% est le plus petit n tel que :
Nz² sw²
d d1 n
*
N ( y w d1 )² z² sw²
w
Dans la pratique des sondages, lorsqu'on cherche à estimer dans une population
finie un paramètre tel qu'un total, une moyenne ou un pourcentage, la théorie a
montré qu'il est préférable, lorsqu'on connaît sur l'ensemble de la population les
valeurs de la variable auxiliaire qui est bien corrélée avec la variable d'intérêt,
d'uti1iser cette information pour améliorer la qualité des résultats, mesurée par
l'erreur quadratique moyenne de l'estimateur dans la population finie.
En effet, tous les échantillons sont exposés aux erreurs d’échantillonnage. L’erreur
d’échantillonnage est le degré de variation qui existe entre les estimations établies
à partir des différents échantillons possibles. On ne connait pas évidemment cette
erreur mais on cherche à calculer cette erreur. L’ampleur de cette erreur dépend
de la variabilité d’un certain nombre de paramètres : le total, la proportion,
l’effectif…
Dans les lignes qui suivent, nous allons tour à tour faire un bref aperçu des
différents paramètres afin d’assurer la robustesse des résultats de sondage.
1 N
On appelle total-échantillon le réel : Tw N y w N yi 1{u i W}
n i1
𝑠𝑈 ²
V ( TW ) N ²(1 f ) 𝑛
cette constante.
Intervalle de Confiance
Sw ² S ²
𝐼𝑇𝑈 = Tw z N ²(1 f ) ; Tw z N ²(1 f ) w N I yU
n n
L’estimation d’une proportion intervient le plus souvent lorsque les données sont
dichotomiques.
On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un
codage. Par exemple, Y = 1 peut caractériser : le succès à une épreuve, ◦ la présence
d’un élément caractéristique. Ainsi, les données brutes y1, . . . , yN sont constituées
uniquement de 0 et de 1.
N
1
PU
N
y
i 1
i
PW y w
N
V ( PW ) (1 f ) PU (1 PU )
nN 1
Pw (1 Pw )
Celle d’un échantillon est donnée par : V ( Pw ) (1 f )
n 1
Elles permettent toutes les deux d’évaluer l’erreur quadratique moyenne dans
l’ensemble des échantillons et dans une portion de l’échantillon.
Son écart type, son intervalle de confiance et ses incertitudes absolues conservent
les mêmes propriétés que les estimateurs de la moyenne.
U NPU
U NPw
N
V ( W ) N ²(1 f ) PU (1 PU )
n( N 1)
Pw (1 Pw )
Celle d’un échantillon est donnée par : V ( Pw ) N ²(1 f )
n 1
Elles permettent toutes les deux d’évaluer l’erreur quadratique moyenne que peut
causer l’effectif dans l’ensemble des échantillons et dans une portion de
l’échantillon.
Son écart type, son intervalle de confiance et ses incertitudes absolues conservent
les mêmes propriétés que les estimateurs de la moyenne.
Plan de sondage aléatoire simple avec remise (PEAR)
Loi de probabilité
On prélève un échantillon de n individus suivant un plan de sondage aléatoire
simple avec remise (PEAR pour Probabilités Egales Avec Remise) dans une
population U. Soit W la var égale à l’échantillon obtenu :
W = W1 ............Wn
où, pour tout m 1,....n , .Wn est la var égale au m-ème individu de l’échantillon.
n
1
Pour tout i 1,....N , Pu i W 1 1
N
n n
1 2
Pour tout i, j 1,....N 2 , Pu i W 1 21 1
N N
De cette formule, il apparait claire que l’écart type de la moyenne est la racine
2
sw
carrée de sa variance S ( y w )
n
2
N sU 1 N
V ( yW )
N 1 n
avec SU2 (yi y U )²
N 1 i 1
S ² S ²
I y U y w t (v ) w ; y w t (v ) w
n n
Sw ²
au niveau 100(1 − α) %, α ∈]0, 1[, la demi-longueur de I𝑦̅𝑈 : d w z
n
Plus dω est petit, plus l’estimation de 𝑦̅𝑈 par 𝑦̅𝑤 est précise.
dw
dw
*
yw
2
Z S
d w d 0 n w
dO
Une incertitude relative de 𝑦̅𝑈 au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale
à (100 × 𝑑1 )% est le plus petit n tel que :
2
Z S
d d1 n w
*
w
d1 y w
𝑠𝑈 ²
V ( TW ) N ² .
𝑛
la variance du total d’un échantillon est donnée par la formule suivante :
𝑠𝑤 ²
V ( Tw ) N ² 𝑛
.
N
V ( PW ) PU (1 PU )
nN 1
Pw (1 Pw )
Celle d’un échantillon est donnée par : V ( Pw )
n 1
N
V( W ) N² PU (1 PU )
n( N 1)
Pw (1 Pw )
Celle d’un échantillon est donnée par : V ( Pw ) N ²
n 1