Document 2 EQ

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 19

UNIVERSITE MARIEN NGOUABI

Faculté des Sciences Economiques

LABORATOIRE DE RECHERCHE ET D’ETUDES ECONOMIQUES


ET SOCIALES (LARES)

INTRODUCTION A LA THEORIE DE SONDAGE

Document III : Théorie d’échantillonnage et Méthodes de


Sondages

Par:
LEKANA Hermann Clachel
Maître-Assistant

NGOMBI Arnode Rolffe


Doctorant

NKODIA Ernest Wilfrid


Doctorant

Brazzaville, Mai 2023


CHAPITRE II : THEORIE D’ECHANTILLONNAGE

1. Introduction
L'étude de propriétés caractéristiques d'un ensemble, quand on ne dispose pas
encore de données, nécessite d'examiner, d'observer des éléments de cet ensemble.
La manière de recueillir ces données fait l'objet d'une théorie mathématique
appelée théorie des sondages ou encore théorie de l'échantillonnage ( en anglais :
sampling theory ), Cette théorie concerne l'optimisation de la collecte des données
selon divers critères et répond à certaines interrogations sur la façon de procéder
à cette collecte en rapport avec l'information disponible et l'effort
d'échantillonnage consenti.

2. Définition de la théorie d’échantillonnage


Il nous parait difficile de définir la théorie de l’échantillonnage sans plutôt
redéfinir l’échantillonnage. Le concept d’échantillonnage est souvent définir de
diverses manières ; dans le cadre de ce cours nous retenons deux définitions.
Définition (1) : L’échantillonnage est le procédé utilisé pour choisir un
échantillon et qui est à la base de l'enquête par sondage.
Définition (2) : l’échantillonnage est la phase qui consiste à sélectionner les
individus que l’on souhaite interroger au sein de la population de base.
Ainsi, la théorie d’échantillonnage désigne une étude des liaisons existant entre
une population et les échantillons de cette population.
Prenons tous les échantillons possibles de taille n tirés d’une population donnée.
Pour chaque échantillon, on peut calculer une statistique (moyenne, écart-type,
variance, etc...) qui variera avec l’échantillon. Pour tous les échantillons, on obtient
alors une distribution de la statistique que l’on nomme la distribution
d’échantillonnage (distribution de probabilité composée de toutes les valeurs
possibles d’une statistique d’échantillon). Pour la validité des résultats, il est
important que les échantillons soient représentatifs de la population concernée.
Dans la pratique, combien d’échantillons de n éléments peuvent être isolés d’une
population de N éléments ? On distingue entre deux cas de tirage :
Tirage exhaustif (sans remise) : nombre d’échantillons est 𝐶𝑁𝑛
Tirage non exhaustif (avec remise) : nombre d’échantillons est 𝑁 𝑛

3. Méthodes d’échantillonnage
L’échantillonnage peut se faire avec ou sans remise et une population peut être
considérée comme finie ou infinie. Une population finie dans laquelle on procède à
un échantillonnage avec remise peut être théoriquement considérée comme
infinie. Dans la pratique, il en va de même pour des populations finies mais de
grandes tailles. Pour chaque distribution d’échantillonnage, on peut calculer une
moyenne, un écart type, une variance…etc. Elles sont également définies comme
un ensemble des méthodes permettant de réaliser un sondage (de prélever un
échantillon de données) au sein d’une population, de manière à reproduire un
échantillon aussi représentatif que possible de cette population. On distingue deux
types de classement des méthodes d’échantillonnage. Les méthodes de
probabilistes ou non et les méthodes de population finie ou infini.
3.1. Les méthodes probabilistes ou non.
3.1.1. Méthodes probabilistes ( Aléatoires )
L’échantillonnage probabiliste repose sur un choix d’unités dans la population fait
au hasard, ce n’est pas l’enquêteur qui choisit les unités, c’est la méthode utilisée
pour la sélection qui le fait. Une des caractéristiques de cette méthode est que
chaque unité de la population a une probabilité mesurable d’être choisie.
L’avantage de la méthode d’échantillonnage probabiliste est qu’elle permet de
généraliser les résultats de l’échantillon à l’ensemble de la population en
s’appuyant sur une théorie statistique reconnue. Son seul inconvénient est qu’il
faut posséder une liste de toutes les unités formant la population avant de
procéder à la sélection de l’échantillon. Voici les quatre types d’échantillonnage
probabiliste que l’on peut effectuer :
- Echantillonnage aléatoire simple :
Un échantillon aléatoire simple est un échantillon sélectionné de manière à ce que
chaque échantillon possible de taille "n" ait la même probabilité d’être sélectionné,
On prélève dans la population des individus au hasard, tous les individus ont la
même probabilité d’être prélevés, et ils le sont indépendamment les uns des
autres.
- Echantillonnage aléatoire stratifié :
On suppose que la population soit stratifiée, constituée de sous-populations
homogènes, les strates. (ex : stratification par tranche d’age). Dans chaque strate,
on fait un échantillonnage aléatoire simple, de taille proportionnelle à la taille de
strate dans la population (échantillon représentatif). Les individus de la
population n’ont pas tous la même probabilité d’être tirés. Nécessite une
homogénéité des strates. Le chercheur divise la population en sous-groupes
distincts et homogènes (strates) à partir desquels il sélectionnera un échantillon
aléatoire simple.
Étapes : 1. choisir une variable de stratification (ex : tranche d’age).
2. Sélectionner un échantillon aléatoire dans chaque strate
- Avantages et désavantages de la méthode :
L'échantillonnage stratifié a l'avantage d'assurer une bonne représentation des
différentes strates de la population dans l’échantillon. Il permet aussi d’obtenir
des estimations pour chacune des strates de la population. Toutefois, pour utiliser
cette méthode il faut avoir des renseignements sur la répartition des strates dans
la population.
- Echantillonnage aléatoire par grappe :
On tire au hasard des grappes ou familles d’individus, et on examine tous les
individus de la grappe (ex: on tire des immeubles puis on interroge tous les
habitants). La méthode est d’autant meilleure que les grappes se ressemblent et
que les individus d’une même grappe sont différents, contrairement aux strates.
Le chercheur divise la population en sous-groupes appelés « grappes ». Les grappes
ont le même profil, la variance d’une grappe à l’autre étant faible. Il sélectionne
par la suite un échantillon aléatoire de grappes et non pas un échantillon aléatoire
à l’intérieur de chaque grappe.
Avantages et désavantages de la méthode :
L'avantage de cette méthode par rapport aux précédentes est qu'elle ne requiert
pas au préalable la liste de la population, seule la liste des unités pour les grappes
pigées est nécessaire. Un désavantage de ce type d'échantillonnage est qu'il
produit des estimations habituellement moins précises que l’échantillonnage
aléatoire simple parce que des unités appartenant à une même grappe ont
tendance à présenter des caractéristiques semblables. Cette perte de précision
peut être compensée par une augmentation de la taille de l’échantillon.
- Echantillonnage aléatoire systématique :
Dans certaines situations, spécialement lorsque les populations sont importantes,
il est coûteux (en temps) de sélectionner un échantillon aléatoire simple en
trouvant tout d’abord un nombre aléatoire et ensuite en cherchant dans la liste de
la population l’élément correspondant. Une alternative de l’échantillonnage
aléatoire simple est l’échantillonnage systématique. Par exemple, si l’on souhaite
sélectionner un échantillon de taille 50 parmi une population contenant 5000
éléments, cela revient à sélectionner un élément tous les (5000/50) = 100 éléments
de la population. Constituer un échantillon systématique dans ce cas consiste à
sélectionner aléatoirement un élément parmi les 100 premiers de la liste de la
population. Les autres éléments de l’échantillon sont identifiés de la façon
suivante : le second élément sélectionné correspond au 100e élément qui suit le
premier élément sélectionné dans la liste de la population, le troisième élément
sélectionné correspond au 100e élément qui suit le deuxième élément sélectionné
dans la liste de la population, et ainsi de suite. En fait, l’échantillon de taille 50
est identifié en se déplaçant systématiquement dans la population et en identifiant
les 100e , 200e , 300e …etc. éléments qui suivent le premier élément choisi
aléatoirement. L’échantillon de taille 50 est généralement plus facile à identifier
de cette manière qu’en utilisant l’échantillonnage aléatoire simple. Puisque le
premier élément sélectionné l’est aléatoirement, un échantillon systématique est
généralement supposé avoir les propriétés d’un échantillon aléatoire simple, cette
hypothèse est particulièrement appropriée lorsque la liste de la population est une
énumération aléatoire des éléments de la population.
3.1.2. Méthodes non probabilistes (Raisonnées ou empirique) :
L'échantillonnage non probabiliste repose sur un choix arbitraire des unités, c’est
l’enquêteur qui choisit les unités et non le hasard. En ce sens, il serait donc
aventureux de généraliser les résultats obtenus pour l’échantillon à toute la
population. Malgré cela, ces méthodes sont souvent utilisées dans certaines
disciplines. En voici quelques-unes :
- Echantillonnage par quota :
Lorsque le chercheur veut reproduire les caractéristiques d’une population (ex.
âge, sexe, revenus, etc.) dans son échantillon.
- Echantillonnage de convenance (de commodité) :
Cas où les unités d’échantillonnage sont faciles à rejoindre, disponibles et
généralement facile à convaincre.
- Echantillonnage selon le jugement :
Le chercheur juge que l’échantillon va lui permettre d’atteindre les objectifs de la
recherche.
- Echantillonnage boule de neige :
Utile dans le cas de la rareté des unités d’échantillonnage ou de l’absence d’un
cadre d’échantillonnage valide. On demande à un répondant de nous référer à un
autre qui présente les mêmes caractéristiques que les siennes, et ainsi de suite.
3.2. Méthodes d’échantillonnage par population finie et infinie.
Une population est un ensemble que l'on observe et qui sera soumis à une analyse
statistique, chaque élément de cet ensemble est un individu ou unité statistique.
On retrouve des populations finies et des populations infinies.
Une Population finie est une population qui consiste en un nombre fini d'éléments.
Elle est catégorise en deux groupes : Homogène et non homogène.
Une population est dite homogène lorsqu’elle est constituée des éléments qui
possèdent les mêmes caractéristiques et que sa distribution est associée à la
méthode d’échantillonnage d’aléatoire simple
Une population est dite non homogène lorsqu’elle est constituée des éléments qui
ne possèdent pas les mêmes caractéristiques et associées aux autres méthodes
d’échantillonnage probabilistes (stratifié ; par grappes et systématique)
Population Infinie. Une population est infinie s’il n'y a pas de limite au nombre
d'éléments qu'il contient. Elle est également décompose en homogène et non
homogène.
Une population infinie est homogène lorsqu’elle est associée aux méthodes non
probabilistes telles que : la méthode systématique ; la méthode de jugement la
méthode de convenance et la méthode de boule de neige
Par contre elle est non homogène quand elle est associée à la méthode
d’échantillonnage de Quota.

4. Distribution d’échantillonnage :
La distribution d’échantillonnage est l’étude de la de probabilité de l’échantillon
en fonction de la distribution de la variable parente lorsque la taille de
l’échantillon augmente. Pour résoudre les problèmes d’estimation de paramètres
inconnus, il faut tout d’abord étudier les distributions d’échantillonnage, c’est à
dire la loi de probabilité suivie par l’estimateur.
CHAPITRE 3 : SONDAGE ALEATOIRE SIMPLE
1. DEFINITION

Un sondage aléatoire est simple (SAS) si tous les échantillons de taille n fixée a
priori, prélevés au sein d’une population U d’effectif N, sont réalisables avec la
même probabilité. Dans ce cas, les individus de la population U ont tous la même
probabilité d’être choisis pour faire partie de l’échantillon S : leur probabilité
d’inclusion est une constante. Si nous reprenons le choix d’une seule observation,
chaque individu de la population U a une probabilité égale à 1/N d’être prélevé
dans la population U afin de constituer l’échantillon S. Il y a deux méthodes pour
sélectionner des individus pour constituer un échantillon S.
La première méthode

Elle consiste à replacer chaque valeur observée dans la population U avant le


tirage suivant et cela n fois de suite. ⇒ Prélèvement avec remise. Ce type de
sondage est dit sondage à probabilités égales avec remise (PEAR).

La deuxième méthode

Elle consiste à ne pas remettre l’individu dans la population U à chaque tirage.


⇒ Prélèvement sans remise. Ce type de sondage est dit sondage à probabilités
égales sans remise (PESR)

2. Plan de sondage et probabilités d’inclusion


On considère une population comprenant N individus parfaitement identifiés par
un numéro d’ordre. Pour ce qui suit il nous suffira de ne retenir que ces numéros
d’ordre et nous définissons ainsi la population U = {1,. . . ,k,. . . ,N}. Notons que les
vocables de population et individus sont purement conventionnels. Les parties de
cette population sont appelées échantillons. Dans cette présentation nous
n’envisagerons que la situation où l’échantillon à sélectionner est de taille
(cardinal) fixée, notée n, et désignerons simplement par S l’ensemble des
échantillons de taille n. Commençons par donner quelques définitions.
Définition 1. On appelle plan de sondage une loi de probabilité définie sur S.
Concrètement le plan de sondage définit, pour chaque échantillon, la probabilité
qu’il soit sélectionné via le mécanisme aléatoire utilisé.
Propriétés d’un plan de sondage P(s)
1. Comme toute loi de probabilité, nous avons
P(s)≥ 0 𝑒𝑡 ∑𝑠∈𝑆 𝑝(𝑠) = 1
2. P(.) détermine les propriétés statistiques de quantités calculées dans
l’échantillon.
3. P(.) est un outil mathématique qui n’est pas trop utile dans la section de
l’échantillon.
4. C’est le sondeur qui décide de quel plan de sondage à utiliser.
5. Dans une population finie avec des variables identifies chaque individu à
différentes probabilités d’appartenir à un échantillon. Par conséquent on a :
- la probabilité d’inclusion de premier degré qui correspond à la
somme des probabilités qu’un individu puisse apparaître dans
l’échantillon ;
- la probabilité d’inclusion de deuxième degré est associée à
l’événement que deux individus se retrouvent dans un même
échantillon.

Définition : la taille de l’échantillon est le cardinal du plan de sondage.


NB : 𝑛𝑠 peut-être le même pour tout échantillon ou non.
On rappelle que le taux de sondage est le rapport entre l’effectif de l’échantillon et
l’effectif de la base de sondage. Ainsi :𝑓 = 𝑛
𝑁
avec n l’échantillon de sondage et N
la base totale. Si le taux de sondage est égal à 1, l’échantillon est la population
entière et il n’y a plus d’erreur. Mais, dans la très grande majorité des sondages,
les taux de sondage sont très faibles.

3. PLAN DE SONDAGE DANS UN PESR


Un sondage aléatoire simple est sans remise si l’observation prélevée au i -ème
tirage n’est pas replacée dans la population avant les prélèvements suivants. Ce
type de sondage est appelé un sondage à probabilités égales sans remise (PESR)
Il est commode de se représenter un échantillon non ordonné et sans remise
comme un sous ensemble non vide de U. En effet un ensemble est par définition
non ordonné et sans répétition. Ainsi l’ensemble des échantillons non ordonnés et
sans remise est l’ensemble des parties non vides de U.

On prélève un échantillon de n individus suivant un plan de sondage aléatoire simple


sans remise (PESR pour Probabilités Egales Sans Remise) dans une population U. Soit
W la var égale à l’échantillon obtenu. Alors la loi de W est donnée par :
Card(W = 𝜔)
𝑃(𝑊 = 𝜔) = Card(Ω)

où P désigne la probabilité uniforme et W(Ω) désigne l’ensemble de tous les


échantillons de n individus possibles avec un tel plan de sondage.

Or on a Card(Ω) = 𝐶𝑁𝑛 et Card(W = 𝜔) = 1, d’où le résultat.


Situations de référence : Les différents types de prélèvements décrits ci-dessous
rentrent dans le cadre d’un PESR :
- on prélève au hasard et simultanément n individus de la population
pour former un échantillon,
- - on prélève au hasard et un à un n individus de la population pour
former un échantillon, l’ordre n’étant pas pris en compte.
-
Dans le cadre d’un tirage aléatoire sans remise, le taux de sondage correspond à
la probabilité d’appartenance à l’événement qui est souvent noté : 𝑓 = 𝑁𝑛
a. Probabilité d’inclusion dans un échantillon
pour tout i ∈ {1, . . . , N}, la probabilité que l’individu 𝑢𝑖 appartienne à W est :
𝑛
𝑃(𝑢𝑖 ∈ 𝑊) = 𝑁

pour tout (i, j) ∈ {1, . . . , N} 2 avec i 6= j, la probabilité que les individus 𝑢𝑖 et 𝑢𝑗


appartiennent à W est :

𝑛(𝑛−1)
𝑃(𝑢𝑖 , 𝑢𝑗 ∈ 𝑊) = 𝑁(𝑁−1)
b. Les estimateurs dans le cadre d’un PESR
A l’aide des probabilités d’inclusions, nous pouvons donner une version plus
explicite des estimateurs de la moyenne, de la variance, de l’écart type…

c. Estimateurs de la moyenne d’un échantillon


1
cet estimateur est donné par la formule suivante : 𝑦̅̂ = 𝑛 ∑𝑁
𝑖=1 𝑦𝑖 1{𝑢𝑖 𝜖𝑊}

1 𝑠𝑖 𝑙 ′ é𝑣𝑒𝑛𝑒𝑚𝑒𝑛𝑡𝐴 𝑒𝑠𝑡 𝑟é𝑎𝑙𝑖𝑠é


où 1 désigne la fonction indicatrice définie par : {
0 𝑠𝑖 𝑛𝑜𝑛
Notons que, l’espérance mathématique d’un évènement aléatoire correspond à la
probabilité d’inclusion d’un individu ou au taux de sondage.
De cette formule, l’estimateur de l’échantillon est sans biais lorsque, la moyenne
de l’échantillon tend vers la moyenne de la population. C’est-à-dire,
𝑦̅̂ = 𝑦̅𝑈
d. Variance d’un échantillon
La différence entre une estimation d’un échantillon et la valeur de la population
est appelée erreur d’échantillonnage de l’estimation ; on ne connaît évidemment
pas l’amplitude de cette erreur puisqu’on ne connaît pas la valeur de la
population. Etant donné que le plan d’échantillonnage donne lieu à différents
échantillons possibles, les estimations varient d’un échantillon à l’autre. Sur la
base de ces estimations possibles, on peut obtenir une mesure de l’amplitude
moyenne, par rapport à tous les échantillons possibles, des carrés de l’erreur
d’échantillonnage. Il s’agit de l’erreur quadratique moyenne de l’estimation qui
est essentiellement une mesure de la variation d’un estimateur par rapport à la
valeur réelle de la population. La variance d’échantillonnage V(y) est une mesure
de l’écart de l’estimation par rapport à sa moyenne. Elle est définie comme
l’amplitude moyenne par rapport à tous les échantillons possibles des carrés des
écarts de l’estimateur par rapport à sa moyenne et est donnée par :
1 𝑁
𝑉(𝑦) = ∑ (𝑦𝑖 − 𝑦̅𝑤 )²
𝑛 𝑖=1
e. Estimateurs de la variance de la moyenne d’un échantillon

Cet estimateur permet d’évaluer l’erreur d’échantillonnage. Plus il est proche de


la valeur moyenne plus l’erreur semble être minimisée. Il est donné par la
formule suivante :

𝑠𝑤 ²
𝑉(𝑦̅̂) = (1 − 𝑓)
𝑛

1 N
avec S w   ( yi  y w )²1ui W 
n - 1 i 1

f. Estimateurs de l’écart type de la moyenne d’un échantillon

Sw ²
S ( y w )  (1  f )
n

g. Intervalles de Confiance

Soit ω un échantillon de n individus de U. Un intervalle de confiance pour 𝑦̅𝑈 au


niveau 100(1 − α)%, α ∈]0, 1[, est :

 Sw ² S ²
𝐼𝑦𝑈 =  y w  z (1  f ) ; y w  z (1  f ) w 
 n n 

où z est le réel vérifiant P(|Z| ≥ z ) = α, Z ∼ N (0, 1)

Interprétation : Il y a 100(1 − α) chances sur 100 que 𝑦̅𝑈 appartienne à


l’intervalle 𝐼𝑦̅𝑈 .

h. Erreur d’estimation et Probabilité d’erreur

Soit ω un échantillon de n individus de U. L’erreur d’estimation que commet 𝑦̅𝑤

en estimant 𝑦̅𝑈 est le réel : ew  y w  yU ;

Ce paramètre permet d’évaluer la précision de la moyenne de l’échantillon


i. Incertitude absolue, incertitude relative et taille de l’échantillon

Soit ω un échantillon de n individus de U. On appelle incertitude absolue de 𝑦̅𝑈

Sw ²
au niveau 100(1 − α) %, α ∈]0, 1[, la demi-longueur de I𝑦̅𝑈 : z (1  f )
n

Plus dω est petit, plus l’estimation de 𝑦̅𝑈 par 𝑦̅𝑤 est précise.

Soit ω un échantillon de n individus de U et dω l’incertitude absolue de 𝑦̅𝑈 au


niveau 100(1 − α) %, α ∈]0, 1[. On appelle incertitude relative de I𝑦̅𝑈 au ni𝑦̅𝑈 veau
100(1 − α)% le pourcentage (100 × d w* )% où d w* est le réel :

dw
dw 
*

yw

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon


n à choisir pour avoir : ◦ une incertitude absolue de 𝑦̅𝑈 au niveau 100(1 − α)%, α
∈]0, 1[, inférieure ou égale à d 0 est le plus petit n tel que :

Nz² sw²
d w  d0  n 
Nd 0²  z² sw²

Une incertitude relative de 𝑦̅𝑈 au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale
à (100 × 𝑑1 )% est le plus petit n tel que :

Nz² sw²
d  d1  n 
*

N ( y w d1 )²  z² sw²
w

j. Estimation des autres paramètres dans le cadre d’un PESR

Dans la pratique des sondages, lorsqu'on cherche à estimer dans une population
finie un paramètre tel qu'un total, une moyenne ou un pourcentage, la théorie a
montré qu'il est préférable, lorsqu'on connaît sur l'ensemble de la population les
valeurs de la variable auxiliaire qui est bien corrélée avec la variable d'intérêt,
d'uti1iser cette information pour améliorer la qualité des résultats, mesurée par
l'erreur quadratique moyenne de l'estimateur dans la population finie.

En effet, tous les échantillons sont exposés aux erreurs d’échantillonnage. L’erreur
d’échantillonnage est le degré de variation qui existe entre les estimations établies
à partir des différents échantillons possibles. On ne connait pas évidemment cette
erreur mais on cherche à calculer cette erreur. L’ampleur de cette erreur dépend
de la variabilité d’un certain nombre de paramètres : le total, la proportion,
l’effectif…

Dans les lignes qui suivent, nous allons tour à tour faire un bref aperçu des
différents paramètres afin d’assurer la robustesse des résultats de sondage.

 Estimateur du total de la population


N
On appelle total-population le réel : TU   yi  N yU
i 1

 Estimateur du total de l’échantillon

1 N
On appelle total-échantillon le réel : Tw  N y w  N  yi 1{u i  W}
n i1

 Variance du total de l’ensemble des échantillons

𝑠𝑈 ²
V ( TW )  N ²(1  f ) 𝑛

NB : il sied de noter que, la variance du total de l’ensemble de l’échantillon (W)


encore appelée par erreur quadratique des échantillons diffère de celle d’un
échantillon (w) dans la mesure où, cette dernière est donnée par la formule
𝑠𝑤 ²
suivante : V ( Tw )  N ²(1  f ) . Son écart type correspond à la racine carrée de
𝑛

cette constante.

 Intervalle de Confiance

Soit ω un échantillon de n individus de U. Un intervalle de confiance pour 𝑇𝑈 au


niveau 100(1 − α)%, α ∈]0, 1[, est :

 Sw ² S ²
𝐼𝑇𝑈 = Tw  z N ²(1  f ) ; Tw  z N ²(1  f ) w   N  I yU
 n n 

où zα est le réel vérifiant P(|Z| ≥ zα) = α, Z ∼ N (0, 1).

On peut également définir l’incertitude absolue ou relative de 𝑇𝑈 , ainsi que la


taille d’échantillon souhaitée pour une incertitude donnée.
 Estimateur de la proportion

L’estimation d’une proportion intervient le plus souvent lorsque les données sont
dichotomiques.

On suppose que le caractère Y est binaire : Y (Ω) = {0, 1}. Cela correspond à un
codage. Par exemple, Y = 1 peut caractériser : le succès à une épreuve, ◦ la présence
d’un élément caractéristique. Ainsi, les données brutes y1, . . . , yN sont constituées
uniquement de 0 et de 1.

Il sied de noter que, la proportion-population est la proportion des individus dans


U vérifiant Y = 1 : elle est confondue avec la moyenne de la population

N
1
PU 
N
y
i 1
i

 Estimateurs de la moyenne d’une population

PW  y w

 Estimateurs de la Variance de la proportion des échantillons et


celui d’un échantillon

N
V ( PW )  (1  f ) PU (1  PU )
nN  1

Pw (1  Pw )
Celle d’un échantillon est donnée par : V ( Pw )  (1  f )
n 1

Elles permettent toutes les deux d’évaluer l’erreur quadratique moyenne dans
l’ensemble des échantillons et dans une portion de l’échantillon.

Son écart type, son intervalle de confiance et ses incertitudes absolues conservent
les mêmes propriétés que les estimateurs de la moyenne.

Excepté le total et la proportion, il est important de vérifier également les


estimateurs de l’effectif en vue d’une parfaite robustesse des résultats de sondage
dans le cadre des caractères binaires c’est-à-dire des variables dichotomiques.
Variables prenant la valeur 1 si l’évènement se réalise et 0 si non.
 Estimation d’un effectif

On appelle effectif population, le nombre d’individus de cette population.

 U  NPU

 Estimateur de l’effectif d’une moyenne

 U  NPw

 Estimateurs de la Variance de l’effectif des échantillons et celui


d’un échantillon

N
V (  W )  N ²(1  f ) PU (1  PU )
n( N  1)

Pw (1  Pw )
Celle d’un échantillon est donnée par : V ( Pw )  N ²(1  f )
n 1

Elles permettent toutes les deux d’évaluer l’erreur quadratique moyenne que peut
causer l’effectif dans l’ensemble des échantillons et dans une portion de
l’échantillon.

Son écart type, son intervalle de confiance et ses incertitudes absolues conservent
les mêmes propriétés que les estimateurs de la moyenne.
Plan de sondage aléatoire simple avec remise (PEAR)

Le plan de taille fixe n, simple et avec remise correspond au cadre de la statistique


inférentielle usuelle. En effet le plan de sondage consiste à sélectionner une unité
aléatoire et de recommencer l’opération n fois indépendamment. Le plus
simplement possible, le même individu peut être choisi plusieurs fois pour faire
partie d’un échantillon de taille Wi.

Loi de probabilité
On prélève un échantillon de n individus suivant un plan de sondage aléatoire
simple avec remise (PEAR pour Probabilités Egales Avec Remise) dans une
population U. Soit W la var égale à l’échantillon obtenu :
W = W1 ............Wn 

où, pour tout m  1,....n , .Wn est la var égale au m-ème individu de l’échantillon.

Alors, la loi de Wi est donnée par :


1
𝑃(𝑊𝑚 = 𝑢𝑖 ) =
N
Où, i  1,....N  et 𝑃(𝑊𝑚 = 𝑢𝑖 ) désigne la probabilité uniforme.

Probabilité d’inclusion dans le Cadre de Sondage aléatoire avec remise

Contrairement au sondage aléatoire sans remise, les probabilités d’appartenance


dans le cadre d’un PEAR sont données comme suit :

n
 1
Pour tout i  1,....N  , Pu i  W   1  1  
 N

n n
 1  2
Pour tout i, j   1,....N 2 , Pu i  W   1  21    1  
 N  N

Les estimateurs dans le cadre d’un PSAR


A l’aide des probabilités d’inclusions, nous pouvons donner une version plus
explicite des estimateurs de la moyenne, de la variance, de l’écart type dans le
cas d’un sondage aléatoire avec remise.
Moyenne d’un échantillon dans un PSAR
La moyenne d’un échantillon encore appelée variable aléatoire dans le cadre d’un
sondage aléatoire avec remise est la même que celle d’un PSSR.
Variance de la moyenne d’un échantillon
Tout comme dans le cadre d’un PSSR, la variance aléatoire d’un PSAR permet
également d’estimer l’influence de l’erreur sur la valeur moyenne de la variable.
Cette variance peut être calculer dans un échantillon comme dans l’ensemble des
échantillons.
Dans le cadre d’un échantillon, elle est donnée par :
2
1 N n
1u i  W 
sw
V(yw) 
n
Avec S w   i w 
n - 1 i 1
( y  y )²
m 1

De cette formule, il apparait claire que l’écart type de la moyenne est la racine
2
sw
carrée de sa variance S ( y w ) 
n

Une fois calculer la variance et l’écart type de la moyenne d’un échantillon, la


variance de l’ensemble des échantillons est donnée par la formule :

2
N sU 1 N
V ( yW ) 
N 1 n
avec SU2   (yi  y U )²
N  1 i 1

Intervalle de Confiance dans le Cadre d’un sondage aléatoire avec


remise (PSAR)

Soit ω un échantillon de n individus de U. On suppose que Y suit une loi normale.


Un intervalle de confiance pour 𝑦̅𝑈 au niveau 100 (1 − α) %, α ∈]0, 1[, est

 S ² S ²
I y U  y w  t  (v ) w ; y w  t  (v ) w 
 n n 

Où tα(ν) est le réel vérifiant P (|T| ≥ tα(ν)) = α, T ∼ T (ν), ν = n − 1.


k. Incertitude absolue, incertitude relative et taille de l’échantillon

Soit ω un échantillon de n individus de U. On appelle incertitude absolue de 𝑦̅𝑈

Sw ²
au niveau 100(1 − α) %, α ∈]0, 1[, la demi-longueur de I𝑦̅𝑈 : d w  z
n

Plus dω est petit, plus l’estimation de 𝑦̅𝑈 par 𝑦̅𝑤 est précise.

Soit ω un échantillon de n individus de U et dω l’incertitude absolue de 𝑦̅𝑈 au


niveau 100(1 − α) %, α ∈]0, 1[. On appelle incertitude relative de I𝑦̅𝑈 au ni𝑦̅𝑈 veau
100(1 − α)% le pourcentage (100 × d w* )% où d w* est le réel :

dw
dw 
*

yw

Soit ω un échantillon prélevé lors d’une étude préliminaire. La taille d’échantillon


n à choisir pour avoir : ◦ une incertitude absolue de 𝑦̅𝑈 au niveau 100(1 − α)%, α
∈]0, 1[, inférieure ou égale à d 0 est le plus petit n tel que :

2
Z S 
d w  d 0  n    w 
 dO 

Une incertitude relative de 𝑦̅𝑈 au niveau 100(1 − α)%, α ∈]0, 1[, inférieure ou égale
à (100 × 𝑑1 )% est le plus petit n tel que :

2
Z S 
d  d1  n    w 
*
w
 d1 y w 

Estimation des autres paramètres dans le cadre d’un PSSR

L’estimation du total de la population et celui de l’échantillon dans le cadre d’un


PESR sont identiques avec les estimateurs dans le cadre d’un PSAR.

 Variance du total de l’ensemble des échantillons et celle d’un


échantillon

La variance du total de l’ensemble des échantillons est la suivante :

𝑠𝑈 ²
V ( TW )  N ² .
𝑛
la variance du total d’un échantillon est donnée par la formule suivante :
𝑠𝑤 ²
V ( Tw )  N ² 𝑛
.

 Estimateurs de la Variance de la proportion des échantillons et


celui d’un échantillon

N
V ( PW )  PU (1  PU )
nN  1

Pw (1  Pw )
Celle d’un échantillon est donnée par : V ( Pw ) 
n 1

Estimateurs de la Variance de l’effectif des échantillons et celui d’un


échantillon

N
V( W )  N² PU (1  PU )
n( N  1)

Pw (1  Pw )
Celle d’un échantillon est donnée par : V ( Pw )  N ²
n 1

Vous aimerez peut-être aussi