Support Cours ISFRA
Support Cours ISFRA
Support Cours ISFRA
SUPPORT DE COURS
Juin 2017
OBJECTIF DU COURS
Initier les étudiants à la Statistique descriptive. Les notions de variables, de séries statistiques,
de paramètres d’étendue et de dispersion doivent être maitrisées. Amener les étudiants à
appréhender les situations dans lesquelles il faut, par exemple, préférer la Médiane à la
Moyenne ou vice versa ; la Variance à l’Ecart type ou vice versa.
i
SOMMAIRE
OBJECTIF DU COURS..................................................................................................................
SOMMAIRE....................................................................................................................................
LISTE DES ILLUSTRATIONS....................................................................................................
Liste des tableaux...................................................................................................................iv
Liste des figures.....................................................................................................................iv
INTRODUCTION...........................................................................................................................
1. Définition........................................................................................................................1
2. Domaines d’application..................................................................................................1
3. Les concepts de base.......................................................................................................2
4. La démarche statistique...................................................................................................4
PREMIERE PARTIE : STATISTIQUE DESCRIPTIVE...........................................................
I. DISTRIBUTIONS STATISTIQUES A UN CARACTERE.................................................
1.1. Tableaux statistiques...................................................................................................6
1.2. Représentation graphique............................................................................................8
1.3. Le résumé statistique.................................................................................................13
II. SERIE STATISTIQUE DOUBLE, TABLEAUX ET GRAPHIQUES.........................
1.4. Présentation générale des tableaux statistiques à double entrée...............................23
1.5. Distribution marginale..............................................................................................26
1.6. Distribution conditionnelle.......................................................................................27
1.7. Représentation graphique..........................................................................................29
DEUXIEME PARTIE : ECHANTILLONNAGE, COLLECTE ET TRAITEMENT DES
DONNEES......................................................................................................................................
CHAP. I. LES ETAGES DU PROCESSUS D’UNE ENQUÊTE PAR SONDAGE................
1.8. I.1.Les principales directions de recherche de l’information....................................31
1.9. I.2. Schéma général du processus d’une enquête par sondage.................................32
CHAP II. VOCABULAIRE ET CONCEPTS DE BASE EN THEORIE DES
SONDAGES...................................................................................................................................
1.10. II.1.. Les principales questions qui guident le choix et l’élaboration d’un plan de
sondage.................................................................................................................................36
1.11. II.2. Notions de sondages et d’échantillon et quelques exemples.............................38
1.12. II.3. Les Notions relatives à la description de l’univers d’étude..............................40
1.13. II.4. Les Notions relatives aux informations recherchées et à la précision des calculs
42
1.14. II.5. Les Notions relatives aux calculs des précisions, pour les sondages aléatoires45
1.15. II.6 L’évaluation de la qualité d’un sondage............................................................48
1.16. Conclusion partielle..................................................................................................50
CHAP. III LES TECHNIQUES DE SONDAGES EMPIRIQUES...........................................
1.17. Notes de mise en garde.............................................................................................51
1.18. III.1 L’échantillon par quota.....................................................................................51
1.19. III.2 Echantillon de volontaires ou la méthode du volontariat..................................54
1.20. III.3 Méthode des itinéraires « random route ».........................................................55
1.21. III.4 Technique de « boule de neige ».......................................................................56
1.22. III.5 La méthode des « unités types ».......................................................................57
1.23. Conclusion partielle et introduction aux sondages aléatoires...................................58
CHAPITRE IV : LE SONDAGE ALEATOIRE SIMPLE : SAS.............................................
1.24. IV. Principe et mise en œuvre...................................................................................59
1.25. IV.2 Paramètres, estimateurs et précision.................................................................60
1.26. IV.3 Détermination de la taille de l’échantillon........................................................61
ii
1.27. IV.3 Avantages et inconvénients du sas :.................................................................62
1.28. IV.4 Exercices d’applications...................................................................................63
1.29. IV.5 Procédure et application Excel et SPSS pour le tirage d’un échantillon
probabiliste dans un SAS......................................................................................................65
CHAPITRE V : LE SONDAGE STRATIFIE............................................................................
1.30. V.1 Principe justification et mise en œuvre..............................................................68
1.31. V.2 Estimateurs et précisions....................................................................................69
1.32. V-3 Détermination de la taille de l’échantillon.........................................................70
1.33. V-4 Avantages et inconvénients du sondage stratifie :.............................................71
1.34. V-5 Exercice théorique d’application.......................................................................71
CHAPITRE VI : LE SONDAGE A PLUSIEURS DEGRES....................................................
1.35. VI.1 Principe justification et mise en œuvre.............................................................73
1.36. VI.2 Estimateurs.......................................................................................................76
1.37. VI.3 Détermination de la taille de l’échantillon en cas de pré stratification.............77
1.38. VI.4 Avantages et inconvénients du sondage a deux degrés....................................78
1.39. VI.5 L'échantillonnage en grappes............................................................................78
1.40. VI.6 Le plan complexe classique utilisé dans les grandes enquêtes : Le sondage
stratifiés à deux degrés..........................................................................................................78
1.41. VI.7 Algorithme de tirage systématique à probabilités inégales proportionnelles aux
tailles, à partir des totaux cumulés........................................................................................79
1.42. Conclusion sur les sondages aléatoires.....................................................................80
CHAPITRE VII. ORGANISATION DE LA COLLECTE DES DONNEES SUR
TERRAIN.......................................................................................................................................
1.43. VII.1. La planification des activités..........................................................................81
1.44. VII.2 La préparation des principaux instruments de collecte : le questionnaire et
masque de saisie....................................................................................................................82
1.45. VII.3 Information des autorités, sensibilisation et documents d’introduction..........82
1.46. VII.4 Recrutement et formation des agents enquêteurs et organisation des équipes82
1.47. VII.5 Le suivi des opérations de terrain....................................................................83
CHAPITRE VIII. ETAPES ET CONSIGNES POUR TRAITEMENT ET ANALYSE
DES DONNEES D’ENQUETES..................................................................................................
1.48. Etape 1 : Prendre connaissances de toutes les informations qui se rapportent à
l’étude 86
1.49. Etape 2 : Prendre contact avec la base et sélectionner les données utiles.................86
1.50. Etape 3 : Apurement et validation des données........................................................87
1.51. Etape 4 : Effectuer les traitements des données........................................................91
1.52. Etape 5 : Révision le plan d’analyse.........................................................................92
1.53. Etape 6 : Exécuter le plan d’analyse.........................................................................92
BIBLIOGRAPHIE........................................................................................................................
ANNEXE : ETUDE DE CAS........................................................................................................
iii
LISTE DES ILLUSTRATIONS
iv
INTRODUCTION
1. Définition
Le terme "statistique" est tiré d’un mot grec qui signifie "constater". La statistique est la
science ayant pour objet le groupement méthodique des faits sociaux qui se prêtent à une
évaluation numérique, comme les impôts, la production industrielle et agricole, la population,
la religion, etc. On fait aussi dériver le mot du latin "status" qui veut dire "état", et à l’origine
on appelait statisticien celui qui s’occupait des affaires d’Etat.
Théoriquement, la statistique peut donc être définie comme étant une science, une méthode ou
une technique qui part d’un ensemble d’informations sur un phénomène donné pour aboutir à
une représentation simplifiée et compréhensible par tous.
De manière plus pratique, on parle de statistique lorsque le phénomène que l’on étudie peut
être mesuré ou chiffré. C’est justement cet aspect qui fait la force de la statistique car comme
le dit Lord Kelvin repris par Torrens-Ibern (1956), « Lorsque vous pouvez mesurer ce dont
vous parlez et l’exprimer au moyen de chiffres, vous en savez quelque chose, mais lorsque
vous ne pouvez pas le mesurer ni l’exprimer par des chiffres, votre connaissance en est faible
et peu satisfaisante».
Nous pouvons distinguer la statistique descriptive et exploratoire et la statistique inférentielle
ou probabiliste. La statistique descriptive est l’ensemble des méthodes et techniques qui
permettent de décrire de façon synthétique et parlante des données observées pour mieux les
analyser. La statistique inférentielle, quant à elle, essaie de préciser la distribution d’une
variable dans la population connaissant ses valeurs prises sur un échantillon.
La Statistique se distingue des statistiques qui désignent des données statistiques. Nous
pouvons par exemple étudier l’évolution des statistiques du Commerce Extérieur du Mali.
2. Domaines d’application
La statistique est un outil indispensable pouvant s’appliquer à une multitude de domaines,
notamment :
La démographie : les données collectées permettent l’étude des natalités, des mortalités,
de la scolarisation, des migrations, etc.
Les assurances : les statistiques sur la mortalité permettent par exemple d’établir des
tables de mortalité indispensables à la détermination des primes d’assurance-vie. Elles
permettent aussi de prévoir le nombre d’accidents dans une région pendant une période
donnée.
La modélisation statistique (ou économique) : permet de représenter une réalité par des
relations pour, par exemple, prévoir la variable future ou quantifier l’effet d’un choc sur
une variable donnée.
Les Etudes de marché : la création et la mise sur le marché d’un nouveau produit
nécessitent l’utilisation de techniques de sondage consistant à interroger un échantillon de
la population sur la correspondance entre les caractéristiques du produit et les goûts des
consommateurs.
1
Les Finances
Le Transport, la communication, etc.
3. Les concepts de base
Dans cette section, nous définissons un ensemble de concepts indispensables à la bonne
compréhension de la Statistique et nous précisons le sens statistique des notions de modalité,
de caractère, d’unité statistique.
Unité statistique et population
Les ensembles étudiés par la statistique portent le nom général d’univers statistique ou de
population. Si nous considérons le recensement général de la population et de l’habitat de
2009 au Mali (RGPH 2009), l’univers statistique est l’ensemble des personnes vivant sur le
territoire malien en 2009 ; pour l’Enquête Entreprise, l’univers est l’ensemble des entreprises
du Mali. De façon générale, la population représente l’ensemble concerné par une étude
statistique ; c’est aussi le champ de l’étude.
Leurs éléments sont appelés unités statistiques ou individus. Dans le RGPH 2009, les
individus sont les ménages et dans l’Enquête Entreprise les entreprises.
Tout sous-ensemble de la population sur lequel sont effectivement réalisées les observations
est appelé échantillon. L’opération consistant à observer ou mesurer l’ensemble des individus
d’un échantillon est appelée enquête. On parle de recensement lorsque la population tout
entière est étudiée ou questionnée ; c’est une enquête exhaustive.
Caractères et modalités
Le caractère représente ce à quoi l’on s’intéresse dans une étude statistique ; c’est le thème
commun à tous les individus. Chaque individu de la population est décrit du point de vue d’un
ou de plusieurs caractères. En prenant en compte l’ensemble des étudiants de la classe, nous
pouvons étudier le sexe, l’âge, la région ou le pays d’origine, etc.
Les caractères étudiés peuvent être constitués de plusieurs modalités qui représentent les
diverses situations dans lesquelles un individu peut se trouver à l’égard du caractère étudié.
Chaque individu doit présenter une seule modalité du caractère considéré. Les modalités d’un
même caractère sont incompatibles, c’est-à-dire chaque individu de la population ne présente
qu’une seule modalité et exhaustives (toutes les modalités possibles sont représentées). Dans
l’étude du caractère sexe, les modalités sont masculin et féminin.
Mathématiquement, le caractère est une application définie sur la population statistique. Le
caractère est quantitatif lorsqu’il est à valeurs réelles (ou une partie des réels ou un ensemble
de parties des réels) et qualitatif sinon.
Les caractères quantitatifs sont composés de caractères quantitatifs discrets et continus.
Les caractères qualitatifs
Les modalités ne sont pas mesurables. Nous pouvons citer comme caractère qualitatif la
nationalité, le sexe, la profession, la catégorie socio-professionnelle, etc. dans le RGPH 2009.
Pour le traitement informatique des données recueillies, on affecte généralement des codes
(préétablis) aux différentes modalités des caractères qualitatifs.
2
Les caractères quantitatifs
Les différentes modalités sont mesurables ou repérables, c’est-à-dire à chacune des modalités
correspond un nombre (non un code). Un caractère quantitatif est aussi appelé variable
statistique. Les modalités sont les différentes valeurs prises par la variable. Une étude sur les
étudiants d’une classe fait apparaître des caractères quantitatifs tels que la taille, le poids,
l’âge, le nombre d’enfants de chaque étudiant, etc. Les caractères quantitatifs sont constitués
de caractères quantitatifs discrets et continus.
Les valeurs possibles d’une variable discrète sont des nombres isolés. Nous pouvons citer
comme variables discrètes le nombre d’enfants de chaque étudiant, l’âge en années révolues,
la taille en centimètres pour l’étude des étudiants d’une classe.
Les valeurs possibles prises par une variable continue sont apriori en nombre infini et
quelconques dans un intervalle de valeurs. Nous pouvons citer l’âge exact d’un étudiant, la
taille définie dans une population humaine.
La distinction entre variable continue et variable discrète est évidente en théorie, mais pose
des problèmes en pratique du fait de la précision des instruments de mesure et aussi pour des
raisons de commodité. Ainsi, bien que la taille soit continue, on mesure des tailles en nombres
isolés : 178 cm, 189 cm, etc. On définit généralement les variables continues en classes ou
tranches de valeurs possibles (pouvant avoir une amplitude constante ou variable) constituant
les modalités de la variable.
Le schéma ci-dessous donne de manière résumée les différents types de variables ainsi que
des exemples.
Variable
Quantitative Qualitative
Couleur Taille
Nombre Précipitations Type de vestimentaire
d’enfant Surface culture Préférence
Nombre de Age Profession plus ou moins
pièces d’une Taille Sexe grande.
habitation. Poids Département
T
Poids
3
Effectif et Fréquence :
L’effectif total est le nombre d’individus appartenant à la population étudiée.
L’effectif total sera noté N.
Exemple :
Considérons un groupe comprenant trente étudiants et observons l’âge des étudiants dans
cette population. L’effectif total de la population statistique étudiée est trente (N = 30).
4
- Source de revenu : Nombre de poissons pêché par jour, consommation journalière du
pêcheur, nombre/quantité de poissons destiné pour la vente, prix d’un poisson ou d’un
kg de poissons, revenu journalier du pêcheur, nombre de jours de pêche dans la
semaine. Ces informations permettent de ressortir le revenu mensuel du pêcheur.
Il faut par la suite passer à la rédaction du Questionnaire : elle consiste à :
- tester le questionnaire ;
- recruter l’Agent du terrain et le former (recrutement + formation des enquêteurs) ;
- faire une enquête pilote pour à la fois certains de nos enquêteurs qui doivent être
déployés sur le terrain.
Il faut ensuite définir la stratégie de collecte : Cette stratégie de collecte dépend de ce que
vous enquêtez. Il faut pouvoir adapter ta stratégie selon le cas (activités illicites par exemple :
on n’enquêtera pas de la même manière sur l’activité de consommation de drogue que sur la
consommation de mangue).
Phase de collecte : On envoie les agents sur le terrain, les superviseurs sont là pour les
suivre afin d’assurer la qualité de l’opération. Les superviseurs doivent être très motivés,
avoir une bonne mobilité et être des personnes de confiance.
Centralisation et saisie : A la phase de centralisation et de saisie, surtout au niveau de la
saisie, il faut créer une application de saisie à l’aide des Logiciels appropriés à cet effet
(Cspro par exemple). Il existe de nos jours, un appareil de collecte des données appelé
PDA qui permet de numériser l’information durant la collecte. Il permet de faire
automatiquement la saisie des réponses aux questionnaires.
Il faudra par la suite passer à la correction des erreurs de saisie, des erreurs de collecte
et des incohérences dans les réponses.
Compilation des Résultats
% de pêcheurs par région, type de pêche, sexe, situation matrimoniale ;
Revenu moyen ;
Production mensuelle moyenne ;
Par : région, type de pêche, région et type de pêche, type d’activité.
Analyse et Interprétation ;
Conclusion /Prise de décisions : il s’agira de proposer des stratégies permettant d’améliorer
le revenu des pêcheurs ou d’améliorer les conditions d’exercice de l’activité ; tout ceci en
fonction des résultats compilés.
5
PREMIERE PARTIE : STATISTIQUE DESCRIPTIVE
Ce premier chapitre présente les différents tableaux et graphiques utilisés pour résumer
l’information statistique collectée. Il va s’élargir à la définition des caractéristiques de
tendance centrale, de dispersion ainsi qu’à celles de position et de concentration.
I.1. Tableaux statistiques
Nous considérons dans toute la suite une population statistique comportant n individus
désignés par 1, 2,..., n. n représente la taille de la population. Soit X un caractère
statistique à k modalités présentées par la population et notées X1, X2, ..., Xk. Nous noterons
X(i) le caractère observé sur l’individu i. La collecte de l’information relative au caractère
X auprès de la population consiste à observer, pour chaque individu i, la modalité Xj qu’il
{ X ( ωi ) :i=1, 2 ,. . ., n }
présente ou vérifie. L’ensemble constitue la série statistique brute.
L’information collectée se présente symboliquement sous la forme suivante :
Tableau 1 : Forme générale de l’information recueillie
Modalité Effectif
X1 n1
X2 n2
... ...
Xk nk
Total N
Source : données fictives, nos calculs
Les nj appelés effectifs ou fréquences absolues représentent le nombre d’individus statistiques
présentant (ou respectant) la modalité Xj.
Un tableau statistique doit présenter un certain nombre de renseignements parmi lesquels :
1. Le titre qui indique l’objet du tableau ;
2. L’unité utilisée ;
3. Les titres de lignes et de colonnes et qui en précisent le contenu et qui doivent être précis
et concis ;
4. Les notes (de tableau) qui éclairent le lecteur et qui expliquent mieux certains contenus du
tableau.
5. La source est généralement indiquée au bas du tableau et permet de vérifier la fiabilité des
données.
6
Fréquence relative
f j =n j /n
La fréquence relative de la modalité Xj représente la proportion des individus
∑ f j =1
j=1,...,k
vérifiant la modalité Xj du caractère X. Les fréquences relatives vérifient la relation
I.1.1. Caractère qualitatif
Lorsque le caractère est qualitatif, le tableau statistique se présente sous la forme générale ci-
dessus. Considérons le caractère sexe étudié sur une population d’élèves d’une classe de taille
n. le tableau statistique se présente sous la forme suivante :
Tableau 3 : Répartition des élèves d’une classe suivant le SEXE
Sexe Effectif
Masculin n1
Féminin n-n1
Source :
Nous pouvons citer comme autre exemple la catégorie socio-professionnelle.
I.1.2. Caractère quantitatif
Nous présentons deux exemples ; l’un traitant de variable discrète et l’autre de variable
continue.
I.1.2.1. Variable discrète
Etudions le nombre de stylos à bille dont dispose chaque étudiant d’une classe considérée.
C’est une variable discrète. Le tableau statistique correspondant aux données recueillies est le
suivant :
Tableau 4 : Répartition des étudiants d’une classe suivant le NOMBRE DE STYLOS A BILLE
dont ils disposent
Modalité Effectif
1 2
3 2
4 1
Total 5
Les modalités du caractère sont des classes de valeurs possibles définies par les extrémités des
classes. Deux présentations sont généralement possibles.
Considérons la variable « Age des habitants d’un village ». Nous avons les deux présentations
suivantes :
Tableau 5 : Répartition des habitants d’un village suivant l’AGE
Modalité (ans) Effectif Modalité Effectif
<10 20 10 20
10-14 15 15 15
15-29 10 30 10
30-49 7 50 7
50-64 4 4
65
>=65 1 1
7
De façon générale, le tableau statistique se présente symboliquement :
Nous définissons :
le centre de la classe j noté Cj :
1
C j= ( X +X )
2 j j−1 ;
La distance entre centres :
1
2( j
d j= X −X j−1 )
;
l’amplitude de classe :
a j =X j− X j−1 .
I.2. Représentation graphique
Bien que les tableaux statistiques présentent toute l’information collectée, il est souvent utile
de présenter les résultats sous forme graphique pour en réaliser une synthèse visuelle. Nous
présentons les représentations graphiques usuelles suivant la nature du caractère.
I.2.1. Caractère qualitatif
Deux types de graphiques sont généralement utilisés : les secteurs angulaires et les tuyaux
d’orgue. Pour ces représentations graphiques, les effectifs sont proportionnels aux aires.
I.2.1.1. Les secteurs angulaires
Chaque secteur correspond à une modalité, l’angle au centre (en degré) étant égal au produit
de la fréquence relative fj par 360 :
nj
θ j=360 . f j =360 .
n .
j
Pour le tableau ci-dessous par exemple on peut construire le diagramme circulaire et obtiendra
8
Répartition d'une population selon l'état matrimonial.
Effectif (nj)
9
I.2.2.1. Variable discrète
a. Diagramme en bâtons
Effectif
11 12 13 14 16 Notes
15
Remarque : En joignant les extrémités des bâtons, on obtient le polygone des fréquences qui
donne une idée de la fonction de densité de la variable.
b. Secteurs circulaires (voir2.2.1.1)
c. Courbe cumulative
F
1
0
x
Xj Xj+1
10
Exemple :
Tableau 6 : le nombre de chambres disponibles par ménage
Nombre de chambres
Effectif
par ménage
1 15
2 10
3 25
4 40
5 20
Remarque :
Les Anglo-saxons définissent la fonction cumulative au point x comme étant la proportion de
la population dont le caractère est inférieur ou égal à x.
I.2.2.2. Variable continue
C’est la représentation graphique des fréquences relatives simples d’une variable continue. Le
diagramme en bâtons ne peut pas s’appliquer ici dans la mesure où il y a une infinité de
valeurs intermédiaires.
A chaque classe de variable, on fait correspondre la surface d’un rectangle ayant pour base
l’amplitude de la classe. La hauteur est proportionnelle à la fréquence ou à l’effectif de la
classe. Deux cas différents peuvent se présenter.
Premier cas : Les classes ont la même amplitude.
La construction du graphique est aisée.
Exemple :
Classes Effectif
20-30 15
30-40 25
40-50 15
50-60 5
11
f j|u =f j / ( au )=f . au
j
j
j .
La représentation graphique générale est donnée par :
Effectif
Classe
Xj- Xj s
Exemple : Utiliser le tableau 5.
1
Remarque : ici, on obtient le polygone des fréquences en joignant les milieux du sommet de
chaque rectangle.
Fréquence cumulée
1
0 x
Xj-1 Xj
Exemple : Utiliser le tableau 5
On peut aussi utiliser, pour une variable continue, le polygone de fréquence cumulée qui est
obtenu en joignant les centres des classes.
12
Les parties suivantes présentent des caractéristiques statistiques qui permettent de résumer
l’information collectée. Ces caractéristiques se calculent évidemment sur des caractères
quantitatifs. Leurs valeurs sont approximatives dans le cas de variables continues dans la
mesure où les centres de classes sont considérés pour leur détermination au lieu des vraies
valeurs inconnues.
I.3. Le résumé statistique
Pour trouver les éléments qui particularisent une série statistique quantitative, il faut chercher
à la ‘’résumer’’. Et comme tout résumé, cette phase doit conserver le fondamental de la série
tout en étant concise. Un résumé parfait doit respecter un ensemble de conditions connues
sous l’appellation de condition de Yule :
Il doit :
Etre défini de façon objective (indépendamment de l’observateur) ;
Etre dépendant de toutes les observations ;
Avoir une signification concrète pour être compris par un non spécialiste ;
Etre simple à calculer ;
Etre peu sensible aux fluctuations d’échantillonnage ;
Se prêter aisément aux opérateurs mathématiques classiques.
Les indicateurs que nous présentons ci-après seront évalués au regard de ces conditions.
I.3.1. Caractéristiques de tendance centrale
La médiane d’une distribution statistique est la valeur du caractère qui partage la série des
individus en deux ensembles d’effectifs égaux. En d’autres termes, la médiane est la valeur
dont l’ordonnée sur la courbe cumulative est égale à cinquante pour cent (50 %).
Remarque : la médiane vérifie les propriétés 1, 3, 4, 6 de Yule mais ne satisfait pas 5 et ne
dépend des observations que par l’ordre.
a. Variable discrète
La médiane est facilement déterminée lorsque le nombre d’observations est impair (n=2p+1).
La médiane est la valeur du (p+1)ème individu.
Exemple : Considérons les notes en Français d’élèves d’une classe : 4, 5, 6, 7, 8, 9, 10. La
médiane est 7.
Lorsque le nombre d’observations est paire, on définit un intervalle médian [Xp,Xp+1] de façon
à avoir le même nombre d’individus de part et d’autre de l’intervalle. On peut aussi définir un
centre médian.
Exemple : Considérons les notes en maths d’élèves d’une classe : 3, 4, 5, 6, 7, 8, 9, 10.
L’intervalle médian est [6, 7] ou le centre médian est Me = 6.5.
La courbe cumulative est généralement utilisée pour une meilleure détermination de la
médiane.
13
Graphique 4 : Détermination de la médiane d’une variable discrète
1/2
0 x
Me
14
I.3.1.2. Le mode (Mo)
Exemple : utiliser le tableau 6 pour calculer le nombre moyen de chambres disponibles par
ménage.
Cas d’une variable continue
Très souvent et quand il s’agit d’une variable quantitative, les valeurs prises par chaque
individu ne sont pas connues car les données ont été préalablement regroupées en classes.
L’application de la formule générale est donc impossible.
En supposant les individus uniformément répartis dans une classe, on convient de prendre
comme valeurs des individus d’une classe le centre de classe. La formule générale devient
alors :
k k
1
X = ∑ n j C j =∑ f j C j
n j =1 j=1 .
Le changement d’origine peut aussi s’appliquer à une variable continue lorsque ses valeurs
sont grandes.
15
I.3.1.4. Moyenne harmonique
(∑ )
k k
1 nj fj
1/ H= =∑
n j=1 X j j=1 X j
.
Cette formule est utilisée pour calculer les moyennes de pourcentages ou de proportions ; par
exemple le nombre moyen de médecin pour 10000 habitants ou le nombre moyen
d’enseignants pour 1500 élèves.
I.3.1.5. Moyenne géométrique
.
Cette moyenne est utilisée pour calculer des taux de croissance moyens par exemple.
I.3.1.6. Moyenne quadratique
√ √
k k
1
Q= ∑ n j X 2j = ∑ f j X 2j
n j=1 j=1
(∑ )
k k
1 nj fj
1/ H= =∑
n j=1 X j j=1 X j
.
√ √∑
k k
1
Q= ∑ n X 2=
n j=1 j j
f j X 2j
j=1
k k
√
G= X 1 1 X 22 .. . X k k =∏ X j j =∏ X j j
n n n n
j=1
n /n
j=1
f
La moyenne arithmétique d’un mélange de populations est égale à la moyenne des moyennes
arithmétiques, observées dans chacune des sous-populations, pondérées par la proportion des
individus.
16
Propriétés
Propriété 1
aX +b=a X+b
Etant donnés deux réels a et b, .
Lorsque les valeurs prises par la variable discrète X sont très élevées, les calculs sont
X '=X− X 0
onéreux ; on effectue alors un changement d’origine en posant . La nouvelle
origine ne doit pas être une valeur extrême de la variable X.
Propriété 2
H <G<X <Q
Les différentes moyennes vérifient les inégalités : .
Propriété 3 : Relation entre Mode, Mediane et moyennes.
On montre que la médiane est presque toujours comprise entre le Mode et la Moyenne et plus
proche de la moyenne.
Si la distribution est symétrique, les trois caractéristiques sont confondues.
Si le mode est inférieur à la moyenne, la distribution est étalée vers la droite
Si le mode lui est supérieur alors la distribution est plutôt étalée vers la gauche.
Remarque : Dans la littérature, on distingue :
Les moyennes de grandeurs,
Les moyennes de position et,
La moyenne de fréquence.
La dernière désigne le mode, la deuxième désigne la médiane, les deciles et de façon générale
les quantiles d’ordre α. Les premières sont classées en deux groupes les moyennes simples ou
élémentaires (que nous avons présenté) et les moyennes élaborées.
I.3.2. Caractéristique de dispersion
17
I.3.2.2. L’écart médian ou écart probable
C’est la médiane des écarts à la médiane.
√
k
1
σ X =√ Var ( X )= ∑ n j X 2j + X 2
n j=1 .
Il représente la distance moyenne des observations à leur moyenne. La série est d’autant plus
dispersée que l’écart-type est élevé. Cependant il n’existe pas d’ordre de grandeur de cette
caractéristique.
Propriété 4
2
Soit a et b deux réels. Alors Var ( aX +b ) =a Var ( X ) .
18
Nous reprenons les notations de la propriété 2. Appelons nlj le nombre d’individus de la sous-
population Pl vérifiant la modalité Xj et nl. Le nombre d’individus de la sous-population Pl.
Désignons par fj la fréquence de l’observation Xj dans la population totale.
m
nlj nl.
f lj = et pl = ; on a : f j =∑ pl f jl
Posons n n l=1 .
Appelons l l’écart-type de la variable X dans la sous-population Pl.
La variance totale de la variable X dans la population totale est donnée par
l’expression :
m m
σ =∑
2
pl σ 2l + ∑ pl ( X l −X )2
l=1 . l =1
La première quantité dans la variance totale mesure la dispersion au sein des sous-populations
(variance intra population) et la seconde mesure la dispersion entre les sous-populations
(variance inter population).
19
On définit les intervalles interquantiles par la différence entre le deuxième et l’avant-dernier
quantile. Par exemple, l’intervalle interquartile est définit par Q3 – Q1 et l’intervalle
interdeciles par : D9 – D1. il regroupe respectivement 50 et 90 % des observations et
permettent d’éliminer les valeurs extrêmes.
L’intervalle interquantiles relatifs
On obtient les intervalles interquantiles relatifs en rapport les precedentes au quantile centrale
afin d’obtenir un indicateur sans mesure. Par exemple, l’intervalle interquartile relatif est
definit par (Q3 – Q1)/Q2 et l’intervalle interdeciles relatif par : (D9 – D1)/ D5. Ils donnent
une idée de l’assymetrie de la distribution.
Propriété 6 : les moments
On appelle moment d’ordre r la quantité mr suivante :
k
1
mr = ∑ n j X r
n j=1 j
,
et moment centré d’ordre r la quantité r définie par :
k
1
μr = ∑
n j=1
n j ( X j −X )r
.
On a :
m0=1 0=1
m1= X 1=0
2
m2= Var( X )+ X 2=Var(X)
I.3.3. Caractéristiques de forme
20
En outre, on utilise le premier et le second coefficient de Pearson pour mesurer le dégré
d’oblicité d’une courbe de fréquence. Ils caractérisent la dissymetrie. Ils s’obtiennent par :
moyenne−mod e
ν=
Le premier coefficient de Pearson : écart−type
3( moyenne−mode )
ν=
Le second coefficient de Pearson : écart−type
( ( ))
2
1 1 x−m
f ( x )= exp −
m et d’écart-type de fonction de densité σ √2 π 2 σ .
Si2 =0 alors l’aplatissement est proche de celui de la loi normale : la courbe est
mésokurtique ;
Si2>0 alors la distribution est moins aplatie que la distribution normale de même
moyenne et de même variance : la courbe est leptokurtique ;
Si2<0 alors la distribution est plus aplatie que la distribution normale de même moyenne
et de même variance : la courbe est platykurtique.
I.3.4. Caractéristiques de concentration
La notion de concentration a été introduite par Gini et a porté sur les salaires et les revenus.
Cette caractéristique s’applique aux variables continues à valeurs positives.
21
Classe Centre de Fréquence Fréquence Masse de Masse relative Masse relative
classe relative cumulée (F) caractère cumulée (q)
[X1-X2[ c1 f1 f1 n1c1 m1=n1c1/M* m1
[X2-X3[ c2 f1 f1+ f2 n2c2 m2=n2c2/M m1+m2
... ... ... ... ... ... ...
[Xj-Xj+1[ cj fj f1+ f2+...+ fj njcj mj=njcj/M m1+m2+...+ mj
... ... ... ... ... ... ...
[Xk-Xk+1[ ck fk 1 nkck mk=nkck/M 1
M=∑ n j C j
* j .
La courbe de Lorentz est la représentation graphique de la masse relative cumulée par rapport
à la fréquence cumulée. La distribution est d’autant plus égalitaire que la courbe de Lorentz
est proche de la première bissectrice. Le graphique ci-après présente la courbe de Lorentz
dans un cadre général.
22
Exemple : Utiliser le tableau 8 pour tracer la courbe de concentration
Masse relative
cumulée (qj)
Fréquence
1 cumulée (Fj)
23
II. SERIE STATISTIQUE DOUBLE, TABLEAUX ET GRAPHIQUES
L’un des chantiers de l’analyste des données est la recherche d’éventuelles relations entre caractères
soit dans la perspective de la confirmation ou de l’infirmation d’une théorie, de préjugés ; soit pour
établir une relation, entre variables économiques, qui n’était à priori pas évidente ou pressentie.
Par exemple, les données de l’enquête niveau de vie (ENV) permettent-elles de dire que les
autochtones sont plus, ou moins, pauvres que les allogènes ? Les habitants de Ségou sont-ils plus, ou
moins, pauvres que ceux des autres villes (Mopti, Tombouctou, Gao, …).
En outre, existe-t-il une relation entre le lieu d’habitation et la séroprévalence ?
Ainsi, l’un des objectifs de cette section est de fournir aux Statisticiens, les rudiments de l’analyse de
telles relations et de leur permettre, quand des telles relations existent, de les quantifier.
I.4. Présentation générale des tableaux statistiques à double entrée
Le travail du statisticien est de synthétiser l’information contenue dans un ensemble. A ce niveau, les
tableaux et graphiques sont d’un apport inestimable. Ils sont dans beaucoup de cas plus expressifs que
les chiffres présentés çà et là. Toutefois, pour leur permettre de véhiculer l’information, il convient de
les choisir à propos. Quel tableau faut-il présenter pour rendre pertinente l’information avancée ? C’est
à cette question que nous nous proposons de répondre dans cette section.
Notations
Soit une population P d’individus en nombre n présentant deux caractères X et Y ayant respectivement
k et l modalités.
On note nij le nombre d’individus de P qui vérifient à la fois les modalités Xi de X et Yj de Y.
nij
f ij =
n
On définit : Fréquence totale ou conjointe du couple (Xi ,Yj) qui est la
proportion d’individus vérifiant à la fois les modalités Xi de X et Yj de Y.
Les modalités de X (resp. de Y) étant incompatibles (un individu ne peut en aucun cas avoir deux
modalités de la même variable) et exhaustives (chaque individu peut être classé dans la partition
formée par une modalité de la variable), la somme des effectifs n ij est egale à l’effectif de la population
n. Ainsi, on a :
k l k l
∑ ∑ n ij=n ∑ ∑ f ij=1
i=1 j=1 i=1 j=1
Les modalités des deux caractères définissent donc une partition de la population mère en k*l
sous-population Pij d’effectif nij. Chaque modalité des caractères en présence prise séparément
définit une sous population dont les effectifs s’obtiennent par sommation des effectifs relatifs
aux modalités de l’autre caractère.
Ainsi, dans une sommation, on notera par un point l’indice sur lequel porte la sommation.
Et donc, on a :
24
l l k k
k k l l
25
Tableau : Répartition de la population selon le Sexe et le CSP
CSP Cadre (en Maîtrise (en Ouvriers (en
Total (en %)
Sexe %) %) %)
Masculin (en %) 16,67 20,83 29,17 66,67
Féminin (en %) 4,17 16,67 12,50 33,33
Total (en %) 20,83 37,50 41,67 100,00
Source :
Soit la distribution des logements selon le statut d’occupation et le nombre de pièces.
Tableau : Répartition des logements selon le statut d’occupation et le nombre de pièces
Nombre de pièces
1 2 3 4 5 Total
Statut d’occupation
Propriétaires 37 107 163 146 149 602
Locataires 109 192 167 86 47 601
Autres 65 50 57 43 27 242
Total 211 349 387 275 223 1445
Source :
Tableau : Répartition des logements selon le statut d’occupation et le nombre de pièces
Nombre de pièces
Total (en
1 2 3 4 5
%)
Statut d’occupation
Propriétaires (en %) 2,56 7,40 11,28 10,10 10,31 41,66
Locataires (en %) 7,54 13,29 11,56 5,95 3,25 41,59
Autres (en %) 4,50 3,46 3,94 2,98 1,87 16,75
Total (en %) 14,60 24,15 26,78 19,03 15,43 100,00
Source :
Remarque :
Le tableau de contingence s’impose dans le cas de la présentation de deux caractères
qualitatifs ou de deux caractères quantitatifs discrets ou encore dans le cas d’un caractère
qualitatif et d’une variable quantitative. Dans le cas où l’un au moins des caractères est une
variable quantitative continue, on procède à un regroupement en classe de la ou des variables
en questions et l’on présente le tableau de contingence avec les classes ainsi obtenues.
Exemple :
Tableau : Répartition selon l’âge et la situation matrimoniale
Etat Matrimonial
Célibataire Marié Veuf Divorcé Total
Age
[0, 20[ 50 10 1 1 62
[20, 40[ 45 15 5 10 75
[40, 60[ 30 10 10 0 50
[60, 80[ 5 15 30 5 55
[80, 100[ 1 10 40 1 52
Total 131 60 86 17 294
Source :
26
Etat Matrimonial Célibataire
Marié (en %) Veuf (en %) Divorcé (en %) Total (en %)
Age (en %)
[0, 20[ 17,01 3,40 0,34 0,34 21,09
[20, 40[ 15,31 5,10 1,70 3,40 25,51
[40, 60[ 10,20 3,40 3,40 0,00 17,01
[60, 80[ 1,70 5,10 10,20 1,70 18,71
[80, 100[ 0,34 3,40 13,61 0,34 17,69
Total 44,56 20,41 29,25 5,78 100,00
Source :
I.5. Distribution marginale
Il existe deux types de distributions marginales :
- La distribution marginale ligne,
- La distribution marginale colonne
Le premier désigne les totaux par ligne, et donc, les totaux des modalités du caractère X.
Tandis que le second désigne les totaux par colonne et donc les totaux des modalités du
caractère Y.
On parlera de fréquences marginales ou d’effectifs marginaux selon qu’il s’agit des totaux des
fréquences ou des effectifs.
Ces différentes distributions marginales peuvent-être présentées par les tableaux ci-après :
X Effectifs Fréquences
X1 n1. f1
X2 n2. f2
… … … Distribution
Xj ni. fi marginale de X
… … …
Xl nk. fk
n 1
n. i.
f . i.=
n
: fréquence marginale ligne.
Y Effectifs Fréquences
Y1 n.1 f.1
Y2 n.1 f.2
… … … Distribution
Yj n.j f.j marginale de Y
… … …
Yl n.k f.k
n 1
n. . j
f . . j=
n : fréquence marginale colonne
Ainsi, l’effectif marginal ni. (resp. la fréquence marginale fi.) désigne le nombre (resp. la proportion)
d’individus de la population qui vérifient la modalité Xi de X (indépendamment de Y).
L’effectif marginal n.j (resp. la fréquence marginale f.j) désigne le nombre (resp. la proportion)
d’individus de la population qui vérifient la modalité Yj de Y (indépendamment de X).
27
Exemple :
Si nous reprenons l’exemple précédent, nous avons :
Les ni. (resp. n.j) individus présentant la modalité Xi de X (resp. la modalité Yjde Y)
définissent une sous-population de la population suivant les modalités de X (resp. Y).
On appelle distribution conditionnelle selon le caractère Y par rapport à X i la
distribution des individus vérifiant tous la modalité X i du caractère X selon le caractère Y.
Elle est caractérisée par les effectifs nij (j = 1, 2, …, l) et les fréquences conditionnelles de la
nij
f i/ j= =f ij
n. j
modalité Yj suivant Xi :
C’est une distribution à un caractère. Il existe k distributions conditionnelles de Y sachant X (k
étant le nombre de modalités de X).
X Effectifs Fréquences
Y1 ni1 fi1
Y2 ni2 fi2
…
Yj nij fii
…
Yl nil fik
ni. 1
nij
f j/i= =f ij
ni.
Fréquence conditionnelle de Y = Yj sachant X = Xi.
Distribution conditionnelle de X sachant Y = Yj
28
X Effectifs Fréquences
X1 N1j fj1
X2 N2j fj2
…
Xj nij fji
…
Xk nkj fjk
n.j 1
nij
f i/ j= =f j
n. j i
: fréquence conditionnelle de X = Xi sachant Y = Yj.
Exemple :
Si nous reprenons l’exemple précédent, on a :
Tableau : Répartition des cadres
selon le sexe
Fréquence
Effectifs
(en %)
Masculi
20
n 80,00
Féminin 5 20,00
Total 25 100,00
Source :
Tableau : Répartition des agents de
maîtrise selon le sexe
Total (en
Effectifs
%)
Masculi
25
n 55,56
Féminin 20 44,44
Total 45 100,00
Source :
Tableau : Répartition des ouvriers
selon le sexe
Effectif Fréquences
s (en %)
Masculi
35
n 70,00
Féminin 15 30,00
Total 50 100,00
Source :
29
Remarque :
nij nij ni . nij nij n . j
= ∗ ⇒ i = ∗ j
n ni . n f ij =f i.∗f j n n. j n f ij =f . j∗f i
on a et
La distribution marginale selon le caractère X (resp. Y) peut être considérée comme le mélange des
distributions conditionnelles de X si Yj (resp. Y sachant Xi)
I.7. Représentation graphique.
Les représentations et l’étude conjointe de deux caractères peuvent-être abordées en fonction de la nature des
variables en jeu. On distingue globalement trois (3) cas :
- Cas de deux caractères qualitatifs,
- Cas d’un caractère qualitatif et d’une variable quantitative,
- Cas de deux variables quantitatives.
Toutefois, il faut remarquer que les deux derniers cas peuvent quelques fois se ramener au premier. C’est
pour cela que l’accent sera mis sur le premier.
Les données d’une série statistique double peuvent être représentées par un diagramme en bande. A cet effet,
on peut représenter les effectifs ou les fréquences.
Il s’agit, en fait, de représenter l’effectif n ij par un rectangle dont la base est proportionnelle à n .j et
la hauteur proportionnelle à la fréquence conditionnelle fji. L’aire du rectangle est alors
proportionnelle à nij :
Fréquence
cumulée
f11 fl/2 fl/i fl/k
.
30
Exemple :
45.00%
40.00%
35.00%
30.00% Féminin
25.00%
Masculin
20.00%
15.00%
10.00%
5.00%
0.00%
Cadre Maîtrise Ouvriers
Source :
31
DEUXIEME PARTIE : ECHANTILLONNAGE, COLLECTE ET TRAITEMENT DES
DONNEES
L’objectif de cette partie est de développer les habiletés nécessaires pour la conduite du processus
d’une enquête. Après la présentation du schéma général d’une étude (Chapitre I) et des notions
générales utilisées en théorie des sondages (Chapitre II), nous parcourrons les méthodes
empiriques (Chapitre III). Puis, nous décrirons successivement les différentes méthodes aléatoires
classiques : le Sondage aléatoire Simple (SAS) (Chapitre IV), le Sondage Stratifié (Chapitre V) le
Sondage à 2 ou plusieurs degrés et quelques exemples de grandes enquêtes courantes (Chapitre
VI). Avec ces chapitres qui exposent sur les techniques d’échantillonnage, nous abordons le mode
opératoire et l’organisation d’une enquête (Chapitre VII). La démarche d’exploitation (traitements
et analyses) des données d’enquêtes constituera le dernier chapitre (Chapitre VIII).
Ce chapitre présente en premier les trois grandes directions de recherche de l’information, et justifie
le besoin de recourir aux enquêtes par sondage. Par la suite, les différentes étapes du processus
général d’une étude par sondage sont présentées, afin de situer la place et l’importance de chacune
des parties de ce module dans le schéma général du processus.
I.8. I.1.Les principales directions de recherche de l’information
La société actuelle est de plus en plus demandeuse de grandes masses d’informations pour décrire,
expliquer, prévoir, planifier, ou encore développer des stratégies idoines de marché, de lutte contre
des fléaux (pauvreté, épidémies, inflation, conjoncture), formuler une réponse adéquate à des
besoins (éducatifs ou sanitaires), etc. En bref, il faut de l’information pour prendre la bonne
décision. Mais la décision se prend sur la base d’une information qui est synthétisée, c'est-à-dire un
indicateur construit à partir de données. La bonne procédure de collecte de données nécessaires et le
choix judicieux de l’indicateur et de la méthode de synthèse sont donc des garanties scientifiques
pour conduire à la bonne décision. Mais alors, comment et où obtenir les données nécessaires à la
construction des indicateurs d’aide à la décision ?
Les procédures de collecte de données peuvent être regroupées en trois directions principales :
Direction 1. La Recherche documentaire (dont fait partie la collecte de données
administratives) : Elle consiste en la collecte pour analyse des fichiers administratifs ou des
archives. Le recours à cette méthode sera d’autant plus conseillé que l’archivage dans les
administrations est efficace. L’analyse documentaire peut être (est) utilisée pour :
L’étude de la natalité, de la fécondité et de la mortalité, à partir des registres d’état civil ;
Les études épidémiologiques ou sur diverses questions de santé, à partir des registres du
système de santé ;
Les analyses sur le système éducatif ;
La constitution de banques de données financières (BDF) sur les entreprises ;
Etc.
Direction 2. Le Recensement : C’est une enquête exhaustive auprès de l’ensemble des
individus faisant partie du champ d’étude. Le RGPH (Recensement Général de la Population
et de l’Habitat) en est le plus connu mais pas le seul. On peut tout aussi bien faire un
recensement d’un type de producteurs agricoles (de coton par exemple) ou d’une catégorie
sociale (chauffeurs de taxis, opérateurs économiques, patrimoine de l’Etat, etc.). Bien que ce
type d’opération permette d’avoir l’information complète, il présente les défauts d’être très
coûteux en temps, en ressources matérielles, financières et humaines. Ces différents défauts
32
constituent des contraintes qui limitent l’utilisation des recensements et conduisent à
recourir aux enquêtes par sondage.
Direction 3. Le Sondage : Comme signalé plus haut, pour des raisons de rapidité et
d’économie et/ou des contraintes de ressources (financières, matérielles, humaines, et
autres), on est souvent amené à observer seulement une partie de la population d’étude,
désignée par échantillon. On peut encore recourir à ce procédé pour des études répétitives
(enquêtes de conjoncture, évolution des prix), ou encore pour des contrôles dans le
processus de fabrication. Dans les premiers cas, la répétition des enquêtes permet de suivre
l’évolution d’indicateurs, et le sondage suffit largement, d’autant plus qu’on est tenue par
des contraintes diverses. Dans le second cas, le contrôle dans le processus de fabrication
peut parfois conduire à la destruction du produit. Il ne serait pas sage d’utiliser ainsi un
recensement. Par exemple, observer la qualité de l’eau ensachée par une structure artisanale
par le service d’hygiène pourrait nécessiter des prélèvements dans plusieurs sachets
sélectionnés. On est donc amené à détruire les sachets échantillonnés. Le recensement dans
ce contexte conduirait à détruire toute la production sur une certaine période ! Ainsi, le
sondage est parfois la seule alternative.
Le grand public a tendance à restreindre les « sondages » aux seuls sondages d’opinions. Cette
compréhension est restrictive. L’utilisation des sondages peut se justifier dans un nombre très vaste
de domaines de la vie. De manière générale, on peut considérer que ceux qui en expriment
couramment le besoin sont : les Gouvernements, les Entreprises et opérateurs économiques, les
Institutions sociales, les chercheurs, et les ONG.
33
Définitions des objectifs et contraitesAnalyses préparatoires Chronogramme/Sensibilisation
Etude : Revue de la littérature et recherche documentaire Budgétisation et recherche des financements
Dépouillement et numérisation
CODIFICATION SAISIE
34
I.2.3 L’élaboration du plan de sondage
Cette étape regroupe la constitution de la base de sondage et l’échantillonnage. La base de sondage
doit être la mieux adaptée à la situation. Il peut être nécessaire de recourir à plusieurs sources
administratives pour constituer une base de sondage fiable, exhaustive et actualisée. Pour certaines
études, on procède préalablement à un dénombrement de certaines unités sélectionnées
préalablement (au premier degré).
L’élaboration du plan d’échantillonnage passe par le choix du type de sondage à réaliser, compte
tenu des différentes contraintes, ainsi que par les différents calculs des poids de sondage, et des
précisions des estimateurs. A cet effet, on détermine aussi la taille de l’échantillon nécessaire,
compte tenu du budget disponible, de la précision souhaitée et d’autres contraintes.
Cette étape constitue le premier élément de ce module, et est abordée aux chapitres deux à six. Dans
le cas d’un sondage empirique, il n’y a pas de constitution de base de sondage.
36
CHAP II. VOCABULAIRE ET CONCEPTS DE BASE EN THEORIE DES SONDAGES
Ce chapitre présente en introduction les principales questions qui permettent de définir un plan de
sondage et faire les choix des paramètres. Ces questions constituent aussi les grandes lignes qui
permettent de définir un plan de sondage. Par la suite, le vocabulaire relatif à la population et les
principaux concepts relatifs au sondage sont abordés. Ces concepts se rapportent principalement
aux variables d’intérêts et auxiliaires, aux estimateurs et aux erreurs.
I.10. II.1.. Les principales questions qui guident le choix et l’élaboration d’un
plan de sondage
Plusieurs concepts sont utilisés dans cette section, bien qu’ils ne soient présentés que dans les
sections suivantes. Une telle démarche a pour but d’éveiller déjà l’intérêt du lecteur, et de lui
permettre par la suite de mieux situer l’importance, le rôle et la place de chaque notion abordée dans
la construction du plan de sondage.
38
Méthodes empiriques ou « à choix raisonné »
o La méthode des unités types ;
o La méthode des quotas ;
o La méthode des itinéraires ;
o La méthode du volontariat ;
o La méthode boule de neige.
La différence fondamentale entre ces deux grands groupes réside dans l’usage de la théorie des
probabilités dans le premier groupe, contrairement au second. Dans la pratique des grandes
enquêtes, les méthodes classiques sont combinées pour obtenir le plan adéquat. On parle alors de
plans « complexes ». Parcourir ces méthodes est le but de ce cours.
39
Une autre mauvaise interprétation des types d’enquête faite est celle qui consiste à limiter le
recensement à celui de la population et de l’habitat (RGPH). Un recensement est simplement une
enquête exhaustive. On peut recenser le matériel informatique d’un ministère, le parc automobile de
l’Etat, etc.
L’utilisation d’un sondage peut se justifier tout simplement par l’impossibilité de faire un
recensement. De façon générale, le sondage présente les avantages principaux suivants, par rapport
au recensement :
- La réduction des coûts;
- Les enquêteurs, moins nombreux, subissent une formation de meilleure qualité
- Le contrôle des opérations et la surveillance du personnel est plus facile ;
- La rapidité de la collecte et le traitement des données : les résultats d'une enquête par sondage sont
disponibles plus rapidement que ceux d'un recensement car les tâches à effectuer sont moins
volumineuses.
41
iii) L’unité déclarante : Elle est relative à l'informateur. C’est l’unité déclarante qui fournit les
informations lors de l’enquête. Par exemple une mère interrogée sur ses enfants en bas âge dans une
enquête DHS ou MICS.
iv) L’unité de référence : C’est une unité pour laquelle on collecte des informations. Par exemple,
les enfants pour lesquels la mère a donné des informations.
Exemple 1) Dans une étude sur «la violence en milieu secondaire à Bamako, on réalise un sondage
dans un échantillon d’établissements. Au niveau primaire1, un établissement est une unité
d’échantillonnage. Un élève, un membre du personnel enseignant, administratif, de sécurité, de
gardiennage, de santé, de restauration, d’entretien et d’hygiène peut être considéré à la fois comme
une unité déclarante. Idéalement, les élèves constitueront les unités de référence et d’analyse.
Exemple 2) Dans une étude sur le niveau de vie des populations, l’unité d’échantillonnage
généralement choisie est le ménage. Cependant, la population est constituée d’individus. Les
ménages et les individus sont des unités d’analyse. Mais le ménage ne peut être une unité
déclarante ! Pour une information capitale sur le ménage, l’unité déclarante est soit le chef de
ménage, soit une personne majeure suffisamment proche du chef de ménage pouvant fournir les
informations requises, comme le conjoint.
II.3.3 La base d’échantillonnage ou base de sondage
La base de sondage est constituée par la liste des unités d'échantillonnage, c'est-à-dire la liste des
unités à partir de laquelle se fera la sélection de l’échantillon d’enquête. Une base de sondage doit
avoir les caractéristiques suivantes :
(i) être sans doublon : une unité ne doit pas y être représentée plus d’une fois ;
(ii) être sans omission (ou exhaustive) : chaque unité de la population doit être représentée
dans la base
(iii) être à jour : S’il y a des unités qui pour des raisons quelconques ne font plus partie de la
population (ménage déplacé pour une base ménage, entreprise en faillite ou fusionnée
avec une autre pour une base d’entreprises, espace de culture maraichère devenu terrain
de pâturage, etc.).
La base de sondage doit constituer une liste aussi parfaite que possible de la population. Chaque
membre de la population doit y être représenté de manière unique. Par exemple, lors d’une enquête
emploi, bien qu’on s’intéresse aux individus, on constitue (dans la pratique) une base de sondage à
partir de la liste des ménages. Par conséquent, il est nécessaire d’établir des règles d’arbitrage pour
le cas des personnes mobiles entre plusieurs ménages (comme un homme ayant plusieurs épouses
dans des habitations non contiguës).
Exemple 1 : La base de recensement : Lorsque la base de recensement de la population est récente,
elle constitue une base de sondage idéale pour des études portant sur les populations humaines.
Exemple 2 En particulier, chaque pays dispose d’un découpage aréolaire de son territoire en
fonction de la démographie, à des fins statistiques. Chaque portion qui est une surface avec des
limites particulières porte le nom de zone de dénombrement (ZD) (ou DR pour District de
recensement, ou encore SE pour section d’énumération). Par convention, chaque SE peut contenir
au plus un millier d’individus, correspondant de façon variable à 200 à 250 ménages. Cette liste
constitue une base de sondage importante (et assez stable) pour une première sélection des aires
d’études dans les enquêtes nationales de grande envergure.
De façon générale, une base de sondage peut être constituée par les différentes sources suivantes
(liste non exhaustive) :
1
Ce terme sera définit dans le chapitre portant sur les sondages à plusieurs degrés.
42
Des documents administratifs existants (enregistrements dans un hôpital, fiches des classes,
données d’enregistrement à l’état civil, etc.) ;
Des registres d’inscription des personnes physiques et/ou morales auprès de l’Etat pour
diverses raisons (impôts, foncier, ouverture d’entreprises, etc.)
Des fiches des clients d’une société ou des fichiers de scolarité d’une école ;
De la liste venant d’une enquête précédente, en particulier un recensement ;
D’une liste dressée à l’occasion de l’enquête. A ce sujet, lors de l’organisation de certaines
enquêtes, et en l’absence de base de sondage exhaustive, on est parfois amené à effectuer au
préalable un dénombrement des unités de la population. Cette opération offre de précieux
renseignements préliminaires sur la population, dont une base de sondage fiable (ainsi que
des informations qui permettent souvent d’identifier des catégories recherchées).
Exemple 3 : Si je prends les diplômés de licence, maîtrise et doctorat des cinq dernières années dans
une université, certaines personnes peuvent apparaître deux ou même trois fois dans la liste, i.e. en
tant que diplômés de 1er, 2ème et 3ème cycle; elles auront donc plus d'une chance d'être choisies; je
devrais donc épurer la liste de toutes les doubles ou les triples entrées afin d’avoir une base de
sondage.
Exemple 4 : Une compagnie de téléphone voulant faire une enquête auprès de ses clients peut
utiliser la base de tous les numéros actifs, même si elle n’a pas le nom de la personne utilisatrice. Il
s’agit ici plutôt d’une liste conceptuelle. Le fait qu’une personne puisse disposer de plusieurs
numéros de la même compagnie engendre en fait un doublon. La liste des numéros constituera donc
une base approximative, mais précieuse.
Il est important de noter que la constitution d’une base de sondage est dans bien des cas limitée par
les contraintes de protection et de confidentialité des données sur les unités. Par exemple, un
chercheur indépendant désirant effectuer une étude sur les dépenses d’une compagnie de téléphonie
aurait du mal à obtenir la base de sondage. De même, il serait quasiment impossible de constituer
une base de sondage des personnes infectées au VIH, auprès d’une structure quelconque.
43
II.4.2 Estimateur ou formule de calcul de l’indicateur recherchée à partir de la
variable d’étude
Dans la majorité des cas, la formule utilisée pour calculer l’indicateur correspond à une expression
simple. Pour illustrer par quelques formules, considérons une variable que nous notons Y. on va
supposer que Y représente le revenu d’un individu.
La série des revenus de tous les individus de la population serait alors Y1, ..., Yk, ..., YN. (Lettres
majuscules ; N individus). Pour avoir le revenu moyen d’un individu de la population, il suffit de
faire la somme de tous les revenus et diviser par le nombre total d’individus (Y1 + Yk+ ... + YN.)/N.
Seulement, pour avoir les revenus de tous, il faut faire un recensement. Si on fait plutôt un sondage,
on aura des valeurs de revenus de « n » (minuscule) individus, avec n plus petit que N. Les valeurs
des revenus des ménages enquêtés (notées avec des lettres minuscules) sont : y 1, ..., yk, ..., yn. Dans
les cas où les ménages ont été retenus avec une procédure qui n’accorde pas plus de chances de
sélection à certains plus qu’à d’autres, le revenu moyen sera calculé dans l’échantillon et sera
considéré comme une approximation du revenu moyen de la population : (y1 + yk+ ... + yn.)/n. on
dira qu’on a estimé pour signifier qu’il s’agit d’une approximation à partir d’un échantillon. Dans le
langage technique, on parle d’inférence. Si l’échantillon a été sélectionné par une procédure
aléatoire, on peut en plus calculer un intervalle (appelé intervalle de confiance) dans lequel il y a
une assurance quantifiée de trouver la vraie valeur de la moyenne de la population. Dans cet
exemple, la formule utilisée est celle de la moyenne. On dira alors que nous sommes dans le cas de
l’estimation de la moyenne.
S’il s’agissait de calculer le taux de pauvreté, on serait ramené à un calcul de proportion. En effet, il
suffira de noter Yk (et aussi yi) prenant uniquement deux valeurs : Yk est égale à « 1 » lorsque le
revenu de l’individu est inférieur au seuil de pauvreté, et égale à « 0 » sinon. Idem pour les valeurs
dans l’échantillon. On voit aisément que le nombre de valeurs égales à « 1 » donne le nombre de
pauvres, qu’on soit dans l’échantillon ou dans la population. En divisant ce nombre par le total (soit
de la population, soit de l’échantillon) on a le taux de pauvreté, qui est juste la proportion de ceux
qui ont la valeur égale à « 1 », donc qui sont pauvres.
Le tableau suivant donne les formules classiques de calcul des indicateurs qui se rencontrent dans la
plupart des enquêtes.
Tableau 1 : Formules classiques d’indicateurs plus généralement recherchés
Type de variable Indicateurs Sur la population Dans l’échantillon
N n
1 1
Une moyenne, Y= ∑Yi y= ∑ y i
N i=1 n i=1
N n
Variable Un total (ou une somme) : T =∑ Y i t=∑ y i
quantitative i=1 = NY i=1 =n y
N n
1 N −1 1
Une variance (ou un écart
type).
σ ²= ∑
N i=1
( Y i −Y )2 S² s ²= ∑ ( y − y )2
n−1 i=1 i
= N
Une proportion (qui peut se
PD=ND/N pD=nD/n
ramener à une moyenne)
Variable N n
qualitative
Un total : T =∑ Y i (Y variable
t=∑ y i
i=1
indicatrice)
= ND i=1
N
1
S ²= ∑
N−1 i=1
( Y i −Y )2
Où est la variance modifiée ou encore dispersion ; (σ²≈S² lorsque N est
grand) et s² la dispersion empirique.
44
Dans certains cas, la formule de calcul de l’indicateur peut être plus complexe. Par exemple dans le
cas des indices de prix, ou du calcul des rendements. Dans ce dernier cas, on a en général le rapport
de deux moyennes, ou une moyenne harmonique. Notons que l’indicateur est appelé dans la théorie
« le paramètre ».
Remarque :
i) Dans le cadre d’un tirage probabiliste ou aléatoire, on fait la considération suivante : La
valeur obtenue au tirage « i », yi, est en fait une réalisation aléatoire d’une variable
aléatoire que l’on note encore yi et à valeurs dans : {Y1, ..., Yk, ..., YN}. Les tirages étant
indépendants, les valeurs y1, ..., yk, ..., yn. ne sont rien d’autres que des réalisations
aléatoires de variables aléatoires i.i.d.
ii) Le technicien qui élabore le plan de sondage doit bien identifier et définir les variables
d’intérêts, ainsi que les expressions des estimateurs (les formules pour calculer les
indicateurs). Car ces éléments permettent non seulement de calculer les tailles
d’échantillon en rapport avec la précision, mais aussi de mieux identifier les variables
auxiliaires, qui peuvent servir à construire un échantillon représentatif.
45
I.14. II.5. Les Notions relatives aux calculs des précisions, pour les sondages
aléatoires
Cette section aborde des notions qui ne sont pas valables pour les sondages empiriques. Le besoin
de calculer les précisions conduit à opter toujours pour un sondage aléatoire, plutôt qu’un sondage
empirique, chaque fois que ce sera possible.
L’utilisation des techniques probabilistes permet l’usage des méthodes d'estimation et de méthodes
d'inférence et d'analyse statistique qui toutes sont basées sur la théorie des probabilités. Elle permet
en outre de connaître et donc de contrôler les biais. Cette section contient aussi quelques notions
dont la compréhension demande un certain bagage mathématique.
II.5.1 Probabilité d’inclusion :
Dans le cadre d’un sondage aléatoire, chaque individu a une probabilité non nulle d’être tirée, et
donc d’appartenir à l’échantillon. Cette probabilité ne doit pas dépendre des circonstances. Sinon,
cela introduirait des biais.
On note Πk, la probabilité d’inclusion d’un individu k dans l’échantillon : Πk = Prob(« k appartient
à l’échantillon »). Lorsque tous les individus ont la même probabilité d’être tiré, le tirage est dit
équiprobable.
Dans la pratique des sondages, la somme de toutes les probabilités d’inclusion est égale à la taille de
l’échantillon : ΣΠk=n.
II.5.2 Poids de sondage
C’est l’inverse de la probabilité d’inclusion : dk =1/ Πk. De façon concrète, le poids de sondage
d’une unité dans l’échantillon est le nombre d’unités de la population qu’elle « représente ». On
l’appelle encore coefficient d’extrapolation.
Exemple : En cas de tirage équiprobable, on a donc pour tout individu,
La probabilité d’inclusion Πk = n/N. Le poids de sondage dk = N/n.
Cela signifie que chaque unité qui figure dans l’échantillon représente N/n de la population. Cela
signifie que dans le table des données, lorsqu’on paramètrera le logiciel pour qu’il prenne en
compte les poids de sondage, chaque données sera multipliée par ce coefficient. Dans tous les
résultats (tableaux, graphiques, tests, etc.).
Exemple : Enquête sur la vaccination : On suppose que l’effectif de la population des enfants de 0 à
59 mois est de 1000 (=N), et qu’on constitue un échantillon équiprobable de 50 (=n) enfants, le
poids d’un enfant est 1000/50 = 20. Si après enquête, parmi les 50 enfants de l’échantillon, on en
trouve 17 qui ne sont pas vaccinés, en tenant compte du poids de sondage, on pourra extrapoler à la
population et dire que parmi les 1000 enfants, il y en a 340 = 17x20 qui ne sont pas vaccinés.
II.5.3 Définition d’un estimateur
Un estimateur est une variable aléatoire dont la formule nous donne, une valeur approchée de
l’indicateur recherchée sur toute la population, à partir des données obtenues sur un échantillon.
Soit T l’estimateur d’un paramètre θ sur une population. T est donc une variable aléatoire sur
l’ensemble des échantillons possibles S de taille fixe n de la population. Si la taille de la population
N est finie, alors le nombre d’échantillons est le nombre de combinaisons de n éléments qu’on peut
former avec une population de taille N.
D’un point de vue fondamental, dans la pratique, on considère que l’aléa se situe exclusivement au
niveau du tirage des individus de l’échantillon. La distribution des probabilités est dont associée au
tirage des individus.
46
Par exemple, l’estimateur de la moyenne est par l’Espérance mathématique de T est donc et on a
E[T(Y)] = Σ Πi*yi. Où Πi est la probabilité d’inclusion de « i ».
Si jamais on faisait varier l’échantillon, on n’obtiendrait pas toujours la même valeur. La moyenne
(E(T)) et la variance V(T) des différentes valeurs obtenues sur les différents échantillons pour T
sont des indicateurs très importants dans l’évaluation de l’estimateur et du sondage.
II.5.4 Le Biais
“Sans biais” signifie que le résultat est bon en moyenne (si jamais on calculait la
moyenne sur tous les échantillons possibles, ce qui est absolument impossible) mais pas
que la valeur obtenue à partir d’un échantillon est exactement celle de la population.
Lorsque cette moyenne est égale à la valeur exacte que l’on veut mesurer, on dit que l’estimateur est
sans biais. Ainsi, Un estimateur X de θ est dit sans biais si en faisant la moyenne des résultats
fournis par cet estimateur sur les différents échantillons, on tombe sur la valeur recherchée du
paramètre : on note : E(T) = θ.
Dans le cas contraire, l’estimateur est dit biaisé, et le biais est défini par B = E(T)-θ.
Considérons le schéma suivant : le point central représente la vraie valeur du paramètre, ici la
moyenne, et les « x » sont les valeurs des individus de l’échantillon. Dans les cas 1 et 3, on voit que
la moyenne va tomber sur la moyenne (le point).
Fig 2 : Illustration du biais
Il est important de rappeler que (i) on ne connaît pas la vraie valeur du paramètre θ que l’on veut
mesurer. En plus, (ii) on ne dispose que d’un seul échantillon, et non de l’ensemble des
échantillons. Bien qu’on ne connaisse pas la vraie valeur, la statistique mathématique nous permet
de construire des estimateurs sans biais. On est alors certain qu’en moyenne, on ne se trompe pas.
Toutefois, un estimateur sans biais n’est pas toujours préférable à un estimateur biaisé. La moyenne
en effet ne suffit pas pour évaluer la qualité d’un estimateur. Il faudrait encore que l’estimateur
choisi soit le plus précis possible. On préfèrera un estimateur biaisé à un estimateur sans biais, si le
premier est plus précis. Intéressons nous donc à la précision.
47
La précision du sondage (à ne pas confondre avec celle de l’estimateur) est l’erreur type ET=2
√ Var(T )
Plus la variance de l’estimateur est petite, plus l’intervalle est petit et donc la précision grande.
2
Remarquer qu’il s’agit ici de la variance de la variable d’intérêt, Y : √ Var(Y )=σ
48
la loi Normale, k = 1,96. On prend généralement k = 2. La formule de l’intervalle de confiance
y−2∗σ /√ n y+2∗σ / √ n
suivante est donc utilisée : [ ; ].
On montre qu’une proportion se ramène à une moyenne en considérant une variable indicatrice. Un
total est aussi proportionnel à la moyenne. Par ailleurs, dans les techniques de sondages classiques,
le tirage des unités finales se fait par un SAS. De sorte que l’estimateur final s’écrit comme
combinaison linéaire des estimateurs de type SAS. Le théorème central limite s’applique encore à la
combinaison linéaire. Finalement, pour toute technique classique, l’intervalle de confiance est de la
¿ ¿ ¿
θ−2 √ Var ;θ +2 √Var ] θ
forme [ , où est l’estimateur du paramètre par l’échantillon.
Cet intervalle correspond à une précision de 95% (soit un seuil de risque de 5%, et terme « 2 » est
2 √ Var
l’arrondi de 1,96. La valeur ET = est l’erreur type d’échantillonnage. Elle est d’autant petite
que « n », le nombre d’enquêtés, est élevé.
50
il y aura un problème de cohérence entre les deux résultats. A défaut de justifier l’écart entre
ces deux résultats, les deux ne peuvent pas être vrais en même temps ;
L’accessibilité : Ce critère renvoie à la diffusion, et prend en compte, tant l’accès aux
résultats, mais aussi les supports de diffusion.
La possibilité d’interprétation : Il est important que les résultats soient interprétables par
le grand public. Ce qui impose une bonne définition des concepts, ainsi que le respect de
certaines normes et nomenclatures. Cette notion d’interprétation exige de bien prendre en
compte les concepts et conventions dans la définition des concepts. Ce problème se pose
dans les enquêtes emplois en Afrique, dans la mesure du chômage. Par exemple, une
personne qui a un diplôme, mais n’a pas de travail permanent, et tien une cabine
téléphonique est souvent perçu comme un chômeur. Mais en tenant compte de la définition
du concept de chômage, il ne fait pas partie de la catégorie des chômeurs. Par conséquent, le
public et même les autorités rejettent parfois les résultats de telles enquêtes, car les taux de
chômages estimés sont jugés trop bas pour refléter la réalité.
La pertinence : Il faut s’assurer que les informations recherchées n’existent pas déjà, et
qu’ils permettent bien de répondre aux préoccupations du commanditaire ou des utilisateurs
potentiels. Par ailleurs les résultats seront d’autant plus pertinents qu’ils sont précis ;
On considère aussi parfois la faisabilité de l’enquête.
51
CHAP. III LES TECHNIQUES DE SONDAGES EMPIRIQUES
Dans ce chapitre, chacune des principales méthodes classiques de sondage empiriques sont décrites.
Pour chacune d’elles, il s’agit d’indiquer le principe et le contexte, la démarche de mise en œuvre,
ainsi que les avantages et inconvénients.
I.17. Notes de mise en garde
Les méthodes de sondage aléatoire supposent le tirage aléatoire de l'échantillon à partir d'une base
de sondage, i.e. d'une liste exhaustive des individus composant la population étudiée. Lorsque de
telles bases sont inexistantes ou indisponibles, ou lorsqu'il est trop coûteux de réaliser un sondage
aléatoire, on a recours aux méthodes dites non aléatoires, ou encore méthodes empiriques.
Un sondage est non aléatoire lorsqu'il n'inclut pas de mécanisme de sélection aléatoire des individus
de la population. Le fait que des gens sont choisis « au hasard » dans la rue ne constitue pas un
principe de tirage aléatoire. Les méthodes empiriques se caractérisent donc par le fait qu’on ne
connaisse pas la probabilité d’inclusion des individus de la population et donc, la généralisation des
résultats obtenus à la population doit être faite avec plus de précaution, en particulier parce qu’il
n’est pas possible de calculer la précision et l’intervalle de confiance. On dit que le sondage n’est
pas précis, pas pour émettre des doutes sur les résultats, mais pour signifier qu’il n’est pas possible
de calculer l’erreur statistique (E.T.). Il existe principaux types sont :
la méthode des quotas ;
la méthode des unités types ;
La méthode des itinéraires ;
La méthode du volontariat ;
La méthode boule de neige.
Les méthodes non aléatoires, essentiellement la méthode des quotas, sont très utilisées dans les
sondages d'opinion et les études de marché pour 2 raisons principales :
La rareté ou non disponibilité des bases de sondages : En général, les cabinets d’études et les
opérateurs privés ne disposent généralement pas de base de sondage (ou n’y ont pas accès)
pour tirer leurs échantillons. Les grandes sources potentielles des bases de sondages sont
parfois couvertes par le secret statistique, ou sont des fichiers de travail confidentiel
d’entreprises.
Le coût et les délais de réalisation : L’organisation d’une enquête en face-à-face, avec un
plan de sondage aléatoire coûte nettement plus cher que l’organisation d’une enquête par
quotas.
Les méthodes empiriques sont plus rapides à mettre en œuvre et moins chères que les sondages
probabilistes, mais plus subjectives dans le mode de sélection de l’échantillon. La présentation de
chaque méthode contient le principe, la démarche de mise en œuvre, un exemple ou plusieurs
exemples, et les avantages et inconvénients.
Ce tableau ne contient que des quotas marginaux, c'est-à-dire qui donnent la proportion de chaque
modalité de façon séparée. La tâche de l'enquêteur est assez facile pour les 1ères interviews, mais
plus difficile pour les dernières où la sélection devient plus contraignante.
La proportion de chaque catégorie dans l’échantillon est la même que celle de la population totale.
L’enquêteur est libre d’interroger qui il veut dans la commune, sous le respect des quotas qui lui ont
été fournis. Les quotas les plus utilisés en pratique sont les quotas marginaux. Mais on utilise aussi
des quotas croisés, correspondant aux croisements des critères. Les quotas permettent de déterminer
le nombre de personnes possédant chaque caractéristique de base que l'on veut dans l'échantillon et
d’arrêter de recueillir les données dès que ce nombre (le quota) est atteint.
Cette méthode peut être suggérée lorsqu’on veut constituer un petit échantillon. La fiabilité des
résultats d’une enquête par quotas peut être améliorée en choisissant l’une des options suivantes :
Tirage (aléatoire ou non) des lieux d’enquête (communes, ZD, îlots, etc.) ;
Contrôle des enquêteurs en accompagnement (ou écoute) ou a posteriori ;
Indication des itinéraires aux enquêteurs.
53
L'échantillonnage par quota, encore pratiqué par certaines firmes de sondage, a été longtemps le
principal mode d'échantillonnage. Strictement parlant, il ne permet pas l'inférence statistique et il est
moins fiable en ce sens que les résultats sont plus variables d’un échantillon à l’autre (voir Vachon,
Durand et Blais, 1999). Ce type d’échantillon est pratiquement le seul utilisé par les firmes de
sondage dans plusieurs pays d’Europe, des considérations techniques, pratiques et sociologiques
ayant retardé l’utilisation d’échantillons probabilistes.
III.1.4 Remarques :
i. La sélection de l’échantillon est limitée par l'existence de statistiques disponibles au niveau de
la population :
ii. Les variables de quotas doivent être pertinentes et avoir une distribution connue au niveau de
la population (l’information doit être disponible).
iii. Les variables de quotas doivent être facilement identifiables par l'enquêteur en début
d'interview. On évite ainsi un début de questionnaire fastidieux.
iv. La méthode des quotas peut être utilisée en complément d'un sondage aléatoire.
v. Mieux vaut utiliser des variables jugées importantes comme variables de redressement, en
pensant à les inclure dans le questionnaire.
vi. Enfin, donner à l'enquêteur non pas des quotas croisés mais des quotas marginaux : avec des
enquêteurs expérimentés, cela diminue le temps de recherche des interviewés.
III.1.4 Exercice :
On veut faire une enquête socio-économique sur la population active de la ville Bamako. On choisit
un sondage par la méthode des quotas, et un échantillon de 5000 personnes également réparties dans
les six communes (numérotées de 01 à 6). Pour cela, on sélectionne 6 agents enquêteurs. Un
recensement récent a fourni les répartitions globales présentées dans le tableau suivant d’après 3
critères.
1) Déterminer les effectifs des sous populations suivants les différents critères.
2) Etablir (proposer) un plan de travail sous forme de tableau pour chaque enquêteur intégrant
l’organisation par commune.
54
Tableau 3 : Exemple de structure de la population suivant les variables auxiliaires
Sexe Age Secteur d’activité
Hommes 48% 16-24 ans 14% Secteur formel
Femmes 52% 25-44 ans 37% Cadres, patrons 16%
45-64 ans 35% Employés, ouvriers 24%
65 ans et + 14% Secteur informel
Cadres, patrons 3%
Travailleurs indépendants 36%
Employés, aides familiaux, etc. 21%
100% 100% 100%
55
III.2.3 Avantages et Inconvénients
a) Avantages :
Coûts faibles ;
Pas besoin de base de sondage ;
Facile à mettre en œuvre ;
b) Inconvénients :
Biais de sélection du au thème : Par exemple, dans l’exemple iii, les personnes voulant
arrêter de fumer seront les plus favorables à l’étude ;
En aucun cas, l'échantillonnage de volontaires ne peut être considéré comme représentatif
d'une population
Temps de recueil peut être incertain ;
Difficile d’atteindre la taille voulue.
56
Coût un peu plus élevé par rapport à la méthode des quotas ;
La grande liberté laissée aux enquêteurs qui peuvent enquêter n’importe qui, pourvu que
l’itinéraire soit respecté.
III.3.4 Exemple
Dans le cadre d’une enquête sur les transports en commun, on peut faire un tirage de gares routières
et arrêts de bus, les répartir suivant des convenances géographiques et indiquer ces lieux et des
heures d’interview aux enquêteurs.
57
De telles études peuvent être utilisées pour des enquêtes sur des homosexuels, des trafiquants
illégaux, des passeurs clandestins, des migrants rapatriés, des exilés politiques, etc.
I.22. III.5 La méthode des « unités types »
III.5.1 Principe
On l’appelle encore échantillon raisonné ou jugé. C’est la plus empirique des méthodes. Elle
consiste à choisir dans des groupes homogènes de la population un nombre très limité d’unité qui
représentent au mieux leur sous-groupe. Il s’agit donc de choisir par le jugement ou raisonnement,
une ou quelques unités dans chaque groupe. Ce sont les unités « types ou moyennes »,
Il faut au préalable que la population soit subdivisée en un certain nombre de sous-groupes assez
homogènes. On constitue l’échantillon en choisissant dans chaque sous population
Cette méthode fait implicitement l’hypothèse que si les individus d’un sous-groupe (mêmes
caractéristiques de regroupements) ont les mêmes caractéristiques que l’unité type sélectionnée, ils
auront aussi les mêmes caractéristiques que ce dernier pour les variables d’intérêts.
Dans cette technique, l'échantillonnage est effectué selon le jugement de l'enquêteur. On sélectionne
par exemple dans une liste quelconque des personnes les plus susceptibles de faire partie de l'unité
d'échantillonnage.
Pour certaines études, la sélection des unités types peut se faire au premier niveau (quartiers, îlots,
écoles, places, etc.), comme dans le cas de la méthode des itinéraires.
III.5.2 Mise en œuvre
i. Rechercher les variables auxiliaires permettant de former des groupes homogènes ;
ii. Subdiviser la population en un certain nombre de sous population assez homogènes par
croisement des variables auxiliaires ;
iii. Identifier dans chaque groupe (par jugement) une unité « type ou moyen », que l’on
considère représentative ou caractéristique de la sous population (On peut prendre aussi
deux, du moins, un nombre réduit ;
iv. Enquêter ces unités types.
58
I.23. Conclusion partielle et introduction aux sondages aléatoires
Il existe d’autres techniques empiriques, comme l’Échantillonnage sur place (lieu d'achat ou
d'activité lorsque la population étudiée est définie par son activité). Par exemple, les enquêtes
auprès des clients d'un centre commercial, des clients de telle chaîne de restaurants...
Pour ce type d’enquête, on doit déterminer :
les endroits où enquêter en prenant soin de ne pas sur représenter les individus qui passent
beaucoup de temps sur le lieu de l'enquête.
les périodes d'enquête en constituant éventuellement des groupes de périodes, homogènes
par rapport à leur clientèle, et en échantillonnant dans chaque groupe.
les pondérations a posteriori pour tenir compte de la probabilité de présence des répondants.
L'échantillonnage sur place est une des techniques utilisées dans l'échantillonnage de populations
mobiles ou rares (les acheteurs d'armoire de toilette, les lecteurs étudiants de tel quotidien distribué
en Université...). Mais on peut toujours ramener ces techniques à un modèle classique.
Nous abordons dans ce qui suit les sondages probabilistes. Ils exigent tous à des degrés et niveaux
divers, une base de sondage.
La variable d’intérêt notée Y peut être qualitative ou quantitative.
Sur la population de taille N, les valeurs de Y sont : Y1, ..., Yk, ..., YN.
Sur un échantillon de taille n, les valeurs sont : y1, ..., yk, ..., yn.
La valeur obtenue au tirage « i », yi, est en fait une réalisation aléatoire d’une variable aléatoire y et
à valeurs dans : {Y1, ..., Yk, ..., YN}. Les tirages étant indépendants, les valeurs y1, ..., yk, ..., yn ne
sont rien d’autres que des réalisations aléatoires de variables aléatoires (indépendantes,
identiquement distribuées)
59
CHAPITRE IV : LE SONDAGE ALEATOIRE SIMPLE : SAS3
Y SAS = y =
1 n
n ∑ yi
i =1
Estimateur : Un estimateur sans biais de la moyenne est (la moyenne
arithmétique sur l’échantillon estime sans biais la moyenne dans la population totale)
2
¿
n σ
V (Y SAS )=(1− )
N n σ2
La variance de l’estimateur: ; où est la variance de Y dans toute la
2
σ
population totale. Lorsque cette variance n’est pas connue (comme c’est souvent le cas), on
n
1
s ²= ∑
n−1 i=1
( y i − y )2
l’estime (sans biais) par la dispersion modifiée dans l’échantillon .
2
¿ ¿
n s
V (Y SAS )=(1− )
N n
La variance estimée (sans biais) de l’estimateur devient alors : .
Erreur type et erreur type relative : La précision absolue de la méthode, appelée erreur type est
√
¿ ¿
1,96 V (Y SAS )
ET= . Ce qui signifie que, d’après l’échantillon, l’estimation de la moyenne se fait à
√
¿ ¿
1,96 V (Y SAS )
plus ou moins unités.
√
¿ ¿
1,96 V (Y SAS ) y
La précision relative est ER = / . Cela signifie que la marge d’incertitude est de
l’ordre ER de la quantité évaluée (la valeur s’interprète en pourcentage).
√ √
¿ ¿
y−1,96 V (Y SAS ); y+1,96 V (Y SAS )]
Intervalle de confiance : [ (on prend souvent 2, au lieu de 1,96
61
Démarche pratique : Pour estimer la moyenne, on procède comme suit :
y
i) On calcule la moyenne ( ) et la dispersion modifiée (ou encore empirique, s²) des y
dans l’échantillon ;
ii) On calcule l’erreur type qui est le rayon de l’intervalle de confiance et représente la
précision du sondage : ET =
√ n s2
1,96 (1− )
N n
, pour un seuil de risque de 5%.
iii) On en déduit les bornes de l’intervalle de confiance un intervalle contenant le paramètre,
avec une probabilité de 95% (confiance).
L’intervalle de confiance à 90% s’obtient en remplaçant la valeur 1,96 par 1,65 (qui est le quantile
de la loi normale au seuil de 10%). Pour un l’intervalle de confiance à 99%, on utilisera la valeur
2,58 (coefficients déterminés par la loi de Gauss).
Y
n
¿
N
T =N∗ SAS =N∗ y=
n
∑ yi
i =1
On obtient l’estimateur du total à partir de la formule . Les autres
propriétés s’en déduisent aisément.
√ √
¿ ¿
y−1,96 V ( p ); y+1,96 V ( p )]
Intervalle de confiance : [
√
¿ ¿
1,96 V ( p )
La précision absolue ou erreur type est ET = . Ce qui signifie que, d’après l’échantillon,
√
¿ ¿
1,96 V ( p )
l’estimation de p se fait à plus ou moins points de pourcentage.
62
√
¿ ¿
1,96 V ( p )
La précision relative ER = /p. Cela signifie que la marge d’incertitude est de l’ordre de
ER de la quantité évaluée.
63
ii) La variance de la variable d’intérêt : plus une population est homogène (variance
faible), plus le sondage est efficace. Si tous les individus sont caractérisés par des
valeurs Yi identiques, un seul suffit à les représenter. A l’inverse, sonder dans une
population très hétérogène nécessite des échantillons de taille importante, ou un
découpage préalable en sous populations homogènes (principe de stratification).
iii) Le taux de sondage f (=n/N) : si le taux de sondage est égal à 1, l’échantillon est la
population entière et il n’y a plus d’erreur. Mais, dans la très grande majorité des
sondages, les taux de sondage sont très faibles.
I.27. IV.3 Avantages et inconvénients du sas :
Le SAS présente plusieurs avantages :
Facile à mettre en œuvre, et rapide,
Pas exigeant en matière d’information auxiliaire.
Peut donner une répartition satisfaisante de l’échantillon et une bonne précision. Les
résultats obtenus par cette technique sont fiables et valides, et d’autant plus précis que la
population est homogène du point de vue de la variable d’intérêt, c'est-à-dire le phénomène
étudié est peu dispersé.
Les inconvénients sont de deux ordres :
Exige une base de sondage à jour ;
La dispersion possible de l’échantillon dans la population engendre des coûts élevés
d’enquête.
On peut améliorer la précision et la représentativité de la population données par le SAS en faisant
une stratification préalable.
√
¿ ¿
L’intervalle de confiance est IC(X) = [ x -ET, x +ET] avec ET = 2 V (Y ) = 2*50/ √ n−1 = 10,05
kg (marge d’erreur au seuil de 5%).
Ainsi, IC(X) = [750 – 10,05 ; 750 + 10,05] = [740 kg ; 760 kg]
2) Si on considère 365 jours / an, on a Nan = 365x2000 = 730 000 (bœufs).
¿
La production annuelle de viande du pays est Nan* Y = 730 000 * 750 = 547 500 tonnes.
L’intervalle de confiance au niveau de confiance 95% est : [543 850 000 kg ; 551 150 000 kg]
65
√
¿ ¿ ¿
p V ( p)
D’où l’intervalle de confiance (bilatéral) à 95% est IC(p) = [ ± 1,96* ] = [2,01% ; 2,59%].
Pour avoir le nombre d’enfants dans toute la zone de la campagne de vaccination, (donc le nombre
de kits à prévoir) on multiplie l’estimateur de la proportion par N, le nombre total d’enfants dans la
zone d’étude :
√ V (N p ) =N √ V ( p ) .
¿ ¿ ¿ ¿
p
L’estimateur du nombre total d’abonnements est =N* . Et
D’où l’intervalle de confiance est
√ V ( p ) ] = [N*2
¿ ¿ ¿
p
IC(Nh) = [N ± 1,96*N ,01% ; N*2,59%] = [4012 ; 5188].
Le ministère doit prévoir entre 4012 et 5188 kits. En multipliant par le prix d’un kit, on obtient
l’intervalle du budget à prévoir.
Q5. Les critiques portent surtout sur la représentativité de la population d’estimation (créer un
cadre de discussion sur la question) :
i) On pourrait penser que les enfants scolarisés ont des taux de couverture plus élevés.
ii) L’âge à l’inscription est de un an supérieur à l’âge de la population cible. On pourrait
penser que les parents vaccinent les enfants avant de les inscrire.
iii) La situation pourrait être différente en zone rurale ;
iv) Tout compte fait, le budget peut être sous-estimé. Par conséquent, si on dispose des
rapports de taux de vaccination entre zone rurale et zone urbaine, et aussi entre enfants
scolarisés et non scolarités, on pourrait utiliser des règles de trois pour redresser les taux
en faisant des hypothèses. Le chiffre obtenu serait beaucoup plus proche de la réalité.
Problème 3 : Détermination de la taille d’échantillon
Par un sondage d’opinion, on souhaite estimer la proportion p d’individus qui sont favorables à une
loi qui va passer au référendum, par un SAS. Combien de personnes doit-on interroger pour que
l’on puisse donner un intervalle de confiance à 95% pour la proportion avec une erreur d’au plus
0,02 ? Interpréter.
E = 0,02 est l’erreur type. La taille de la population des électeurs est forcément très grande, et on
peut supposer que le taux de sondage n/N est petit (<5%). En négligeant le taux de sondage, on a :
4s ² 4 p(1− p )
n= n=
E² E²
Avec s² = p(1-p). Donc, n = = (4p – 4p²)/E²
La taille de l’échantillon est une fonction de la proportion « p ». N’ayant aucune idée de p, on se
place dans les conditions les plus défavorables et on recherche la taille « n » maximale.
La dérivée de f(x) = x(1-x) = x-x² est f’(x)=1-2x et elle s’annule lorsque x = 1/2. La dérivée seconde
est négative, donc f admet un maximum lorsque x = 1/2. Ainsi, la taille de l’échantillon est
maximale lorsque p=1/2. n = 4*0,5*0,5/(0,02)² = 2500 personnes. Si on connaît la taille de la
population mère, on peut calculer le poids de sondage d’une unité de l’échantillon.
Interprétation : Le calcul ne dit pas que 50% (1/2) de la population est favorable. Mais on sait
qu’en enquêtant 2500 personnes, l’erreur d’estimation sera au plus de 2%. C'est-à-dire que si le
sondage donne 56% de cas favorables, on pourra dire avec une assurance de 95% que dans la
réalité, le nombre de personnes qui vont voter « oui » est compris entre 54% (56 -2), et 58% (56+2).
66
I.29. IV.5 Procédure et application Excel et SPSS pour le tirage d’un échantillon
probabiliste dans un SAS
IV.5.1 Cas d’un tirage aléatoire simple sans remise :
Le tirage aléatoire simple s’apparente à un Fig. 3 Illustration d’un tirage aléatoire simple d’un
tirage au hasard pur, l'équivalent de tirer des échantillon de cinq unités parmi 20 dans Excel.
noms d'un chapeau ou du tirage au hasard à la
loterie. Pour le réaliser, concrètement, il faut
avoir une liste de la population – la base
d’échantillonnage-- et numéroter chaque unité
de la liste; ensuite, on peut utiliser une table de
nombres aléatoires qui déterminera les unités
choisies.
Avec une liste sur Excel, et tirage sans remise,
on génère des nombres aléatoires pour chaque
ligne, et on considérer les lignes ayant les « n »
nombres les plus petits forment l’échantillon.
La figure suivante en donne une illustration.
Dans cette illustration, la probabilité d’inclusion d’une unité est 5/20 =0,25 ; et le poids est 20/5 = 4.
Fig. 4 : Démarche pour sélection aléatoire d’un échantillon par un tirage aléatoire simple
67
Plutôt que le tirage aléatoire simple, on peut procéder à un tirage systématique. C’est
particulièrement le cas lorsque les probabilités sont inégales.
IV.5.2 Le tirage aléatoire systématique :
Il s'agit ici de tirer seulement la première unité
La probabilité d’inclusion d’une unité est 6/20 ;
de la liste au hasard, et de prendre ensuite les
et le poids est 20/6 = 3,33
unités à un intervalle prédéterminé (une unité à
toutes les X unités). Il faut faire ou avoir une Note 1) Il existe une autre variante du tirage
liste - au moins conceptuelle - de la population systématique, à probabilités inégales.
et donc savoir combien d'unités elle comprend.
Note 2) La liste des unités ne doit pas avoir un
Il faut ensuite déterminer l’intervalle en
ordre qui pourrait entraîner un biais.
fonction du nombre d'unités requises dans
l'échantillon et déterminer au hasard la première
unité. Pour procéder, on choisit la première
unité et on choisit ensuite les unités en en
prenant une à tous les intervalles. Ainsi, si
l’intervalle est de 10 et que le nombre choisi au
hasard est 7, on prendra les unités suivantes : 7,
17, 27, 37, …
68
Fig. 5 Illustration d’un tirage systématique d’un
échantillon de six unités parmi 20 dans Excel.
69
CHAPITRE V : LE SONDAGE STRATIFIE
Le sondage stratifié est une méthode utilisant une variable auxiliaire pour contrôler l’échantillon. Il
s’agit en fait d’une amélioration du SAS. Dans ce chapitre, nous présentons la méthode en suivant
le même plan que dans le cas du SAS. A savoir, la description du principe et du contexte
d’application, la démarche de mise en œuvre, les expressions des estimateurs, des calculs poids, des
précisions et intervalles de confiances et de la détermination de la taille de l’échantillon et sa
répartition entre groupes le cas échéant. Mais en plus, nous relevons la question de l’allocation de
l’échantillon entre les strates. Des exercices d’application sont présentés à la fin du chapitre.
V.1.2 Justification
La stratification se justifie par deux raisons majeures :
i) Améliorer la précision par rapport à un SAS (raison technique ou scientifique) et ;
ii) Obtenir des estimateurs pour des groupes distincts et pouvoir comparer ainsi les groupes
(intérêt pratique ou stratégique).
Y
H
Nh ¿
str = y= ∑ N
Yh
h=1
Alors l’estimateur de la moyenne dans la population totale est .
H
¿ N
V( Y ∑ ( Nh )2 (1−f h )∗S2h /nh
str )= h=1
Sa variance est
Avec fh = nh/Nh le taux de sondage dans la strate « h ».
On estime la variance en remplaçant les dispersions des strates entières par celles des sous
échantillons.
Les expressions des erreurs types et des intervalles de confiance demeurent identiques à ceux vues
¿
71
Erreur type et erreur type relative : La précision absolue de la méthode, appelée erreur type est
√
¿ ¿
1,96 V (Y Str )
ET= . Ce qui signifie que, d’après l’échantillon, l’estimation de la moyenne se fait à
√
¿ ¿
1,96 V (Y Str )
plus ou moins unités.
√
¿ ¿
1,96 V (Y Str ) y
La précision relative ER = / . Cela signifie que la marge d’incertitude est de l’ordre
ER de la quantité évaluée (la valeur s’interprète en pourcentage).
√ √
¿ ¿
y−1,96 V (Y Str ); y+1,96 V (Y Str )]
Intervalle de confiance : [ (on prend souvent 2, au lieu de 1,96)
Y
H H
1 1
V( Ney )= ( ∑ N S / N ) ²− ∑ N h S 2h / N
n h=1 ney h N h=1
. C’est la répartition optimale de Neymann.
Le sondage stratifié a évidemment les avantages sus signalés. Mais comme on peut le voir, les
formules se sont quelque peu complexifiées par rapport au SAS.
72
V-3.1 Détermination de la taille de l’échantillon à partir de la contrainte de coût
Soit C est le budget maximum alloué à l’enquête et c est le coût unitaire de sondage, considéré
identique dans toutes les strates. Alors, la taille maximale possible est : C/c.
V-3.2 Détermination de la taille de l’échantillon à partir de la contrainte de précision
Lorsque E est fixée, tout dépend du type d’allocation.
H
¿ Nh
(1−f )∗∑ (
Pour une allocation proportionnelle, on a E²=4*
V( Y prop )=
4*
h=1 N
)2 S2h /n prop
H
N ∑ N h S 2h
h=1
H
E²
N ² ( )+ N ∑ N h S 2h
4 h=1
D’où nprop=
H
¿ Nh
( 1−f )∗∑ (
Pour une allocation de Neymann, on a E²=4*
V( Y prop )=
4*
h=1 N
)2 S2h /n prop
H
( ∑ N h Sh )²
h=1
H
E²
N ²( )+ N ∑ N h S 2h
4 h=1
D’où nprop=
E²
N ²( )
4
Si les taux de sondage sont très faibles, les dénominateurs ne contiennent que le terme .
I.33. V-4 Avantages et inconvénients du sondage stratifie :
Avantages : Le sondage stratifié permet plusieurs gains :
Amélioration de la précision globale par rapport à un SAS ;
Possibilité d’obtenir des estimations par strate ;
Possibilité de comparer les strates.
Les inconvénients sont de deux ordres :
Exige une base de sondage à jour
Exigence des informations sur les variables axillaires.
Y
5
Nh ¿ ¿
str = ∑ Y
N h Yh
h=1
= 39,46 ; avec Nh l’effectif et la moyenne (estimateur sans biais) dans la strate
¿
Y
5
Nh
V( str )= ∑ ( )2 (1−f h )s 2h / n h
2) La précision est l’estimation de la variance de l’estimateur h=1 N
=0,0699 ; où fh=nh/Nh est le taux de sondage dans la strate h.
√Y
¿ ¿
74
Dans le cas d’une allocation proportionnelle, les probabilités d’inclusions sont identiques et égales
au taux de sondage, pour toutes les unités, indépendamment de la strate, soit 300/1060 = 0,28302 ;
Le poids d’une unité est alors 5,3333. Chaque entreprise de l’échantillon en représente 5,33.
Dans le cas d’une allocation de Neymann, la Tableau 6 : Allocations, de l’exercice sur
probabilité d’inclusion est la même dans chaque sondages stratifiés
strate, égale au taux de sondage de la strate. Les strates Effectif nNey probabilités poids
poids sont les inverses de ces probabilités. Les
0–9 500 63 0,126 7,937
valeurs sont contenues dans le tableau suivant.
10 – 19 340 70 0,206 4,857
20 -49 75 22 0,293 3,409
50 – 499 120 120 1 1
500 et plus 25 25 1 1
Y
3
Nh
V( str )= ∑( )2
( 1−f h ) S 2h / n h = ∑ p2h (1−f h )s 2h /n h
h=1 N h=1
Pour une répartition proportionnelle, on a ;
où fh=nh/Nh est le taux de sondage dans la strate h, et p h = Nh / N est le poids de la strate dans la
population totale. Or en répartition proportionnelle, fh = f = nh /Nh, et nh = Nh*n/N.
3
¿
(1−f ) Nh ¿
∗∑ ( ) S 2h
D’où,
V( Y prop )= n h=1 N
. Les calculs donnent
V( Y prop )
= 0,17408, et E = 0,81777
ph Sh
∑ ph Sh
Pour la répartition optimale de Neymann, en prenant n h = nney = n , Nh = Nph, et
¿
ph Sh
Y
3 3
1 1
V( Ney )= ( ∑ ph Sh ) ²− ∑ p h S 2h
∑ ph Sh n h=1 N h=1
fh = nh/Nh = (n )/Nph. Après simplification, on a .
¿
Le sondage à deux ou plusieurs degrés est couramment utilisés dans les grandes études nationales.
Ce chapitre indique les raisons, la mise en œuvre et décrit la construction. Les formules des
estimateurs sont assez complexes. Afin de tenir compte du niveau des bénéficiaires final de la
formation, l’exposé de ce chapitre omettra certaines formules de variance. Le lecteur peut se référer
à la bibliographie pour des approfondissements. En outre, l’exposé se concentrera sur le modèle
particulier, couramment mis en œuvre, et qui permet d’obtenir un échantillon auto pondéré. Pour ce
cas, les expressions des estimateurs, des coefficients d’extrapolation, des précisions et intervalles de
confiances, ainsi que les règles de détermination de la taille de l’échantillon sont présentées.
75
En extension du chapitre, nous présentons le plan stratifié à deux degré, qui est le plan complexe
classiquement mis en œuvre dans les grandes enquêtes nationales.
◦ La probabilité d’inclusion d’une unité finale (US) dans l’échantillon global est alors
le produit des probabilités d’inclusion du premier et du second degré :
m*Nh*n0/N*Nh = m*n0/N qui est identique pour toutes les unités secondaires,
indépendamment de l’UP d’appartenance ;
Remarque :
Il n’y a pas de re-calcul des probabilités d’inclusion des unités primaires (ZD) car c’est sur la base
des anciennes valeurs qu’elles ont été calculées.
78
Si le nombre de ménages dénombrés dans une ZD reste identique à celui présent dans la base, et si
l’objectif de 20 ménages à enquêter est atteint, alors les poids de sondage ne changent pas. En
somme, on part de l’objectif d’avoir un échantillon auto pondéré, et on aboutit à un échantillon dans
lequel les poids sont différents.
Dans la pratique, les données disponibles dans la base sont issues du dernier recensement. Et les
redressements se font après l’apurement des données.
Le terme « p » représente la proportion du paramètre à estimer, soit par exemple le pourcentage des
pauvres. On utilisera dans ce cas une valeur de p obtenue dans une enquête similaire ou récente, ou
à partir d’une enquête pilote.
Supposons que la proportion lors d’une étude récente ou dans une population similaire a donné un
taux de 60%. (Soit p=0,6 pour toutes les localités /strates). Sur cette base, la taille minimale de
ménages à considérer pour obtenir une précision de 10% est de 185 ménages.
Etape 2 : Nombre de ZD et tailles des autres strates
Il est classique de retenir une taille de 20 ménages par ZD. Pour 185 ménages, on est ramené à
enquêter à peu près 10 grappes ou ZD (pour exactement 200 ménages). Les 15 ménages
supplémentaires permettent de prendre en compte les non réponses. Dans la strate la moins peuplée,
200 ménages seront ainsi sélectionnés. Les tailles des autres strates sont calculées à partir du rapport
de proportionnalité des populations. Le nombre de ZD par strate s’en déduit directement.
Exercice : Faire le calcul de la taille d’échantillon de la strate la moins peuplée pour une proportion
de 35%, de 45% en choisissant respectivement les seuils de 5% et 10%. Conclure.
Imaginons que vous fassiez une enquête sur la productivité des travailleurs immigrants.
Comme aucune liste de travailleurs n'existe pour votre ville, vous devrez vous promener
d'usine en usine pour faire la liste et ensuite faire votre échantillonnage. Cela risque d'être
très long et trop coûteux.
Pour faire un échantillonnage en grappes, vous pouvez sélectionner au hasard des quartiers
dans la ville et dans ses quartiers sélectionner des usines au hasard et dans les usines
sélectionner des ateliers au hasard. Si vous manquez d'immigrants au niveau de l'atelier, il se
peut que vous soyez obligé de remonter au niveau de l'usine.
Dans un monde complètement aléatoire, ce mode de fonctionnement est légitime. Mais on
sait que les membres d'une même famille travaillent ensemble dans la même usine, ce qui
apporte une distorsion statistique importante. Il faut donc se méfier de ce type
d'échantillonnage.
L'échantillonnage en grappes est un échantillonnage probabiliste reposant sur la sélection
aléatoire de grappes. Une grappe est un ensemble d'unités d'une population qu'on constitue
à l'aide de critères bien définis. Il peut s'agir d'un groupe qui existe dans la population (pâtés
de maison, hôpital, etc.) ou d'un groupe théorique (ensembles de rues sur une carte, etc.).
Si vous lisez le plan d'échantillonnage associé aux micro données, on spécifie généralement
ce qu'il faut faire si l'échantillonnage est en grappe.
I.40. VI.6 Le plan complexe classique utilisé dans les grandes enquêtes : Le
sondage stratifiés à deux degrés
Les enquêtes nationales (conditions de vie, MICS, EDS, etc.) obéissent plutôt à un plan complexe :
un sondage stratifié à deux degrés. Dans ces cas, la population est au préalable stratifiée, et on
applique ensuite un sondage à deux degrés dans chaque strate. Si la répartition de l’échantillon se
fait par allocation proportionnelle entre les strates, selon le principe du sondage à deux degrés
présenté, on aboutit à un échantillon auto pondéré. Mais comme signalé, il y aura presque toujours
des redressement ou re-calculs des pondérations des ménages après enquête et apurement des
données.
Dans tous les cas, la probabilité d’inclusion d’un ménage est le produit de la probabilité d’inclusion
de la strate par celle du ménage dans le sondage à deux degrés. En d’autres termes, dans chaque
strate, le principe de calcul des pondérations vu précédemment (tableau) est appliqué. Ensuite, les
probabilités d’inclusion des ménages de la strate sont multipliées par la probabilité d’inclusion de la
strate. Le tableau suivant illustre la démarche de calcul. Le poids des strates se déterminent en
général proportionnellement au nombre de ménages, ou d’individus de la population. On suppose
toujours que le nombre total de ZD est M, et la somme des nombres de ménages indiquée dans la
base est N.
Tableau 8 : Démarche de calcul des poids dans un tirage stratifié à deux degrés
Nbre de Proba Proba Proba
Nbre
Nbre de Nbre ZD tirés ou poids Proba redressés redressés
méng Nbre méng Proba
Numéro Taille ZD ménages ZD de dans la de la redressés
du ZD enquêtés ZD dans
ZD (Base) de la strate strate strate strate ménages ménages ménages
(dénomb (valides) strate
(base) (base) dans ZD dans dans
)
strate population
81
p = u*p3
p3 =
a b c d e x u = b/N P1 = d*a/b p2 = x/e = b*d*a*x
p1*p2
/(N*b*e)
En terme Tirage par
de poids cumuls des
de la nbres de
population ménages
On peut observer que la valeur de « e » se simplifie dans la formule finale, si on utilise les poids des
strates en termes de nombre de ménages. Le lecteur pourra s’exercer à partir de l’étude de cas N°
relatif aux calculs des poids et estimation.
Tableau 9 : Sélection de ZD à probabilités inégales par tirage systématiques à partir des totaux
cumulés
ZD Taille ZD cumuls PAS Départ Echantillon
1 222 222 969 424,5588414
2 135 357 424,5588414
3 247 604
4 203 807
5 103 910
6 162 1072
7 62 1134 1393,558841
82
8 340 1474
9 272 1746
10 169 1915
11 116 2031
12 235 2266 2362,558841
13 148 2414
14 102 2516
15 197 2713
16 194 2907
Ce chapitre recense quelques consignes clés pour une bonne organisation de la collecte des données
dans le cadre d’une enquête. Ces consignes concernent les activités préparatoires, et les activités de
suivi supervision de l’opération de collecte. Cette présentation sera faire dans l’ordre chronologique
des activités et des étapes du processus de collecte. Pour chaque activité et à chaque étape, une
insistance sera accordée aux aspects en rapport avec le plan des sondages et les traitements. Enfin,
ce chapitre suppose le plan de sondage déjà élaboré.
I.43. VII.1. La planification des activités
Pour améliorer l’organisation d’une étude, il est impératif d’élaborer un calendrier (même
provisoire) qui retrace les grandes lignes du processus. Ce calendrier est en général présenté sous
forme de diagramme de gant. Le tableau suivant fourni un modèle de calendrier des activités dans le
cadre d’une enquête, adaptée à une enquête ménages, avec saisie directe sur PDA.
Tableau 11 : Exemple de calendrier de travail par activité
Phas S S S S S
e Activités 1 2 3 4 5
Phase
Analyse documentaire
I:
83
Rédaction et Envois des courriers de demande d'autorisation aux autorités
Conception des masques de saisies
Rédaction des manuels d'enquêteurs et de contrô leurs
Sélection des Zones de dénombrement (ZD)
Travaux Préparatoire
84
Notons enfin qu’un rapport de collecte doit être rédigé, consignant tous les problèmes observés pendant la
collecte sur les questionnaires, comme des difficultés à formuler, répondre à des questions particulières, ou
des modifications de formulation de questions. De telles informations sont capitales pour l’évaluation des
erreurs et pour orienter les analyses.
I.45. VII.3 Information des autorités, sensibilisation et documents d’introduction
Des lettres d’information et de demande d’autorisation doivent être envoyées suffisamment tôt aux autorités
compétentes (Ministères de tutelles des groupes cibles, Ministère de l’Intérieur et Ministère), ainsi qu’au
Secrétariat permanent du Conseil National de la Statistique, à savoir l’Institut National de la Statistique
(conformément à la nouvelle loi statistique).
Après avis favorable de ces autorités, des missions d’informations et de sensibilisation doivent être envoyées
auprès des autorités administratives locales (Préfets et Sous-Préfets) et auprès des collectivités décentralisées
(Gouverneurs et Maires). En plus, ces dernières autorités seront encore informées à l’arrivée des équipes sur
le terrain.
D’autres actions de communication doivent être organisées envers les populations cibles. Chaque agent
membre de l’équipe de collecte doit en plus recevoir une lettre de mission et un badge, pour son introduction
auprès des enquêtés.
La bonne communication sur l’étude est particulièrement importante pour assurer un bon accueil des agents
de collecte et recueillir des bonnes informations.
I.46. VII.4 Recrutement et formation des agents enquêteurs et organisation des
équipes
VII.4.1 Les critères de recrutement :
Les agents de collecte doivent être recrutés à la fois sur les bases de leurs expériences dans la manipulation
des supports de collecte (questionnaire papier, appareils à écran tactiles). D’autres exigences sur le niveau
académique doivent être imposées en fonction des difficultés à comprendre le thème et le contexte d’étude.
VII.4.2 Les exigences de la formation
La formation théorique doit toujours s’accompagner d’une enquête pilote qui permettent de tester les
questionnaires. La durée de la formation dépendra de la longueur des questionnaires. La formation ne doit
pas être une formalité, même pour les agents expérimentés, et un point doit être mis sur la ponctualité et
l’assiduité. Un agent qui perd une heure de formation est susceptible d’introduire des erreurs de mesures.
VII.4.3 La détermination du nombre d’agents de collecte nécessaires
Le nombre d’agents de collecte sera évalué en fonction de la taille de l’échantillon, et de la charge
quotidienne d’un agent. Il faudra tenir compte de l’expérience qui permet d’augmenter en rendement au fur
et à mesure que l’enquête avance. Par exemple, s’il est établi qu’un agent peut enquêter 5 ménages en
moyenne par jour, et s’il y a 10.000 ménages à enquêter, alors 20 agent feront la collecte en 100 jours, et 80
agents la feront en 25 jours. Il faut cependant prendre en compte les jours de voyages entre les villes, dans le
calcul du nombre de jours nécessaires. Un arbitrage sera fait entre la durée de la collecte (nombre de jours) et
le nombre d’agents. Tout en cherchant à gagner en temps, il faut songer aux difficultés à gérer un grand
nombre de personnes.
Une règle de prudence est de recruter toujours plus d’agents qu’il n’en faut. Une majoration de 20% à 30%
doit être appliquée. Ainsi, dans l’exemple précédent, pour retenir 80 agents de terrain, il faut en sélectionner
entre 95 et 100 pour la formation. Il est vrai que ce procédé augmente (bien que de peu) le budget. Mais
l’application de cette règle permet d’introduire une compétition entre les agents pendant la formation. En
plus, elle permet de constituer un vivier d’agents auxquels recourir en cas d’indisponibilité d’un agent
sélectionné.
86
La première étape consistera à dénombrer les SE. Ensuite, les 20 ménages à enquêter seront retenus par tirage
systématique. L’agent enquêteur recherchera ensuite les ménages tirés. Il remplira le questionnaire ménage avec les
précisions requises pour les personnes âgées de 15 ans et plus, et administrera le questionnaire ménage aux personnes
ayant une carte Sim. Les coordonnées GPS seront enregistrées dans chaque questionnaire. Les autres indications sur le
mode opératoire ont été présentées dans la section portant sur le plan de sondage.
Chaque soir, les chefs d’équipe, qui disposeront d’un ordinateur portable, téléchargeront les données collectées pour
effectuer des contrôles. Parallèlement, les chefs d’équipes devront enquêter quelques points de vente Mobile Money, et
réaliser des contre-enquêtes, en effectuant des interviews légers dans 4 ménages au moins de chaque SE.
En moyenne, un agent devra enquêter deux à trois personnes par ménage, et pourra donc faire 3 ménages par jour. Il
faudra ainsi 80 agents pour enquêter 6000 ménages en quatre semaines. Pour tenir compte des délais de route, la
collecte des données prendra donc 30 jours.
Par ailleurs, afin de tenir compte des désistements d’agents enquêteurs pendant la formation ou la collecte (assez
longue), pour diverses raisons, le nombre d’agents à former sera majoré de 20%. Cette majoration induit une
compétition qui suscite plus d’engagement de la part des agents pendant la formation, et la phase de collecte. Aussi, 100
agents de collecte seront-ils sélectionnés pour suivre la formation. Parmi eux, 80 seront retenus pour le démarrage de la
collecte, et 10 seront inscrits sur une liste d’attente.
Les 80 agents formeront donc 20 équipes. Vingt chefs d’équipes seront aussi sélectionnés et formés. Quatre
superviseurs auront chacun la charge d’encadrer une zone correspondant à un lot, selon la structuration des TDRs. Un
coordonnateur général coiffera toute cette organisation.
En résumé Des agents de terrain pour l’opération de collecte des données : 80 agents de collecte (niveau Bac+1), 20
contrôleurs (niveau Bac+1, avec connaissance en cartographie) et 4 superviseur de zones (statisticiens, de niveau
Bac+2, avec une expérience dans des travaux similaires).
Les outils de collecte sont
La fiche de dénombrement des antennes
Le questionnaire ménage
Le questionnaire individuel consommateur comprenant :
La section d’informations générales : Cette section portera sur les caractéristiques socioprofessionnelles de l’enquêté,
la fréquence et les raisons/motifs d’utilisation des services de communications, les opérateurs chez qui ils sont abonnés
et l’ancienneté, et les caractéristiques des types des téléphones utilisés ;
La section sur l’évaluation des réseaux et services : L’évaluation portera sur les différents aspects de la qualité, donc
entre autres,
Section divers : Cette section consignera différentes informations sur :
Le questionnaire opérateur de cabine téléphonique
Le questionnaire des points Mobile Money
87
CHAPITRE VIII. ETAPES ET CONSIGNES POUR TRAITEMENT ET ANALYSE DES
DONNEES D’ENQUETES
Une fois les données saisies, les traitements et analyses comprennent les tâches suivantes :
- La rédaction des programmes d’apurement
- Le calcul des poids de sondage ou coefficients d’extrapolations
- L’apurement des données ;
- La mise à jour des poids (redressements) ;
- La rédaction des programmes de tabulation
- Les traitements et analyses ;
- La rédaction des rapports ;
La rédaction des programmes dépend des compétences en programmation des personnes en charge des
traitements et analyses. Cet aspect n’est pas analysé dans ce document. Toutefois, l’automatisation des tâches
permet d’être plus efficace et plus rapide. Par exemple, il est possible de reprendre plusieurs actions
simultanément si nécessaire, sans un autre effort.
Ce chapitre, sans être un cours élaboré, est un support conçu pour guider dans une étude à partir des données
d’enquête. Il est particulièrement conçu pour un traitement à partir du logiciel SPSS (syntaxes et captures
d’écrans). Mais il peut aussi s’adapter et être utile par ailleurs. Le document fournit des consignes à respecter
pour une analyse des données. Il faudra toujours veiller à décrire et documenter le processus de traitement et
d’analyse, afin de prouver la fiabilité des résultats. Le redressement a déjà été abordé dans le cadre du
sondage. Dans ce chapitre, nous insisterons surtout sur les apurements et la nécessité d’élaborer un plan
d’analyse, ainsi que sur les présentations synthétiques des tableaux.
Dans cette présentation, nous utilisons dans les exemples et les captures d’écran SPSS, les données MICS CI
2006.
I.49. Etape 2 : Prendre contact avec la base et sélectionner les données utiles
Il est important de se familiariser avec les bases, de la parcourir pour voir les variables, comment elles sont
codifiées, identifier leur positionnement, ainsi que les variables clés : identificateurs, variables d’intérêt, les
variables de poids, les variables auxiliaires, etc. Cette étape de manipulation permettra de maîtriser les
88
variables et leurs positions dans la base. Bien que banal d’apparence, ces manipulation permettent de se
mettre en contexte, et d’accélérer par la suite les recherches des variables.
Par la suite, il faut identifier et regrouper les variables (et sélectionner les individus) utiles, ceux qui sont
concernés par le thème de l’étude à aborder avec la base. Il arrive en effet qu’une table de données d’enquête
couvre des thématiques ou des champs plus vastes que ce qui nous intéresse. Il faut donc, au besoin, extraire
les données nécessaires, soient les variables qui traitent des questions à aborder, et les individus concernés.
On utilise pour cela les fonctions de sélection/filtres et fusion.
Par exemple, une base d’enquête peut couvrir les individus d’un ménage, alors qu’on s’intéresse à
l’éducation primaire (enfants de 5 à 11 ans, ou 6 à 12 ans). Les enfants de cette tranche d’âge seront
donc filtrés de la base.
Il est aussi pratique d’identifier les variables à utiliser pour l’étude spécifique et regroupement par thèmes.
Une base d’enquête peut contenir des centaines de variables, et les déplacements dans la base s’en trouvent
fastidieux. Identifier dans les bases toutes les variables qui peuvent permettre d’analyser la question de
recherche permet aussi de préparer les programmes à rédiger et d’éviter le superflu. On choisira alors la
suppression des données non sélectionnées.
Fig 6 : Sélection des enfants de 6 à 12 ans de la base MICS CI 2006, fichier des membres du ménage « hl »
(démarche : données/sélection observation/selon une condition logique)
89
certaines corrections (manuelles ou automatiques) sont apportées aux données, des corrections manuelles par
exemple.
L’apurement correspond en quelque sorte à l’étape de contrôle des questionnaires sur le terrain. IL est donc
indispensable de s’assurer de la bonne qualité de chaque « questionnaire ». Pour cela, les vérifications
doivent se faire à un niveau très fin, pour chaque réponse fournie par chaque unité (micro-validation) et se
poursuit jusqu’au niveau le plus agrégé lorsqu’on vérifie une estimation par exemple (macro-validation). La
compatibilité entre les niveaux est aussi vérifiée (cohérence).
Exemples de cas d’apurement
De façon pratique : L’apurement des données consiste à identifier et traiter les problèmes suivants :
les valeurs manquantes : On fera au préalable les statistiques descriptives élémentaires, et on veillera
à archiver les statistiques sur les valeurs manquantes, qui font partie des renseignements à fournir
pour l’appréciation de la qualité des données initiales.
Lorsque le non renseignement de la valeur est justifiée, il est préférable d’inscrire un code approprié, par
exemple « non concerné, code 8, 98, 998 etc.). Par exemple, il est normal que tous ceux qui n’ont pas
fréquenté présentent des valeurs manquantes pour le plus haut niveau scolaire. Dans le cas contraire, il faut
en étudier la possibilité de faire une imputation. Sur la figure précédente, on observe une valeur manquante
du la variable milieu (HH6) pour la ligne 3. Mais l’individu 2 présente les mêmes valeurs géographiques, et
est en milieu urbain.
Fig. 7 : Imputation d’une valeur manquante par la valeur d’un individu ayant les valeurs proches
Les règles d’imputation sont diverses, et se font au cas par cas. Certaines imputations peuvent être
programmées par un algorithme. Quelques unes sont intégrées dans les logiciels (dans SPSS :
transformer/remplacer les données manquantes). Pour d’autres, il sera nécessaire d’observer les données.
les invraisemblances et les incohérences : Elles seront identifiées par croisement successif et
progressifs des variables pertinentes. Par exemple, un enfant de 10 ans qui a la valeur « supérieure »
comme niveau d’instruction indique un cas d’invraisemblance. Par contre, un individu scolarisé qui a
fait la première du secondaire en 2010 et qui en 2011 est en 5 ème présente un problème de cohérence
des données. Il n’y a pas de règle standard de remplacement. Il faut toujours observer les valeurs
d’autres variables avant de conclure. Le tableau suivant présente les effectifs par classe en fonction
de l’âge.
Tableau 12 : Illustration des incohérences et invraisemblances : Effectifs par classe selon l’âge
0 6 7 1 0 3 2 5 24
90
Manquant 0 0 2 0 1 2 1 6
Total 615 946 1087 971 1139 817 950 6525
On peut observer qu’il y a des enfants de 6 ans en 4 ème, voire 5ème classe du primaire, et des enfants
de 12 ans en classe zéro (maternelle) ou 1 ère classe du primaire. Il est possible dans ce dernier cas
qu’il s’agisse d’une erreur de saisie du niveau, et que l’enfant soit plutôt en première année du
secondaire. Si des corrections ne sont pas apportées, on se retrouvera par exemple avec des âges
moyens par classe complètement erronés. Dans le dernier cas, on peut construire un filtre (par
sélection des observations) et trier par la variable de filtre pour ramener les individus concernés en
premières lignes, afin d’observer les autres variables d’éducation. Ici, on choisira l’option « filtrer ».
Fig. 8 : Elaboration de filtre pour mettre en exergue des incohérences
En ramenant les observations concernées en première ligne, on constate bien qu’il s’agit bien d’enfants qui
ont achevé leur cycle primaire l’année passée (ED8 = 106). Deux des cinq sont bien signalés au secondaire
cette année (ED6). Il s’agit de personnes dont le plus haut niveau atteint est le primaire, la plus haute classe à
ce niveau la 6ème année, qui tous scolarisés cette année. On peut aussi constater une autre erreur au cinquième
de la liste, signalée comme ayant en plus haut niveau, la 6 ème classe du secondaire (ED3). Les trois premiers
pourraient soit reprendre leur classe (CM2, par ED5), soit avoir achevé le CM2 (par ED3). Nous laissons au
lecteur le soin de poursuivre l’analyse pour effectuer les corrections si possible. Il pourra évidement conclure
de l’ambigüité.
Fig. 9 . Cas ambigu d’erreurs de cohérence entre données sur l’éducation.
Toutefois, cet exemple présente la nécessité de bien comprendre le questionnaire et les codes. L’exemple
permet aussi de manifester la complexité du processus d’apurement, et la logique et la réflexion que cela
demande. Enfin, de telles erreurs permettent d’insister sur l’importance du processus de contrôle pendant
l’enquête et dans les masques de saisies.
Les outliers ou valeurs extrêmes : Ce sont des valeurs particulièrement faibles ou élevées (c'est-à-
dire éloignées) par rapport à la tendance centrale. Plusieurs statistiques comme la moyenne sont
particulièrement sensibles aux valeurs extrêmes. Ces valeurs seront identifiées par des procédures
comme le box plot.
91
Les valeurs aberrantes concernent les variables quantitatives, et doivent être identifiées en tenant compte des
paramètres qui influencent les variables observées. Par exemple, un revenu extrême en milieu rural n’est pas
forcément aberrant en milieu urbain.
En mettant en première ligne les enfants qui fréquentent cette année (ED4) et qui déclarent des valeurs très
élevées du nombre d’heures passées à faire des travaux ménagers (CL7) pourtant ils ont été assidus à l’école
(ED5). Si des corrections ne sont pas faites, on se retrouve dans les pires formes du travail des enfants.
Fig. 10 : incohérence entre fréquentation et nombre d’heures de travaux ménagers extrême
92
Les doublons ou observations dupliquées.
Il est plus avantageux de rédiger des programmes pour effectuer certaines actions de façon automatique. Par
exemple, détecter les individus pour les variables de scolarisation présente des problèmes de cohérence : plus
haut niveau d’étude doit être cohérent avec dernière classe achevée avec succès, dernière classe fréquentée,
cycle d’études, nombre de classes achevées avec succès, et même avec l’âge. La correction des erreurs
identifiées doit se faire avec beaucoup de réflexion et de prudence. L’apurement est une des phases de
l’analyse où il ne faut pas se précipiter. Lorsqu’il est impossible de corriger le problème, il faut indiquer que
la valeur est manquante ou incohérente. Par conséquent, il faudra éviter les imputations précipitées de façon
automatique. Dans l’exemple précédent, pour deux individus présentant la même incohérence, l’imputation
(c'est-à-dire la correction) n’est pas la même.
La correction d’une mauvaise valeur ou d’une donnée manquante pourra suivre les étapes suivantes :
1) Quelle est la raison de l’erreur ?
2) Où peut on rechercher/trouver la bonne information
a. recours au questionnaire physique ?
b. analyse des données individuelles de l’individu ?
c. analyse des données du ménage ou du groupe d’appartenance de l’individu ?
d. recours au contexte de la collecte, aux rapports de collecte et de saisie ?
e. etc.
3) Faire la correction si possible. Sinon, indiquer la valeur comme manquante ou incohérente selon le
cas. Les bons processus d’imputation sont informatisés, objectifs, reproductibles et efficaces.
L’apurement est une étape très fouillée et très minutieuse, et par conséquent qui prend beaucoup de temps. Et
le rapport d’étude doit impérativement commencer par un résumé de la qualité des données (pourcentages
des données manquantes, incohérences, etc., au début et à la fin du processus.)
I.51. Etape 4 : Effectuer les traitements des données
Cette partie n’est pas à confondre à la phase d’analyse proprement dite où on exécute le plan d’analyse. Ici,
on opère les transformations nécessaires sur les variables. On peut :
Regrouper certaines modalités d’une variable (recodification) ;
Regrouper les valeurs d’une variable quantitative en classes (intervalles). Les regroupements ou
créations d’intervalles doivent toujours se faire en tenant compte des objectifs, mais aussi des
conventions. Par exemple, pour une analyse sur l’éducation, les tranches d’âge doivent tenir compte
des âges par cycle d’étude (primaire, secondaire). Alors que, pour une étude sur l’emploi, il faudrait
considérer les tranches qui se rapportent aux catégories d’intérêt (5 à moins de 14/15 ou 17 ans pour
le travail des enfants, puis 14/15 ans à 24 ans pour la tranche inférieure des jeunes (standard
universel) et de 14/15 ans à 35 ans pour la tranche des jeunes selon le standard de plusieurs pays en
développement (dont africains), etc.
Transformer des variables chaînes en numériques
Agréger les données d’une variable (par exemple, créer une variable qui agrège par une somme, une
moyenne, … les dépenses de transport des membres (individus) d’un ménage pour avoir la variable
caractéristique du ménage.
Créer des variables par des calculs à partir d’autres variables
Désagréger des variables. Par exemple, à partir d’une variable dont la codification était géométrique,
on peut créer plusieurs variables (ayant les modalités oui et non) correspondant aux réponses. La
transformation inverse est aussi possible ;
Construire des indicateurs ;
93
Accordez une attention particulière à la création de la variable de pondération (calcul ou
redressement). L’importance de cette variable exige le recours à des personnes ressources hautement
qualifiées ;
Etc.
La base ainsi traitée peut parfaitement être utilisée pour les différentes analyses.
94
I.52. Etape 5 : Révision le plan d’analyse
Cette étape est fondamentale. Bien que nécessitant un effort assez important, il nous permet de consigner à la
fois la méthodologie en rapport avec les questions à aborder et les variables à utiliser.
Le plan d’analyse peut se définir comme la feuille de route du politique, ou le plan d’architecture détaillée
pour l’ingénieur en bâtiment. Il définit le fil chronologique des étapes de l’analyse, en indiquant les titres
correspondant aux thématiques et questions à aborder, les variables à utiliser pour y répondre, et les
techniques statistiques à employer (types de tableaux, graphiques, tests, méthode factorielle ou
économétrique.
Exemple : On peut à un niveau écrire :
Recherche des déterminants de …. Par un modèle logit …:
Statistiques descriptives par tableaux croisées (ou graphiques en bandes des profils …) avec les
variables pressenties comme déterminantes (à lister), et tests de chi deux pour mesure de liaisons ;
Etablissement des profils de pauvreté par Classification à la suite d’une ACM avec les variables …
sociodémographiques, avec la variable de pauvreté illustrative
Etc.
Le plan de tabulation des dossiers d’archives des enquêtes MICS est un exemple de plan d’analyse. Il décrit
tous les tableaux à faires, et toutes les statistiques dans les plus petits détails.
Le plan d’analyse peut parfois ne pas présenter de façon précise les techniques à employer, mais il doit
évoquer l’objectif, et autant que possible les variables et les techniques.
Rigoureusement, une première ébauche du plan d’analyse doit être élaborée au début du processus. En
particulier, les variables à sélectionner et à apurer doivent être nécessaires pour exécuter le plan d’analyse
Modèle Tableau 13 : Descriptions des dépenses de consommation par province et par région
95
Urbain Rural comparaison
IC (95%) IC (95%)
Variable Statistiques Test comparaison
Valeur de Valeur de Ecart
des moyennes
moyenne moyenne
Effectif
Moyenne
Médiane
1ère Région
Ecart-type
Maximum
Minimum
Effectif
Moyenne
Médiane
2ème Région
Ecart-type
Maximum
Minimum
Modèle Tableau 14 : Descriptions et tests de comparaison des coefficients budgétaires (écarts types
entre parenthèses) par niveau d’instruction et par sexe du chef de ménage
Scolarité Sexe du CM
Statistique Secondair Coefficie Anov Coefficie Anova
Aucun Primair Homm Femm
s e et + nt Eta a nt Eta
e e e e
65 …
Alimentatio 45
(34,67
n (39,44)
)
Education
Habillemen
t
Tableau 15*. Statistiques descriptives des variables quantitatives par milieu … données échantillon et
données population (*Moyenne (écart-type) [Min ; Max])
Urbain Rural Ensemble
Variables Echantillon Pop (avec Echantillon Pop (avec Echantillon Pop (avec
(N=20) poids) (N=12) (N=20) poids) (N=12) (N=20) poids) (N=12)
Âge du CM 64,9 (7,2) 63,8 (5,6)
[57 ; 90] [58 ; 78]
Revenu (x
1000)
Quelques conseils :
Toujours accompagner les moyennes des écarts types
Toujours accompagner les effectifs des fréquences
Penser à décrire l’échantillon au départ, dans la partie consacrée aux caractéristiques de la
population. Par la suite, insister sur les statistiques pondérées. Dans cette partie, valoriser la qualité
des données par les taux de non réponses et une description des apurements ;
Toujours faire des copies progressives des bases transformées ;
Toujours observer les statistiques descriptives des variables avant tout apurement ou traitement ;
Eviter d’écraser systématiquement les variables transformées.
96
BIBLIOGRAPHIE
AMEGANDJIN, Julien (2013) ; Pratique des sondages, étude de quelques sujets courants des
techniques de sondage ; AFRISTAT ; séries méthodes ;
ARDILLY, Pascal (2006) ; Les techniques de Sondages ; Ed. Technip, Paris.
EUROSTAT ; Les défis d'utilisation de données administratives et des enquêtes par sondage dans le
Système Statistique Européen ;
http://sondages2012.ensai.fr/wp-content/uploads/2011/01/20121030_BUONO_Diaporama_FR_
EN_Les-d%C3%A9fis-dutilisation-de-donn%C3%A9es-administratives-et-des-enqu
%C3%AAtes-par-sondage-dans-le-Syst-Mode-de-compatibilit%C3%A9.pdf; en ligne,
septembre 2014.
FASSASSI, Raïmi ( ; Cours méthodologie et pratiques des enquêtes ; formation continue en bio-
statistique sur la méthodologie de la recherche (2ème journée), support de présentation
KEHO, Yaya (2005), Pratique des enquêtes ; Support de cours enseigné à l’ENSEA ;
Myriam Maumy-Bertrand (2011) ; Sondage à probabilités inégales ; IRMA, Université de Strasbourg,
cours de Master 2ème Année ; Strasbourg, France ; en ligne :
http://www-irma.u-strasbg.fr/~mmaumy/enseignement/M2StatsM2Actu/chapitre4.pdf;
consultée en novembre 2014.
Statistiques Canada ; Méthodes et pratiques d'enquête ; en ligne : http://www.statcan.gc.ca/pub/12-587-
x/12-587-x2003001-fra.pdf; consultée en septembre 2014.
TIOTSOP Blaise (2010) ; Théorie des sondages ; Support de cours enseigné à l’ENSEA ;
97
ANNEXE : ETUDE DE CAS
TP 1) SAS SANS REMISE (utiliser Excel et SPSS): Réalisation d’un SAS par tirage aléatoire
simple : tirer un échantillon de taille 300 et calculer :
On réalise une étude sur le montant des pensions des retraites. On dispose d’une base de
sondage sur une population « base études de cas 1 à 3 ».
i. La probabilité d’inclusion d’un individu
ii. Le coefficient d’extrapolation de chaque individu
iii. Estimer la pension moyenne donnée à un retraité, ainsi que la précision, et donner un
intervalle de confiance à 95%.
iv. Calculer ensuite la valeur exacte de cette moyenne sur toute la population, et commenter.
v. Déterminer la taille suffisante pour réaliser estimer la pension moyenne une erreur relative
d’au plus 2% au seuil de risque de 5%.
Reprendre encore le même exercice en considérant une stratification suivant la variable la variable
la plus pertinente et un SAS sans remise dans chaque strate. On considèrera le cas d’une répartition
proportionnelle et une répartition optimale de Neyman
TP 4 : Utiliser les données de la feuille Compta entreprise du fichier Excel pour
i) Faire un tirage systématique de 20 entreprises par un tirage systématique à probabilité
inégale proportionnelle aux tailles des entreprises
ii) Calculer les poids
iii) Donner les estimations du CA moyen (valeurs, précision et intervalle) au seuil de 5%.
iv) Considérer maintenant un sondage stratifié par secteur d’activité. Déterminer l’allocation
optimale de Neyman et reprendre les questions i), ii) et iii) pour chaque strate.
98
TP 5 : Calculs des pondérations dans le cas d’un sondage stratifié à deux degrés.
A partir de la base « données pour calculs pondérations »
i. Construire une variable de strate à partir du croisement de la zone et du milieu
ii. Calculer par strate : les poids de sondages des strates, ZD et ménages
iii. Estimer la taille de la population et donner un intervalle de confiance
iv. Estimer le taux de pauvreté et donner un intervalle de confiance
99