Aspects statistiques
La conception et la mise en oeuvre d’enquêtes quantitatives soulèvent des problèmes statistiques spécifiques.
En premier lieu, lorsque l’enquête est réalisée sur un échantillon (i.e une partie de la population seulement), il faut choisir un plan de sondage, c’est-à-dire une méthode de tirage de l’échantillon adaptée aux contraintes financières et logistiques, tout en étant le plus efficace possible d’un point de vue statistique.
En second lieu, une fois l’enquête réalisée, se pose la question de l’estimation, c’est-à-dire la manière de produire, à partir de l’échantillon obtenu, des grandeurs valables pour l’ensemble de la population (une extrapolation).
Cette extrapolation passe souvent par le calcul d’une pondération, qui tient compte du plan de sondage mais aussi des non-réponses et des sources de données externes permettant d’améliorer l’estimation. On parle alors de redressement. Enfin, on peut chercher à évaluer la qualité de l’échantillon obtenu à travers des indicateurs comme le biais ou la précision.
Une branche de la statistique d’enquête est consacrée à ces problématiques du sondage et de l’estimation.
Base de sondage
En amont d’une enquête quantitative se pose la problématique du plan de sondage, c’est-à-dire du mode de sélection et de la taille de l’échantillon à interroger.
Échantillonnage ou recueil exhaustif?
D’un point de vue statistique, l’idéal est de réaliser la collecte auprès de la totalité de la population cible. Toutefois, ce n’est souvent pas possible, pour des raisons de coût, de logistique, de risque de détérioration de la qualité des données, voire de faisabilité.
Si un recueil exhaustif n’est pas possible, il est nécessaire de procéder à un échantillonnage. Les questions à se poser à ce stade portent notamment sur la taille de l’échantillon à interroger et sur le mode de tirage. La question de la base de sondage, sous-jacente, doit aussi être traitée.
Taille de l’échantillon
La taille de l’échantillon est le principal facteur de précision statistique. Elle doit être déterminée en fonction de cet impératif de précision (ou puissance statistique) mais aussi des différentes contraintes (budgétaires, logistiques, etc.) qui conduisent à limiter le nombre d’individus à interroger.
Il convient par ailleurs de prévoir les hors champ et les non-réponses éventuelles et de majorer en conséquence la taille de l’échantillon exploitable souhaitée afin de compenser les «pertes».
Base de sondage
La base de sondage est la liste complète des individus appartenant à la population cible. Une bonne base de sondage possède les propriétés suivantes:
- elle est exhaustive et sans double compte;
- elle est actualisée;
- elle comprend un identifiant et des variables permettant de repérer et de contacter les individus qui seraient sélectionnés (adresse, téléphone, etc.);
- elle comporte des «variables auxiliaires» qui pourraient servir pour le tirage, pour la collecte, et pour les redressements.
Pour les grandes enquêtes nationales en France, l’accès à une base de sondage requiert souvent un partenariat avec l’Insee. La solution alternative est le recours à la génération aléatoire de numéros de téléphone. L’offre téléphonique et ses usages ayant beaucoup évolué, l’annuaire téléphonique est devenu très lacunaire et ne constitue plus une potentielle base de sondage. Désormais, on génère aléatoirement des numéros de téléphones fixes et mobiles. Cette pratique permet de se replacer dans le cadre d’un sondage aléatoire, où tous les individus disposant d’au moins un téléphone (soit plus de 99% de la population des ménages ordinaires) a une probabilité non nulle d’être sélectionné.
Mode de tirage de l’échantillon (ou plan de sondage)
Sur la base des informations auxiliaires disponibles dans la base de sondage, l’objectif est de tirer un échantillon permettant des estimations les plus précises possibles tout en respectant les contraintes (taille d’échantillon total et par groupe d’intérêt, etc.).
Lors du tirage, plusieurs techniques peuvent être mises en œuvre et éventuellement combinées: la stratification, le tirage en plusieurs degrés (dont le tirage en grappes), le tirage équilibré, etc. Des simulations peuvent être nécessaires pour comparer différents plans de sondage concurrents. Ce travail doit aussi être prévu dans le calendrier de l’enquête.
Que faire en l’absence de base de sondage ?
En l’absence de base de sondage, on pourra réfléchir à l’établissement d’une base de sondage partielle, dans le cadre d’un tirage en plusieurs degrés. Par exemple, on constitue la liste des logements dans certaines zones géographiques (unités primaires) préalablement tirées au sort.
Le sondage en deux phases se rapproche de ce type de tirage: on réalise d’abord une première enquête filtre auprès d’un gros échantillon, puis on effectue un tirage auprès des membres de la population cible repérés lors de l’enquête filtre.
Dans d’autres cas, on peut mettre en place un «sondage indirect», qui consiste à accéder à la population cible par l’intermédiaire d’une autre population qui lui est reliée. Par exemple, on accède aux enfants via un échantillon de parents, ou bien aux usagers de services d’aide à travers un échantillon de prestations (enquêtes sur les sans-domicile).
En dernier recours, il pourra être envisagé de mettre en place un échantillonnage non probabiliste: par la méthode des quotas, des itinéraires, par sélection raisonnée, etc. Le sondage par quotas mérite une mention particulière. C’est en effet la méthode la plus communément utilisée par les instituts de sondage pour les enquêtes en population générale. Le principe est de garantir que les marges de l’échantillon final reflètent fidèlement celles de la population auprès de laquelle on désire enquêter. En théorie, il est impossible de calculer la précision de l’échantillonnage, ce qui est rédhibitoire pour les études où celle-ci doit être maîtrisée.
Pondérations, redressements, imputations
En aval d’une enquête par sondage, on procède au calcul des «pondérations», c’est-à-dire des coefficients qui permettent l’extrapolation des données de l’échantillon à l’ensemble de la population cible.
Calcul de pondérations et redressements
Le calcul des pondérations est étroitement lié au plan de sondage. Cependant, les estimations produites avec cette pondération initiale peuvent être améliorées afin de tenir compte des non-réponses, des données auxiliaires disponibles dans la base de sondage, ou de sources extérieures. On parle alors de «redressement».
La matière première fondamentale pour effectuer un redressement est l’information auxiliaire, qui peut être interne à l’enquête ou provenir de sources externes. Des techniques spécifiques peuvent alors être mises en œuvre pour tirer le meilleur parti de ces informations auxiliaires: les techniques de redressement des non-réponses totales, les techniques de post-stratification ou de «calage sur marges».
Les informations internes à mobiliser peuvent être issues :
• de la base de sondage, soit sous forme de statistiques agrégées (totaux, proportions), soit au niveau individuel, et dans ce cas disponibles, en principe, pour chaque individu tiré, qu’il soit répondant-e-e ou non;
• du processus de collecte, étant en principe disponibles pour tous les individus tirés dans l’échantillon, qu’ils soient répondant-e-e-s ou non. Il peut s’agir des raisons de la non-réponse (refus, non-contact, individu hors champ, etc.), du nombre de contacts nécessaires avant la réalisation de l’interview, etc.; ces informations sont appelées paradata ou paradonnées.
Les informations externes, pour leur part, proviennent généralement de publications issues d’un recensement ou d’une autre enquête statistique de référence. Quelquefois, afin de disposer de données portant sur un champ similaire à celui de la population étudiée, ou de la répartition selon certaines variables non publiées, on peut être amené à travailler sur les micro-données d’enquêtes, par exemple l’enquête Emploi de l’Insee.
En l’absence d’information auxiliaire, il est impossible de redresser les données, et on doit se contenter de l’estimation produite à partir de la pondération initiale. Le recueil d’informations auxiliaires lors de la collecte des données, de même que la recherche de données externes sur le champ étudié doivent dès lors être prévus dans le calendrier de production.
Correction des non-réponses partielles
Les données peuvent aussi être affectées par la non-réponse partielle, c’est-à-dire l’absence de réponse à une partie du questionnaire. Des techniques d’imputation permettent en partie de contrecarrer ce type de problème. Les méthodes les plus couramment utilisées sont:
- l’imputation à partir de données externes (cold-deck);
- l’imputation à partir de données internes (hot-deck).
Mais d’autres existent aussi: imputations multiples par régression, imputations par algorithmes dérivés des moindres carrés partiels (en particulier NIPALS), à variance réduite, etc.
L’information sur les non-répondant-e-s
Que ce soit pour redresser ou imputer, une étude préalable de la non-réponse est nécessaire afin d’en comprendre les mécanismes et les déterminants.
Pour cela, il faut disposer d’informations sur les non-répondant-e-s. En ce qui concerne les non-réponses totales, on connaitt, a minima, les données contenues dans la base de sondage, mais dans la mesure du possible, il est utile de collecter d’autres informations en cours de collecte, quand bien même un questionnaire n’a pu être réalisé. Par exemple, il est utile de savoir les raisons de la non-réponse (refus, absence d’interlocuteur, problème de langue, etc.)
Pour les non-réponses partielles, on dispose en principe des réponses aux autres questions qui, elles, ont été remplies. L’étude de la probabilité de réponse permet alors de choisir la méthode d’imputation adéquate.
Evaluation de la qualité
L’évaluation de la qualité (quantitativement et qualitativement) vise à mesurer les «erreurs» qui peuvent entacher la qualité des données collectées.
Les sources d’erreur dans les enquêtes
Trois types d’«erreurs» peuvent survenir dans une enquête: les erreurs de sondage, les non-réponses et les erreurs de mesure. Elles ont des conséquences en termes de biais et de variance des estimations obtenues.
Les erreurs de sondage proviennent de la procédure d’échantillonnage et de son exécution. Le fait d’effectuer un sondage (enquête sur une partie de la population cible seulement) et non un recueil exhaustif entraîne une incertitude. Elle est d’autant plus élevée que la taille de l’échantillon est faible. En outre, une base de sondage de mauvaise qualité (obsolète, incomplète, etc.) peut engendrer des biais, par exemple un biais de sous ou sur-représentation, etc.
Les non-réponses des éligibles – quelle qu’en soit la raison (refus, impossibilité à joindre l’enquêté-e, erreur sur l’identification de l’enquêté-e, abandon du questionnaire, etc.) – peuvent entraîner des biais, lorsque les caractéristiques des non-répondant-e-s sont différentes de celles des répondant-e-s. Les non-réponses engendrent en outre une réduction de la taille de l’échantillon exploitable, qui diminue la précision des estimations.
Les non-réponses peuvent être partielles (absence de réponse à une ou plusieurs questions) ou totales (absence de réponse à la totalité du questionnaire).
Les erreurs de mesure découlent de plusieurs facteurs comme les difficultés de passation du questionnaire (mauvaise compréhension de certaines questions, difficultés de traduction, modalité de réponse non prévue), l’interaction entre l’enquêteur-e et l’enquêté-e (reformulation abusive des questions à l’initiative de l’enquêteur-e, non-respect des consignes de collecte, etc.) ou le mode de collecte (les enquêté-e-s pouvant répondre différemment, toutes choses égales par ailleurs, selon que l’entretien se déroule en face-à-face, au téléphone ou par questionnaire auto-administré). Plus généralement, le contexte dans lequel se déroule l’interview (lieu de l’entretien, présence d’une autre personne, etc.) peut entraîner des différences de réponse. Il faut aussi considérer les potentielles erreurs de traitement (saisie, pertes de questionnaires etc.).