RFP 409

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 16

Revue française de pédagogie

Recherches en éducation
157 | octobre-décembre 2006
PISA : analyses secondaires, questions et débats
théoriques et méthodologiques

La mesure de la littéracie dans PISA : la


méthodologie est la réponse, mais quelle était la
question ?
Measuring literacy in PISA. Methodology is the answer, but what was the
question ?
La medida de la literacia en PISA. La metodología es la respuesta, pero ¿cuál era
la pregunta ?
Die Bewertung der literacy bei PISA : Methodologie ist die Antwort, aber was
war bitte noch mal die Frage ?

Pierre Vrignaud

Édition électronique
URL : http://journals.openedition.org/rfp/409
DOI : 10.4000/rfp.409
ISSN : 2105-2913

Éditeur
ENS Éditions

Édition imprimée
Date de publication : 1 décembre 2006
Pagination : 27-41
ISBN : 978-2-7342-1075-7
ISSN : 0556-7807

Référence électronique
Pierre Vrignaud, « La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle
était la question ? », Revue française de pédagogie [En ligne], 157 | octobre-décembre 2006, mis en ligne
le 01 décembre 2010, consulté le 30 avril 2019. URL : http://journals.openedition.org/rfp/409 ; DOI :
10.4000/rfp.409

© tous droits réservés


La mesure de la littéracie
dans PISA :
la méthodologie est la réponse,
mais quelle était la question ?
Pierre Vrignaud

L’objectif de cet article est de montrer l’interaction entre les aspects méthodologiques et la manière dont est
conceptualisée et définie la littéracie dans l’enquête PISA. Pour introduire le thème on évoque d’abord les
changements conceptuels dont a été l’objet l’évaluation des acquis des élèves dans les enquêtes internationales
depuis les premières enquêtes de l’IEA jusqu’à l’enquête PISA. Après avoir rappelé que toute mesure est un
construit, on expose les théories psychométriques qui fondent les modèles de mesure utilisés pour l’évaluation
des acquis des élèves. La présentation des approches classiques permet d’introduire les concepts de difficulté
et de discrimination des items ainsi que le concept de consistance globale d’une épreuve. On insiste sur les
conditions de validité des modèles psychométriques qui posent des contraintes fortes sur la façon dont la
variable mesurée est construite. On présente ensuite le modèle de mesure utilisé dans PISA qui appartient
à la famille des modèles de réponse à l’item (MRI). PISA a privilégié le modèle dit de Rasch, on discute
des conséquences de ce choix. On aborde ensuite un point très technique peu souvent abordé : celui de
l’algorithme utilisé pour l’estimation des paramètres. La procédure utilisée aboutit à estimer non pas une valeur
par sujet mais à construire la distribution des compétences de chaque sujet, on insiste sur les conséquences de
cette approche sur la manière de conduire l’analyse des résultats. Ensuite, on discute du caractère réellement
unidimensionnel de la variable du point de vue des contenus et du point de vue méthodologique. On s’interroge
sur la contradiction apparente qu’il peut y avoir à considérer simultanément des sous-échelles et une échelle
globale. En conclusion, on revient sur la manière d’interpréter la littéracie telle qu’elle est mesurée dans PISA
en la mettant en relation avec d’autres enquêtes visant à évaluer le même type de compétence.

Descripteurs (TEE) : littéracie, comparaisons internationales, psychométrie, MRI.

L es enquêtes internationales sur l’évaluation des


acquis des élèves et parmi elles, l’enquête PISA
témoignent des changements conceptuels profonds
internationales conduites pendant un demi-siècle par
l’IEA (International Association for the Evaluation of
Educational Achievement ; Association internationale
qui ont modifié l’objet de ces enquêtes au cours de pour l’évaluation du rendement scolaire), principa-
la dernière décennie. À la différence des enquêtes lement centrées sur les acquis définis à partir des

Revue française de pédagogie, n° 157, octobre-novembre-décembre 2006, 27-41 27


curricula, PISA (OECD, 1999) a introduit l’idée qu’il la mesure de l’intelligence. On a d’abord critiqué les
est plus pertinent d’évaluer les compétences pour tests d’aptitudes intellectuelles pour leur caractère
travailler et vivre dans une société post-industrielle, réducteur (mesure d’une intelligence plutôt académi-
compétences considérées comme devant être le que) et socialement biaisé (en particulier les débats
produit, l’output des systèmes éducatifs (Bottani & autour de la possibilité de construire des tests culture
Vrignaud, 2005). Ce choix s’inscrit tout à fait dans free ou culture fair ; sur ce point voir Vrignaud, 2002).
la logique des enquêtes américaines : NAEP (Natio- Puis, les apports de la psychologie cognitive ont
nal Assessment of Education in Progress), YALS montré que l’approche unitaire de l’intelligence, véhi-
(Young Adult Litteracy Assessment), NALS (National culée par l’emploi d’un score unique (par exemple le
Adult Litteracy Assessment) – cf. Johnson, 1992, et QI), ne reflétait pas ou, du moins, reflétait imparfai-
de la première enquête internationale sur la littéra- tement le fonctionnement psychologique des sujets
cie, IALS (International Adult Litteracy Assessment) (sur ce thème voir Huteau & Lautrey, 1999). La plu-
– cf. Murray, Kirsch & Jenkins, 1998. Cette approche ralité des processus et des stratégies mis en œuvre
en termes de compétences plutôt que d’acquis peut par les sujets pour résoudre les problèmes proposés
apparaître comme l’œuf de Colomb des enquêtes n’était pas prise en compte par le score global. Les
internationales. Elle a permis d’éviter les difficultés variabilités inter- comme intra-individuelles obéraient
que posait la construction d’un « méta-curriculum » fortement la pertinence de l’interprétation d’un score
– opération indispensable aux premières enquêtes unique.
mises en place par l’IEA à partir des années 1950 –
en faisant glisser la mesure du contenu des ensei- Ces critiques et débats font parfois oublier que la
gnements vers une compétence suffisamment large construction de tests a permis le développement des
pour considérer que tous les systèmes scolaires ont méthodes et des concepts qui fondent la mesure en
pour objectif de l’enseigner. sciences humaines, en particulier, la psychométrie.
La pierre de touche de l’évaluation en psychologie et
Dans cette optique, on argumente l’intérêt des en éducation est de distinguer entre une performance
enquêtes internationales en général et de l’enquête et une compétence. On observe une performance
PISA en particulier par le fait qu’elles fournissent d’un sujet à une épreuve et on infère des conclusions
des informations sur des compétences très généra- sur sa compétence (Mislevy, 1994). Loin des repré-
les – transversales – qui interviennent dans la plupart sentations naïves que l’idée de calcul d’un score
des situations de la vie quotidienne et plus particuliè- peut véhiculer, on cherche à estimer la compétence
rement de la vie professionnelle. Telles qu’elles sont de ces sujets. Il s’agit d’un processus faisant appel à
présentées, ces compétences peuvent être considé- de nombreux concepts psychométriques et l’estima-
rées comme des interfaces entre la formation initiale tion de la compétence obtenue est aussi éloignée du
dont elles sont le produit et le monde professionnel simple calcul d’un score par sommation des bonnes
où elles sont mises en œuvre. Ces compétences sont réponses que peuvent l’être les premiers travaux sur
porteuses de sens pour des utilisateurs divers, tant les localisations cérébrales des recherches actuelles
les chercheurs (économistes, psychologues, sociolo- bénéficiant des avancées les plus récentes des tech-
gues, sciences de l’éducation) que les décideurs des niques d’imagerie cérébrale.
politiques éducatives ainsi que les médias. Si l’avan-
tage de cette approche est de présenter une validité Les enquêtes internationales ont été, depuis leur
écologique importante de par son large spectre d’uti- origine, un laboratoire d’essai et de développement
lisation, son principal inconvénient est le danger de des méthodologies psychométriques les plus sophis-
réification auquel cette compétence peut donner lieu. tiquées (on trouvera une présentation très complète
Dans le cadre de l’évaluation psychométrique qui est en français de la méthodologie des enquêtes inter-
celui de ces enquêtes, les compétences sont avant nationales dans Rocher, 2003). Il faut dire qu’en plus
tout des construits et ne sont pas séparables de la du désir de l’ensemble des participants de fournir
manière dont ces construits ont été opérationnalisés. aux utilisateurs des résultats présentant les meilleu-
Perdre de vue cette caractéristique laisse la porte res garanties de fiabilité, ces enquêtes présentaient
ouverte à des généralisations abusives voire à des des problèmes méthodologiques redoutables comme
extrapolations que ne soutient pas réellement l’inter- celui d’assurer l’équivalence de la mesure dans de
prétation des résultats. multiples contextes linguistiques et nationaux. Les
méthodes utilisées comme on peut le constater à la
Ce danger est bien identifié et historiquement lecture du technical manual de PISA (Wu & Adams,
connu en psychologie à partir des problèmes liés à 2002) sont complexes. Il paraît donc utile de donner

28 Revue française de pédagogie, n° 157, octobre-novembre-décembre 2006


aux lecteurs intéressés un aperçu schématique de tinction de surface dans la mesure où les méthodes
quelques uns des principaux points méthodologiques et les concepts sont largement similaires et où, bien
comme la construction de l’échelle de compétence et souvent, les chercheurs qui travaillent et publient
l’algorithme d’estimation des scores à ces échelles. dans l’un de ces deux champs travaillent et publient
Cet exposé est évidemment technique mais c’est jus- également dans l’autre.
tement l’un des problèmes cruciaux de ces enquê-
tes, que la compréhension des résultats et surtout de
leurs limites est liée à des questions méthodologiques Les modèles de mesure
complexes. Pour introduire cette présentation des concepts
De fait, l’enquête PISA est un dispositif de mesure de base de la psychométrie, on peut rappeler que la
de la littéracie et l’interprétation de ses résultats doit mesure, c’est à dire l’assignation de grandeurs à des
se faire en gardant présent à l’esprit la manière dont objets en respectant certaines propriétés de ceux-ci,
cette compétence a été construite. Il est donc utile a posé en psychologie des problèmes particuliers qui
pour expliciter ce qu’est et n’est pas la compétence ont abouti au développement de solutions originales
évaluée dans PISA, de donner et de discuter les élé- au sein de cette discipline. Ces méthodes se sont
ments méthodologiques qui valident ce passage entre trouvées rassemblées dans la psychométrie qui défi-
la performance à un ensemble de tests et la compé- nit les méthodes à mettre en œuvre, depuis les dispo-
tence de populations de nombreux pays. L’objectif de sitifs de collecte des données jusqu’à la définition de
cet article est de montrer les importantes avancées normes de fiabilité ; pour une présentation des théo-
méthodologiques qui ont été intégrées dans PISA ries et méthodes psychométriques, on se reportera,
pour construire un dispositif de mesure solide et, en français, à des ouvrages comme ceux de Dickes
en même temps, de montrer que l’accent mis sur le et al., 1994 ou de Laveault & Grégoire, 2002. La
dispositif de mesure a peut-être laissé dans l’ombre démarche de validation de la mesure en psychométrie
d’autres interrogations sur la nature et la mesure de repose sur le principe selon lequel toute mesure est
la compétence. Cet exposé nécessitera quelques un construit. On parlera ici d’un modèle de mesure, et
rappels historiques qui montreront que les méthodes la démarche hypothético-déductive consiste à tester
utilisées dans PISA sont le produit d’une longue his- l’adéquation de ce modèle de mesure aux données.
toire : celle de la psychométrie et des enquêtes sur Plusieurs approches peuvent être mises en œuvre
l’évaluation des acquis des élèves en particulier aux pour tester cette adéquation (on en trouvera une pré-
États-Unis. On présentera d’abord les principaux sentation dans les ouvrages cités plus haut). Les trois
concepts psychométriques selon l’approche classi- modèles de mesure les plus généralement utilisés sont
que. Puis, on présentera le modèle de mesure utilisé l’approche classique (formalisée par Lord & Novick,
dans les enquêtes internationales en général et dans 1969), les modèles de réponse à l’item (MRI) et les
PISA en particulier. On insistera à la fois sur les avan- modèles structuraux. Les traitements des données
cées réalisées pour la mise au point de ce dispositif des enquêtes internationales comme PISA utilisent
et sur les difficultés qui peuvent se rencontrer dans majoritairement les MRI. Cependant, il est commode
sa mise en œuvre et sa bonne compréhension par les d’introduire les principaux concepts psychométriques
utilisateurs. En conclusion, on reviendra sur les rela- à partir de l’approche classique.
tions entre le dispositif de mesure et la nature de la
compétence. La théorie classique des tests

On peut résumer le principe essentiel de la psycho-


métrie par la formule de l’équation n° 1 :
L’APPROCHE CLASSIQUE DE LA MESURE
PSYCHOMÉTRIQUE Score observé = Score vrai + Erreur de mesure.
On cherche à distinguer performance (les résul-
La majeure partie des méthodes utilisées pour les tats observés) et compétence (l’aptitude, le trait qui
enquêtes internationales sur les acquis des élèves a produit cette performance et que l’on cherche à
ont été élaborées au sein de la psychologie ou plutôt évaluer). L’étude de la fidélité interne est de s’assurer
de la psychométrie. On parle aujourd’hui de « l’édu- que le passage des items à la variable évaluée est
métrie » pour définir un champ équivalent à celui de fiable. Elle garantit que le score calculé à partir des
la psychométrie dans le domaine de l’évaluation en items, généralement obtenu en faisant la somme des
éducation. Cette distinction reste cependant une dis- points accordés pour des réponses correctes a une

La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 29
signification univoque. Ce qui ne serait pas le cas, d’interpréter comme absence de maîtrise du domaine
par exemple, dans le cas où les items mesureraient ce qui dépend en fait de la vitesse de travail et du
des compétences différentes. C’est pourquoi on parle temps de passation. Les omissions structurelles pro-
ici d’homogénéité ou de consistance interne. L’ana- viennent, elles, de l’organisation du plan de collecte
lyse interne se fait à deux niveaux : local, celui des des données. L’utilisation de la méthode dite des
items et global, celui du score. Au niveau des items, « cahiers tournants » dans PISA produit des données
on s’intéresse principalement à deux de leurs carac- structurelles manquantes. Pour concilier deux exi-
téristiques : leur difficulté et leur discrimination. gences : recueillir de l’information sur de nombreux
exercices sans trop augmenter le temps de passa-
Indice de difficulté de l’item
tion, on va répartir les exercices (items) en plusieurs
Dans le cas d’un score dichotomique (bonne ou blocs de longueur (temps de passation) à peu près
mauvaise réponse), la difficulté de l’item est souvent égale. Chaque sujet ne passera qu’un nombre de
estimée par la proportion d’élèves de l’échantillon qui blocs correspondant au temps de passation choisi.
donnent une réponse correcte à cet item. Le score Pour permettre de traiter les données, il faut que tou-
moyen est une variante pour des items polytomiques tes les paires de blocs soit présentes dans le dispo-
(réponses multiples ordonnées). L’utilisation de cette sitif expérimental. Il s’agit alors de réduire le nombre
proportion observée comme estimation de la diffi- de combinaisons des paires de blocs pour maîtriser
culté peut être biaisée lorsque la représentativité de l’explosion combinatoire que pourrait engendrer la
l’échantillon n’a pu être démontrée. À l’extrême dans nécessité de construire toutes les combinaisons de
le cas d’échantillons de compétence très faible ou paires de blocs. En général, on a choisi de construire
très élevée, l’estimation de la difficulté des items peut des cahiers comprenant trois blocs pour s’appuyer
conduire à des estimations très différentes. Cette sur une méthode de construction des plans expéri-
dépendance entre l’estimation de la difficulté des mentaux bien connue : celle des triades. Pour neutra-
items et l’estimation de la compétence des sujets a liser les effets liés à l’apprentissage et à la fatigabilité,
été la source de nombreuses réflexions visant à obte- on va contrôler l’ordre de passation des blocs en les
nir des estimations indépendantes. Les MRI ont été contrebalançant. Chaque bloc apparaîtra au moins
souvent présentés comme fournissant une solution à une fois dans les différentes positions de l’ordre de
ce problème. passation d’où le nom de « cahiers tournants » sous
lequel ce dispositif expérimental est souvent désigné
La gestion des non réponses ou plutôt des répon- en français. Les protocoles contiennent donc des
ses manquantes est un autre problème pour l’esti- données manquantes structurelles et peuvent conte-
mation de la difficulté des items et de la compétence nir des omissions finales et intermédiaires.
des sujets. On peut identifier au moins trois types
différents de réponses manquantes : 1) les omis- La recherche de solutions satisfaisantes pour la
sions intermédiaires ; 2) les omissions finales ; 3) les gestion de ces trois types réponses manquantes a
réponses manquantes structurelles. Les omissions été un des moteurs qui ont fait évoluer les méthodes
intermédiaires ou finales correspondent à des items employées pour traiter les données. Les réflexions
présents dans le protocole du sujet mais auxquels il ayant abouti à ces évolutions seront présentées dans
n’a pas répondu. En général, on interprète les omis- le cadre des MRI.
sions intermédiaires, comme une déclaration d’igno-
Indice de discrimination de l’item
rance et/ou une absence de prise de risque ; les
omissions terminales comme un manque de temps. La discrimination de l’item renseigne sur la qualité
La distinction entre ces deux types de non réponse et la quantité d’information apportées par l’item pour
est importante car elle renvoie à la distinction entre déterminer la compétence du sujet. Un item au pou-
test de puissance ou de vitesse (la rapidité du sujet à voir discriminant élevé apporte beaucoup d’informa-
accomplir la tache fait partie de la compétence éva- tion sur la compétence du sujet, un item peu discrimi-
luée). Le codage des réponses manquantes comme nant renseigne peu sur la compétence du sujet. Leur
échecs ou comme items non examinés est donc fon- pouvoir discriminant est un des principaux critères
damentale pour l’estimation de la difficulté des items. de sélection des items pour la construction définitive
Le codage des omissions terminales comme des d’une épreuve. L’indice utilisé pour estimer le pou-
items non examinés ou comme des échecs aboutit à voir discriminant de l’item se fonde sur la corrélation
une estimation différente de la difficulté. Si la propor- entre l’item et le critère évalué (en général le score
tion de réussite est estimée à partir des seuls élèves au test). On fait l’hypothèse qu’un item est discrimi-
de l’échantillon qui ont répondu à l’item, cela évite nant si les sujets qui le réussissent ont, en moyenne,

30 Revue française de pédagogie, n° 157, octobre-novembre-décembre 2006


un score plus élevé que les sujets qui y échouent. lisé au mieux. On utilise en anglais l’expression de
La prise en compte de l’indice de discrimination est testlet pour de tels exercices comprenant plusieurs
importante pour s’assurer de la fiabilité des items de items. En général, on ne tient pas compte des biais
l’épreuve (suppression des items peu discriminants induits par cette dépendance dans le traitement des
donc peu informatifs). Il faut souligner que le modèle résultats des enquêtes internationales sur la littéracie
de mesure retenu pour le traitement des données (Dickes & Vrignaud, 1995). Ces biais ont pourtant des
de PISA requiert que tous les items présentent une effets non négligeables comme l’ont montré les quel-
discrimination égale. ques recherches réalisées sur les testlets (par exem-
ple Wainer & Thissen, 1996). Les indicateurs psycho-
La consistance au niveau global métriques classiques tels que l’α de Cronbach sont
De la même manière qu’on s’est intéressé à la vali- biaisés dans le sens d’une surestimation.
dité des items, on va étudier la fiabilité de l’épreuve La référence
au niveau global. On parle d’homogénéité ou de
consistance interne. Dans la théorie classique des On sait qu’un score brut à une épreuve n’est pas
tests, celle-ci est estimée par le coefficient α de interprétable puisqu’il dépend de la difficulté des
Cronbach (Cronbach & Meehl, 1955). Cet indicateur items profondément intriquée dans la compétence
répond à la question « l’ensemble des items est-il suf- de l’échantillon. En psychologie, on a privilégié l’uti-
fisamment homogène pour que le calcul d’un score lisation d’une population de référence pour situer les
soit valide ? » La valeur de l’α dépend à la fois de performances des sujets. La compétence du sujet va
l’homogénéité des items (appréciée à partir de leurs être estimée faible, moyenne ou forte selon que sa
intercorrélations) et de leur nombre. À homogénéité performance se situe, respectivement, en dessous
donnée, on peut augmenter la consistance interne du de, égale ou supérieure à la moyenne de la distribu-
test en augmentant sa longueur (Cortina, 1993). Ce tion de la population de référence. Plusieurs solutions
point est important dans la mesure où les épreuves peuvent être adoptées pour situer un score dans une
pour les évaluations internationales sont en général distribution de référence : le calcul d’une note stan-
plutôt longues. dardisée en utilisant les paramètres (moyenne et
écart type) de la distribution de référence – ce calcul
Le modèle de mesure classique repose, comme les s’accompagne souvent d’un changement d’échelle,
autres modèles, sur plusieurs conditions de validité. l’exemple le plus connu étant celui du QI ; le recours
Les plus connues sont l’unidimensionnalité et l’in- à un étalonnage ; et enfin la référence à un critère de
dépendance conditionnelle des items et des sujets. maîtrise. En éducation, on a plutôt privilégié le recours
Ces conditions seront davantage développées dans à un critère traduisant la maîtrise du domaine évalué
la présentation des MRI. On peut cependant signaler par l’épreuve. L’approche la plus simple consiste à
ici un problème posé par le format des épreuves de calculer le pourcentage des items réussis par le sujet
littéracie par rapport à la condition d’indépendance et à considérer qu’au-delà d’un seuil donné (en géné-
conditionnelle. L’indépendance conditionnelle se tra- ral 75 ou 80 %) le sujet maîtrise le programme évalué
duit par l’hypothèse selon laquelle la réponse d’un par l’épreuve.
sujet à un item ne dépend pas de ses réponses aux
autres items de l’épreuve. La réussite d’un sujet à un Cette façon de procéder peut inciter à des inter-
item ne dépend que de sa compétence sur le trait prétations erronées. En effet, le fait que les sco-
latent mesuré par l’item et de rien d’autre (en parti- res à différents tests se trouvent ainsi standardisés
culier pas de ses réponses aux items qu’il a examinés laisse penser qu’ils sont comparables. Or, comme
avant celui-ci). Il est souvent difficile de tester l’hypo- on l’a rappelé plus haut, la difficulté d’un item donc
thèse d’indépendance conditionnelle. d’un test ne peut être appréciée qu’en relation avec
la compétence de l’échantillon sur les résultats des-
On peut, par contre, identifier de nombreuses situa- quels cette difficulté a été estimée. Pour placer les
tions de testing où, par construction, la condition résultats obtenus à différentes versions – ici linguisti-
d’indépendance conditionnelle n’est pas respectée ques et/ou nationales – d’un même test il faut procé-
(Vrignaud, 2003). Ainsi, dans l’évaluation de la litté- der à une opération dite « de parallélisation » afin de
racie, on demande souvent de répondre à plusieurs placer les résultats sur une même échelle (pour une
questions posées sur le même texte. Cette manière présentation de ces procédures, voir Kolen & Bren-
de procéder se justifie par le fait que l’investissement nan, 1995). Dans le cadre des enquêtes internationa-
du sujet, tant cognitif que temporel, pour s’approprier les, la procédure de parallélisation est gérée par le
des objets complexes, ici un texte, doit être rentabi- modèle de mesure employé (les MRI).

La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 31
LES MODÈLES DE RÉPONSE À L’ITEM (MRI) rer performance et compétence. L’explication de la
compétence et de la difficulté de l’item par une même
variable latente justifie explicitement la comparaison
Présentation entre items et entre sujets. Les paramètres de diffi-
culté vont permettre de comparer les items entre eux.
Ces modèles regroupés sous l’appellation géné-
Les paramètres de compétences autorisent la compa-
rique de modèles de réponse à l’item (MRI) – Item
raison des sujets et des groupes de sujets. Toutes les
Response Modeling (IRM) en anglais (1) – ont été
opérations de construction de tests et d’interprétation
créés il y a une trentaine d’années (voir, pour une pré-
des résultats demandant d’assurer l’équivalence des
sentation, Hambleton & Swaminathan, 1985 ou, en
items et des tests ou la comparaison de différentes
français, Dickes et al., 1994 ; Vrignaud, 1996). Il faut
populations vont se trouver ainsi facilitées.
signaler qu’ils ont été « inventés » à peu près simulta-
nément et de manière indépendante au Danemark par
le mathématicien Georg Rasch (1960) qui cherchait Combien de paramètres utiliser pour modéliser
un modèle permettant de comparer des compéten- la compétence ?
ces d’élèves en lecture à plusieurs années d’intervalle
et, aux États-Unis, par le statisticien Allan Birnbaum La question du nombre de paramètres du modèle
(1959, cité dans Birnbaum, 1968) qui cherchait à a été souvent discutée. Les options retenues ayant
améliorer les modèles de mesure en psychométrie. des conséquences sur les conditions de validité des
Ces modèles ont profondément renouvelé l’approche statistiques et la présentation des résultats, ces choix
psychométrique car d’une part ils offrent un cadre ont un retentissement sur le traitement des enquêtes
unitaire pour penser l’ensemble des concepts psycho- internationales. Ainsi, pour les traitements de l’en-
métriques (exposés plus haut à propos du modèle quête PISA, ACER (Australian Council for Educational
classique) et d’autre part, ils offrent un nouveau cadre Research) (3) utilise un modèle dérivé du modèle de
d’interprétation des résultats aux tests en situant la Rasch implanté dans son logiciel CONQUEST, modèle
performance des sujets par rapport à des tâches et qui ne comprend, pour expliquer le fonctionnement
non plus par rapport à la performance d’autres sujets. de l’item, que le paramètre de difficulté alors qu’ETS
Ces modèles dont le principe est présenté dans (Educational Testing Service) s’appuie sur un modèle
l’équation n° 2 sont probabilistes. On postule que la à deux paramètres (difficulté et discrimination) en uti-
probabilité qu’un sujet j donne une réponse correcte lisant des algorithmes d’estimation implantés dans le
à un item (i) est fonction de la compétence (θj) du logiciel BILOG (Zimowski et al., 1996) : voir pour un
sujet et de la difficulté de l’item (di) : exemple les traitements de l’enquête IALS : Yama-
Pr(X=x) = f(di, θj) moto, 1998. Cette différence de choix s’explique par
au moins quatre raisons. En premier lieu des raisons
Dans le cas d’items dichotomiques, X prend les historiques puisque les travaux sur les MRI s’étaient
valeurs échec « 0 » ou réussite « 1 », on obtient donc inscrits à ETS dans la suite des travaux de Birnbaum
la probabilité d’un échec ou d’un succès. (1968) repris et enrichis par Lord (1980) qui avaient
Les modèles MRI sont basés sur la recherche d’un introduit d’emblée un modèle à deux paramètres
modèle mathématique du fonctionnement de l’item alors que les travaux d’ACER s’inscrivaient dans le
permettant de représenter la relation entre difficulté cadre de l’approche de Rasch comme le montrent les
de l’item et compétence du sujet. On utilise en géné- logiciels construits par cette organisation (Titan puis
ral la fonction logistique. Le modèle le plus général Quest : Adams & Khoo, 1994). Ensuite des raisons
comprend trois paramètres pour modéliser le fonc- liées au format des items, PISA comprend des items
tionnement de l’item : « bi » la difficulté de l’item « ai » polytomiques (les réponses peuvent faire l’objet d’un
la pente (discrimination de l’item), « ci » le paramètre codage ordonné selon des niveaux de réussite). Ce
de réponse « au hasard » (2). format d’item est facile à traiter par le modèle de
Rasch (on sépare le paramètre de difficulté en une
On peut les rapprocher des paramètres classiques : partie représentant la difficulté générale de l’item et
« bi », la difficulté de l’item de la fréquence de réus- une autre partie représentant le passage d’un niveau
site ; « ai », la pente (discrimination de l’item) de la de difficulté à un autre) alors que l’estimation des
corrélation item/score ; « ci » de l’étude des distrac- paramètres de difficulté de tels items n’est pas aussi
teurs. Le paramètre de compétence « θj » est une aisément accessible par le modèle à deux paramè-
estimation de la mesure vraie de la compétence du tres. Une troisième raison peut trouver son origine
sujet, c’est-à-dire que les MRI permettent de sépa- dans la détermination des niveaux de compétence

32 Revue française de pédagogie, n° 157, octobre-novembre-décembre 2006


dont le rationnel sera présenté plus loin. La procé- une même estimation de sa compétence. Quels que
dure de classement des items en niveau de difficulté soient les groupes de sujets auxquels l’item a été
est plus cohérente si la discrimination des items est administré, on obtiendra une même estimation de sa
identique. L’existence de différences de discrimina- difficulté. Cette idée a été souvent considérée comme
tion entre items peut rendre ce classement moins uni- peu « réaliste » et semble d’ailleurs ne pas avoir donné
voque. Enfin, une des phases essentielles de l’étude lieu à de nombreuses études comme on le constate
de l’équivalence en fonction des différentes versions dans un ouvrage de synthèse sur les développements
linguistiques et/ou nationales est l’identification des du modèle de Rasch (Fischer & Molenaar, 1995).
fonctionnements différentiels des items en abrégé
FDI (pour une présentation en français : Vrignaud, Les MRI définissent la compétence du sujet comme
2002 ou, dans le cadre des enquêtes internationales, sa probabilité de résoudre des items d’une difficulté
Rocher, 2003). Le FDI est une différence de réussite donnée. La compétence se définit donc par rapport
à un item entre deux groupes de sujets comparables à des tâches et non par rapport à d’autres sujets. Le
quant au construit mesuré par le test. Le FDI (4) peut paramètre de compétence du sujet définit sa zone de
porter sur chacune des caractéristiques de l’item : compétence qui peut être mise en relation avec les
sa difficulté et sa discrimination. Le recours à un paramètres de difficulté des items. La définition de la
modèle à un seul paramètre simplifie l’approche de zone de compétence nécessite de décider du seuil de
cette question. En revanche, l’utilisation du modèle probabilité de réussite retenu pour considérer que le
de Rasch nécessite une condition de validité sup- sujet maîtrise l’item. Peut-on considérer qu’un seuil
plémentaire : l’hypothèse d’égale discrimination des supérieur à 50 % est signe que l’item peut être résolu
items. Cette condition est en général vérifiée a pos- par le sujet ou vaut-il mieux considérer que seul un
teriori dans la mesure où les tests d’adéquation au seuil proche de 100 % peut refléter la réelle maîtrise
modèle de Rasch permettent de retenir l’hypothèse par le sujet ? Par exemple dans les évaluations édu-
que ce modèle rend bien compte des données sans catives aux États-Unis, le seuil de 80 % est généra-
qu’il soit besoin d’introduire un paramètre supplé- lement retenu (Kirsch, 1995). Ce seuil a l’avantage
mentaire afin de prendre compte la discrimination. de garantir une probabilité quasi certaine de réus-
site, mais sa sévérité peut être trompeuse quant aux
Dans le cadre des MRI, l’estimation des valeurs des réussites réelles des sujets. En effet, les probabilités
paramètres de difficulté se fait sous cette hypothèse sont fortes que les sujets réussissent d’autres items
d’indépendance conditionnelle. Si on ne peut pas de difficulté plus grande que celle comprise dans
retenir l’hypothèse d’indépendance conditionnelle, leur zone de compétence. Un second problème est
alors il faudrait introduire un paramètre spécifique celui de la définition de la compétence en fonction du
représentant la dépendance conditionnelle entre ces contenu des items. Dire qu’un sujet est capable de
deux items comme la probabilité particulière de réus- résoudre des items d’une difficulté donnée renvoie à
site à ces deux items, leur interaction comme le sug- la définition opérationnelle de ces items. Cette défini-
gérait le statisticien anglais H. Goldstein (1980). Par tion peut paraître simple quand le contenu des items
exemple E. T. Bradlow, H. Wainer et H. L. Lang (1998) s’y prête : par exemple la complexité d’opérations
proposent un MRI incluant des paramètres représen- arithmétiques, le nombre d’inférences à effectuer
tant la dépendance locale et proposent un algorithme pour conduire un raisonnement. Néanmoins, ce type
permettant l’estimation de ces paramètres. d’analyse apparaît souvent simplificatrice au regard
des modèles de résolution proposés par la psycholo-
gie cognitive (Rémond, 2006).

La construction de l’échelle de compétence dans


ÉVALUER LA COMPÉTENCE DANS LE CADRE
les enquêtes utilisant les MRI est essentiellement
DES MRI
basée sur les regroupements d’items à partir de
leurs indices de difficulté. Ainsi, dans la plupart des
Les modèles MRI ont été présentés par leurs avo- enquêtes internationales on définit plusieurs niveaux
cats comme renouvelant la théorie de la mesure. (en général cinq) de compétences. L’interprétation
G. Rasch argumentait que l’estimation de la difficulté de chacun de ces niveaux est ensuite enrichie par
des items et de la compétence des sujets étaient l’analyse cognitive des items classés dans ce niveau.
indépendantes, ce qui fondait, selon lui, le concept Ce système de définition d’une compétence est
d’objectivité spécifique (Rasch, 1977). Quels que essentiellement psychométrique même s’il reçoit un
soient les items passés par un sujet, on obtiendra habillage de psychologie cognitive. Un tel système a

La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 33
été particulièrement développé par Kirsch et collabo- métrique classique. Il faut également souligner la pru-
rateurs dans les enquêtes NAEP puis IALS et PISA dence avec laquelle ces opérations ont été effectuées
(voir par exemple Kirsch, Jungeblut & Mosenthal, et la clarté avec laquelle elles sont exposées dans le
1998). Cette approche présente deux inconvénients technical manual (Turner, 2002). Mais, on ne peut pas-
majeurs. ser sous silence le risque d’aboutir à une réification
de la notion de niveaux de compétence qui, dans les
Le premier est d’être partiellement tautologique : représentations d’utilisateurs n’ayant pas eu accès à
cet item est facile puisqu’il est réussi par un grand l’ensemble des sources techniques, peuvent paraître
nombre de sujets et qu’il correspond donc à des opé- plus objectifs qu’ils ne le sont en réalité.
rations de niveau faible. Un second inconvénient est
la difficulté de déterminer le niveau auquel appartient
un item. En effet, on prend en compte le paramètre L’estimation des paramètres
de difficulté, non pas en lui-même, mais en recher-
chant quel niveau de compétence est nécessaire pour La mise en œuvre de l’estimation des paramè-
maîtriser un item de ce niveau de difficulté. Un item tres des MRI n’est pas une opération anodine – on
sera donc classé dans la catégorie correspondant au trouvera une excellente présentation exhaustive de
niveau de compétence permettant d’avoir une pro- cette question dans l’ouvrage de F. B. Baker (1992).
babilité (en général 75 ou 80%) de le réussir. Mais, L’appréciation de l’adéquation des modèles MRI se
les sujets qui ont un niveau de compétence inférieur pose aux différentes étapes de l’estimation des para-
ont encore une probabilité élevée de le réussir si leurs mètres de difficulté des items et de compétence des
compétences sont proches de la coupure séparant sujets. En amont, les modèles MRI reposent sur des
les classes de niveau. La qualité de cette séparation conditions de validité nombreuses : unidimensionna-
peut être appréciée à partir du pouvoir discriminant lité, indépendance conditionnelle des items, et, pour
des items. L’information donnée par ces niveaux le modèle de Rasch, égal pouvoir discriminant des
apparaît donc relativement floue et imprécise dans items. Ces conditions sont parfois difficiles à tenir et
la mesure où les coupures sont par nature arbitrai- à vérifier. Ainsi R. K. Hambleton, H. Swaminathan &
res : le fait d’être classé dans un niveau de compé- H. J. Rogers (1991) recensent une vingtaine de pro-
tence ne veut en aucun cas dire que le sujet n’est pas cédures à mettre en œuvre pour s’assurer de la pos-
capable de fonctionner à des niveaux de compétence sibilité d’application du modèle aux données. On peut
plus élevés. L’interprétation des niveaux n’est pas citer également l’ensemble de travaux menés par
toujours facile car certains niveaux possèdent parfois l’équipe de Stout (Bolt & Stout, 1996 ; Shealy & Stout,
peu d’items (en général les niveaux supérieurs). Et, 1993 ; Nandakumar, 1994) à l’Université de Chicago
surtout, l’interprétation en termes de fonctionnement qui a permis de trouver des cadres conceptuels plus
cognitif n’est pas fondée sur l’analyse des tâches et performants pour tester certaines hypothèses (unidi-
des processus mais apparaît plutôt comme un produit mensionalité, indépendance conditionnelle, fonction-
dérivé du modèle de mesure psychométrique. nement différentiel des items). On peut regretter que
les travaux de cette équipe soient totalement absents
Dans PISA, les différents niveaux de compétence des traitements des enquêtes internationales.
ont été définis de telle manière que les sujets dont le
paramètre de compétence a une valeur proche de la L’algorithme d’estimation utilisé dans PISA est issu
borne inférieure ont une probabilité de 50 % de réus- des travaux du statisticien américain D. Rubin sur
sir les items de ce niveau, et ceux dont le paramè- l’algorithme dit « EM » (Expectation-Maximization ;
tre de compétence a une valeur proche de la borne Dempster, Laird & Rubin, 1977 ; Rubin, 1987 &
supérieure, une probabilité de 80 % de réussir ces 1991) (5). Rubin a clarifié le concept de valeur man-
mêmes items. Par construction, il est donc certain quante en identifiant trois types de situations. La
qu’un sujet ne réussit pas uniquement tous les items distribution des valeurs manquantes peut être repré-
correspondant à son niveau et a – au moins pour les sentée par une distribution complètement aléatoire
sujets proches de la borne supérieure – une probabi- (MCAR, Missing Completely At Random). Par exem-
lité non négligeable de réussir ceux du niveau supé- ple dans le cas des enquêtes internationales, l’utilisa-
rieur. Encore une fois, il ne s’agit pas de pointer les tion de la méthode dite « des cahiers tournants », les
insuffisances de la méthode sans en voir les avanta- réponses manquantes sont dites MCAR puisque les
ges, en premier lieu, ceux de définir la compétence blocs qui n’ont pas été présentés à l’élève résultent
en relation avec des tâches et non plus en relation d’une affection au hasard d’un cahier à chaque élève.
avec d’autres sujets comme dans l’approche psycho- Le second type de situation est celui où on peut faire

34 Revue française de pédagogie, n° 157, octobre-novembre-décembre 2006


l’hypothèse que la distribution des données man- tence de ce sujet. On trouvera le détail de cette pro-
quantes peut être représentée par une distribution cédure dans le technical manual (Adams, 2002).
aléatoire (Missing At Random, MAR) mais peuvent
dépendre des réponses des sujets à d’autres varia- On peut faire plusieurs commentaires par rapport à
bles utilisées dans l’enquête. Enfin, le dernier cas dit cette approche. En premier lieu, il est certain qu’elle
Missing Not At Random ou not ignorable est celui où prend au sérieux et qu’elle pousse, de manière parti-
les données manquantes résultent d’un processus culièrement élégante, à l’extrême les concepts théo-
dépendant de la variable elle-même par exemple la riques de la psychométrie. Sur le plan théorique, il
non réponse à une question sur le niveau de revenus est également certain que ces procédures permettent
est plus fréquente dans les classes de revenu élevé. d’assurer une estimation plus rapide (convergence
accélérée) et plus robuste des paramètres de compé-
Cette réflexion sur les données manquantes a tence des sujets. On a pu également montrer qu’elle
conduit Rubin à opérer un renversement de pers- permet une estimation plus fidèle des moyennes des
pective concernant l’estimation de la compétence pays dans le cas des enquêtes internationales. Les
des sujets. Rubin considère que la valeur manquante points forts de cet algorithme sont la source de ses
fondamentale est la position du sujet sur la varia- points faibles : la distribution des paramètres dépen-
ble latente. En effet, la compétence n’est connue dant de plus nombreuses informations, cela introduit
que conditionnellement aux réponses du sujet à un de nouvelles sources de biais dans l’estimation (par
nombre réduit de questions : celles qui sont incluses exemple les caractéristiques des sujets). Il va falloir
dans le test qu’il a passé y compris dans le cas où s’assurer de la fidélité de toutes les informations por-
il a répondu à toutes les questions du test. Dans le tant sur les caractéristiques des sujets et de leur équi-
cadre des MRI, cette formulation a conduit à repen- valence dans les différents contextes nationaux. Elle
ser l’algorithme d’estimation des paramètres en utili- multiplie également les conditions de validité. Enfin,
sant l’algorithme EM (Bock & Aitkin, 1981), procédure last but not least, cette procédure d’estimation abou-
implantée dans les logiciels BILOG dédiés à l’estima- tit à un ensemble (cinq dans PISA) de valeurs plausi-
tion des paramètres des MRI (Mislevy & Bock, 1990 ; bles pour chaque sujet. D’après les publications sur
Zimowski et al., 1996). R. J. Mislevy et ses collabora- cette approche, la théorie réalise un apport majeur à
teurs (Mislevy, 1987 ; Sheehan & Mislevy, 1990 ; Mis- la réflexion psychométrique et les procédures sem-
levy et al., 1992) ont perfectionné cette approche en blent donner des résultats robustes pour l’estimation
introduisant dans l’algorithme d’estimation les don- des paramètres des MRI. Il est, d’ailleurs, à noter
nées descriptives du contexte du sujet (background que cette procédure élaborée par les chercheurs
variables) afin de rendre l’estimation du paramètre de d’ETS pour les enquêtes américaines de type NALS
compétence des sujets plus robuste. et YALS (en ajoutant des procédures spécifiques au
logiciel BILOG MG) puis pour les enquêtes interna-
Il s’agit d’estimer la compétence des sujets condi- tionales (voir par exemple IALS : Yamamoto, 1998) a
tionnellement aux réponses qu’ils ont données aux été ensuite implantée dans le logiciel Conquest édité
items auxquels ils ont répondu (donc sans inclure par ACER (Wu, Adams & Wilson, 1997) lorsque ce
les items manquant par construction des cahiers groupe a été chargé du traitement des données PISA.
tournants et les omissions terminales) et condition- Le recours à la distribution de valeurs plausibles est
nellement aux variables décrivant le contexte socio- maintenant généralisé dans les enquêtes internatio-
économique des sujets. Il faut préciser que le score nales (voir par exemple PIRLS : Gonzalez, 2001).
de compétence du sujet est conceptuellement une
valeur non observée et que son estimation renvoie Le fait d’estimer la compétence d’un sujet par cinq
non pas à un seul paramètre mais à une distribu- valeurs plausibles et non par un score unique a des
tion. Conditionnellement aux réponses et aux carac- implications importantes sur la manière de conduire
téristiques de ce sujet, on infère, avec une plus ou les analyses. La dispersion de ces valeurs plausibles
moins bonne garantie, la distribution du paramètre est aussi importante que leur moyenne. Toutes les
de compétence d’un sujet ayant ces caractéristiques analyses statistiques devraient donc être élaborées à
et ce patron de réponses aux items. On ne connaît partir des différentes valeurs plausibles et non d’une
pas la valeur vraie du paramètre de compétence mais seule ou d’une agrégation de celles-ci. Par exemple,
sa distribution. Pour renforcer la robustesse de cette si on souhaite calculer la corrélation entre une varia-
estimation, on va procéder à plusieurs tirages dans ble de contexte (la PCS de l’élève) et la compétence,
cette distribution de valeurs dites plausibles dont la il faudra calculer cette corrélation pour chacune des
moyenne sera une meilleure estimation de la compé- cinq valeurs plausibles fournies pour chaque sujet

La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 35
puis réaliser une agrégation des cinq valeurs obte- les distinguer : elles mesurent la même chose. Dans
nues pour la corrélation. La dispersion des valeurs le cas n° 1, les dimensions sont orthogonales (les
de l’indicateur devra être utilisée pour les tests de corrélations sont nulles), il faut présenter et interpré-
signification. On trouvera des descriptions des pro- ter les résultats de chacune des échelles séparément.
cédures permettant de réaliser cette agrégation dans Dans le cas n° 2, les corrélations sont proches de 1,
les publications traitant des méthodes d’imputations il n’y a pas lieu d’interpréter séparément les dimen-
multiples (voir par exemple Schafer & Graham, 2002 sions, les compétences mesurées sont complète-
pour une revue récente). Il n’est pas certain que les ment redondantes et si l’on devait les distinguer ce
chercheurs réalisant des analyses secondaires à par- serait par un artefact sémantique qui consisterait à
tir des données de PISA aient complètement intégré les nommer différemment. La plupart du temps, les
l’importance d’utiliser ces procédures pour obtenir données se situent entre ces deux pôles. La question
des estimations sans biais des indicateurs dans le est alors de décider à partir de quel seuil la liaison
cadre de leurs analyses. Ces éléments sont présentés entre les dimensions peut être estimée comme suffi-
très explicitement et très clairement dans le technical samment faible pour considérer que les dimensions
manual (Adams, 2002). mesurées correspondent à des compétences diffé-
rentes ? Cette question a été au coeur de la plupart
des débats autour des modèles psychologiques des
L’unidimensionnalité de la littéracie : aptitudes.
artefact ou réalité ?
La dimensionnalité des compétences en littéracie
Les MRI ont été l’objet de nombreuses critiques. La s’inscrit dans un tel débat. On cherche à savoir si les
plus fondamentale porte sur leur réalisme pour repré- résultats peuvent être présentés sur une ou plusieurs
senter le fonctionnement des sujets répondant à des échelles. Cependant, la pertinence d’une discussion
items. Ainsi, M. Reuchlin (1996) conteste le caractère apparaît, dans le cas des enquêtes internationales
continu du modèle qui présuppose qu’un sujet peut sur la littéracie, comme faussée car pour des raisons
toujours réussir un item. La réponse à un item a un de fiabilité de la mesure, on s’attache au fait que les
caractère discret. La réussite à un item difficile n’est épreuves soient fortement unidimensionnelles. On a
pas peu probable pour un sujet peu compétent, elle montré supra que cette condition est requise par le
est tout simplement impossible. Une contestation modèle de mesure employé : le MRI. L’unidimension-
moins radicale porte sur certaines de leurs propriétés nalité est à la fois la structure recherchée et la condi-
au premier rang desquelles l’unidimensionnalité. tion de validité (l’hypothèse au sens de l’assumption)
L’unidimensionnalité de la variable latente laisse des MRI. En effet, les modèles de base des MRI
présupposer que les différences interindividuelles ne nécessitent la condition d’unidimensionnalité : on
sont que des différences de puissance, que les diffé- doit rendre compte des relations entre items (estimés
rences de difficulté entre items ne sont que des dif- par leurs paramètres) et entre les sujets ainsi qu’entre
férences quantitatives. On accrédite ainsi l’idée que items et sujets par une seule variable latente.
quel que soit le niveau de compétence des sujets,
La solution retenue pour l’interprétation de PISA est
ceux-ci mettent en œuvre des processus et des stra-
de considérer cinq échelles : trois de littéracie, une
tégies similaires pour répondre aux items. Cette criti-
de mathématiques et une de science. On s’intéres-
que a déjà été souvent portée à l’encontre des scores
sera uniquement aux échelles de littéracie. Ces trois
dont le caractère globalisant n’informe pas sur les
échelles se distinguent selon les auteurs du disposi-
processus sous-jacents (Huteau & Lautrey, 1999). Le
tif par les opérations auxquelles elles font appel (sur
nombre de variables à introduire dans un modèle pour
ce point voir Rémond, 2006) : 1) retrouver de l’infor-
rendre compte d’un ensemble de comportements est
mation ; 2) développer une interprétation ; 3) réflé-
une question classique en psychologie.
chir sur le contenu du texte. La distinction entre ces
La question centrale est la prise en compte de trois échelles et le rattachement des items à chacune
différentes dimensions et par conséquent de plu- d’elle a été fait à partir de jugements d’experts et
sieurs compétences expliquant la performance des des résultats de l’analyse des données. Les valeurs
sujets aux items. Si l’on considère par exemple trois des corrélations entre échelles publiées pour les trois
échelles, les relations entre leurs scores peuvent se échelles de littéracie dans PISA 2000 sont très éle-
situer entre deux situations extrêmes : 1) il n’existe vées (> .89 ; cf. Adams & Caspersen, 2002) et dans
aucune relation entre elles ; 2) la relation entre les bien des cas seraient considérées comme suffisantes
dimensions est tellement élevée qu’il n’y a pas lieu de pour rassembler les trois échelles en une seule. Ce

36 Revue française de pédagogie, n° 157, octobre-novembre-décembre 2006


qui est d’ailleurs le cas puisque certains résultats sont la définition de la compétence doivent être prises en
estimés sur une échelle globale qui est, elle-même, considération.
considérée par hypothèse comme unidimensionnelle
puisqu’elle présente une bonne adéquation à un Il est certain que cette compétence est bien une
modèle de Rasch. On peut donc légitimement s’in- compétence largement transversale dont la plus ou
terroger sur le bien fondé de distinguer trois échelles moins grande maîtrise peut être considérée comme le
puisqu’un modèle comprenant une seule échelle rend produit des systèmes éducatifs. Mais une telle varia-
parfaitement compte des données (selon les déci- ble relativement décontextualisée puisqu’elle ne doit
sions prises par les statisticiens quant à l’adéquation pas être sensible aux différents contextes linguisti-
du modèle de mesure aux données). ques et culturels, n’est-elle pas une sorte de facteur
général de réussite protéiforme susceptible de rece-
voir de multiples dénominations et interprétations ?
Le résultat d’une étude conduite sur la comparaison
CONCLUSION entre une enquête précédente sur la littéracie auprès
d’adultes IALS et PISA conduit également à s’interro-
ger sur la nature des échelles de PISA. L’enquête IALS
Ce tour d’horizon du modèle de mesure et de comprenait trois échelles définies d’après le contenu
l’estimation des paramètres dans les enquêtes inter- du support (prose, document et littéracie quantita-
nationales en général et dans PISA en particulier fait tive). Plusieurs items (15) de l’échelle « Prose » de
ressortir plusieurs points. D’abord la sophistication IALS ont été intégrés dans PISA. Il était donc pos-
des méthodes utilisées, le soin apporté à résoudre sible de comparer les deux types d’approches de la
des problèmes délicats posés par l’évaluation psy- littéracie celle de IALS et celle de PISA. Cette étude
chométrique. Bien que tous ces éléments soient pré- comparative a été conduite par Yamamoto (2002).
sentés dans le technical manual (Adams & Wu, 2002), Malgré les nombreux biais conduisant à rendre diffi-
on peut s’interroger sur la réalité de leur accessibi- cile la comparaison entre les deux échelles, Kentaro
lité à l’ensemble des utilisateurs potentiels de PISA Yamamoto aboutit à la conclusion que la corrélation
dans la mesure où la psychométrie, du moins à ce entre l’échelle de prose literacy de IALS et de PISA
niveau de complexité, ne fait pas forcément partie du est de .83. Ce qui correspond à peu près à l’ordre
socle commun de connaissances de l’ensemble de la de grandeur des corrélations entre les sous-échelles
communauté scientifique francophone des sciences de IALS. On peut en conclure que ces deux enquêtes
humaines. Ceci peut conduire certains utilisateurs à bien que constituées de sous échelles interprétées
des erreurs dans l’utilisation des données comme cela différemment mesurent globalement la même compé-
a été souligné à propos de la prise en compte des tence.
valeurs plausibles dans les analyses secondaires.
On peut également s’interroger sur le fait que ce
Un second point est que, malgré le soin apporté à
facteur peut s’apparenter dans une large mesure à
ces questions méthodologiques, certaines solutions
des variables du type des aptitudes intellectuelles, en
restent encore insatisfaisantes au regard de la sophis-
particulier, du raisonnement verbal. Dans une autre
tication du reste de l’édifice. On a signalé parmi les
enquête menée dans le cadre d’un projet européen
aspects les plus techniques la violation de la condi-
(Vrignaud & Rémond, 2002), on observe une cor-
tion d’indépendance conditionnelle. La question de
rélation proche de .70 entre un test de vocabulaire
la dimensionnalité apparaît plus centrale et donc plus
(subtest de vocabulaire du WISC III) et des épreuves
gênante dans la mesure où elle est en prise directe
nationales d’évaluation de la lecture pour deux pays
avec la présentation et l’interprétation des résultats.
(l’Angleterre et l’Italie). Bien que l’intensité de ces cor-
Ceci conduit à une interrogation plus générale sur la
rélations ne soit pas suffisamment forte pour assimi-
nature conceptuelle de la compétence évaluée.
ler les compétences évaluées par les deux types de
À ce sujet, il faut signaler que H. Goldstein et ses tests, elle est néanmoins suffisamment élevée pour
collaborateurs (Goldstein, 2004 ; Goldstein et al., faire l’hypothèse qu’une partie relativement impor-
soumis) ont montré, en appliquant les modèles tante (près de la moitié de la variance) est expliquée
d’équations structurales aux données anglaises et par un test de vocabulaire. Les tests de vocabulaire
françaises de PISA qu’elles n’étaient pas unidimen- sont les meilleurs indicateurs du raisonnement ver-
sionnelles, mais à tout le moins bidimensionnelles. bal et même du raisonnement en général (corrélation
L’écart à l’unidimensionnalité est révélateur de failles élevée avec la mesure globale du QI). Ces tests de
dans le dispositif de mesure et ses conséquences sur lecture mesurent donc également une compétence

La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 37
verbale très générale. On pourrait s’interroger, au déclarer « la compétence ? c’est ce que mesure notre
moins pour les niveaux supérieurs de PISA qui, selon test ! ». Comment être sûr que l’on échantillonne les
leur définition, requièrent que les sujets réalisent des items (les tâches) de manière à réellement balayer le
opérations d’inférence, sur le fait qu’on mesure autant domaine ? Ne court-on pas le risque comme dans
la capacité au raisonnement verbal que la capacité à les tests d’intelligence de sur-représenter voire de
tirer de l’information d’un texte écrit. ne représenter que les tâches en relation avec les
apprentissages scolaires et le milieu culturel domi-
La seconde question porte sur l’unidimensionnalité nant tels qu’ils sont conçus et valorisés dans certains
du construit mesuré. Le recours à trois dimensions, pays et d’assister aux terribles dérives apparues dans
même s’il est intéressant d’un point de vue concep- le domaine des aptitudes avec les travaux de Terman
tuel, n’apparaît pas pleinement convainquant du point comme l’évoquent A. Blum et F. Guérin-Pace (2000) ?
de vue psychométrique. L’agrégation de l’ensemble Il y a un risque de dérive idéologique à considérer ces
des items dans une seule variable latente est un point compétences comme dotées d’une réalité autonome
qui ne plaide pas particulièrement en faveur de l’utili- et objective alors qu’elles sont étroitement dépen-
sation de plusieurs sous échelles. Les contraintes du dantes d’un modèle de mesure.
modèle de mesure sont telles qu’elles conduisent à
éliminer toutes les causes éventuelles d’écart à l’uni- Si l’on choisit une approche des compétences,
dimensionnalité qui seraient en violation avec l’utilisa- alors, il est nécessaire de définir les compétences en
tion des MRI. On peut considérer que cette réduction termes de domaines, opération qui seule pourra vali-
va s’opérer dès la sélection des items. Par consé- der l’interprétation de la mesure psychométrique puis-
quent, l’univers des items risque d’éliminer des infor- qu’elle permettra de vérifier la couverture du domaine
mations porteuses de différences qualitatives sup- de la compétence par les épreuves construites. Cette
portant d’autres dimensions et non plus seulement approche a été l’objet d’une enquête internationale
des différences quantitatives consistant à ordonner pilotée par l’OCDE : le programme DESECO – « Défi-
les moyennes des pays sur un axe. nitions et sélections des compétences » (OCDE,
2002). Il s’agissait de demander à différents experts :
On peut également s’interroger sur la pertinence philosophes (Canto-Sperber & Dupuy, 2001), ethnolo-
d’expliquer les différences entre sujets de manière gue (Goody, 2001), psychologue (Haste, 2001), éco-
uniquement quantitative pour les sujets faiblement nomistes (Levy & Murnane, 2001), spécialistes des
compétents dont la situation est mieux qualifiée par sciences de l’éducation (Perrenoud, 2001) comment
le terme d’illettrisme que par celui de niveau faible de on pourrait définir les compétences nécessaires pour
littéracie. Il est plus heuristique de chercher à qualifier vivre et réussir dans le monde moderne. Ce type de
ces situations d’illettrisme en identifiant leurs causes travaux pourrait permettre de définir les compétences
plutôt que de les quantifier. L’enquête sur les compé- évaluées sur des bases théoriques et non unique-
tences en littéracie des adultes français « Informa- ment psychométriques. La validité du construit et son
tion et vie quotidienne » (Murat, 2005) comportait un interprétation s’en trouveraient davantage validées.
module particulier pour les sujets identifiés comme Il ne semble pas malheureusement que les résultats
étant en situation d’illettrisme visant à diagnostiquer de DESECO aient été injectés dans les réflexions
les causes de cet illettrisme. sur les enquêtes internationales d’évaluation des
Le choix fait par des enquêtes de type PISA d’éva- compétences.
luer des compétences n’est pas exempt de tout ques- Pierre Vrignaud
tionnement scientifique et idéologique. En effet, on se [email protected]
souvient des débats sur la mesure de l’intelligence Université Paris 10-Nanterre
et de la boutade de Binet. On court ici le risque de Laboratoire « Travail et évolution professionnelle »

NOTES

(1) En anglais, le terme d’Item Response Theory (IRT), est plus lar- (2) L’anglais utilise le terme de guessing (parfois traduit en fran-
gement utilisé. Le terme de modèle paraît plus approprié dans la çais par « pseudo-chance ») pour désigner, principalement dans
mesure où il s’agit de rendre compte du comportement du sujet les QCM, la probabilité de « deviner » la bonne réponse ou de
répondant à un item plutôt que de construire une théorie psy- la donner par hasard. On a jugé utile d’introduire ce paramètre
chologique du comportement du sujet comme le font remarquer dans les MRI pour rendre compte du fait que la probabilité de
H. Goldstein & R. Wood (1989). bonne réponse d’un sujet ne devient pas infiniment petite au

38 Revue française de pédagogie, n° 157, octobre-novembre-décembre 2006


fur et à la mesure que la compétence de ce sujet est estimée groupe pour les classes de performance élevée) on parle de FDI
faible mais peut rester dans une zone nettement plus élevée. Par « croisé ». Le FDI croisé porte sur la discrimination de l’item celui
exemple dans le cas d’un QCM comprenant quatre possibilités ci est plus discriminant dans un groupe que dans l’autre. Si on
de réponse, la possibilité de donner la bonne réponse au hasard se représente aisément la signification psychologique d’un FDI
serait de 25 %. Dans ce cas, le paramètre de guessing estimerait uniforme, celle d’un FDI croisé peut être plus délicate.
la probabilité à ce seuil même pour des sujets de compétence
faible. (5) L’algorithme EM estime, selon la méthode du maximum de vrai-
semblance, les paramètres de distributions expliquant un échan-
(3) ACER est l’organisation principale en charge du consortium qui a tillon de données lorsqu’on est en présence de données man-
géré PISA, ETS a été l’organisation en charge du traitement des quantes, en complétant les données par une variable aléatoire
données des enquêtes américaines (NAEP, etc.) ainsi que de plu- rendant compte de la relation entre les données observées (les
sieurs enquêtes internationales, en particulier, IALS. réponses aux items) et les données manquantes (ici les paramè-
tres du MRI). Dans une première phase on va calculer l’espérance
(4) Lorsque la différence de réussite à l’item est de même sens en de la vraisemblance (expectation) et, dans une seconde phase,
faveur ou en défaveur du même groupe dans toutes les classes on va opérer une maximisation (maximisation) de l’espérance
de sujets le FDI est dit « uniforme ». Le FDI uniforme porte uni- obtenue. Puis, on utilise les valeurs trouvées à l’étape de maxi-
quement sur la difficulté de l’item. II existe un écart en faveur du misation pour une nouvelle étape d’espérance. On répétera ce
même groupe à tous les niveaux de compétence. Lorsque la diffé- processus de manière itérative dont chaque phase augmente la
rence de réussite change de sens selon le niveau de performance vraisemblance jusqu’à ce qu’on atteigne un critère d’arrêt (en
des sujets (par exemple la différence est en faveur d’un groupe général un écart faible entre la vraisemblance à deux étapes
pour les classes de performance faibles et en défaveur du même consécutives).

BIBLIOGRAPHIE

ADAMS R. J. (2002). « Scaling PISA cognitive data ». In CORTINA J. M. (1993). « What is coefficient alpha : An exami-
M. L. Wu & R. J. Adams (éd.), PISA 2000 : Technical nation of theory and application ». Journal of Applied
Report. Paris : OECD, p. 99-108. Psychology, vol. 78, p. 98-104.
ADAMS R. J. & CARSTENSEN C. (2002). « Scaling outcomes ». CRONBACH L. J. & MEEHL P. E. (1955). « Construct validity in
In M. L. Wu & R. J. Adams (éd.), PISA 2000 : Technical psychological tests ». Psychological Bulletin, vol. 52,
Report. Paris : OECD, p. 149-162. 281-302.
ADAMS R. J. & KHOO S. J. (1994). QUEST : The Interactive DEMPSTER A. P. ; LAIRD N. M. & RUBIN D. B. (1977). « Maxi-
Test Analysis System Version 2.0. Hawtorn : ACER. mum likelihood estimation from incomplete data via the
ADAMS R. J. & WU M. L. (2002). PISA : Technical report. EM algorithm (with discussion) ». Journal of the Royal
Paris : OECD. Statistical Society, Series B, vol. 39, p. 1-38.
BAKER F. B. (1992). Item Response Theory : parameter, esti- DICKES P. & FLIELLER A. (1997). Analyse secondaire des don-
mation techniques. New York : M. Dekker. nées françaises de la première enquête internationale sur
la littéracie des adultes (enquête IALS). Rapport pour le
BEATON A. E. & JOHNSON E. G. (1992). « Overview of the ministère de l’Éducation nationale. Paris : ministère de
scaling methodology used in the national assessment ». l’Éducation nationale ; Nancy : université de Nancy 2 :
Journal of Educational Measurement, vol. 29, p. 163-175. Laboratoire de psychologie : équipe GRAPCO.
BLUM A. & GUÉRIN-PACE F. (2000). Des lettres et des chiffres. DICKES P. & VRIGNAUD P. (1995). Rapport sur les traitements
Paris : Fayard. des données françaises de l’enquête internationale sur
BOCK R. D. & AITKIN M. (1994). « Marginal maximum likehood la littéracie. Rapport pour le ministère de l’Éducation
of item parameters : Application of an EM algorithm ». nationale. Paris : ministère de l’Éducation nationale.
Psychometrika, vol. 46, p. 443-459. DICKES P. ; TOURNOIS J. ; FLIELLER A. & KOP J.-L. (1994). Psy-
BOLT D. & STOUT W. (1996). « Differential item functioning : Its chométrie. Paris : PUF.
multidimensional model and resulting subtest detection
FISCHER G. H. & MOLENAAR I. W. [éd.] (1995). Rasch models :
procedure ». Behaviormetrika, vol. 23, p. 67-95.
Foundations, recent developments, and applications.
BOTTANI N. & VRIGNAUD P. [dir.] (2005). La France et les éva- New-York : Springer.
luations internationales. Rapport établi à la demande
GARDNER H. (1983). Frames of mind. New-York : Basic Books;
du Haut conseil de l’évaluation de l’école. Paris : Haut
trad. fr. Les formes de l’intelligence. Paris : O. Jacob,
conseil de l’évaluation de l’école. Disponible sur au
1997.
format PDF sur Internet à l’adresse : http://cisad.adc.
education.fr/hcee/documents/rapport_Bottani_Vri- GOLDSTEIN H. (1980). « Dimensionality, bias, independance
gnaud.pdf (consulté le 8 janvier 2007). and measurement scale problems in latent trait test
BRADLOW E. T. ; WAINER H. & WANG H. (1998). « A bayesian score models ». The British Journal of Mathematical and
random effects model for testlets ». In ETS Research Statistical Psychology, vol. 33, p. 234-246.
Report. RR-98-3. Princeton : Educational Testing GOLDSTEIN H. (2004). « International comparisons of student
Service. attainment : some issues arising from the PISA study ».
CANTO-SPERBER M. & DUPUY J.-P. (2001). « Competencies for Assessment in Education, vol. 11, p. 319-330.
the good life and the good society ». In D. S. Rychen & GOLDSTEIN H. & WOOD R. (1989). « Five decades of item
L. H. Salganik (éd.), Defining and Selecting Key Compe- response modelling ». The British Journal of Mathemati-
tencies. Göttingen : Hogrefe & Huber, p. 67-92. cal and Statistical Psychology, vol. 42, p. 139-167.

La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 39
GOLDSTEIN H. ; BONNET G. & ROCHER T. (soumis). « Multi- Internet à l’adresse : http://www.insee.fr/fr/ffc/docs_ffc/
level multidimensionnal structural equation models IP1044.pdf (consulté le 25 janvier 2007).
for the analysis of comparative data on Educational MURRAY T. S. ; KIRSCH I. S. & JENKINS L. B. [éd.] (1998). Adult
performance ». Journal of Educational and Behavioural Literacy in OECD countries. Technical report on the first
Statistics. international adult literacy survey. Washington [D. C.] :
GONZALEZ E. J. (2003). « Scaling the PIRLS reading assess- US Department of Education : National Center for Edu-
ment data ». In I. V. S. Mullis, M. O. Martin, E. Gonzalez cation Statistic, p. 105-134.
& A. Kennedy, PIRLS 2001 International Report. Boston : NANDAKUMAR R. (1994). « Assessing dimensionality of a set of
International Study Center. item responses-Comparison of different approaches ».
GOODY J. (2001). « Competencies and Education : Contex- Journal of Educational Measurement, vol. 31, p. 17-35.
tual Diversity ». In D. S. Rychen & L. H. Salganik (éd.), OCDE (1999). Mesurer les connaissances et compétences
Defining and Selecting Key Competencies. Göttingen : des élèves : un nouveau cadre d’évaluation. Paris :
Hogrefe & Huber, p. 175-190. OCDE.
HAMBLETON R. K. & SWAMINATHAN H. (1985). Item Response OCDE (2002). Définitions et sélections des compétences
Theory. Principles and applications. Boston : Kluwer- (DESECO) : fondements théoriques et conceptuels :
Nijhoff. document de stratégie. Neuchâtel : OFS. Document
HAMBLETON R. K. ; SWAMINATHAN H. & ROGERS H. J. (1991). disponible au format PDF sur Internet à l’adresse :
Fundamentals of item response theory. Newbury Park : http://www.portal-stat.admin.ch/deseco/deseco_doc_
Sage. strategique.pdf (consulté le 8 janvier 2007).
HASTE H. (2001). « Ambiguity, Autonomy and Agency ». In PERRENOUD P. (2001). « The key to social fields : Compe-
D. S. Rychen & L. H. Salganik (éd.), Defining and Select- tences of an Autonomous Actor ». In D. S. Rychen &
ing Key Competencies. Göttingen : Hogrefe & Huber, L. H. Salganik (éd.), Defining and Selecting Key Compe-
p. 93-120. tencies. Göttingen : Hogrefe & Huber, p. 121-150.
HUTEAU M. & LAUTREY J. (1999). Évaluer l’intelligence : psy- RASCH G. (1960). Probabilistic models for some intelligence
chométrie cognitive. Paris : PUF. and attainment tests. Copenhague : Nielsen & Lydiche.
JOHNSON E. G. (1992). « The design of the National Assess- RASCH G. (1977). « On specific objectivity. An attempt at
ment of Educational Progress ». Journal of Educational formalizing the request for generality and validity of
Measurement, vol. 29, p. 95-110. scientific statements ». Danish Yearbook of Philosophy,
vol. 14, p. 58-94.
KIRSCH I. S. ; JUNGEBLUT A. & MOSENTHAL P. B. (1998). « The
measurement of adult literacy ». In T. S. Murray, REMOND M. (2006). « Éclairages des évaluations internatio-
I. S. Kirsch & L. B. Jenkins (éd.), Adult Literacy in OECD nales PIRLS et PISA sur les élèves français ». Revue
countries. Technical report on the first international adult française de pédagogie, n° 157, p. 71-84.
literacy survey. Washington [D. C.] : US Department of REUCHLIN M. (1996). Psychologie différentielle. Paris : PUF
Education : National Center for Education Statistics, [nlle éd. aug.]
p. 105-134.
ROCHER T. (2003). « La méthodologie des évaluations inter-
KOLEN M. J. & BRENNAN R. L. (1995). Test Equating. Methods nationales de compétences ». Psychologie et Psycho-
and practices. New-York : Springer métrie, n° 24, p. 117-146.
LAVEAULT D. & GREGOIRE J. (2002). Introduction aux théories RUBIN D. B. (1991). « EM and beyond ». Psychometrika,
des tests en sciences humaines. Bruxelles : De Boeck. vol. 56, p. 241-254.
LEVY F. & MURNANE R. J. (2001). « Key Competencies Critical RUBIN D. B. (1987). Multiple imputation for nonresponse in
to Economic Success ». In D. S. Rychen & L. H. Sal- surveys. New York : Wiley.
ganik (éd.), Defining and Selecting Key Competencies.
RYCHEN D. & SALGANIK L. [éd.] (2003). Key Competencies
Göttingen : Hogrefe & Huber, p. 151-174.
for a Successful Life and a Well-Functioning Society.
LORD F. & NOVICK M. R. [éd.] (1968). Statistical theories of Göttingen : Hogrefe & Huber.
mental test scores. Reading : Addison-Wesley.
SALGANIK L. H. ; RYCHEN D. S. ; MOSER U. & KONSTANT J. W.
MISLEVY R. J. (1987). « Exploiting auxiliary information about (1999). Projects on competencies in the OECD context :
examinees in the estimation of item parameters ». Analysis of theoretical and conceptual foundations.
Applied Psychological Measurement, vol. 11, p. 81-91. Neuchâtel : Office fédéral des statistiques.
MISLEVY R. J. (1994). « Evidence and inference in educational SALGANIK L. & RYCHEN D. [éd.] (2001). Defining and Selecting
assessment ». Psychometrika, vol. 59, p. 439-483. Key Competencies. Seattle : Hogrefe & Huber.
MISLEVY R. J. ; BEATON A. E. ; KAPLAN B. & SHEEHAN K. M. SALINES M. & VRIGNAUD P. (2001). Apprécier et certifier les
(1992). « Estimating population characteristics from acquis des élèves en fin de collège : diplôme et éva-
sparse matrix samples of item responses ». Journal of luations-bilans. Rapport établi à la demande du Haut
Educational Measurement, vol. 29, p. 133-161. conseil pour l’évaluation de l’école. Paris : Haut conseil
MISLEVY R. J. & BOCK R. D. (1990). BILOG 3 : Item analysis de l’évaluation de l’école.
and test scoring with binary logistic models. Moores- SCHAFER J. L. & GRAHAM J. W. (2002). « Missing data : Our
ville : Scientific Software [2de éd.] view of the state of the art ». Psychological Methods,
MURAT F. (2005). « Les compétences des adultes à l’écrit, en vol. 7, p. 147-177.
calcul et en compréhension orale ». INSEE Première, SCHAFER J. L. & OLSEN M. K. (1998). « Multiple imputation for
n° 1044, 4 p. Document disponible au format PDF sur multivariate missing-data problems : A data analyst’s

40 Revue française de pédagogie, n° 157, octobre-novembre-décembre 2006


perspective ». Multivariate Behavioral Research, vol. 33, VRIGNAUD P. (2003). « Objectivité et authenticité dans l’éva-
p. 545-571. luation : avantages et inconvénients des questions
SHEALY R. T. & STOUT W. F. (1993). « A model-based à choix multiples [QCM] et des questions à réponses
standardization approach that separates true bias/DIF complexes [QRC] : importance du format de réponse
from group ability differences and detect test bias/DTF pour l’évaluation des compétences verbales ». Psycho-
as well as item bias/DIF ». Psychometrika, vol. 58, logie et psychométrie, vol. 24, n° 2-3, p. 147-188.
p. 159-194. VRIGNAUD P. & RÉMOND M. (2002). « The Use of National
SHEEHAN K. & MISLEVY R. J. (1990). « Integrating cognitive Reading Tests for International Comparisons : Results
and psychometric models to measure document lit- from a feasibility study », communication présentée
eracy ». Journal of Educational Measurement, vol. 27, au XXVe International Congress of Applied Psychology
p. 255-272. (Singapour, juillet 2002).
TURNER R. (2002). « Constructing the proficiency scales ». In WAINER H. & THISSEN D. (1996). « How is reliability related to
M. L. Wu & R. J. Adams (éd.), PISA 2000 : Technical the quality of test scores ? What is the effect of local
Report. Paris : OECD, p. 195-216. dependence on reliability ? », Educational Measure-
VAN DER LINDEN W. J. & HAMBLETON R. K. [éd.] (1997). Hand- ment : Issues and Practice, vol. 15, p. 22-29.
book of modern item response theory. New-York : WEINERT F. E. (1999). Concepts of competence. Neuchâtel :
Springer. Office fédéral des statistiques.
VRIGNAUD P. (1996). « Les tests au XXIe siècle : que peut-on
attendre des évolutions méthodologiques et technolo- WU M. L. ; ADAMS R. J. & WILSON M. R. (1997). ConQuest.
giques dans le domaine de l’évaluation psychologique Generalized item response modelling software. Haw-
des personnes ? » Pratiques psychologiques, vol. 2, thorn [Australia] : ACER.
p. 5-28. ZIMOWSKI M. F. ; MURAKI E. ; MISLEVY R. J. & BOCK R. D.
VRIGNAUD P. (2002). « Les biais de mesure : savoir les identi- (1996). BILOG-MG. Multiple-Group IRT analysis and
fier pour y remédier ». Bulletin de psychologie, vol. 55, test maintenance for binary items. Chicago : Scientific
n° 6, p. 625-634. Software International.

La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 41

Vous aimerez peut-être aussi