RFP 409
RFP 409
RFP 409
Recherches en éducation
157 | octobre-décembre 2006
PISA : analyses secondaires, questions et débats
théoriques et méthodologiques
Pierre Vrignaud
Édition électronique
URL : http://journals.openedition.org/rfp/409
DOI : 10.4000/rfp.409
ISSN : 2105-2913
Éditeur
ENS Éditions
Édition imprimée
Date de publication : 1 décembre 2006
Pagination : 27-41
ISBN : 978-2-7342-1075-7
ISSN : 0556-7807
Référence électronique
Pierre Vrignaud, « La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle
était la question ? », Revue française de pédagogie [En ligne], 157 | octobre-décembre 2006, mis en ligne
le 01 décembre 2010, consulté le 30 avril 2019. URL : http://journals.openedition.org/rfp/409 ; DOI :
10.4000/rfp.409
L’objectif de cet article est de montrer l’interaction entre les aspects méthodologiques et la manière dont est
conceptualisée et définie la littéracie dans l’enquête PISA. Pour introduire le thème on évoque d’abord les
changements conceptuels dont a été l’objet l’évaluation des acquis des élèves dans les enquêtes internationales
depuis les premières enquêtes de l’IEA jusqu’à l’enquête PISA. Après avoir rappelé que toute mesure est un
construit, on expose les théories psychométriques qui fondent les modèles de mesure utilisés pour l’évaluation
des acquis des élèves. La présentation des approches classiques permet d’introduire les concepts de difficulté
et de discrimination des items ainsi que le concept de consistance globale d’une épreuve. On insiste sur les
conditions de validité des modèles psychométriques qui posent des contraintes fortes sur la façon dont la
variable mesurée est construite. On présente ensuite le modèle de mesure utilisé dans PISA qui appartient
à la famille des modèles de réponse à l’item (MRI). PISA a privilégié le modèle dit de Rasch, on discute
des conséquences de ce choix. On aborde ensuite un point très technique peu souvent abordé : celui de
l’algorithme utilisé pour l’estimation des paramètres. La procédure utilisée aboutit à estimer non pas une valeur
par sujet mais à construire la distribution des compétences de chaque sujet, on insiste sur les conséquences de
cette approche sur la manière de conduire l’analyse des résultats. Ensuite, on discute du caractère réellement
unidimensionnel de la variable du point de vue des contenus et du point de vue méthodologique. On s’interroge
sur la contradiction apparente qu’il peut y avoir à considérer simultanément des sous-échelles et une échelle
globale. En conclusion, on revient sur la manière d’interpréter la littéracie telle qu’elle est mesurée dans PISA
en la mettant en relation avec d’autres enquêtes visant à évaluer le même type de compétence.
La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 29
signification univoque. Ce qui ne serait pas le cas, d’interpréter comme absence de maîtrise du domaine
par exemple, dans le cas où les items mesureraient ce qui dépend en fait de la vitesse de travail et du
des compétences différentes. C’est pourquoi on parle temps de passation. Les omissions structurelles pro-
ici d’homogénéité ou de consistance interne. L’ana- viennent, elles, de l’organisation du plan de collecte
lyse interne se fait à deux niveaux : local, celui des des données. L’utilisation de la méthode dite des
items et global, celui du score. Au niveau des items, « cahiers tournants » dans PISA produit des données
on s’intéresse principalement à deux de leurs carac- structurelles manquantes. Pour concilier deux exi-
téristiques : leur difficulté et leur discrimination. gences : recueillir de l’information sur de nombreux
exercices sans trop augmenter le temps de passa-
Indice de difficulté de l’item
tion, on va répartir les exercices (items) en plusieurs
Dans le cas d’un score dichotomique (bonne ou blocs de longueur (temps de passation) à peu près
mauvaise réponse), la difficulté de l’item est souvent égale. Chaque sujet ne passera qu’un nombre de
estimée par la proportion d’élèves de l’échantillon qui blocs correspondant au temps de passation choisi.
donnent une réponse correcte à cet item. Le score Pour permettre de traiter les données, il faut que tou-
moyen est une variante pour des items polytomiques tes les paires de blocs soit présentes dans le dispo-
(réponses multiples ordonnées). L’utilisation de cette sitif expérimental. Il s’agit alors de réduire le nombre
proportion observée comme estimation de la diffi- de combinaisons des paires de blocs pour maîtriser
culté peut être biaisée lorsque la représentativité de l’explosion combinatoire que pourrait engendrer la
l’échantillon n’a pu être démontrée. À l’extrême dans nécessité de construire toutes les combinaisons de
le cas d’échantillons de compétence très faible ou paires de blocs. En général, on a choisi de construire
très élevée, l’estimation de la difficulté des items peut des cahiers comprenant trois blocs pour s’appuyer
conduire à des estimations très différentes. Cette sur une méthode de construction des plans expéri-
dépendance entre l’estimation de la difficulté des mentaux bien connue : celle des triades. Pour neutra-
items et l’estimation de la compétence des sujets a liser les effets liés à l’apprentissage et à la fatigabilité,
été la source de nombreuses réflexions visant à obte- on va contrôler l’ordre de passation des blocs en les
nir des estimations indépendantes. Les MRI ont été contrebalançant. Chaque bloc apparaîtra au moins
souvent présentés comme fournissant une solution à une fois dans les différentes positions de l’ordre de
ce problème. passation d’où le nom de « cahiers tournants » sous
lequel ce dispositif expérimental est souvent désigné
La gestion des non réponses ou plutôt des répon- en français. Les protocoles contiennent donc des
ses manquantes est un autre problème pour l’esti- données manquantes structurelles et peuvent conte-
mation de la difficulté des items et de la compétence nir des omissions finales et intermédiaires.
des sujets. On peut identifier au moins trois types
différents de réponses manquantes : 1) les omis- La recherche de solutions satisfaisantes pour la
sions intermédiaires ; 2) les omissions finales ; 3) les gestion de ces trois types réponses manquantes a
réponses manquantes structurelles. Les omissions été un des moteurs qui ont fait évoluer les méthodes
intermédiaires ou finales correspondent à des items employées pour traiter les données. Les réflexions
présents dans le protocole du sujet mais auxquels il ayant abouti à ces évolutions seront présentées dans
n’a pas répondu. En général, on interprète les omis- le cadre des MRI.
sions intermédiaires, comme une déclaration d’igno-
Indice de discrimination de l’item
rance et/ou une absence de prise de risque ; les
omissions terminales comme un manque de temps. La discrimination de l’item renseigne sur la qualité
La distinction entre ces deux types de non réponse et la quantité d’information apportées par l’item pour
est importante car elle renvoie à la distinction entre déterminer la compétence du sujet. Un item au pou-
test de puissance ou de vitesse (la rapidité du sujet à voir discriminant élevé apporte beaucoup d’informa-
accomplir la tache fait partie de la compétence éva- tion sur la compétence du sujet, un item peu discrimi-
luée). Le codage des réponses manquantes comme nant renseigne peu sur la compétence du sujet. Leur
échecs ou comme items non examinés est donc fon- pouvoir discriminant est un des principaux critères
damentale pour l’estimation de la difficulté des items. de sélection des items pour la construction définitive
Le codage des omissions terminales comme des d’une épreuve. L’indice utilisé pour estimer le pou-
items non examinés ou comme des échecs aboutit à voir discriminant de l’item se fonde sur la corrélation
une estimation différente de la difficulté. Si la propor- entre l’item et le critère évalué (en général le score
tion de réussite est estimée à partir des seuls élèves au test). On fait l’hypothèse qu’un item est discrimi-
de l’échantillon qui ont répondu à l’item, cela évite nant si les sujets qui le réussissent ont, en moyenne,
La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 31
LES MODÈLES DE RÉPONSE À L’ITEM (MRI) rer performance et compétence. L’explication de la
compétence et de la difficulté de l’item par une même
variable latente justifie explicitement la comparaison
Présentation entre items et entre sujets. Les paramètres de diffi-
culté vont permettre de comparer les items entre eux.
Ces modèles regroupés sous l’appellation géné-
Les paramètres de compétences autorisent la compa-
rique de modèles de réponse à l’item (MRI) – Item
raison des sujets et des groupes de sujets. Toutes les
Response Modeling (IRM) en anglais (1) – ont été
opérations de construction de tests et d’interprétation
créés il y a une trentaine d’années (voir, pour une pré-
des résultats demandant d’assurer l’équivalence des
sentation, Hambleton & Swaminathan, 1985 ou, en
items et des tests ou la comparaison de différentes
français, Dickes et al., 1994 ; Vrignaud, 1996). Il faut
populations vont se trouver ainsi facilitées.
signaler qu’ils ont été « inventés » à peu près simulta-
nément et de manière indépendante au Danemark par
le mathématicien Georg Rasch (1960) qui cherchait Combien de paramètres utiliser pour modéliser
un modèle permettant de comparer des compéten- la compétence ?
ces d’élèves en lecture à plusieurs années d’intervalle
et, aux États-Unis, par le statisticien Allan Birnbaum La question du nombre de paramètres du modèle
(1959, cité dans Birnbaum, 1968) qui cherchait à a été souvent discutée. Les options retenues ayant
améliorer les modèles de mesure en psychométrie. des conséquences sur les conditions de validité des
Ces modèles ont profondément renouvelé l’approche statistiques et la présentation des résultats, ces choix
psychométrique car d’une part ils offrent un cadre ont un retentissement sur le traitement des enquêtes
unitaire pour penser l’ensemble des concepts psycho- internationales. Ainsi, pour les traitements de l’en-
métriques (exposés plus haut à propos du modèle quête PISA, ACER (Australian Council for Educational
classique) et d’autre part, ils offrent un nouveau cadre Research) (3) utilise un modèle dérivé du modèle de
d’interprétation des résultats aux tests en situant la Rasch implanté dans son logiciel CONQUEST, modèle
performance des sujets par rapport à des tâches et qui ne comprend, pour expliquer le fonctionnement
non plus par rapport à la performance d’autres sujets. de l’item, que le paramètre de difficulté alors qu’ETS
Ces modèles dont le principe est présenté dans (Educational Testing Service) s’appuie sur un modèle
l’équation n° 2 sont probabilistes. On postule que la à deux paramètres (difficulté et discrimination) en uti-
probabilité qu’un sujet j donne une réponse correcte lisant des algorithmes d’estimation implantés dans le
à un item (i) est fonction de la compétence (θj) du logiciel BILOG (Zimowski et al., 1996) : voir pour un
sujet et de la difficulté de l’item (di) : exemple les traitements de l’enquête IALS : Yama-
Pr(X=x) = f(di, θj) moto, 1998. Cette différence de choix s’explique par
au moins quatre raisons. En premier lieu des raisons
Dans le cas d’items dichotomiques, X prend les historiques puisque les travaux sur les MRI s’étaient
valeurs échec « 0 » ou réussite « 1 », on obtient donc inscrits à ETS dans la suite des travaux de Birnbaum
la probabilité d’un échec ou d’un succès. (1968) repris et enrichis par Lord (1980) qui avaient
Les modèles MRI sont basés sur la recherche d’un introduit d’emblée un modèle à deux paramètres
modèle mathématique du fonctionnement de l’item alors que les travaux d’ACER s’inscrivaient dans le
permettant de représenter la relation entre difficulté cadre de l’approche de Rasch comme le montrent les
de l’item et compétence du sujet. On utilise en géné- logiciels construits par cette organisation (Titan puis
ral la fonction logistique. Le modèle le plus général Quest : Adams & Khoo, 1994). Ensuite des raisons
comprend trois paramètres pour modéliser le fonc- liées au format des items, PISA comprend des items
tionnement de l’item : « bi » la difficulté de l’item « ai » polytomiques (les réponses peuvent faire l’objet d’un
la pente (discrimination de l’item), « ci » le paramètre codage ordonné selon des niveaux de réussite). Ce
de réponse « au hasard » (2). format d’item est facile à traiter par le modèle de
Rasch (on sépare le paramètre de difficulté en une
On peut les rapprocher des paramètres classiques : partie représentant la difficulté générale de l’item et
« bi », la difficulté de l’item de la fréquence de réus- une autre partie représentant le passage d’un niveau
site ; « ai », la pente (discrimination de l’item) de la de difficulté à un autre) alors que l’estimation des
corrélation item/score ; « ci » de l’étude des distrac- paramètres de difficulté de tels items n’est pas aussi
teurs. Le paramètre de compétence « θj » est une aisément accessible par le modèle à deux paramè-
estimation de la mesure vraie de la compétence du tres. Une troisième raison peut trouver son origine
sujet, c’est-à-dire que les MRI permettent de sépa- dans la détermination des niveaux de compétence
La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 33
été particulièrement développé par Kirsch et collabo- métrique classique. Il faut également souligner la pru-
rateurs dans les enquêtes NAEP puis IALS et PISA dence avec laquelle ces opérations ont été effectuées
(voir par exemple Kirsch, Jungeblut & Mosenthal, et la clarté avec laquelle elles sont exposées dans le
1998). Cette approche présente deux inconvénients technical manual (Turner, 2002). Mais, on ne peut pas-
majeurs. ser sous silence le risque d’aboutir à une réification
de la notion de niveaux de compétence qui, dans les
Le premier est d’être partiellement tautologique : représentations d’utilisateurs n’ayant pas eu accès à
cet item est facile puisqu’il est réussi par un grand l’ensemble des sources techniques, peuvent paraître
nombre de sujets et qu’il correspond donc à des opé- plus objectifs qu’ils ne le sont en réalité.
rations de niveau faible. Un second inconvénient est
la difficulté de déterminer le niveau auquel appartient
un item. En effet, on prend en compte le paramètre L’estimation des paramètres
de difficulté, non pas en lui-même, mais en recher-
chant quel niveau de compétence est nécessaire pour La mise en œuvre de l’estimation des paramè-
maîtriser un item de ce niveau de difficulté. Un item tres des MRI n’est pas une opération anodine – on
sera donc classé dans la catégorie correspondant au trouvera une excellente présentation exhaustive de
niveau de compétence permettant d’avoir une pro- cette question dans l’ouvrage de F. B. Baker (1992).
babilité (en général 75 ou 80%) de le réussir. Mais, L’appréciation de l’adéquation des modèles MRI se
les sujets qui ont un niveau de compétence inférieur pose aux différentes étapes de l’estimation des para-
ont encore une probabilité élevée de le réussir si leurs mètres de difficulté des items et de compétence des
compétences sont proches de la coupure séparant sujets. En amont, les modèles MRI reposent sur des
les classes de niveau. La qualité de cette séparation conditions de validité nombreuses : unidimensionna-
peut être appréciée à partir du pouvoir discriminant lité, indépendance conditionnelle des items, et, pour
des items. L’information donnée par ces niveaux le modèle de Rasch, égal pouvoir discriminant des
apparaît donc relativement floue et imprécise dans items. Ces conditions sont parfois difficiles à tenir et
la mesure où les coupures sont par nature arbitrai- à vérifier. Ainsi R. K. Hambleton, H. Swaminathan &
res : le fait d’être classé dans un niveau de compé- H. J. Rogers (1991) recensent une vingtaine de pro-
tence ne veut en aucun cas dire que le sujet n’est pas cédures à mettre en œuvre pour s’assurer de la pos-
capable de fonctionner à des niveaux de compétence sibilité d’application du modèle aux données. On peut
plus élevés. L’interprétation des niveaux n’est pas citer également l’ensemble de travaux menés par
toujours facile car certains niveaux possèdent parfois l’équipe de Stout (Bolt & Stout, 1996 ; Shealy & Stout,
peu d’items (en général les niveaux supérieurs). Et, 1993 ; Nandakumar, 1994) à l’Université de Chicago
surtout, l’interprétation en termes de fonctionnement qui a permis de trouver des cadres conceptuels plus
cognitif n’est pas fondée sur l’analyse des tâches et performants pour tester certaines hypothèses (unidi-
des processus mais apparaît plutôt comme un produit mensionalité, indépendance conditionnelle, fonction-
dérivé du modèle de mesure psychométrique. nement différentiel des items). On peut regretter que
les travaux de cette équipe soient totalement absents
Dans PISA, les différents niveaux de compétence des traitements des enquêtes internationales.
ont été définis de telle manière que les sujets dont le
paramètre de compétence a une valeur proche de la L’algorithme d’estimation utilisé dans PISA est issu
borne inférieure ont une probabilité de 50 % de réus- des travaux du statisticien américain D. Rubin sur
sir les items de ce niveau, et ceux dont le paramè- l’algorithme dit « EM » (Expectation-Maximization ;
tre de compétence a une valeur proche de la borne Dempster, Laird & Rubin, 1977 ; Rubin, 1987 &
supérieure, une probabilité de 80 % de réussir ces 1991) (5). Rubin a clarifié le concept de valeur man-
mêmes items. Par construction, il est donc certain quante en identifiant trois types de situations. La
qu’un sujet ne réussit pas uniquement tous les items distribution des valeurs manquantes peut être repré-
correspondant à son niveau et a – au moins pour les sentée par une distribution complètement aléatoire
sujets proches de la borne supérieure – une probabi- (MCAR, Missing Completely At Random). Par exem-
lité non négligeable de réussir ceux du niveau supé- ple dans le cas des enquêtes internationales, l’utilisa-
rieur. Encore une fois, il ne s’agit pas de pointer les tion de la méthode dite « des cahiers tournants », les
insuffisances de la méthode sans en voir les avanta- réponses manquantes sont dites MCAR puisque les
ges, en premier lieu, ceux de définir la compétence blocs qui n’ont pas été présentés à l’élève résultent
en relation avec des tâches et non plus en relation d’une affection au hasard d’un cahier à chaque élève.
avec d’autres sujets comme dans l’approche psycho- Le second type de situation est celui où on peut faire
La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 35
puis réaliser une agrégation des cinq valeurs obte- les distinguer : elles mesurent la même chose. Dans
nues pour la corrélation. La dispersion des valeurs le cas n° 1, les dimensions sont orthogonales (les
de l’indicateur devra être utilisée pour les tests de corrélations sont nulles), il faut présenter et interpré-
signification. On trouvera des descriptions des pro- ter les résultats de chacune des échelles séparément.
cédures permettant de réaliser cette agrégation dans Dans le cas n° 2, les corrélations sont proches de 1,
les publications traitant des méthodes d’imputations il n’y a pas lieu d’interpréter séparément les dimen-
multiples (voir par exemple Schafer & Graham, 2002 sions, les compétences mesurées sont complète-
pour une revue récente). Il n’est pas certain que les ment redondantes et si l’on devait les distinguer ce
chercheurs réalisant des analyses secondaires à par- serait par un artefact sémantique qui consisterait à
tir des données de PISA aient complètement intégré les nommer différemment. La plupart du temps, les
l’importance d’utiliser ces procédures pour obtenir données se situent entre ces deux pôles. La question
des estimations sans biais des indicateurs dans le est alors de décider à partir de quel seuil la liaison
cadre de leurs analyses. Ces éléments sont présentés entre les dimensions peut être estimée comme suffi-
très explicitement et très clairement dans le technical samment faible pour considérer que les dimensions
manual (Adams, 2002). mesurées correspondent à des compétences diffé-
rentes ? Cette question a été au coeur de la plupart
des débats autour des modèles psychologiques des
L’unidimensionnalité de la littéracie : aptitudes.
artefact ou réalité ?
La dimensionnalité des compétences en littéracie
Les MRI ont été l’objet de nombreuses critiques. La s’inscrit dans un tel débat. On cherche à savoir si les
plus fondamentale porte sur leur réalisme pour repré- résultats peuvent être présentés sur une ou plusieurs
senter le fonctionnement des sujets répondant à des échelles. Cependant, la pertinence d’une discussion
items. Ainsi, M. Reuchlin (1996) conteste le caractère apparaît, dans le cas des enquêtes internationales
continu du modèle qui présuppose qu’un sujet peut sur la littéracie, comme faussée car pour des raisons
toujours réussir un item. La réponse à un item a un de fiabilité de la mesure, on s’attache au fait que les
caractère discret. La réussite à un item difficile n’est épreuves soient fortement unidimensionnelles. On a
pas peu probable pour un sujet peu compétent, elle montré supra que cette condition est requise par le
est tout simplement impossible. Une contestation modèle de mesure employé : le MRI. L’unidimension-
moins radicale porte sur certaines de leurs propriétés nalité est à la fois la structure recherchée et la condi-
au premier rang desquelles l’unidimensionnalité. tion de validité (l’hypothèse au sens de l’assumption)
L’unidimensionnalité de la variable latente laisse des MRI. En effet, les modèles de base des MRI
présupposer que les différences interindividuelles ne nécessitent la condition d’unidimensionnalité : on
sont que des différences de puissance, que les diffé- doit rendre compte des relations entre items (estimés
rences de difficulté entre items ne sont que des dif- par leurs paramètres) et entre les sujets ainsi qu’entre
férences quantitatives. On accrédite ainsi l’idée que items et sujets par une seule variable latente.
quel que soit le niveau de compétence des sujets,
La solution retenue pour l’interprétation de PISA est
ceux-ci mettent en œuvre des processus et des stra-
de considérer cinq échelles : trois de littéracie, une
tégies similaires pour répondre aux items. Cette criti-
de mathématiques et une de science. On s’intéres-
que a déjà été souvent portée à l’encontre des scores
sera uniquement aux échelles de littéracie. Ces trois
dont le caractère globalisant n’informe pas sur les
échelles se distinguent selon les auteurs du disposi-
processus sous-jacents (Huteau & Lautrey, 1999). Le
tif par les opérations auxquelles elles font appel (sur
nombre de variables à introduire dans un modèle pour
ce point voir Rémond, 2006) : 1) retrouver de l’infor-
rendre compte d’un ensemble de comportements est
mation ; 2) développer une interprétation ; 3) réflé-
une question classique en psychologie.
chir sur le contenu du texte. La distinction entre ces
La question centrale est la prise en compte de trois échelles et le rattachement des items à chacune
différentes dimensions et par conséquent de plu- d’elle a été fait à partir de jugements d’experts et
sieurs compétences expliquant la performance des des résultats de l’analyse des données. Les valeurs
sujets aux items. Si l’on considère par exemple trois des corrélations entre échelles publiées pour les trois
échelles, les relations entre leurs scores peuvent se échelles de littéracie dans PISA 2000 sont très éle-
situer entre deux situations extrêmes : 1) il n’existe vées (> .89 ; cf. Adams & Caspersen, 2002) et dans
aucune relation entre elles ; 2) la relation entre les bien des cas seraient considérées comme suffisantes
dimensions est tellement élevée qu’il n’y a pas lieu de pour rassembler les trois échelles en une seule. Ce
La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 37
verbale très générale. On pourrait s’interroger, au déclarer « la compétence ? c’est ce que mesure notre
moins pour les niveaux supérieurs de PISA qui, selon test ! ». Comment être sûr que l’on échantillonne les
leur définition, requièrent que les sujets réalisent des items (les tâches) de manière à réellement balayer le
opérations d’inférence, sur le fait qu’on mesure autant domaine ? Ne court-on pas le risque comme dans
la capacité au raisonnement verbal que la capacité à les tests d’intelligence de sur-représenter voire de
tirer de l’information d’un texte écrit. ne représenter que les tâches en relation avec les
apprentissages scolaires et le milieu culturel domi-
La seconde question porte sur l’unidimensionnalité nant tels qu’ils sont conçus et valorisés dans certains
du construit mesuré. Le recours à trois dimensions, pays et d’assister aux terribles dérives apparues dans
même s’il est intéressant d’un point de vue concep- le domaine des aptitudes avec les travaux de Terman
tuel, n’apparaît pas pleinement convainquant du point comme l’évoquent A. Blum et F. Guérin-Pace (2000) ?
de vue psychométrique. L’agrégation de l’ensemble Il y a un risque de dérive idéologique à considérer ces
des items dans une seule variable latente est un point compétences comme dotées d’une réalité autonome
qui ne plaide pas particulièrement en faveur de l’utili- et objective alors qu’elles sont étroitement dépen-
sation de plusieurs sous échelles. Les contraintes du dantes d’un modèle de mesure.
modèle de mesure sont telles qu’elles conduisent à
éliminer toutes les causes éventuelles d’écart à l’uni- Si l’on choisit une approche des compétences,
dimensionnalité qui seraient en violation avec l’utilisa- alors, il est nécessaire de définir les compétences en
tion des MRI. On peut considérer que cette réduction termes de domaines, opération qui seule pourra vali-
va s’opérer dès la sélection des items. Par consé- der l’interprétation de la mesure psychométrique puis-
quent, l’univers des items risque d’éliminer des infor- qu’elle permettra de vérifier la couverture du domaine
mations porteuses de différences qualitatives sup- de la compétence par les épreuves construites. Cette
portant d’autres dimensions et non plus seulement approche a été l’objet d’une enquête internationale
des différences quantitatives consistant à ordonner pilotée par l’OCDE : le programme DESECO – « Défi-
les moyennes des pays sur un axe. nitions et sélections des compétences » (OCDE,
2002). Il s’agissait de demander à différents experts :
On peut également s’interroger sur la pertinence philosophes (Canto-Sperber & Dupuy, 2001), ethnolo-
d’expliquer les différences entre sujets de manière gue (Goody, 2001), psychologue (Haste, 2001), éco-
uniquement quantitative pour les sujets faiblement nomistes (Levy & Murnane, 2001), spécialistes des
compétents dont la situation est mieux qualifiée par sciences de l’éducation (Perrenoud, 2001) comment
le terme d’illettrisme que par celui de niveau faible de on pourrait définir les compétences nécessaires pour
littéracie. Il est plus heuristique de chercher à qualifier vivre et réussir dans le monde moderne. Ce type de
ces situations d’illettrisme en identifiant leurs causes travaux pourrait permettre de définir les compétences
plutôt que de les quantifier. L’enquête sur les compé- évaluées sur des bases théoriques et non unique-
tences en littéracie des adultes français « Informa- ment psychométriques. La validité du construit et son
tion et vie quotidienne » (Murat, 2005) comportait un interprétation s’en trouveraient davantage validées.
module particulier pour les sujets identifiés comme Il ne semble pas malheureusement que les résultats
étant en situation d’illettrisme visant à diagnostiquer de DESECO aient été injectés dans les réflexions
les causes de cet illettrisme. sur les enquêtes internationales d’évaluation des
Le choix fait par des enquêtes de type PISA d’éva- compétences.
luer des compétences n’est pas exempt de tout ques- Pierre Vrignaud
tionnement scientifique et idéologique. En effet, on se [email protected]
souvient des débats sur la mesure de l’intelligence Université Paris 10-Nanterre
et de la boutade de Binet. On court ici le risque de Laboratoire « Travail et évolution professionnelle »
NOTES
(1) En anglais, le terme d’Item Response Theory (IRT), est plus lar- (2) L’anglais utilise le terme de guessing (parfois traduit en fran-
gement utilisé. Le terme de modèle paraît plus approprié dans la çais par « pseudo-chance ») pour désigner, principalement dans
mesure où il s’agit de rendre compte du comportement du sujet les QCM, la probabilité de « deviner » la bonne réponse ou de
répondant à un item plutôt que de construire une théorie psy- la donner par hasard. On a jugé utile d’introduire ce paramètre
chologique du comportement du sujet comme le font remarquer dans les MRI pour rendre compte du fait que la probabilité de
H. Goldstein & R. Wood (1989). bonne réponse d’un sujet ne devient pas infiniment petite au
BIBLIOGRAPHIE
ADAMS R. J. (2002). « Scaling PISA cognitive data ». In CORTINA J. M. (1993). « What is coefficient alpha : An exami-
M. L. Wu & R. J. Adams (éd.), PISA 2000 : Technical nation of theory and application ». Journal of Applied
Report. Paris : OECD, p. 99-108. Psychology, vol. 78, p. 98-104.
ADAMS R. J. & CARSTENSEN C. (2002). « Scaling outcomes ». CRONBACH L. J. & MEEHL P. E. (1955). « Construct validity in
In M. L. Wu & R. J. Adams (éd.), PISA 2000 : Technical psychological tests ». Psychological Bulletin, vol. 52,
Report. Paris : OECD, p. 149-162. 281-302.
ADAMS R. J. & KHOO S. J. (1994). QUEST : The Interactive DEMPSTER A. P. ; LAIRD N. M. & RUBIN D. B. (1977). « Maxi-
Test Analysis System Version 2.0. Hawtorn : ACER. mum likelihood estimation from incomplete data via the
ADAMS R. J. & WU M. L. (2002). PISA : Technical report. EM algorithm (with discussion) ». Journal of the Royal
Paris : OECD. Statistical Society, Series B, vol. 39, p. 1-38.
BAKER F. B. (1992). Item Response Theory : parameter, esti- DICKES P. & FLIELLER A. (1997). Analyse secondaire des don-
mation techniques. New York : M. Dekker. nées françaises de la première enquête internationale sur
la littéracie des adultes (enquête IALS). Rapport pour le
BEATON A. E. & JOHNSON E. G. (1992). « Overview of the ministère de l’Éducation nationale. Paris : ministère de
scaling methodology used in the national assessment ». l’Éducation nationale ; Nancy : université de Nancy 2 :
Journal of Educational Measurement, vol. 29, p. 163-175. Laboratoire de psychologie : équipe GRAPCO.
BLUM A. & GUÉRIN-PACE F. (2000). Des lettres et des chiffres. DICKES P. & VRIGNAUD P. (1995). Rapport sur les traitements
Paris : Fayard. des données françaises de l’enquête internationale sur
BOCK R. D. & AITKIN M. (1994). « Marginal maximum likehood la littéracie. Rapport pour le ministère de l’Éducation
of item parameters : Application of an EM algorithm ». nationale. Paris : ministère de l’Éducation nationale.
Psychometrika, vol. 46, p. 443-459. DICKES P. ; TOURNOIS J. ; FLIELLER A. & KOP J.-L. (1994). Psy-
BOLT D. & STOUT W. (1996). « Differential item functioning : Its chométrie. Paris : PUF.
multidimensional model and resulting subtest detection
FISCHER G. H. & MOLENAAR I. W. [éd.] (1995). Rasch models :
procedure ». Behaviormetrika, vol. 23, p. 67-95.
Foundations, recent developments, and applications.
BOTTANI N. & VRIGNAUD P. [dir.] (2005). La France et les éva- New-York : Springer.
luations internationales. Rapport établi à la demande
GARDNER H. (1983). Frames of mind. New-York : Basic Books;
du Haut conseil de l’évaluation de l’école. Paris : Haut
trad. fr. Les formes de l’intelligence. Paris : O. Jacob,
conseil de l’évaluation de l’école. Disponible sur au
1997.
format PDF sur Internet à l’adresse : http://cisad.adc.
education.fr/hcee/documents/rapport_Bottani_Vri- GOLDSTEIN H. (1980). « Dimensionality, bias, independance
gnaud.pdf (consulté le 8 janvier 2007). and measurement scale problems in latent trait test
BRADLOW E. T. ; WAINER H. & WANG H. (1998). « A bayesian score models ». The British Journal of Mathematical and
random effects model for testlets ». In ETS Research Statistical Psychology, vol. 33, p. 234-246.
Report. RR-98-3. Princeton : Educational Testing GOLDSTEIN H. (2004). « International comparisons of student
Service. attainment : some issues arising from the PISA study ».
CANTO-SPERBER M. & DUPUY J.-P. (2001). « Competencies for Assessment in Education, vol. 11, p. 319-330.
the good life and the good society ». In D. S. Rychen & GOLDSTEIN H. & WOOD R. (1989). « Five decades of item
L. H. Salganik (éd.), Defining and Selecting Key Compe- response modelling ». The British Journal of Mathemati-
tencies. Göttingen : Hogrefe & Huber, p. 67-92. cal and Statistical Psychology, vol. 42, p. 139-167.
La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 39
GOLDSTEIN H. ; BONNET G. & ROCHER T. (soumis). « Multi- Internet à l’adresse : http://www.insee.fr/fr/ffc/docs_ffc/
level multidimensionnal structural equation models IP1044.pdf (consulté le 25 janvier 2007).
for the analysis of comparative data on Educational MURRAY T. S. ; KIRSCH I. S. & JENKINS L. B. [éd.] (1998). Adult
performance ». Journal of Educational and Behavioural Literacy in OECD countries. Technical report on the first
Statistics. international adult literacy survey. Washington [D. C.] :
GONZALEZ E. J. (2003). « Scaling the PIRLS reading assess- US Department of Education : National Center for Edu-
ment data ». In I. V. S. Mullis, M. O. Martin, E. Gonzalez cation Statistic, p. 105-134.
& A. Kennedy, PIRLS 2001 International Report. Boston : NANDAKUMAR R. (1994). « Assessing dimensionality of a set of
International Study Center. item responses-Comparison of different approaches ».
GOODY J. (2001). « Competencies and Education : Contex- Journal of Educational Measurement, vol. 31, p. 17-35.
tual Diversity ». In D. S. Rychen & L. H. Salganik (éd.), OCDE (1999). Mesurer les connaissances et compétences
Defining and Selecting Key Competencies. Göttingen : des élèves : un nouveau cadre d’évaluation. Paris :
Hogrefe & Huber, p. 175-190. OCDE.
HAMBLETON R. K. & SWAMINATHAN H. (1985). Item Response OCDE (2002). Définitions et sélections des compétences
Theory. Principles and applications. Boston : Kluwer- (DESECO) : fondements théoriques et conceptuels :
Nijhoff. document de stratégie. Neuchâtel : OFS. Document
HAMBLETON R. K. ; SWAMINATHAN H. & ROGERS H. J. (1991). disponible au format PDF sur Internet à l’adresse :
Fundamentals of item response theory. Newbury Park : http://www.portal-stat.admin.ch/deseco/deseco_doc_
Sage. strategique.pdf (consulté le 8 janvier 2007).
HASTE H. (2001). « Ambiguity, Autonomy and Agency ». In PERRENOUD P. (2001). « The key to social fields : Compe-
D. S. Rychen & L. H. Salganik (éd.), Defining and Select- tences of an Autonomous Actor ». In D. S. Rychen &
ing Key Competencies. Göttingen : Hogrefe & Huber, L. H. Salganik (éd.), Defining and Selecting Key Compe-
p. 93-120. tencies. Göttingen : Hogrefe & Huber, p. 121-150.
HUTEAU M. & LAUTREY J. (1999). Évaluer l’intelligence : psy- RASCH G. (1960). Probabilistic models for some intelligence
chométrie cognitive. Paris : PUF. and attainment tests. Copenhague : Nielsen & Lydiche.
JOHNSON E. G. (1992). « The design of the National Assess- RASCH G. (1977). « On specific objectivity. An attempt at
ment of Educational Progress ». Journal of Educational formalizing the request for generality and validity of
Measurement, vol. 29, p. 95-110. scientific statements ». Danish Yearbook of Philosophy,
vol. 14, p. 58-94.
KIRSCH I. S. ; JUNGEBLUT A. & MOSENTHAL P. B. (1998). « The
measurement of adult literacy ». In T. S. Murray, REMOND M. (2006). « Éclairages des évaluations internatio-
I. S. Kirsch & L. B. Jenkins (éd.), Adult Literacy in OECD nales PIRLS et PISA sur les élèves français ». Revue
countries. Technical report on the first international adult française de pédagogie, n° 157, p. 71-84.
literacy survey. Washington [D. C.] : US Department of REUCHLIN M. (1996). Psychologie différentielle. Paris : PUF
Education : National Center for Education Statistics, [nlle éd. aug.]
p. 105-134.
ROCHER T. (2003). « La méthodologie des évaluations inter-
KOLEN M. J. & BRENNAN R. L. (1995). Test Equating. Methods nationales de compétences ». Psychologie et Psycho-
and practices. New-York : Springer métrie, n° 24, p. 117-146.
LAVEAULT D. & GREGOIRE J. (2002). Introduction aux théories RUBIN D. B. (1991). « EM and beyond ». Psychometrika,
des tests en sciences humaines. Bruxelles : De Boeck. vol. 56, p. 241-254.
LEVY F. & MURNANE R. J. (2001). « Key Competencies Critical RUBIN D. B. (1987). Multiple imputation for nonresponse in
to Economic Success ». In D. S. Rychen & L. H. Sal- surveys. New York : Wiley.
ganik (éd.), Defining and Selecting Key Competencies.
RYCHEN D. & SALGANIK L. [éd.] (2003). Key Competencies
Göttingen : Hogrefe & Huber, p. 151-174.
for a Successful Life and a Well-Functioning Society.
LORD F. & NOVICK M. R. [éd.] (1968). Statistical theories of Göttingen : Hogrefe & Huber.
mental test scores. Reading : Addison-Wesley.
SALGANIK L. H. ; RYCHEN D. S. ; MOSER U. & KONSTANT J. W.
MISLEVY R. J. (1987). « Exploiting auxiliary information about (1999). Projects on competencies in the OECD context :
examinees in the estimation of item parameters ». Analysis of theoretical and conceptual foundations.
Applied Psychological Measurement, vol. 11, p. 81-91. Neuchâtel : Office fédéral des statistiques.
MISLEVY R. J. (1994). « Evidence and inference in educational SALGANIK L. & RYCHEN D. [éd.] (2001). Defining and Selecting
assessment ». Psychometrika, vol. 59, p. 439-483. Key Competencies. Seattle : Hogrefe & Huber.
MISLEVY R. J. ; BEATON A. E. ; KAPLAN B. & SHEEHAN K. M. SALINES M. & VRIGNAUD P. (2001). Apprécier et certifier les
(1992). « Estimating population characteristics from acquis des élèves en fin de collège : diplôme et éva-
sparse matrix samples of item responses ». Journal of luations-bilans. Rapport établi à la demande du Haut
Educational Measurement, vol. 29, p. 133-161. conseil pour l’évaluation de l’école. Paris : Haut conseil
MISLEVY R. J. & BOCK R. D. (1990). BILOG 3 : Item analysis de l’évaluation de l’école.
and test scoring with binary logistic models. Moores- SCHAFER J. L. & GRAHAM J. W. (2002). « Missing data : Our
ville : Scientific Software [2de éd.] view of the state of the art ». Psychological Methods,
MURAT F. (2005). « Les compétences des adultes à l’écrit, en vol. 7, p. 147-177.
calcul et en compréhension orale ». INSEE Première, SCHAFER J. L. & OLSEN M. K. (1998). « Multiple imputation for
n° 1044, 4 p. Document disponible au format PDF sur multivariate missing-data problems : A data analyst’s
La mesure de la littéracie dans PISA : la méthodologie est la réponse, mais quelle était la question ? 41