Muñiz Fernández, J. - Introducción A La Psicometría-Ediciones Pirámide (2018) PDF
Muñiz Fernández, J. - Introducción A La Psicometría-Ediciones Pirámide (2018) PDF
Muñiz Fernández, J. - Introducción A La Psicometría-Ediciones Pirámide (2018) PDF
a la Psicometría
Teoría clásica y TRI
JOSÉ MUÑIZ
CATEDRÁTICO DE PSICOMETRÍA DE LA UNIVERSIDAD DE OVIEDO
Introducción
a la Psicometría
Teoría clásica y TRI
EDICIONES PIRÁMIDE
COLECCIÓN «PSICOLOGÍA»
Director:
Francisco J. Labrador
Catedrático de Modificación de Conducta
de la Universidad Complutense de Madrid
Prólogo .......................................................................................................................... 13
1. Introducción ........................................................................................................... 15
2. Fiabilidad ................................................................................................................. 25
1. Coeficiente de fiabilidad ..................................................................................... 26
2. Estimación empírica del coeficiente de fiabilidad ............................................... 26
3. Estimación de las puntuaciones verdaderas ....................................................... 28
4. Fiabilidad de las diferencias ............................................................................... 31
5. Tipos de errores de medida ................................................................................ 32
6. Factores que afectan a la fiabilidad .................................................................... 33
6.1. Fiabilidad y variabilidad ........................................................................... 33
6.2. Fiabilidad y longitud ................................................................................ 34
6.3. Fiabilidad y nivel de las puntuaciones en el test ....................................... 36
7. Coeficiente alfa (a) ............................................................................................. 39
7.1. Concepto y fórmula .................................................................................. 39
7.2. Casos particulares de a ............................................................................. 40
7.3. Cálculo de a mediante análisis de varianza .............................................. 43
7.4. Coeficiente beta (b) ................................................................................... 44
7.5. Coeficientes basados en el análisis factorial de los ítems .......................... 45
7.6. Inferencias sobre a .................................................................................... 46
8. Teoría de la generalizabilidad ............................................................................. 51
8.1. Fuentes de error ........................................................................................ 51
8.2. Conceptos básicos ..................................................................................... 53
8.3. Diseños de recogida de datos .................................................................... 56
8.4. Coeficiente de generalizabilidad ................................................................ 58
8.5. Estudios de generalizabilidad y estudios de decisión ................................ 60
8.6. Error típico de medida .............................................................................. 61
8.7. Diseños de dos facetas .............................................................................. 62
9. Fiabilidad de los test referidos al criterio ........................................................... 63
9.1. Definición ................................................................................................. 63
9.2. Métodos de estimación de la fiabilidad .................................................... 65
© Ediciones Pirámide
10 / Índice
3. Validez ..................................................................................................................... 101
© Ediciones Pirámide
Índice / 11
1. Diseños
............................................................................................................... 184
2. Métodos ............................................................................................................. 184
© Ediciones Pirámide
12 / Índice
Apéndice ....................................................................................................................... 315
© Ediciones Pirámide
Prólogo
Los test son instrumentos de medida que utili- actualización de otros dos previos del autor, publi-
zan habitualmente los psicólogos para obtener in- cados en esta misma editorial Pirámide, uno sobre
formación que les ayude a tomar decisiones bien teoría clásica y otro sobre teoría de respuesta a los
fundamentadas. Estas decisiones pueden tener re- ítems. Esta fusión ha permitido reunir lo esencial de
percusiones importantes en la vida de las personas; ambos en un solo volumen, evitando redundancias
por tanto, es clave que los test utilizados cumplan y actualizando lo hecho, aparte de incluir nuevos
unos requisitos de calidad psicométrica demostra- temas y suprimir otros. Del enfoque clásico se expo-
bles. Precisamente de eso trata el libro que tiene en- ne lo fundamental: el modelo, la fiabilidad, la vali-
tre las manos, de mostrar cuáles deben ser las pro- dez, el análisis de los ítems, la transformación de las
piedades psicométricas de los test para que puedan puntuaciones y la equiparación; sin olvidarnos de
ser utilizados con garantía por los psicólogos. Que- los test referidos al criterio y la teoría de la genera-
ridos lectores, lo que van a encontrar en las páginas lizabilidad. En cuanto a la teoría de respuesta a los
que siguen es una introducción al campo de la psi- ítems, tras exponer su lógica y los avances que su-
cometría, como bien anuncia, sin sorpresas, el título pone sobre el enfoque clásico, se presentan los prin-
del libro. Está pensando para alguien que aún no cipales modelos, la curva característica del test, las
sabe, pero que pretende saber; por eso la filosofía funciones de información de los ítems y del test, los
del libro es iniciar a los estudiantes, profesionales y bancos de ítems, el funcionamiento diferencial y los
en general personas interesadas en la evaluación psi- test adaptativos informatizados. Finaliza el libro con
cométrica. Los contenidos se ajustan a la materia tres apartados de gran interés aplicado, como son
que los estudiantes de grado de psicología, educa- las fases o etapas para construir un test, los proble-
ción y ciencias sociales y de la salud deben aprender mas implicados en la utilización práctica de los test
en un semestre dedicado a la psicometría. También y unas reflexiones finales sobre el futuro de la eva-
los ya iniciados pueden repasar y actualizar sus co- luación psicométrica. La idea que inspira todo el
nocimientos, pues nunca viene mal volver a hollar libro es dar una visión comprensiva, no especializa-
los caminos andados y descubrir detalles que se nos da pero rigurosa, sobre el estado actual de la eva-
habían pasado desapercibidos. A todos vosotros va luación psicométrica, sin la cual no es posible un
dirigido este libro introductorio, que pretende ser de ejercicio profesional basado en evidencias, fieles a la
amigable lectura, pues no supone grandes conoci- idea de que una evaluación rigurosa es la base de un
mientos estadísticos o psicométricos previos. Si lo diagnóstico preciso que a su vez permita una inter-
leyereis con provecho, os abrirá las puertas a otros vención eficaz. Si falla la evaluación, todo lo demás
textos más avanzados, de los cuales hay actualmen- se viene abajo.
te abundancia tanto en nuestra propia lengua espa- El libro no hubiese sido posible sin la ayuda de
ñola como en inglés, y que se irán citando en su tantas y tantas personas, unas de forma explícita y
momento para animar a profundizar en los temas otras implícita, que tanto monta. En primer lugar, la
tratados. El grueso del libro procede de la fusión y fuerza motriz del libro son los alumnos de muchas
© Ediciones Pirámide
14 / Prólogo
partes del mundo a los que vengo impartiendo psico- muchos maestros, caminamos a hombros de gigantes,
metría desde hace ahora cuarenta años, con especial pero no quiero dejar de citar a dos de quienes más he
mención para los de las tres universidades españolas aprendido directamente en muchos sentidos: Maria-
en las que tuve el honor de trabajar: Complutense de no Yela y Ronald Hambleton. Sus profundos cono-
Madrid, Baleares y Oviedo. Son ellos quienes con sus cimientos psicométricos, unidos a su talante personal
dudas y preguntas incisivas me ayudan y estimulan a y bonhomía, fueron una bendición para mí; muchas
tratar de presentar la materia de forma amena y com- gracias, maestros. Nada saldría adelante sin el apoyo
prensible. No sé si lo habré logrado. Muchas gracias decidido de la directora editorial Inmaculada Jorge,
también a los compañeros de nuestro grupo de inves- que tuvo claro el proyecto desde el principio y me
tigación de psicometría: Marcelino Cuesta, Yolanda animó a ello. Se agradece sinceramente. Por supuesto,
de la Roca, Rubén Fernández, Eduardo Fonseca, la familia siempre está al quite: a mis hijas Laura y
Eduardo García-Cueto, Elena Govorova, Luis Ma- Marta y a mi mujer Alejandra va dedicado el libro.
nuel Lozano, Teresa Martínez, Víctor Martínez-Lo- Perdonad todos los demás no citados, sé que estáis
redo, Fernando Menéndez, Ignacio Pedrosa, Elsa ahí, como bien nos enseñó Bertolt Brecht en su bello
Peña, Francisco Prieto, Javier Suárez y Pamela Woits- poema «Preguntas de un obrero ante un libro». Mu-
chach. Nuestras sesiones y discusiones para sacar chas gracias a todos por todo. Espero que el libro
adelante los proyectos constituyen para mí una ver- resulte de interés y ayude a penetrar en los arcanos
dadera fuente de aprendizaje y motivación. He tenido de la psicometría, pues de eso se trata.
© Ediciones Pirámide
Introducción 1
La psicometría puede definirse en términos ge con los estímulos fisicos, y técnicas multivariadas,
nerales como el conjunto de métodos, técnicas y que junto con el resto de tecnología estadística re
teorías implicadas en la medición de las variables sultan imprescindibles para la construcción y aná
psicológicas. Como su nombre indica, trataría de lisis de los instrumentos de medida.
todo aquello relacionado con la medición de lo psi Como se puede observar, el campo de referen
cológico. Ahora bien, de la medición de lo psicoló cia del término «psicometría» es amplísimo, y no es
gico se ocupa también cualquier otro acercamiento nuestro objetivo entrar aquí a realizar una descrip
riguroso al estudio del comportamiento humano; lo ción o definición precisa de los bloques citados,
que constituiría lo específico de la psicometría sería cada uno de los cuales está a su vez altamente es
su énfasis y especialización en aquellas propiedades pecializado y estructurado en subáreas. En este li
métricas exigibles a las mediciones psicológicas in bro nos centraremos exclusivamente en la teoría de
dependientemente del campo sustantivo de aplica los test, abordando los dos grandes enfoques, el clá
ción y de los instrumentos utilizados. Así, por ejem sico y la teoría de respuesta a los ítems (TRI). Solo
plo, aspectos como la fiabilidad o la validez de las subrayar que el término «psicometría» es mucho
mediciones, por citar dos de los más conocidos, más genérico y amplio que el de teoría de los test,
constituyen requisitos exigibles para cualquier eva con el que erróneamente se le identifica a menudo,
luación psicológica, sea cual fuere su ámbito de tomando la parte por el todo. A partir de los años
aplicación y enfoque. Este tipo de especialización de sesenta se populariza también el término afín de
la psicometría en las categorías métricas que atra «psicología matemática», utilizado para denominar
viesan los distintos campos sustantivos de la psico aquellos trabajos caracterizados por un acerca
logía da lugar a que los tipos de contenidos sobre miento formalizado a los problemas psicológicos,
los que trabajan los psicómetras resulten bastante lo cual es básicamente coincidente con lo que se
amplios y variados. entendía por psicometría. De hecho, Thurstone
Una ojeada a los congresos organizados por las (1937) utiliza el término «psicología matemática»
sociedades psicométricas europea y americana, así para caracterizar en pocas palabras el objeto de la
como a las revistas científicas del área, permite ar sociedad psicométrica americana por él fundada.
ticular la mayor parte de la temática psicométrica Lo más específico y diferencial de la psicología ma
en torno a cinco grandes bloques: teoría de la me temática respecto de la psicometría serán los mode
dición, que abarcaría todo lo relativo a la funda los matemáticos elaborados para áreas específicas
mentación teórica de la medida; teoría de los test, de la psicología, tales como aprendizaje, memoria,
donde se explicitan la lógica y los modelos matemá percepción, lenguaje, pensamiento, interacción so
ticos subyacentes a la construcción y uso de los test; cial, etc., que proliferan a partir de los años cin
escalamiento psicológico, que aborda la problemá cuenta y sesenta, y que son en realidad la razón
tica inherente al escalamiento de estímulos psicoló fundamental que da sentido y apoya la nueva deno
gicos; escalamiento psicofisico, que hace lo propio minación de psicología matemática diferenciada de
© Ediciones Pirámide
16 / Introducción a la Psicometría
la anterior de psicometría. Como ocurriera antes en tual será encontrarse con las denominaciones espe
psicometría, se publican textos con esa denomina cíficas de las distintas subáreas. Como modesto
ción genérica (Atkinson, 1964; Coombs, Dawes y ejemplo, en este libro se tratará de las teorías de los
Tversky, 1970; Krantz, Atkinson, Luce y Suppes, test, tanto el enfoque clásico como la teoría de res
1974; Laming, 1973; Luce, Bush y Galanter, 1963; puesta a los ítems.
Restle y Greeno, 1970), que luego desaparecerá
para dar paso a las subáreas especializadas, apare
cen sociedades científicas de psicólogos matemáti 1. ORÍGENES Y DESARROLLO
cos con reuniones y congresos propios desde 1967 DE LA TEORÍA DE LOS TEST
y se publican revistas, con mención especial para el
Journal of Mathematical Psychology y British Jour- El nacimiento formal de la teoría de los test
nal of Mathematical and Statistical Psychology. puede ubicarse en los primeros trabajos de Spear
Que ambos términos, «psicometría» y «psicología man (1904, 1907, 1913), en los que establece los
matemática», denotan campos muy solapados se fundamentos de la teoría clásica de los test (TCT).
comprueba empíricamente al observar que los es El objetivo central era encontrar un modelo estadís
pecialistas publican sus trabajos en las revistas de tico que fundamentase adecuadamente las puntua
uno y otro campo y asisten indistintamente a los ciones de los test y permitiera la estimación de los
congresos y reuniones de las respectivas sociedades errores de medida asociados a todo proceso de me
científicas. Considerar, como hacen Estes (1975) o dición. El modelo lineal clásico propuesto por
Greeno (1980), la psicometría como la parte de la Spearman, que luego se abordará con cierto detalle,
psicología matemática dedicada a todo lo relacio destaca por su sencillez matemática y enjundia psi
nado con la medida es tan razonable como consi cológica, lo que le garantizará una larga vida. Asu
derar la psicología matemática aquella rama de la me que la puntuación empírica de una persona en
psicometría dedicada a los modelos matemáticos de un test (X ) consta de dos componentes aditivos:
procesos psicológicos, pero, eso sí, aquella resulta uno, la «verdadera» puntuación de la persona en el
menos respetuosa con la historia de la psicología, test (V ), y otro, el error (e) que inevitablemente va
ya que fue «psicometría» el término que originaria asociado a todo proceso de medición; es decir, se
mente se utilizó para tales menesteres. Así, Thur gún el modelo:
stone (1937), en su conferencia para la primera re
unión anual de la sociedad psicométrica que tuvo X = V + e
lugar en 1936, señala como objetivo de la sociedad
«estimular el desarrollo de la psicología como cien A partir de este modelo y unas asunciones míni
cia cuantitativa y racional. O lo que más brevemen mas, la teoría clásica desarrollará todo un conjunto
te puede denominarse psicología matemática». de deducciones encaminadas a estimar la cuantía del
Añade, además, algo que se olvida demasiado a error que afecta a las puntuaciones de los test. Los
menudo: «A la larga seremos juzgados por la signi inicios fueron como siempre inseguros, pues no era
ficación, relevancia y consistencia de los principios fácil abrirse paso en una psicología poco dada a ve
psicológicos que descubramos», dejando claro des leidades cuantitativas, pero los nuevos enfoques se
de el principio que la formalización y matematiza impusieron con rapidez y la mayoría de las univer
ción propias del enfoque psicométrico están al ser sidades incluyeron cursos de teoría de los test en el
vicio de los problemas psicológicos que tratan de currículum de sus licenciados. Cuenta Joncich (1968)
resolver, pero no constituyen un fin en sí mismo en la biografía de E. L. Thorndike que cuando este
para la psicometría. envió una copia de su libro pionero sobre medición
Quede ahí este breve apunte terminológico para (Thorndike, 1904) a su antiguo profesor William Ja
evitar confusiones y desasosiegos al lector que los mes, incluyó una nota diciéndole que obligase a leer
topare en su deambular por los reales de la psicolo lo a todos sus investigadores, pero que no se le ocu
gía, aunque no lo hará con mucha frecuencia, pues, rriese abrirlo a él, pues las figuras, curvas y fórmulas
como ya se ha señalado, debido a su amplitud, se que contenía le volverían loco. Ello puede dar una
han vuelto ambos demasiado genéricos y lo habi idea de la acogida que se esperaba por parte de la
© Ediciones Pirámide
Introducción / 17
psicología dominante de la época. Los años siguien teoría de los test a plantearse el estatus teórico de
tes conocieron una actividad psicométrica frenética sus mediciones, además de sus propiedades empíri
tanto en el campo de la teoría como en la construc cas, así como a terciar en la polémica que se abre
ción y tecnología de los test, así como en el campo entonces, y llega hasta nuestros días (Borsboom,
del escalamiento psicofisico y psicológico (Thur 2005; Gaito, 1980; Michell, 1986; Townsend y Ash
stone, 1927a, 1928b; Thurstone y Chave, 1929), muy by, 1984), sobre las relaciones entre las escalas y sus
cercanos por entonces al ámbito de los test. Guil implicaciones en el uso de las distintas técnicas es
ford (1936) tratará de sintetizar en su clásico manual tadísticas.
Psychometric Methods lo fundamental de los tres Pero la síntesis por antonomasia de la teoría
campos, teoría de los test, escalamiento psicológico clásica de los test será realizada por Gulliksen
y psicofísico, algo que nadie volvería a intentar, sal (1950) en su más que clásico libro Theory of Mental
vo la reedición de 1954 de su propio libro (Guilford, Test, que constituye, sin duda, la exposición mejor
1954), pues se habían vuelto lo suficientemente com estructurada del corpus clásico. Gulliksen, antiguo
plejos como para exigir cada uno de ellos un trata estudiante, luego ayudante y colega de Thurstone,
miento aparte. Esos años de incubación y desarrollo reconoce explícitamente el papel del maestro en su
dan lugar también a la institucionalización, y así, en formación, y en especial de su libro Fiabilidad y va-
1936, se funda la sociedad psicométrica americana lidez de los test (Thurstone, 1931), ya agotado por
con Thurstone a la cabeza y cuyo órgano de expre las fechas en las que Gulliksen escribía el suyo.
sión será la revista Psychometrika. Como comple También en los años cincuenta aparecerán las pri
mento de carácter aplicado, frente al más teórico de meras recomendaciones técnicas para el uso de los
Psychometrika, aparecerá unos años más tarde Edu- test (Technical Recommendations for Psychological
cational and Psychological Measurement (1941); lue Test and Diagnostic Techniques, 1954), que conoce
go seguirían otras muchas entre las que cabe destacar rán diversas actualizaciones y revisiones, la última
The British Journal of Mathematical and Statistical en 2014.
Psychology (1948), Journal of Educational Measure- También el escalamiento tendrá su clásico en
ment (1964), Journal of Educational Statistics (1976) los años cincuenta con el libro de Torgerson (1958)
y Applied Psychological Measurement (1977), por ci Theory and Methods of Scaling. Las dos ramas her
tar algunas. manas, teoría de los test y escalamiento, seguirán
En 1947 Thurstone publica su clásico texto sus propios caminos, y aunque en esta como en
Análisis factorial múltiple, técnica estadística con otras divisiones hay algo de arbitrario, pues la ma
orígenes en el campo psicométrico (Burt, 1941; Ke yoría de los modelos podrían generalizarse tanto a
lley, 1928; Spearman, 1927), que aportará un nota personas como a estímulos (Mosier, 1940, 1941),
ble avance para la construcción, análisis y valida también es verdad que existían bastantes problemas
ción de los test. En un campo como el del análisis específicos que justificaban la división.
factorial y las técnicas multivariadas en general, en Florecer parece haber sido el sino de los años
el que se han producido avances tan gigantescos, sesenta, y la teoría de los test no iba a ser menos.
potenciados por las facilidades informáticas y los Precisamente, en 1968 aparecerá el libro de Lord y
refinamientos estadísticos actuales, resulta, sin em Novick (1968) Statistical Theories of Mental Test
bargo, refrescante releer el libro de Thurstone y ad Scores, que sintetiza y reanaliza críticamente todo
mirar la cordura psicológica que lo impregna. Y es lo hecho anteriormente en teoría clásica de los test,
que cuando se piensa que un análisis factorial que abriendo nuevas y prometedoras perspectivas. En el
un ordenador personal actual despacha en unos se libro se incluye además el trabajo de Birnbaum so
gundos podía llevar meses a un equipo de investi bre los modelos de rasgo latente, que abrirán una
gadores de entonces, se entiende que se afinasen las línea completamente nueva en la teoría de los test,
hipótesis y aguzase el ingenio antes de someterlas conocida hoy como «teoría de respuesta a los ítems»
a prueba. (TRI). Este vuelco del modo de hacer clásico propi
Por los años cuarenta también publicará Ste ciado por la TRI va a oscurecer la mejora, al menos
vens (Stevens, 1946) su famoso trabajo sobre las es teórica, que prometía aportar al planteamiento clá
calas de medida, que obligará a los estudiosos de la sico la teoría de la generalizabilidad (TG) propuesta
© Ediciones Pirámide
18 / Introducción a la Psicometría
por Cronbach y colaboradores (Cronbach, Rajarat lado, las propiedades de los instrumentos (test,
nam y Gleser, 1963; Gleser, Cronbach y Rajarat ítems) dependían del tipo de personas utilizadas
nam, 1965; Cronbach, Gleser, Nanda y Rajaratnam, para establecerlas, por lo que en puridad no eran
1972). La TG puede considerarse una extensión del propiedades de los instrumentos de medida, sino de
modelo clásico, más que una alternativa. Mediante la interacción de estos con los objetos medidos. Por
el uso masivo del análisis de varianza, la TG preten ejemplo, un ítem resultaría fácil o difícil en función
derá analizar las fuentes del error de medida de un de la muestra de personas utilizada. En suma, los
modo sistemático y desglosado, frente al tratamien instrumentos de medida no eran invariantes respec
to globalizado de la teoría clásica. Pero las aparato to de las personas evaluadas. Pues bien, los modelos
sas complicaciones introducidas en relación con las de TRI permitirán dar una solución adecuada a
ventajas prácticas aportadas, unidas a la aparición esos dos problemas de fondo, y además aportarán
en la escena psicométrica del enfoque alternativo de todo un conjunto de avances tecnológicos comple
los modelos de TRI, relegarán la TG a un papel mentarios para la construcción y análisis de los test.
secundario en el campo de la teoría de los test. Una década de investigación intensa sobre los
No sería exacto decir que en el libro de Lord y distintos aspectos de los nuevos modelos, tanto a
Novick aparecen las primeras aportaciones sobre la nivel teórico como aplicado, permitirá a Lord (1980)
TRI (véase Muñiz y Hambleton, 1992, para un sintetizar en un libro hoy clásico los avances acumu
estudio detallado del origen y desarrollo de estos mo lados. El libro abre la década de los ochenta, que
delos), pero la exposición y sistematización de Birn conocerá una expansión inusitada de la literatura
baum, unidas a la plataforma publicitaria que supu psicométrica bajo la óptica de la TRI y revitalizará
so el libro, resultaron fundamentales para la rápida áreas que se encontraban atascadas, tales como los
expansión de los modelos. De hecho ya hacía ocho bancos de ítems, el sesgo o los test referidos al crite
años que Rasch había publicado su libro (Rasch, rio, por citar solo algunas. Como señala Anastasi
1960) sobre el modelo logístico de un parámetro. (1988) en la sexta edición de su incombustible
Sea como fuere, el libro de Lord y Novick, de Psychological Testing, la década de los ochenta ha
áspera lectura y notación infernal, marca un antes sido un período de avances inusuales en teoría de los
y un después en la teoría de los test: terminaba una test, tanto respecto al progreso tecnológico como a
época, la clásica, y comenzaba otra nueva marcada la sofisticación teórica o la mejora de la responsabi
por el predominio absoluto de la TRI. La nueva no lidad profesional. Esta década vendrá marcada por
negaba la anterior, aunque, como señalara Lord una hegemonía clara de los modelos de TRI, como
(1980), utilizará poco de ella para su formulación. puede comprobarse echando una ojeada a los con
Veamos a grandes rasgos cuáles eran las innovacio gresos de las sociedades psicométricas europea y
nes que aportaba la TRI. La teoría clásica hallába americana, o a las revistas, y por la aparición de
se enfrentada con dos problemas de fondo impor monografías independientes para cada una de las
tantes que no encontraban una solución satisfactoria áreas ahora vigorizadas por la TRI. No obstante, no
en el marco clásico. Por un lado, la medición de las debe sacar el lector la impresión de que esta hege
variables no era independiente del instrumento uti monía de la TRI supone la muerte del enfoque clá
lizado, algo así como si la longitud de los objetos sico, ni mucho menos, pues la parsimonia y sencillez
dependiese del tipo de regleta. Por ejemplo, si la in del modelo lineal clásico lo hacen apropiado en nu
teligencia de dos personas se mide con test distintos, merosas situaciones en las que la maquinaria pesada
los resultados de las mediciones no están en la mis de la TRI no puede maniobrar con eficacia.
ma escala; luego estrictamente no sabríamos cuál de A la vista de este panorama general de la teoría
las dos es más inteligente. Naturalmente, se había de los test esbozado en las líneas precedentes, se
desarrollado todo un conjunto de soluciones técni comprenderá la limitada dimensión de lo que se
cas para paliar el problema y poder equiparar las pretende presentar en las páginas que siguen, cuyo
puntuaciones, pero se carecía de una solución digna objetivo no es otro que ofrecer al lector de lengua
de una medición aspirante al adjetivo de científica. hispana una exposición clara y comprensiva de los
En pocas palabras, las mediciones no eran invarian aspectos fundamentales del enfoque clásico de los
tes respecto de los instrumentos de medida. Por otro test y de la teoría de respuesta a los ítems, indican
© Ediciones Pirámide
Introducción / 19
do en cada caso las fuentes adecuadas que permitan el primero que aplicó la tecnología estadística para
a quien lo desee una mayor profundización y pre analizar los datos provenientes de sus test, labor
paración para comprender cabalmente los recientes que continuará Pearson. Como bien señala Boring
avances de la teoría de los test, que no son pocos. (1950), si la década de los ochenta del siglo pasado
viene marcada por Galton, la de los noventa vendrá
Nota histórica sobre los test por Cattell y la primera de este siglo por Binet. Ja
mes McKeen Cattell (1860-1944) será el primero en
El desarrollo de la teoría de los test esbozado en utilizar el término «test mental» en su artículo
el apartado anterior corre parejo con la evolución «Mental test and measurements» publicado en la
de los test concretos que van surgiendo, y como es revista Mind en 1890, pero sus test, al igual que los
natural, ambos desarrollos influyen el uno sobre el de Galton, a quien por cierto admiraba, eran de
otro: los avances teóricos sobre los test y estos y sus carácter sensorial y motor fundamentalmente, y el
problemas sobre los progresos teóricos. Bien es ver análisis de los datos dejó clara la nula correlación
dad que el avance no ha sido completamente sincro entre este tipo de pruebas y el nivel intelectual de
nizado y en algunos momentos históricos una línea las personas (Wissler, 1901).
se ha adelantado por un tiempo a la otra, para lue Será Binet (Binet y Simon, 1905a) quien dé un
go volver a equilibrarse, como buenos vasos comu giro radical en la filosofía de los test al introducir
nicantes que son. Así como el hacer suele preceder en su escala tareas de carácter más cognoscitivo,
al pensar, los test como instrumentos se han antici encaminadas a evaluar aspectos como el juicio, la
pado a su fundamentación teórica. Los orígenes comprensión y el razonamiento, que según él cons
remotos de los primeros test podrían rastrearse se tituían los componentes fundamentales del com
gún Du Bois (1970) allá por el año 3000 a.C., cuan portamiento inteligente. La puntuación de los niños
do los emperadores chinos evaluaban la competen en la escala de Binet y Simon se expresaba en tér
cia profesional de sus oficiales. Pero los orígenes minos de edad mental, que no era otra cosa que la
más cercanos que darán lugar a los actuales test hay edad cronológica de los niños que obtenían la mis
que ubicarlos en aquellas primeras pruebas senso ma puntuación media que el niño evaluado. Segu
motoras utilizadas por Galton (1822-1911) en su ramente no es ajena al éxito alcanzado por la esca
famoso laboratorio antropométrico de Kensington. la esta forma tan sencilla y comprensible para los
En 1884, durante la Exhibición Internacional sobre no profesionales de expresar las puntuaciones de
la Salud, que tuvo lugar en Londres, por la módica los niños. En la revisión de la escala que llevó a
suma de tres peniques Galton medía a los visitantes cabo Terman en la Universidad de Stanford, y que
todo un conjunto de índices antropométricos y sen se conoce como la revisión Stanford-Binet (Terman,
somotores luego utilizados en sus estudios, como, 1916), se utilizó por primera vez el cociente intelec
por ejemplo, las dimensiones de la cabeza, estatura, tual (CI) para expresar las puntuaciones. La idea
longitud de los brazos extendidos, peso, fuerza de era originaria de Stern, que en 1911 propuso dividir
ambas manos, capacidad respiratoria, agudeza vi la edad mental (EM) entre la cronológica (EC),
sual de ambos ojos, altura sentado, longitud del multiplicando por 100 para evitar los decimales:
brazo, agudeza auditiva, tiempo de reacción visual
y auditivo, precisión al dividir una línea en dos y
EM
tres partes iguales, error al estimar la apertura de CI = × 100
un ángulo de 90 grados y otro de 60, etc. Hoy en EC
contramos natural que al tratar de relacionar estas
medidas con el funcionamiento intelectual no se en Esta fructífera veta de las escalas individuales
contrase conexión alguna, pero la hipótesis galto de inteligencia abierta por Binet en 1905 y que se
niana de origen (Galton, 1883) tenía su lógica: si los continúa hasta nuestros días había intuido, mejor
datos sobre los que operamos han de ser filtrados que la hipótesis galtoniana, que si se desea evaluar
por los sentidos, aquellos que contasen con sensores el potencial intelectual hay que utilizar tareas cog
más finos dispondrían de un campo más amplio de noscitivamente complejas, que se asemejen de al
actuación. También cabe a Galton el honor de ser gún modo al tipo de cometidos intelectuales que se
© Ediciones Pirámide
20 / Introducción a la Psicometría
pretende predecir. Puede decirse que el éxito de es damentales del funcionamiento inteligente: com
tas escalas para predecir el rendimiento escolar dé prensión verbal, fluidez verbal, aptitud numérica,
bese en gran medida al parecido de las tareas exi aptitud espacial, memoria, rapidez perceptiva y ra
gidas por ambos lados, escala y escuela. De hecho zonamiento general. Dando más importancia a un
la causa próxima para que Binet pusiese manos a factor general de inteligencia que articularía jerár
la obra de confeccionar su escala fue un encargo quicamente otros factores de grupo (escuela ingle
del Ministerio de Instrucción Pública para la detec sa), o reclamando un plano de igualdad para facto
ción y educación de los niños con deficiencias de res múltiples (escuela americana), el hecho central
inteligencia que asistían a las escuelas de París. fue que el análisis factorial había permitido estruc
Para una buena exposición de la escala, así como turar, no sin polémicas, la otrora genérica puntua
las sucesivas revisiones llevadas a cabo, véase Anas ción global de la inteligencia. En ocasiones los mo
tasi (1988). delos alcanzaron grados de fragmentación rayanos
El paso siguiente en el devenir histórico de los en el desmenuzamiento, como en el caso de Guil
test vendrá marcado por la aparición de los test de ford (1967), que propone nada menos que 120 ras
inteligencia colectivos, propiciados por la necesidad gos intelectuales. Los distintos modelos darán lugar
del ejército estadounidense en 1917 de seleccionar y a numerosas baterías de test (PMA, DAT, GATB,
clasificar a los soldados que iban a tomar parte en TEA, etc.) de uso habitual actualmente. Excede por
la Primera Guerra Mundial. Un comité dirigido completo del cometido de estas líneas tratar de de
por Yerkes diseñó a partir de diverso material ya cir algo acerca del problema subyacente de la natu
existente, especialmente de test inéditos de Otis, los raleza de la inteligencia; la literatura al respecto es
hoy famosos test Alfa y Beta, el primero para la ciertamente abundante, y se aconseja al lector inte
población general y el segundo para utilizar con resado la consulta de textos en español como los de
analfabetos o reclutas sin dominio del inglés. Tras Juan-Espinosa (1997) o Colom (1995, 2002).
numerosas revisiones, estos test todavía siguen en A la vez que se producían los desarrollos cita
uso. Debido a su éxito en el ejército, una vez finali dos en el campo de los test cognoscitivos, también
zada la guerra la industria y el resto de las institu los test de personalidad se beneficiaban de los avan
ciones en general adoptaron en masa el uso de los ces técnicos que se iban produciendo, especialmen
test, conociéndose una expansión sin precedentes te los derivados del análisis factorial y otras técni
durante la próxima década, aunque no siempre en cas multivariadas afines. Suele citarse como origen
las mejores condiciones, debido por un lado a las próximo de los cuestionarios de personalidad de
limitaciones de los propios test, todavía un tanto carácter psicométrico la hoja de datos personales
rudimentarios, y por otro al uso de las puntuacio utilizada por Woodworth en 1917 durante la Prime
nes más allá de lo que era razonable. ra Guerra Mundial para la detección de neuróticos
Con la experiencia acumulada iba quedando graves. En la actualidad, la sofisticación técnica en
cada vez más claro que una puntuación global de la construcción y análisis de los test de persona
inteligencia tal como la medían estos test no descri lidad, que son legión (CEP, EPI, MMPI, 16PF,
bía con suficiente precisión los diferentes aspectos CPI, etc.), no se diferencia en nada de la utilizada
del funcionamiento intelectual de las personas, y se con los test de aptitudes, si bien existen problemas
imponía la evaluación de características más espe específicos en unos y otros. Por su parte, el psi
cíficas cara a realizar pronósticos particulares más quiatra suizo Rorschach propone en 1921 su famo
precisos. Si bien ello ya se venía haciendo de un so test proyectivo de manchas de tinta, al que se
modo más o menos sistemático, con la aparición de guirán otros test proyectivos de muy distinto tipo
las hoy clásicas baterías de aptitudes habrá de espe de estímulos y tareas, aunque basados en la discu
rar a que la técnica del análisis factorial dé sus fru tible asunción de la proyección, entre los que cabe
tos a partir de los años treinta y sobre todo cuaren citar el TAT, CAT, test de frustración de Rosen
ta. Su producto más genuino serán las aptitudes zweig, etc. Sin embargo, la técnica proyectiva que
mentales primarias de Thurstone (Thurstone, 1938; puede considerarse pionera es la asociación de pa
Thurstone y Thurstone, 1941), que conformaban lo labras o test de asociación libre, descrita por Gal
que entonces se consideraban los componentes fun ton y utilizada incluso en el laboratorio por Wundt
© Ediciones Pirámide
Introducción / 21
© Ediciones Pirámide
22 / Introducción a la Psicometría
matemática puede hacerse una idea imaginando que Novick (1968) ofrecen formulaciones axiomáticas
se aplicase un test «infinitas» veces a la misma per rigurosas del modelo a las que se remite al lector
sona. También debe imaginar que cada aplicación ávido de elegancia matemática.
no afecta a las otras y que la persona no cambia en
el curso de las aplicaciones. En estas condiciones, la
puntuación verdadera de la persona en el test sería Definición
la media aritmética de las puntuaciones empíricas
obtenidas en las «infinitas» aplicaciones. La puntua Finalmente, se definen teóricamente los test pa
ción verdadera es, por tanto, un concepto matemá ralelos, asumiéndose implícitamente que se pueden
tico. A partir de los valores de X (puntuaciones em construir de hecho. De un modo menos formal que
píricas), y bajo ciertos supuestos que se irán viendo, el señalado en su definición, podría decirse que dos
la TCT permite hacer estimaciones probabilísticas test se consideran paralelos si miden lo mismo pero
razonables acerca del valor de las puntuaciones ver con diferentes ítems. Lord y Novick (1968) han de
daderas (V ). Conviene entenderlo bien, pues a me sarrollado además otros tipos de paralelismo. De
nudo se ha hecho una conceptualización platónica nominan test «tau equivalentes» a aquellos con
de las puntuaciones verdaderas, considerándolas puntuaciones verdaderas iguales para las personas
algo mágico y estático, propiedad de las personas y en ambas formas, pero con varianzas error no ne
que determina su conducta. Del modelo no se sigue cesariamente iguales. Test «esencialmente tau equi
esta interpretación circular; la puntuación empírica valentes» serían aquellos en los que la puntuación
en un test es una muestra de conducta que si reúne verdadera de cada persona en uno de ellos es igual
ciertos requisitos de medida, y bajo ciertos supues a la del otro más una constante:
tos, permite hacer inferencias probabilísticas funda
das. De esto trata la teoría de los test. V1 = V2 + K
© Ediciones Pirámide
Introducción / 23
La media de las puntuaciones empíricas es igual La correlación entre las puntuaciones empíricas
a la media de las verdaderas. y los errores es igual al cociente entre la desviación
típica de los errores y la de las empíricas.
cov (V, e) = 0 [1.4]
µ1 = µ2 = … = µk [1.9]
Las puntuaciones verdaderas no covarían con
s 2(X1) = s 2(X2) = … = s 2(Xk) [1.10]
los errores, lo cual es inmediato del supuesto 2 del
modelo. r(X1, X2) = r(X1, X3) = … = r(Xj, Xk) [1.11]
© Ediciones Pirámide
Fiabilidad 2
Las mediciones psicológicas, como las de cual- instrumentos de medida lo que puede ser sencilla-
quier otra ciencia, han de ser fiables, es decir, han mente variabilidad legítima de la variable medida.
de estar libres de errores de medida. Un instrumen- Nótese bien que el concepto de fiabilidad no se
to de medida, en nuestro caso un test o una escala, contradice en absoluto con la naturaleza cambian-
se considera fiable si las medidas que se hacen con te de la conducta humana, como de un modo su-
él carecen de errores de medida, son consistentes. perficial se ha sugerido en algunas ocasiones; que
Una balanza es fiable si cada vez que pesamos el cambie lo medido no anula la exigencia —todo lo
mismo objeto nos da el mismo resultado. Análoga- contrario— de que los instrumentos de medida
mente, un test será fiable si cada vez que se aplica sean precisos. ¿Cómo m edir adecuadamente el
a las mismas personas da el mismo resultado. La cambio sin instrumentos precisos? No conviene
balanza lo tiene más fácil: el mismo objeto puede confundir la fiabilidad del instrumento de medida
pesarse varias veces sin problema, pero los huma- con la estabilidad o modificabilidad del constructo
nos cambian de una vez para otra, y a veces puede medido. La fiabilidad se refiere a la estabilidad de
resultar problemático saber con seguridad si la las mediciones cuando no existen razones teóricas
inestabilidad observada en las mediciones se debe ni empíricas para suponer que la variable a medir
a la imprecisión del instrumento o a los cambios haya sido modificada diferencialmente para las per-
legítimos operados por las personas. Los errores de sonas, por lo que se asume su estabilidad, mientras
medida de los que se ocupa la fiabilidad son aque- no se demuestre lo contrario. Por ejemplo, parece
llos no sometidos a control e inevitables en todo sensato suponer que si se mide la inteligencia espa-
proceso de medir, sea fisico, químico, biológico o cial de unas personas un día determinado y tam-
psicológico. En muchas ocasiones las diferencias bién se hace al día siguiente, su valor ha de ser bá-
entre una medición y otra no dependen solo de es- sicamente el mismo, por lo que las posibles mínimas
tos errores, pudiendo explicarse además por los diferencias esperadas podrían atribuirse razonable-
cambios operados en las personas, debidos a pro- mente a los errores aleatorios inherentes a todo
cesos madurativos, intervenciones o eventos de acto de medir. Un test no sería fiable si cada día
cualquier otro tipo. Incluso las inconsistencias pue- generase mediciones diversas de una variable que
den tener sentido en el marco en el que se lleva a se supone estable. Ahora bien, lo que es válido
cabo la medición. En estos casos la inestabilidad de para la inteligencia espacial no tiene por qué serlo
las mediciones requiere una explicación y carece de para otras variables; por ejemplo, parece que la
sentido atribuirla a los errores aleatorios. La fiabi- hora del día puede explicar gran parte de la varia-
lidad no trata ese tipo de «errores», que han de bilidad del tiempo de reacción de las personas, por
venir explicados por los modelos manejados. En lo que será en cada caso el psicólogo quien investi-
cada situación el psicólogo tendrá que identificar gue las fuentes de error de las mediciones. No obs-
las fuentes de error que afecten a las mediciones y tante, a nadie se le ocurrirá decir que los relojes que
no achacar, por ejemplo, a la baja fiabilidad de los miden el tiempo de reacción en milisegundos no
© Ediciones Pirámide
26 / Introducción a la Psicometría
son fiables por el hecho de que las medidas varíen ve que rXX ′ indica la proporción que la varianza
a lo largo del día; la fiabilidad del instrumento no verdadera es de la empírica. Si no hubiese errores
va unida a la estabilidad de la variable medida a lo aleatorios, entonces (sv)2 = (sx)2 y rXX ′ = 1. Tal vez
largo del tiempo. Para un análisis detallado de la se vea más claro todavía en [2.2]: si (s e) 2 = 0,
dialéctica fiabilidad/estabilidad de la conducta des- rXX ′ = 1; y si (se)2 = (sX)2, o, lo que es lo mismo,
de el punto de vista de la psicología clínica, véanse (sv)2 = 0, entonces rXX ′ = 0. Se suele denominar ín-
Silva (1989) y en general Cronbach y Furby (1970). dice de fiabilidad ( rxv) a la correlación entre las
Una interesante revisión sobre el problema de la puntuaciones empíricas de un test y las verdaderas,
fiabilidad en las investigaciones psicológicas puede siendo igual a la raíz cuadrada del coeficiente de
verse en Schmidt y Hunter (1996). fiabilidad (véase apéndice):
En este capítulo se analizarán los distintos mo-
dos de estimar la fiabilidad de los test y la proble- σV
mática implicada. ρ XV = ρ XX ′ = [2.3]
σX
A partir de estas dos fórmulas es imposible cal- Dicha correlación será precisamente el coefi-
cular empíricamente rXX ′, dado que el valor de ciente de fiabilidad. Este método se denomina por
(sv)2 y (se)2 no se puede obtener de las respuestas razones obvias método de las formas paralelas, y es
de las personas a los ítems. No obstante, son útiles el que emana genuina y directamente del modelo.
para dar una idea conceptual de lo que representa No es infrecuente denominar coeficiente de equiva-
el coeficiente de fiabilidad. Por la primera, [2.1], se lencia al valor obtenido, aludiendo a que cierta-
© Ediciones Pirámide
Fiabilidad / 27
mente indicaría el grado en el que ambas formas transcurrir entre ambas aplicaciones. Si se deja mu-
son equivalentes. Se suelen utilizar además otros cho, se introduce una gran fuente de invalidez in-
dos métodos, denominados, respectivamente, «test- terna, a saber, la ignota influencia diferencial de ese
retest» y «dos mitades». Veamos en qué consisten. período de tiempo en las personas; pero si transcu-
rre poco tiempo, la invalidez interna se cuela vía
Test-retest. Para calcular el coeficiente de fia- memoria de lo realizado previamente. No hay regla
bilidad por este método se aplica el mismo test en universal: depende en gran parte del tipo de test, ya
dos ocasiones a las mismas personas; la correlación que es evidente que hay unos test más propensos a
entre las puntuaciones de las dos aplicaciones será ser recordados que otros. Una aproximación rigu-
el coeficiente de fiabilidad. Dado que obviamente un rosa al problema general del test-retest puede con-
test es paralelo a sí mismo, este método es perfecta- sultarse en Jöreskog y Sörbom (1976).
mente congruente con el modelo, denominándose a Finalmente, el método de las dos mitades es
la estimación obtenida «coeficiente de estabilidad», muy funcional, pues solo exige una sola aplicación
pues indica en qué grado son estables las mediciones del test. No obstante, hay que garantizar que las
realizadas en la primera aplicación del test. mitades del test sean paralelas. No es recomenda-
ble, por ejemplo, considerar mitades la primera
Dos mitades. Por este método se aplica el test parte del test por un lado y la segunda por otro,
una sola vez, obteniéndose para cada persona las pues las personas evaluadas llegarán más cansadas
puntuaciones correspondientes a cada una de las a la segunda; además, en muchos test cognosciti-
mitades en las que se divide el test. El coeficiente de vos los ítems van aumentando en dificultad, por lo
fiabilidad viene dado por la correlación entre esas que la segunda parte resultaría más difícil que la
dos mitades (que será la estimación de la fiabilidad primera. Para evitar esto es frecuente tomar como
del test mitad) más una corrección para obtener la una mitad los ítems pares y como otra los impa-
fiabilidad del test total (esta corrección se verá más res, o usar algún otro tipo de apareamiento de los
adelante cuando se exponga la fórmula de Spear- ítems. En definitiva, es un problema de control ex-
man-Brown). La estimación así obtenida, más que perimental.
equivalencia o estabilidad, como en los casos ante- Un factor del test a tener en cuenta para elegir
riores, indica la covariación o consistencia interna un método u otro de los comentados, o de otros
de las dos mitades; es, pues, un indicador de la con- que se verán más adelante, es si se trata de un test
sistencia interna del test. de velocidad o de un test de potencia. Suele enten-
derse por test de velocidad aquel cuya realización
Si bien la lógica de estos tres métodos es clara, no conlleva dificultad alguna, o, más exactamente,
su realización empírica plantea diversos problemas el que todas las personas son capaces de realizar,
experimentales relativos a la validez interna, para aunque difieran en la rapidez de ejecución. Por el
los cuales el modelo no da especificaciones concre- contrario, un test de potencia o poder sería aquel
tas, quedando al criterio del psicólogo para cada en el que las diferencias entre las personas son ge-
situación nueva planteada. A continuación se co- neradas por su distinta capacidad intelectual para
mentan algunos de ellos. resolver las tareas propuestas. No hacen falta mu-
En el método de las formas paralelas el proble- chas explicaciones para entender que en la práctica
ma fundamental es la construcción de dichas for- la mayoría de los test suelen ser mixtos, variando la
mas paralelas. Es difícil a nivel teórico hacer un test proporción de ambos componentes: en unos predo-
que mida exactamente lo mismo que otro, pero con mina más la velocidad, y en otros, la potencia.
distintos ítems; tal vez, incluso, filosóficamente im-
posible, y en la práctica es enormemente laborioso. Índices de velocidad-potencia
Si se superan los problemas y se dispone de dos (o
más) formas paralelas, probablemente es el método El grado de velocidad de un test influye en sus
más recomendable. parámetros más importantes, como su fiabilidad, su
En el método test-retest una cuestión de difícil validez, la estructura factorial de los ítems, o en su
solución es delimitar el tiempo óptimo que debe caso de la batería; de ahí que se hayan propuesto
© Ediciones Pirámide
28 / Introducción a la Psicometría
diferentes índices para expresar la proporción velo- limitado, 0,70, y sin tiempo límite, 0,80. Calcular el
cidad/potencia (véase, por ejemplo, Donlon, 1978, índice de velocidad del test.
para un buen análisis). Gulliksen (1950) sugiere el
cociente entre la varianza de los errores cometidos
(0,60)2
y la varianza de los fallos (errores más no intenta- IV = 1 – = 0,36
dos). Cuanto más bajo sea el cociente, más de velo- (0,70)(0,80)
cidad será el test; con el límite cero indicando que
todos los fallos se deben a no-intentos, el test sería El 36 % de la varianza de las puntuaciones sería
de velocidad pura. atribuible a la velocidad de respuesta de los univer-
sitarios.
Otro indicador más sencillo y de fácil uso es el
σ e2
IV = cociente de velocidad propuesto por Stafford
σ F2 (1971):
© Ediciones Pirámide
Fiabilidad / 29
tiendo desde el principio que estas estimaciones han se estimará a las personas que obtuvieron una pun-
de tomarse con extremada cautela cuando se hacen tuación empírica en el test de 80 puntos?
para una persona en particular, siendo más apro-
piadas para la descripción de grupos. Datos:
a)
Estimación mediante la desigualdad Che- N = 1.000; SX = 10; rXX ′ = 0,64; X = 80
bychev
Se = SX 1 – rXX ′ = 10 1 – 0,64 = 6
Como es sabido, la desigualdad de Chebychev
—
establece que para toda variable X con media X y 1 – 1/K 2 = 0,99; por tanto: K = 10.
desviación típica SX: Sustituyendo en [2.7]:
1 P{ 80 – V ¯ (10)(6)} ˘ 0,99
∀K P{ X – X ¯ K (SX )} ˘ 1 – [2.6]
K2
P{V – 80 ¯ (10)(6)} ˘ 0,99
P{–60 ¯ V – 80 ¯ 60} ˘ 0,99
que traducido a la terminología psicométrica del
modelo clásico: P{20 ¯ V ¯ 140} ˘ 0,99
© Ediciones Pirámide
30 / Introducción a la Psicometría
Adviértase que el precio a pagar por reducir la otra X, según el criterio de mínimos cuadrados, vie-
amplitud del intervalo es la asunción de normalidad ne dado por la expresión:
que se añade al modelo. Hasta ahora no se había
hecho ninguna asunción sobre la forma de las dis-
σY
tribuciones de las puntuaciones. Esta asunción de
normalidad e igualdad de las varianzas condiciona-
Y ′ = ρ XY 1σ 2(X – X ) + Y
X
[2.8]
c) Estimación según el modelo de regresión Es decir, a las personas con una puntuación em-
pírica de 60 se les pronostica una verdadera de 56.
Como es bien sabido, en el modelo de regresión Ahora bien, el modelo de regresión utilizado lo úni-
lineal el pronóstico de una variable Y a partir de co que garantiza es que «a la larga» los errores de
© Ediciones Pirámide
Fiabilidad / 31
pronóstico cometidos son mínimos, según el criterio Nótese que el intervalo así obtenido siempre
de mínimos cuadrados, pero la puntuación pronos- será menor o igual al obtenido en el apartado b).
ticada V ′ no siempre coincidirá con V, denominán- Allí se utilizaba se para establecerlo, mientras que
dose precisamente a esa diferencia error de estima- aquí se utiliza sV · X, que es igual a σ e ρ XX ′ . Cuan-
ción. Es por ello por lo que para asegurarse de los do rXX ′ tomase su valor máximo de 1 (por otra par-
pronósticos, en vez de realizar estimaciones puntua- te inalcanzable empíricamente), entonces sV · X ′ = se,
les, se establecen intervalos confidenciales en torno y los intervalos serían iguales.
a la puntuación pronosticada V ′. Para establecer
dichos intervalos nos valemos del error típico de Nota. Todas las fórmulas utilizadas en este apar-
estimación, que es la desviación típica de los errores tado están expresadas en puntuaciones directas. A
de estimación, y que en su forma general, para dos continuación se ofrecen para la escala diferencial y
variables X e Y, viene dado por típica. Se propone como ejercicio al lector la obten-
ción de estas sencillas transformaciones de escala.
σY ·X = σY 1 – ρ XY
2
[2.10]
σY
Que traducido a la terminología y supuestos del
modelo lineal clásico (véase apéndice) puede expre-
Directas Y ′ = ρ XY 1σ 2(X – X ) + Y
X
σ V ·X = σ X 1 – ρ XX ′ ρ XX ′ [2.11] típicas ZY ′ = ρ XY ZX
Directas V ′ = ρ XX ′ (X – X ) + X
o también, teniendo en cuenta que σ X 1 – ρ XX ′ = σ e :
diferenciales v ′ = ρ XX ′ x
σ V ·X = σ e ρ XX ′ [2.12]
típicas ZY ′ = ρ XX ′ Z X
Asumiendo que los errores de estimación se dis- Directas σY ⋅X = σY 1 – ρ XY
2
tribuyen normalmente en torno a V ′, se pueden es-
tablecer los correspondientes intervalos confiden- diferenciales Igual que en directas
ciales. Establezcamos dicho intervalo para el mismo
ejemplo de los apartados anteriores a) y b) y com- típicas σ Zx ⋅ZY = 1 – ρ XY
2
paremos los resultados.
Recuérdese que los datos eran: NC: 99 %; Directas σY ⋅X = σ X 1 – ρ XX ′ ρ XX ′
—
N = 1.000; SX = 10; rXX ′ = 0,64; X = 80; X = 70.
diferenciales Igual que en directas
Al NC del 99 % corresponde una ZC de
1.
±2,58. típicas σ Zv ⋅ZX = 1 – ρ XX ′ ρ XX ′
2. σ V ·X = σ X 1 – ρ XX ′ ρ XX ′ =
© Ediciones Pirámide
32 / Introducción a la Psicometría
de alguna medida de su fiabilidad. Dos diferencias entre las puntuaciones de 1.000 personas en ambos
iguales pueden tener muy distinto valor científico test fue de 0,40. ¿Cuál será el coeficiente de fiabili-
para el psicólogo en función de su fiabilidad. dad de las diferencias entre las puntuaciones de las
Para dos test X y Z la fiabilidad de las diferen- personas en ambos test?
cias entre sus puntuaciones: (X – Z ) = d, como fá-
cilmente se puede derivar (véase apéndice), viene 0,60 + 0,50 – 2(0,40)
dada por: rdd ′ = = 0,25
2(1 – 0,40)
El coeficiente de fiabilidad de un test de inteli- Hasta aquí se han definido dos tipos de errores:
gencia espacial fue 0,60, y el de otro test también de el error de medida y el error de estimación. Cabe citar
inteligencia espacial, 0,50. La correlación obtenida además (Gulliksen, 1950; Lord y Novick, 1968) el
© Ediciones Pirámide
Fiabilidad / 33
error de sustitución y el error de predicción. A conti- diante la recta de regresión de X1 sobre X2, que
nuación se exponen los cuatro junto con sus respecti- viene dada según el modelo general [2.8] adaptado
vas desviaciones típicas y se comentan brevemente. a nuestra terminología por:
1. Error de medida σ1
X 1′ = ρ12 (X 2 – X 2 ) + X 1 [2.18]
σ2
e = X –V
σ e = σ X 1 – ρ XX ′ [2.4] A modo de ejercicio, trate el lector de derivar
los cuatro errores típicos partiendo de las varianzas
2. Error de estimación de los correspondientes errores de medida. Trate
asimismo de ordenarlos de menor a mayor.
e =V –V′
© Ediciones Pirámide
34 / Introducción a la Psicometría
© Ediciones Pirámide
Fiabilidad / 35
y simplificando
Ejemplo
n ρ xx ′
ρ XX ′ =
La fiabilidad de un test de 40 ítems resultó ser 1 + (n – 1) ρ xx ′
0,80. ¿Cuántos ítems habría que añadirle para que
su fiabilidad fuese 0,90? que es precisamente la fórmula propuesta.
© Ediciones Pirámide
36 / Introducción a la Psicometría
Nótese que al aumentar n veces la longitud de un tiene una fiabilidad razonable con no muchos ítems,
test su varianza verdadera aumenta proporcional- pero si el test ya tiene un número considerable de
mente más que su varianza empírica, pues, mientras ítems y, sin embargo, es poco fiable, más que su lon-
que la verdadera original resulta multiplicada por n2, gitud hay que ir pensando en cambiar los ítems, en
la empírica se multiplica por n[1 + (n – 1)rxx ′], expre- construir otro.
sión cuyo valor solo se igualaría a n2 en el caso de
que rxx ′ = 1, hecho poco probable en la práctica, por
no decir imposible. Esta es precisamente la razón de 6.3. Fiabilidad y nivel de las puntuaciones
que al aumentar la longitud aumente la fiabilidad, en el test
pues aumenta más el numerador (varianza verdade-
ra) que el denominador (empírica). Hasta ahora se ha visto cómo se calculaba el
coeficiente de fiabilidad y el error típico de medida
para una muestra determinada, asumiendo implíci-
Límite de rxx ′ cuando n tiende a infinito tamente que sus valores eran comunes para todas
las personas de la muestra, independientemente de
Según Spearman-Brown: sus puntuaciones en el test. Ahora bien, un test no
siempre resulta igualmente preciso para todas las
n ρ xx ′ personas; su error típico de medida puede depender
ρ XX ′ = de la puntuación o nivel de las personas en el test.
1 + (n – 1) ρ xx ′ En este apartado se expone la forma de calcular el
error típico de medida para distintos niveles de pun-
bajando n al denominador tuaciones en el test. Pero antes de pasar a exponer
el método de cálculo, veamos a qué se puede deber
esta variación de los errores típicos de medida. La
ρ xx ′
ρ XX ′ = causa fundamental de que el error típico de medida
[1 + (n – 1) ρ xx ′ ]/ n no sea el mismo para cualquier nivel de puntuacio-
nes radica en el tipo de ítems que componen el test.
y dividiendo cada sumando entre n y simplificando: Por ejemplo, si ocurriese que la mayoría de los ítems
fuesen de dificultad media, el test mediría con mayor
precisión a las personas de nivel medio, es decir, los
ρ xx ′
ρ XX ′ = errores de medida tenderían a ser mayores para el
(1/ n) + (n – 1) ρ xx ′ / n caso de personas de alta y baja competencias en la
variable medida. Por el contrario, si los ítems son en
ρ xx ′
ρ XX ′ = su mayoría de dificultad elevada, la prueba tenderá
(1/ n) + ρ xx ′ – (1/ n) ρ xx ′ a dar mediciones más precisas para las personas de
alto nivel, en detrimento de aquellas con puntuacio-
Ahora bien, cuando n tiende a infinito: 1/n es nes medias o bajas. Casos extremos serían aquellos
cero; luego en los que todos los ítems fuesen tan difíciles, o tan
fáciles, que no fuesen contestados, respectivamente,
por casi nadie o por la mayoría. La variación del
ρ X X ′ = ρ xx ′ | ρ xx ′ = 1 error típico tiende a agudizarse a medida que au-
menta la amplitud del rango de las puntuaciones en
Es decir, la fiabilidad de un test tiende a uno a la variable medida. Además de la naturaleza de los
medida que se aumenta su longitud, alcanzando ítems, pueden existir otros factores de carácter se-
teóricamente ese valor para infinitos ítems. Se reco- cundario que contribuyan también a que el error
mienda cierta precaución en el salto de las matemá- típico de medida no afecte por igual a todas las per-
ticas a la psicología. Mejorar la fiabilidad de un test sonas de la muestra, tales como unas instrucciones
a base de aumentar su longitud puede ser útil y re- inadecuadas que induzcan a las personas con poco
comendable, por ejemplo, cuando el test original ya nivel a contestar al azar ante cualquier pregunta que
© Ediciones Pirámide
Fiabilidad / 37
desconozcan, u otros por el estilo derivados de una do por Rulon (1939) para obtener su fórmula del
aplicación incorrecta de la prueba. coeficiente de fiabilidad (véase la fórmula 2.29). Si
Ante esta situación no parece apropiado usar el se denomina e al error del test global y e1 y e2 a los
mismo error típico de medida para todas las perso- errores de cada una de las mitades, bajo los supues-
nas, por lo que se recurre a la utilización de distin- tos del modelo clásico, es fácil demostrar que la va-
tos errores típicos de medida en función de la cuan- rianza de los errores globales del test es igual a la
tía de las puntuaciones de las personas en el test. suma de las varianzas de los errores de cada una de
Dado que no se puede generalizar de unos test a las dos mitades:
otros, ni de unas muestras a otras, habrá que calcu-
lar empíricamente en cada caso los errores típicos
σ e2 = σ 2 (e1 – e1 ) = σ e1
2
+ σ e2
2
de medida correspondientes.
La forma más clásica de llevar a cabo el cálculo
de los errores típicos de medida para los distintos Si se dispone de dos formas paralelas, o de dos
niveles de puntuaciones fue propuesta por Thorn- aplicaciones del test, se forman las categorías a par-
dike (1951). Consiste en dividir las puntuaciones en tir de la suma de las puntuaciones de cada persona
varios niveles o categorías y calcular el error típico en ambas formas y luego se procede al cálculo del
de medida para cada una de ellas. No se puede ha- error típico de medida para cada categoría. El error
blar de un número idóneo de categorías, que depen- típico se obtiene calculando la desviación típica de
derá en gran medida del número de personas de la las diferencias entre las dos formas del test y divi-
—
muestra. Un número mínimo podrían ser tres, pun- diendo el resultado por √ 2
tuaciones bajas, medias y altas, pero si se dispone
de suficientes sujetos, puede incrementarse el núme- σ (X 1 – X 2 )
ro de niveles, explorando de ese modo los errores σe = [2.23]
2
con mayor exhaustividad a lo largo del rango de la
variable medida. Si se dispusiese de las suficientes
En la fórmula 2.16 se expresa la desviación típi-
personas, podrían incluso hacerse tantas categorías
ca de las diferencias entre dos formas paralelas de
como puntuaciones posibles en el test. Estrictamen-
un test; nótese cómo para obtener a partir de ella el
te hablando, los niveles deberían establecerse a par- —
error típico de medida hay que dividirla por √ 2.
tir de las puntuaciones verdaderas, pero en la prác-
A continuación se ilustran los cálculos anterio-
tica solo se dispone de las empíricas.
res mediante un ejemplo numérico.
Si se dispone de una sola aplicación del test,
una vez establecidas las categorías de las puntuacio-
nes, se calcula el error típico de medida para cada
Ejemplo
una de ellas. Para ello se dividen las puntuaciones
de cada persona en dos mitades (pares e impares,
Se aplicó un test de aptitud espacial a una
por ejemplo) y se calcula la desviación típica de las
muestra de 12 personas. Las puntuaciones globales
diferencias entre ambas. El resultado sería el error
en el test, así como las obtenidas en las mitades par
típico de medida para cada uno de los niveles de
e impar, se ofrecen a continuación. Veamos cómo
puntuaciones:
se calcula el error típico de medida para tres niveles
de la variable medida: bajo, medio y alto.
se = s( p − i)
© Ediciones Pirámide
38 / Introducción a la Psicometría
© Ediciones Pirámide
Fiabilidad / 39
entonces se han propuesto otros muchos. Por ejem- ta de dichas covarianzas (véase apéndice), que viene
plo, el lector interesado puede consultar el trabajo de dada por:
Lord (1984), en el que el autor compara cuatro mé-
todos distintos para estimar el error típico: los de
1 2
n
1 2
n
n
∑ σ J2
j =1 Por todo ello, cuando se desee hacer juicios
α = 1− [2.24]
n–1 σ X2 acerca de la unidimensionalidad, además de acerca
de la consistencia interna, alfa debe complementar-
se con otras técnicas.
donde:
© Ediciones Pirámide
40 / Introducción a la Psicometría
σ X2
[2.28] s X2 : Varianza de las puntuaciones globales de
los sujetos en el test.
© Ediciones Pirámide
Fiabilidad / 41
La fórmula de Rulon es una estimación de la sea, por ese método se pueden hacer 126 estimacio-
fiabilidad del test a partir de las puntuaciones obte- nes de su fiabilidad. Se demuestra (Cronbach, 1951)
nidas en sus dos mitades, que se asumen paralelas, que a calculado a partir de todos los ítems de un
y, por tanto, las puntuaciones en ellas solo diferirán test es el valor medio que se obtendría de calcularlo
debido al error aleatorio. Nótese que [2.29] emerge para todas las posibles mitades del test, es el valor
directamente de la definición de coeficiente de fiabi- esperado de las mitades: a = E(a/2).
lidad dada en [2.2], rXX ′ = 1 – (se2/s X2 ), al considerar,
como se ha dicho, que la diferencia entre las dos
mitades se debe únicamente al error, es decir, se de- Kuder-Richardson
fine la varianza de los errores como la varianza de
las diferencias. En su famoso artículo de 1937, Kuder y Ri-
chardson presentan, entre otras, sus no menos fa-
mosas fórmulas KR20 y KR21, denominadas así por
Guttman-Flanagan hacer precisamente los números 20 y 21 de las pre-
sentadas por los autores.
σ 2p + σ i2
1
ρ XX ′ = 2 1 − 2 [2.30]
1 2
n
σ X2 ∑ pjq j
n j =1
KR20 = 1− [2.31]
donde:
n–1 σ X2
sp2: Varianza de las puntuaciones obtenidas por KR20 es un caso particular de a cuando los
los sujetos en los ítems pares. ítems son dicotómicos, pues en ese caso, como es
si2: Varianza de las puntuaciones obtenidas en bien sabido, la varianza de una variable dicotómica
los ítems impares. viene dada por sj2 = pj qj, siendo pj la proporción de
s X2 : Varianza de las puntuaciones globales. personas que aciertan el ítem j, y qj, la proporción
de los que lo fallan.
La fórmula de Guttman-Flanagan es equivalen-
te a la de Rulon, expresando la varianza de las di-
ferencias que aparecía en la fórmula de Rulon en n ⎡ X – (X 2 / n) ⎤
KR21 = ⎢1 – ⎥ [2.32]
función de las varianzas de la mitad par e impar del n –1⎣ σ X2 ⎦
test. Puede tratar de demostrarlo el lector a modo
de ejercicio. KR21 es un caso particular de a cuando además
Tanto [2.29] como [2.30] son casos particulares de dicotómicos los ítems tienen la misma dificultad,
de a cuando n = 2, precisamente las dos mitades. en cuyo caso:
En ese caso viene dada por:
n
© Ediciones Pirámide
42 / Introducción a la Psicometría
TABLA 2.1
Ítems
Sujetos
1 2 3 4 5 6 X P I P − I
A 1 1 0 1 0 0 3 2 1 1
B 1 0 1 1 1 0 4 1 3 –2
C 0 1 1 0 0 0 2 1 1 0
D 1 1 1 1 1 1 6 3 3 0
E 1 0 0 0 0 0 1 0 1 –1
16 – 1211 – 2
S32 = (3/5)(2/5) = 0,24 S42 = (2/5)(3/5) = 0,24 6 0,16 + 0,24 + 0,24 + 0,24 + 0,24 + 0,16
KR20 = =
2,96
S52 = (3/5)(2/5) = 0,24 S62 = (1/5)(4/5) = 0,16
= 0,681
— Varianza de los pares:
1 2
6 3,2 + (3,2)2 /6
KR21 = 1− = 0,594
Sp2 = 1,04 6–1 2,96
© Ediciones Pirámide
Fiabilidad / 43
TABLA 2.2
Ítems
Sujetos
1 2 3 4 5 6 Total sujetos
A 1 1 0 1 0 0 3
B 1 0 1 1 1 0 4
C 0 1 1 0 0 0 2
D 1 1 1 1 1 1 6
E 1 0 0 0 0 0 1
Total ítems 4 3 3 3 2 1 16
© Ediciones Pirámide
44 / Introducción a la Psicometría
∑1 n 2 ∑ 1 Kn 2
nj 2 nj 2
1
de todos los subtest. No obstante, puede haber si- 1− = 1− = 1− ∑ K2 =
tuaciones, de hecho hay bastantes, en las que solo j =1 j =1 j j =1
se dispone de los datos referidos a los subtest, en
cuyo caso b resulta apropiado. K 1 K –1
= 1– 2
= 1– =
El coeficiente b viene dado por la fórmula: K K K
k
luego
σ X2 – ∑ σ 2j
1 2
k k
β = k
j =1
[2.33] σ X2 – ∑ σ 2j ∑ σ 2j
3 ∑ 1 nj 2 4
n 2 j =1 K j =1
σ X2 1 – β = = 1− =α
σ X2 (K – 1)/ K K –1 σ X2
j =1
© Ediciones Pirámide
Fiabilidad / 45
1 2
15 1
1 2
n 1
θ = 1− θ = 1− = 0,9638
n–1 λ1 15 – 1 9,9564
© Ediciones Pirámide
46 / Introducción a la Psicometría
© Ediciones Pirámide
Fiabilidad / 47
Calculamos el valor del estadístico de contraste: Es evidente que, una vez establecidos los límites
entre los que se considera que se encuentra el valor
1– α 1– 0 de a en la población, quedan resueltas automática-
F = = =4 mente todas las hipótesis acerca de su cuantía.
1 – α̂ 1 – 0,75
© Ediciones Pirámide
48 / Introducción a la Psicometría
© Ediciones Pirámide
Fiabilidad / 49
(1 – 0,5) –1/3 (1 – 0,8) –1/3 t: Se distribuye con N – 2 grados de liber-
u = + = 1,485 tad.
2 2
N: Número de sujetos de la muestra.
S22 = 0,0055 a1§ y a§2: Valores de los coeficientes a de los test.
r§12: Correlación entre las puntuaciones de
S42 = 0,0068
las personas en ambos test.
0,0055 + 0,0068
S2 = = 0,00615
2
Ejemplo
[(1 – 0,5) –1/3 – 1,485]2 [(1 – 0,8) –1/3 – 1,485]2
UX 1 = + =
0,00615 0,00615 Dos test de independencia de campo se aplica-
= 16,47 ron a una muestra de 227 personas, obteniéndose
una correlación entre las puntuaciones de las per-
sonas en ambos de 0,6. Los coeficientes a para cada
Al nivel de confianza del 95 %, el valor crítico uno de los test fueron, respectivamente, 0,70 y 0,85.
de c2 (unilateral) con 1 grado de libertad (K – 1 = Al nivel de confianza del 95 %, ¿puede afirmarse
= 2 – 1 = 1) viene dado por 3,84; por tanto, dado que la diferencia entre ambos coeficientes a es esta-
que 16,47 > 3,84, se rechaza la hipótesis nula de dísticamente significativa?
igualdad, afirmándose al NC del 95 % que a4 es es-
tadísticamente superior a a2. H0: a1 = a2
Al mismo resultado se llegaría utilizando el es-
tadístico de contraste expuesto en [2.35]: H1: a1 ≠ a2
El valor crítico correspondiente a F 0,95(69,103) Los valores críticos de t en las tablas (bilateral)
(unilateral) en las tablas es 1,43 menor que 2,5; con 225 grados de libertad vienen dados por –1,972
luego, como antes, se rechaza la hipótesis nula de y +1,972. Dado que el valor obtenido (6,63) cae
igualdad. fuera de dicho intervalo, se afirma que al NC del
© Ediciones Pirámide
50 / Introducción a la Psicometría
N ( n! – 1)
~ 2
N : S32 = = 0,00352
n! + 1 9(185,36 – 1)(1 – 0,80)2/3
K 2
n~ : k (media armónica de la longi- S42 = = 0,00427
1 tudes de los test) 9(185,36 – 1)(1 – 0,85)2/3
∑
i = 1 ni
0,00269 + 0,00304 + 0,00352 + 0,00427
S2 = =
2 ρ̂ 2jk 4
Sjk:
9( N! – 1)(1 – α̂ j )1/3 (1 – α̂ k )1/3 = 0,00338
—
S jk:
∑ S jk S12 =
2(0,40)
= 0,00114
K (K – 1)/2 9(185,36 – 1)(1 – 0,70)1/3 (1 – 0,75)1/3
© Ediciones Pirámide
Fiabilidad / 51
2(0,50) e = X – V
S13 = = 0,00154
9(185,36 – 1)(1 – 0,70)1/3 (1 – 0,80)1/3
Es decir, el que una persona no obtenga la mis-
2(0,60) ma puntuación empírica en dos formas paralelas de
S14 = = 0,00203
9(185,36 – 1)(1 – 0,70)1/3 (1 – 0,85)1/3 un test, o en dos aplicaciones sucesivas del mismo
test, se debe a que han intervenido ciertos factores
2(0,45) distorsionadores que generan error aleatorio. Una
S23 = = 0,00147
9(185,36 – 1)(1 – 0,75)1/3 (1 – 0,80)1/3 medida será tanto más fiable cuanto menos error
aleatorio contenga, cantidad que se estima mediante
2(0,55) el coeficiente de fiabilidad. Ahora bien, ¿no sería po-
S24 = = 0,00198
9(185,36 – 1)(1 – 0,75)1/3 (1 – 0,85)1/3 sible penetrar dentro de ese error y averiguar a qué
se debe exactamente?, ¿diseccionar los distintos fac-
2(0,30) tores que lo componen?; en suma, ¿no sería posible
S34 = = 0,00110
9(185,36 – 1)(1 – 0,80)1/3 (1 – 0,85)1/3 descubrir las fuentes de las que mana el error? Algo
de error aleatorio incontrolable siempre habrá; todas
0,00114 + 0,00154 + 0,00203 + 0,00147 las ciencias lo asumen en sus mediciones, pero sería
S jk = +
4(4 – 1)/2 deseable conocer de dónde proviene el grueso del
error para así mejor evitarlo. La teoría clásica ha
0,00198 + 0,00110 peleado con este asunto desde siempre, y su estrate-
+ = 0,00154
4(4 – 1)/2 gia, que ha probado ser eficaz, ha sido la de mante-
ner fijas todas las condiciones intervinientes en el
[(1 – 0,70) –1/3 – 1,67]2 [(1 – 0,75) –1/3 – 1,67]2 proceso de medición, para así atribuir el error exis-
UX 2 = + +
0,00338 – 0,00154 0,00338 – 0,00154 tente a variaciones espurias, que se espera sean mí-
nimas. El planteamiento es correcto cuando se puede
[(1 – 0,80) –1/3 – 1,67]2 [(1 – 0,85) –1/3 – 1,67]2 llevar a cabo; lo que ocurre es que en muchas situa-
+ + =
0,00338 – 0,00154 0,00338 – 0,00154 ciones de medición en las ciencias sociales esta fija-
ción no se puede realizar, y es entonces cuando inte-
= 45,89 resa saber cuánto error se debe a cada uno de los
factores intervinientes. Por ejemplo, si se utiliza el
Los valores críticos de c2 con 3 grados de liber- método test-retest para calcular el coeficiente de fia-
tad (K – 1 = 4 – 1 = 3) vienen dados por 0,22 y bilidad, se asume que todo permanece igual: la com-
9,35. Dado que el valor hallado, 45,89, no cae den- petencia de las personas en la variable medida, el
tro de dicho intervalo, se rechaza la H0 o, lo que es test, el aplicador, el lugar, etc. Por tanto, es razonable
lo mismo, se afirma al NC del 95 % que existen di- asumir que las variaciones entre una y otra aplica-
ferencias estadísticamente significativas entre los ción se deban a ligeras variaciones de causa ignota y
coeficientes a. Nótese que la hipótesis alternativa aleatoria. Sin embargo, hay numerosas situaciones
no es que todos los coeficientes a sean desiguales, en las que no todos los factores intervinientes son
sino que no todos son iguales. constantes, y en esos casos tiene gran interés averi-
guar qué parte del error aleatorio se debe a unos y a
8. TEORÍA DE LA GENERALIZABILIDAD otros. Por ejemplo, si varios profesores evalúan a un
grupo de niños con varios métodos de evaluación,
8.1. Fuentes de error existen dos fuentes potenciales de error:
Como se acaba de ver en las páginas preceden- a) Los profesores, ya que no todos ellos actua-
tes, la teoría clásica define el error aleatorio de las rán exactamente igual, es decir, la fiabilidad
mediciones como la diferencia entre la puntuación interprofesor no será perfecta.
© Ediciones Pirámide
52 / Introducción a la Psicometría
b) Los métodos de evaluación, pues no será lo introducidos por ello, y, en cualquier caso, se debe
mismo si se trata de una prueba objetiva, o estudiar siempre la posible existencia de sesgo.
de un ensayo, que sea oral o escrita, etc. Los aplicadores pueden introducir sin preten-
derlo distorsiones en los resultados, según lleven a
Siempre quedará un cierto error aleatorio que cabo las instrucciones, el tipo de relación que esta-
no sabremos a qué atribuir, pero en este caso tene- blezcan con las personas evaluadas (rapport), su
mos identificadas al menos dos fuentes potenciales apariencia externa, características personales, etc.
de error. Claro, se podrá decir, lo que ocurre es que Está claro que si no están perfectamente entrena-
las cosas no se deben hacer así, habría que unificar dos, los aplicadores pueden no actuar homogénea-
profesores y métodos para eliminar su incidencia. mente. Por tanto, cuando se utilicen varios aplica-
Desde luego esa es una opción, incluso se podría dores, estos pueden introducir un cierto error de
decir que deseable; lo que ocurre es que no siempre medida que conviene estimar.
es posible en las ciencias sociales, por lo que hay Las condiciones de aplicación, tales como lugar,
que disponer de tecnología psicométrica para ata- hora, día, características físicas (ruido, luz, visibili-
car el problema cuando se presente. En el campo de dad, etc.), pueden tener una influencia notable. Un
la psicología de las aptitudes y de la personalidad ejemplo muy típico consiste en aplicar los test a los
es más frecuente la tendencia a unificar las condi- niños a última hora de la mañana o de la tarde, por
ciones de medida, pero en planteamientos de carác- conveniencias de horarios de clases, cuando los ni-
ter más observacional y en muchas situaciones edu- ños a esas horas lo único que desean es irse. No
cativas se presentan numerosos casos en los que digamos nada si para aplicar los test se suprime al-
esto no es posible. guna actividad de su natural agrado, tal como re-
Analizar y descifrar racionalmente las fuentes creo, deportes, etc.
de error no resulta especialmente complicado cuan- Acontecimientos nacionales e internacionales
do se conoce a fondo la situación concreta de me- importantes pueden condicionar los resultados, es-
dición; lo que ya es algo más difícil es estimar la pecialmente si de algún modo interaccionan con el
cuantía de los errores atribuible a esas fuentes. Em- objetivo de la medida.
pecemos por lo más sencillo: autores clásicos como Finalmente, a los factores anteriores habría que
Cronbach (1947), Thorndike (1951) o Stanley añadir las posibles interacciones entre ellos. Por
(1971) llevaron a cabo análisis racionales exhausti- ejemplo, podría ocurrir que la pericia de los aplica-
vos de las distintas fuentes del error. dores no fuese igual con todos los test, haciéndolo
El primer y más obvio manantial de errores es mejor con un tipo de test que con otros; en ese caso
la propia persona que realiza el test. Su situación hablaríamos de una interacción aplicador × instru-
específica en ese momento (salud, humor, fatiga, mento.
motivación, etc.), su suerte, entrenamiento previo, A la vista de tantos factores potencialmente dis-
acontecimientos personales recientes, etc., influyen torsionantes, resulta asombroso que los test tengan
para que su puntuación empírica en una prueba un coeficiente de fiabilidad razonable. Pero tampo-
fluctúe de una a otra vez. Raramente podremos es- co conviene alarmarse: si la variable medida tiene
timar la incidencia de este tipo de errores, todo lo entidad, el instrumento utilizado para medirla está
más que se puede hacer es realizar la prueba en bien construido y se aplica adecuadamente, los
unas condiciones óptimas que los minimicen. errores son mínimos.
Las características del instrumento de medida Si se planifica la medición de tal modo que se
utilizado, tales como ítems, formato, modo de res- tengan en cuenta algunos de los factores citados, u
puesta, etc., también pueden incidir en las puntua- otros cualesquiera, se podrá estimar su contribu-
ciones. Cuando el instrumento de medida, o alguno ción al tamaño de los errores. Por ejemplo, si sos-
de sus ítems, interacciona con las personas, se habla pechamos que los entrevistadores influyen en el
de sesgo. Si no resulta idéntico para todas las per- diagnóstico y también lo hace el tipo de entrevista,
sonas a las que se aplica, está sesgado contra cierto podremos diseñar una recogida de datos en la que
tipo de ellas. Cuando se utiliza más de un instru- se contemplen estos dos factores, para poder esti-
mento hay que tratar de estimar los posibles errores mar posteriormente sus efectos.
© Ediciones Pirámide
Fiabilidad / 53
TABLA 2.4
Población de evaluadores
E1 E2 E3 E4 E5 mp
a 7 8 7 9 8 7,8
b 4 4 2 3 4 3,4
c 0 0 1 2 1 0,8
d 6 6 5 4 5 5,2
e 3 3 2 2 3 2,6
Población de personas
f 2 2 2 2 2 2,0
g 7 8 6 6 7 6,8
h 4 5 5 4 4 4,4
i 2 4 3 4 3 3,2
j 9 9 8 7 8 8,2
Xpi: Es la puntuación empírica de una persona m: Se denomina gran media y es la media de
( p) en un instrumento de medida (i). Por todas las personas de la población en todos
ejemplo, en la tabla 2.4 la persona g tiene los instrumentos de medida de la población
una puntuación Xpi = 8 con el evaluador de instrumentos que se contemple. En nues-
2, etc. tro caso su valor es 4,44, que proviene de
© Ediciones Pirámide
54 / Introducción a la Psicometría
© Ediciones Pirámide
Fiabilidad / 55
© Ediciones Pirámide
56 / Introducción a la Psicometría
cométrica, seguramente influida por la lógica clásica Diseños de una sola faceta
del coeficiente de fiabilidad, se utiliza con más fre-
cuencia el coeficiente de generallizabilidad. Se van a ejemplificar los cálculos principales de
la TG utilizando un diseño, a la vez que sencillo,
muy común en psicología y educación, con una sola
8.3. Diseños de recogida de datos faceta. De hecho, vamos a utilizar un ejemplo aná-
logo al empleado para introducir los conceptos bá-
Tras tanta niebla terminológica, no se olvide sicos, en el que la única faceta son los evaluadores.
que el objetivo central de la TG es estimar la cuan- La cuestión básica a responder es en qué medida las
tía del error que afecta a las puntuaciones en fun- calificaciones de los evaluadores son generalizables
ción de las fuentes de las que provenga. Ahora bien, a la población de evaluadores, es decir, al universo
para poder estudiar esas fuentes de error hay que de generalización formado por todos los evaluado-
diseñar la recogida de datos (la medición) de tal for- res posibles. O, desde otro punto de vista equivalen-
ma que luego se puedan calcular los errores debidos te, en qué medida las puntuaciones empíricas de las
a los distintos aspectos (facetas) contemplados. Por personas coinciden con sus puntuaciones universo.
tanto, lo primero que hay que hacer antes de medir
es decidir cómo se va a hacer, y en especial qué
fuentes potenciales de error se van a contemplar. En Ejemplo
nuestro sencillo ejemplo solo se tuvo en cuenta una
faceta: los evaluadores. Si considerásemos que ade- Sea una muestra aleatoria de 10 personas que
más son relevantes para la evaluación de los aspiran son entrevistadas por una muestra también aleato-
tes el sexo de los evaluadores y el tipo de entrevista, ria de cuatro evaluadores para acceder a un trabajo.
tendríamos que tenerlo en cuenta y, por ejemplo, Las puntuaciones obtenidas por la muestra en una
plantear un diseño de medida en el que se contem- escala de 0 a 7 puntos aparecen en la tabla 2.5.
plasen esas dos facetas. Los posibles diseños son El coeficiente G es el cociente entre la varianza
prácticamente ilimitados, están en función de lo que universo y la empírica, de modo que el problema
el investigador considere relevante para la medición consiste en hallar esos dos valores. Y es aquí donde
que realiza. Lo que hay que tener claro es que de lo entra en acción toda la maquinaria del análisis de
que no se incluya en el diseño no se podrá estimar varianza. Trabajar en el marco de la TG es hacerlo
su incidencia en la medición, y entrará a formar a base de exprimir los datos obtenidos al analizar
parte de esa caja negra inexcrutable que es el error los datos mediante ANOVA, de modo que el mejor
aleatorio.
Una vez planteado el diseño, la obtención de TABLA 2.5
los datos básicos para calcular los coeficientes de
generalizabilidad y otros indicadores, se lleva a Evaluadores
cabo mediante el análisis de varianza. —
E1 E2 E3 E4 Xp
Más que plantear aquí una retahíla de diseños
y sus correspondientes análisis, se van a ilustrar los a 4 7 4 6 5,25
cálculos fundamentales mediante el uso de dos b 4 4 2 3 3,25
diseños clásicos muy habituales en psicología y c 3 1 2 4 2,50
educación. Para diseños más complicados puede d 5 7 5 4 5,25
acudirse a los textos más exhaustivos citados al Personas
e 4 3 2 2 2,75
principio. Nótese, por ejemplo, que un libro tan f 0 3 3 4 2,50
clásico y recomendable como el de Kirk (1995) pre- g 4 5 3 3 3,75
senta 30 diseños distintos de análisis de varianza, h 4 5 5 4 4,50
i 2 4 3 4 3,25
sin pretensiones de exhaustividad. Por tanto, lo más
j 6 7 5 4 5,50
importante es captar la lógica que subyace a todos
ellos, para, llegado el caso, poder aplicarla al dise- —
Xi 3,6 4,6 3,4 3,8 3,85
ño que se tenga.
© Ediciones Pirámide
Fiabilidad / 57
consejo para aquellos investigadores o profesiona- Iowa, está específicamente diseñado para llevar a
les interesados en la TG es que repasen sus conoci- cabo los cálculos de la TG.
mientos del análisis de varianza, porque, a medida Si mediante alguno de los programas informá-
que se complejizan los diseños y se introducen más ticos citados u otro cualquiera se analizan los datos
facetas, o esquemas de datos anidados, más se com- de la tabla 2.5, que en términos de ANOVA corres-
plica la ejecución de los cálculos. El paquete infor- ponden a un diseño de medidas repetidas, puesto
mático SPSS proporciona los datos necesarios en la que, efectivamente, las personas son evaluados re-
mayoría de los diseños, y el programa GENOVA de petidamente por cuatro evaluadores, se obtiene una
Brennan y sus colaboradores, de la Universidad de tabla como la 2.6.
TABLA 2.6
Veamos cómo se obtienen los datos de la tabla: Ya tenemos, por tanto, los datos de la primera
columna de la tabla 2.6. La segunda columna son
Suma de cuadrados total: los grados de libertad, que vienen dados respectiva-
mente por:
∑ (X pi – XT )
2
(SCT ) = = (4 – 3,85)2 + (7 – 3,85)2 + Personas p – 1 = 10 – 1 = 9
+ (4 – 3,85)2 + (6 – 3,85)2 + (4 – 3,85)2 + ! Evaluadores i – 1 = 4 – 1 = 3
+ (5 – 3,85) + (4 – 3,85) = 93,10
2 2
Residual (
p – 1)(i – 1) = (10 – 1)(4 – 1) = 27
Suma de cuadrados correspondiente a las personas: La tercera columna correspondiente a las me-
dias cuadráticas se obtiene dividiendo las sumas
cuadráticas por los correspondientes grados de li-
SC p = ni ∑ (X p – X T ) = 4[(5,25 – 3,85)2 +
2
bertad:
+ (3,25 – 3,85)2 + ! + (3,25 – 3,85)2 +
Personas 50,60/9 = 5,622
+ (5,50 – 3,85)2 ] = 50,60
Evaluadores 8,30/3 = 2,767
Residual 34,20/27 = 1,267
uma de cuadrados correspondiente a los evalua-
S
dores:
A través de las esperanzas matemáticas de las me-
dias cuadráticas se obtienen las estimaciones de las
SCi = n p L(X i – X T )2 = 10[(3,6 – 3,85)2 + varianzas de los componentes, que vienen dadas por:
+ (4,6 – 3,85)2 + (3,4 – 3,85)2 + (3,8 – 3,85)2 ] =
E(MCp) = se2 + ni sp2
= 8,30
E(MCi) = se2 + npsi2
E(MCr) = se2
Suma de cuadrados residual:
Empezando por el final, puesto que E(MCr) = se2,
SCr = SCT – SC p – SCi = 93,10 – 50,60 – 8,30 = 34,20 tenemos directamente el valor de se2 = 1,267. (Es-
© Ediciones Pirámide
58 / Introducción a la Psicometría
trictamente no son los valores poblacionales, sino Los datos de la tabla ya indican que la varianza
estimaciones de estos.) residual es proporcionalmente muy elevada
Para calcular la varianza correspondiente a los (50,56 %), lo cual quiere decir que o bien:
evaluadores sustituimos en la segunda ecuación:
a) Existe una fuerte interacción ( pxi) entre
2,767 = 1,267 + 10si2 personas y evaluadores, es decir, los evalua-
dores no actúan uniformemente con todas
las personas.
despejando:
b) O existe mucho error aleatorio de origen
ignoto, no controlado en el diseño.
2,767 – 1,267 c) O ambas cosas a la vez, pues la varianza
σ i2 = = 0,15
10 residual la componen las interacciones
( pxi) y el error aleatorio.
Utilizando la primera ecuación para la varianza
de las personas: Si se plantease en la práctica un caso semejante,
habría que indagar qué ocurre con la interacción,
dado que los evaluadores per se no introducen mu-
5,622 = 1,267 + 4sp2
cho error (5,98 %) en la generalización. Veamos
ahora cómo esto mismo queda reflejado de una for-
despejando: ma global en el coeficiente G.
5,622 – 1,267
σ 2p = = 1,089 8.4. Coeficiente de generalizabilidad
4
A partir de la tabla 2.6 ya se puede calcular el
Los cálculos anteriores pueden expresarse de coeficiente G, que viene dado por el cociente en-
forma compacta en función de las medias cuadráti- tre la varianza universo (sp2) y la varianza empírica
cas: (sp2 + se2):
© Ediciones Pirámide
Fiabilidad / 59
El coeficiente G sube de 0,46 a 0,63. que coincide con el valor obtenido mediante la
Si n = 3: fórmula [2.40].
© Ediciones Pirámide
60 / Introducción a la Psicometría
© Ediciones Pirámide
Fiabilidad / 61
propuestas para los cálculos realizados son las per- Obsérvese la coherencia de esta estimación con
tinentes para el caso de facetas aleatorias. Una la obtenida mediante el coeficiente G. El intervalo
gama variada de posibilidades con sus correspon- confidencial resulta muy amplio; no se puede esti-
dientes formulaciones puede consultarse en Bren- mar la puntuación de la persona con precisión, hay
nan (1983, 2001), Crocker y Algina (1986) o en Sha- mucho error en la medida. Recuérdese que el coefi-
velson y Webb (1991). ciente G era bajo (0,46).
Si la calificación de la persona anterior que ob-
tuvo 6 puntos proviniese de haber promediado las
8.6. Error típico de medida calificaciones de tres jueces, tendría que ser más fia-
ble, y el intervalo confidencial debería ser más estre-
En la teoría clásica, una forma de expresar los cho. Veámoslo:
errores de medida, además del coeficiente de fiabi-
lidad, era el error típico de medida, utilizado sobre 1. NC 95 %: Zc = ±1,96.
todo para establecer intervalos de confianza en tor-
no a las puntaciones empíricas para así estimar las σ i2 + σ e2 0,150 + 1,267
2. σ e( g ) = = = 0,687.
verdaderas. Con la TG ocurre lo mismo, y el error n 3
típico de medida para el caso de un diseño cruzado 3. Error máximo: (Zc)(se(g)) = 1,96 × 0,687 =
( pxi) viene dado por: = 1,346.
4. Intervalo confidencial: Xpi ± E. máximo =
σ e( g ) = σ i2 + σ e2 [2.45] = 6 ± 1,346.
© Ediciones Pirámide
62 / Introducción a la Psicometría
como cuando se comparan unas personas con otras — La faceta evaluadores, con tres niveles corres-
y se estudian las diferencias entre sus puntuaciones, pondientes a cada uno de los evaluadores.
o se toman decisiones basadas en la posición relati- — La faceta modalidad, con dos niveles: oral,
va de las personas en el grupo. escrito.
TABLA 2.7
Nota: Para los cálculos de las varianzas estimadas, véase apéndice (2.40).
© Ediciones Pirámide
Fiabilidad / 63
© Ediciones Pirámide
64 / Introducción a la Psicometría
otras; pero ese no es el objetivo prioritario que guía a la hora de confeccionar los ítems. No en
su construcción, como lo hacía en el caso de los test vano, a raíz del impulso de los TRC florece
normativos. En los TRC la discriminación máxima toda una tecnología para la escritura de los
entre las personas no es una propiedad específica- ítems (Roid, 1984; Roid y Haladyna, 1980,
mente buscada. Hay que señalar que los TRC no 1982), apareciendo además un variado aba-
solo encajan a la perfección en el ámbito de la eva- nico de formatos alternativos al omnipre-
luación educativa, en general su enfoque es apropia- sente de elección múltiple.
do para evaluar cualquier área de conocimiento. 3. Se potenciaron nuevas formas para evaluar
El concepto y la propia denominación de los la fiabilidad y validez de los test, como se
TRC tienen su origen en un magistral artículo de verá en el siguiente apartado, pues las utili-
tres páginas publicado por Robert Glaser en 1963 zadas para los test referidos a normas no
en la revista American Psychologist. Actualmente la siempre resultaban las más apropiadas.
literatura sobre los TRC es abundantísima. Una ex- 4. Dado que con gran frecuencia el uso de los
celente panorámica de su desarrollo en los últimos TRC exigía dividir a las personas en dos
cuarenta años puede consultarse en Hambleton et grupos, las que dominaban el criterio y las
al. (2016), y buenas exposiciones pueden consultar- que no, se desarrolló toda una tecnología
se en Berk (1984a), Hambleton (1980), Hambleton psicométrica para establecer de un modo
et al. (1978), Popham (1978) o Shrock y Coscarelli adecuado los puntos de corte para determi-
(2007), entre otros. Por su parte, Nitko (1984) lleva nar quién pasa y quién falla.
a cabo un análisis minucioso de la definición y con- 5. Los TRC, al centrarse operativamente en
cepto de los TRC. los objetivos específicos, han sido altamente
Pensarán muchos lectores que en realidad esto beneficiosos para el diagnóstico de las defi-
de los TRC no es nada novedoso, que siempre ha ciencias de aprendizaje. Permiten detectar
habido exámenes y test cuya finalidad era evaluar los puntos fuertes y débiles de las personas
un dominio concreto de conocimientos o habilida- y ayudar a los profesores a tomar decisiones
des, y que ello se venía haciendo habitualmente en sobre la enseñanza. Además, fomentan que
psicología educativa y del trabajo. Es cierto; lo que los profesores hagan más hincapié en el do-
ocurre es que con el énfasis y sistematización surgi- minio que los estudiantes tienen de la mate-
dos a partir de los trabajos pioneros (Glaser, 1963; ria que en el mero análisis de las diferencias
Glaser y Klaus, 1962; Popham y Husek, 1969) se va entre ellos.
a desarrollar todo un refinamiento técnico y psico- 6. Finalmente, ha hecho que los profesores ad-
métrico para la elaboración y análisis de este tipo quieran conocimientos en el campo de la eva-
de test, ya que la metodología clásica al uso no se luación de los estudiantes. Esto es de suma
ajustaba bien a los nuevos planteamientos. De este importancia, pues con demasiada frecuencia
modo, los test referidos al criterio han propiciado algo tan relevante como la evaluación ade-
el desarrollo de ciertos ámbitos de la medición psi- cuada y rigurosa de los estudiantes se deja al
cológica y educativa implicados en su desarrollo y sentido común de los profesores, poniendo en
aplicación. Hambleton (1994a) cita seis campos peligro la obligada equidad evaluativa. Por
principales impulsados por los TRC. otras latitudes no se tiene tanta confianza en
la ciencia infusa de los profesores en materia
1. Un primer efecto muy positivo ha sido el de de medición educativa; por ejemplo, los dos
obligar a profesores y constructores de test grandes sindicatos de profesores americanos
a definir con mayor claridad y operatividad han publicado unos estándares técnicos
los objetivos o criterios de interés, en la lí- (American Federation of Teachers, NCME y
nea de la evaluación conductual, para así NEA, 1990) sobre la competencia de los pro-
poder construir los test correspondientes fesores para evaluar a los alumnos, en los que
para su evaluación. los TRC desempeñan un papel central. Espe-
2. Obligan a muestrear exhaustivamente los remos que en otros países cunda el ejemplo,
objetivos a evaluar y exigen sumo cuidado pues antes que nada está el derecho del estu-
© Ediciones Pirámide
Fiabilidad / 65
diante a una evaluación justa, condición sine que no lo dominan, aunque nada impide hacer más
qua non para una enseñanza rigurosa y de categorías. De este modo, la fiabilidad toma los de-
calidad. Parafraseando al gran físico y mate- rroteros de evaluar la consistencia o precisión de es-
mático Lord Kelvin, mal podemos mejorar la tas clasificaciones, adoptando métodos relacionados
enseñanza si no empezamos por evaluarla con la toma de decisiones. Desde un punto de vista
con rigor, pues lo que no se mide no se puede más teórico, los métodos clásicos de fiabilidad resul-
mejorar. tan óptimos cuando el test se ha construido pensan-
do en que debe maximizar la discriminación entre las
En este apartado se exponen algunas de las téc- personas, que no es el caso de los TRC. Además, el
nicas para el cálculo de la fiabilidad de los test re- concepto de test paralelos, piedra angular de la fiabi-
feridos al criterio, pues, como se irá viendo, los coe- lidad clásica, no representa un papel central en los
ficientes de fiabilidad vistos hasta ahora no siempre TRC, que más bien constituyen en teoría muestras
son los más adecuados para utilizar con los TRC. aleatorias de los contenidos del dominio. Por esa vía
indirecta, si realmente fuesen muestras aleatorias, de-
berían ser paralelos en el sentido clásico. De hecho,
9.2. Métodos de estimación como luego se verá, algunos de los métodos expues-
de la fiabilidad tos asumen el paralelismo clásico.
Las técnicas para evaluar la fiabilidad pueden
El problema de la fiabilidad de los test referidos clasificarse de distintas maneras, según se atienda a
al criterio en esencia es el mismo que el de los test un criterio u otro. Por razones de claridad, aquí se
clásicos referidos a las normas. En ambos casos se han clasificado en dos grandes bloques: aquellas
trata de estimar el grado de error incrustado en las que exigen dos aplicaciones del test, bien sea del
mediciones. Puesto que los dominios o criterios de mismo test o de formas paralelas, y las que solo
interés a evaluar con los TRC suelen ser amplios, el exigen una aplicación. Dentro de este segundo
test utilizado para hacerlo es una de las posibles apartado, a su vez, se hacen tres subgrupos en fun-
muestras de ítems. Si el test fuese completamente fia- ción de cómo se utilice el punto de corte para las
ble, el porcentaje de ítems contestado correctamente clasificaciones. Un tratamiento detallado de la fia-
por cada persona coincidiría con el porcentaje que bilidad de los TRC puede consultarse en el libro de
estas obtendrían si se utilizase el dominio completo. Berk (1984a), especialmente los capítulos del propio
En líneas generales, la fiabilidad trata de estimar en Berk, Subkoviak y Brennan. Muy interesantes re-
qué medida ambos porcentajes coinciden. Natural- sultan el análisis de Hambleton y Slater (1997), y, a
mente, el porcentaje de aciertos en el dominio no se un nivel más introductorio, el libro de Crocker y
puede obtener empíricamente, por lo que para esti- Algina (1986). Una síntesis de la problemática y en-
mar la fiabilidad habrá que recurrir a procedimien- foques de la fiabilidad de los TRC puede verse en
tos indirectos, como ocurría en la teoría clásica. Han y Rudner (2016).
Los métodos clásicos vistos hasta ahora, tales
como test-retest, formas paralelas o consistencia in- Formas paralelas
terna (coeficiente alfa), pueden utilizarse como una
primera aproximación al cálculo de la fiabilidad de Se recogen aquí los coeficientes de fiabilidad
los TRC, pero en este apartado se van a proponer cuando se dispone de dos aplicaciones del mismo
otros acercamientos más específicos. Se preguntará el test a una muestra de personas, o de la aplicación de
lector por qué esos métodos clásicos no son del todo dos formas paralelas del test. En esas circunstancias,
satisfactorios para estimar la fiabilidad de los TRC, si se establece un punto de corte y en cada test se
que al fin y al cabo no son otra cosa que test clásicos clasifica a las personas en dos grupos, las que supe-
destinados a evaluar un dominio específico de conte- ran el punto de corte y las que no lo superan, si
nidos, sean estos de la naturaleza que sean. La razón existiese una fiabilidad perfecta la clasificación resul-
fundamental es que en la práctica la mayoría de los tante debería ser idéntica para ambos test. Pues bien,
TRC tienen como finalidad clasificar a las personas los coeficientes de fiabilidad que se van a ver en este
en dos categorías, las que dominan el criterio y las apartado tratan de estimar en qué medida las clasi-
© Ediciones Pirámide
66 / Introducción a la Psicometría
ficaciones hechas con un test coinciden con las he- tor que las 20 personas de la tabla 2.8 quedan clasi-
chas por otro, o por el mismo aplicado en dos oca- ficadas según superen o no superen las pruebas de
siones. Aunque la filosofía básica es la misma que la acuerdo con la tabla 2.9. Una primera aproximación
vista en la aproximación clásica, debido al uso habi- elemental a la fiabilidad sería ver si los porcentajes
tual de los TRC para llevar a cabo clasificaciones, la de personas que superan la prueba son los mismos
forma operativa de calcular la fiabilidad varía, tra- en ambas formas del test. En nuestro caso, con la
tándose más bien de índices de acuerdo entre las cla- forma A superan el criterio siete de las 20 personas
sificaciones. En la literatura psicométrica es muy ha- (35 %), y con la forma B, ocho de las 20 (40 %). La
bitual denominar masters a las personas que superan fiabilidad sería perfecta cuando los porcentajes fue-
el punto de corte y no masters a las que no lo supe- sen los mismos. Este razonamiento, cuya introduc-
ran. Bien es verdad que a veces las clasificaciones no ción en el ámbito de los TRC suele atribuirse a Car-
solo tienen dos categorías; por ejemplo, se puede ver (1970), tiene un claro inconveniente que lo hace
clasificar a las personas según su rendimiento en ba- desaconsejable. Los porcentajes podrían coincidir,
jos, medios, altos, etc. Los coeficientes pueden utili- pero no ser las mismas personas las que superasen
zarse con cualquier número de categorías. ambas pruebas, en cuyo caso el indicador conduce
Veamos un ejemplo sobre el que se ilustrarán a un claro error, dando una falsa idea de fiabilidad
los coeficientes. Sea una muestra de veinte personas donde no la hay. Ello se debe a que este indicador
a las que se aplicaron dos formas paralelas de un no tiene en cuenta la consistencia de las clasificacio-
test de vocabulario de diez ítems. Se considera que nes individuales. Los índices que se verán a conti-
para superar la prueba hay que sacar una puntua- nuación sí tienen en cuenta esta consistencia.
ción igual o superior a 7. Las puntuaciones de las
personas en ambas formas del test aparecen en la Coeficiente po
tabla 2.8.
Teniendo en cuenta que para superar la prueba Este coeficiente fue propuesto por Hambleton y
hay que obtener 7 puntos o más, compruebe el lec- Novick (1973), y posteriormente complementado
por Swaminathan, Hambleton y Algina (1974). La
TABLA 2.8 idea es sencilla: trata de reflejar en qué medida las
clasificaciones hechas a partir de ambos test coinci-
Persona Forma A Forma B den. Si se observa la tabla 2.9, se ve que, salvo tres
personas, las otras 17 son clasificadas del mismo
1 4 7 modo por los dos test. Parece, por tanto, que la
2 7 8 fiabilidad de la clasificación es elevada. El coefi-
3 5 4 ciente po permite expresar esta fiabilidad por medio
4 6 6 de la proporción de coincidencias observadas. Su
5 8 9 fórmula viene dada por:
6 6 4
7 5 7
8 3 2 Fc
po = [2.48]
9 9 4 N
10 3 2
11 7 10
12 5 3
TABLA 2.9
13 4 4
14 10 9 Forma B
Forma A
15 3 2
Superan No superan Total
16 3 4
17 8 7 Superan 6 1 7
18 8 7 No superan 2 11 13
19 2 3
20 0 1 Total 8 12 20
© Ediciones Pirámide
Fiabilidad / 67
donde:
6 + 11
po = = 0,85
20 Fc: Frecuencia de coincidencia, o número de ca-
sos en los que las clasificaciones de ambos
El valor máximo del coeficiente po es 1, que test coinciden.
ocurriría cuando las clasificaciones hechas con las Fa: Frecuencia de azar, o número de casos en
dos formas del test fuesen exactamente las mismas, que cabe esperar por mero azar que las cla-
es decir, cuando todas las frecuencias estuviesen en sificaciones de ambos test coincidan.
las casillas de la diagonal principal. El valor míni- N: Número total de personas de la muestra.
mo es el que cabe esperar por mero azar, y viene
dado en función de las frecuencias marginales de la Aplicación a los datos de la tabla 2.9.
tabla. Para los datos de la tabla 2.9, las coinciden- En primer lugar, se calcula el valor de las fre-
cias por mero azar ( pa) se calcularían del siguiente cuencias esperadas por azar:
modo:
8×7
7×8 Casilla 1-1: = 2,8
Casilla 1-1: = 2,8 20
20
12 × 13
13 × 12 Casilla 2-2: = 7,8
Casilla 2-2: = 7,8 20
20
Fa = 2,8 + 7,8 = 10,6
2,8 + 7,8
pa = = 0,53
20 Las frecuencias de coincidencia vienen dadas
por:
Como se puede observar, el uso de los test me-
jora considerablemente las clasificaciones que ca- Fc = 6 + 11 = 17
bría esperar por mero azar, pasando de 0,53 a 0,85.
Para una interpretación adecuada, siempre hay que
Aplicando la fórmula:
tener en cuenta lo que cabe esperar por mero azar.
Precisamente, el coeficiente kappa que vamos a ver
a continuación contempla en su formulación los 17 – 10,6
K = = 0,68
aciertos por azar. 20 – 10,6
Aunque se han utilizado solo dos categorías, su-
perar y no superar, el coeficiente po puede calcularse El valor máximo del coeficiente kappa es 1,
análogamente para cualquier número de categorías. cuando la fiabilidad es perfecta; pero el mínimo de-
pende de las frecuencias marginales de la tabla. En
Coeficiente kappa el contexto de la fiabilidad los valores negativos no
tienen sentido, los cercanos a cero indicarían que las
Propuesto por Cohen en 1960, es uno de los clasificaciones hechas por los test no mejoran el azar.
coeficientes más populares y reseñados en la litera- Brennan y Prediger (1981) hacen un buen análisis de
tura psicométrica. Los primeros en aconsejar su uti- las posibilidades y límites del coeficiente kappa.
© Ediciones Pirámide
68 / Introducción a la Psicometría
La fórmula del coeficiente kappa puede expre- Dado que el valor K = 0 no está dentro del in-
sarse en función de las proporciones en vez de las tervalo confidencial, se rechaza la hipótesis nula, y
frecuencias: el coeficiente resulta estadísticamente significativo.
Ciertamente, el cálculo de la significación esta-
Pc – Pa dística de K en la investigación aplicada puede pa-
K = [2.50] recer algo trivial, pues generalmente cabe esperar
1 – Pa
que la fiabilidad sea considerable. Como señala Co-
Ni que decir tiene que el resultado obtenido con hen (1960), tal vez pueda ser más útil de cara a es-
ambas fórmulas es el mismo, como puede compro- tablecer los mínimos exigibles en determinadas si-
bar el lector aplicando esta fórmula a los datos de tuaciones.
la tabla 2.9. El valor del coeficiente kappa es muy Fleiss, Cohen y Everitt (1969) proponen otra
similar al coeficiente de correlación de Pearson para fórmula para el error típico de medida técnicamen-
datos dicotómicos, es decir, al coeficiente F. te más adecuada, pero mucho más compleja. Sin
Como ya se ha señalado, los dos coeficientes ( po embargo, las diferencias empíricas entre ambas son
y K ) pueden aplicarse cuando los test referidos al mínimas. Además, dado que s e, según Cohen
criterio se utilizan para clasificar a las personas en (1960), suele ser algo mayor que Fleiss et al. (1969),
más de dos categorías. Como ejercicio, suponga el la prueba es más conservadora, lo cual nunca viene
lector que en la tabla 2.8, en vez de dos categorías, mal cuando de análisis de datos se trata. Hanley
se han hecho tres: baja (puntuaciones 0-3), media (1987) propuso una simplificación atinada para la
(puntaciones 4-7) y alta (puntuaciones 8-10). Ela- formulación de Fleiss et al. (1969).
bore la tabla correspondiente y calcule los coeficien- Finalmente, señalar que el coeficiente kappa fue
tes po y K. extendido (Cohen, 1968) para situaciones en las que
todos los desacuerdos no se consideran igual de im-
portantes, dándose distintas ponderaciones a algu-
Significación estadística del coeficiente kappa nos de ellos según cierto criterio, y calculándose en
La significación estadística del coeficiente kappa estos casos el coeficiente kappa ponderado.
puede someterse a prueba utilizando el error típico
de medida propuesto por el propio Cohen (1960):
Una sola aplicación del test
Fa
σe = En la mayoría de las situaciones aplicadas los
N (N – Fa ) profesionales no tienen la posibilidad de utilizar
dos formas paralelas del test, ni van a poder apli-
Hagámoslo para los datos del ejemplo anterior car el mismo test dos veces, de modo que tendrán
al nivel de confianza del 95 %. que arreglarse con una sola aplicación. En ese caso
La hipótesis nula y la alternativa serán: los coeficientes de fiabilidad del apartado anterior
no se pueden utilizar tal como se expusieron allí,
H0: K = 0
pues exigían disponer de las puntuaciones en dos
H1: K ≠ 0 aplicaciones. En este apartado se exponen cinco
métodos que solo exigen aplicar el test una vez, si
Error típico de medida: bien son muy distintos entre sí, como se irá viendo.
El primero (Subkoviak, 1976) y el segundo (Huynh,
10,6 1976) permiten estimar los coeficientes po y kappa,
Se = = 0,24
20(20 – 10,6) vistos en el apartado anterior. El tercero (Livings-
ton, 1972) y el cuarto (Brennan y Kane, 1977) tie-
Intervalo confidencial: nen en cuenta las distancias de las puntuaciones de
las personas al punto de corte establecido para cla-
0,68 ± (1,96)(0,24) sificarlos, y el quinto se basa en la teoría de la ge-
(0,21 ⩽ K ⩽ 1,00) neralizabilidad.
© Ediciones Pirámide
Fiabilidad / 69
1 2
X X o no master, es decir, superar/no superar el
px = α + (1 – α ) [2.51]
n n punto de corte. La probabilidad de que una
© Ediciones Pirámide
70 / Introducción a la Psicometría
persona supere el punto de corte en ambas plicando los valores de la columna segunda
pruebas vendrá dada por Px2 y la probabili- por los de la cuarta (Fx, Px).
dad de que falle en ambas será (1 – Px)2. De
modo que la probabilidad de una clasifica- A partir de los datos de la tabla 2.10 ya se pue-
ción consistente fallar-fallar o superar-supe- den calcular los coeficientes po y kappa.
rar será la suma, que es la expresión 2.52.
Veamos la aplicación de esta expresión para 15,232
los dos primeros casos de la tabla 2.10: Coeficiente po : = 0,76
20
TABLA 2.10
Cálculos requeridos por el método Subkoviak
© Ediciones Pirámide
Fiabilidad / 71
mucho más sencillo, que es el que seguiremos aquí. Cabe preguntarse cuál de los dos coeficientes (po
Esta variación se basa en el supuesto, por otra parte
o kappa) es preferible utilizar. No existe una res-
razonable, de que si se aplicasen dos formas parale-
puesta definitiva por parte de los especialistas.
las, la distribución conjunta sería aproximadamenteCualquiera de ellos resulta apropiado si se utiliza
normal. Diversos autores opinan que esta asunción con prudencia, siendo recomendable proporcionar
parece plausible cuando el número de ítems es supe-no solo el valor numérico del coeficiente, sino tam-
rior a ocho y la media del test dividida entre el nú-
bién otros datos complementarios que puedan re-
mero de ítems (X/n) está entre 0,15 y 0,85. sultar útiles para su interpretación precisa, tales
Veamos su aplicación a los datos de la tabla 2.8,
como la tabla de frecuencias de la clasificación, la
suponiendo, como en el caso anterior, que solo se distribución de frecuencias, la media y desviación
dispone de la forma A y que el coeficiente de fiabi-
típica, el punto de corte y errores típicos de medida
lidad de esa forma es KR21 = 0,70. Recuérdese que para distintos niveles de la variable medida.
la media del test era 5,3, la varianza 6,41 y que el Como ocurría con el coeficiente de fiabilidad
punto de corte se establecía en 7. A partir de esosclásico, la longitud del test y la variabilidad de la
datos se procede como sigue. muestra en el test influyen en ambos coeficientes.
Tanto el incremento de la longitud del test como la
1. Se calcula la desviación normal correspon- variabilidad de la muestra tienden a incrementar el
diente al punto de corte (C ) según la si- tamaño de los coeficientes po y kappa. Sin olvidar,
guiente expresión: claro está, que la clave para una buena fiabilidad es
que los ítems sean de calidad y constituyan una
C – 0,5 – X muestra representativa del dominio a evaluar.
Z = [2.53] Pero el factor que tiene un mayor efecto sobre
Sx
el valor de ambos coeficientes es la ubicación del
7 – 0,5 – 5,3 punto de corte que se establezca para llevar a cabo
Z = = 0,47 la clasificación de las personas de la muestra. El
6,41 valor de ambos coeficientes para un mismo test va-
2. Se busca en las tablas de la curva normal la riará en función de dónde se establezca el punto de
proporción P z correspondiente al valor corte. Por tanto, no debe hablarse sin más del valor
Z = 0,47. En nuestro caso, de los coeficientes po y kappa para un test, sino para
un test y determinado punto de corte. En general,
Pz = 0,68 y asumiendo que la distribución de las puntuacio-
nes del test es unimodal, el valor de po tiende a au-
3. Mediante la tabla F se obtiene la probabi- mentar si el punto de corte se ubica en zonas extre-
lidad Pzz de la distribución conjunta de mas de la distribución. Con el coeficiente kappa
dos variables normales con correlación ocurre lo contrario: su valor aumenta cuando el
KR21 = 0,70, para el valor de Z = 0,47. punto de corte está cercano a la media de la distri-
bución. Debido a esta clara incidencia del punto de
Pzz = 0,58 corte, ha recibido bastante atención el estudio de la
metodología para su ubicación adecuada, a la que
4. Se procede al cálculo de po y kappa: dedicamos un breve apartado más adelante.
Po = 1 + 2(Pzz – Pz ) [2.54]
Coeficiente de Livingston
Po = 1 + 2(0,58 – 0,68) = 0,80
Todos los acercamientos al cálculo de la fiabili-
Pzz – Pz2 dad de los TRC vistos hasta ahora tienen en común
k= [2.55]
Pz – Pz2 que parten de una clasificación de las personas en
varias categorías y asumen que los errores que se co-
0,58 – 0,682 meten al clasificar son de la misma gravedad, es de-
k= = 0,54
0,68 – 0,682 cir, el error de que personas que dominan la materia
© Ediciones Pirámide
72 / Introducción a la Psicometría
donde n, como en la teoría clásica, es el número de generalizabilidad. El único nuevo es C, que se refie-
veces que se alarga el test. re al punto de corte, expresado en términos de pro-
porción de ítems que han de ser respondidos correc-
tamente para superar la prueba. Nótese que también
Ejemplo mpi ha de expresarse en forma de proporción, siendo
la proporción media total de ítems superados por
¿Cuál sería el valor del coeficiente de Livings- las personas. Véase en el apartado siguiente la apli-
ton si se añadiesen cinco ítems a la forma A de la cación de la fórmula 2.59 a los datos de la tabla
tabla 2.8? 2.11.
10 + 5
n= = 1,5 Estimación del dominio
10
1,5 × 0,83 Todos los indicadores de fiabilidad de los test
2
K xv = = 0,88
1 + (1,5 – 1)0,83 referidos al criterio vistos hasta ahora, de una ma-
nera u otra, trataban de comprobar en qué medida
las clasificaciones hechas a partir del estableci-
El valor obtenido con 10 ítems (0,83) pasa a
miento de un punto de corte resultaban consisten-
0,88 cuando se añaden cinco ítems. En el caso de
tes; de ahí que muchos autores prefieran denomi-
que se disponga de dos formas paralelas o de dos
narlos índices de acuerdo, en vez de coeficientes de
aplicaciones del mismo test, la fórmula propuesta
fiabilidad propiamente dichos. No debe extrañar
en 2.56 viene dada por:
que la mayoría de los coeficientes vayan dirigidos
a ese fin, pues en la práctica educativa y profesio-
ρ xx ′σ xσ x ′ + ( µx – c)( µx ′ – c) nal suele exigirse el establecimiento de un punto de
K xx ′ = [2.58]
[σ x2 + ( µx – c)2 ][σ x2′ + ( µx ′ – c)2 ] corte entre las personas que superan y no superan
el dominio. No obstante, cabe plantearse el proble-
ma de forma más general, y preguntarse en qué
donde X, X ′ son las dos formas paralelas del test,
medida las puntuaciones en la prueba representan
y rxx′, la correlación entre ellas, es decir, el coefi-
las puntuaciones del dominio. O, referido a una
ciente de fiabilidad. A modo de ejercicio, trate el
persona concreta, preguntarse cuál será su pun-
lector de aplicar esta fórmula a los datos de la ta-
tuación en el dominio, conocida su puntuación en
bla 2.8.
la prueba, tal como se hacía en la teoría clásica.
En el marco de la teoría de la generalizabilidad
Coeficiente de Brennan y Kane puede hallarse una respuesta apropiada a esas
cuestiones, si bien también otros acercamientos
Utilizando datos obtenidos al aplicar el modelo son posibles (Berk, 1984b; Brennan, 1980; Lord y
de la teoría de la generalizabilidad, Brennan y Kane Novick, 1968). Una primera posibilidad, que ya
(1977) han propuesto un coeficiente muy similar al resultará familiar al lector, sería utilizar el error
de Livingston, si bien da resultados algo más bajos típico de medida clásico para establecer un inter-
que aquel cuando se aplica a los mismos datos. Su valo confidencial en torno a la puntuación empíri-
fórmula viene dada por: ca que permita estimar el valor verdadero en el
dominio, al modo en que se hacía para los test
σ 2p + ( µ pi – C )2 referidos a normas. También se pueden utilizar
M (C ) = [2.59] para este menester errores típicos de medida basa-
σ 2 + σ e2
σ 2p + ( µ pi – C )2 + i dos en la distribución binomial.
ni Dentro del marco de la teoría de la generaliza-
bilidad, si lo que interesa es llevar a cabo estimacio-
Los distintos términos de la fórmula han sido nes de lo que una persona obtendría en el dominio,
descritos en el epígrafe 8 dedicado a la teoría de la puede utilizarse la varianza error correspondiente al
© Ediciones Pirámide
74 / Introducción a la Psicometría
caso de decisiones absolutas, que como se vio en el También se puede utilizar el coeficiente de gene-
epígrafe 8 viene dado por: ralizabilidad visto para los test referidos a normas
y que venía dado por:
σ i2 + σ e2
σ e( g ) = [2.60]
n σ 2p
ρG2 = [2.62]
σ2
σ 2p + e
A partir de esa varianza error, un coeficiente de n
generalizabilidad apropiado para el caso de los test
referidos al criterio vendría dado por:
Como ya habrá advertido el lector que no se
haya saltado la lectura del apartado dedicado a la
σ 2p TG, las fórmulas precedentes provienen de un dise-
ρ gD
2
= [2.61]
σ 2 + σ e2 ño de una sola faceta (los ítems) cruzada con las
σ 2p + i
n personas ( p × i), pues todas las personas han de
responder a todos los ítems. Ya decíamos allí que
donde n es el número de ítems, y los valores de sp2, en la práctica este es el diseño más habitual.
si2 y se2, como se vio en el epígrafe 8, pueden calcu-
larse en función de las medias cuadráticas según las
fórmulas: EjEmplo
TABLA 2.11
Ítems
—
Personas Xp
1 2 3 4 5
a 0 1 1 0 0 0,4
b 1 1 0 0 0 0,4
c 0 0 0 0 0 0,0
d 1 1 1 0 0 0,6
e 1 0 0 1 1 0,6
f 1 1 0 0 0 0,4
g 1 1 1 1 0 0,8
h 1 0 1 0 0 0,4
i 1 1 1 1 1 1,0
j 1 0 1 0 0 0,4
—
Xi 0,8 0,6 0,6 0,3 0,2 0,5
© Ediciones Pirámide
Fiabilidad / 75
TABLA 2.12
Fuentes de variación Suma de cuadrados Grados de libertad Medias cuadráticas Varianza estimada
A partir de los datos de la tabla 2.12 se calculan van el establecimiento de un punto de corte que per-
los valores del error típico de medida y de los coe- mita clasificar a las personas en dos grupos (a veces
ficientes expuestos. Empecemos por el error típico más): aquellas que dominan el criterio evaluado y
de medida: las que no lo dominan. En los distintos métodos ex-
puestos para calcular la fiabilidad se asumía que el
σ i2 + σ e2 0,041+ 0,190 punto de corte ya estaba establecido, pero ¿cómo se
σ e( g ) = = = 0,21 establece? Por ejemplo, si se trata de un TRC cuyo
n 5
objetivo es evaluar los conocimientos de inglés para
Mediante este valor, y adoptando un determi- acceder a una beca en el extranjero, ¿cómo estable-
nado nivel de confianza, pueden establecerse inter- cer el punto a partir del cual se considera que los
valos confidenciales en torno a las puntuaciones de estudiantes dominan suficientemente el inglés?,
las personas, y así estimar la que corresponde en el ¿cuánto es suficiente? La respuesta es que dicho
dominio. punto de corte deben establecerlo jueces expertos en
El coeficiente de generalizabilidad para los TRC la materia. Ahora bien, superado el problema de
vendría dado por: contar con los jueces adecuados en calidad y núme-
ro, existen distintos procedimientos que estos pue-
σ 2p 0,036 den seguir para decidir el punto de corte más apro-
ρ gD
2
= 2 = = 0,44 piado. Ese tipo de procedimientos son los que se
σ 2
+ σ 0,041+ 0,190 expondrán en este apartado. No existe un punto de
σ p+
2 i e
0,036 +
n 5 corte mágico y correcto a priori, pues depende de los
jueces, pero, como se irá viendo, ello tampoco quie-
El coeficiente de generalizabilidad correspon- re decir que cualquier procedimiento seguido sea
diente a los test normativos: igualmente válido. El asunto puede parecer un poco
obvio, pero cualquiera que haya tratado con un gru-
σ 2p 0,036 po de jueces expertos a los que se encomienda fijar
ρG2 = 2 = = 0,49
σ 0,190 un punto de corte habrá comprobado la dificultad
σ 2p + e 0,036 +
n 5 práctica de la tarea. El establecimiento de los puntos
de corte de forma adecuada es de suma importancia,
El coefiente de Brennan y Kane vendría dado por: pues a menudo determina el futuro profesional de
las personas en todo tipo de exámenes y certificacio-
0,036 + (0,5 – 0,7)2 nes. Existe además una tendencia creciente a que la
M (C ) = = 0,62 mayoría de las profesiones tengan que certificarse y
0,041 + 0,19
0,036 + (0,5 – 0,7) +
2
pasar cada cierto tiempo pruebas para demostrar
5
que siguen al día en sus respectivos campos, lo cual
suele hacerse mediante TRC, que obligan a estable-
9.3. Establecimiento del punto de corte cer los puntos de corte correspondientes para decidir
quién es competente y quién no lo es.
Como se ha señalado en el apartado anterior al Suele hablarse de puntos de corte relativos y ab-
exponer los métodos para estimar la fiabilidad de los solutos. Se denominan relativos cuando se fijan en
TRC, la mayoría de las situaciones aplicadas conlle- función del grupo de personas evaluadas, y absolu-
© Ediciones Pirámide
76 / Introducción a la Psicometría
tos, cuando solo dependen de la materia evaluada. de jueces debe ser representativa y cuanto más amplia
Los puntos de corte relativos no tienen mucho sen- mejor. Temas interesantes debatidos por los expertos
tido en el contexto de los TRC, puesto que el obje- son si es preferible que los jueces trabajen en grupo o
tivo de estos es determinar el dominio que las per- individualmente, si se les debe obligar a llegar a con-
sonas tienen del criterio y no su posición respecto sensos, si hay que proporcionarles la alternativa co-
del resto de los componentes del grupo. Si se adop- rrecta o no, etc. El análisis de esta problemática exce-
ta un procedimiento relativo, se está predeterminan- de los propósitos de nuestra sucinta exposición, pero
do a priori que algunas personas no serán clasifica- el lector interesado encontrará abundante material en
das como masters, cuando es perfectamente posible las referencias bibliográficas citadas. Los tres méto-
que todas ellas dominen el criterio. Por ejemplo, se- dos descritos a continuación varían en el tipo de ta-
ría inadmisible que un profesor estableciese el punto reas solicitadas de los jueces y en cómo se procesan y
de corte para aprobar a los alumnos en la nota me- organizan los juicios emitidos por estos.
dia de los presentados, pues estaría estableciendo de
antemano que van a suspender en torno a un 50 % Método de Nedelsky
de los estudiantes. El aprobado ha de establecerse en
función de la materia, no del grupo. Algo bien dis- Propuesto por Nedelsky (1954), solo se puede
tinto ocurre en situaciones de selección de personal, utilizar cuando los ítems son de elección múltiple,
oposiciones y, en general, cuando existen muchos pues requiere que los jueces analicen cada una de las
más aspirantes que plazas libres, en cuyo caso sen- alternativas. Una vez analizadas, deben decidir cuá-
cillamente se admite a los mejores, supuesto, claro les consideran que serían detectadas como erróneas
está, que superen los mínimos exigidos. por una persona que tuviese los conocimientos mí-
Por todo lo dicho anteriormente, aquí nos cen- nimos exigibles para dominar el criterio. Por ejem-
traremos fundamentalmente en los puntos de corte plo, considérese el siguiente ítem de geografía.
de carácter absoluto. No obstante, en el último apar- La capital de Estados Unidos es: Nueva York,
tado se tratarán dos métodos que intentan llegar a Washington, Montreal, San Francisco, Ottawa. Un
un compromiso entre este enfoque absoluto y algu- juez podría considerar que una persona con los mí-
nos datos de carácter relativo. Se exponen los proce- nimos conocimientos geográficos exigibles para
dimientos más habituales y clásicos, pero el lector aprobar sería capaz de descartar como erróneas
interesado en ir algo más allá puede consultar la Montreal, San Francisco y Ottawa, pero no Nueva
abundante bibliografía existente, recomendándose York. En función de las respuestas de todos los jue-
en especial los trabajos de Livingston y Zieky (1982), ces a todos los ítems, se establece el punto de corte,
Berk (1986), Jaeger (1989), Cizek (1996, 2012), Ham- o conocimientos mínimos exigibles para aprobar o
bleton y Pitoniak (2006) o Zieky et al. (2008), entre superar la prueba. Veamos en concreto cómo se tie-
otros muchos. Se describen tres bloques de procedi- nen en cuenta las opiniones de los jueces para esta-
mientos: los centrados en el test, los centrados en las blecer el punto de corte.
personas y los de compromiso. En el método de Nedelsky se asume que ante un
ítem las personas primero descartan las alternativas
Procedimientos centrados en el test que consideran claramente erróneas y luego eligen al
azar entre las restantes. Bajo esta óptica, la puntua-
Los procedimientos descritos en este apartado ción esperada de una persona en un ítem viene dada
para fijar el punto de corte se basan en los juicios de dividiendo la unidad por el número de alternativas no
los expertos acerca de los distintos ítems del test, lo descartadas. En el ejemplo anterior, el valor esperado
que explica su denominación de centrados en el test. sería 1/2 = 0,5, pues quedaban sin descartar dos alter-
Se describirán los métodos propuestos por Nedelsky nativas, Nueva York y Washington. Para obtener el
(1954), Angoff (1971) y Ebel (1972). Los tres méto- valor esperado para todo el test se suman los valores
dos requieren seleccionar los jueces apropiados en esperados de cada ítem. De modo que tendremos un
calidad y número, así como darles un cierto entrena- valor esperado del test para cada juez. ¿Cómo com-
miento y formación. No se entra aquí en cómo llevar binar los valores de los distintos jueces para obtener
a cabo esas tareas; únicamente señalar que la muestra el punto de corte único? Lo más habitual es calcular
© Ediciones Pirámide
Fiabilidad / 77
la media o mediana de los valores asignados por los criterio. Si hay varios jueces, como es habitual, para
distintos jueces. También se pueden eliminar los va- obtener el punto de corte único se combinan sus pun-
lores extremos antes de calcular la media o la media- tuaciones calculando la media o la mediana, igual
na. Si la variabilidad entre los jueces es alta, lo cual que en el caso del método de Nedelsky. También se
no es deseable, pues implica poca fiabilidad interjue- procede como allí en el caso de corrección de los efec-
ces, la mediana es más indicada. tos del azar. Nótese que si los ítems son de elección
Cuando se va a utilizar la fórmula para corregir múltiple, las probabilidades asignadas por los jueces
los efectos del azar (véase el epígrafe 5 del capítulo deberían ser al menos iguales o superiores a la corres-
4), también debe corregirse con ella el punto de cor- pondiente por mero azar, es decir, la unidad dividida
te. Por ejemplo, si en un test de 10 ítems de cinco entre el número de alternativas del ítem.
alternativas cada uno la media de los valores espera-
dos de cuatro jueces resultó ser 6, el punto de corte
sin corregir los efectos del azar se establece en 6. Pero EjEmplo
si se corrigen estos mediante la fórmula expuesta en
el epígrafe 5 del capítulo 4, el punto de corte sería: En la tabla adjunta aparecen las probabilidades
de que las personas con una competencia mínima
(10 – 6) exigible superen los ítems de un test. Veamos cómo
6– =5
5–1 se establece el punto de corte por el método de An-
goff sin corregir los efectos de azar y corrigiéndolos.
En general, el método de Nedelsky funciona
bien, aunque no carece de limitaciones. Por ejemplo,
Ítems Juez A Juez B Juez C
el valor esperado de un ítem nunca puede tomar va-
lores entre 0,50 y 1, pues o bien solo quedan dos 1 0,50 0,50 0,50
alternativas sin descartar, en cuyo caso el valor es- 2 0,33 0,50 0,33
perado es 0,5, o queda solo una, en cuyo caso es 1. 3 0,25 0,25 0,25
Como señala Shepard (1980), este método tiende a 4 1,00 0,50 0,50
dar valores más bajos para el punto de corte que el 5 0,25 0,33 0,25
resto de los métodos, debido a la resistencia habitual
de los jueces a considerar que todas las personas Total 2,33 2,08 1,83
responderían correctamente el ítem.
La media de los tres jueces es 2,08, por lo que
Método de Angoff si la puntuación final del test se obtiene sin utilizar
la fórmula de corrección de los efectos del azar, el
Propuesto por Angoff (1971), es muy parecido al
punto de corte estaría ubicado en ese valor de 2,08.
de Nedelsky visto en el apartado anterior, si bien tie-
Si para obtener las puntuaciones de las perso-
ne la gran ventaja de que permite su aplicación a
nas en test se corrigen los efectos del azar, el punto
todo tipo de ítems, aunque no sean de elección múl-
de corte vendría dado por:
tiple. En este método no se pide a los jueces que ana-
licen cada una de las alternativas de los ítems, como
se hacía en el de Nedelsky; aquí los jueces emiten (5 – 2,08)
2,08 – = 1,35
evaluaciones globales de cada ítem. Se les pide que 5–1
digan cuál es la probabilidad de que una persona con
los conocimientos mínimos exigibles supere el ítem. (Para una exposición de la lógica y fórmula de
A veces resulta más fácil a los jueces si se les plantea la corrección de los efectos del azar, véase el epígra-
esta cuestión de forma ligeramente distinta, pregun- fe 5 del capítulo 4.)
tándoles cuántas de entre 100 personas con los cono- El método de Angoff es el más utilizado en la
cimientos mínimos exigibles superarían el ítem. Una práctica, pues resulta sencillo de explicar a los jueces
vez asignadas las probabilidades a cada ítem, la suma y fácil de utilizar en la mayoría de las situaciones.
de estas da el punto de corte exigible para superar el Aquí no nos ocupamos de cómo proceder con los
© Ediciones Pirámide
78 / Introducción a la Psicometría
Para obtener el punto de corte se multiplican riores, utilizando la media o la mediana, bien elimi-
las proporciones de cada casilla por el número de nando las puntuaciones extremas o sin eliminarlas.
ítems de la casilla y se suma:
2(0,90) + 2(0,80) + 1(0,60) + 3(0,80) + 3(0,70) + Procedimientos centrados en las personas
+ 2(0,40) + 3(0,95) + 3(0,90) + 0 + 2(0,90) +
Los procedimientos expuestos en el apartado
+ 3(0,50) + 1(0,30) = 18,45
anterior se basaban en los juicios de los expertos
Si existiesen más jueces, se combinarían sus sobre los ítems del test. Sin embargo, los métodos
puntuaciones como se señaló en los métodos ante- descritos en este apartado se valen de las opiniones
© Ediciones Pirámide
Fiabilidad / 79
© Ediciones Pirámide
80 / Introducción a la Psicometría
práctica ese caso ideal no se suele dar, por lo que aquella puntuación que deja por debajo el 50 % de
hay que elegir un punto de corte que minimice los los casos considerados masters por los jueces.
errores de clasificación.
La gama de posibilidades para determinar el
punto de corte es amplia. Un método gráfico muy Ejemplo
sencillo consiste en representar gráficamente ambas
distribuciones, la del grupo de aquellos que según Un grupo de 103 estudiantes fueron clasificados
los jueces superarían la prueba y los que no, y elegir por sus profesores en aprobados y suspensos. Tras
como punto de corte la intersección de ambas dis- aplicar a los 103 estudiantes un test referido al cri-
tribuciones, según se observa en la figura 2.1. terio de 25 ítems, la distribución de sus puntuacio-
Si en la figura 2.1 se mueve el punto de corte nes y las opiniones de los profesores aparecen en la
hacia la derecha, se reducen los falsos positivos, es tabla adjunta.
decir, se reduce la probabilidad de considerar mas-
ters a los que no lo son. Por el contrario, si el pun-
Porcentaje
to de corte se mueve hacia la izquierda, se reducen Test F Aprobados Suspensos
aprobados
los falsos negativos, es decir, la probabilidad de con-
siderar no masters a quienes realmente lo son. Es 21-25 10 10 0 100
importante tener esto en cuenta, pues pueden existir 16-20 20 15 5 80
situaciones prácticas en las que interese más mini- 11-15 30 14 16 50
mizar un tipo de error que otro. 6-10 34 10 24 22
Otro método sencillo y muy utilizado es el su- 0-5 9 l 8 2
gerido por Livingston y Zieky (1982). Se divide a
Total 103 50 53
las personas en varias categorías según su puntua-
ción en el test y se computa para cada categoría el
número de personas que los jueces consideraron En la última columna se observa que la puntua-
masters y no masters. Siguiendo la misma lógica que ción que deja por debajo al 50 % de los clasificados
los métodos psicofísicos clásicos para determinar el por los jueces como aprobados es 15; luego ese será
umbral absoluto, se elige como punto de corte el punto de corte elegido. En la mayoría de los ca-
Número de personas
Punto de corte
Puntuaciones en el test
© Ediciones Pirámide
Fiabilidad / 81
sos la puntuación que deja por debajo al 50 % no Esta lógica seguramente extrañará al lector, pues al
aparecerá directamente como en este ejemplo, por lo introducir el problema de los puntos de corte ya se
que habrá que interpolar, de la misma forma que se indicó que el dominio o no de un criterio por parte
hace para calcular los percentiles. También se puede de una persona solo debería depender de sus cono-
utilizar alguna de las estrategias habituales en psico- cimientos en relación con el punto de corte estable-
física clásica para determinar el umbral absoluto; cido, no de lo que hiciesen los demás. Desde un pun-
véanse, por ejemplo, Blanco (1996) o Muñiz (1991). to de vista teórico, esto sigue siendo correcto, pero
Autores como Livingston y Zieky (1982) proponen en muchas situaciones aplicadas el establecimiento
que se suavicen los porcentajes acumulados para au- de puntos de corte o estándares tiene unas repercu-
mentar su estabilidad, y sugieren métodos sencillos siones sociales tan fuertes que excede los plantea-
de carácter gráfico, o medias móviles, para llevarlo a mientos puramente psicométricos. Piénsese, por
cabo. No obstante, si la muestra es suficientemente ejemplo, en las implicaciones que tendría en España
grande y los intervalos no se hacen demasiado estre- el establecimiento de unos estándares profesionales
chos, puede procederse directamente, como se hizo que tuviesen que superar cada cierto número de
en el ejemplo. Esta forma de ubicar el punto de cor- años los funcionarios para continuar en su puesto.
te asume que todos los tipos de errores cometidos al En estos procesos tan complejos no solo estarían
clasificar tienen la misma importancia, pero otras interesados los expertos en la medición, habría que
muchas opciones han sido propuestas por diversos tener en cuenta a los ciudadanos que pagan la Ad-
autores (Koffler, 1980; Peters, 1981). ministración con sus impuestos, a los poderes públi-
Un inconveniente de este método de grupos de cos, a los propios funcionarios implicados, etc. En
contraste es que exige mucho tiempo, pues los jue- España esto aparece como lejano, pero en otros paí-
ces tienen que juzgar una a una a todas las personas ses de nuestro entorno occidental se están llevando
de la muestra. Para evitar este inconveniente, Li- a cabo rutinariamente procesos de certificación de
vingston y Zieky (1982) apuntan la posibilidad de este tipo para distintas profesiones. En estas circuns-
utilizar el método arriba-abajo, también usado en tancias, conviene tener en cuenta no solo los crite-
psicofísica, consistente en ir presentando a los jue- rios absolutos, sino también su relación con las po-
ces únicamente personas cercanas (por encima y blaciones reales a evaluar. Si solo se atendiesen los
por debajo) al previsible punto de corte, con lo cual criterios absolutos, podría ocurrir que en ocasiones
se ahorra tiempo, si bien la aplicación correcta con- resultasen poco realistas, fallando en alcanzarlos la
lleva serias dificultades. Remitimos a los textos de mayoría del colectivo objeto de la evaluación o, por
psicofísica citados para una exposición del método. el contrario, superándolos todo el mundo. Esto, que
en teoría no representa ningún problema, plantea
Procedimientos de compromiso situaciones engorrosas y de credibilidad en la prác-
tica; de ahí estos métodos que tratan de llegar a un
Los procedimientos expuestos hasta ahora para compromiso, combinando los datos de carácter ab-
fijar el punto de corte se consideran de carácter ab- soluto y relativo.
soluto, pues en todos ellos los jueces establecen un Se exponen dos de los métodos que más aten-
mínimo de conocimientos que una persona necesita ción han recibido (Beuk, 1984; Hofstee, 1983), aun-
para superar el criterio, independientemente de lo que existen otros (De Gruijter, 1980; Grosse y
que haga el resto de las personas del grupo. El que Wright, 1986). Para una buena revisión de estos mé-
una persona superase o no el criterio no estaba en todos, véanse De Gruijter (1985) o Milis y Melican
función de su posición relativa en el grupo, de modo (1988).
que, fijado el punto de corte, podía darse el caso
extremo de que todas o ninguna de las personas Método de Beuk
evaluadas lo superasen.
Los métodos que se exponen en este apartado Fue propuesto por Beuk en 1984 y en él los jue-
utilizan tanto la información de carácter absoluto ces tienen que responder a dos preguntas cuyas res-
como la relativa al grupo, tratando de llegar a un puestas se utilizarán luego para establecer el punto
compromiso combinando ambos tipos de datos. de corte de compromiso. La primera de las pregun-
© Ediciones Pirámide
82 / Introducción a la Psicometría
tas aporta datos de carácter absoluto, y la segunda, Como se puede ver, la primera de las cuestiones
relativos. Teniendo en cuenta las respuestas de to- alude, como en los métodos previos, a datos abso-
dos los jueces a ambas preguntas y los resultados lutos, y la segunda es de carácter relativo.
empíricos de las personas en el test, se establecerá Una vez aplicada la prueba a las personas, es-
un punto de corte de compromiso entre los tres ti- tas estimaciones de los jueces se contrastan con los
pos de información. Las preguntas que se formulan datos empíricos obtenidos y se llega a un compro-
a los jueces son las siguientes: miso entre las tres fuentes de datos para establecer
el punto de corte. Ahora bien, existen muchas for-
1. Porcentaje
mínimo de ítems de la prueba mas posibles de compromisos. La de Beuk, que se
que deben responder correctamente las per- expone a continuación, es muy razonable, pero
sonas para superarla. otras muchas son pensables. Para aplicar el méto-
2. Porcentaje de personas que superarán la do de Beuk se procede como se ilustra en la figu-
prueba. ra 2.2.
100
Porcentaje de personas
A′
y–c
A
y–
DE
0
x– x–c 100
Porcentaje de ítems
© Ediciones Pirámide
Fiabilidad / 83
1. Se trazan dos ejes, colocando en abscisas los empírica de las puntuaciones de las personas en el
porcentajes de ítems que en opinión de los test. Las cuatro preguntas son las siguientes:
jueces hay que contestar correctamente
para superar la prueba, es decir, las respues- 1. Punto de corte que consideran satisfacto-
tas de los jueces a la primera pregunta que rio, aunque lo superen todas las personas
se les hace. (PCmáx). Se establece en términos del por-
2. Se calculan las medias de las respuestas de centaje de ítems que han de superarse.
— —
los jueces a las dos preguntas (X , Y ) y se 2. Punto de corte insatisfactorio, aunque no lo
obtiene el punto A. supere nadie (PCmín).
3. Se obtiene la distribución empírica (DE ) de 3. Porcentaje
máximo admisible de personas
las puntuaciones de las personas en el test. que fallan en la prueba (Fmáx).
Lógicamente resulta decreciente, pues a me- 4. Porcentaje mínimo admisible de personas
dida que se va exigiendo superar más ítems que fallan en la prueba (Fmín).
para pasar el test (eje de abscisas), decrece
el porcentaje de personas que lo pasan (eje Con la información obtenida en esas cuatro
de ordenadas). preguntas y la distribución empírica (DE ) de los
4. Se obtiene el punto A′, intersección de la resultados en el test, se procede como se ilustra en
recta AA′ con la distribución empírica la figura 2.3. En el eje de abscisas aparecen los por-
(DE ). Para ello se hace pasar por A una centajes de ítems respondidos correctamente; en el
recta cuya pendiente es el cociente entre la de ordenadas, los porcentajes de personas que no
desviación típica de las respuestas de los superan los ítems correctos exigidos. La distribu-
jueces a la pregunta 2 y la desviación típica ción empírica (DE) refleja cómo, a medida que se
de sus respuestas a la primera pregunta, es exige un mayor porcentaje de ítems correctos para
decir, Sy /Sx. La fórmula de dicha recta viene superar el test (abscisas), aumenta el porcentaje de
— —
dada por: Y = (Sy /Sx) (X –X ) + Y . Las ra- personas que fallan, es decir, que no superan la
zones expuestas por Beuk para asignar esta prueba (ordenadas).
pendiente a la recta resultan coherentes con
la idea de compromiso del método, y según 1. Se
obtienen los puntos A y B, como se indi-
los datos que aporta funciona bien. Recuér- ca en el gráfico: A(PCmín, Fmáx) y B(PCmáx,
dese que, en general, para dos variables X e Fmín).
Y, la pendiente de la recta de regresión de Y 2. Se
unen mediante una recta los puntos A
sobre X según el criterio de mínimos cua- y B.
dráticos viene dada por rxy(Sy /Sx). 3. El punto de intersección de la recta AB y la
5. Para obtener el punto de corte de compro- distribución empírica (DE ) se proyecta so-
miso se proyecta A′ sobre el eje de absci- bre el eje de abscisas, obteniéndose así el
sas, obteniéndose el punto de corte (Xc), punto de corte de compromiso (PCc). Si en
expresado en forma de porcentaje de ítems vez de porcentajes se prefiere utilizar el nú-
del test que se han de superar. Si se prefie- mero de ítems, se multiplica el valor de PCc
re expresar en términos del número de por el número de ítems (n) del test:
ítems del test, se multiplica este valor (Xc)
por el número de ítems (n) que tenga el (PCc)(n)
test: (Xc)(n).
Mediante el método de Hofstee se llega a una
solución de compromiso entre la información abso-
Método de Hofstee luta y la relativa. Aunque no es fácil que ocurra en
la práctica, cabe la posibilidad de que la recta AB
El método de Hofstee (1983) constituye un no se encuentre con la distribución empírica (DE ),
compromiso entre la información proporcionada en cuyo caso el método no proporcionaría una so-
por los jueces a cuatro preguntas y la distribución lución.
© Ediciones Pirámide
84 / Introducción a la Psicometría
100
DE
Porcentaje de personas que fallan
Fmáx A
Fmín B
0
PCmín PCc PCmáx 100
Porcentaje de ítems correctos
© Ediciones Pirámide
Fiabilidad / 85
apropiado es el coeficiente kappa. Por ejemplo, en tanto, hay que usar otro tipo de indicadores para
el cuadro adjunto, tomado de dicho subepígrafe, comprobar la fiabilidad interjueces. Vamos a co-
aparecen los datos de 20 personas clasificadas por mentar tres muy habituales:
dos psicólogos clínicos en dos categorías, según
consideren que superan o no un determinado nivel — Correlación de Pearson.
de ansiedad. ¿Puede afirmarse que existe una coin- — Coeficiente de concordancia.
cidencia diagnóstica entre ambos expertos? — Correlación intraclase.
cov (X ,Y )
rxy =
Como ya se vio en el subepígrafe 8.2, la fórmula SxS y
del coeficiente kappa bien dada por:
Debe quedar muy claro que el coeficiente de co-
Fc – Fa rrelación de Pearson no es un indicador adecuado
K = [2.63]
N – Fa para establecer el grado de fiabilidad interjueces. La
razón es que puede obtenerse una elevada correla-
Aplicando la fórmula, tal como se vio en detalle ción entre las estimaciones de los jueces, incluso
en el subepígrafe citado: perfecta, y sin embargo encontrarnos ante dos jue-
ces cuyas puntuaciones son muy distintas, por lo
que el uso de la correlación de Pearson nos condu-
17 – 10,6
K = = 0,68 ciría a error. La razón es muy sencilla: Pearson nos
20 – 10,6 indica la relación lineal entre las puntuaciones de
los jueces, de modo que si la correlación es baja,
Este valor indica que el acuerdo entre los dos está claro que las puntuaciones de los jueces no
psicólogos clínicos a la hora de diagnosticar la an- convergen, pero si el coeficiente de correlación es
siedad es muy limitado, dado que el valor máximo elevado, eso no nos garantiza una convergencia
de kappa es 1, que está muy lejos del valor obteni- adecuada. Por ejemplo, aunque la correlación sea
do. Aparte del coeficiente kappa, existen otros mu- muy elevada, las medias pueden diferir si un juez es
chos posibles indicadores para estimar el grado de más duro que otro en sus apreciaciones. A veces se
acuerdo entre clasificaciones. Una buena revisión ha recurrido a complementar Pearson con el cálculo
general puede consultarse en Han y Rudner (2016). de la diferencia entre las medias, pero incluso po-
dría ocurrir que las medias fuesen iguales y las pun-
Puntuaciones cuantitativas tuaciones tuviesen una variabilidad muy diferente.
En suma, la correlación de Pearson no es aconseja-
Es muy frecuente el caso en el que no se pide a ble para estimar la fiabilidad interjueces.
los expertos que clasifiquen a las personas en deter- Veamos un ejemplo. En la tabla adjunta apare-
minadas categorías, sino que les asignen una pun- cen las puntuaciones en depresión asignadas por
tuación, por ejemplo calificaciones académicas en dos psicólogas a cinco pacientes. ¿Puede afirmarse
una escala de cero a diez, u otra cualquiera. En es- que existe buena fiabilidad interjueces?
tos casos no tiene sentido utilizar el coeficiente kap Nótese que la correlación de Pearson entre las
pa y similares, dado que no tenemos categorías; por puntuaciones de ambos jueces es 1, es decir, es per-
© Ediciones Pirámide
86 / Introducción a la Psicometría
fecta. Pero ¿es así? ¿son totalmente iguales los diag- Si hay más de dos jueces, se podría hallar el coe-
nósticos de ambas psicólogas? Vemos que la media ficiente de concordancia para los distintos pares de
de las puntuaciones asignadas por la primera psicó- jueces, pero es más aconsejable utilizar la generali-
loga es 4, y la de la segunda, 8, es decir, la psicóloga zación del coeficiente para n jueces, propuesta por
1 puntúa mucho más bajo que la 2. Pero no solo Barnhart et al. (2002).
eso: la desviación típica de las puntuaciones otor-
gadas por la primera es 1,41, mientras que la de la Correlación intraclase
segunda es 2,83, nada menos que el doble. Por tan-
to, si nos fiásemos del valor de Pearson, cometería- La correlación intraclase (Cic) constituye una
mos un grave error al juzgar el grado de acuerdo alternativa clásica para estimar la fiabilidad inter-
entre los diagnósticos de las dos psicólogas. Para jueces, evitando los problemas que se han mencio-
evitar estos inconvenientes se han propuesto distin- nado más arriba de la correlación de Pearson. Se
tos indicadores, y uno de los más sencillos es el coe- trata de un método basado en el análisis de varian-
ficiente de concordancia. za de medidas repetidas, en el que las medidas repe-
tidas son los evaluadores. Se trata, por tanto, de un
caso particular del coeficiente de generalizabilidad
Personas Psicóloga 1 Psicóloga 2
visto en el subepígrafe 8.4. Por tanto, no existe un
A 2 4 solo Cic, sino que su estimación va a depender del
B 3 6 diseño de análisis de varianza utilizado. Una guía
C 4 8 práctica para elegir el Cic que procede en cada caso
D 5 10 puede consultarse en el trabajo de Koo y Li (2016).
E 6 12 Tratamientos clásicos detallados sobre la Cic pueden
verse en Shrout y Fleiss (1979), McGraw y Wong
Media 4 8 (1996), Shoukri (2010) o Gwet (2014). Una vez ele-
gido el diseño de ANOVA pertinente, su cálculo
Desviación típica 1,41 2,83
está implementado en numerosos programas infor-
máticos, incluido el SPSS. Como los coeficientes
anteriores, su valor se encuentra entre 0 y 1. La Cic
Coeficiente de concordancia (Cc)
constituye una alternativa flexible para el cálculo de
El coeficiente de concordancia (Lin, 1989) trata la fiabilidad interjueces, adaptándose a las distintas
de evitar los problemas de la correlación de Pearson situaciones y diseños que se pueden plantear en la
para estimar el acuerdo entre expertos. Su fórmula práctica. Por supuesto, el uso de la Cic no tiene por
viene dada por la expresión: qué limitarse al estudio de la fiabilidad interjueces,
pues el modelo permite su utilización en cualquier
situación en la que se pretenda estimar el grado de
2rxySxS y
Cc = [2.64] acuerdo entre mediciones, por ejemplo ítems, test,
Sx2 + S y2 + (X – Y )2 como ya se ha visto al tratar de la teoría de la gene-
ralizabilidad.
Aplicado a los datos de la tabla:
© Ediciones Pirámide
Fiabilidad / 87
bién consejos prácticos útiles. También puede utili- (2006), Cizek y Bunch (2007), Zieky et al. (2008) o
zarse el trabajo de Jaeger (1989). En realidad, todos Cizek (2012), y una excelente panorámica del esta-
los métodos funcionan razonablemente bien si se do actual del campo, en Pitoniak y Cizek (2016).
aplican correctamente, aunque lo ideal sería poder Por su parte, la última versión de los estándares téc-
aplicar más de uno y así contrastar los resultados. nicos sobre los test dedica varios apartados al esta-
No obstante, la tarea de establecer estándares no es blecimiento de los puntos de corte (AERA, APA,
un problema únicamente psicométrico, de modo NCME, 2014).
que aparte del método utilizado debe hacerse uso Pitoniak y Cizek (2016) sintetizan el proceso de
de todo tipo de información disponible. Es precisa- establecimiento de los puntos de corte en once pa-
mente en la implementación de los métodos en la sos, que se comentan a continuación:
práctica cuando se suelen cometer los errores, pues,
como bien señala Cizek (1996), el peligro está en los 1. Escoger un método adecuado para esta-
detalles. ¿Por qué hay tanto riesgo de aplicar inco- blecer los puntos de corte.
rrectamente los métodos?: sencillamente porque en 2. Elegir los expertos o jueces.
todos ellos todo depende de los jueces y hay mu- 3. Describir las categorías de clasificación
chos aspectos de su comportamiento que descono- que se van a utilizar.
cemos. Empezando por la consistencia o fiabilidad 4. Entrenar a los expertos.
de sus juicios (Plake et al., 1991) y continuando por 5. Definir los conocimientos de las personas
el número idóneo de jueces en cada caso (Jaeger, que están en el límite de superar los pun-
1991), la forma de seleccionarlos y el entrenamiento tos de corte.
que debe dárseles (Reid, 1991), la forma ideal de 6. Recoger las evaluaciones hechas por los
trabajar (Fitzpatrick, 1989): individual o en grupo, expertos.
etc. Todos ellos son temas a los que se ha dedicado 7. Analizar los datos y dar información a los
bastante investigación, pero estamos lejos de las expertos.
respuestas definitivas, entre otras cosas porque son 8. Establecer los puntos de corte.
problemas complejos, no circunscritos a la psicome- 9. Recoger las opiniones de los expertos so-
tría, que reclaman para su análisis distintas áreas de bre el desarrollo del proceso.
la psicología y de la sociología. Otro factor clave 10. Recoger evidencias de la validez del proce-
que subyace a todos los demás es la validez de las so y preparar la documentación psicomé-
opiniones de los jueces (Kane, 1994), que no se debe trica.
dar por supuesta, hay que comprobarla. Finalmen- 11. Proporcionar la información correspon-
te, señalar que aquí solo se han abordado métodos diente a los responsables de la evaluación.
surgidos de las necesidades de formas de evaluar
más bien clásicas, pero las nuevas orientaciones eva- Como se puede observar, el proceso general
luativas de los noventa están dando lugar a nuevos para establecer puntos de corte es amplio y comple-
enfoques para establecer los estándares (Berk, 1996; jo. Aquí nos hemos limitado a ilustrar los métodos
Clauser y Clyman, 1994; Faggen, 1994; Hambleton más clásicos, correspondientes al primer paso, pero
y Plake, 1995; Jaeger, 1995; Putnam et al., 1995; otros muchos aspectos están implicados para llevar
Shepard et al., 1993). Tratamientos detallados y ac- la labor a buen fin, como bien ilustran los once pa-
tuales pueden consultarse en Hambleton y Pitoniak sos citados.
EJERCICIOS
1. Demuestre que en el modelo lineal clásico 2. Demuestre que en el modelo lineal clásico
la covarianza entre los errores y las puntuaciones la covarianza entre las puntuaciones empíricas y las
verdaderas es cero (sev = 0). verdaderas es igual a la varianza de las verdaderas
(sxv = sv2).
© Ediciones Pirámide
88 / Introducción a la Psicometría
3. Sea el siguiente modelo lineal: X = V + 4. Compruebe si para ambos test se cumple:
+ e1 + e2, donde X y V, como en el modelo lineal sX2 = sV2 + se2.
clásico, son la puntuación empírica y la verdadera, 5. Conteste, justificando adecuadamente la
respectivamente, e1 es un error de medida debido a respuesta, si es correcta o incorrecta la si-
las condiciones físicas externas al sujeto y e2 es un guiente afirmación: «Si los supuestos del
error asociado al estado psicológico del sujeto a la modelo lineal clásico no se cumplen estric-
hora de responder al test. Se asume, como parece tamente para una muestra reducida de suje-
lógico, que ambos errores están correlacionados y tos, nunca se cumplirán para la población a
que sus varianzas son iguales; por lo demás, se ha- la que pertenecen».
cen las mismas asunciones que en el modelo clásico.
5. Dos test presuntamente paralelos se aplica-
1. Exprese sX2 en función de sus componentes. ron a dos muestras independientes de 100 sujetos
2. Calcule el valor de la varianza de las pun- extraídas de la misma población. La media de las
tuaciones empíricas (SX2) y el de la covarian- puntuaciones de los sujetos en el primero fue 40, y
za entre empíricas y verdaderas (SXV), sa- la del segundo, 36. La varianza de la población es
biendo que la varianza verdadera es 10 de 9 en ambos casos.
(S 2V = 10), la varianza de los errores 2
1. Al nivel de confianza del 95 %, ¿puede se-
(S 2e1 = S 2e2 = 2) y la correlación entre ambos
guir manteniéndose la presunción de para-
tipos de error 0,50.
lelismo?
3. Utilizando los datos del apartado anterior,
2. A ese mismo nivel de confianza del 95 %,
realice los cálculos allí indicados para el
¿qué diferencia máxima entre las medias de
modelo:
ambos test se podría admitir para mantener
la presunción de paralelismo?
X = V + e1 – e2
6. En una muestra de 150 sujetos la media de
4. A continuación aparecen las puntuaciones cierto test fue 70, y su varianza insesgada, 16.
empíricas, las verdaderas y los errores correspon-
dientes a cinco sujetos en un test de fluidez verbal 1. ¿Son compatibles estos datos con la hipóte-
y otro de comprensión verbal. sis de que la media del test en la población
es 75? NC: 99 %.
© Ediciones Pirámide
Fiabilidad / 89
12. Resuelva los problemas anteriores (7, 8, 9, empírica habrán obtenido en el test ese grupo de
10 y 11) sustituyendo en los enunciados el término sujetos?
«varianza» por el de «desviación típica».
20. Si la pendiente de la recta de regresión V
13. Demuestre que si se cometiese un error sis- sobre X es cero, ¿qué pronóstico se hará en V para
temático, el mismo en todos los sujetos, no afectaría todo valor de X en puntuaciones directas, diferen-
al valor del coeficiente de fiabilidad ni al del error ciales y típicas?
típico de medida. Trate de extraer algunas implica-
ciones de este hecho para la teoría de los test. 21. Demuestre que el índice de fiabilidad siem-
pre es mayor o igual que el coeficiente de fiabilidad.
14. Represente gráficamente en el eje de orde-
nadas los valores del error típico de medida corres- 22. Demuestre que sX2 = sV2 + se2.
pondientes a los siguientes valores en abscisas del
coeficiente de fiabilidad: 0,00, 0,10, 0,20, 0,30, 0,40, 23. Demuestre que r Xe = 1 – r XX ¢ .
0,50, 0,60, 0,70, 0,80, 0,90, 1,00. Hágalo para valo-
res de 4 y 16 de la varianza empírica. Comente el 24. Si un test es de velocidad pura y se calcula
resultado. su coeficiente de fiabilidad por el método de las dos
mitades, formadas estas por los ítems pares e impa-
15. Se aplicó un test de rapidez motora a una res, respectivamente, ¿cuánto valdría el coeficiente?
muestra de 1.000 sujetos, obteniéndose una media Razone adecuadamente.
de 90, una desviación típica de 10 y un coeficiente
de fiabilidad de 0,75. Estime por tres métodos dis- 25. Se aplicó un test de 25 ítems a una mues-
tintos la puntuación verdadera de los sujetos que tra de 100 sujetos, encontrándose un coeficiente
obtuvieron una empírica de 80. NC: 99 %. Compa- a = 0,42. Al NC del 95 %.
re y comente los resultados obtenidos por los tres
métodos. 1. ¿Resulta estadísticamente significativo?
2. ¿Son compatibles estos datos con la hipóte-
16. En la desigualdad de Chebychev, ¿cuánto sis de que el valor de a en la población es
ha de valer K si deseamos hacer afirmaciones con 0,53?
una p ⩾ 0,95?, ¿y para p ⩾ 0,75? 3. ¿Entre qué valores se estima que estará el
valor de a en la población?
17. En una muestra de 2.000 sujetos el coefi- 4. Al resolver una de las tres cuestiones ante-
ciente de fiabilidad de un test fue 0,85, la varianza riores, quedan automáticamente resueltas
64 y la media 60. Al NC del 90 %, ¿qué puntuación las otras dos. ¿A cuál nos referimos? Razo-
verdadera se estimará a los sujetos que obtuvieron ne adecuadamente.
una empírica de 70?
26. Los errores de medida que afectan a las
18. Se aplicó un test a una muestra de 1.500 puntuaciones obtenidas por un grupo de 200 suje-
sujetos. La varianza error resultó ser el 20 % de la tos en un test se distribuyen según la curva normal.
verdadera; la suma total de las puntuaciones, 60.000, La mediana de estos errores es cero, y la suma de
y la varianza empírica, 25. Al NC del 98 %, ¿qué sus cuadrados, 288. Calcular:
puntuación verdadera se estimará a los sujetos que
obtuvieron una empírica de 45? 1. El error típico de medida del test.
2. La desviación típica de las puntuaciones
19. La media de una muestra de 100 sujetos verdaderas, sabiendo que la varianza de las
en un test fue 20, y la suma de sus puntuaciones puntuaciones empíricas es 4.
empíricas al cuadrado, 50.000. Al NC del 95 %, se 3. La correlación entre las puntuaciones ver-
pronosticó que la puntuación verdadera de un gru- daderas y las empíricas.
po de sujetos estaría entre 40 y 50. ¿Qué puntuación 4. El coeficiente de fiabilidad del test.
© Ediciones Pirámide
90 / Introducción a la Psicometría
27. Calcular la varianza empírica de un test en varianza de las puntuaciones verdaderas, 64, y la de
el supuesto de que la desviación típica de las pun- los errores, 9. ¿Cuál es el intervalo confidencial en
tuaciones verdaderas fuese 4, la de los errores 2, y el que se puede afirmar que se encontrará la pun-
que la correlación entre las puntuaciones verdade- tuación verdadera correspondiente a una empírica
ras y los errores de medida fuese 0,50. directa de 33 puntos? (NC del 95 %).
28. Se aplicó un test a una muestra de 85 su- 32. Se aplicó un test de inteligencia general a
jetos, obteniéndose que la suma de sus puntuacio- una muestra de 100 sujetos, obteniéndose una me-
nes diferenciales al cuadrado fue 1.360, y la varian- dia de 40 puntos y una varianza de 25. El índice de
za de los errores, 9. ¿Cuánto vale el coeficiente de fiabilidad del test para esa muestra fue de 0,80. ¿En-
fiabilidad de dicho test? tre qué valores se encontrará la puntuación diferen-
cial verdadera de los sujetos que obtuvieron en el
29. En un test de inteligencia espacial, una test una puntuación empírica directa de 50 puntos?
muestra de 200 sujetos obtuvo una media de 50, y (NC del 95 %).
una desviación típica de los errores de medida igual
a 2, lo que supone un 20 % de la desviación típica 33. Se desea pronosticar las puntuaciones ver-
de las puntuaciones verdaderas. daderas de un test a partir de las empíricas. La pen-
diente de la recta de regresión de V/X en puntuacio-
1. ¿Qué puntuación verdadera diferencial co- nes diferenciales es de 0,81. ¿Cuál será la puntuación
rresponderá a los sujetos que obtuvieron típica verdadera pronosticada a los sujetos que ob-
una puntuación empírica directa de 70? tuvieron en el test una puntuación típica empírica
(NC: 95 %). de 0,50?
2. A los sujetos con una determinada puntua-
ción empírica se les pronosticó que su pun-
34. La media de una muestra de alumnos de
tuación verdadera estaría entre 10 y 20. ¿A
tercer curso de psicología en un test de destreza ma-
qué nivel de confianza se habrá hecho?
nual fue de 50 puntos, y la desviación típica, de 15.
3. Al NC del 90 %, ¿qué error máximo esta-
La desviación típica de las puntuaciones verdaderas
mos dispuestos a admitir que afecta a las
resultó ser el 85 % de la de las empíricas.
puntuaciones?
30. Se aplicó un test de fluidez verbal a un 1. Calcular el coeficiente de fiabilidad del test.
grupo de 100 sujetos. A los que tenían una puntua- 2. ¿Entre qué valores se estima que se encon-
ción empírica diferencial de 4 puntos se les estimó trará la puntuación directa verdadera de los
(NC del 95 %) que su puntuación diferencial verda- alumnos que obtuvieron en el test una pun-
dera estaría entre 6,92 y –0,92. Sabiendo que la me- tuación empírica directa de 55 puntos? (NC
dia del grupo en el test fue de 8 puntos, calcular: del 99 %).
3. Si el test de destreza manual se aplicase a
1. El coeficiente de fiabilidad. una muestra con una varianza de 81 puntos,
2. El error típico de medida. ¿cuál sería su coeficiente de fiabilidad?
3. La pendiente de la recta de regresión de
V/X en puntuaciones diferenciales. 35. Una muestra de alumnos obtuvo en un
4. La puntuación verdadera diferencial que se test de fluidez verbal una media de 20 y una desvia-
estimará a los sujetos que obtuvieron en el ción típica de 5, siendo la desviación típica de los
test una puntuación empírica directa de 10 errores de medida el 30 % de la desviación típica de
puntos (NC del 96 %). las puntuaciones empíricas.
31. Se aplicó un test a una muestra aleatoria 1. Calcular el coeficiente e índice de fiabilidad.
de 1.000 estudiantes de la Universidad de Oviedo. 2. Calcular la correlación entre las puntuacio-
La media de sus puntuaciones en el test fue 25; la nes empíricas y los errores de medida.
© Ediciones Pirámide
Fiabilidad / 91
© Ediciones Pirámide
92 / Introducción a la Psicometría
1. ¿Cuál será el coeficiente de fiabilidad del 49. A una muestra de 100 sujetos se le aplicó
test si se le suprimen 60 de sus ítems? un test de independencia de campo. La suma de los
2. ¿Cuántos de los 150 ítems originales habría cuadrados de los errores de medida fue 256, distri-
que retener para lograr una fiabilidad de buyéndose dichos errores aleatorios según la curva
0,70? normal, con media cero.
47. Para investigar el área verbal, tanto su as- 1. Calcular el error típico de medida del test.
pecto productivo (fluidez) como comprensivo (com- 2. Teniendo en cuenta que la varianza de las
prensión), se aplicó un test de fluidez verbal (FV) y puntuaciones empíricas en el test fue 4, cal-
otro de comprensión verbal (CV) a una muestra de cular la desviación típica de las puntuacio-
500 sujetos. En el caso de la FV, la varianza verda- nes verdaderas.
dera fue el 85 % de la empírica, y en el de la CV, el 3. Calcular el coeficiente de fiabilidad del test.
90 %. 4. ¿Cuánto valdrá la correlación entre las pun-
tuaciones verdaderas y las empíricas?
1. Teniendo en cuenta que el coeficiente de fia- 5. Administrado el mismo test a otra muestra
bilidad de la CV se calculó por el método de sujetos, se obtuvo una desviación típica
de las dos mitades, ¿cuál fue la correlación de 8. ¿Qué coeficiente de fiabilidad cabe es-
entre ambas mitades? perar en esta segunda muestra?
2. Al test de CV que constaba originalmente
de 120 ítems se le suprimieron 40 por con- 50. Un test de inteligencia general se aplicó a
siderarlo muy fatigoso para los sujetos; una muestra de 500 sujetos, obteniéndose una va-
¿cuánto valdrá su fiabilidad tras acortarlo? rianza de las puntuaciones empíricas de 882. Divi-
3. ¿Cuántos ítems habrá que suprimirle al test dido el test en dos mitades paralelas, B y C, se en-
de FV, que constaba de 100, si nos confor- contró entre ellas una correlación de 0,96.
mamos con una fiabilidad de 0,80?
4. Si ambos test tuviesen el mismo número de
ítems, ¿cuál sería más fiable? 1. Calcular el coeficiente de fiabilidad del test.
5. A la hora de vender el test de FV a una 2. Sabiendo que la media del test fue 50, ¿qué
institución, esta impone dos condiciones: a) puntuación empírica directa habrán obteni-
que el test tenga únicamente 60 ítems y b) do los sujetos a los que se les ha pronosti-
que su fiabilidad no sea inferior a 0,82 para cado una puntuación directa verdadera
muestras con una desviación típica en el comprendida entre 62,98 y 46,82?
test no superior a 15. ¿En qué condiciones 3. Calcular la varianza empírica de B.
cumple el test de FV los requisitos exigidos? 4. Calcular la varianza verdadera de C.
(SFV = 10). 5. ¿Cuál sería el coeficiente de fiabilidad del
test si se aplicase a un grupo de sujetos cuya
48. Un test que consta de 40 ítems paralelos varianza en dicho test fuese de 64?
tiene una varianza global de 25, y el coeficiente de
fiabilidad de cada ítem es 0,12. 51. La media de una muestra de 100 sujetos
en una escala de neuroticismo de 80 ítems es 20, la
1. Calcular el coeficiente de fiabilidad del test. desviación típica de las puntuaciones verdaderas es
2. Calcular la correlación entre las puntuacio- el 90 % de la de las empíricas y la media de los erro-
nes empíricas y los errores de medida. res cuadráticos de medida vale 9. Se sabe además
3. Al NC del 95 %, ¿qué error máximo afecta- que, al nivel de confianza del 95 %, se pronosticó
rá a las puntuaciones verdaderas pronosti- que la puntuación verdadera correspondiente a
cadas? cierta empírica estaría entre 9 y 21.
4. Si la fiabilidad de cada ítem fuese 0,15, ¿qué
proporción representaría la varianza verda- 1. Calcular el índice y el coeficiente de fiabili-
dera del test respecto de la empírica? dad.
© Ediciones Pirámide
Fiabilidad / 93
2. Calcular el error típico de medida. formadas por los ítems pares e impares, respectiva-
3. Calcular la desviación típica de las puntua- mente, resultó ser 44,1. Calcular:
ciones empíricas.
4. Calcular la puntuación empírica directa, di- 1. El coeficiente de fiabilidad del test.
ferencial y típica cuya verdadera se estima 2. La correlación entre las dos mitades del
que estará entre 9 y 21. test.
5. ¿Cuál sería el coeficiente de fiabilidad de la 3. Las varianzas de la mitad par e impar.
escala si el número de ítems se redujese a la
mitad?
6. ¿Cuántos ítems tendría que tener la escala 54. Una escala formada por 10 ítems de razo-
para que el coeficiente de fiabilidad fuese de namiento espacial se aplicó a una muestra de ocho
0,94? sujetos. Los resultados aparecen en la tabla adjunta,
7. ¿Cuál sería la fiabilidad de la escala en otra donde el 1 significa que el sujeto superó el ítem y el
muestra con desviación típica doble? 0 que lo falló.
52. La varianza de las diferencias entre las 1. Calcular la fiabilidad por el método de Ru-
puntuaciones pares e impares de un test es 36, y la lon.
varianza empírica del test total, 100. ¿Cuál es el ín- 2. Calcular la fiabilidad por el método de
dice de fiabilidad del test? Guttman-Flanagan.
3. Calcular la fiabilidad por el método de las
53. La media de un test de 100 ítems en una dos mitades.
muestra de 400 sujetos fue 45, la desviación típica 4. Calcular a, KR20 y KR21 y comparar los re-
14, y la covarianza entre las dos mitades paralelas, sultados.
Ítems
Sujetos
1 2 3 4 5 6 7 8 9 10
A 1 0 1 1 1 1 1 1 0 1
B 1 1 1 1 1 1 1 1 1 0
C 1 1 1 1 1 1 0 1 1 0
D 1 1 1 1 1 1 1 1 1 1
E 1 1 1 1 1 1 1 1 1 1
F 1 1 1 1 1 1 1 0 0 0
G 1 1 1 1 1 1 1 0 1 0
H 1 1 1 1 1 0 1 0 0 0
55. Se aplicó un test de 10 ítems a una mues- 4. La correlación entre las puntuaciones empí-
tra de sujetos, obteniéndose los siguientes resulta- ricas y los errores de medida.
dos: media 52,625, varianza 345,11, varianza de la 5. La varianza de las puntuaciones verdaderas.
mitad formada por los ítems pares 87,03, varianza 6. El intervalo confidencial en el que se puede
de los impares 88,87. Calcular: afirmar, al NC del 95 %, que se encuentra la
puntuación típica verdadera de los sujetos
1. El coeficiente de fiabilidad del test. que obtuvieron en el test una puntuación
2. El índice de fiabilidad del test. empírica directa de 60 puntos.
3. La desviación típica de los errores de medi- 7. Si la suma de las varianzas de los 10 ítems
da del test. fuese 47,6, ¿cuánto valdría el coeficiente a?
© Ediciones Pirámide
94 / Introducción a la Psicometría
8. Calcular el valor de la covarianza media en- 3. Calcule la covarianza media de los ítems de B.
tre los ítems del test. 4. Calcule la fiabilidad del test global.
S1 1 1 1 1 0
1. Calcule el coeficiente de fiabilidad del sub-
S2 1 0 1 1 1
test A por el método de Rulon. S3 1 0 1 0 0
2. Calcule la fiabilidad del subtest B en fun- S4 1 0 0 0 0
ción de la consistencia interna de sus ítems.
© Ediciones Pirámide
Fiabilidad / 95
© Ediciones Pirámide
96 / Introducción a la Psicometría
64. Se aplicaron dos test de razonamiento numé- 1. Calcule el coeficiente de fiabilidad del test.
rico a una muestra de cinco sujetos, obteniéndose los Comente el resultado.
resultados que aparecen en la tabla adjunta. El primer 2. Al nivel de confianza del 92 %, ¿entre qué
test constaba de tres ítems, y el segundo, de cuatro. valores se estima que se encontrará la pun-
tuación verdadera en el test de los sujetos
que hayan obtenido una puntuación empí-
Test 1 Test 2 rica de 7 puntos?
Sujetos 3. Si se desean hacer los pronósticos sobre las
1 2 3 1 2 3 4 puntuaciones verdaderas con un error
máximo que no exceda la unidad, ¿a qué
A 1 1 1 1 1 1 1
nivel de confianza deberíamos trabajar? Co-
B 1 1 0 1 1 1 0
C 1 1 0 1 1 0 0 mente el resultado.
D 0 0 0 1 0 0 0 4. Teniendo en cuenta que la covarianza me-
E 1 0 0 0 0 0 0 dia entre los cuatro ítems del test fue de
0,10, ¿cuál es el coeficiente a del test?
© Ediciones Pirámide
Fiabilidad / 97
Sujetos Ítems
A 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 0 0 0 0
B 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
C 1 1 1 1 0 0 0 0 1 1 0 1 1 1 0 1 0 0 0 0
D 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 0
E 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1
F 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
G 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0
H 0 1 1 1 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0
I 1 1 1 1 1 1 1 1 1 1 0 0 0 1 1 1 0 0 0 0
J 1 1 1 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0
K 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0
L 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0
M 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0
N 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
Ñ 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
O 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
5. Utilizando un error típico de medida del 68. Siendo e el error del test global y e1 y e2 los
nivel correspondiente, estimar la puntua- errores de cada una de las mitades, demostrar que
ción verdadera de las personas con una la varianza de los errores globales del test es igual
puntuación empírica de 12 puntos en el a la suma de las varianzas de los errores de cada
test. NC 95 %. una de las dos mitades: se2 = s 2(e1 – e2) = s e21 + s e22.
6. Compare los resultados obtenidos en los
apartados 3 y 5 y explique la razón de las 69. En la tabla 2.8 aparecen las puntuaciones
diferencias, si las hubiere. de 20 personas en dos formas paralelas de un test
7. ¿A qué nivel mide el test con menor preci- referido al criterio. Dichas formas se utilizan para
sión? Razone la respuesta. clasificar a las personas en tres categorías: baja
8. Se estableció un punto de corte en la pun- (puntuaciones 0-3), media (puntuaciones 4-7) y alta
tuación 16 para clasificar a los exami (puntuaciones 8-10). Elabore la tabla correspondien-
nados en aprobados y suspensos. Se con- te y calcule los coeficientes de fiabilidad po y k.
sidera que un intervalo vital para una
clasificación apropiada viene dado por ±2 70. Calcule el coeficiente de fiabilidad clásico
unidades en torno al punto de corte. ¿Cuál de formas paralelas para los datos de la tabla 2.8.
es el error típico de medida para dicho in- Compare su valor con el de los coeficientes po y
tervalo? kappa y comente el resultado.
9. ¿Cuál es la probabilidad de que una perso- 71. Calcule la correlación de Pearson (coefi-
na con una puntuación verdadera de 15 ciente f) para los datos de la tabla 2.9. Compare su
puntos en el test supere el punto de corte valor con el de los coeficientes po, kappa y rxx′ del
establecido en 16 puntos? Se asume que ejercicio anterior. Comente el resultado.
los errores de medida se distribuyen según
la curva normal en torno a la puntuación 72. Calcule el valor del coeficiente de Livings-
verdadera. ton cuando se dispone de dos formas paralelas. Uti-
10. Bajo los mismos supuestos del apartado lice los datos de la tabla 2.8.
anterior, ¿cuál es la probabilidad de que
una persona con una puntuación verdade- 73. En la tabla adjunta aparecen subrayadas
ra de 18 puntos no supere el punto de cor- las alternativas erróneas que tres jueces consideran
te establecido en 16 puntos? que serían detectadas por una persona con los co-
© Ediciones Pirámide
98 / Introducción a la Psicometría
nocimientos mínimos requeridos para superar la 2. Calcule el punto de corte del test, teniendo
materia. Cada ítem tiene cinco alternativas, apare- en cuenta las opiniones de todos los jueces.
ciendo con un asterisco la correcta. Justifique el estadístico elegido.
3. Según los datos de la tabla, ¿cuál de los jue-
1. Calcule el valor esperado asignado al test ces considera más fácil el test? Justifique la
por cada juez. respuesta.
2. Establezca el punto de corte según el méto- 4. Teniendo en cuenta la opinión de los cuatro
do de Nedelsky, sin corregir los efectos del jueces, ¿cuál es el ítem más difícil del test?
azar y corrigiéndolos. Justifique la respuesta.
SOLUCIONES
© Ediciones Pirámide
Fiabilidad / 99
© Ediciones Pirámide
100 / Introducción a la Psicometría
© Ediciones Pirámide
Validez 3
1. CONCEPTO Tiene que quedar muy claro desde el principio
que, aunque se hable con frecuencia de validar un
Un test constituye una muestra de conducta de test, en sentido estricto no es el test lo que se valida,
una persona recogida de forma objetiva y estanda- sino las inferencias que se hacen a partir de sus pun-
rizada. Los psicólogos y otros profesionales recogen tuaciones sobre determinados aspectos de la con-
esas muestras de conducta porque a partir de ellas ducta de las personas. Por tanto, el resultado final
pueden hacer inferencias fundadas acerca del com- de un proceso de validación no es llegar a decir de
portamiento y funcionamiento cognitivo de las per- forma simplista que tal test es válido; las que son o
sonas evaluadas. La primera condición para que un no válidas son las inferencias hechas a partir del test
test sirva de base para llevar a cabo inferencias de con un determinado fin. Esto es natural, pues a par-
interés es que la muestra de conducta recogida sea tir de un test pueden hacerse inferencias de muy di-
precisa, es decir, que los errores cometidos en la me- verso tipo, de las cuales unas serán válidas y otras
dición sean aceptables, pues ninguna medición cien- no; el proceso de validación consistirá precisamente
tífica está exenta totalmente de error. Como se ha en aportar datos y argumentos (evidencias) que per-
visto en los apartados precedentes, la tecnología mitan saber cuáles de las inferencias están fundadas,
psicométrica desarrollada para evaluar el grado de cuáles son válidas. ¿Cómo se aportan esos datos va-
precisión de las mediciones realizadas con los test lidantes? Es decir, ¿cómo se allegan la evidencia em-
se denomina «fiabilidad». pírica y teórica necesarias para poder afirmar que
La tecnología psicométrica encargada de mos- determinadas inferencias realizadas son válidas?
trar que las inferencias hechas acerca del funciona- Responder a estos interrogantes es lo que constituye
miento de las personas a partir de test son correctas el meollo de la validez. Las respuestas, como no po-
es lo que denominamos «validez». Esta distinción día ser de otro modo, han ido variando a lo largo
entre fiabilidad y validez es razonable y útil, y se de la historia de la psicometría. Esta evolución que-
acepta sin mayor problema entre los especialistas. da muy bien reflejada en la literatura especializada,
Ahora bien, tampoco sería descabellado considerar sobre todo en las sucesivas ediciones del manual
la fiabilidad como una primera fase del proceso de clásico sobre medición psicológica y educativa edi-
validación de un test, pues es difícil de imaginar que tado sucesivamente por Lindquist (1951), Thorn-
se puedan extraer inferencias enjundiosas a partir dike (1971), Linn (1989) y Brennan (2006), y, fun-
de test poco precisos. La cuestión central que nos damentalmente, en las sucesivas ediciones de los
ocupa en este apartado es clara: ¿de qué modo se estándares sobre los test publicados por la AERA,
comprueba que las inferencias hechas a partir de un APA y NCME en 1954, 1966, 1974, 1985, 1999 y
test son correctas? En otras palabras, ¿cómo se pro- 2014, los cuales, en cierto modo, representan el con-
cede para llevar a cabo el proceso de validación de senso psicométrico oficial de cada época.
las inferencias hechas a partir de las puntuaciones El concepto de validez, y por ende las prácticas
de un test? de validación, han ido evolucionando desde unos
© Ediciones Pirámide
102 / Introducción a la Psicometría
inicios marcadamente empíricos y operacionales a de sumo interés para la validez de constructo. Una
la situación actual, en la que se entiende la validez validación ideal incluye diferentes tipos de datos
de una forma más amplia y comprensiva. Así, cuan- pertenecientes a las distintas categorías menciona-
do Gulliksen (1950) sintetiza en su excelente ma- das». Ese es el planteamiento dominante sobre va-
nual lo esencial de la teoría clásica de los test de lidez a partir de los años ochenta, que en el fondo
entonces, el problema de la validez se reduce a la no es otra cosa que subsumir los planteamientos
correlación entre el test y el criterio a predecir. De sobre validez en el marco más general de la com-
modo que la tecnología psicométrica de la validez probación de hipótesis científicas. Validar las infe-
se centraba en el estudio de las correlaciones entre rencias hechas a partir de las puntuaciones de los
el test y los criterios a predecir, y las variables que test es un caso particular de la validación de mode-
modulaban esta relación, tales como la variabilidad los e hipótesis científicas. En suma, el proceso de
de la muestra utilizada, la longitud del test, la fia- validación es unitario, y no hay tipos de validez; lo
bilidad del test y del criterio, o determinadas cova- que hay son distintas vías y estrategias para aportar
riables. Nada que objetar; esta tecnología clásica datos empíricos y teóricos (evidencias) que apoyen
sigue vigente en la actualidad. Lo que ocurre es que la pertinencia de las inferencias hechas a partir de
además de los datos relativos a la correlación test- las puntuaciones de las personas en los test. A con-
criterio, el concepto de validez se ha ido ampliando tinuación se comentan las estrategias más habitua-
paulatinamente. El trabajo pionero de Cronbach y les para obtener evidencias empíricas en los proce-
Meehl (1955) sobre la validez de constructo alerta sos de validación.
a teóricos, constructores y usuarios acerca de la im-
portancia de ocuparse de la rigurosidad y entidad
del constructo medido, además, obviamente, de tra- 1.1. Evidencias de validez
bajar con las correlaciones test-criterio. A partir de
entonces, durante muchos años las vías esenciales La psicometría ha conocido grandes avances en
para recoger datos en el proceso de validación de todas las ramas y la validez no es una excepción, si
los test fueron el análisis de los contenidos de la bien las novedades en este campo no han sido tan
prueba, las correlaciones test-criterio y la entidad espectaculares como en otros. Como ya se ha seña-
de los constructos, lo que dio lugar a que se habla- lado, se mantiene la filosofía general de la validez
se de la santísisma trinidad de la validez: validez de como un planteamiento unitario (Messick, 1980,
contenido, validez de criterio y validez de construc- 1988, 1989), aunque se utilicen distintas aproxima-
to. Los estándares de 1985 ya dejan bien claro que, ciones para obtener datos relevantes para la valida-
si bien esas tres vías de recogida de datos son legí- ción de las inferencias. Validar un test puede consi-
timas, la validez es solo una y no hay razón alguna derarse un caso particular de la comprobación de
para que no se obtengan datos por cualquier otro hipótesis científicas, pero no existe un método cien-
camino complementario. En las propias palabras de tífico claro y universal (Weinberg, 2003) que aplica-
los estándares de 1985 en su página 9: «Tradicional- do de forma algorítmica dé solución a todos los
mente las distintas formas de acumular evidencias problemas, lo cual tampoco quiere decir que todo
sobre la validez se han agrupado en categorías de- vale. Este es un planteamiento correcto y teórica-
nominadas validez de contenido, validez de criterio mente justificado, pero, como señala Brennan
y validez de constructo. Estas categorías son útiles, (1998, 2001), si bien la noción de una validez unita-
como lo son otras categorizaciones más sofisticadas ria es muy sugerente teóricamente, hasta la fecha no
(por ejemplo dividir la validez de criterio en concu- ha mostrado una gran utilidad práctica de cara a
rrente y predictiva), pero el uso de estas categorías los procesos reales de validación. Los constructores
no quiere decir que haya distintos tipos de validez, o y usuarios de los test reclaman reglas más específi-
que una estrategia determinada de validación sea cas que les permitan allegar datos que les ayuden a
mejor para cada inferencia específica o uso del test. validar sus inferencias. Las tres vías clásicas para la
No son posibles distinciones rigurosas entre cada recogida de datos, a saber, contenidos, relaciones
categoría. Por ejemplo, datos relativos a la validez con el criterio y constructo, siguen siendo feraces,
de contenido o a la validez de criterio son también por supuesto, pero algunas otras se han ido aña-
© Ediciones Pirámide
Validez / 103
diendo en este proceso de construcción de la vali- por ejemplo, Aiken (1980), Hambleton (1980,
dez. Repasamos brevemente a continuación las más 1984), Popham (1992), Sireci y Geisinger (1992,
habituales, siguiendo aquellas expresamente citadas 1995) y Deville (1996), entre otros. Para un trata-
en los estándares (AERA, APA y NCME, 1999, miento en profundidad de la problemática implica-
2014), pero dejando bien claro que cualesquiera da en la validez de contenido y sus avatares históri-
otras son igualmente legítimas si se obtienen si- cos pueden consultarse los trabajos de Sireci (1998a
guiendo los cánones habituales de la metodología y b, 2003), Kane (2006b) o Sireci y Faulkner-Bond
científica, no hay ninguna razón para limitarse a las (2014).
cinco que aquí se comentan. En suma, y como bien señala Sireci (1998a),
sean cuales sean los debates teóricos sobre validez,
Evidencias de contenido que son muchos, y para seguir, en la práctica las
evidencias de validez basadas en los contenidos son
Si los ítems que componen una prueba no repre- fundamentales, tal como lo recogen con justicia los
sentan adecuadamente el constructo que se preten- últimos estándares (AERA, APA y NCME, 2014).
de evaluar, difícilmente podrán ser correctas las in- Un aspecto importante de la validez de contenido
ferencias que se hagan a partir del test. Todo es el que se refiere a la necesidad de que el test pa-
proceso de validación ha de comenzar por la inex- rezca, dé la impresión a las personas evaluadas, de
cusable tarea de comprobar la pertinencia de los que es adecuado y tiene sentido para medir lo que
contenidos; si esta falla, todo lo demás, por muy se pretende (Muñiz, 2003, 2004). Se trata de un tipo
sofisticado técnicamente que sea, tiene los pies de de evidencia sobre la validez de carácter menor,
barro. Algo tan elemental se olvida con cierta fre- pero en determinadas circunstancias podría llevar a
cuencia, basando a veces la selección de ítems en las personas evaluadas a desmotivarse para contes-
criterios meramente estadísticos a posteriori. A la tar la prueba si considerasen que aquello por las
hora de llevar a cabo la validación de los contenidos razones que sea no les parece serio. Tanto quien
han de comprobarse al menos dos aspectos vitales: construye una prueba como quien ha de seleccio-
la definición del constructo a evaluar y su correcta narla para su aplicación harían bien en asegurarse
representación en el test. La definición ha de hacer- de que las tareas incluidas en la prueba, así como
se de forma operativa de modo que sea susceptible su apariencia, resultan aceptables para las personas
de someterse a prueba y sea posible derivar indica- evaluadas. Buenos análisis sobre la validez aparente
dores empíricos para su medición. No hay reglas pueden consultarse en Turner (1979), Friedman
universales para llevar a cabo una definición ade- (1983) o Nevo (1985). En suma, hoy como ayer, y
cuada, depende en gran parte del constructo a me- seguro que también mañana, todo proceso de vali-
dir. No es lo mismo, por ejemplo, definir las varia- dación comienza por la base, por los contenidos del
bles de tipo educativo o profesional, donde los test; después vendrá todo lo demás.
dominios suelen estar bien acotados, que variables
típicamente psicológicas como la extraversión o la Procesos de respuesta
inteligencia. Definido el constructo, la representa-
ción se refiere al grado en el que los ítems que com- Las personas evaluadas mediante un test obtie-
ponen el test representan todos los aspectos del nen una determinada puntuación en los ítems y en
constructo a medir. el test y todas las inferencias que se hacen parten de
Para lograr estos dos objetivos puede proceder- esos datos. Cuanto más conozcamos acerca de los
se de forma analítica y racional, mediante la utili- procesos que llevan a una persona a obtener una
zación de expertos en la temática a evaluar, o bien determinada puntuación, mejor comprenderemos el
usar técnicas estadísticas tras la aplicación de la constructo medido y mayor control tendremos so-
prueba. Lo más recomendable es empezar con los bre las posibles predicciones. Los datos que se pue-
expertos y complementar sus opiniones con los dan aportar sobre estos procesos de respuesta cons-
análisis estadísticos. A partir de los datos propor- tituyen una apoyatura excelente en el proceso de
cionados por los expertos pueden obtenerse diver- validación de la prueba; incluso podría afirmarse
sos indicadores cuantitativos de sus juicios; véanse, que en su ausencia no se puede hablar de una vali-
© Ediciones Pirámide
104 / Introducción a la Psicometría
dación en profundidad. Nótese que estamos ante la bre estos aspectos de la validación puede verse en
tarea clásica propuesta por Cronbach (1957, 1975) Padilla y Benítez (2014).
de unir los esfuerzos de los enfoques diferencial y
general para entender cabalmente la conducta hu- Estructura interna del test
mana. Las estrategias para aportar datos sobre los
procesos subyacentes a las respuestas de las perso- Los datos sobre la estructura interna del test
nas a los ítems de los test son muy variadas, si bien pretenden evaluar en qué medida el test constituye
siempre se basan en el análisis de las respuestas in- un constructo coherente y riguroso y no se trata
dividuales de las personas. Estas estrategias pueden simplemente de un conjunto espurio de ítems. Un
ir desde preguntar a las propias personas acerca de test puede estar diseñado para constituir una o va-
su proceder y observar los pasos sucesivos (cuando rias dimensiones, depende en cada caso de la defi-
es posible) que les conducen al resultado final hasta nición operacional del constructo a medir. La eva-
utilizar observadores expertos o analizar de forma luación de la dimensionalidad es uno de los tópicos
experimental los procesos básicos y componentes con mayor tradición psicométrica, pues muchos de
implicados en la respuesta de cada ítem. los modelos psicométricos más habituales en la
La emergencia del paradigma cognitivo en los práctica asumen que el constructo evaluado es uni-
años sesenta levantó grandes expectativas acerca de dimensional. La unidimensionalidad matemática-
la posibilidad de poder dar cuenta de las respuestas mente perfecta solo existe en la mente de quienes
de las personas a los ítems de los test de aptitudes, construyen y analizan los test; por tanto, trátase de
en especial de inteligencia. La literatura generada ver en qué medida es aceptable la unidimensionali-
ha sido abundantísima, habiéndose estudiado ex- dad mostrada por los datos empíricos. En otras pa-
haustivamente procesos tan diversos como el tiem- labras, hay que asegurarse de la robustez de los mo-
po de reacción, la memoria, el tiempo de inspección delos psicométricos utilizados a violaciones del
o los potenciales evocados, solo por citar algunos. supuesto de unidimensionalidad. Por ejemplo, di-
Tras cincuenta años de predominio del paradigma versos trabajos muestran que los modelos logísticos
cognitivo en psicología, y pasados los primeros en- de teoría de respuesta a los ítems son bastante ro-
tusiasmos, hay que decir que no se ha avanzado mu- bustos a violaciones moderadas de la unidimensio-
cho en el conocimiento de los procesos explicativos nalidad (Muñiz y Cuesta, 1993). Aunque autores
de las respuestas de las personas a los ítems. Segui- como Hattie (1984, 1985) describen más de ochenta
mos sabiendo más acerca de las predicciones que se indicadores de unidimensionalidad, los más popu-
pueden hacer a partir de las puntuaciones en los lares siguen siendo los derivados del análisis facto-
test que sobre los procesos reales que hacen que rial, si bien otras muchas alternativas son actual-
unas personas resuelvan con soltura los ítems y mente posibles, tales como el uso de los modelos de
otras lo hagan con dificultad. La esperada fecunda- ecuaciones estructurales (Gómez, 1996; Muthén,
ción de la psicología diferencial por la psicología 1988; Pitoniak, Sireci y Luecht, 2002). Véanse bue-
general sigue pendiente en gran medida. Analizar nas revisiones sobre dimensionalidad en Cuesta
las causas profundas de este estado de cosas nos (1996) y Elosua y López (2002). Tal vez convenga
llevaría lejos, fuera del alcance de este libro, y es recordar, dada la popularidad del coeficiente alfa
que la comprensión cabal de los procesos cognitivos de Cronbach para evaluar la fiabilidad, que si bien
que subyacen a la medición de las aptitudes y otras este se basa en la consistencia interna de la prueba,
variables no está exenta de serios problemas (Prieto no puede tomarse sin más como un indicador de la
y Delgado, 1999). dimensionalidad. No puede hablarse tampoco de
En cualquier caso, la dificultad de aportar datos una dimensionalidad intrínseca e invariante de una
sobre los procesos implicados en la resolución de prueba, ya que esta puede variar con el tipo de
los ítems no debe disuadirnos de intentarlo, pues muestra, e incluso viene afectada por el formato de
una validación en profundidad solo se conseguirá los ítems (García-Cueto, Muñiz y Lozano, 2002).
cuando se logren integrar coherentemente las pun- Dentro de este apartado relativo a la estructura
tuaciones obtenidas por las personas con los proce- interna pueden ubicarse los trabajos encaminados
sos seguidos para obtenerlas. Un buen análisis so- a evaluar el funcionamiento diferencial de los ítems
© Ediciones Pirámide
Validez / 105
(DIF). Estos análisis tratan de asegurar que los un constructo del otro. En psicología no siempre ha
ítems funcionan de forma similar para diferentes ocurrido esto con todos los constructos utilizados
grupos, no favoreciendo o perjudicando a unos por los psicólogos, como bien dieron cuenta de ello
grupos frente a otros. Nótese que datos sobre este Campbell y Fiske (1959) en su trabajo pionero, for-
funcionamiento de los ítems son claves para poder mulando una tecnología, la matriz multirrasgo-
apoyar la validez y universalidad de una prueba. multimétodo, para someter a prueba la existencia
Seguramente la tecnología para la evaluación del de evidencias de validez convergente y discriminan-
DIF ha sido uno de los capítulos de la psicometría te. Desde el trabajo de Campbell y Fiske se han
que más atención ha recibido durante los últimos seguido numerosas propuestas para analizar esta-
años, habiendo llegado a soluciones técnicas muy dísticamente los datos provenientes de dichas ma-
satisfactorias para la evaluación eficiente del DIF. trices, buenos tratamientos de los cuales pueden
Pueden consultarse buenas exposiciones y análisis consultarse, por ejemplo, en Browne (1984), Marsh
en Holland y Wainer (1993), Camilli y Shepard (1988), Schmitt y Stults (1986), Kenny (1994) o
(1994), Fidalgo (1996), Fidalgo y Muñiz (2002) o Hernández y González-Romá (2000).
Hidalgo y López-Pina (2000). Una asignatura pen- Aportar datos sobre el grado en el que un test
diente de esta tecnología es la detección del DIF converge con otras mediciones del mismo construc-
cuando la muestra utilizada es poco numerosa, en to, o diverge con aquellas de constructos diferentes,
cuyo caso las técnicas convencionales, tales como sigue siendo fundamental en su proceso de valida-
el método Mantel-Haenszel, no funcionan todo lo ción. En la práctica el problema radica en la dificul-
bien que sería de desear (Muñiz, Hambleton y tad y carestía en tiempo y dinero que suele implicar
Xing, 2001). Un análisis sobre las evidencias basa- la obtención de los datos necesarios para llevar a
das en la estructura interna de las pruebas puede cabo este tipo de análisis. Las evidencias de validez
verse en Ríos y Wells (2014). convergente y discriminante pueden obtenerse a par-
Las estrategias para la obtención de datos co- tir de los datos proporcionados por la así llamada
mentadas hasta ahora se centraban en aspectos in- matriz multirrasgo-multimétodo, que no es otra
ternos del test, bien fuese su contenido, los procesos cosa que lo que indica su nombre, a saber, una ma-
implicados en las respuestas a los ítems o la estruc- triz de correlaciones en la que aparecen varios ras-
tura interna del test. A partir de ahora se comentan gos psicológicos (constructos) medidos por varios
nuevas estrategias de obtención de evidencias, rela- métodos. Dícese haber validez convergente si las co-
tivas a la conexión del test con distintas variables rrelaciones entre las medidas de un rasgo por distin-
externas a él. tos métodos son elevadas, es decir, las medidas de un
mismo rasgo convergen, aunque se hayan hecho por
Relaciones con otras variables diferente método. La validez discriminante se refiere
a que las correlaciones anteriores entre las medidas
a) Converger y discriminar del mismo rasgo por distintos métodos han de ser
claramente superiores a las correlaciones entre las
Un test diseñado para medir un determinado medidas de distintos rasgos por el mismo método.
constructo no suele estar solo en el mundo; ese mis- La idea de Campbell y Fiske (1959), aunque no era
mo constructo puede ser evaluado por muy diversos nueva en el ámbito de la psicología, sistematizada de
procedimientos más o menos similares a nuestro este modo adquirió rápidamente gran difusión y po-
test. Si el constructo es sólido, tiene entidad y no es pularidad, pues ya estaba latente en amplios sectores
meramente espurio, las distintas mediciones que se de la psicología la necesidad de garantizar que las
hagan de él por el procedimiento que sea han de ser teorías y constructos psicológicos al uso no eran me-
similares, han de converger, han de estar correlacio- ros artefactos emanados de un determinado método
nadas, han de mostrar, en suma, validez convergen- de medida que se desvanecían al variar este, como
te; nada más natural. Análogamente, si distintos así comprobaron en numerosos casos Campbell y
constructos se evalúan utilizando procedimientos Fiske (1959) al revisar la literatura.
parejos, no hay razón para esperar que dichas me- A modo de ejemplo, se presenta a continuación
diciones converjan; deberían divergir, discriminar una matriz multirrasgo-multimétodo (tabla 3.1) en la
© Ediciones Pirámide
106 / Introducción a la Psicometría
TABLA 3.1
AI OS EP AI OS EP AI OS EP
AI 0,80
Extraversión OS 0,70 0,80
EP 0,60 0,70 0,90
que tres rasgos (extraversión, liderazgo e inteligencia primer lugar para la validación de los test. Después
social) se midieron cada uno por tres métodos (au- vino todo lo demás, la validez de contenido (Cure-
toinforme, observación sistemática y encuesta a pro- ton, 1951), la de constructo (Cronbach y Meehl,
fesores) en una muestra de escolares de 12 años. 1955) y las propuestas unificadoras de la validez que
En la diagonal principal aparecen las correla- predominan en nuestros días (Messick, 1989). Todo
ciones de los test consigo mismos, esto es, los coe- lo relativo a los coeficientes de validez está bien tra-
ficientes de fiabilidad, todos ellos iguales o mayores tado en los manuales clásicos como el de Gulliksen
que 0,80. La validez convergente, valores adyacen- (1950), con aportaciones posteriores importantes de-
tes a la diagonal principal, también es aceptable, rivadas del uso generalizado de las técnicas multiva-
con valores iguales o superiores a 0,60 en todos los riadas, tales como la regresión múltiple, el análisis
casos. Asimismo, existe una clara validez discrimi- factorial o el análisis discriminante, entre otras. Véa-
nante, pues la máxima correlación entre medidas de se una síntesis en Dunbar y Ordman (2003). Segura-
distinto rasgo por el mismo método es 0,20. Natu- mente el problema más insidioso en este contexto es
ralmente, la realidad suele presentarse no tan diáfa- el de la evaluación precisa del propio criterio (Yela,
na como este ejemplo ilustrativo. Para un estudio 1990). En algunos casos su estimación no ofrece di-
exhaustivo de los modelos de análisis de la matriz, ficultad mayor, como ocurre con los test referidos al
véanse, por ejemplo, Browne (1984), Marsh (1988), criterio (tanto educativos como profesionales), don-
Schmitt y Stults (1986) o Widaman (1985). de el domino viene acotado de forma precisa y ope-
rativa. En esos casos obtener la correlación test-cri-
b) La predicción del criterio terio no conlleva mayores dificultades. Ahora bien,
en el caso de algunas variables psicológicas, dar con
Seguramente los test constituyen la tecnología un criterio adecuado, y medirlo con precisión, tór-
más importante de la que disponen los psicólogos nase tarea poco menos que imposible. Piénsese, por
para ejercer su profesión e investigar numerosos as- ejemplo, en los criterios para la validación de los test
pectos de la conducta humana. Los test son tan uti- de inteligencia: casi ninguno de ellos está exento de
lizados porque, entre otras cosas, permiten hacer polémica. Algunas recomendaciones de interés para
predicciones precisas sobre aspectos clave del funcio- la medición del criterio pueden verse en Thorndike
namiento humano. Pues bien, a la base de esas pre- (1982) o Crocker y Algina (1986). Erróneamente
dicciones están las correlaciones entre el test y la va- suele dedicarse mucha más atención a garantizar las
riable a predecir, el criterio. La correlación entre el propiedades psicométricas del test, descuidándose
test y el criterio se denomina «coeficiente de validez» las del criterio, cuando en realidad ambos son, como
y es el dato que históricamente se ha propuesto en mínimo, igual de relevantes a la hora de calcular los
© Ediciones Pirámide
Validez / 107
coeficientes de validez. Con frecuencia las personas currículum implicados, el tipo de medida del crite-
implicadas en los procesos de validación asumen rio utilizada, el tipo de personas evaluadas y el mo-
como aproblemática la medición del criterio, lo cual mento temporal en el que se lleva a cabo el estudio.
está lejos de la realidad; piénsese, por ejemplo, en Todos esos parámetros y otros muchos pueden va-
criterios habituales tales como los juicios de exper- riar de unos casos a otros, por lo que hay que ir
tos, supervisores o profesores, los cuales vienen afec- acumulando datos empíricos acerca de la pertinen-
tados por numerosas fuentes de error que es necesa- cia de las generalizaciones. El metaanálisis se ha ido
rio estimar. imponiendo como forma estándar de análisis de los
La distinción clásica de validez concurrente, datos proporcionados por las investigaciones; ahora
predictiva o retrospectiva, en función de que la me- bien, sus resultados para un caso particular no de-
dición del criterio se haga a la vez que el test, pos- ben tomarse de forma ingenua, y es necesario ase-
terior o previamente, sigue siendo práctica para or- gurarse de que los trabajos incluidos en el metaaná-
ganizar los datos; además cada situación conlleva lisis son equiparables a la situación que nos ocupa
estrategias diferentes de medición del criterio. La en cada momento. Véase una buena revisión crítica
visión unificadora de la validez que predomina ac- en Murphy (2003).
tualmente desde el punto de vista conceptual no Aparte de los cinco aspectos mencionados, un
debe confundirnos y distraer nuestra atención sobre factor muy estudiado ha sido la incidencia del entre-
las correlaciones test-criterio; si estas no se aportan namiento para hacer los test (coaching) en sus pro-
en el proceso de validación, poca o ninguna renta- piedades psicométricas (Allalouf y Shakhar, 1998;
bilidad aplicada se le va a sacar a la prueba. El sino Anastasi, 1981; Jones, 1986; Linn, 1990; Martínez-
del test que no logra predecir un criterio de interés Cardeñoso, García-Cueto y Muñiz, 2000; Messick y
corre parejo al del buey que no ara. Jungeblut, 1981; Powers, 1985, 1986, 1993). Los re-
sultados parecen indicar con claridad que los entre-
c) Generalización de la validez namientos sistemáticos tienden a mejorar en cierto
grado las puntuaciones de las personas en los test
La pretensión de que los resultados hallados en entrenados, eso sí, con importantes fluctuaciones en
cualquier ámbito científico sean universales, es de- función del tipo de programa de entrenamiento, las
cir, se puedan generalizar en condiciones diferentes horas invertidas y, sobre todo, el tipo de test. Sin
a las que fueron hallados, constituye una premisa embargo, no se dispone de datos concluyentes sobre
científica básica, y los datos obtenidos en los proce- la incidencia del entrenamiento en la fiabilidad y va-
sos de validación no son una excepción. La genera- lidez de los test.
lización hay que probarla, no se puede dar por su-
puesta, de modo que han de obtenerse datos y Consecuencias del uso de los test
aportar argumentos para estar seguros de que las
correlaciones test-criterio obtenidas en determina- La última estrategia de recogida de datos en el
das condiciones se mantienen en otras condiciones proceso de validación propuesta por los recientes
no estrictamente iguales, es decir, son generalizables. estándares (AERA, APA y NCME, 2014) es la in-
La variación de situaciones es prácticamente ilimi- clusión de las consecuencias del uso de los test en el
tada, de modo que el aporte de datos que avalen la proceso de validación. Esta propuesta fue incluida
generalización constituye un proceso de acumula- por primera vez en los estándares de 1999. El deba-
ción progresiva. No obstante, no todas las variacio- te sobre lo que ha dado en llamarse «validez conse-
nes circunstanciales tienen la misma entidad, y es cuencial» se aviva a raíz del influyente trabajo de
tarea del usuario de los test y del constructor expli- Messick (1989) en la tercera edición del libro Edu-
citar aquellos más relevantes para cada caso. Así, cational Measurement, donde propone ampliar el
por ejemplo, en los estándares de la AERA, APA y marco conceptual de la validez para dar cabida en
NCME (2014) se mencionan cinco situaciones que él a las consecuencias del uso de los test. Nadie ha-
pueden incidir en la generalización de los coeficien- bía dudado nunca, que se sepa, de la gran impor-
tes de validez: diferencias en la forma en la que se tancia que tiene ocuparse del uso adecuado de los
mide el constructo predictor, el tipo de trabajo o test y de las consecuencias de su utilización, pero de
© Ediciones Pirámide
108 / Introducción a la Psicometría
ahí a incluir estos aspectos dentro del marco cientí- estudiantes. En esta situación todas las partes im-
fico de la validez había un trecho, que Messick pro- plicadas, constructores de pruebas, estudiantes, pa-
pone caminar. Su propuesta cala en la comunidad dres, colegios y gobiernos, mirarían con lupa todo
psicométrica dominante hasta el punto de ser in- el proceso y sus consecuencias. Aparte del propio
cluida en los estándares de 1999. Bien es verdad que test, las consecuencias de su aplicación, positivas y
no hay unanimidad al respecto, siendo recomenda- negativas, también serían escrutadas. Por ejemplo,
bles los trabajos de Shepard (1997) y Linn (1997) a una consecuencia positiva sería que los colegios se
favor, y los de Popham (1997) y Mehrens (1997) en verían presionados para que sus estudiantes mejo-
contra. La literatura generada es abundante; véase rasen y puntuasen alto en la prueba. Una posible
por ejemplo el monográfico de la revista Educatio- consecuencia negativa sería que los programas se
nal Measurement: Issues and Practice (Green, 1998; ajustarían y centrarían en aquellos aspectos inclui-
Lane, Parke y Stone, 1998; Linn, 1998; Moss, 1998; dos en la prueba, restringiendo así los objetivos de
Reckase, 1998; Taleporos, 1998). la enseñanza; es decir, se enseñaría para la prueba.
El meollo del debate se centra fundamentalmen- No cabe duda de que se trata de dos consecuencias
te en si es apropiado o no incluir las consecuencias de interés que han de tenerse en cuenta; la cuestión
sociales del uso de los test en el marco de la validez. que se debate es si han de ser incluidas en el marco
De lo que nadie duda es de la importancia de estas de los estudios de validez o no.
y de la necesidad de ocuparse de ellas por parte de Nótese que esta cuestión de la validez consecuen-
los distintos agentes implicados en la utilización de cial no se identifica estrictamente con el uso inade-
los test, tales como autores, constructores, distribui- cuado de los test, que sencillamente ha de evitarse,
dores, usuarios, personas evaluadas e instituciones para lo cual las organizaciones nacionales e interna-
contratantes (Haertel, 2002; Kane, 2002; Lane y Sto- cionales llevan a cabo muy diversas iniciativas; véan-
ne, 2002; Ryan, 2002). Al incluir las consecuencias se, por ejemplo, Bartram (1998), Fremer (1996),
sociales en el marco de la validez, se corre el riesgo Evers (1996), Evers et al. (2017), Muñiz (1997, 1998),
de introducir por la puerta de atrás los planteamien- Muñiz y Fernández-Hermida (2000), Muñiz, Prieto,
tos sociales y políticos en el estudio de la validez, que Almeida y Bartram (1999) y Simner (1996). Una al-
debería reservarse para los argumentos científicos. ternativa razonable sería incluir en esta tradición del
Autores como Maguire, Hattie y Brian (1994) consi- uso adecuado de los test todo lo relativo a las conse-
deran que esta insistencia en incluir las consecuen- cuencias, pero hay quien considera que esto sería re-
cias dentro del marco de la validez viene motivada bajar la importancia atribuida a las consecuencias,
en gran parte por las continuas refriegas legales que ya que incluidas en el capítulo de la validez, tienen
rodean a los test en Estados Unidos. Consideran que garantizada una mayor cuota de pantalla en el deba-
si bien esta postura pudiera reducir las batallas lega- te psicométrico. Véase un análisis detallado del papel
les, también puede distraer a los constructores de su de las consecuencias en el proceso de validación en
misión central, que no es otra que aportar datos de Padilla et al. (2007) o Lane (2014).
cómo el test representa al constructo medido.
Este debate puede resultar ajeno a muchos psi- Comentarios finales
cólogos, especialmente a los clínicos, y ello no es de
extrañar, pues surge fundamentalmente en los pro- Para orientar en la práctica la obtención de evi-
gramas americanos de test a gran escala en el ám- dencias empíricas relativas a las cinco vías descritas,
bito de la medición educativa y algo menos en la contenidos, procesos, estructura interna, relaciones
orientación y selección de personal. En España es- con otros test y consecuencias, los estándares téc
tamos poco familiarizados con estos problemas, nicos (AERA, APA, NCME, 2014) proponen vein-
pues escasean los programas sistemáticos de aplica- ticinco directrices de gran interés, remitiendo a ellas
ción de pruebas a nivel regional o nacional. Pero a los lectores interesados. Además, tratamientos de-
imagínese por un momento que a determinada edad tallados sobre el proceso de validación pueden verse
escolar todos los niños fuesen evaluados por una en Paz (1996), Elosua (2003), Kane (2006b, 2016),
prueba educativa, y que esa prueba tuviese repercu- Lissitz (2009) o Zumbo y Chan (2014), y para un
siones importantes para la vida académica de los planteamiento más crítico, Markus y Borsboom
© Ediciones Pirámide
Validez / 109
(2013). Tal como se ha expuesto, los planteamientos del criterio. Una pregunta muy pertinente que se le
actuales sobre el proceso de validación de los test plantea a continuación podría ser la siguiente: ¿cuál
hacen especial hincapié en la necesidad de aportar sería la validez del test en el supuesto de que tanto
datos empíricos y fundamentación teórica para jus- el test como el criterio tuviesen una fiabilidad per-
tificar cualquier inferencia que se pretenda hacer a fecta? Es decir, en el supuesto de que careciesen de
partir de las puntuaciones de los test. Si bien se ha errores de medida.
ido refinando y sofisticando históricamente el con- La respuesta viene dada por la fórmula de ate-
cepto de validez, evolucionando hacia un plantea- nuación (Spearman, 1904), denominación que hace
miento unitario, dentro del marco general de la referencia al hecho de que la validez empírica viene
metodología científica para la comprobación de hi- atenuada, reducida, disminuida, por la existencia de
pótesis, el tipo de datos empíricos obtenidos en el los errores de medida, existencia cuya fórmula per-
proceso de validación ha permanecido más estable. mite corregir, o, más exactamente, permite hacer
No obstante, ello no ha sido en balde, pues el nuevo una estimación, según los supuestos del modelo, de
marco unitario permite interpretarlos de forma más cuál sería la validez si test y criterio careciesen de
integradora y significativa. La validación pasa así a errores de medida. En ese caso de ausencia de erro-
ser conceptualizada como un caso particular de la res, la validez del test vendría dada por la correla-
metodología científica. La recogida de datos para so- ción entre las puntuaciones verdaderas de las per-
meter a prueba las inferencias hechas a partir de los sonas en el test y sus verdaderas en el criterio:
test conlleva la misma problemática que la compro-
bación de cualquier otra hipótesis científica. Las es- ρ xy
ρ vx v y = [3.1]
trategias de recogida de datos clásicas son lícitas, por ρ xx ′ ρ y y ′
supuesto, pero no necesariamente exclusivas.
donde:
© Ediciones Pirámide
110 / Introducción a la Psicometría
© Ediciones Pirámide
Validez / 111
donde las letras mayúsculas se refieren a las fiabili- El coeficiente de validez pasaría de 0,60 a 0,66.
dades mejoradas.
Efectivamente, según [3.1]: Casos particulares de [3.4]
© Ediciones Pirámide
112 / Introducción a la Psicometría
ρ xy n
y, en consecuencia, ρ Xy =
[3.8]
1 + (n − 1) ρ xx ′
ρ xy < ρ xx ′
donde n es el número de veces que se aumenta el test,
ya que el valor máximo de ryy ′ es 1. Ahora bien, rxy el coeficiente de validez y rxx ′ el de fiabilidad.
Su obtención es inmediata, sustituyendo en [3.6]
el valor de rxx ′ dado por la fórmula de Spearman-
ρ xx ′ = ρ xv Brown expuesta en [2.20]. Según [2.20]:
luego: n ρ xx ′
ρ XX ′ =
rxy ⩽ rxv 1 + (n − 1) ρ xx ′
ρ xy < 0,81
ρ xy < 0,90 Ejemplo
(0,60) 2
ρ Xy = = 0,626
2.3. Validez y longitud del test 1 + (2 − 1)(0,80)
© Ediciones Pirámide
Validez / 113
No seleccionados Seleccionados
© Ediciones Pirámide
114 / Introducción a la Psicometría
© Ediciones Pirámide
Validez / 115
suística que el lector puede encontrar expuesta con donde, como en el caso de dos variables, X es el test
detalle en Gulliksen (1950). directamente selectivo, Z el nuevo test e Y el crite-
Las fórmulas expuestas pueden usarse de forma rio, reservándose las mayúsculas para el grupo total
general siempre que se reserve la X para la variable y las minúsculas para el de los seleccionados.
directamente selectiva, la Y para la indirectamente
selectiva (independientemente de que sea el test o el
criterio), las minúsculas para el grupo con los datos Ejemplo
conocidos y las mayúsculas para el desconocido (in-
dependientemente de que el grupo sea el selecciona- Un cuestionario de habilidades sociales se utili-
do o el total). zó para seleccionar 40 candidatos entre 1.000 aspi-
Sobre lo adecuado de los supuestos, no se anda rantes a encuestadores. La desviación típica de los
sobrado de evidencia empírica confirmatoria, pero aspirantes en el cuestionario fue 25, y la de los se-
todo parece indicar que si la selección no es muy ex- leccionados, 6. Tras varios meses encuestando, la
trema, las fórmulas funcionan bien, e incluso infraes- correlación entre las puntuaciones en el cuestiona-
timan la validez en el grupo no seleccionado (Lord y rio y la eficiencia como encuestadores, medida se-
Novick, 1968). En el caso de selección extrema, lo gún cierto criterio, fue de 0,30, mientras que la efi-
cual es bastante frecuente en la práctica, las fórmulas ciencia encuestadora correlacionó 0,35 con un test
han de usarse con precaución, si bien Lee, Miller y de inteligencia general aplicado a los seleccionados.
Graham (1982) obtuvieron estimaciones ajustadas Por su parte, la correlación entre la inteligencia ge-
incluso para casos de selección extrema (10 %). neral y las habilidades sociales resultó ser de 0,60.
A la luz de estos datos, ¿puede afirmarse que la in-
teligencia general predice la eficiencia encuestadora
3.2. Tres variables mejor que el cuestionario de habilidades sociales?
Según [3.11]:
Otra situación paradigmática en el ámbito de la
psicología aplicada se produce cuando, una vez hecha (25)(0,30)
la selección según lo expuesto en el apartado anterior, ρ XY = = 0,80
se plantea la posibilidad de que un nuevo test Z pue- (25) (0,30)2 + 62 − 62 (0,30)2
2
© Ediciones Pirámide
116 / Introducción a la Psicometría
decir, se asume que las pendientes de las rectas de Aunque la casuística posible es variada, depen-
regresión de las variables indirectamente selectivas diendo de los datos que se consideren conocidos, en
(Z, Y) sobre la variable directamente selectiva (X) la práctica lo más usual será disponer de todos los
son iguales en el grupo seleccionado y en el total datos en ambos grupos para las variables directa-
(supuestos 1 y 2). Asimismo, se asume que son mente selectivas y los de las variables indirectamen-
iguales sus errores típicos de estimación (supuestos te selectivas en el grupo seleccionado. Se ilustra este
3 y 4), y que la correlación parcial entre el criterio caso a continuación; véase Gulliksen (1950) para un
(Y ) y el nuevo test (Z), eliminando el efecto de X, tratamiento detallado.
es igual en ambos grupos (supuesto 5). Todo lo cual Como se verá en el apartado siguiente, los pesos
puede expresarse del siguiente modo: b vienen dados por:
1. ρ xyσ y ρ σ −1
b = Cxx Cxy
= XY Y
σx σX
−1
donde Cxx es la inversa de la matriz de varianzas-
2. ρ xzσ z ρ σ covarianzas de las variables predictoras X (aquí di-
= XZ Z
σx σX rectamente selectivas) y Cxy las covarianzas entre las
directa e indirectamente selectivas.
3. σ y 1 − ρ xy
2
= σY 1 − ρ XY
2
[3.14] Por otra parte:
4. σ z 1 − ρ xz
2
= σ Z 1 − ρ XZ
2
′ Cxx
Cee = CyyCyx −1
Cxy
5. ρ zy − ρ xz ρ xy ρ ZY − ρ XZ ρ XY
= Sustituyendo estos valores en los supuestos:
(1 − ρ xz
2
)(1 − ρ xy
2
) (1 − ρ XZ
2
)(1 − ρ XY
2
)
−1
1. Cxx Cxy = CX−1XCXY
Trate el lector, a modo de ejercicio, de llegar a
2. Cyy − Cyx′ Cxx
−1
′ CX−1XCXY
Cxy = CYY − CYX
la expresión [3.13] despejando rZY a partir de los
supuestos. En función de los datos conocidos-des-
Del primero lo único que no se conoce es CXY,
conocidos de los supuestos, puede aparecer un des-
que se puede despejar:
file innumerable de casos posibles; véase, por ejem-
plo, Gulliksen (1950). −1
CXY = CXXCxx Cxy [3.16]
© Ediciones Pirámide
Validez / 117
© Ediciones Pirámide
118 / Introducción a la Psicometría
© Ediciones Pirámide
Validez / 119
σ y2′ CVP = 1 − 1 − ρ xy
2
ρ xy
2
= 2 [3.21]
σy
Intervalos confidenciales
σ y2 · x
ρ 2
xy = 1 − [3.22]
σ y2 A la hora de hacer pronósticos en el criterio a
partir del test, y debido a los errores de estimación
La fórmula [3.21] muestra explícitamente que el asociados con las predicciones, más que estimacio-
coeficiente de validez al cuadrado expresa la pro- nes puntuales conviene establecer un intervalo con-
porción de varianza asociada entre el test y el crite- fidencial en torno a la puntuación pronosticada.
rio, o, en otras palabras, expresa qué proporción de Para ello se asume que los errores de estimación se
la varianza del criterio se puede predecir a partir del distribuyen según la curva normal con desviación
test. Por ejemplo, si la validez de un test es 0,80, ello típica dada por el error típico de estimación (sy · x).
indicará que el 64 % de la varianza del criterio es
pronosticable a partir del test. Por ello, no es infre-
cuente denominar a rxy 2
coeficiente de determina- Ejemplo
ción y a 1 − ρ xy coeficiente de alienación, aludien-
2
Se aplicó un test a una muestra de 100 personas,
do, respectivamente, al grado en que el criterio vie- obteniéndose una media de 40 y una desviación típi-
ne determinado por el test, o, por el contrario, está ca de 5. La desviación típica de la muestra en el cri-
alienado, separado, enajenado del test. Nótese que terio fue 10, y la media, 60. El coeficiente de validez
el coeficiente de alienación viene dado por el co- resultó ser de 0,90. Al nivel de confianza del 95 %,
ciente: ¿qué puntuación se estima que consiguiesen en el cri-
terio los sujetos que obtuviesen 55 puntos en el test?
σ y·x σ y 1 − ρ xy
2
= = 1 − ρ xy
2
1. Nivel de confianza del 95 %: Zc = ±1,96.
σy σy
σ y · x = σ y 1− ρ xy
2. 2
= 10 1− (0,90)2 = 4, 36.
indicando la proporción que el error típico de esti- 3. Error máximo: (Zc)(sy · x) = (1,96)(4,36) =
mación (sy · x) representa respecto de sy. = 8,54.
Denomínase «coeficiente de valor predictivo» al
complementario del coeficiente de alienación, 4. Y ′ = ρ xy − (X − X ) + Y =
1 − 1 − ρ xy
2
, otro modo de expresar la capacidad 10
= 0,90 − (55 − 40) + 60 = 87.
predictiva del test. 5
En suma, el coeficiente de validez y los índices 5.
Y ′ ±Error máximo: 87 ± 8,54:
citados derivados de él informan acerca del grado 78,46 ⩽ Y ⩽ 95,54.
en que el criterio es pronosticable a partir del test.
Es decir, se estima que al nivel de confianza del
— Coeficiente de determinación: 95 % el valor de Y para las personas que obtuvieron
55 puntos en el test estará entre 78,46 y 95,54.
2
CD = rxy Siempre que las muestras sean suficientemente
amplias, este modo de proceder es razonable; no
— Coeficiente de alienación: obstante, véanse en la nota que sigue algunas mati-
zaciones.
Aunque a estas alturas resulte obvio al lector,
CA = 1 − ρ xy
2
no conviene olvidar que la utilidad de los pronósti-
© Ediciones Pirámide
120 / Introducción a la Psicometría
cos mediante la recta de regresión no tiene que ver temente del valor de X, lo cual se ajusta peor a lo
con la muestra en la que se ha calculado, en la cual que suele ocurrir empíricamente.
disponemos de las puntuaciones de los sujetos en el Además, el estadístico de contraste propuesto es
criterio, no teniendo, por tanto, ninguna necesidad t con N − 2 grados de libertad en vez de Z.
de pronosticarlas; su utilidad proviene del uso que Veamos lo dicho para los datos del ejemplo an-
podamos hacer de ella en el futuro con sujetos equi- terior:
parables a los que se emplearon en su elaboración.
1. Nivel de confianza del 95 %: tN − 2 = ±1,984.
2
Nota: Para estimar el valor de s y · x a partir de 100
los datos de una muestra, algunos autores, más que 2. σ y′ · x = 10 1 − 0,90 2 = 4,40
la fórmula dada en [3.19], especialmente si el núme- 100 − 2
ro de sujetos no es elevado, aconsejan utilizar una
1 (55 − 40)2
corrección del estimador insesgado s ′y · x: σ y′′· x = 4,40 1 + + = 4,62.
100 (100 − 1)25
© Ediciones Pirámide
Validez / 121
un psicólogo escolar que esté interesado en predecir Estimación de los pesos de las variables
el rendimiento académico tal vez medirá distintos predictoras
tipos de inteligencia (general, verbal, espacial, nu-
mérica o social), algunos rasgos de personalidad El problema consiste en cómo estimar a partir
(extraversión, neuroticismo, motivación de logro, de los datos empíricos los pesos B para que los
etc.), amén de otras variables como nivel socioeco- errores cometidos al pronosticar (e) sean mínimos.
nómico familiar, procedencia rural-urbana o grado Se demuestra (véase apéndice) que los pesos de las
de motivación del profesorado, etc.; en suma, medi- variables predictoras que minimizan los errores de
rá aquellas variables que según los datos previos y estimación según el criterio de mínimos cuadráticos
la teoría con la que opera parezcan más relevantes. vienen dados por:
Ahora bien, no todas las variables en las que se pen-
só en principio serán igual de relevantes para la pre- b = (X ′X )−1X ′Y [3.24]
dicción, y tal vez algunas de ellas no contribuyan
significativamente a la predicción. Pues bien, la re-
gresión múltiple proporciona una solución plausible donde
a esos problemas porque permite estimar los pesos
o ponderaciones correspondientes a cada variable b: Vector de pesos estimados.
predictora, así como descartar aquellas cuya contri- X: Matriz de sujetos por variables pre
bución a la predicción del criterio sea irrelevante. dictoras, cuya primera columna son
Veamos el modelo. unos.
X ′: Matriz traspuesta de X.
(X ′X )−1: Matriz inversa de (X ′X ).
4.2.1. Modelo Y: Vector de puntuaciones de los sujetos
en el criterio.
Sean
Nótese que para poder estimar los pesos b es
Y: Criterio a predecir. necesario que la matriz (X ′X ) tenga inversa. Una
X1, X2, X3, ..., Xk: Variables predictoras. matriz cuyo determinante es cero no tiene inversa y
B1, B2, B3, ..., Bk: Pesos o ponderaciones co- se denomina «matriz singular», en cuyo caso no se
rrespondientes a las variables podría hallar b. Aunque no es frecuente que ocurra
predictoras. esto con datos empíricos, si, por ejemplo, un inves-
tigador incluye en el análisis una variable que es
Las puntuaciones pronosticadas en el criterio función lineal de otra también incluida, se encon-
vendrán dadas por: trará con la situación descrita.
Una vez estimados los pesos b, se pueden some-
Y ′ = B0 + B1X1 + B2X2 + B3X3 + ... + BkXk ter a prueba diferentes hipótesis estadísticas acerca
de ellos, siendo de especial relevancia su significa-
Ahora bien, como ya se ha visto al tratar de la ción estadística. A tal efecto, el vector de varianzas
2
regresión simple, los pronósticos Y ′ no siempre de b viene dado por s ′y · x(X ′X )−1, donde s ′y · x
2
es la
coincidirán exactamente con el valor real de Y, varianza de los errores de estimación. Los progra-
cuya diferencia se denomina como allí «error de es- mas de ordenador habituales, como el SPSS y otros,
timación»: e = Y − Y ′. Por tanto, Y = Y ′ + e, pu- proporcionan este valor.
diendo expresarse el modelo del siguiente modo: Dado que el objetivo que se persigue aquí con
esta exposición sumaria de algunos aspectos de la
Y = B0 + B1X1 + B2X2 + B3X3 + ... + BkXk + e regresión es permitir al lector entender los concep-
tos implicados en la teoría de los test, desbordando
o, en forma matricial: por completo los objetivos de este manual una ex-
posición detallada, se recomienda al lector interesa-
Y = XB + e do acudir a los excelentes textos existentes al res-
© Ediciones Pirámide
122 / Introducción a la Psicometría
pecto, por ejemplo Cohen y Cohen (1983), Draper típica y dividiendo por la desviación típica del cri-
y Smith (1981), Kerlinger y Pedhazur (1973), Ove- terio.
rall y Klett (1972), Pedhazur (1982) o Timm (1975),
entre otros.
Ejemplo
Puntuaciones típicas
Identificaremos previamente la matriz X y el
En puntuaciones típicas los pesos de las varia- vector Y
bles predictoras suelen denominarse pesos beta y
vienen dados por: X Y
−1
b = Rxx Rxy [3.26] ⎡1 9 8⎤ ⎡5⎤
⎢ ⎥ ⎢ ⎥
⎢1 0 4⎥ ⎢1⎥
donde ⎢1 6 0⎥ ⎢3⎥
⎢ ⎥ ⎢ ⎥
−1
Rxx : Inversa de la matriz de correlaciones (con ⎢1 18 12 ⎥ ⎢7⎥
unos en la diagonal) entre las variables ⎢ ⎥ ⎢ ⎥
⎢⎣ 1 12 6 ⎥
⎦ ⎢⎣ 4 ⎥⎦
predictoras.
Rxy: Vector de correlaciones entre las variables Nótese que la matriz X está formada por las
predictoras y el criterio. puntuaciones de los sujetos en las variables predic-
toras precedidas por una columna de unos, y el vec-
tor Y son las puntuaciones de los sujetos en el cri-
De cara a una mejor interpretación de la im- terio o variable a predecir.
portancia relativa de las variables predictoras es
aconsejable trabajar con los pesos beta, ya que to-
das las variables se expresan en la misma escala Pesos b en puntuaciones directas
(típica), con media cero y desviación típica uno. Para calcular los pesos b hay que ejecutar paso a
No obstante, es inmediato el paso de b a b: paso las operaciones requeridas por la fórmula [3.24]:
bi = biSxi /Sy, es decir, el peso b de una variable i se
obtiene multiplicando su peso b por su desviación b = (X ′X )−1X ′Y
© Ediciones Pirámide
Validez / 123
X′ X X ′X [adj (A)]
⎡1 9 8⎤ ⎡ 22.500 −900 −1.350 ⎤
⎢ ⎥ ⎢ ⎥
⎡1 1 1 1 1⎤ ⎢1 0 4 ⎥ ⎡ 5 45 30 ⎤ ⎢ −900 400 −450 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ −1.350 −450
⎢ 9 0 6 18 12 ⎥
⎢1 6 0 ⎥ = ⎢ 45 585 360 ⎥ ⎢⎣ 900 ⎥⎥
⎢ ⎥ ⎦
⎢ 8 4 0 12 6 ⎥ ⎢1 18 12 ⎥ ⎢⎢ 30 360 260 ⎥⎥
⎢⎣ ⎥⎦
⎢ ⎥ ⎣ ⎦
4. Traspuesta de la matriz de adjuntos.
⎢⎣ 1 12 6 ⎥
⎦ Será la misma del subpaso anterior 3,
dado que la traspuesta de una matriz simé-
Paso 3. Calcular la matriz inversa (X ′X )−1. trica como esta es ella misma.
5. Se divide la traspuesta entre el determinan-
El cálculo de la inversa de una matriz requiere
te, obteniéndose (X ′X )−1.
dividir la matriz traspuesta de los adjuntos entre el
determinante:
( X ′X )−1
[adj (A)]′ ⎡ 22.500 −900 −1.350 ⎤
A−1 = ⎢ ⎥
A ⎢ 31.500 31.500 31.500 ⎥
⎢ ⎥
Por tanto, es necesario el cálculo del determi- ⎢ −900 400 −450 ⎥
nante y de los adjuntos, lo cual realizaremos por ⎢ 31.500 31.500 31.500 ⎥
⎢ ⎥
medio de cinco subpasos. ⎢ −1.350 −450 900 ⎥
⎢ ⎥
1. Cálculo del determinante. ⎢⎣ 31.500 31.500 31.500 ⎥
⎦
A = (5)(585)(260) + (45)(360)(30) +
Paso 4. Se multiplica X ′ por Y.
+ (30)(45)(360) − (30)(585)(30) −
− (5)(360)(360) − (45)(45)(260) = 31.500 X′ Y X ′Y
⎡5⎤
2. Cálculo de los menores. ⎢ ⎥
⎡1 1 1 1 1⎤ ⎢ 1 ⎥ ⎡ 20 ⎤
a11 = (585)(260) − (360)(360) = 22.500 ⎢ ⎥ ⎢ 3 ⎥ = ⎢ 237 ⎥
⎢ 9 0 6 18 12 ⎥ ⎢ ⎥ ⎢ ⎥
a12 = (45)(260) − (30)(360) = 900 ⎢ 8 4 0 12 6 ⎥
⎢⎣ ⎥⎦ ⎢ 7 ⎥ ⎢⎢ 152 ⎥⎥
a13 = (45)(360) − (30)(585) = −1.350 ⎢ ⎥ ⎣ ⎦
a21 = (45)(260) − (30)(360) = 900 ⎢⎣ 4 ⎥⎦
© Ediciones Pirámide
124 / Introducción a la Psicometría
−1
Paso 5. Se multiplica (X ′X )−1 por (X ′Y). Cxx Cxy b
⎡ 16 −18 ⎤
( X ′X )−1 X ′Y b ⎢ ⎥ ⎡ ⎤ ⎡ ⎤
⎢ 252 252 ⎥ ⎢ 11,4 ⎥ ⎢ 0,26 ⎥
⎡ 22.500 −900 −1.350 ⎤ ⎢ ⎥ ⎢ =
⎢ ⎥ ⎥ ⎢ ⎥
⎢ −18 36 ⎥ ⎢ 6,4 ⎥ ⎢ 0,10 ⎥
⎢ 31.500 31.500 31.500 ⎥ ⎡ 20 ⎤ ⎡ 0,99 ⎤
⎢ 252 ⎣ ⎦ ⎣ ⎦
⎢ ⎥⎢ ⎥ ⎢ ⎥ 252 ⎥
−900 −450 ⎥ ⎢ ⎣ ⎦
⎢ 400 ⎥ ⎢ ⎥
⎢ 31.500 31.500 31.500 ⎥ ⎢
237 ⎥ = ⎢ 0,26 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ Luego la ecuación de regresión en puntuaciones
152 ⎥ ⎢ 0,10 ⎥
⎢ −1.350 −450 900 ⎥ ⎢⎣ ⎦ ⎣ ⎦
diferenciales viene dada por:
⎢ ⎥
⎢⎣ 31.500 31.500 31.500 ⎥ y′ = 0,26x1 + 0,l0x2
⎦
que es la misma que en directas sin el término inde-
Por tanto, b0 = 0,99, b1 = 0,26 y b2 = 0,10, pu-
pendiente b0.
diendo escribirse la ecuación de regresión en pun-
tuaciones directas como sigue:
Ecuación de regresión en puntuaciones típicas
Y ′ = 0,99 + 0,26X1 + 0,10X2
La ecuación de regresión en puntuaciones típi-
cas se obtiene según [3.26]:
Ecuación de regresión en puntuaciones −1
b = Rxx Rxy
diferenciales
Para obtener los pesos b en puntuaciones dife- Dado que la correlación entre X1 y X2 es 0,75;
renciales seguimos los pasos indicados por la entre X1 e Y, 0,95, y entre X2 e Y, 0,80, se puede
fórmula [3.25]: expresar en forma matricial:
−1 Rxy R xy
B = Cxx Cxy
⎡ 1,00 0,75 ⎤ ⎡ 0,95 ⎤
Las varianzas y covarianzas necesarias para con- ⎢ ⎥ ⎢ ⎥
figurar la matriz Cxx y el vector Cxy vienen dadas por: ⎢⎣ 0,75 1,00 ⎥⎦ ⎢⎣ 0,80 ⎥⎦
(36)(16) − (18)(18) = 252 Zy′ = 0,80Zx1 + 0,20Zx2
© Ediciones Pirámide
Validez / 125
Aunque más adelante se precisará esta afirma- Calculemos la correlación múltiple para los da-
ción, a la vista de la ecuación de regresión puede tos del ejemplo del apartado anterior. Recuérdese
observarse que la variable X1 tiene más peso (0,80), que allí los pesos b eran, respectivamente, 0,26 y
más importancia, a la hora de pronosticar Y que X2 0,10, las covarianzas eran 11,4 y 6,4 y la varianza
(0,20). En términos de nuestro ejemplo, la inteligen- de Y era 4, es decir:
cia general sería más importante que la inteligencia
verbal para pronosticar el rendimiento académico. ⎡ 11,4 ⎤
Nótese que, una vez estimados los pesos de las b ′ = ⎡ 0,26 0,10 ⎤ ; C xy = ⎢ ⎥ ; S y2 = 4
variables predictoras, se pueden someter a prueba ⎣ ⎦ ⎢⎣ 6,4 ⎥⎦
diferentes hipótesis acerca de ellos, según los obje-
tivos del investigador, siendo de especial relevancia Por tanto, aplicando [3.27]:
conocer si los pesos estimados resultan estadística-
mente significativos para la predicción del criterio,
que abordaremos al tratar de la correlación múlti- ⎡ 11,4 ⎤
⎡ 0,26 0,10 ⎤ ⎢ ⎥
ple. ⎣ ⎦ ⎢ 6,4 ⎥
Ry2′y = ⎣ ⎦ = 0,9
4
4.2.2. Correlación múltiple
La correlación múltiple al cuadrado es 0,9, que,
Se entiende por correlación múltiple la correla- en términos de nuestro problema, significaría que el
ción entre los pronósticos (Y ′) hechos a partir de la 90 % de la varianza del rendimiento académico es
ecuación de regresión y el criterio (Y ). Ry′y indica, pronosticable a partir de la inteligencia general y de
por tanto, en qué medida las variables predictoras la inteligencia verbal tomadas conjuntamente.
tomadas conjuntamente permiten predecir el crite- La correlación múltiple puede expresarse tam-
rio. Elevada al cuadrado, la correlación múltiple bién en términos de los pesos b:
expresa la proporción de varianza asociada (pro- 2
nosticable) entre el criterio y las variables predicto- Ry′y = bRxy [3.28]
ras tomadas conjuntamente, es decir, Ry′2 = S y′2 /S y2,
donde
donde S y′2 es la varianza asociada y S y2 la varianza
del criterio. Así, por ejemplo, si tuviésemos una co- b: Vector de pesos b traspuesto.
rrelación múltiple de 0,80, ello indicaría que el 64 % Rxy: Vector de correlaciones entre el criterio y
[(0,80)2 = 0,64] de la varianza del criterio sería pro- las variables predictoras.
nosticable a partir de las variables predictoras.
2
Ry′y viene dado por la conocida fórmula (aquí Que aplicado a los datos de nuestro ejemplo
en puntuaciones diferenciales) de la correlación: arroja obviamente los mismos resultados:
2
Ry′y = (∑ y′y/NSy′Sy)2, que, expresado en forma ma-
tricial, se convierte en:
⎡ 0,95 ⎤
Ry2′y = ⎡ 0,80 0,20 ⎤ ⎢ ⎥ = 0,9
⎣ ⎦ ⎢ 0,80 ⎥
b ′C xy ⎣ ⎦
Ry2′y = [3.27]
S y2
2
Finalmente, en puntuaciones directas Ry′y viene
donde dado por:
N 2
b′: Vector traspuesto de los pesos de las varia-
bles predictoras.
Ry2′y =
b ′X ′Y −1∑Y 2 / N
i =1
i
© Ediciones Pirámide
126 / Introducción a la Psicometría
que para nuestros datos: que se distribuye según F con K y (N − K − 1) gra-
dos de libertad.
98 − 80
Ry2′y = = 0,9
100 − 80
Ejemplo
2
a) Estimador insesgado de Ry′y En una muestra de 100 personas se encontró
una correlación múltiple de 0,60 para una ecuación
(N − 1)(1 − Ry2′y ) de regresión con cinco variables predictoras. Al nivel
[3.29]
ρ y2′y = 1 − de confianza del 95 %, ¿puede afirmarse que la co-
N − K −1
rrelación hallada es estadísticamente significativa?
donde
1 21 2
100 − 5 − 1 0,60 2
F = = 10,575
N: Número de sujetos de la muestra. 5 1 − 0,60 2
K: Número de variables predictoras.
Ry′y: Correlación múltiple en la muestra.
Dado que el valor crítico de F en las tablas corres-
pondientes con 5 y 94 grados de libertad es 2,67, me-
A esta corrección de Ry′y se la denomina a veces
nor que 10,575, rechazamos la hipótesis nula, afir-
«ajuste», por ejemplo, en el paquete de programas
mando que la correlación múltiple es estadísticamente
estadísticos SPSS.
significativa al nivel de confianza del 95 %. Si además
de estadísticamente significativa es psicológicamente
relevante, es cuestión que el investigador tendrá que
Comprobación de hipótesis acerca de la co-
b)
indagar y decidir allegando más datos y contemplán-
rrelación múltiple
dola a la luz de su marco teórico de referencia.
Existen dos tipos de hipótesis de especial interés
b.2. Significación estadística de las diferencias
acerca de la correlación múltiple:
La segunda hipótesis de interés se refiere a la sig-
1. Significación estadística de la correlación.
nificación estadística de la diferencia entre dos corre-
2. Significación estadística de las diferencias.
laciones múltiples en la situación que se describe a
continuación. Todo investigador intenta encontrar
b.1. Significación estadística de la correlación
modelos lo más parsimoniosos posible; así, por ejem-
Tal vez la primera pregunta tras calcular la co- plo, si ha construido un modelo de regresión con cin-
rrelación múltiple en una muestra sea si esta es esta co variables predictoras, podría plantearse si ello su-
dísticamente significativa, es decir, si el valor hallado pondrá alguna mejora sensible respecto a tener solo
es compatible con la hipótesis de que el verdadero tres de ellas. En otras palabras, se plantea si un mo-
valor en la población sea cero: delo más parsimonioso, con solo tres predictores, es
igualmente eficaz para pronosticar el criterio. Una
estrategia posible para abordar esa situación será cal-
H 0 : ρ y2′y = 0
cular la correlación múltiple de las cinco variables
H1: ρ y2′y ≠ 0 con el criterio, calcularla asimismo con tres y ver si
la diferencia resulta estadísticamente significativa. Si
En cuyo caso el estadístico de contraste viene no resultase, sería legítimo estadísticamente utilizar
dado por: el modelo de tres predictores en vez del de cinco.
El estadístico de contraste que permite someter
a pruebas la citada hipótesis:
Ry2′y
1 21 2
N − K −1
F =
[3.30]
K 1 − Ry2′y 2
H0: rY ′ 2
− rY ′ = 0 , p < k
kY pY
© Ediciones Pirámide
Validez / 127
N: Número de sujetos.
k y p: Número de predictores con p < k. Sy · x =
[3.32] ∑ (Y ′ − Y )2
Ry′kyRy′py: Correlaciones múltiples con k y p pre- N
dictores, respectivamente.
La fórmula [3.32] refleja directamente el con-
cepto del error típico de estimación, aunque su
Ejemplo cálculo suele hacerse más bien en términos matri-
ciales:
En una muestra de 100 personas, la correlación
múltiple (al cuadrado) de seis variables predictoras
Yt Y − b ′X ′ Y
con cierto criterio fue de 0,80 (R2y′6y = 0,80). La co- Sy · x =
[3.33]
rrelación con ese mismo criterio pero utilizando N
solo cuatro de las variables predictoras anteriores
resultó ser 0,78 (R2y′4y = 0,78). Al nivel de confianza donde todos los términos son los citados al exponer
del 95 %, ¿pueden eliminarse del modelo las varia- el modelo de regresión, con Yt como vector tras-
bles predictoras 5 y 6 sin una pérdida sustancial de puesto de Y, usándose aquí la t para evitar su con-
su capacidad predictiva? fusión con los pronósticos (Y ′).
Si se dispone de la correlación múltiple, hecho
H 0 : ρ y26′ y − ρ y24′ y = 0 habitual, el cálculo más sencillo de Sy · x se realiza
mediante:
1 21 2
100 − 6 − 1 0,80 − 0,78
F = = 4,65
6−4 1 − 0,80 S y · x = S y 1 − Ry2′y [3.34]
En las tablas el valor crítico de F con 2 y 93 Un estimador insesgado del valor de Sy · x en la
grados de libertad es 3,07, menor que 4,65; luego, población viene dado por:
como la diferencia resulta estadísticamente signifi-
cativa, se rechaza la hipótesis nula, lo que indicaría
N
que las variables predictoras 5 y 6 contribuyen sig- S y*· x = S y · x [3.35]
nificativamente al pronóstico del criterio. Nótese, N − k −1
no obstante, que su inclusión solo aumenta en dos
centésimas el valor de la correlación múltiple al siendo N el número de sujetos de la muestra y k el
cuadrado (0,80 − 0,78 = 0,02), lo que da pie para número de variables predictoras.
plantearse la recurrente polémica de la significación El error típico de estimación es otra forma de
estadística versus la significación psicológica. expresar el grado de ajuste entre el criterio y los
pronósticos hechos a partir de las variables predic-
Error típico de estimación toras mediante la ecuación de regresión. Si todos
los pronósticos coincidiesen exactamente con los
Como ya se ha indicado al tratar la regresión valores reales del criterio, entonces Y ′ − Y = 0. No
simple, en el modelo de regresión los pronósticos no habría errores de estimación; por ende, su desvia-
© Ediciones Pirámide
128 / Introducción a la Psicometría
© Ediciones Pirámide
Validez / 129
mente igual que en la correlación parcial, pero aquí terio. Existen diversos métodos estadísticos para
solo se ejerce el control sobre una de las variables descartar las variables no significativas para la pre-
correlacionadas. Por ejemplo, y utilizando la termi- dicción, y una buena revisión puede consultarse en
nología anterior, la correlación semiparcial entre X Hocking (1976), Younger (1979) o Draper y Smith
e Y controlando el efecto de Z sobre X vendría (1981). Uno de los métodos más utilizados es el
dada por: stepwise (paso a paso), implementado en la mayoría
de los programas de ordenador. La lógica general
r( x − x ′ ) y =
∑ (x − x ′ )y [3.38]
del método, que no su exposición detallada (acúda-
se para ello a la literatura especializada citada),
NS( x − x ′ )S y
consiste en lo siguiente.
Supóngase, por ejemplo, que un investigador ha
donde x′ son los pronósticos de x a partir del vector utilizado K variables predictoras y desea saber si
de variables Z cuyo efecto se desea parcializar. puede disponer de un modelo más parsimonioso
Para el caso de solo tres variables [3.38] puede (que incluya menos variables predictoras), que expli-
expresarse: que un porcentaje de varianza del criterio similar al
explicado por los K predictores. Pues bien, el méto-
rxy − rzx rzy do stepwise empieza cogiendo una de esas variables
r( x − x ′ ) y = [3.39] predictoras y va añadiendo las otras, una a una,
1 − rzx2
paso a paso. ¿Con qué criterio lo hace? ¿Cuándo se
para? La primera que elige, lógicamente, es la que
Para el ejemplo anterior, si solo se controlase el mayor correlación tenga con el criterio. La segunda
efecto de la motivación de logro (Z) sobre la inteli- será aquella cuya correlación semiparcial con el cri-
gencia (X ), la correlación semiparcial entre inteli- terio (parcializando el influjo de la ya admitida en
gencia y rendimiento sería: primer lugar) sea más elevada. En tercer lugar, in-
cluirá aquella cuya correlación semiparcial con el
0,60 − (0,40)(0,80) criterio (eliminando el influjo de las dos ya admiti-
r( x − x ′ ) y = = 0,30 das) sea mayor, y así sucesivamente. En cada uno de
1 − 0,40 2 estos pasos se reanalizan las variables incluidas y
eventualmente alguna de ellas puede descartarse de
El concepto de correlación semiparcial es de nuevo. El proceso de entrada de nuevas variables se
suma importancia para entender cabalmente la re- detiene cuando al añadir otra la correlación múltiple
gresión y correlación múltiples. Así, lo que aumen- con el criterio no se incrementa significativamente,
ta la correlación múltiple al añadir una variable es decir, la nueva variable no añade información sig-
predictora a la ecuación de regresión es precisamen- nificativa sobre el criterio respecto de la aportada
te la correlación semiparcial de esa variable predic- por las ya incluidas. La significación estadística de
tora añadida con el criterio, parcializando el influjo esa diferencia puede evaluarse mediante el estadísti-
sobre ella de las otras variables predictoras que ya co de contraste propuesto en [3.31]. Los paquetes
estaban incluidas en el modelo. En la técnica del estadísticos como el SPSS y otros muchos ofrecen
análisis de covarianza también se utiliza la lógica de salidas con el comportamiento estadístico de las va-
la correlación semiparcial. riables en cada paso.
El método stepwise es del tipo forward (hacia
Selección de la mejor ecuación de regresión adelante), pues empieza seleccionando una variable
y continúa añadiendo otras según la lógica expues-
Como acabamos de ver en los apartados prece- ta. Hay otros métodos de tipo backward (hacia
dentes, el modelo de regresión múltiple permite es- atrás), que empiezan incluyendo todas las variables
timar los pesos de las variables predictoras que el predictoras en la ecuación y luego van descartando
investigador ha incluido en el análisis, pero en mu- las menos relevantes.
chas ocasiones resulta que no todas las variables En general, si bien los diferentes métodos se
incluidas son relevantes para la predicción del cri- prestan a interesantes y justificadas polémicas esta-
© Ediciones Pirámide
130 / Introducción a la Psicometría
dísticas, a nivel empírico tienden a converger razo- algunos problemas estadísticos implicados, en Bob
nablemente. ko (1986), Cronbach (1987), Dunlap y Kemery
(1987), Lubinski y Humphreys (1990), McClelland
Validez incremental y Judd (1993) o Morris et al. (1986).
© Ediciones Pirámide
Validez / 131
sificaciones hechas por el test son las adecuadas, es rapia. ¿Cuál es la validez de la escala para predecir
decir, si las decisiones tomadas a partir de las pun- las personas que necesitan terapia?
tuaciones de las personas en el test coinciden con Para responder a esta pregunta podría proce-
las del criterio. El caso más habitual es que los jue- derse tal como se indicó hasta ahora para estimar
ces clasifiquen a las personas en dos categorías y las el coeficiente de validez, es decir, calculando la co-
puntuaciones en el test predictor se dicotomicen rrelación entre la escala y los diagnósticos (criterio).
por determinado punto de corte, obteniéndose una Nada lo impide, y sería correcto, se obtendría un
tabla de contingencia de 2 × 2. En esta situación, si indicador de la validez de la escala, pero resultaría
el test fuese perfectamente válido, las clasificaciones demasiado general; por ejemplo, no informaría de
hechas a partir de las puntuaciones de las personas los distintos tipos de errores cometidos al clasificar
en él serían idénticas a las realizadas por los exper- mediante la escala, lo cual es muy importante, pues,
tos (criterio). Por tanto, en este contexto el estudio como luego se verá, no todos los tipos de errores
de la validez de las pruebas se refiere al análisis de tienen la misma importancia en todas las situacio-
la convergencia entre las decisiones tomadas a par- nes. En este contexto, más que mediante un coefi-
tir de la prueba y las del criterio, habitualmente ex- ciente de correlación, la validez se va a analizar en
pertos, aunque otras opciones son posibles. Esta función de la coincidencia entre las decisiones he-
concordancia o discordancia clasificatoria puede chas a partir del test y las obtenidas en el criterio.
evaluarse mediante varios índices y estrategias que Es importante entender que ambos conceptos no se
se expondrán a continuación. oponen, convergen, pero el estudio de la concor-
dancia de las decisiones permite un análisis más de-
tallado que el mero cálculo de la correlación.
4.3.1. Índices de validez Para responder a la pregunta del ejemplo, lo
primero que hay que hacer es elaborar una tabla
Veamos la lógica de los distintos índices propues- de contingencia de 2 × 2 en la que se reflejen las
tos mediante un ejemplo numérico. Sea una muestra decisiones hechas a partir de la escala una vez fi-
de 12 personas que han sido diagnosticadas (criterio) jado el punto de corte. Compruebe el lector que, a
por un equipo de psicólogos en dos grupos: las que partir de los datos del ejemplo con el punto de cor-
necesitan terapia antidepresiva (TE ) y las que no la te establecido en 7 puntos, se generaría la siguien-
necesitaban (NT ). A esas mismas 12 personas se les te tabla:
aplicó una escala de depresión de 10 puntos, obte-
niéndose los resultados de la tabla adjunta:
Escala
A 6 NT Terapia l 5
B 6 TE Diagnóstico
C 7 TE No terapia 4 2
D 8 NT
E 5 NT
F 8 TE Como se puede observar, los datos de la tabla
G 4 NT se reparten del siguiente modo:
H 9 TE
I 3 NT
J 7 TE
—
Falsos positivos: 2. Son las dos personas (D
K 7 NT y K) que la escala detecta como necesitadas
L 10 TE de terapia, mientras que los expertos (crite-
rio) consideran que no la necesitan.
Falsos negativos: 1. Según la escala, la per-
—
Se considera que toda persona que obtenga 7 sona B no necesita terapia; sin embargo, los
puntos o más en la escala de depresión necesita te- expertos consideran que sí.
© Ediciones Pirámide
132 / Introducción a la Psicometría
—
Aciertos: 9. Son las personas correctamente La especificidad será máxima cuando no exis-
clasificadas, cinco que según la escala requie- tan falsos positivos.
ren terapia, y así es según los expertos, y cua- Nótese que, según las circunstancias de cada
tro que la escala predice que no la necesitan, situación, se puede desear maximizar o bien la sen-
coincidiendo en ello con los expertos. sibilidad, o bien la especificidad, idealmente am-
bas, claro. Con frecuencia ambos índices se utilizan
A partir de esos datos pueden obtenerse diver- en porcentajes, multiplicando el valor obtenido
sos indicadores de la validez de la escala para pro- por 100.
nosticar el criterio:
© Ediciones Pirámide
Validez / 133
© Ediciones Pirámide
134 / Introducción a la Psicometría
Es evidente que bajo ese criterio establecer el punto 4.3.3. Curvas ROC
de corte en 7 es más gravoso (cinco errores) que hacer-
lo en 6 (tres errores). Muchas situaciones son pensables, Hemos visto en el apartado anterior la inciden-
dependerá en cada caso particular el que unos errores cia de los puntos de corte sobre los errores cometi-
sean más importantes que otros. Saberlo es importante, dos por un instrumento de medida al realizar clasi-
vital, para el establecimiento del punto de corte. Obsér- ficaciones. Una forma sistemática de analizar el
vese, por ejemplo, cómo para los datos anteriores sin funcionamiento del instrumento de medida es me-
ponderar el número de errores totales es el mismo diante la elaboración de la curva ROC de la prueba.
cuando se establece el punto de corte en 4 que cuando Las curvas ROC (Receiver Operating Characteris-
se establece en 10; sin embargo, la naturaleza de los tic), o en español característica operativa del recep-
errores es justamente la contraria; si nos fijásemos úni- tor (COR), tiene sus orígenes en la teoría de la de-
camente en el número total de errores, podríamos decir tección de señales (Egan, 1975; Swets, 1996) y
que da igual ubicar el punto de corte en 4 que en 10, lo permiten analizar la eficacia de los diagnósticos
cual puede ser incorrecto en muchas situaciones. En clasificatorios de una prueba a medida que se va
términos de la teoría de la decisión, ello quiere decir variando el punto de corte. Para elaborarla se ubi-
que siempre hay que tener en cuenta la matriz de pagos, can en el eje de abscisas los valores de la especifici-
es decir, las penalizaciones correspondientes a los dis- dad, en concreto «1 − Especificidad», y en ordena-
tintos tipos de errores, en relación con los beneficios de das, los valores de la sensibilidad. Al ir variando el
los aciertos. En unos casos interesará minimizar un punto de corte, se obtiene una curva como la de la
tipo de errores y en otros casos tal vez otros. figura 3.3.
1,0
0,8
0,6
Sensibilidad
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0
1 − Especificidad
© Ediciones Pirámide
Validez / 135
© Ediciones Pirámide
136 / Introducción a la Psicometría
A los que cabe añadir otros dos de tipo mixto: competencia en un predictor con una muy buena en
otro, dado que lo que se tiene en cuenta es solo el
— Conjuntivo-compensatorio. resultado global aditivo. Ahora bien, la compensa-
— Disyuntivo-compensatorio. ción no siempre tiene sentido, pues en numerosas
situaciones la ausencia de cierta destreza no puede
Veamos en qué consiste cada uno de ellos y ser compensada con el exceso en otra. Piénsese, por
cómo funcionan para los dos paradigmas clásicos ejemplo, en lo poco afortunado que sería compen-
de la selección: sar la deficiente coordinación visomotora de un
conductor con, digamos, su exhaustivo conoci-
— Seleccionar un número determinado de per- miento del código de circulación, o la incompeten-
sonas. cia técnica en un profesional con sus habilidades
— Seleccionar aquellas personas que superen sociales.
un cierto nivel de competencia, independien
temente de su número. Modelo conjuntivo
© Ediciones Pirámide
Validez / 137
TABLA 3.2
Tabla de Taylor-Russell para una razón de idoneidad de 0,50
r 0,05 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,95
0,00 0,50 0,50 0,50 0,50 0,50 0,50 0,50 0,50 0,50 0,50 0,50
0,05 0,54 0,54 0,53 0,52 0,52 0,52 0,51 0,51 0,51 0,50 0,50
0,10 0,58 0,57 0,56 0,55 0,54 0,53 0,53 0,52 0,51 0,51 0,50
0,15 0,63 0,61 0,58 0,57 0,56 0,55 0,54 0,53 0,52 0,51 0,51
0,20 0,67 0,64 0,61 0,59 0,58 0,56 0,55 0,54 0,53 0,52 0,51
0,25 0,70 0,67 0,64 0,62 0,60 0,58 0,56 0,55 0,54 0,52 0,51
0,30 0,74 0,71 0,67 0,64 0,62 0,60 0,58 0,56 0,54 0,52 0,51
0,35 0,78 0,74 0,70 0,66 0,64 0,61 0,59 0,57 0,55 0,53 0,51
0,40 0,82 0,78 0,73 0,69 0,66 0,63 0,61 0,58 0,56 0,53 0,52
0,45 0,85 0,81 0,75 0,71 0,68 0,65 0,62 0,59 0,56 0,53 0,52
0,50 0,88 0,84 0,78 0,74 0,70 0,67 0,63 0,60 0,57 0,54 0,52
0,55 0,91 0,87 0,81 0,76 0,72 0,69 0,65 0,61 0,58 0,54 0,52
0,60 0,94 0,90 0,84 0,79 0,75 0,70 0,66 0,62 0,59 0,54 0,52
0,65 0,96 0,92 0,87 0,82 0,77 0,73 0,68 0,64 0,59 0,55 0,52
0,70 0,98 0,95 0,90 0,85 0,80 0,75 0,70 0,65 0,60 0,55 0,53
0,75 0,99 0,97 0,92 0,87 0,82 0,77 0,72 0,66 0,61 0,55 0,53
0,80 1,00 0,99 0,95 0,90 0,85 0,80 0,73 0,67 0,61 0,55 0,53
0,85 1,00 0,99 0,97 0,94 0,88 0,82 0,76 0,69 0,62 0,55 0,53
0,90 1,00 1,00 0,99 0,97 0,92 0,86 0,78 0,70 0,62 0,56 0,53
0,95 1,00 1,00 1,00 0,99 0,96 0,90 0,81 0,71 0,63 0,56 0,53
1,00 1,00 1,00 1,00 1,00 1,00 1,00 0,83 0,71 0,63 0,56 0,53
© Ediciones Pirámide
138 / Introducción a la Psicometría
© Ediciones Pirámide
Validez / 139
las personas que hayan sacado en el test 16 puntos? En las tablas de la curva normal por encima de
(véase figura 3.4). −0,50 queda una proporción de 0,6915; luego la
persona que sacó 16 puntos sí ha sido seleccionado,
X ya que se le pronostica una puntuación en el crite-
Y′ = +4 rio de 12, por encima de los 9 exigidos, pero no es
2
seguro que tenga éxito. En concreto, se le asigna
una probabilidad de éxito de 0,6915 y, por tanto,
Para un valor de X = 16: una probabilidad de fracaso de 0,3085.
16
Y′ = + 4 = 12 4.4.3. Clasificación
2
El problema de la clasificación en psicología
La desviación típica de los errores de estima- podría considerarse en cierto modo un caso par-
ción o error típico de estimación (Sy · x), que se asu- ticular de la predicción en el que el objetivo es asig-
men distribuidos según la curva normal e iguales nar las personas a determinadas categorías, ya sean
(homoscedasticidad), viene dada por: cuadros diagnósticos, profesiones, etc. Se trataría,
en suma, de predecir qué categoría es pertinente en
S y ⋅ x = S y (1 − rxy
2
) = 10 (1 − 0,80)2 = 6 cada caso, según las variables consideradas, y maxi-
mizar la probabilidad de categorización correcta. Se
asume, naturalmente, que esas categorías han sido
La puntuación típica (Zc) correspondiente al
validadas empíricamente y que incluir en una u otra
valor del criterio (9) será:
tiene implicaciones de interés, y no constituye un
mero ejercicio de etiquetado. Las categorías, clasifi-
9 − 12 caciones o cuadros han de ser relevantes para algo;
Zc = = −0,50
6 de lo contrario, cambiar el nombre propio de la
Probabilidad de éxito 12
(p = 0,6915)
9
Zc = −0,50
4
X/2 +
Y ′=
16
Figura 3.4.
© Ediciones Pirámide
140 / Introducción a la Psicometría
persona por el de una rumbosa categoría no tiene zada. Esta medida dependerá de los objetivos de la
ningún sentido. No hay duda de que en la actividad investigación que se lleve a cabo; por ejemplo, po-
profesional de los psicólogos áreas como la orien- dría muy bien ser la correlación entre los perfiles
tación profesional/escolar, la selección o el diagnós- psicológicos de las personas, en cuyo caso los clus-
tico tienen mucho que ver con el problema general ters resultantes estarían formados por aquellas per-
de hacer corresponder lo exigido por determinada sonas cuyos perfiles fuesen más parecidos. La técni-
situación con las características de las personas. ca también permite hacer ese mismo agrupamiento,
Todo psicólogo que se dedique a estos meneste- en vez de con las personas, con las variables, en
res, aparte del bagaje sustantivo del área correspon- cuyo caso su semejanza de objetivos con el análisis
diente, es obligado que se ayude de algunas técnicas factorial es clara: lo que allí eran factores aquí se-
estadísticas multivariadas que pueden mejorar signi- rían clusters. Véase para exposiciones detalladas y
ficativamente sus decisiones. En concreto, y además no excesivamente técnicas Anderberg (1973), Eve-
de la regresión, ya comentada, el análisis discrimi- ritt (1974), Hartigan (1975), Lorr (1983), Milligan
nante y el análisis de cluster proporcionan mejoras y Cooper (1987) o Spath (1980).
sustantivas al sentido común y la experiencia. Aún cabría citar otras técnicas multivariadas
Lejos de tratar de exponer estas técnicas aquí, que son de gran ayuda en esta área, tales como la
se citará brevemente qué tipo de problema permiten correlación canónica o los modelos de ecuaciones
resolver y la bibliografía donde se pueden consultar. estructurales, amén del análisis factorial, claro está.
El análisis discriminante tiene bastante seme-
janza conceptual con la regresión múltiple. Se mi- Coeficiente kappa
den determinadas variables predictoras a partir de
las cuales se elabora una función discriminante, o Cuando se llevan a cabo clasificaciones hechas
más, en las que los pesos de las predictoras están por distintos métodos o distintos clasificadores hu-
elaborados de tal guisa que maximicen la asigna- manos, siempre aparece el problema de determinar
ción correcta de las personas a ciertas categorías en qué grado hay acuerdo entre dichas clasificacio-
previamente establecidas. Lo que en la regresión nes; en definitiva, el problema de la fiabilidad de las
múltiple era el criterio a predecir aquí son las cate- clasificaciones. Caso típico puede ser el análisis de
gorías dentro de las cuales se desea clasificar a las los acuerdos-desacuerdos entre los diagnósticos psi-
personas. En suma, el análisis discriminante permi- cológicos hechos por diferentes profesionales, clasi-
te clasificar a las personas en categorías, a partir de ficaciones de alumnos por distintos profesores, pa-
sus puntuaciones en determinadas variables predic- cientes, etc.
toras que se ponderan adecuadamente para maxi- La estadística proporciona numerosos índices
mizar los aciertos en la clasificación. Esta técnica, para objetivar el grado de asociación entre este tipo
implementada, entre otros, en el programa informá- de variables (Ato, 1991; Haberman, 1974, 1978;
tico SPSS, permite evaluar no solo el porcentaje de Smith, 1976; Everitt, 1977; Fienberg, 1977), pero no
clasificaciones correctas que se hacen, sino la rele- se puede dejar de comentar el popular coeficiente
vancia relativa (peso) de las variables predictoras a kappa de Cohen (1960).
la hora de la predicción. Una introducción sencilla Como ya se ha visto al tratar la fiabilidad de los
pude consultarse en Pedhazur (1982), y descripcio- test referidos al criterio, la fórmula del coeficiente
nes más detalladas, en Klecka (1980) o Tatsuoka kappa viene dada por:
(1970); para aplicaciones véase Huberty (1975).
El análisis de cluster permite formar conglome- F − Fa
rados o grupos de personas, u otros entes, semejan- K = c [3.40]
N − Fa
tes entre sí. Para ello hay que establecer previamen-
te alguna medida o indicador del grado de afinidad
o asociación entre las personas, que será el dato donde
básico que permitirá establecer los clusters, asignán-
dose el mismo cluster a las personas más parecidas Fc: Número de casos (frecuencia) en los que
entre sí en función de la medida de similitud utili- ambos clasificadores coinciden.
© Ediciones Pirámide
Validez / 141
TABLA 3.4
Juez A
Categoría 2 10 40 (18) 10 60
Categoría 3 2 6 12 (4) 20
100 60 40 200
EJERCICIOS
1. Utilizando una muestra de 1.000 personas, 1. Calcular el coeficiente de validez de la es-
un psicólogo encontró que el coeficiente de fiabili- cala.
dad de una escala de paranoidismo era 0,75 y el 2. Calcular el porcentaje de varianza del cri-
coeficiente de fiabilidad del criterio era de 0,80. La terio pronosticable a partir de la escala.
correlación entre las puntuaciones obtenidas por 3. ¿Cuánto valdría el coeficiente de validez de
los sujetos en la escala y las obtenidas en el criterio la escala si esta careciese de errores de me-
resultó ser de 0,70. dida?
© Ediciones Pirámide
142 / Introducción a la Psicometría
© Ediciones Pirámide
Validez / 143
9. Para la prueba de admisión en la escuela de el grupo de aspirantes, de los que, por cierto, solo
arquitectura se les aplica a los aspirantes un test de se admitió a un 20 %. Terminado el período de
aptitudes espaciales. La desviación típica de las MIR, los admitidos fueron valorados por sus pro-
puntuaciones en el test de los aspirantes fue de 25 fesores según su eficacia en el trabajo (criterio), re-
y la varianza de las puntuaciones de los admitidos sultando que solo el 9 % de la varianza de la eficacia
(solo el 10 %) fue de 2. El coeficiente de valor pre- era pronosticable a partir del test de selección. Ante
dictivo en el grupo de admitidos es 0,5641, toman- este porcentaje tan bajo, se confecciona otro test
do como criterio las calificaciones de la carrera. que sirva de alternativa en la selección, y tras apli-
También se aplica a los admitidos otro test de razo- carlo a este grupo de médicos se encuentra una co-
namiento espacial que está en fase experimental rrelación con el criterio anterior de 0,50, lo cual
para su posible uso en la selección, obteniéndose resulta a priori esperanzador, dado lo restringido
que el cociente entre el error típico de estimación de del grupo en el que se calculó. La correlación entre
este nuevo test y la desviación típica del criterio fue las puntuaciones de los sujetos en ambos test resul-
0,50, con una correlación entre ambos test de 0,40. tó ciertamente baja: 0,15.
1. A la vista de estos datos, ¿puede afirmarse 1. ¿Puede afirmarse que el nuevo test es prefe-
que el nuevo test en fase experimental me- rible al anterior para efectuar la selección?
jora los pronósticos del que ya se viene uti- NC del 95 %.
lizando? NC del 95 %.
11. Para ilustrar el proceso de validación pro-
10. A los 25.000 médicos aspirantes al MIR se puesto, Campbell y Fiske (1959) presentan la matriz
les aplica un test de conocimientos como prueba de multirrasgo-multimétodo que se reproduce aquí, en
selección. La varianza de sus puntuaciones en esta la que se han medido tres rasgos (A, B, C) por tres
prueba fue de 324. La desviación típica de los ad- métodos diferentes. (Las correlaciones aparecen
mitidos es 1/9 de la desviación típica obtenida para multiplicadas por 100.)
A1 B1 C1 A2 B2 C2 A3 B3 C3
A1 89
Método 1 B1 51 89
C1 38 37 76
A2 57 22 09 93
Método 2 B2 22 57 10 68 94
C2 11 11 46 59 58 84
A3 56 22 11 67 42 33 94
Método 3 B3 23 58 12 43 66 34 67 92
C3 11 11 45 34 32 58 58 60 85
1. ¿Qué método genera coeficientes de fiabili- 4. ¿Cuál de los tres métodos maximiza la co-
dad ligeramente inferiores? rrelación entre los rasgos A y C?
2. ¿Entre qué valores se encuentran las corre-
laciones indicadoras de validez conver 12. En la matriz adjunta se presentan los
gente? atos (Green, 1976) obtenidos por 12 sujetos
d
3. ¿Existe una buena validez discriminante? en un criterio (Y ) y en dos variables predictoras
Razone adecuadamente. (X1, X2).
© Ediciones Pirámide
144 / Introducción a la Psicometría
© Ediciones Pirámide
Validez / 145
Por su parte, las correlaciones de estas cuatro 1. Exprese mediante algún índice numérico la
variables con el criterio fueron: capacidad de la RPI para predecir las pun-
tuaciones del SAT.
rx1y = 0,4; rx2y = 0,3; rx3y = 0,25; rx4y = 0,1 2. ¿Cuál sería la validez de la prueba de RPI
si las mediciones del SAT careciesen total-
1. Calcular la correlación múltiple. mente de errores de medida?
2. Al nivel de confianza del 95 %, ¿puede afir- 3. Se comprobó que los 50 ítems de la prueba
marse que la correlación múltiple es estadís- de RPI eran pocos, por lo que se añadieron
ticamente significativa? otros 25 similares (paralelos) a los que ya
poseía. ¿Cuál será la validez de la prueba
16. A una reciente oferta de trabajo publicada una vez alargada?
en El País para especialistas en técnicas didácticas 4. Elabore la ecuación de regresión que permi-
se presentaron 400 licenciados universitarios, de los te pronosticar las puntuaciones del SAT a
que solo fueron admitidos los 20 que obtuvieron partir de las obtenidas en la prueba de RPI.
mejores puntuaciones en un test selector. Las pun- 5. Un sujeto que obtuvo en la prueba de RPI
tuaciones de los aspirantes en ese test se distribuye- una puntuación típica de 1,75 ¿qué puntua-
ron según la curva normal, con una media de 60 y ción directa obtendrá en el SAT? NC del
una desviación típica de 4. El test resultó tener un 95 %.
coeficiente de validez de 0,80 respecto a un criterio
con una varianza de 36 y una media de 100. 18. Vernon (1983) investigó las posibilidades de
pronosticar la inteligencia (IG) a partir de los si-
1. ¿Cuál fue la razón de selección? guientes procesos básicos: tiempo de reacción (TR),
2. ¿Cuál es la puntuación directa que como tiempo de inspección (TI), memoria a corto plazo
mínimo deben haber obtenido en el test los (MCP) y memoria a largo plazo (MLP). La matriz
seleccionados? de correlaciones obtenidas (datos no reales) entre las
3. Para que un aspirante haya sido admitido, cinco variables citadas aparecen a continuación:
¿qué puntuación directa mínima se le debe
pronosticar en el criterio? 1. Elabore la ecuación de regresión que permi-
4. ¿Qué puntuación directa obtendrá en el cri- ta pronosticar la IG a partir de los cuatro
terio un sujeto que solo fue superado en el procesos básicos.
test por 10 de sus compañeros? 2. Calcule la correlación múltiple entre las
5. ¿Cuál es la probabilidad de que fracase en cuatro variables predictoras y la IG.
su cometido (criterio) un sujeto que obtuvo 3. ¿Qué porcentaje de varianza de la IG es
en el test una puntuación directa de 70 pun- pronosticable a partir de los cuatro proce-
tos y que, por tanto, fue seleccionado? sos básicos?
© Ediciones Pirámide
146 / Introducción a la Psicometría
© Ediciones Pirámide
Validez / 147
1. Si se asume que todos los errores son igual- 2.2. Calcule la proporción total de clasi
mente relevantes: ficaciones correctas, sensibilidad, es-
pecificidad y coeficiente kappa de
1.1. ¿Dónde habría que establecer el punto la escala para el punto de corte del
de corte para minimizar los errores to- apartado anterior.
tales de clasificación cometidos al usar
la escala para predecir psicoticismo? 3. Asignando determinados pesos a los falsos
1.2. Establecido el punto de corte del positivos y a los falsos negativos, se obtie-
apartado anterior, calcule la propor- nen para los puntos de corte 12 y 16 valores
ción total de clasificaciones correctas, totales de los errores de 15 y 12 respectiva-
sensibilidad, especificidad y coefi- mente.
ciente kappa de la escala.
3.1. ¿Qué pesos se han asignado a los fal-
2. Imagínese que los profesionales del campo, sos positivos y a los falsos negativos?
psicólogos y psiquiatras, consideran cuatro
veces más grave no detectar una persona 4. Describa dos situaciones en el campo de la
psicótica que sí lo es que considerar psicó- psicología del trabajo en las que los errores
tica a una que realmente no lo es. Bajo este falsos positivos sean mucho más graves que
supuesto: los falsos negativos. Describa otras dos en
las que ocurra justo lo contrario.
2.1. ¿Dónde se establecería el punto de
corte de la escala que minimiza los
errores totales?
SOLUCIONES
© Ediciones Pirámide
148 / Introducción a la Psicometría
© Ediciones Pirámide
Análisis de los ítems 4
Hasta ahora nos hemos ocupado de las propie Además, se incluyen en este apartado otras
dades del test considerado globalmente, de su capa consideraciones complementarias para el estudio
cidad para discriminar entre las personas, de su fia de los ítems, tales como el análisis de las alter
bilidad y de las evidencias de validez. Ahora bien, nativas incorrectas, la corrección del azar, la cali
en el proceso real de construcción de un test se em ficación del conocimiento parcial y algunas téc
pieza por elaborar un número elevado de ítems, dos nicas para la evaluación del funcionamiento
o tres veces más de los que el test tendrá finalmente, diferencial.
aplicar esos ítems a una muestra de personas seme
jantes a aquellas a las que el test irá destinado y
descartar los que no sean pertinentes. La cuestión
es cómo saber qué ítems son pertinentes, objetivo 1. ÍNDICE DE DIFICULTAD
central del análisis de ítems.
Se entiende por análisis de ítems el estudio de Se entiende por índice de dificultad (ID) de un
aquellas propiedades de los ítems que están directa ítem la proporción de personas que lo aciertan de
mente relacionadas con las propiedades del test y, aquellas que han intentado resolverlo:
en consecuencia, influyen en ellas. En palabras de
Lord y Novick (1968), el requerimiento básico de A
ID = [4.1]
un parámetro de un ítem es que tenga una relación N
clara con algún parámetro interesante del test total.
Se previene, por tanto, al lector contra retahílas de
donde
descriptores de los ítems que a veces aparecen en los
textos sin hacer referencia alguna a su incidencia en
los parámetros del test. Son perfectamente inútiles, A: Número de personas que aciertan el ítem.
pues de ellos no se colige ninguna inferencia directa N: Número de personas que han intentado re
sobre el test. solver el ítem.
Aquí se tratarán los tres índices más relevantes:
El valor del índice de dificultad está directa
— índice de dificultad, mente relacionado con la media del test:
— índice de discriminación,
n
— índice de validez,
X = ∑ IDi [4.2]
i = 1
y se especificarán sus relaciones con los parámetros
del test considerado globalmente. Para un trata
miento más completo, puede verse Muñiz et al. En palabras, la media del test es igual a la suma
(2005a). de los índices de dificultad de los ítems.
© Ediciones Pirámide
150 / Introducción a la Psicometría
Los cálculos de la tabla 4.1 permiten ilustrar la Cuando los ítems son de elección múltiple y, en
citada igualdad. consecuencia, es posible acertarlos por mero azar,
el índice de dificultad conviene calcularlo corrigien
TABLA 4.1 do los efectos del azar mediante la fórmula clásica
que se presenta a continuación, aunque otras son
Ítems también posibles:
Puntuación
Personas
total
1 2 3 4 E
A−
A 0 1 1 1 3 K −1
ID = [4.3]
B 1 0 1 0 2 N
C 1 1 0 0 2
D 1 1 1 1 4
donde
E 0 1 0 0 1
IDi 3/5 4/5 3/5 2/5 12 A: Número de personas que aciertan el ítem.
E: Número de personas que fallan el ítem.
K: Número de alternativas del ítem.
Al índice de dificultad sería semánticamente N: Número de personas que intentan resolver el
más apropiado denominarlo «índice de facilidad», ítem.
pues, a medida que aumenta, indica que el ítem es
más fácil, no más dificil. En la tabla anterior, por La varianza de un ítem puede expresarse en tér
ejemplo, el ítem más fácil es el segundo, que es acer minos de su índice de dificultad, puesto que para
tado por cuatro de las cinco personas; sin embargo, una variable dicotómica j: s 2j = PjQj, donde Pj sería
su índice de dificultad es el mayor (4/5). aquí la proporción de personas que aciertan el ítem,
Nótese también que en muchos test no tiene es decir, el índice de dificultad, y Qj = (1 − Pj). La
ningún sentido hallar el índice de dificultad de los varianza será máxima para los valores medios de
ítems; por ejemplo, en test dirigidos a evaluar as Pj; en otras palabras, la dificultad media de los
pectos de personalidad, en los que los ítems no son ítems maximiza su varianza.
fáciles ni difíciles.
Una seria limitación de este índice de dificultad
de la teoría clásica es su dependencia directa de la 2. ÍNDICE DE DISCRIMINACIÓN
muestra de personas en la que se calcula, es decir, el
índice de dificultad no constituye una propiedad in Se dice que un ítem tiene poder discriminativo
trínseca del ítem, su valor depende del tipo de per si distingue, discrimina, entre aquellas personas que
sonas a las que se aplique. Si son muy competentes, puntúan alto en el test y las que puntúan bajo, es
resultará un ítem fácil, lo acertarán muchos. Si, por decir, si discrimina entre los eficaces en el test y los
el contrario, son incompetentes, el mismo ítem re ineficaces. En consecuencia, el índice de discrimina
sultará difícil. A nivel práctico, la teoría clásica mi ción se define como la correlación entre las puntua
tiga este inconveniente calculando el índice de difi ciones de las personas en el ítem y sus puntuaciones
cultad en muestras similares en competencia con en el test.
aquellas en las que se van a usar posteriormente los Cuál haya de ser el tipo de correlación a utilizar
ítems. Ahora bien, este recurso resulta poco convin dependerá de las características de las variables a co
cente a nivel teórico para una teoría de la medición rrelacionar, en nuestro caso el ítem y el test. Aquí se
psicológica medianamente rigurosa, donde sería de ilustrarán cuatro de las correlaciones más habituales
esperar que las propiedades de los instrumentos de dados los formatos que suelen adoptar más frecuen
medida no dependiesen de los objetos medidos. Una temente los ítems y los tests, pero otras muchas son
solución adecuada a este problema la proporciona posibles, y en cada caso habrá que elegir la más ade
rán los modelos de teoría de respuesta a los ítems, cuada. Una interesante discusión acerca de la elec
como se verá más adelante. ción de correlación puede verse en Carroll (1961).
© Ediciones Pirámide
Análisis de los ítems / 151
3
µ − µx p p= = 0,60
ρ bp = p [4.4] 5
σx q
q = 1 − 0,60 = 0,40
donde 2 − 1,8 0,60
rbp = = 0,32
mp: Media en el test de las personas que aciertan 0,748 0,40
el ítem.
mx: Media del test. Nota. Si al calcular la correlación ítem-test no
sx: Desviación típica del test. se descontase de este, como se hizo en el ejemplo, las
p: Proporción de personas que aciertan el ítem. puntuaciones correspondientes al ítem, se estaría
q: (1 − p). elevando impropia y espuriamente la correlación,
pues estrictamente no se estaría correlacionando el
ítem con el resto de los ítems (test), sino con un test
Ejemplo que incluiría también el ítem en cuestión. En suma,
se estaría correlacionando una variable (test) con
Calcular el índice de discriminación del tercer parte de ella (ítem). Bien es verdad que cuando el
ítem de la tabla 4.1 del apartado precedente. test consta de un número elevado de ítems, este efec
En primer lugar, para realizar los cálculos indi to puede ser de poca relevancia empírica, pero ello
cados por la fórmula [4.4], a la puntuación total del no legitima, claro está, su incorrección.
test (X ) hay que descontarle el ítem cuyo índice de Lo más sencillo es calcular la correlación, como
discriminación se pretende hallar (X − j); de lo con se ha hecho en el ejemplo, descontando el ítem. No
© Ediciones Pirámide
32 + 2 2 + 2 2 + 42 + 12
Sx2 = − (2,4)2 = 1,04
5
152 / Introducción a la Psicometría
Sx = 1,04 = 1,02
3 − 2,4 0,6
ρ jxσ x − σ j rbp = = 0,72
ρ j(x − j ) = [4.5] 1,02 0,4
σ j + σ x2 − 2 ρ jxσ jσ x
2
Aplicando la corrección propuesta en [4.5]:
donde
(0,72)(1,02) − 0,49
rj(x − j): Correlación entre el ítem j y el test tras rj ( x − j ) = = 0,32
descontar el ítem (x − j). 0,24 + 1,04 − 2(0,72)(0,49)(1,02)
rjx: Correlación ítem-test cuando el ítem
está incluido en el test. que, efectivamente, es el mismo resultado que el ob
sx: Desviación típica del test. tenido en principio.
sj: Desviación típica del ítem.
deja por debajo un área igual a p. (Los va basado en la correlación ítem-test. Este índice (d )
lores de y pueden obtenerse en la tabla II.) es la diferencia entre la proporción de personas
competentes que aciertan el ítem (Pc) y la propor
Lo dicho para la correlación biserial-puntual ción de incompetentes que también lo aciertan, en
sigue siendo válido aquí en líneas generales, si bien tendiendo por competentes aquellos que puntúan
hay que tener en cuenta que, a diferencia de rbp, la en el test por encima de la mediana, e incompeten
correlación biserial no es una mera aplicación de la tes por debajo. Pueden utilizarse grupos más extre
correlación de Pearson, sino una estimación de ella. mos, siendo clásicos el 27 % superior e inferior su
De modo que podrían obtenerse valores mayores geridos por Kelley (1939).
que 1, especialmente si alguna de las variables es
platicúrtica o bimodal. Si se sospecha una distri d = Pc − Pi [4.7]
bución normal dudosa, es más seguro utilizar rbp,
máxime si las correlaciones se van a usar en análisis donde
de regresión o factoriales.
La relación entre rbp y rb viene dada por: Pc: Proporción de personas competentes en el
test que aciertan el ítem.
pq Pi: Proporción de personas incompetentes en el
ρ bp = ρ b test que también aciertan el ítem.
y
La interpretación de d es obvia: la capacidad
donde p, q e y tienen la significación ya citada. discriminativa del ítem aumenta a medida que d se
aleja de cero, bien sea hacia 1 o hacia −1. En el caso
extremo de que fuese 1, significaría que todos los
Coeficiente phi (f)
competentes aciertan el ítem (Pc = 1) y todos los
Si las variables a correlacionar, en nuestro ítem incompetentes lo fallan (Pi = 0); la discriminación
y test, son ambas dicotómicas, un coeficiente ade es perfecta. En el caso de −1, Pc = 0 y Pi = 1, sería
cuado para estimar el índice de discriminación vie el caso paradójico en el que todos los incompeten
ne dado por el coeficiente f, que es una mera apli tes lo aciertan y todos los competentes lo fallan;
cación del coeficiente de correlación de Pearson. luego el ítem también discrimina perfectamente,
pero habría que tener cuidado a la hora de la inter
pretación.
Correlación tetracórica Cuando el acceso a los ordenadores era limita
do, se utilizaban un sinfín de tablas para hacer esti
Si ambas variables (ítem y test) están dicotomi maciones de las correlaciones a partir de las pro
zadas y se asumen distribuidas normalmente, la co porciones de aciertos. Hoy esto carece de sentido,
rrelación tetracórica es el coeficiente adecuado para ya que todos los cálculos están implementados en
estimar el índice de discriminación. numerosos programas, tanto comerciales como de
Para un análisis comparativo de los coeficientes libre acceso.
citados y de su comportamiento en situaciones con
cretas de selección de ítems, véase Lord y Novick
(1968). Una exposición detallada y clara de su 2.2. Relación con algunos parámetros
cálculo, propiedades y significación estadística pue del test
de consultarse en Amón (1984), San Martín y Par
do (1989). a) Variabilidad
© Ediciones Pirámide
154 / Introducción a la Psicometría
discriminación alguna, todas las personas sacan la donde Pj es la proporción de sujetos que aciertan el
misma puntuación; el test no distingue, no discrimi ítem j, esto es, su índice de dificultad. Sustituyendo
na entre unas personas y otras. Ahora bien, la des en [4.8]:
viación típica del test está íntimamente relacionada
con el índice de discriminación de los ítems: n
σ X = ∑ Pj (1 − Pj ) ρ jX [4.9]
n j = 1
σ x = ∑ σ j ρ jx [4.8]
j =1
En esta fórmula queda claro que para maximi
zar la capacidad discriminativa de un test hay que
donde tener en cuenta conjuntamente el índice de dificul
tad de los ítems (Pj) y el índice de discriminación
sX: Desviación típica del test. (rjX).
sj: Desviación típica del ítem j. Adviértase que un error muy frecuente es con
rjX: Índice de discriminación del ítem j. siderar estos dos parámetros por separado y afir
mar sin más que un ítem contribuye a la discrimi
Efectivamente, sean X las puntuaciones en el
nación global del test cuando él mismo tiene un
test y xj las obtenidas en los n ítems, con X = ∑ xj,
gran poder discriminativo, esto es, una varianza
la varianza de X, o, lo que es lo mismo, la covarian
máxima, lo cual ocurre para Pj = 0,50. Ello no es
za consigo misma, vendrá dada por:
estrictamente cierto, pues si r jX = 0, aun con
Pj = 0,50, ese ítem no contribuye en absoluto a la
σ X2 = σ (X , X ) = σ (X , ∑ x1 ) = capacidad discriminativa del test, puesto que:
= σ (X , x1 + x2 + ! + xn ) =
σX = Pj (1 − Pj ) ρ jX = 0,50(1 − 0,50) (0) = 0
= σ (X , x1 ) + σ (X , x2 ) + σ (X , x3 ) + ! + σ (X , xn ) =
En suma, que un ítem sea muy discriminativo
= ∑ σ (X , x j ) no implica automáticamente que contribuya a la
misma discriminación hecha por el test; hay que
sustituyendo la covarianza por su valor: considerar además su correlación con el test, es de
cir, su índice de discriminación.
σ X2 = ∑ σ X σ j ρ jX
b) Fiabilidad
y simplificando:
La fiabilidad del test también puede expresarse
sX = sj rjX en función de la varianza de los ítems (s 2j ) y de sus
índices de discriminación (rjX), para lo cual se sus
que es la fórmula propuesta en [4.8]. tituye el valor de sX dado por [4.9] en la fórmula del
Por tanto, la capacidad discriminativa de un test coeficiente a:
depende directamente de la desviación típica de sus
ítems (sj) y de la correlación de estos con el test ∑ σ 2j
1 2
n
total (rjX), es decir, de su índice de discriminación. α =
[4.10] 1−
n −1 [ ∑ σ j ρ jx ]2
(En la literatura psicométrica suele denominarse ín
dice de fiabilidad del ítem j al producto sj rjX.)
Si los ítems son dicotómicos, su desviación típi O en el caso de que los ítems sean dicotómicos:
ca viene dada por:
∑ Pj (1 − Pj )
1 2
n
α = 1− [4.11]
σj = PjQ j = Pj (1 − Pj ) n −1 [ ∑ ρ jx Pj (1 − Pj ) ]2
© Ediciones Pirámide
Análisis de los ítems / 155
En suma, los parámetros de los tests, poder dis Si los ítems fuesen dicotómicos, entonces:
criminativo (sX) y fiabilidad (a), pueden expresarse
en términos del índice de dificultad de los ítems (Pj)
σj = PjQ j = Pj (1 − Pj )
y de su índice de discriminación (rjX).
© Ediciones Pirámide
156 / Introducción a la Psicometría
rjY
Ítems que
maximizan
la fiabilidad
del test
rjX
criterio a maximizar está en función de los intereses tener interés y ser aconsejable en función de los ob
del investigador y de las características de los obje jetivos perseguidos que no todos los ítems tengan la
tivos a medir. Véase a modo de ilustración la figura misma ponderación o peso a la hora de contribuir
4.1 en la que en abscisas se representa el valor del a la puntuación total del test. Caso típico y segura
índice de discriminación, y en ordenadas, el del ín mente familiar al lector sería el de un examen o
dice de validez. prueba objetiva en la que no todas las preguntas
(ítems) valen lo mismo, debido a cierto criterio de
Comentarios finales ponderación establecido por el profesor.
Algunas técnicas estadísticas como la regresión
No debe confundirse el índice de validez con lo múltiple pueden ser de gran utilidad a la hora de
que a veces se denomina «evidencias de validez fac establecer las citadas ponderaciones.
torial de los ítems», refiriéndose a la estructura Por último, señalar que en el proceso de seleccio
factorial de los ítems tras someterlos a un análisis nar los ítems que van a constituir el test definitivo hay
factorial, y que da una idea de la estructura interna que tener presentes dos cuestiones. En primer lugar,
del test, esto es, de si todos los ítems configuran que al elegir aquellos ítems con índices de discrimina
uno o más factores. Recuérdese que otra medida de ción y de validez elevados se está capitalizando el
la cohesión interna de los ítems es el coeficiente error, es decir, si dichos índices se calculasen en una
alfa, aunque un alfa elevado no garantiza una es segunda muestra de personas, seguramente tenderían
tructura unifactorial, como a veces se afirma. a bajar. En segundo lugar, el índice de discriminación
Otro concepto de interés relativo a los ítems es de un ítem es la correlación ítem-test. Depende, por
el de su posible ponderación. En ocasiones, puede tanto, no solo del ítem sino del resto de los ítems que
© Ediciones Pirámide
Análisis de los ítems / 157
constituyan el test, luego al descartar algunos de ellos Las alternativas D y E parece claro que habría
tenderá a variar, dado que con el descarte varía la que sustituirlas por otras; la D por alguna razón
variable «test». Esta incidencia será menor cuantos «atrae» más a los competentes que a los incompe
menos ítems se descarten, siendo aconsejable hacer la tentes, mientras que la E no recibe ninguna respues
selección de ítems en varios pasos o etapas, no de una ta, seguramente por demasiado obvia. No es nada
vez, descartando un bloque de ítems de cada vez y infrecuente encontrarse con alternativas como la D
recalculando los parámetros tras el descarte. que, paradójicamente, son más elegidas por los que
puntúan alto en el test que por los incompetentes.
Aunque la explicación ha de buscarse en cada caso
4. ANÁLISIS DE LAS ALTERNATIVAS particular, suele ocurrir con ese tipo de alternativas
INCORRECTAS que contienen información de un nivel elevado que
problematiza a los que más saben, pasando desa
Además del cálculo de los parámetros de los percibida, sin embargo, para los menos competen
ítems citados, conviene indagar la distribución de las tes.
respuestas de las personas a las alternativas incorrec
tas de los ítems, cuando estos son de elección múlti
ple, por si ello pudiera explicar la inadecuabilidad de 4.1. Número óptimo de alternativas
alguno de ellos. Los programas de ordenador para
analizar los ítems desde el punto de vista de la teoría Una de las primeras preguntas que asaltan al
clásica facilitan esta información acerca de la propor que intenta construir un instrumento de medida
ción de personas que contestan cada alternativa. Por con ítems de elección múltiple se refiere a cuál es el
ejemplo, un índice de discriminación bajo puede venir número óptimo de alternativas que deben tener los
a veces explicado porque una de las alternativas falsas ítems. La respuesta parece simple: cuantas más me
«atrae» por igual y masivamente a los competentes e jor, pues al aumentar su número se reducirá la pro
incompetentes en el test, y tal vez el mero hecho de babilidad de aciertos al azar. Ahora bien, la pregun
cambiarla por otra más adecuada podría ser suficien ta se puede sofisticar un poco más. Supóngase un
te para incrementar el índice. En otros casos se obser test de 10 ítems con cinco alternativas cada uno.
va que ciertas alternativas no son elegidas por nadie, Para intentar responderlo, las personas tendrán que
ni competentes ni incompetentes, por lo que no con leer 50 frases, que le ocuparán un tiempo determi
tribuyen en nada a la discriminación, etc. nado, pongamos 50 minutos. Otro test que mide la
Véase el ejemplo numérico que sigue (tabla 4.3), misma variable está compuesto de 25 ítems, con dos
en el que aparecen las respuestas de una muestra de alternativas por ítem; luego el tiempo exigido es el
200 personas a un ítem con cinco alternativas, sien mismo, 50 minutos. ¿Cuál de los dos tests será pre
do la tercera (C) la alternativa correcta. Se denomi ferible? O, en otras palabras, asumido un cierto
na competentes al 50 % que están por encima de la tiempo límite, ¿cuál es el número óptimo de alter
mediana del test, e incompetentes a los que quedan nativas por ítem? Dadas las claras implicaciones
por debajo. prácticas para la construcción de test, esta pregun
ta ha sido abordada clásicamente por numerosos
TABLA 4.3 autores (Ebel, 1951; Grier, 1975, 1976; Lord, 1977,
1980; Tversky, 1964).
Alternativas Trabajos empíricos pioneros citados por Lord
Ítem (1980) parecen indicar que ítems con dos o tres al
A B C D E ternativas dan fiabilidades tan buenas o mejores
que los ítems con cuatro o cinco alternativas. Según
Competentes 5 15 70 10 0 100
Tversky (1964), en un elegante razonamiento mate
Incompetentes 15 65 20 0 0 100 mático, el número óptimo de alternativas sería tres
(exactamente 2,72, base de los logaritmos neperia
20 80 90 10 0 200 nos). Las conclusiones de Grier (1975, 1976) tam
bién están a favor de tres alternativas, seguidas en
© Ediciones Pirámide
158 / Introducción a la Psicometría
pertinencia por dos alternativas. Lord (1977, 1980), de competencia de las personas, pues, como es bien
tras una buena revisión y comentario de las aproxi sabido, las personas incompetentes, en especial las
maciones precedentes, deriva una fórmula según la muy incompetentes, lo suelen hacer peor que si con
cual el número óptimo de alternativas vendría dado testasen al azar, debido, al parecer, a que son «se
por: ducidos» por alternativas falsas plausibles para
ellos, cosa que no les ocurriría de seguir los azaro
1 sos dictados de una moneda sin lastrar. Los mode
A = 1+ [4.14] los de teoría de respuesta a los ítems permiten ana
(1 − r) p lizar de una manera adecuada esta incidencia para
los distintos niveles.
donde
© Ediciones Pirámide
Análisis de los ítems / 159
© Ediciones Pirámide
160 / Introducción a la Psicometría
© Ediciones Pirámide
Análisis de los ítems / 161
© Ediciones Pirámide
162 / Introducción a la Psicometría
H M
A pesar de que el ítem está sesgado contra las to en general, se apoya más en la de unos que en la
mujeres para todos los valores de X (para todo va de otros, tendrá altísimas probabilidades de no ser
lor de X la proporción de aciertos es menor en la equitativo, de estar sesgado. El problema puede te
muestra de mujeres), la media total de las mujeres ner serias repercusiones sociales si es precisamente
en el test es superior a la de los hombres, como se una de las dos culturas, obviamente la dominante,
puede observar en las distribuciones dibujadas en el la que construye los tests para todos. Ejemplos clá
eje de abscisas. sicos de sesgo se producen cuando la medición de
La psicometría se ocupa del sesgo tal como se una variable viene contaminada por otra, sesgándo
definió en primer lugar, es decir, entiende que un se la medida en función de la variable contamina
ítem o un test están sesgados si personas igualmen dora. Si, por ejemplo, un test de competencia mate
te competentes y pertenecientes a distintas subpo mática está formulado de tal modo que exige un
blaciones no tienen la misma probabilidad de supe alto nivel de comprensión verbal, estará sesgado
rar el ítem (o test). Ahora bien, si dos personas contra los lectores menos eficientes. En términos de
tienen el mismo nivel en una variable, ¿a qué se pue diseño se confunde el efecto de la comprensión ver
de deber que un ítem diseñado para medir esa va bal con el de la competencia matemática, es decir, si
riable pueda estar sesgado, esto es, pueda ser más una persona puntúa bajo en el test, no sabremos a
favorable a uno que a otro? Las fuentes del sesgo ciencia cierta si atribuirlo a su bajo rendimiento en
son numerosas y vienen generadas principalmente matemáticas o a que su competencia verbal es limi
por el distinto bagaje cultural, social, económico, tada y no ha llegado a captar los problemas plan
etc., de las personas, o, para oídos más operantes, teados. La casuística es interminable y puede decir
por la historia estimular de las personas. Dado que se que estrictamente no existen pruebas exentas
estos antecedentes históricos de las personas nunca completamente de sesgo; más bien se trata de detec
serán los mismos, y pueden ser marcadamente dis tar la cantidad de sesgo tolerable. Expuesto breve
tintos según la subcultura, si un ítem, o instrumen mente el concepto de sesgo, véase Shepard (1982)
© Ediciones Pirámide
Análisis de los ítems / 163
para un análisis detallado. Se exponen a continua lo consideran sesgo, puesto que va en la dirección
ción algunas de las técnicas de las que se valen los de la variable medida.
psicómetras para la detección y análisis del sesgo. Hecha esta aclaración terminológica, en la ex
Antes de entrar en la exposición de las técnicas posición que sigue a veces se utiliza el término sesgo
para detectar el FDI, es obligado hacer una aclara cuando en puridad se debería utilizar funcionamien-
ción terminológica. En la actualidad prácticamente to diferencial de los ítems, pero en cada caso el con
ha dejado de utilizarse el término sesgo de los ítems texto permitirá al lector tener claro a qué nos esta
(o de los test), en favor del más aséptico funciona- mos refiriendo.
miento diferencial de los ítems (o de los test). La
razón es la siguiente. En realidad, lo que las técni
cas que se van a exponer detectan es si un ítem (o 7.3. Métodos de evaluación
un test) funciona igual o diferente para un grupo
que para otro, es decir, si existe un funcionamiento Seguramente el método más eficiente para evi
diferencial del ítem (FDI) para los grupos compa tar en lo posible el FDI de los ítems sea un cuida
rados. Eso es todo, la técnica no permite ir más doso análisis de su contenido por parte de varios
allá, no dice nada acerca de la naturaleza o causa expertos previo a su publicación. Una buena expo
del funcionamiento diferencial. Las razones del sición sobre el modo de sistematizar y formalizar
funcionamiento diferencial, si lo hubiese, corres esta revisión es la de Tittle (1982). Hecha tal revi
ponde buscarlas al especialista o investigador del sión y aplicados los ítems a las personas, aún cabe
campo. En este sentido, los resultados de aplicar los llevar a cabo ciertos análisis estadísticos que permi
métodos estadísticos para detectar el FDI no son ten detectar el FDI en ítems escapados al análisis
más que un primer paso modesto para el estudio de previo. A este tipo de técnicas estadísticas a poste
lo realmente importante, a saber, cuáles son las ra riori nos referiremos aquí, pero dejando claro que
zones psicológicas, educativas, culturales, sociales, solo son un complemento de un escrutinio riguroso
actitudinales, etc., que hacen que un ítem no fun previo. La nómina es abundante, pero aquí solo se
cione igual para los grupos estudiados. Por tanto, abordarán cinco de las más típicas.
lo que se pretende con este cambio terminológico,
propuesto con éxito por Holland y Thayer (1988),
es una mayor precisión descriptiva de lo que real 7.3.1. c 2 de los aciertos
mente hacen las técnicas. Suele reservarse el térmi
no «sesgo» para el estudio más amplio que sigue Un método para detectar el FDI derivado di
una vez detectado el FDI, mediante el cual se tratan rectamente de la definición dada consiste en dividir
de buscar las causas que originan el funcionamien las puntuaciones en el test de los dos grupos estu
to diferencial. Nótese que de la existencia de FDI diados en varios niveles, entre cinco y 10 normal
no se sigue automáticamente la existencia de sesgo, mente, y comparar los aciertos de cada grupo en los
pues bien pudiera ocurrir que la causa de ese fun distintos niveles. Si el ítem no está sesgado, es de
cionamiento diferencial detectado fuera pertinente esperar que las proporciones de aciertos en los dis
para la variable medida, con lo cual el ítem estaría tintos niveles sean iguales para los dos grupos. La
cumpliendo con su cometido. Por ejemplo, imagíne significación estadística de las diferencias puede
se un test para seleccionar controladores aéreos en analizarse mediante la prueba de c 2 propuesta por
el que se encuentra que algunos ítems muestran Scheuneman (1979) aplicada a los aciertos. Véase
FDI, debido al distinto nivel de inglés de los aspi ilustrada en la figura 4.3 la lógica anterior para una
rantes, saliendo favorecidos aquellos con mejor ni muestra de hombres y otra de mujeres.
vel en este idioma. Ahora bien, dado que los res En el eje de abscisas aparecen representadas las
ponsables de la selección consideran que un buen puntuaciones en el test, y en el de ordenadas, la pro
dominio del inglés es importante para desempeñar porción de personas que acertaron el ítem conside
eficazmente la labor de controlador aéreo, deciden rado para cada categoría. El análisis visual del grá
mantener estos ítems dentro del test, es decir, el fun fico parece indicar que el ítem considerado no está
cionamiento diferencial mostrado por esos ítems no sesgado, pues las proporciones de aciertos son muy
© Ediciones Pirámide
164 / Introducción a la Psicometría
Mujeres
Hombres
0 2 4 6 8 10 12 14 16 18 20
X
Figura 4.3.—Proporción de aciertos de un ítem en una muestra de mujeres y otra de hombres según las
puntuaciones obtenidas en el test.
similares para ambos grupos. En la práctica, la si tuaciones se dividieron en cinco categorías según su
tuación no será probablemente tan clara y por ello cuantía. Se desea estudiar el posible sesgo de un
se utilizan diversas técnicas estadísticas para decidir ítem que por incluir estímulos perceptuales más fa
sobre la significación de las diferencias halladas. miliares en nuestra cultura a los hombres que a las
Veamos la citada de Scheuneman (1979) mediante mujeres pudiera estar sesgado en contra de estas.
un ejemplo. Los resultados aparecen en la tabla 4.4.
Todos los datos de la tabla se obtienen directa
Ejemplo mente de los resultados en el test tras su corrección.
Para aplicar c 2 se necesita además la frecuencia es
Sea un test de rapidez perceptiva aplicado a 400 perada o teórica para el caso de que no existiesen
personas, 200 hombres y 200 mujeres, cuyas pun diferencias entre los grupos, esto es, para el caso de
TABLA 4.4
© Ediciones Pirámide
Análisis de los ítems / 165
la hipótesis nula de no sesgo. Para ello se multiplica El valor obtenido (25,34) es muy superior al
2
la última columna por la primera y la segunda, ob dado por las tablas para c 0,99 con 4 grados de liber
teniendo los diez valores esperados que aparecen en tad (13,28); luego se rechaza la hipótesis nula, el ítem
la tabla 4.5. está sesgado. [Los grados de libertad vienen dados
por (c − 1)( f − 1) = (2 − 1)(5 − 1) = 4, donde c es el
TABLA 4.5 número de columnas o grupos comparados, y f el de
filas o niveles en los que se dividen las puntuaciones.]
Frecuencias esperadas (H0) Nótese que la única información proporcionada
X por c 2 es que la discrepancia estadística es significa
Mujeres Hombres
tiva, pero no nos indica nada acerca del sentido del
20-24 20 × 0,71 = 14,20 15 × 0,71 = 10,65 sesgo, es decir, qué grupo es más favorecido por el
15-19 100 × 0,76 = 76,00 105 × 0,76 = 79,80 ítem. Para ello hay que recurrir a la representación
10-14 50 × 0,44 = 22,00 40 × 0,44 = 17,60 gráfica o a ciertos índices propuestos por algunos
5-9 20 × 0,50 = 10,00 30 × 0,50 = 15,00 autores (Ironson, 1982; Ironson y Subkoviak, 1979)
0-4 10 × 0,25 = 2,50 10 × 0,25 = 2,50 consistentes en colocar signos negativos cuando los
valores empíricos de una casilla sean menores que
los teóricos esperados; de ese modo, el grupo con
Los valores teóricos obtenidos de este modo más valores negativos sería el más perjudicado por
son aquellos que deberían darse en caso de que la el ítem. En nuestro ejemplo, el ítem considerado está
proporción de aciertos fuese la misma para ambos claramente sesgado contra las mujeres, pues en cua
sexos. A partir de los valores esperados y de los tro de los cinco niveles los valores empíricos son me
obtenidos empíricamente se construye la tabla 4.6, nores que los teóricos, mientras que en los hombres
a la que se aplica c 2. ocurre lo contrario, como indica la figura 4.4.
La prueba de Scheuneman tiene algún inconve
(15 − 14,2)2 (70 − 76)2 (10 − 22)2 niente añadido a los clásicos de c 2 de dependencia
χ2 = + + +
14,2 76 22 del número de sujetos y categorías, ya que estricta
mente no se distribuye según c 2, es una aproxima
(5 − 10)2 (0 − 2,5)2 (10 − 10,65)2 ción (Baker, 1981; Ironson, 1982; Marascuilo y
+ + + + Slaughter, 1981), además de no hacer uso de las res
10 2,5 10,65
puestas incorrectas de las personas evaluadas. Este
(85 − 79,8)2 (30 − 17,6)2 (20 − 15)2 inconveniente de no usar la información proporcio
+ + + + nada por las respuestas incorrectas de las personas
79,8 17,6 15
puede evitarse utilizando la c 2 global.
(5 − 2,5)2
+ = 25,34
2,5
7.3.2. c 2 global
© Ediciones Pirámide
166 / Introducción a la Psicometría
1,00
Mujeres
Hombres
Proporción de aciertos en el ítem
0,75
0,50
0,25
Figura 4.4.—Proporción de aciertos de un ítem en una muestra de mujeres y otra de hombres, según las
puntuaciones obtenidas en el test.
El atractivo de estas técnicas basadas en c 2 ra Una forma de mitigar el problema es proceder
dica en su sencillez y fácil comprensión por parte de por etapas. En una primera fase se detectan me
usuarios como profesores, psicólogos, médicos y diante alguno de los métodos los ítems que presen
otros profesionales generalmente familiarizados tan FDI. En una segunda etapa se reanaliza el fun
con c 2. Ahora bien, aparte de los problemas de cionamiento diferencial de los ítems, utilizando
tipo, digamos, técnico-estadístico apuntados, su de para establecer las categorías únicamente los ítems
bilidad radica en que se apoyan en la asunción de que no presentaron FDI en la primera fase. De este
que la mayoría de los ítems del test no están sesga modo se purifica notablemente la puntuación glo
dos. Nótese que al establecer las categorías en las bal a partir de la cual se establecen las categorías.
puntuaciones del test para evaluar el sesgo de un Abundantes investigaciones muestran que estos
ítem se asume que los (n − 1) ítems utilizados para procedimientos iterativos funcionan bastante mejor
obtenerlas reflejan las verdaderas puntuaciones de que los realizados en una sola etapa.
los dos grupos a comparar, esto es, son insesgados.
Esto no hay medio de comprobarlo; luego si ocu
rriera que la mayoría de los ítems estuvieran sesga 7.3.3. Método delta
dos, así lo estarían las puntuaciones de las personas
en cada nivel. En suma, las técnicas anteriores se El método delta (Angoff y Ford, 1973; Angoff,
rían útiles si la asunción de que la mayoría de los 1982b) ha sido uno de los más utilizados antes del
ítems están insesgados se cumple, asunción razona desarrollo de la metodología actual. A grandes ras
ble pero difícilmente contrastable empíricamente; gos, consiste en calcular las proporciones de acier
en una situación de sesgo generalizado constituyen tos o índices de dificultad clásicos de cada ítem
un razonamiento circular, o, más exactamente, solo para los grupos en los que se pretende estudiar el
permitirían comprobar el sesgo de un ítem respecto FDI. Estas proporciones se convierten en puntua
del sesgo de otros ítems que conforman el test to ciones típicas bajo la curva normal, puntuaciones
mados conjuntamente. que se transforman a su vez en otra escala más ma-
© Ediciones Pirámide
Análisis de los ítems / 167
25
20
15
Mujeres
10
0
0 5 10 15 20 25
Hombres
nejable. La más afamada y clásica es la escala del- como indicador del FDI de cada ítem su distancia
ta y, en consecuencia, las puntuaciones delta, ob al eje principal de la elipse generada por los ítems.
tenidas al multiplicar las típicas por 4 y sumarles Cuanto mayor sea la distancia, más FDI mostrará
13. Una vez halladas las puntuaciones delta para el ítem respecto de los otros.
cada grupo, se representan gráficamente. Si todos El eje principal viene dado por:
los puntos caen en una recta, los ítems estarían
insesgados, considerándose sesgados aquellos que Y = aX + b
se apartan sustancialmente de la recta. Véase ello
ilustrado en la figura 4.5, donde según este crite
donde
rio dos de los ítems estarían especialmente sesga
dos.
Nótese que el test en cuestión es más fácil para S y2 − Sx2 + (S y2 − Sx2 )2 + 4rxy
2 2 2
Sx S y
las mujeres que para los hombres, al estar los valo a=
2rxySxS y
res de los ítems por debajo de la diagonal; la difi
cultad sería la misma para ambas subpoblaciones
b = Y − aX
cuando los valores se ajustasen a la diagonal. No
confundir dificultad y sesgo.
Un índice general del FDI viene dado por el y el índice de distancia por:
ajuste de los puntos a la recta, lo que se puede ha
llar mediante la correlación de Pearson entre los
aX j − Y j + b
valores delta de los ítems para los dos grupos com d =
parados. Angoff y Ford (1973) proponen también a2 + 1
© Ediciones Pirámide
168 / Introducción a la Psicometría
nRj n1 j A2 = 20
E(Aj ) =
Nj (25 × 30)
E(A2 ) = = 15
50
∑j Var (Aj): Es la suma de las varianzas de A
para cada una de las categorías j, (30 × 20 × 25 × 25)
Var (A2 ) = = 3,061
que viene dada por: 50 2 (50 − 1)
A4 = 85
A1 = 5
(155 × 105)
(5 × 10) E(A4 ) = = 79,39
E(A1 ) = = 2,5 205
20
(10 × 10 × 5 × 15) (105 × 100 × 155 × 50)
Var (A1 ) = = 0,987 Var (A4 ) = = 9,492
202 (20 − 1) 2052 (205 − 1)
© Ediciones Pirámide
170 / Introducción a la Psicometría
Intervalo 20-24 que las diferencias entre los grupos se van haciendo
más pequeñas cuando pueden surgir algunas discre
Aciertos Errores Marginales pancias entre los distintos métodos utilizados.
Fijado un cierto nivel de confianza, el método
Hombres 10 5 15 de Mantel-Haenszel solo indica si el ítem funciona
Mujeres 15 5 20
diferencialmente o no para los grupos estudiados,
Marginales 25 10 35
pero no informa ni sobre el grupo perjudicado por
el funcionamiento diferencial del ítem ni sobre la
cuantía de las diferencias en funcionamiento. La
forma más sencilla de averiguar estas dos cuestiones
A5 = 10 es representando gráficamente las proporciones de
aciertos de cada grupo para las distintas categorías
(25 × 15)
E(A5 ) = = 10,714 formadas, como se indica en la figura 4.4.
35 Mantel-Haenszel proporcionan un estimador
(15 × 20 × 25 × 10) numérico que indica la cuantía y dirección de las
Var (A5 ) = = 1,8 diferencias de funcionamiento encontradas. El esti
352 (35 − 1)
mador viene dado por:
© Ediciones Pirámide
172 / Introducción a la Psicometría
propuesto con éxito una variante sencilla, consis neficia al grupo focal, y los negativos, al de referen
tente en dividir la muestra en dos grupos (por enci cia. Dorans y Holland (1993) proponen una serie de
ma y por debajo de la media total) y hacer los valores que resultan muy útiles para la interpreta
cálculos por separado para cada uno de los grupos. ción práctica de los resultados obtenidos al aplicar
el IE:
110 − 10 2 = −5
0 5
nF 1 (PF 1 − PR1 ) = 10
∑ j nFj (PFj − PRj )
IE = [4.19]
∑ n
j Fj
120 − 30 2 = −8,33
5 20
nF 2 (PF 2 − PR2 ) = 20
donde:
150 − 40 2 = −27,50
nFj: Número de personas del grupo focal para 10 30
nF 3 (PF 3 − PR3 ) = 50
cada una de las categorías j (véase la tabla
4.7).
PFj: Proporción de personas del grupo focal que
1100 − 1052 = −10,95
70 85
aciertan el ítem para la categoría j. En tér nF 4 (PF 4 − PR 4 ) = 100
minos de la tabla 4.7:
El índice de estandarización (IE) varía entre −1 Dado que el valor obtenido (−0,25) excede con
y +1. Los valores positivos indican que el ítem be mucho −0,10, el ítem presenta un claro funciona
© Ediciones Pirámide
Análisis de los ítems / 173
miento diferencial, favoreciendo al grupo de refe nen para todas las categorías; por tanto, no hay
rencia, puesto que el signo es negativo. Este resul FDI. Globalmente el ítem resulta más difícil para
tado coincide con los encontrados para los mismos los hombres, pero no se puede decir que funcione
datos mediante los métodos de Mantel-Haenszel y diferencialmente para los hombres y las mujeres; en
c 2 de los aciertos. suma, hay impacto pero no FDI. La distinción es
Dorans y Holland (1993) ofrecen una transfor clave, pues entre dos grupos nada impide que haya
mación del IE a la métrica delta, así como un error diferencias (impacto), en ningún lugar está escrito
típico de medida que permite someter a prueba la que todos los grupos deban obtener las mismas pun
significación estadística de las diferencias encontra tuaciones en todas las variables, pero lo que hay que
das entre los grupos de referencia y focal. Como se evitar a toda costa es un funcionamiento diferencial
puede obsevar en la fórmula 4.19, el índice de es de los ítems para los grupos. La confusión de estos
tandarización utiliza el número de personas del gru dos conceptos es el origen de muchas de las neceda
po focal en cada categoría (nFj) para ponderar las des que sobre el sesgo de los test se han dicho. Un
diferencias entre las proporciones de aciertos de caso ya clásico es el acaecido al Educational Testing
ambos grupos (PFj − PRj). Esta ponderación es muy Service (ETS), una de las empresas editoras y apli
razonable, puesto que permite dar más peso a aque cadoras de test más potentes de los Estados Unidos,
llas categorías que cuentan con mayor número de que fue demandada en los tribunales por una com
personas del grupo focal. No obstante, Dorans y pañía de seguros (Golden Rule Insurance Company)
Holland (1993) proponen otras posibles pondera alegando esta que algunos de los test utilizados por
ciones, en función de los intereses específicos de los el ETS estaban sesgados contra los negros. Tras
investigadores. ocho años peleando en los tribunales, en 1984 el pre
sidente del ETS, intentando quitarse el engorroso
asunto de encima, muy costoso en tiempo y dinero,
7.3.6. Comentarios finales llegó a un acuerdo con la compañía de seguros para
descartar en el futuro todos aquellos ítems en los
Hay que señalar que sigue siendo muy impor que la proporción de aciertos de los blancos excedie
tante para los usuarios la representación gráfica de sen en 0,15 a los de los negros. El presidente sabía
los datos (figuras 4.3 y 4.4), pues aunque los diver de sobra que esto era injustificado, pues los ítems
sos métodos ayuden a tomar decisiones con funda han de descartarse cuando muestran FDI, no cuan
mento estadístico, la visualización de las proporcio do hay impacto, pero seguramente consideró que
nes de aciertos de los grupos de referencia y focal sería una forma práctica de zanjar la cuestión. Todo
para cada una de las categorías permite detectar el lo contrario, la polvareda levantada por parte de los
tipo de FDI existente y tener una primera aproxima expertos fue enorme, y el hombre tuvo que dar mar
ción de su cuantía. Los gráficos, si además se repre cha atrás, admitiendo que había cometido un error.
sentan en abscisas las distribuciones de las puntua El lector interesado en los intríngulis de este asunto
ciones del test para los dos grupos comparados, puede consultar el número especial dedicado al tema
permiten distinguir entre dos conceptos bien distin por la revista Educational Measurement: Issues and
tos y a menudo confundidos: el funcionamiento di Practice (1987), donde se analiza desde diferentes
ferencial del ítem y las posibles diferencias reales de perspectivas.
los dos grupos en el ítem, lo que se denomina «el Todas las técnicas expuestas previamente suelen
impacto». Nótese que puede haber claras diferencias catalogarse como internas, en alusión a que el crite
en el número de aciertos de cada uno de los grupos rio de contraste para analizar los ítems es interno
en el ítem (impacto), y sin embargo no existe FDI, al test; recuérdese que para establecer las distintas
como se ilustra, por ejemplo, en la figura 4.6. Ob categorías se utilizaba la puntuación global de las
sérvese cómo la media de aciertos en el ítem para el personas en el test o, en el caso de proceder en dos
grupo de mujeres (0,80) es mucho más elevada que etapas, la puntuación en el conjunto de ítems que
la de los hombres (0,60), por lo que existe impacto. no presentaban FDI en un primer análisis. Por el
Sin embargo, las proporciones de aciertos por cate contrario, se habla de FDI externo cuando el crite
gorías coinciden, los puntos y las aspas se superpo rio de contraste es externo, por ejemplo el criterio
© Ediciones Pirámide
174 / Introducción a la Psicometría
1,0
Proporción de aciertos
0,80
0,60
0,50
Puntuaciones
en el test
Hombres Mujeres
Figura 4.6.—Impacto y funcionamiento diferencial de un ítem para un grupo de hombres y otro de mujeres.
que se pretende predecir con el test. La estrategia del método delta, así como otras técnicas incondi
más habitual en este caso es calcular la recta de re cionales, pues pueden llevar a confundir funciona
gresión del criterio externo sobre el test para la miento diferencial con impacto.
muestra total y para cada uno de los grupos (focal El funcionamiento diferencial de los ítems es
y referencia) y compararlas. Si no existiese FDI, las uno de los campos en los que más se ha desarrolla
tres rectas deberían coincidir. No se han expuesto do la teoría de los test estos últimos años, habién
las técnicas externas, puesto que en la actualidad dose propuesto otros muchos métodos que no ex
son poco utilizadas. ponemos aquí, dado el carácter introductorio de
Señalar finalmente que las técnicas expuestas este libro. Cabría destacar el SIBTEST (Shealy y
son todas ellas de carácter condicional, excepto el Stout, 1993), las técnicas para analizar las tablas de
método delta, que sería incondicional. En las técni contingencia (modelos loglineales, modelos logit,
cas condicionales los aciertos en el ítem estudiado regresión logística) o toda la tecnología basada en
se contrastan condicionalmente para cada una de la teoría de respuesta a los ítems. El lector interesa
las categorías formadas, mientras que en las incon do puede consultar el libro de Camilli y Shepard
dicionales, como el método delta, no se establecen (1994), o en castellano el trabajo de Fidalgo (1996),
categorías, se utilizan las puntuaciones globales de y para una buena revisión, Gómez, Hidalgo y Gui
los grupos focal y de referencia. Esta incondiciona lera (2010). En el epígrafe 10 del capítulo 7 se pre
lidad es precisamente lo que hace delicado el uso senta la estimación del FDI en el marco de la TRI.
EJERCICIOS
1. En la tabla adjunta aparecen las puntuacio un test de cuatro ítems, así como sus puntuaciones
nes obtenidas por una muestra de cinco sujetos en en el criterio.
© Ediciones Pirámide
Análisis de los ítems / 175
A 1 1 0 1
Únicamente los tres que aparecen entre parén B 0 1 1 0
tesis acertaron el último ítem del test, aunque todos C 1 1 1 0
D 1 0 0 0
lo intentaron resolver.
E 0 0 0 0
1. Calcule el índice de dificultad del último Índices de validez 0,1 0,2 0,6 0,25
ítem.
2. Calcule el índice de discriminación del últi
mo ítem. 1. Calcular los índices de discriminación de
3. Calcule el índice de validez del último ítem. los ítems.
4. Calcule el número de discriminaciones que 2. Calcular el coeficiente de validez del test.
realiza entre los sujetos el último ítem.
5. Calcule el coeficiente de validez del test. 6. En la tabla adjunta aparecen las respuestas
dadas por 200 sujetos a las cinco alternativas (A, B,
3. Un test consta de 150 ítems de tres alterna C, D, E) del ítem 19 de un test de 40, y de las que
tivas, una de las cuales es correcta. solo la C es correcta. Se han separado por un lado
las respuestas dadas por los sujetos que obtuvieron
1. Un sujeto que desconozca por completo el puntuaciones superiores a la mediana del test, y por
contenido del test, pero aun así responda a otro aquellos sujetos con puntuaciones inferiores a
todos los ítems, ¿cuántos es de esperar que la mediana. También se exponen en la parte inferior
acierte? de la tabla las medias obtenidas en el test por los
© Ediciones Pirámide
176 / Introducción a la Psicometría
sujetos que respondieron a cada alternativa. La des 1. Calcular el índice de dificultad del ítem.
viación típica de las puntuaciones de los sujetos en 2. Analizar las respuestas de los sujetos a las
el test fue 10. alternativas incorrectas del ítem y señalar
aquellas que no contribuyen a discriminar
entre los sujetos competentes y los incom
A B C D E
petentes en el test. Razonar adecuada
50 % superior 5 15 60 18 2 mente.
50 % inferior 40 15 20 15 10 3. Calcular el índice de discriminación del
Media test 15 20 24 18 14 ítem.
4. Calcular la covarianza entre el ítem y el test.
SOLUCIONES
© Ediciones Pirámide
Transformación de las puntuaciones 5
Una vez que se han obtenido las puntuaciones de Dan, por tanto, una idea rápida e intuitiva de la po-
las personas en un test, para facilitar su interpreta- sición relativa de la persona en el grupo. Así, por
ción y comprensión por parte de los interlocutores y ejemplo, una persona con un percentil de 80 indicaría
clientes, las puntuaciones directas suelen transfor- que su puntuación en el test es superior al 80 % de
marse en otros tipos de puntuaciones. Como ahora sus compañeros. Esta transformación es, sin duda, la
se verá, varias transformaciones son posibles. El ob- más utilizada, debido sobre todo a su simplicidad y
jetivo fundamental de las transformaciones es expre- universalidad, lo que facilita la interacción con per-
sar las puntuaciones directas de tal modo que hagan sonal no técnico. Los percentiles constituyen una es-
alusión a la ubicación de la persona en el grupo, dan- cala ordinal, permiten ordenar a las personas pero no
do así la idea comparativa de su puntuación en rela- garantizan la igualdad de intervalos, o, en otras pa-
ción con sus semejantes. Por ejemplo, si tras realizar labras, diferencias iguales entre percentiles no impli-
un test se nos dice que hemos obtenido en él 80 pun- can diferencias iguales entre puntuaciones directas,
tos, no tenemos ni idea de lo que eso representa res- constituyen una transformación no lineal de estas.
pecto a nuestros colegas; ¿estamos por encima de la La realización concreta de la citada transforma-
media?, ¿por debajo?, etc. Pues bien, ese es el tipo de ción para unos datos empíricos es muy sencilla,
información que pretenden dar las puntuaciones di- amén de que todos los programas de ordenador con-
rectas una vez transformadas: la ubicación relativa vencionales la llevan a cabo como parte de la des-
en el grupo, constituyendo un indicador del escala- cripción de los datos. Véase el ejemplo de la tabla 5.1,
miento de las personas. Nótese que las puntuaciones
transformadas no añaden ninguna información a la TABLA 5.1
contenida en las directas, salvo las ventajas prácticas
que pueda tener esta forma de ofrecer la informa- Frecuencias
Puntuaciones Frecuencias Percentiles
ción. Ni que decir tiene que las puntuaciones trans- acumuladas
en el test absolutas (porcentaje)
(PM)
formadas no alteran el escalamiento hecho por las
directas, sencillamente lo expresan en otra escala. 10 2 199 99,50
Para los análisis estadísticos y psicométricos deben 9 4 196 98,00
utilizarse siempre las puntuaciones directas obteni- 8 12 188 94,00
das y no las transformadas. 7 10 177 88,50
6 46 149 74,50
5 50 101 50,50
1. PERCENTILES 4 40 56 28,00
3 16 28 14,00
2 10 15 7,50
La transformación a escala centil consiste en
1 6 7 3,50
asignar a cada puntuación directa el porcentaje de 0 4 2 1,00
personas que obtienen puntuaciones inferiores a ella.
© Ediciones Pirámide
178 / Introducción a la Psicometría
© Ediciones Pirámide
Transformación de las puntuaciones / 179
desviación típica en 10, denominándose así, al pa- rían falseando los datos, al asumir una distribución
recer, en honor a Terman y Thorndike. No se prive que de hecho no se da empíricamente. Si la distri-
el lector de instituir las suyas propias. Muchos test bución se ajusta estrictamente a la normal, estas
al uso utilizan este tipo de puntuaciones derivadas; puntuaciones típicas normalizadas y las anteriores
por ejemplo, el WAIS ubica la media en 100 y la calculadas mediante la fórmula propuesta deberían
desviación típica en 15, el Standford-Binet en 100 y resultar iguales. Dado que los datos empíricos rara-
16, respectivamente, y el MMPI en 50 y 10, siguien- mente se distribuyen exactamente según la curva
do a McCall. normal, esta transformación solo quedaría legiti-
En la tabla 5.3 se han transformado las puntua- mada si el ajuste resulta estadísticamente aceptable.
ciones típicas anteriores en una escala derivada de Véanse en la tabla 5.4 las típicas normalizadas co-
media l00 y desviación típica 20. rrespondientes al ejemplo que venimos utilizando.
Eneatipos
1 2 3 4 5 6 7 8 9
–∞ –1,75 –1,25 –0,75 –0,25 0,25 0,75 1,25 1,75 ∞
Típicas normalizadas
Es una escala poco recomendable, pues se pier- expertos. Nótese que en realidad es una escala deri-
de mucha información al incluir en el mismo enea- vada de media 5 y desviación típica 2:
tipo personas con distinta puntuación. Su única
ventaja es la facilidad para ser entendida por los no Eneatipos = 5 + 2(Zn)
© Ediciones Pirámide
180 / Introducción a la Psicometría
siempre y cuando se tenga en cuenta que el valor cronológica, multiplicando por 100 para evitar los
máximo es 9, luego a todo valor superior se le asig- decimales.
na el 9, y a todo valor inferior a 1 se le asigna el 1, El inconveniente principal de este tipo de esca-
redondeando los valores intermedios para obtener las de edades radica en que si la función psicológica
el eneatipo correspondiente. medida no aumenta o disminuye linealmente con la
Por ejemplo, averiguar el eneatipo correspon- edad, como suele ocurrir, las diferencias de edad
diente a las siguientes típicas normalizadas: mental asignadas no tienen el mismo significado
para todas las edades cronológicas. A ello se añade
Z1 = 0,7, Z2 = 2,5 y Z3 = –3,5 además el llamado «efecto de techo», consistente en
que a partir de cierta edad (techo) la función psico-
Una ojeada al gráfico pone de manifiesto que los lógica medida no aumenta significativamente, y por
eneatipos buscados son, respectivamente, 6, 9 y 1. tanto carece de sentido utilizar la edad como uni-
Aplicando la fórmula: dad de medida. Por si fuera poco, se produce, ade-
más, otro efecto colateral de interpretación poco
E1 = 5 + 2(0,7) = 6,4 (Eneatipo 6) deseable, tendiendo a equipararse en términos ge-
E2 = 5 + 2(2,5) = 10 (Eneatipo 9) nerales a los sujetos a los que se asigna la misma
E3 = 5 + 2(–3,5) = –2 (Eneatipo 1) edad en determinada variable psicológica, cuando
el funcionamiento cognitivo global puede ser muy
diferente.
3. EDAD Se han citado aquí algunos de los tipos de
transformaciones más habituales, pero otras mu-
Otra posible transformación de las puntuacio- chas, seguramente infinitas, son posibles; el uso de
nes directas es en edades. En líneas generales, para una u otra dependerá de las exigencias prácticas de
llevar a cabo la transformación se administra pre- cada situación.
viamente el test a personas de diferentes edades, Señalar, finalmente, que no es infrecuente deno-
calculando la media del test para cada edad. La re- minar «baremo» al conjunto formado por las pun-
gla de transformación será asignar a cada persona tuaciones directas en el test y las correspondientes
la edad que le corresponda por su puntuación. Por transformadas por alguno de los métodos descritos,
ejemplo, si los niños de 7 años obtienen en el test u otros. Asimismo, suele denominarse «grupo nor-
una media de 20 puntos, cuando un niño, indepen- mativo» a la muestra de personas utilizada para es-
dientemente de su edad cronológica, obtenga 20 tablecer las transformaciones que se pretende sean
puntos en ese test se le asignará una edad de 7 años. válidas para todas las personas de la población de
Obviamente las escalas suelen ser más detalladas e donde se extrajo la muestra. Nótese que si por al-
ir de seis meses en seis meses, o incluso menos, de guna razón la muestra está incorrectamente elegida,
mes en mes, por ejemplo. por ejemplo, no es aleatoria o contiene un número
Este tipo de escalamiento por edades se presta insuficiente de personas, los juicios que se hagan
a numerosas confusiones e interpretaciones erró- basándose en las normas (transformaciones) elabo-
neas, y se utiliza cada vez menos. Tendría más sen- radas a partir de ella serán incorrectos. Un buen
tido para escalar atributos que crecen o decrecen ejemplo de estas deficiencias puede observarse
sistemáticamente con la edad, pero en la mayoría de echando una ojeada a los baremos que aparecen en
las variables de interés psicológico no es el caso. los manuales de algunos de los test editados en Es-
Nótese que originalmente el cociente intelectual paña, en los que se utilizan muestras con un núme-
(CI) se basaba en este tipo de escala: ro de personas insuficiente, o no se actualizan pe-
riódicamente, habiéndose quedado obsoletos y no
EM representando la situación actual de la población.
CI = ¥ 100
EC Un análisis detallado y clásico sobre la trans-
formación de las puntuaciones y la casuística posi-
al dividir la edad asignada a la persona según su ble en la elección y descripción de grupos normati-
puntuación en el test (edad mental) entre la edad vos puede consultarse en Angoff (1984).
© Ediciones Pirámide
Transformación de las puntuaciones / 181
EJERCICIOS
1. En la tabla adjunta aparecen las puntuacio- 3. Jensen y Munro (1979) encontraron que
nes obtenidas por cinco personas en un test de cua- para una muestra de 39 mujeres el tiempo de reac-
tro ítems. ción medio a estímulos visuales era de 330 milise-
gundos. Asumiendo que los tiempos de reacción se
distribuyen según la curva normal con una desvia-
Ítems ción típica de 20.
Personas
1 2 3 4
1. ¿Qué puntuación directa, diferencial, típica,
A 1 0 0 0 eneatipo, percentil y derivada con media
B 1 1 0 0 100 y varianza 225 le correspondería a una
C 1 1 1 0 de las mujeres cuyo tiempo de reacción fue
D 1 1 1 1 de 370 milisegundos?
E 0 0 0 0
4. A una oferta de empleo se presentaron
1.000 aspirantes a los que se les aplicó un test de
Expresar la puntuación directa del sujeto C en: selección. Las puntuaciones en este test se distribu-
yeron según la curva normal con una media de 40 y
1. Puntuaciones típicas. una desviación típica de 10. Solo fueron admitidos
2. Puntuaciones típicas derivadas de media para continuar el proceso de selección aquellos 100
100 y desviación típica 10. que obtuvieron las mejores puntuaciones en el test.
3. Percentiles. En relación con el sujeto que obtuvo la puntua-
4. Típicas normalizadas. ción más baja de entre los admitidos, calcular:
5. Eneatipos.
6. CI de desviación (media 100 y desviación 1. Su percentil.
típica 15). 2. Su puntuación típica.
3. Su puntuación directa.
2. Aplicado un test de inteligencia general a 4. Su puntuación diferencial.
una muestra de 1.000 sujetos, las puntuaciones se 5. Su eneatipo.
distribuyeron según la curva normal con media 20 6. Su puntuación derivada en una escala de
y desviación típica 5. media 60 y desviación típica 20.
7. Si del enunciado del problema se suprimiese
1. Uno de los sujetos obtuvo en el test una «las puntuaciones en este test se distribuye-
puntuación directa de 15 puntos; exprese ron según la curva normal», ¿cuáles de los
dicha puntuación en escala: apartados del problema podría usted con-
testar? Razone la respuesta.
— Diferencial.
5. En la tabla adjunta aparecen las puntuacio-
— Típica.
nes obtenidas por 400 sujetos en un test de 50 ítems.
— Eneatipos.
— Percentiles.
— Derivada de media 88 y desviación típi- Puntuaciones Frecuencias
ca 6. en el test absolutas
50 4
2. Otro de los sujetos «solo» fue superado por
45 8
900 de sus compañeros; expresar su puntua- 40 24
ción en todas las escalas anteriores, incluida 35 20
la de puntuaciones directas.
© Ediciones Pirámide
182 / Introducción a la Psicometría
SOLUCIONES
© Ediciones Pirámide
Equiparación de las puntuaciones 6
La equivalencia o equiparación de puntuaciones logical Measurement edita un número especial al res-
(equating) de dos o más test se refiere al estableci- pecto, y, por su parte, «Educational Measurement»
miento de una correspondencia entre las puntuacio- incluye en su sección instructiva «Ítems» una expo-
nes de uno y otro, de tal modo que sea indiferente sición muy asequible y divulgativa de Kolen (1988)
cuál se aplique a las personas, pues sus puntuaciones sobre metodología clásica para la equiparación. Tra-
en uno serán expresables en términos del otro, si tamientos más recientes y detallados pueden verse
efectivamente la mentada equiparación se ha hecho en Von Davier (2011) o Kolen y Brennan (2014), y
adecuadamente. En palabras de Angoff (1982a), la en español, en Navas (1996).
equiparación de las puntuaciones es el proceso de Las causas de esta eclosión hay que buscarlas, en
desarrollar una conversión del sistema de unidades primer lugar, en el uso masivo de los test en Estados
de un test al sistema de unidades de otro, de tal Unidos, con repercusiones tan relevantes como
modo que las puntuaciones derivadas de ambos test quién puede acceder (y dónde) a la enseñanza uni-
después de la conversión sean equivalentes o inter- versitaria, empleos, promociones, certificaciones, etc.
cambiables. Ello obliga a los constructores a elaborar varias for-
El problema de la equiparación de las puntua- mas del mismo test sucesivamente, con el consi-
ciones nunca fue un tema al que la psicometría clá- guiente problema implicado de comparar y equipa-
sica prestara gran atención, salvo, como señala rar las puntuaciones obtenidas en ellos, so pena de
Brennan (1987), aquellos psicómetras con responsa- graves injusticias comparativas. La continua crítica
bilidades directas en las grandes compañías cons- y discusión social de este sistema generalizado de
tructoras de test. Efectivamente, Gulliksen (1950) lo test ha obligado a los constructores a justificar y ex-
trata de pasada, Lord y Novick (1968) apenas lo ci- plicar públicamente sus métodos de equiparación.
tan y los «Standards for Educational and Psycholo- En segundo lugar, los nuevos modelos de TRI que
gical Testing» de 1974 ni lo mentan. El tratamiento dominan la psicometría actual permiten un trata-
pionero y clásico es el de Angoff incluido en el libro miento más adecuado del problema de la teoría clá-
editado por Thorndike (1971), capítulo que en 1984 sica, véase el epígrafe 9 del capítulo 7.
editará en forma de libro el Educational Testing Ser- Para hablar propiamente de establecer una
vice (ETS). En 1982, también bajo los auspicios del equiparación entre las puntuaciones de dos test,
ETS, se publica un libro monográfico sobre el tema ambos han de medir la misma variable y con la mis-
(Holland y Rubin, 1982) al que contribuyen nume- ma fiabilidad. Si se trata de variables distintas, el
rosos especialistas y en el que se incluye una biblio- concepto de equivalencia carece de sentido, aunque
grafía exhaustiva de lo hecho hasta entonces. Por los nada impediría intentar predecir una a partir de la
años ochenta los trabajos son abundantes: Lord otra, eso es otra cuestión. Respecto a la misma fia-
(1980) le dedica un capítulo, y los «Standards for bilidad, de no darse se seguiría la inaceptable posi-
Educational and Psychological Testing» (1985), va- bilidad de equiparar un test con otro menos fiable
rios «standards». En 1987 la revista Applied Psycho- y asumir que las puntuaciones en ambos son inter-
© Ediciones Pirámide
184 / Introducción a la Psicometría
cambiables. Una exposición detallada de las condi- test y se aplica uno de los test a cada una de ellas,
ciones teóricas exigibles para establecer equipara- procediéndose luego a la equiparación, bajo el su-
ciones rigurosas puede consultarse en Lord (1980), puesto de que el azar generó muestras de sujetos
quien demuestra, ironías del destino, que una equi- equivalentes.
paración estricta solo es posible cuando es innece-
saria. No obstante, en el trato con la sucia realidad
Test de anclaje
los métodos que se comentan brevemente a conti-
nuación no son del todo desatinados. Ha sido (y es) el diseño más utilizado. Se apli-
Suele hablarse de equiparación horizontal cuan- can los dos test a equiparar a dos muestras (uno a
do los test a equiparar se intentan construir a prio- cada una), como en el caso anterior, pero además a
ri con igual dificultad, caso, por ejemplo, de las for- ambas se le aplica cierto número de ítems comunes
mas alternativas del mismo test. Si la dificultad de de anclaje que permitirán establecer las equivalen-
los test a equiparar es claramente distinta, se habla cias entre los test a equiparar. Nótese que aquí las
de equiparación vertical. Caso típico de lo cual es dos muestras no tienen por qué ser necesariamente
cuando se desea establecer comparaciones entre equivalentes.
competencias que aumentan con la edad, utilizando
test de diferente nivel (dificultad) a cada edad. En
realidad es un problema típico de escalamiento y se 2. MÉTODOS
presenta en la práctica asociado con competencias
escolares en relación con el curso o edad de los es- Los tres métodos más utilizados por la psico-
tudiantes. metría clásica para establecer las equiparaciones
son:
1. DISEÑOS — Media.
— Transformación lineal.
Tres han sido los diseños más frecuentemente — Percentiles.
utilizados desde la óptica clásica:
© Ediciones Pirámide
Equiparación de las puntuaciones / 185
2S y2 donde
Se = (Zx2 + 2) [6.2]
Nt bXZ(A): Pendiente de X sobre Z en la mues-
tra A.
donde Nt es el número total de sujetos (sumados los bYZ(B): Pendiente de Y sobre Z en la mues-
—
de ambas muestras) y Zx = (X – X )/Sx. tra B.
© Ediciones Pirámide
186 / Introducción a la Psicometría
—
Z: Media global del test de anclaje. Percentiles
2 2
SXA y SYB: Varianzas respectivas de X e Y.
Es el método más habitual; tanto es así que a
— — veces se han definido como puntuaciones equivalen-
Obtenidos de ese modo los valores X , Y , Sx, Sy,
se procede análogamente a los casos anteriores. tes aquellas con percentiles iguales. El método con-
Para este diseño el error típico de medida viene siste en eso, en hacer corresponder o equiparar aque-
dado por: llas puntuaciones de ambos test cuyos percentiles
son iguales. Por ejemplo, si en un test X de CV a una
2S y2 (1 – r 2 )[(1 + r 2 )Zx2 + 2] puntuación directa de 23 le corresponde el percentil
Se = [6.4] 80 y en otro test Y, también de CV, a una puntua-
Nt ción de 25 le corresponde asimismo el percentil 80,
la puntuación de 23 en el test X se equipara a 25 en
donde se asume que: el test Y; sacar 23 puntos en X equivale según este
método a sacar 25 en Y. Las posibilidades y limita-
bXZ (A) bYZ (B ) ciones de este método son aquellas inherentes a los
r= =
Sx Sy percentiles.
© Ediciones Pirámide
Teoría de respuesta a los ítems 7
La teoría de respuesta a los ítems (TRI) consti- y Novick (1968), todo ello complementado con el
tuye un nuevo enfoque en la teoría de los test que acceso generalizado a los ordenadores, imprescindi-
permite resolver ciertos problemas de medición psi- bles para el tratamiento de los modelos de TRI. En
cológica inatacables desde la teoría clásica de los test la actualidad se dispone de una extensa y pertinen-
(TCT). Como señala Lord (1980), la TRI no contra- te literatura, por ejemplo Wright y Stone (1979),
dice ni las asunciones ni las conclusiones fundamen- Lord (1980), Hambleton y Swaminathan (1985),
tales de la teoría clásica de los test, sino que hace Andrich (1988), Hulin, Drasgow y Parsons (1983),
asunciones adicionales que permitirán responder Van der Linden y Hambleton (1997), Embretson y
cuestiones que la TCT no podía. No obstante, como Reise (2000), Yen y Fitzpatrick (2006), Ayala (2009),
se irá viendo, la TRI constituye un giro importante Nering y Ostini (2010), Faulkner-Bond y Wells
en el acercamiento a la medición psicológica, y, (2016) o el reciente tratamiento enciclopédico de
como el propio Lord (1980) indica a continuación, Van der Linden (2016), entre otros muchos. En es-
a pesar de este carácter complementario de la TRI pañol pueden verse López Pina (1995), Muñiz
respecto de la TCT, poco de esta se utilizará explíci- (1996a, 1997a), Revuelta, Abad y Ponsoda (2006),
tamente en su formulación. Martínez Arias et al. (2006) o Abad et al. (2011).
El nombre «teoría de respuesta a los ítems» pro-
viene de que este enfoque se basa en las propiedades
de los ítems más que en las del test global. Aunque 1. OBJETIVOS
ha sido frecuente en el pasado referirse a la TRI
como teoría o modelos de rasgo latente, en la ac- Aparte de las contribuciones de tipo técnico que
tualidad la denominación universal es TRI. Y ello, aportará la TRI a la hora de construir y analizar
efectivamente, porque refleja el funcionamiento real los test, desde el punto de vista teórico de la medi-
de estos modelos basados en los ítems, permitiendo ción su gran contribución se centra en la posibili-
además distinguirlos de otros acercamientos más dad de obtener mediciones invariantes respecto de
generales que utilizan el concepto de rasgo latente los instrumentos utilizados y de las personas impli-
en psicología, como pueden ser el análisis factorial, cadas. Veamos qué significa esta afirmación un tan-
el análisis multidimensional o las ecuaciones estruc- to críptica. En la teoría clásica, el resultado de la
turales (Hambleton y Swaminathan, 1985). medición de una variable depende del test utilizado,
Los orígenes de la TRI hay que buscarlos en los lo que plantea serios problemas para tratar de esta-
trabajos pioneros de Richardson (1936), Lawley blecer la equivalencia entre las puntuaciones de dos
(1943), Tucker (1946), Lord (1952, 1953a, 1953b) y test distintos que midan una misma variable. Por
Birnbaum (1957, 1958a, 1958b), produciéndose una ejemplo, si la variable inteligencia de una persona
rápida expansión a partir de los años sesenta con la se mide con dos test distintos, ambos de inteligencia
aparición del libro de Rasch (1960) y, sobre todo, obviamente, su puntuación no será la misma en
con las contribuciones de Birnbaum en el de Lord cada uno de ellos, ya que no necesariamente funcio-
© Ediciones Pirámide
188 / Introducción a la Psicometría
nan en la misma escala. Por tanto ¿cuál es la inteli- objetivos las asunciones de la TRI serán fuertes y
gencia de esa persona? En la teoría clásica la medi- restrictivas, amén de comprometidas desde el punto
da de una variable es inseparable del instrumento de vista de la teorización psicológica.
utilizado para medirla, y ello constituye una seria
limitación. El problema no es ni mucho menos nue-
vo, pues Thurstone (1928b) ya lo apuntó claramen- 2. SUPUESTOS
te: «... un instrumento de medida no debe venir
afectado por los objetos medidos... sus mediciones 2.1. Curva característica de los ítems
deben ser independientes de los objetos medidos»
(p. 547). Además, las propiedades del instrumento Los modelos de TRI asumen que existe una re-
de medida, esto es, de los ítems y, por tanto, del lación funcional entre los valores de la variable que
test, están en función de las personas a las que se miden los ítems y la probabilidad de acertar estos y
aplican. Por ejemplo, el índice de dificultad de un denominan a dicha función «curva característica
ítem dependerá de que el grupo de personas utiliza- del ítem» (CCI). Expresado en otras palabras, ello
do para calcularlo sea competente o no; en el pri- significa que la probabilidad de acertar un ítem de-
mer caso será fácil, y en el segundo, difícil. Para pende de los valores de la variable medida por el
entender estas dos limitaciones, imagínese el lector ítem; por tanto, personas con distinta puntuación
que la longitud de una mesa dependiese del tipo de en dicha variable tendrán probabilidades distintas
metro utilizado y que, además, las cualidades del de superar determinado ítem.
metro se estableciesen en función del tipo de mesa En la figura 7.1 aparece la curva característica
medida. El acercamiento clásico se encontraba en- de un ítem. En el eje de abscisas se representan los
cerrado en esa incongruencia teórica: la medición valores de la variable que mide el ítem, a la que en
depende del instrumento utilizado y las propiedades adelante se denominará theta (q), y en el de orde-
de estos están en función de los objetos medidos, nadas aparece la probabilidad de acertar el ítem
las personas. La promesa y objetivo central de la P(q). La curva dibujada es la CCI y nos da la pro-
TRI serán solucionar este problema, lo que, en babilidad de acertar el ítem para los distintos valo-
suma, permitirá: res de q. Así, por ejemplo, las personas cuyo valor
en q fuese –1 tendrían una probabilidad de acertar
— Obtener mediciones que no varíen en fun- este ítem de 0,10, a una q = 0 le correspondería una
ción del instrumento utilizado, es decir, que P(q) = 0,50, etc.
sean invariantes respecto de los test emplea- La CCI, como su nombre indica, es eso, carac-
dos. terística, típica, específica de cada ítem, caracteriza
— Disponer de instrumentos de medida cuyas al ítem; por tanto, las CCI de los ítems que miden
propiedades no dependan de los objetos me- una determinada variable q no son iguales, si bien
didos, sean invariantes respecto de las per- compartirán determinada forma general, como se
sonas evaluadas. verá más adelante. Llegados aquí seguramente asal-
tarán al lector varios interrogantes; el primero,
Además de este objetivo central, o, más bien, cómo se elaboran las CCI y qué formas toman,
derivados de él, la TRI proporcionará todo un con- pues posibles curvas en el plano hay infinitas, sin
junto de avances técnicos de gran interés para la entrar a considerar espacios de más dimensiones; el
evaluación psicológica y educativa, tales como las segundo, cómo se relacionan, qué tienen que ver las
funciones de información de los ítems y del test, CCI con los objetivos de la TRI establecidos. Por el
errores típicos de medida distintos para cada nivel momento solo cabe dar ánimos para continuar,
de la variable medida o el establecimiento de ban- todo llegará.
cos de ítems con parámetros estrictamente defini- En primer lugar, una aclaración: la CCI no es
dos, lo que posibilita el uso de test adaptados al la regresión ítem-test, aunque tenga algunas seme-
nivel de la persona evaluada, permitiendo explora- janzas. La regresión ítem-test consiste en hacer co-
ciones más exhaustivas y rigurosas en función de las rresponder los valores del test con las proporciones
características de las personas. Para conseguir tales de aciertos en determinado ítem.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 189
1,00
P(q)
0,50
0,00
–3 –2 –1 0 1 2 3
q
1,00
0,80
0,60
P
0,40
0,20
0,00
0 1 2 3 4 5 6 7 8 9 10
Puntuaciones en el test
© Ediciones Pirámide
190 / Introducción a la Psicometría
P(q)
prendidos entre –∞ y +∞, mientras que los de un
test suelen estarlo entre cero y la puntuación máxi- 0,50
ma posible en ese test. Puede decirse que las pun-
tuaciones de las personas en el test son una estima-
ción de q, pero no constituyen la escala q. La forma 0,00
estricta de conexión entre las puntuaciones del test q
y los valores de q se verá más adelante.
1,00
0,80
0,60 a
P(q)
0,40
0,20
c
0,00
–3,0 –2,0 –1,0 0,0 b 1,0 2,0 3,0
q
© Ediciones Pirámide
Teoría de respuesta a los ítems / 191
determinista de todo o nada, poco plausible para dice de dificultad de la teoría clásica aproximada-
humanos mayormente instalados en el reino de la mente según la expresión:
probabilidad.
Las CCI utilizadas en la TRI van a ser del «tipo –Z p
S» y para definirlas adecuadamente habrá que tener b≡ [7.2]
rb
en cuenta únicamente los tres parámetros que se
detallan a continuación.
Los tres parámetros a considerar van a denomi- donde Zp es la puntuación típica que corresponde
narse a, b y c. en la curva normal a la proporción de aciertos en el
ítem (índice de dificultad en la teoría clásica) y rb es
la correlación biserial ítem-test. Por ejemplo, si en
Parámetro a
las condiciones citadas cierto ítem tiene una
El parámetro a se denomina índice de discrimi- rb = 0,50 y es acertado por el 75 % de las personas
nación y su valor es proporcional a la pendiente de (índice de dificultad en la teoría clásica, 0,75), b val-
la recta tangente a la CCI en el punto de máxima dría aproximadamente:
pendiente de esta. Cuanto mayor sea la pendiente,
mayor será el índice de discriminación. Su valor nu- b ≡ –0,67/0,50 = –1,34
mérico se especificará más adelante, cuando se
adopte un tipo de función matemática para la cur- (Nótese que el valor de Z en la curva normal
va. Aunque el nombre «índice de discriminación» que deja por encima de sí al 75 % de los casos es
alude como en la teoría clásica a la capacidad dis- –0,67.)
criminativa del ítem, su valor no será el mismo. A
modo de ilustración, y para ayudar a su compren- Parámetro c
sión, cabe señalar (Lord, 1980) que el valor de a
cuando q se distribuye según la curva normal con El parámetro c representa la probabilidad de
media 0 y desviación típica 1 N(0, 1), y no hay acier- acertar el ítem al azar cuando «no se sabe nada», es
tos al azar (c = 0), viene dado aproximadamente decir, es el valor de P(q) cuando q = –∞. En otras
por la expresión: palabras, es el valor asintótico de la CCI cuando q
tiende a –∞. Su equivalente aproximado en la teoría
rb clásica viene dado por la probabilidad de acertar el
a≡ [7.1] ítem al azar. Por ejemplo, si un ítem tiene cinco al-
1 – (rb )2 ternativas y solo una es correcta, la probabilidad de
acertarlo al azar sin conocer la respuesta es
donde rb es la correlación biserial ítem-test, o sea, p = 1/5 = 0,20. Luego para este ítem una estima-
el índice de discriminación en el modelo clásico. ción aproximada de c sería 0,20.
La CCI queda definida cuando se especifica el
Parámetro b valor de estos tres parámetros y se adopta una deter-
minada función matemática para la curva. Según el
Se denomina índice de dificultad y es el valor de tipo de función matemática adoptada y el valor de
q correspondiente al punto de máxima pendiente de los parámetros, tendremos diferentes modelos de
la CCI. Como en el caso de a, tampoco el significa- CCI. Véanse en la figura 7.5 algunas CCI en las
do de b es aquí exactamente el mismo que en la teo- que los tres parámetros expuestos toman diferentes
ría clásica, aunque, por supuesto, se refiere a la difi- valores.
cultad del ítem. Nótese, sobre todo, que aquí la A medida que las CCI se ubican más a la dere-
dificultad del ítem se mide en la misma escala que q; cha en el eje de abscisas, significa que los ítems son
de hecho, es un valor de q, aquel que corresponde a más difíciles, pues b aumenta. El ítem más fácil de
la máxima pendiente de la CCI. De nuevo, con fines los cinco representados es el 1, y el más difícil, el 5.
ilustrativos, si se mantienen las condiciones de nor- El poder discriminativo a viene indicado por la pen-
malidad de q, el parámetro b se relaciona con el ín- diente de las CCI; los ítems 1 y 2 tienen un alto
© Ediciones Pirámide
192 / Introducción a la Psicometría
1,00 1
0,80
2
0,60
3
P(q)
0,40
4
0,20
5
0,00
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0
q
poder discriminativo, pero hay que notar inmedia- tinados a medir la variable q constituyen una sola
tamente que esa capacidad discriminativa se da dimensión, son unidimensionales. Aunque también
para determinados valores de q, en concreto, en el se han desarrollado modelos multidimensionales,
ítem 1, para valores de q en torno a –1, y en el ítem todo lo dicho hasta ahora se refiere a modelos uni-
2, para valores de q en torno a 0,50. Esto tendrá dimensionales. En el caso de modelos multidimen-
importantes consecuencias en la construcción de sionales (MIRT), la CCI recibe la denominación más
test, pues, según nos interese discriminar en una general de «función característica del ítem», pues ya
zona u otra de q, elegiremos unos ítems u otros. no es una curva en el plano, sino una función, la que
Finalmente, el parámetro c, aciertos al azar, es 0 sea, en un espacio multidimensional. Algunas pro-
para los ítems 1, 2 y 5 y 0,10 para el 3 y el 4. puestas de modelos multidimensionales pueden verse
En suma, la CCI, piedra angular de la TRI, es- en Bock y Aitkin (1981), Samejima (1974), Thissen
tablece una relación funcional entre los valores de y Steinberg (1984), Whitely (1980), Ackerman (2005),
la variable medida q y la probabilidad de acertar el Reckase (2009), o en español el trabajo de Maydeu
ítem. El tipo de función matemática adoptado para (1996). En el apartado 4.1 se comentan las estrate-
la CCI, el número de parámetros considerados y gias a seguir para comprobar que los datos son uni-
otros criterios que se elijan darán lugar a distintos dimensionales y, por tanto, se pueden aplicar los mo-
modelos de TRI. delos de TRI que asumen este supuesto.
Si se cumple la unidimensionalidad, de ello se
2.2. Unidimensionalidad deriva que existe independencia local entre los ítems;
e independencia local esto es, que para una persona con un determinado
valor en la variable unidimensional su respuesta a
Como se acaba de señalar en el apartado ante- un ítem no viene influida por sus respuestas en los
rior, la CCI establece una relación funcional entre la otros. Nótese que si ello ocurriera, se caería en una
probabilidad de acertar un ítem y los valores de q. contradicción, pues significaría que la variable uni-
Por tanto, si el modelo es correcto, la probabilidad dimensional no daría cuenta de toda la varianza de
de acertar un ítem únicamente dependerá de un fac- los ítems, sino que parte de esta dependería de otros
tor, a saber, de q. En otras palabras, la TRI asume ítems. La independencia local puede expresarse di-
implícitamente en su formulación que los ítems des- ciendo que la probabilidad de que una persona
© Ediciones Pirámide
Teoría de respuesta a los ítems / 193
EJERCICIOS
1. En la columna (X ) de la tabla adjunta apa- 1. Trace la gráfica de la regresión ítem-test
recen las puntuaciones obtenidas por una muestra para los datos de la tabla.
de 100 personas en un test de 10 ítems. En la segun- 2. Según los datos del gráfico anterior, ¿existe
da columna (% aciertos) se refleja el porcentaje de alguna conexión entre la puntuación obte-
personas que, habiendo obtenido la puntuación que nida en el test y la probabilidad de superar
figura en la primera columna, han superado el ítem el ítem 6? Descríbala.
6 del test. 3. Dibuje un gráfico, correspondiente a un test
e ítem hipotéticos, en el que no haya ningu-
X % aciertos na relación entre las puntuaciones que las
personas obtienen en el test y su probabili-
1 5 dad de superar el ítem.
2 10
3 20 4. ¿Cuál sería la discriminación de un ítem
4 30 como el del apartado anterior?
5 40 5. Señale la diferencia fundamental entre la
6 50 regresión ítem-test y la curva característica
7 65 del ítem.
8 80
9 90 2. En la tabla adjunta aparecen las puntuacio-
10 95
nes de una muestra de personas (X ) y sus puntua-
© Ediciones Pirámide
194 / Introducción a la Psicometría
ciones en uno de los ítems del test (1 significa acier- 1. Calcular el índice de discriminación clásico
to y 0 error). (rb).
2. Estimar el valor aproximado que tomaría el
parámetro a de este ítem.
X % aciertos
3. Estimar el valor del parámetro b.
4 0
6 1 3. En la tabla aparecen las respuestas de 20
7 0
personas, todas ellas con el mismo nivel en la varia-
8 1
10 1
ble medida q, en dos ítems de un test (el 1 significa
acierto y el 0 error).
Personas
Ítem A 1 0 1 0 1 0 1 0 1 1 1 0 0 0 1 1 1 0 0 0
Ítem B 1 1 1 1 1 1 1 1 0 0 0 1 0 0 0 0 1 0 0 0
SOLUCIONES
© Ediciones Pirámide
Teoría de respuesta a los ítems / 195
© Ediciones Pirámide
196 / Introducción a la Psicometría
1,00
0,80
0,60
Y
0,40
0,20
0,00
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0
X
mulada, por lo que es frecuente encontrarla expre- nas, q, predice la probabilidad, P(q), de que acierten
sada como: el ítem. (En adelante, para este y otros modelos,
cuando el contexto sea inequívoco, se prescindirá
e DX del subíndice i, por sencillez.)
y= [7.5]
1 + e DX
© Ediciones Pirámide
Teoría de respuesta a los ítems / 197
1,00
0,90
0,80
0,70
0,60
P(q)
0,50
0,40
0,30
0,20
0,10
0,00
–3,0 –2,0 –1,0 0,0 1,0 b 2,0 3,0
q
En otras palabras, el índice de dificultad b es el nador por eD(q – bi). A su vez, esta última se puede
valor de q en el punto de inflexión de la curva. La expresar así:
ventaja de que b esté en la misma escala que q será
notoria. Pi (θ ) = [1 + e – D(θ – bi ) ]–1 [7.8]
Tal vez el lector comience a impacientarse con
tanta suposición acerca del valor de q y de b, cuando
En otras ocasiones, en vez de q se emplea exp,
en realidad el problema sería cómo hallar su valor.
refiriéndose a exponencial. Todas las expresiones son
No se olvide que el único dato accesible son las res-
equivalentes, pero aquí se usará la primera citada.
puestas de las personas a los ítems. A modo de pla-
cebo tranquilizador, sepa el lector que, a partir de las
respuestas de las personas a los ítems, hay métodos
3.2. Modelo logístico de dos parámetros
estadísticos razonables implementados en programas
informáticos que permiten estimar el valor de b para
El modelo logístico de dos parámetros fue ori-
cada ítem y el valor de q para cada persona, así
ginalmente desarrollado por Birnbaum (1957,
como comprobar si el modelo se ajusta a los datos.
1958a, 1958b, 1968). Asume que la CCI viene dada
Para evitar confusiones, adviértase que la
por la función logística y contempla dos paráme-
fórmula dada para el modelo de Rasch puede ex-
tros de los ítems, el índice de dificultad b y el índice
presarse de formas ligeramente distintas si se hacen
de discriminación a. Su fórmula viene dada por
algunas operaciones. Así, no es infrecuente encon-
trarlo formulado del siguiente modo:
e Dai (θ – bi )
Pi (θ ) = [7.9]
1 1 + e Dai (θ – bi )
Pi (θ ) = [7.7]
1 + e – D(θ – bi ) donde, como en el modelo logístico de un parámetro:
que es, por supuesto, equivalente a la fórmula ante- Pi(q): Probabilidad de acertar el ítem i para un
rior y que viene de dividir su numerador y denomi- valor q.
© Ediciones Pirámide
198 / Introducción a la Psicometría
q: Valores de la variable medida. ítem dado. Véanse en la figura 7.8 dos ítems con
bi: Índice de dificultad del ítem i. distinta dificultad y distinto índice de discrimina-
ai: Índice de discriminación del ítem i. ción.
e: Base de los logaritmos neperianos (2,72). El ítem 2 es más difícil que el 1 (b2 > b1) y su
D: Constante. Cuando toma el valor 1,7, la índice de discriminación es mayor (a2 > a1). No
función logística se aproxima a la normal obstante, a pesar del menor índice de discrimina-
acumulada. ción del ítem 1, nótese que para valores de q en
torno a b1 la capacidad de discriminación del ítem
1 supera la del 2. Por tanto, la elección de un ítem
Ejemplo u otro basándose en su capacidad discriminativa
habrá de hacerse en función de la zona de q que se
El índice de discriminación de un ítem es 2, y su desea discriminar.
índice de dificultad, 1,5. ¿Qué probabilidad tienen
de acertar ese ítem las personas cuyo nivel de com-
petencia en la variable medida sea 2,5? 3.3. Modelo logístico de tres
Datos: a = 2; b = 1,5; q = 2,5; D = 1,7; parámetros
1
1,00
2
0,50 a1 a2
P(q)
0,00
–3,0 –2,0 b1 0,0 1,0 b2 2,0 3,0
q
Figura 7.8.—Curvas características de dos ítems con índices de dificultad y discriminación diferentes.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 199
El modelo puede expresarse así: Nótese que en los modelos de uno y dos paráme-
tros, cuando el valor de q = b, P(q) = 0,50, mientras
e Dai (θ – bi ) que aquí cuando q = b, P(q) = (1 + c)/2. Para los datos
Pi (θ ) = ci + (1 – ci ) [7.10] del ejemplo, cuando q = b = 0,5, P(q) = (1 + 0,25)/2 =
1 + e Dai (θ – bi )
= 0,625 (figura 7.9). Ciertamente, si c = 0, P(q) =
donde Pi(q), e, D, ai, q y bi tienen la misma signifi- = 1/2 = 0,5; con c = 0, el modelo de tres parámetros
cación que la ya citada para el caso de dos paráme- se convierte en un modelo de dos parámetros.
tros, y ci es el valor de Pi(q) cuando q = – ∞. El modelo logístico de tres parámetros es el más
general: si se hace c = 0, se obtiene el de dos pará-
metros, y si además a se asume constante para to-
Ejemplo dos los ítems, se obtiene el de un parámetro.
Algunos autores (Barton y Lord, 1981) han pro-
La probabilidad de acertar cierto ítem al azar es puesto, incluso, un modelo logístico de cuatro pará-
0,25, su índice de dificultad es 0,5 y su índice de metros para tratar de mitigar el problema real de que
discriminación es 1,25. ¿Cuál es la probabilidad de a veces por determinadas circunstancias, como el
acertar ese ítem para personas con q = 1? descuido o el uso de información que el constructor
del ítem no tuvo en cuenta, las personas de alta com-
2,72(1,7 )(1,25)(1 – 0,5) petencia fallan ítems impropiamente (Hambleton y
P(θ ) = 0,25 + (1 – 0,25) = Swaminathan, 1985). Hasta la fecha se han dedicado
1 + 2,72 (1,7 )(1,25)(1 – 0,5)
pocas investigaciones a este tipo de modelos, y no
= 0,805 parece que aporte ventajas significativas respecto al
de tres parámetros, máxime cuando los problemas
Este valor de P(q) = 0,805 sería menor si en las que trata de solucionar más bien hay que evitar que
mismas condiciones el valor de c fuese cero, en cuyo se produzcan. El modelo viene dado por:
caso P(q) = 0,74. Naturalmente, con la probabili-
dad de acertar el ítem al azar de 0,25 la probabili-
dad de respuestas correctas por parte de las perso- e Dai (θ – bi )
Pi (θ ) = ci + (Yi – ci ) [7.11]
nas aumenta. 1 + e Dai (θ – bi )
1,00
0,80
0,60
P(q)
0,40
0,20
c
0,00
–3,0 –2,0 –1,0 0,0 b 1,0 2,0 3,0
q
© Ediciones Pirámide
200 / Introducción a la Psicometría
e D(θ – bi )
Un parámetro: Pi (θ ) =
1 + e D(θ – bi )
e Dai (θ – bi )
Dos parámetros: Pi (θ ) =
1 + e Dai (θ – bi )
e Dai (θ – bi )
Tres parámetros: Pi (θ ) = ci + (1 – ci )
1 + e Dai (θ – bi )
e Dai (θ – bi )
Cuatro parámetros: Pi (θ ) = ci + (Yi – ci )
1 + e Dai (θ – bi )
donde Yi toma valores ligeramente inferiores a 1 y Lord para esta preferencia es que, aunque teórica-
el resto de los componentes son los ya descritos mente los personas con una elevada competencia no
para los otros modelos. deberían fallar ítems fáciles, por razones varias, de
hecho lo hacen, y como la función logística se apro-
3.4. Modelos de ojiva normal xima asintóticamente más lentamente que la nor-
mal, este tipo de anomalías tendrán menos inciden-
Los modelos de ojiva normal asumen que la cia sobre el modelo logístico que sobre el normal.
CCI viene dada por la función de la curva normal Aquí se expondrán las fórmulas de los modelos
acumulada. Preceden en su desarrollo a los modelos de ojiva normal con carácter ilustrativo y teórico,
logísticos (Lawley, 1943; Tucker, 1946; Lord, 1952), pero por las razones expuestas su utilización actual
pero, como ya se ha señalado, la mayor tratabilidad es escasa. Nótese que hasta su pionero y exponente
matemática de la función logística ha determinado máximo (Lord, 1952) se «convirtió» a la fe logística
su predominio. Como señala Lord (1980), no hay (Lord, 1968, 1980), parece que bajo las influencias
razones sustantivas sólidas para elegir a priori un de Birnbaum (Wright y Stone, 1979). En el cuadro
tipo de modelo u otro (logístico/normal), y a nivel adjunto aparecen formulados los modelos de ojiva
práctico los resultados son muy similares, por lo que normal de uno, dos, tres y cuatro parámetros, don-
la mayor manejabilidad matemática decide a incli- de q, a, b, c y e tienen la misma significación que la
narse por los logísticos. Otra razón apuntada por ya vista en los modelos logísticos.
θ – bi
#
2
Un parámetro: Pi (θ ) = (1/ 2π )e (– Z /2 )
dz
–∞
ai ( θ – bi )
#
2
Dos parámetros: Pi (θ ) = (1/ 2π )e (– Z /2 )
dz
–∞
ai ( θ – bi )
#
2
Tres parámetros: Pi (θ ) = ci + (1 – ci ) (1/ 2π )e (– Z /2 )
dz
–∞
ai ( θ – bi )
#
2
Cuatro parámetros: Pi (θ ) = ci + (Yi – ci ) (1/ 2π )e (– Z /2 )
dz
–∞
© Ediciones Pirámide
Teoría de respuesta a los ítems / 201
3.5. Orígenes y desarrollo de la TRI test acudiesen a los métodos psicofísicos clásicos, en
concreto al de los estímulos constantes, pues tenían
A continuación se ofrece una breve panorámica el mismo problema que estos para determinar el um-
histórica del nacimiento y evolución de los modelos bral absoluto, aquel valor en el eje de abscisas detec-
de TRI; para una revisión más amplia puede con- tado el 50 % de las veces, para lo cual se estaba uti-
sultarse el trabajo de Muñiz y Hambleton (1992), lizando la función psicométrica bajo la hipótesis
en el cual se basan las líneas que siguen, o el más phi-gamma (Blanco, 1996; Muñiz, 1991), concep-
reciente de Faulkner y Wells (2016). Los trabajos tualmente equivalente al parámetro b (dificultad), o
pioneros, que ahora retrospectivamente pueden ver- valor de q cuando P(q) = 0,50, supuesto que no hay
se como el germen de lo que posteriormente ha aciertos al azar.
dado en llamarse TRI, se deben una vez más al ge- Lawley (1943, 1944) lleva a cabo una aproxima-
nio de Thurstone (Thurstone, 1925, 1928a, 1928b; ción más sistemática para modelos muy restrictivos,
Thurstone y Ackerson, 1929). En especial, el traba- y Tucker (1946) también utiliza la curva normal
jo de 1925 podría considerarse un claro anteceden- como rudimento de curva característica. Suele atri-
te de las curvas características de los ítems, cuando buirse a Lazarsfeld (1950) la paternidad del término
Thurstone presenta una serie de curvas conectando «rasgo latente», que será el nombre que tomarán en
la edad de las personas con la proporción de acier- principio los modelos, aunque posteriormente se
tos de cada ítem, tomados del test de inteligencia de haya generalizado el de TRI, pues refleja mejor su
Binet. Tucker (1987), en su revisión de los métodos funcionamiento real, basado en los ítems, permi-
clásicos de análisis de ítems, señala también este tiendo además distinguirlos de otras modelizacio-
trabajo como uno de los pioneros, y se atribuye de nes que también utilizan el término «latente», tales
paso haber acuñado por primera vez hacia 1945 el como el análisis factorial, ecuaciones estructurales
término «curva característica del ítem», acuñación o análisis multidimensional (Hambleton y Swarni-
que reconoce Lord (1952). nathan, 1985). En su revisión de la TRI, Goldstein
Al lado de estos primeros atisbos, hay que citar y Wood (1989) proponen que el término «teoría» se
a Binet y Simon (1905a, 1905b, 1908), cuyos gráficos cambie por modelos, ya que más que teorías psico-
de la evolución de los niños según la edad pueden lógicas explicativas lo que se hace es modelizar las
considerarse una primera aproximación a curvas ca- respuestas a los ítems, pero a estas alturas el térmi-
racterísticas rudimentarias. Asimismo, el trabajo de no TRI aparece consolidado.
Richardson (1936) es seguramente el primer intento Si bien estos pueden ser considerados los oríge-
de ajustar la ojiva normal a las respuestas a los nes remotos, el nacimiento formal podría ubicarse
ítems. Sus consejos acerca de la necesidad de contro- en los trabajos de Lord (1952, 1953a, 1953b), que
lar la dificultad de los ítems, en función de los obje- representan la semilla de la que saldrán los frutos
tivos perseguidos por el test, representan una formu- de la TRI actual. El trabajo de Lord (1952) es el
lación verbal anticipada de lo que luego habría de resultado de su tesis doctoral, dirigida por Gullik-
permitir realizar la función de información en el sen y asesorado por Tucker, la flor y nata psicomé-
marco de la TRI. Ferguson (1942) también se acer- trica de la época. Representa junto con sus propios
ca, vía los métodos psicofísicos, al planteamiento de trabajos de 1953 (Lord, 1953a, 1953b) la formula-
las curvas características de los ítems. El paralelismo ción más sistemática de los principales conceptos de
de tratar las proporciones de aciertos en los ítems la TRI, a partir de los cuales surgirán los desarro-
frente a los valores globales en el test, en los mismos llos posteriores. Si hubiera que ubicar puntualmen-
términos en que lo venían haciendo los métodos psi- te en algún momento los orígenes genuinos de la
cofísicos para la determinación de los umbrales, será TRI, lo haríamos en estos trabajos de Lord, espe-
una característica común en estos comienzos. El pro- cialmente en el de 1952. Este enfoque marcará un
pio Ferguson (1942) señala explícitamente que en los rumbo diferente en las investigaciones psicométri-
últimos años se da una tendencia creciente entre los cas, si bien, como el propio Lord indica, las conclu-
psicómetras a acercar sus métodos a los de la psico- siones obtenidas bajo la nueva óptica no contradi-
física. Nada más natural que, a la hora de determi- cen en general los grandes logros de la teoría clásica
nar los parámetros de los ítems, los teóricos de los de los test, sino que más bien los complementan.
© Ediciones Pirámide
202 / Introducción a la Psicometría
Nace un nuevo enfoque, pero por entonces aún fal- Lord, 1982), BILOG (Mislevy y Bock, 1984),
tan 30 años para que los modelos de TRI dominen MULTILOG (Thissen, 1986), MICROCAT (As-
el escenario psicométrico. Birnbaum (1957, 1958a, sessment Systems Corporation, 1988), NOHARM
1958b) da otro gran empujón al campo, sustituyen- (Fraser y McDonald, 1988), ANCILLES y OGIVA
do los modelos de ojiva normal de Lord por los (Urry, 1977), fundamentales para poder aplicar los
logísticos, más tratables matemáticamente, generan- modelos, transcurre una década de rápido creci-
do los desarrollos matemáticos necesarios para su miento de la literatura y los avances en TRI, empe-
posible y futuro uso aplicado. En 1960 el danés zando a vislumbrarse con claridad las posibilida-
George Rasch publica un famoso libro en el que des reales de la aplicación práctica de los modelos.
expone con detalle el modelo logístico de un pará- Especial mención por su militancia en pro de la
metro, utilizando material de test de aptitudes. TRI merecen el profesor Benjamin Wright y su
Rasch es consciente de que su trabajo supone un grupo de Chicago; su conferencia invitada de 1967
cambio radical en el enfoque psicométrico, y en la (Wright, 1968) en un congreso organizado por el
introducción expone con claridad cómo su modelo Educational Testing Service (ETS) en Nueva York,
viene a resolver los problemas de invarianza previa- sobre los problemas de los test, suele tenerse por
mente mencionados. muy influyente, estimulando a los constructores de
Nótese que para estas fechas nada de lo dicho test a utilizar la nueva tecnología de la TRI enton-
y hecho se traduce en una aplicabilidad directa y ces emergente. Samejima (1969) extiende los mode-
generalizada de los modelos por parte de los posi- los para ítems de respuesta no dicotómica, Bock
bles usuarios, nos movemos a nivel teórico matemá- (1972) y Lord (1974) proponen nuevos métodos de
tico. El impulso más potente llegará con la publica- estimación de los parámetros, para lo cual Lord
ción en 1968 del libro de Lord y Novick en el que utiliza el programa LOGIST.
se dedican cinco capítulos al tema, cuatro de ellos El desarrollo teórico es rápido, pero será la dé-
escritos por Birnbaum. Llegados ahí, 1968, puede cada de los ochenta-noventa la que supondrá la ver-
decirse que el grueso del corpus general está escrito, dadera expansión y afianzamiento de la TRI y su
y los primeros modelos formulados, pero su im- masivo predominio en psicometría. El punto de in-
plantación y progreso serán lentos y laboriosos de- flexión puede ubicarse en otro libro, cómo no, de
bido a la complejidad matemática de los modelos, Frederic Lord publicado en 1980 y sintomáticamen-
a la ausencia de programas informáticos disponi- te titulado Aplicaciones de la Teoría de Respuesta a
bles para analizar los datos según los nuevos mode- los Ítems a problemas prácticos del uso de los test,
los y al escepticismo general acerca de las ventajas pues, efectivamente, las aplicaciones habían llegado.
de esta nueva línea de investigación (Hambleton y En este excelente libro, hito bibliográfico de la TRI,
Swaminathan, 1985). En su trabajo de 1969 Wright Lord recoge tanto los desarrollos teóricos como las
y Panchapakesan desarrollan la estimación de los aplicaciones de los modelos de TRI disponibles
parámetros para el modelo de Rasch, introduciendo hasta entonces. A partir de esas fechas, los trabajos
el programa BICAL. Bock y Wood (1971) incluyen sobre distintos aspectos monográficos de la TRI se
por primera vez en las revisiones para el Annual multiplican y las revistas del área y los congresos así
Review un apartado dedicado a la entonces deno- lo reflejan; finalmente, el enfoque de la TRI es do-
minada «teoría del rasgo latente», donde exponen minante en el ámbito psicométrico, y un nuevo pa-
con claridad las ventajas de los nuevos modelos y radigma psicométrico pasa a dominar la escena. En
la literatura sobre el tema por entonces, haciendo 1982 la revista Applied Psychological Measurement
especial hincapié en el libro de Lord y Novick dedica un número monográfico a la TRI, y aparece
(1968) y en el de Rasch (1960), como no podía ser toda una serie de trabajos que cubren los distintos
de otro modo. aspectos que se han ido desarrollando durante los
Entre la publicación del libro de Lord y Novick años anteriores, entre los que cabe citar los de Hu-
(1968) y la disponibilidad de los principales pro- lin, Drasgow y Parsons (1983), Hambleton y Swa-
gramas informáticos, BICAL (Wright y Mead, minathan (1985), Baker (1985), Andrich (1988),
1976; Wright, Mead y Bell, 1979), LOGIST (Wood, Linn (1989), Hambleton et al. (1991), Van der Lin-
Wingersky y Lord, 1976; Wingersky, Barton y den y Hambleton (1997), Bock (1997), Ayala (2009),
© Ediciones Pirámide
Teoría de respuesta a los ítems / 203
Wells y Faulkner-Bond (2016), entre otros muchos. A continuación se presenta una cronología con
Para una bibliografía exhaustiva clasificada sobre la algunos de los hitos más destacados en el desarrollo
TRI, véase Hambleton (1990). de la TRI.
© Ediciones Pirámide
204 / Introducción a la Psicometría
Asunciones. Débiles (fáciles de cumplir por los datos). Fuertes (difíciles de cumplir por los datos).
Escala de las puntua- Entre cero y la puntuación máxima en el test Entre – ∞ y +∞ (o alguna transformación de
ciones. (o alguna transformación de estas). estas).
Errores de medida. Error típico de medida (común para toda la Función de información (varía según el nivel
muestra). en la variable medida).
Tamaño muestral. Puede funcionar bien con muestras entre 200 Se recomiendan más de 500 personas, aun-
y 500 personas, aproximadamente. que depende del modelo.
A continuación se comenta brevemente cada datos cumplan supuestos muy específicos. Nótese
uno de los aspectos diferenciales mencionados en el que el modelo lineal clásico original, denominado
cuadro. «modelo clásico débil», no hace ninguna asunción
sobre las distribuciones de las puntuaciones ni de
Modelo los errores; cuando se exige que los errores se distri-
buyan según la curva normal, suele hablarse de mo-
En la teoría clásica el modelo utilizado es lineal, delo clásico fuerte, pero, así y todo, las asunciones
la puntuación empírica es igual a la verdadera más son suaves comparadas con las de la TRI. Estas
el error (X = V + e), mientras que en la TRI la fun- exigencias mínimas del modelo clásico constituyen
ción que relaciona las puntuaciones empíricas con a la vez su fuerza y su debilidad; por un lado, per-
las verdaderas es curvilínea, viene dada por el tipo miten su uso en un abanico muy amplio de situa-
de curva adoptada por el modelo, habitualmente ciones empíricas, lo cual está muy bien, pero, por
logística, aunque otras muchas son posibles. contra, las predicciones resultan más genéricas.
Ante la eterna disyuntiva entre generalidad y preci-
Asunciones sión, a la que toda metodología científica se enfren-
ta, la teoría clásica da más peso a la generalidad y
Las asunciones del modelo clásico son débiles la TRI a la precisión. Ambos enfoques están con-
en el sentido de que son generales y es fácil que la denados a entenderse en provecho de los usuarios.
mayoría de los datos empíricos las cumplan; su
fuerza está en su generalidad, pues son aplicables a Invarianza de las mediciones
situaciones muy variadas. Por el contrario, las asun-
ciones de la TRI son más fuertes, más restrictivas, El punto fuerte de la TRI frente al modelo clá-
se sacrifica la generalidad para ganar precisión pre- sico está en que permite mediciones invariantes res-
dictiva. El precio a pagar es la exigencia de que los pecto del instrumento utilizado, propiedad clave en
© Ediciones Pirámide
Teoría de respuesta a los ítems / 205
toda medición. La teoría clásica sobrellevó este dé- Escala de las puntuaciones
ficit en la práctica de forma digna, elaborando toda
una tecnología para equiparar las puntuaciones ob- Como es bien sabido, en la teoría clásica la es-
tenidas con distintos instrumentos. Una buena ex- cala empírica de las puntuaciones va desde la pun-
posición de la tecnología utilizada puede consultar- tuación mínima obtenible en el test, habitualmente
se en Navas (1996). La invarianza de las mediciones cero, hasta la máxima puntuación posible. No obs-
en la TRI se deriva de los modelos utilizados, pero tante, para facilitar la interpretabilidad de las pun-
ello no exime de su comprobación empírica, para lo tuaciones, esta escala suele transformarse en otra
cual se pueden utilizar distintas estrategias, como se más comprensible, o más conveniente por las razo-
verá más adelante. nes que sean, por ejemplo, percentiles, puntuaciones
típicas, decatipos, cocientes intelectuales, eneatipos,
etc. En la TRI también se hacen estas transforma-
Invarianza de las propiedades del test ciones de conveniencia, pero la diferencia clave es
que las puntuaciones estimadas a las personas (q)
Propiedades tan importantes de un test como van de menos infinito a más infinito, y en esa escala
el índice de dificultad de los ítems, o su índice de aparecen todas las mediciones, se use el test que se
discriminación, en la teoría clásica dependen de la use; de ahí la mentada invarianza. Esto es muy con-
muestra de personas utilizadas para estimarlas. traintuitivo para las personas no familiarizadas con
Por ejemplo, si las personas tienen un nivel bajo la TRI, pues es difícil de entender que si se aplica
en la variable medida, la dificultad de los ítems un test de, pongamos, 40 ítems, las puntuaciones
resultará elevada; por el contrario, si el nivel de la obtenidas por las personas estén entre – ∞ y +∞. En
muestra es alto, la dificultad de esos mismos ítems la práctica esto no supone mayor problema, puesto
será baja. Es decir, un mismo ítem tendría distinto que las puntuaciones a los usuarios y clientes se
índice de dificultad en función de la muestra utili- ofrecen transformadas en escalas fáciles de com-
zada para calcularlo. Los usuarios de la teoría clá- prender.
sica disponen de una solución práctica a este pro- La función que une las puntuaciones q con las
blema, consistente en estimar las propiedades del puntuaciones en la escala del test se denomina «cur-
test en muestras de personas extraídas de la pobla- va característica del test».
ción con la que se va a usar, y no extender sus
propiedades más allá de esa población. En el caso Énfasis
del índice de dificultad, no se hablará del índice en
general, sino del índice para determinada pobla- El propio nombre de teoría de respuesta a los
ción. Este acercamiento es perfectamente legítimo ítems ya alude a que, bajo la óptica de la TRI, la
y correcto en la práctica, pero poco satisfactorio unidad de análisis básica es el ítem y no el test,
desde el punto de vista teórico, pues implica asu- como ocurría en la teoría clásica. El test pasa a ser
mir tantos valores para las propiedades del instru- un agregado de ítems y sus propiedades dependen
mento como posibles poblaciones de personas con de las de estos. Puesto que cualquier agregado de
las que se utiliza. ítems (test) que se elija proporciona una medición
Como ocurría con las mediciones, la invarianza en la misma escala común, cuál de los posibles test
de las propiedades de los instrumentos se deriva de se utilice de los muchos que se pueden escoger a
los modelos de TRI, pero ha de comprobarse empí- partir de un banco de ítems deja de ser esencial,
ricamente. Un error muy común es pensar que estas pues los resultados son igualmente comparables.
invarianzas se dan por arte de magia, nada más le- Esto no era así en la teoría clásica, en la cual, para
jano de la realidad empírica; como ocurre con cual- poder comparar las mediciones de dos personas,
quier otro procedimiento de estimación estadística, había que aplicarles el mismo test o dos formas pa-
cuanto mayores sean la amplitud y variabilidad de ralelas. Por ejemplo, en el caso de los test adaptati-
las muestras utilizadas, mayores serán la precisión vos informatizados, a cada persona se le aplica un
con la que se estiman los parámetros de la TRI y, test distinto, dependiendo de su competencia en la
por ende, su invarianza. variable medida, lo cual sería inconcebible desde el
© Ediciones Pirámide
206 / Introducción a la Psicometría
punto de vista clásico, en el cual al cambiar el test de ser capaz de ofrecer errores de medida en fun-
cambiaría la escala, obligando a un tedioso proceso ción del nivel de las personas en la variable medida,
de equiparación de las puntuaciones obtenidas con valiéndose de la función de información. Ello no
distintos test para la misma variable. deja de ser cierto, pues lo habitual en la teoría clá-
sica es ofrecer un error único y común, el error tí-
Relación ítem-test pico de medida para todas las personas de la mues-
tra, sin tener en cuenta su nivel en la variable
En la teoría clásica, aunque sepamos la puntua- medida. Pero también es verdad que ya Thorndike
ción de una persona en un test, no por ello conoce- (1951) propuso el cálculo del error típico de medida
mos la probabilidad que tiene de acertar determina- para distintos niveles de competencia. Esta línea ha
do ítem del test; el modelo no establece una conexión seguido progresando, impulsada sobre todo por el
formal entre la puntuación en el test y la probabili- grupo de la Universidad de Iowa, y en la actualidad
dad de superar los ítems. Por el contrario, en la TRI, se dispone de todo un conjunto de métodos refina-
una vez definida la curva característica del ítem, si dos para estimar el error típico de medida a distin-
conocemos la puntuación de una persona es inme- tos niveles de la variable medida (Feldt et al., 1985;
diato el cálculo de la probabilidad que tiene de su- Feldt y Qualls, 1996; Lord, 1984; Qualls, 1992).
perar el ítem, es decir, la CCI conecta las puntuacio- Justo es reconocer que el enfoque clásico también
nes de las personas con las probabilidades de superar sabía cómo tratar con los errores para distintos ni-
el ítem. Sin duda esta propiedad es una clara venta- veles de la variable medida, pero la elegancia con-
ja de la TRI sobre el enfoque clásico, que tendrá ceptual y formal de la función de información de la
consecuencias muy deseables para la construcción, TRI supera con creces en este punto al enfoque clá-
análisis y uso de los test. sico.
EJERCICIOS
© Ediciones Pirámide
Teoría de respuesta a los ítems / 207
SOLUCIONES
1.1. TC 3. 4
2. TC 4. 4
3. TRI 6. 0,94, 0,85, 0,79, 0,99
4. TC 7. 0,62
5. TC 8. 1, 2
6. TRI 9. 4; 0,37
2.1. 3-p 10. 0,06
2. 3
4. APLICACIÓN DE LOS MODELOS nos haga aceptar o rechazar el modelo. Se expone a
continuación la lógica de cada uno de estas fases de
Para utilizar en la práctica los modelos unidi- la aplicación de los modelos.
mensionales descritos hay que empezar por compro-
bar que los ítems constituyen una sola dimensión,
tal como exigen los modelos. Una vez comprobado, 4.1. Comprobación de la unidimensionalidad
hay que elegir el modelo a utilizar, luego estimar el
valor de parámetros y finalmente comprobar que el Como ya se ha señalado anteriormente, para
modelo estimado se ajusta a los datos empíricos, que se puedan aplicar los modelos básicos de la
pues a la postre serán estos el criterio último que TRI los ítems del test deben ser unidimensionales;
© Ediciones Pirámide
208 / Introducción a la Psicometría
por tanto, antes de utilizar uno de estos modelos estamos dispuestos a sacrificar para pasar de n
hay que comprobar la unidimensionalidad. Para ítems a un solo factor o dimensión? Para tomar esa
comprobar que un conjunto de ítems constituye decisión hay que apoyarse en dos pilares: por un
una sola dimensión existen de antiguo diversas al- lado, en la teoría sustantiva que guía nuestro traba-
ternativas, habiéndose propuesto numerosos índices jo, y por otro, en criterios estadísticos rigurosos. Es
al respecto. Hattie (1985), en un buen análisis y cla- la combinación prudente de estos dos criterios la
sificación de ellos, da cuenta de ochenta y siete dis- que debe guiarnos, ninguno de los dos por sí solo
tintos. Estudios comparativos pueden verse en es suficiente. Los trabajos de Ferrando y Anguiano
Hambleton y Rovinelli (1986), Hattie (1984) o (2010), Izquierdo, Olea y Abad (2014), Lloret-Segu-
Zwick y Velicer (1986), y un buen tratamiento pue- ra, Ferreres-Traver, Hernández-Baeza y Tomás-
de consultarse en Wells, Rios y Faulkner-Bond Marco (2014) nos dan indicaciones muy pertinentes
(2016), Swaminathan, Hambleton y Rogers (2007), para determinar el número de factores, y por ende
Tate (2003), Svetina y Levy (2014), y en castellano para evaluar la unidimensionalidad de los ítems.
Cuesta (1996). En cuanto al software, el programa FACTOR es
Veamos algunas posibilidades de comprobar la altamente recomendable por su flexibilidad, facili-
unidimensionalidad, empezando por el método más dad de uso y acceso libre (Ferrando y Lorenzo-Seva,
clásico: el análisis factorial exploratorio (AFE). Es 2017). Por su parte, Deng y Hambleton (2007) revi-
uno de los métodos tradicionalmente más utilizado, san nada menos que veinte programas informáticos
y si bien hoy existen métodos más eficaces, conviene para evaluar la dimensionalidad de unos datos, cada
conocer la lógica que subyace a este método que ha uno de ellos con sus pros y sus contras, de modo que
teñido la historia de la psicología. Dado que empí- hay donde elegir. Un aspecto relativamente tranqui-
ricamente raras veces, si alguna, se encuentra una lizador a la hora de utilizar modelos de TRI con
unidimensionalidad perfecta, esto es, que un solo datos no estrictamente unidimensionales es que los
factor dé cuenta de un 100 por 100 de la varianza estudios de simulación indican que los modelos son
de los ítems, la unidimensionalidad se convierte en robustos a violaciones moderadas de la unidimen-
una cuestión de grado, es decir, siempre habrá más sionalidad (Ansley y Forsyth, 1985; Cuesta, 1996;
o menos unidimensionalidad, por lo que el proble- Drasgow y Parsons, 1983; Greaud, 1988; Harrison,
ma será dónde establecer el punto de corte para 1986; Muñiz y Cuesta, 1993; Reckase, 1979; Yen,
asegurar que un conjunto de datos son unidimen- 1984). En general, como es lógico, el deterioro del
sionales. Lumsden (1961), por ejemplo, propone funcionamiento de los modelos se acrecienta a me-
como índice de unidimensionalidad el cociente en- dida que se va deteriorando la unidimensionalidad.
tre la varianza explicada por el primer factor y la Una advertencia final: si se utiliza el AFE lineal con
explicada por el segundo, pero como bien señala datos categóricos, lo cual es muy habitual en la his-
Lord (1980), se necesitan procedimientos estadísti- toria de la psicología y otras ciencias, hay que ser
cos más rigurosos. Un criterio práctico para decidir muy prudentes a la hora de interpretar los resulta-
sobre la unidimensionalidad podría ser el sugerido dos, debido a los llamados «factores de dificultad»
por el propio Lord (1980) de extraer las raíces la- que se generan. En esas circunstancias, mejor usar
tentes de la matriz de correlaciones tetracóricas en- otras alternativas. Siguiendo las sabias palabras de
tre los ítems, con las comunalidades en la diagonal, Box y Draper (1987), bien podría decirse aquí que
y, si la primera raíz latente es «notablemente» supe- en esencia todos los modelos son erróneos, pero que
rior a la segunda y esta no difiere «mucho» del res- algunos resultan útiles.
to, los ítems pueden considerarse aproximadamente El análisis factorial confirmatorio (AFC) es una
unidimensionales. Por su parte, la varianza explica- opción más aconsejable que el AFE a la hora de
da por el primer factor es un indicador clásico y evaluar la unidimensionalidad de unos datos
muy intuitivo de la unidimensionalidad, pues mues- (Brown, 2006; Kline, 2015). Tiene ventajas sobre el
tra en qué grado la reducción de datos obtenida (se AFE, entre otras, que permite establecer especifica-
pasa de n ítems a un factor) aún explica una parte ciones a priori, sobre la estructura dimensional de
importante de la varianza original explicada por los los datos, basándose en las teorías sustantivas que
n ítems. La pregunta de fondo es ¿cuánta varianza se manejen y en los resultados previos. Si se somete
© Ediciones Pirámide
Teoría de respuesta a los ítems / 209
a prueba la unidimensionalidad de unos ítems me- dores y los profesionales deben apoyarse en una ins-
diante AFC, existen distintos indicadores para trumentación metodológica rigurosa y hacer acopio
comprobar el ajuste obtenido (Ferrando y Anguia- del mayor número posible de evidencias empíricas,
no, 2010; Hu y Bentler, 1999) y tomar la decisión al pero al final las decisiones no se delegan en las téc-
respecto. Nótese que como bien señalan Ferrando nicas utilizadas, hay que tomarlas y correr riesgos,
y Anguiano (2010), el AFE y el AFC no son cate- confiando en que al final la ciencia convergerá hacia
gorías conceptuales distintas, más bien constituyen la verdad a base de iteraciones sucesivas llevadas a
los dos polos de un continuo exploratorio-confir- cabo por investigadores independientes.
matorio, con muchas opciones intermedias, una si-
tuación análoga al continuo unidimensionalidad-
multidimensionalidad. En realidad, permítasenos la 4.2. Elección del modelo
licencia, todas las dicotomías, o casi todas, son me-
ras simplificaciones de un mundo en el que reinan Supuesto que los ítems conforman un test unidi-
el continuo y la probabilidad. mensional, el siguiente problema es qué modelo de
Otra posibilidad para evaluar la unidimensiona- TRI es más razonable utilizar. En primer lugar, seña-
lidad es utilizar el modelo bifactorial (MB), en el lar que cualquier elección a priori es lícita para el
cual cada indicador, los ítems en el caso de un test, investigador, y que será el ajuste del modelo a los
satura en un factor general y en uno, y solo uno, datos el que decida lo correcto o incorrecto de la
específico (Chen, Hayes, Carver, Laurenceau y elección. No obstante, ciertas características de los
Zhang, 2012; Jennrich y Bentler, 2011; Reise, 2012; ítems pueden proporcionar algunas claves que mejo-
Wells y Faulkner-Bond, 2016). Incluso cabe una ren la mera elección al azar o capricho. Por ejemplo,
aproximación no paramétrica, como el procedi- es poco razonable intentar ajustar el modelo de un
miento DIMTEST (Hattie, Krakowski, Rogers y parámetro (Rasch) si se sospechan índices de dis
Swaminathan, 1996; Stout, 1987; Van Abswoude, criminación no iguales, lo cual puede evaluarse ten-
Van der Ark y Sijtsma, 2004), o el método DE- tativamente escrutando dichos índices en la teoría
TECT (Gierl, Leighton y Tan, 2006; Stout el al., clásica, o si la probabilidad de acertarlos al azar es
1996; Svetina, 2013; Zhang y Stout, 1999). considerable. En ambos casos es desaconsejable a
Al lado de estos indicadores se han propuesto priori un modelo de un parámetro, que, como se ha
otros muchos complementarios para evaluar la in- visto, asume un índice de discriminación constante
dependencia local, que como se ha señalado viene para todos los ítems (a = K ) y la inexistencia de
implícita si demostramos previamente la unidimen- aciertos al azar (c = 0). Asimismo, si c ≠ 0, el modelo
sionalidad. Los interesados pueden acudir al clásico de dos parámetros es igualmente poco plausible a
de Yen (1984), o a los trabajos de Chen y Thissen priori. Nótese que cuando los ítems son de elección
(1997), Ip (2001), Levy, Mislevy y Sinharay (2009) múltiple, siempre existe cierta probabilidad de acier-
o Liu y Maydeu (2013). tos al azar. Por ejemplo, en el caso de cuatro alterna-
En suma, existen muchas opciones y el software tivas con solo una correcta, la probabilidad de acier-
correspondiente para evaluar en qué medida los to al azar, aun sin saber nada, es de 1/4 = 0,25, que,
ítems de un test constituyen una sola dimensión y aunque no es estrictamente equivalente al parámetro
por tanto son susceptibles de ser analizados me- c, no deja de ser una buena aproximación. Teórica-
diante un modelo de TRI que asuma la unidimen- mente, el modelo de tres parámetros debería ser pre-
sionalidad. Dado que en la práctica nunca vamos a ferible a los de uno y dos, ya que constituyen casos
encontrar una unidimensionalidad pura, es impor- particulares de aquel, pero, por contra, el de un pa-
tante combinar los métodos estadísticos utilizados rámetro es de cálculo e interpretación sencillos, por
con los criterios y conocimientos derivados del lo que en la práctica es el preferido de los usuarios.
campo sustantivo en el que se trabaja. Los conoci- Incluso es atractivo desde el punto de vista teórico
mientos teóricos y los métodos estadísticos deben ir por su parsimonia, al postular que la respuesta de
de la mano a la hora de la toma de decisiones, tan- una persona a un ítem solo depende de la competen-
to en lo relativo a la unidimensionalidad que nos cia de esa persona en la variable medida por el ítem
ocupa ahora como en otros aspectos. Los investiga- (q) y de la dificultad del ítem (b). Además, la estima-
© Ediciones Pirámide
210 / Introducción a la Psicometría
ción del parámetro c en el modelo de tres parámetros El proceso de iteraciones se detiene cuando los valo-
no está lo bien resuelta que sería de desear. En todo res estimados de los parámetros convergen, esto es,
caso, no olvidar que los jueces han de ser los datos, cuando tras una iteración n no se producen cambios
eligiéndose aquel modelo que mejor dé cuenta de significativos en los valores estimados. En la actuali-
ellos, preferencias aparte, y, eso sí, en caso de ajustes dad se dispone de distintos programas informáticos
similares escójase el más sencillo, como mandan los para la estimación de los parámetros (véase el cuadro
cánones de la parsimonia científica y el sentido co- adjunto, en el que se presentan algunos de ellos). La
mún. Elegido el modelo, a continuación han de esti- mayoría de los programas ofrecen como salida fun-
marse los parámetros de los ítems y la competencia de damental los valores estimados de los parámetros de
cada persona en la variable medida (q). Finalmente, cada ítem y el valor de q de cada persona, aparte de
habrá que comprobar que el modelo con los paráme- otros datos importantes como el funcionamiento di-
tros así estimados se ajusta a los datos empíricos ge- ferencial de los ítems, la función de información o la
nerados por las personas al responder a los ítems. curva característica del test, entre otros.
Una forma típica de comprobar lo adecuado de
estos programas para estimar los parámetros es me-
4.3. Estimación de los parámetros diante simulación por ordenador. Para ello se gene-
ran (simulan) las respuestas de las personas a los
Seleccionado uno de los modelos, el paso si- ítems a partir de parámetros conocidos y luego se
guiente será estimar los parámetros de cada ítem y les aplica el programa correspondiente, comprobán-
el valor de la variable medida (q) para cada persona dose en qué grado dicho programa recupera (esti-
a partir de los datos obtenidos al aplicar los ítems ma) los parámetros previamente conocidos a partir
a una muestra amplia de personas. Por tanto, la de los cuales se generaron los datos. Nótese que, me-
aplicación de los ítems a una muestra representativa diante esta lógica, lo único que se confirma o falsea
precede a la estimación. Con los datos obtenidos, es el método de estimación de los parámetros imple-
esto es, con las respuestas empíricas de las personas mentado en el programa de ordenador, paso previo
a los ítems, se lleva a cabo la estimación, cuya lógi- a los estudios de validación empírica de los modelos.
ca general consiste en elegir como valores para los Exposiciones detalladas sobre la estimación de
parámetros aquellos que maximicen la probabilidad los parámetros pueden consultarse en Baker (1987),
de que ocurran los datos que de hecho se han dado Birnbaum (1968), Lord (1980) o Swaminathan (1983),
en las respuestas de las personas. Para hacerse una siendo especialmente recomendable la de Hambleton
idea elemental y aproximativa de la lógica, imagíne- y Swaminathan (1985) por su claridad y utilización
se que se dispone de una moneda lastrada de la que de ejemplos numéricos sencillos que ayudan a la com-
se desconoce la probabilidad de obtener cara y cruz prensión. Aquí, basándonos en los trabajos de los
(no conocemos esos dos parámetros). Llevamos a autores citados, nos limitaremos a dar una idea intro-
cabo el experimento de recogida de datos tirándola ductoria que permita al lector captar la lógica del
al aire 1.000 veces, obteniendo 700 caras y 300 cru- proceso y acudir seguidamente a las fuentes cita-
ces. Pues bien, el valor de la probabilidad de obte- das para un mayor detalle y profundización. Hamble-
ner cara que hace más verosímil lo ocurrido es ton et al. (1991) y Zhao y Hambleton (2009) ofrecen
700/1.000 = 0,70; por tanto, estimamos que el valor una excelente clasificación de los programas de orde-
(desconocido) de obtener cara con esa moneda es nador disponibles, analizando sus objetivos, caracte-
0,70, según los datos. Este método de estimación se rísticas, pros y contras; para software no comercial,
denomina «máxima verosimilitud», en referencia véase Deng (2009). Una buena presentación del soft-
precisamente a que los valores estimados son aque- ware R de libre acceso para psicometría puede verse
llos que hacen más verosímiles, más plausibles, los en el monográfico de la revista Journal of Statistical
datos obtenidos. No obstante, otros métodos son Software (Leew y Mair, 2007), y en español el trabajo
posibles (Lord, 1986; Swaminathan, 1983). de Elosua (2009) constituye una buena introducción
La estimación se va haciendo por aproximaciones a R.
sucesivas (iteraciones) y su cálculo es muy laborioso, En el cuadro adjunto se reseñan algunos de los
por lo que es necesaria la ayuda de los ordenadores. programas más relevantes junto con sus autores.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 211
Estimación condicional y estimación conjunta Véase ilustrado en la figura 7.10 para una CCI.
La probabilidad de acertar este ítem para las
Como ya se ha señalado, los valores estimados personas con q = 2 es 0,88, esto es:
para los parámetros por el método de máxima ve-
rosimilitud serán aquellos que maximicen la proba-
P(Ui = 1 θ = 2) = 0,88
bilidad de ocurrencia de los datos obtenidos al apli-
car los ítems a las personas. Si se dispusiera de una
función matemática que «representase» dichas res- y la de fallarlo:
puestas, el problema se reduciría a hallar los máxi-
mos de la función y adoptar como valores de los
P(Ui = 0 θ = 2) = 1 – 0,88 = 0,12
parámetros aquellos que correspondiesen a los pun-
tos donde la función tuviese los máximos, esto es,
aquellos que maximizan la función. Veamos cómo Nótese que esa es la probabilidad; otra cuestión
se procede para generar esta función. es cuál será de hecho la respuesta de cada persona
Supóngase un ítem con una determinada CCI, la al ítem para ese nivel de q: unos lo acertarán y otros
cual proporciona la probabilidad que las personas lo fallarán; a pesar de la baja probabilidad de que
con determinado valor en q tienen de acertar el ítem. esto ocurra, a la larga se espera que lo acierten el
La variable Ui, «respuesta a un ítem», solo tiene dos 88 % y lo fallen el 12 %.
valores: o se acierta, en cuyo caso ui = 1, o se falla, Ahora bien, la respuesta a un ítem para un de-
ui = 0. Precisamente, la CCI informa de la probabili- terminado nivel de q es una prueba de Bernoulli;
dad de acierto y de fallo para un valor dado de q: por tanto:
P(Ui = 1 θ ) = P(θ ) y P(Ui = 0 θ ) = Q(θ ) = 1 – P(θ ) P(Ui θ ) = P(Ui = 1 θ )Ui P(Ui = 0 θ )(1 –Ui )
© Ediciones Pirámide
212 / Introducción a la Psicometría
1,00
0,80
0,60
P(q)
0,40
0,20
0,00
–3 –2 –1 0 1 2 3 4 5 6
q
Figura 7.10.—Curva característica de un ítem que ilustra la probabilidad de acertar y fallar el ítem para los distintos valores
de q, y en especial para q = 2.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 213
valores de la función de verosimilitud L(u | q) para difiere significativamente del obtenido en la itera-
los distintos valores de q, sustituyéndolos sucesiva- ción K – 1.
mente. Se tomará como estimación de la q de la Para N personas y n ítems, la función de vero-
persona aquel valor de q para el cual L(u | q) tenga similitud vendrá dada por:
un máximo.
En la figura 7.11 se estimaría a la persona con- N n
siderada una q = –1, que es donde la función L(u | q) L(u θ ) = ∏ ∏ [Pia (θ )]u ia [Qia (θ )](1 – uia ) [7.14]
tiene su máximo. a =1 i =1
En vez de trabajar con L(u | q), se suele hacer
con su logaritmo, lo cual no altera el valor estimado o en forma logarítmica:
de q y tiene la ventaja operativa de convertir el pro-
ducto en sumas: N n
ln [L(u θ )] = ∑ ∑ [uia ln Pia (θ ) +
a =1 i =1
n
ln [L(u θ )] = ∑ [ui ln Pi (θ ) + (1 – ui ) lnQi (θ )] + (1 – uia ) ln{1 – Pia (θ )}] [7.15]
i =1
© Ediciones Pirámide
214 / Introducción a la Psicometría
N
Modelo logístico de tres parámetros D (θ a – bi )[Pia (θ ) – ci ][uia – Pia (θ )]
∂ ln L/∂ai =
1 – ci
∑ Pia (θ )
a =1
n
[Dai {Pia (θ ) – ci }(uia )]
∑
N
∂ ln L/∂θ a ≡ – –Dai [Pia (θ ) – ci ][uia – Pia (θ )]
i =1 Pia (θ )(1 – ci ) ∂ ln L/∂bi =
1 – ci
∑ Pia (θ )
a =1
n
[Dai {Pia (θ ) – ci }Pia (θ )]
– ∑ [7.18] 1
N
[uia – Pia (θ )]
i =1 Pia (θ )(1 – ci ) ∂ ln L/∂ci =
1 – ci
∑ Pia (θ )
a =1
© Ediciones Pirámide
Teoría de respuesta a los ítems / 215
nidos de hecho; en otras palabras, hay que compro- nj: Número de personas dentro de cada ca-
bar el ajuste del modelo a los datos. Si tal ajuste se tegoría.
produce, ello quiere decir que los valores de P(q) pro- P(qj): Valor de la CCI dado por la fórmula del
nosticados por el modelo no difieren estadísticamen- modelo con los parámetros estimados,
te de los obtenidos empíricamente, es decir, la pro- para la categoría j.
porción de personas que de hecho aciertan el ítem. Pe(qj): Proporción de personas que, de hecho
Existen varios procedimientos estadísticos para (empíricamente), superan el ítem para
la comprobación del ajuste, si bien ninguno de ellos una categoría determinada j.
es totalmente satisfactorio. Buenos tratamientos Q2: Se distribuye según c2 con k – 1 grados
pueden consultarse en Orlando y Thissen (2000), de libertad.
Stone y Zhang (2003) o Haberman, Sinharay y
Chon (2013). Para una aproximación no paramétri-
ca, véanse Douglas y Cohen (2001), Wells y Bolt Ejemplo
(2008), Liang y Wells (2009), Liang, Wells y Ham-
bleton (2014) o Wells, Rios y Faulkner-Bond (2016). En una muestra de 1.000 personas se estimó
En español, López Pina e Hidalgo (1996). mediante un programa que el modelo que mejor se
Aquí se ilustrará con fines didácticos la lógica ajustaba a los datos obtenidos al aplicar un test de
del ajuste mediante el uso de chi-cuadrado, el aná- 20 ítems era el logístico de un parámetro. En con-
lisis de los residuos y la comparación de las distri- creto, para el ítem 10 el programa asignó b = 2. El
buciones de las puntuaciones. número de personas que acertaron el ítem 10 para
las categorías en las que se dividió q aparecen en la
tabla adjunta. A la vista de los resultados, ¿puede
Chi-cuadrado afirmarse al nivel de confianza del 99 % que el mo-
La lógica general de las técnicas basadas en chi- delo se ajusta a los datos para el caso del ítem 10?
cuadrado consiste en comparar los valores pronos-
ticados por el modelo con los obtenidos empírica- qfl nj Pe(qj)
mente. Para ello se divide el rango de la variable
medida q en varias categorías y se comparan los 4-5 70 0,97
valores pronosticados y empíricos para cada cate- 3-4 90 0,95
goría. En el caso de ajuste perfecto, ambos valores 2-3 200 0,70
coincidirán en todas las categorías; a medida que 1-2 300 0,35
aumentan las diferencias, el ajuste es peor. Precisa- 0-1 340 0,10
mente lo que nos indicará chi-cuadrado es si esas
1.000
diferencias son estadísticamente significativas. Aquí
se ilustrarán el estadístico Q2 propuesto por Wright
y Panchapakesan (1969) para el modelo logístico de Para poder aplicar la fórmula propuesta hay
un parámetro y el estadístico Q1 de Yen (1981) apli- que obtener previamente los valores de P(qj) dados
cable a cualquiera de los tres modelos logísticos. por el modelo. Recuérdese que el modelo logístico
Wright y Panchapakesan (1969) propusieron un de un parámetro viene dado por:
estadístico sencillo para comprobar el ajuste de los
modelos a los datos, cuya distribución se aproxima e D(θ – bi )
a la de Q2: Pi (θ ) =
1 + e D(θ – bi )
k
n j [P(θ j ) – Pe (θ j )]2
Q2 = ∑ [P(θ j )][1 − P(θ j )]
[7.21] Sustituyendo los valores correspondientes al
j =1 ítem 10 (b = 2):
© Ediciones Pirámide
216 / Introducción a la Psicometría
como D = 1,7 y e = 2,72: Ahora bien, en las tablas c 20,99, con k – 1 = 5 – 1 =
= 4 grados de libertad es igual a 13,28; por tanto,
(2,72)(1,7 )(θ – 2 ) al nivel de confianza del 99 % se admite (no se pue-
P(θ ) =
1 + (2,72)(1,7 )(θ – 2 ) de rechazar) que el modelo así estimado se ajusta a
los datos para el ítem 10.
Sustituyendo q por los valores centrales de las En la figura 7.12 aparecen representados los va-
categorías en las que se dividió q§, se obtienen los lores P(qj) pronosticados por el modelo y los obte-
correspondientes P(qj): nidos empíricamente Pe(qj).
Nótese que propiamente los valores de q gene-
qfl P(qj)
rados por el programa utilizado son estimaciones
de q, de ahí el «sombrero» (q§), los verdaderos valo-
4,5 0,99 res de q no se conocen. Sobre la métrica de q se
3,5 0,92 hablará más adelante; de momento se ha prescindi-
2,5 0,70 do de los valores negativos por sencillez.
1,5 0,30
0,5 0,07
CASO DE N ÍTEMS
Aplicando la fórmula: Si se desea someter a prueba el ajuste del mode-
lo no para un ítem determinado, como en el caso
340(0,07 – 0,10)2 300(0,30 – 0,35)2 anterior, sino para los n ítems que componen el test
Q2 = + +
(0,07)(1 – 0,07) (0,30)(1 – 0,30) conjuntamente, y obtener así una idea global del
funcionamiento del modelo, los autores citados
200(0,70 – 0,70)2 90(0,92 – 0,95)2
+ + + (Wright y Panchepakesan, 1969) proponen un esta-
(0,70)(1 – 0,70) (0,92)(1 – 0,92) dístico generalización del anterior:
70(0,99 – 0,97)2
+ =
(0,99)(1 – 0,99)
k n
n j [P(θ ji ) – Pe (θ ji )]2
Q2T = ∑∑ P(θ ji )[1 − P(θ ji )]
[7.22]
= 4,70 + 3,57 + 0,00 + 1,10 + 2,83 = 12,2 j =1 i =1
1,00
Pe(qj)
P(qj)
0,80
0,60
P(q)
0,40
0,20
0,00
0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50 4,00 4,50
q
© Ediciones Pirámide
Teoría de respuesta a los ítems / 217
donde todos los términos son idénticos a los ya ci- lidad existen mejores opciones, como las citadas en
tados, n es el número de ítems y Q2T se distribuye las referencias recomendadas más arriba.
según c 2 con (k – 1)(n – 1) grados de libertad. Se tra-
ta, por tanto, de realizar el mismo proceso anterior
para cada ítem, sumar los resultados y contrastarlos Análisis de los residuos
con el c 2 crítico de las tablas. Afortunadamente, este
y otros métodos de ajuste son proporcionados por Otro modo muy parejo a los anteriores de
los programas informáticos, y la única finalidad de acercarse a la computación del ajuste del modelo
nuestro ejemplo es eso, ejemplificar la lógica del pro- a los datos es el análisis de los residuos. Como
cedimiento. antes, se divide q en varias categorías o niveles y
Cabe preguntarse cuál es el número más ade- se calcula para cada una de ellas el residuo estan-
cuado de categorías en el que ha de dividirse q. No darizado (RE):
hay una respuesta definitiva, siendo frecuente utili-
zar entre 10 y 15. En el modelo de Rasch, dado que
a cada puntuación empírica se le estima una q, si se P(θ j ) – Pe (θ j )
RE = [7.24]
dispone de un número elevado de personas, es razo- P(θ j )Q(θ j )/ n j
nable hacer una categoría para cada puntuación.
Nótese, por contra, que en los modelos de dos y
tres parámetros una misma puntuación en el test no donde:
necesariamente recibe la misma estimación q, que
depende del patrón de respuestas a los ítems, no nj: Número de personas dentro de la catego-
solo del número de aciertos, lo cual, aunque no su- ría j.
pone un inconveniente teórico, sí lo es práctico, P(qj): Valor de la CCI para el nivel qj .
pues la lógica más corriente del usuario y del que Pe(qj): Proporción empírica de personas dentro
responde a un test es que a puntuaciones iguales de una categoría dada j que superan el
(número de ítems acertados) corresponden compe- ítem.
tencias iguales. Q(qj): 1 – P(qj).
Yen (1981) propuso un estadístico similar al an-
terior aplicable a cualquiera de los tres modelos lo- A medida que los residuos se alejan de cero en
gísticos: valor absoluto, peor será el ajuste del modelo. Una
inspección del tamaño de los residuos para las dis-
tintas categorías en las que se dividió q puede dar
k
n j [P(θ j ) – Pe (θ j )]2 una idea descriptiva de las zonas de mayor desajus-
Q1 = ∑ P(θ j )[1 − P(θ j )]
[7.23]
te del ítem. Por ejemplo, véase en la figura 7.13 el
j =1
tipo de residuos que daría un modelo mal ajustado
tal como el que se representa.
donde todos los términos ya han sido definidos En los primeros niveles, los residuos son negati-
para el estadístico anterior y Q1 se distribuye según vos, P(qj) < Pe(qj), para en las últimas invertirse la
c 2 con k – p grados de libertad, siendo k el número relación. Más que pruebas estadísticas rigurosas,
de categorías en las que se dividió q y p el número como sería de desear, es frecuente que los investiga-
de parámetros del modelo de TRI utilizado. dores establezcan una banda de valores admisibles
Aplicado a los datos del ejemplo anterior, se ob- para los residuos, por ejemplo, entre –2 y +2, u
tiene igual que entonces un valor de Q1 = 12,2. En otros valores arbitrarios pero interpretables asu-
este caso, los grados de libertad serían también miendo la distribución normal de los residuos. El
5 – 1 = 4, pues se trata del modelo logístico de un programa informático ResidPlots (Liang, Han y
parámetro; luego p = 1. Hambleton, 2009) permite obtener datos detallados
Si bien el ejemplo anterior trata de ilustrar la sobre los residuos, y es compatible con la mayoría
lógica del ajuste, el estadístico Q1 tiene varias limi- del software de TRI, como PARSCALE, BILOG-
taciones (Wells et al., 2016), por lo que en la actua- MG o MULTILOG.
© Ediciones Pirámide
218 / Introducción a la Psicometría
1,00
Datos
Modelo estimado
0,80
0,60
P(q)
0,40
0,20
0,00
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0
q
+3
RE 0
–3
–3 0 +3
q
© Ediciones Pirámide
Teoría de respuesta a los ítems / 219
a) Estimar las puntuaciones de las personas respectivamente, 25, 35 y 65 ítems, ya que, según el
sin que importe el instrumento utilizado. gráfico, P1(qj) = 0,25, P2(qj) = 0,35 y P3(qj) = 0,65,
b) Estimar los parámetros de los ítems inde- pero en los tres casos se le asignará idéntica qj .
pendientemente de la muestra empleada. En segundo lugar, los parámetros de los ítems
no dependen del tipo de muestra, los valores de
Es algo que conviene entender cabalmente, pues P(q) no están en función de la distribución de q
constituye el meollo de la TRI. Si el modelo se ajus- para las personas. Véase en la figura 7.14, por ejem-
ta estrictamente a los datos, los dos objetivos se plo, cómo qj genera idénticos valores P(q) tanto se
cumplen (véase figura 7.14). considere en la muestra N1 como en la N2, con dis-
En la figura 7.14 aparecen las CCI de tres ítems tribuciones muy diferentes. No obstante, como en
correspondientes a un modelo logístico de tres pará- cualquier otro caso de estimación estadística, cuan-
metros. Los valores de los parámetros a, b y c de los to mayor sea la muestra de personas y mejor cubran
ítems son, como se puede observar, diferentes. Sobre el rango de valores de q, más precisas serán las es-
el eje de abscisas se han representado las distribucio- timaciones de los parámetros.
nes de q para dos muestras de personas evaluadas,
N1 y N2. La estimación del valor de q, sea qj , para Comprobación de la invarianza
una persona o clase de personas determinada; nóte-
se que no depende de que utilicemos un tipo de ítem Para comprobar la invarianza de la estimación
u otro, lo único que variará será la P(q) según la de la q de cada persona para distintos test que mi-
forma de la CCI dada por el valor de sus parámetros. den la misma variable, se aplican dos (o más) test
Así, por ejemplo, si a una persona (o grupo de per- compuestos por distintos ítems a la misma muestra
sonas) con q = qj se le aplican tres test, el primero de personas y luego se ve en qué grado ambas esti-
con 100 ítems del tipo 1, el segundo con 100 ítems maciones coinciden. Dicha coincidencia puede in-
del tipo 2 y el tercero con 100 del tipo 3, todos ellos, dagarse representando gráficamente las q obtenidas
obviamente, midiendo la misma variable q, acertaría, en un test frente a las obtenidas en el otro: cuanto
3
1,00
1
2
0,65
P(q)
0,35
0,25
0,00
qj
N1 N2
q
Figura 7.14.—Curvas características de tres ítems estimadas a partir de dos muestras con distribuciones diferentes en q.
© Ediciones Pirámide
220 / Introducción a la Psicometría
más se acerquen a una recta, más fina será la inva- estimaciones. De cómo transformar dos estimacio-
rianza. Una indicación numérica del ajuste puede nes en métricas distintas a una misma métrica se
hallarse mediante la correlación de Pearson entre tratará en el capítulo dedicado a la equiparación de
las estimaciones. las puntuaciones.
En la figura 7.15 aparecen representados los va-
lores de q para 100 personas en dos test distintos, Invarianza de los parámetros de los ítems. Aná-
con una correlación entre ambas estimaciones de logamente, si se utilizan diferentes muestras para
0,96, que puede considerarse un buen ajuste. Ha de estimar los parámetros de n ítems, el modelo postula
notarse que, aunque las estimaciones de q con test la invarianza de estos. Mutatis mutandis, la compro-
distintos fuesen exactamente las mismas para cada bación empírica es similar a la anterior, ahora son
persona, ello no quiere decir que el programa infor- los parámetros de los ítems los que han de compa-
mático empleado dé el mismo valor numérico en rarse en vez de q. En la figura 7.16 aparecen repre-
cada caso; de ahí la necesidad del gráfico y la corre- sentadas las estimaciones del parámetro b (índice de
lación. La razón es muy simple: no existe una mé- dificultad) de 50 ítems en dos muestras de personas.
trica única para q; por tanto, el programa establece La invarianza es notable: r12 = 0,98. Algunos ejem-
para cada análisis una métrica en función de los plos numéricos pueden consultarse en Hambleton y
parámetros de los ítems utilizados y, en consecuen- Swaminathan (1985) y Lord (1980).
cia, el valor de q de una persona depende de esa
métrica, así que, aunque la invarianza sea perfecta, El parámetro c (aciertos al azar) no viene afec-
la salida del ordenador no tiene por qué ser la mis- tado por la elección del origen de la escala y de sus
ma para una persona en ambas ocasiones, pero sí unidades, luego su estimación ha de ser idéntica
tiene que haber una relación lineal perfecta entre las para ambas (o más) muestras (Lord, 1980).
+3 +3
q2 b2
–3 –3
–3 q1 +3 –3 b1 +3
Figura 7.15.—Representación de los valores de q estimados Figura 7.16.—Valores de h estimados en dos muestras distin-
por dos tests distintos. tas de personas.
EJERCICIOS
1. Se aplicó un test de cinco ítems a una mues- ción (rb) y la probabilidad de acertar el ítem al azar
tra de 100 personas. Para cada ítem se calcularon (Pa), cuyos valores aparecen en la tabla adjunta.
los índices clásicos de dificultad (ID), discrimina-
© Ediciones Pirámide
Teoría de respuesta a los ítems / 221
Muestra 1 Muestra 2
1. Identifique el ítem más fácil y el más difícil.
2. ¿Cuál es el ítem más discriminativo? ¿Y el Ítems b1 b2
menos?
1 –1,50 –1,30
3. ¿Cuáles de los ítems de este test es más pro-
2 0,25 0,20
bable que no sean de elección múltiple? 3 1,20 1,10
4. ¿Qué modelo de TRI elegiría para utilizar 4 1,50 1,40
con este test? 5 2,00 2,02
6 2,50 0,00
2. Se aplicó un test de 40 ítems a una muestra
de 200 personas, cuyas puntuaciones q en el test se
estimaron utilizando el modelo de Rasch. Las pun- 1. Tomando como criterio la correlación entre
tuaciones q se dividieron en seis intervalos para es- las estimaciones halladas en ambas mues-
tudiar el ajuste del modelo a los datos. En la tabla tras, la invarianza podría considerarse: muy
adjunta aparece el número de personas comprendi- pobre, moderada, excelente.
das en cada intervalo (nj), así como las que de ellas 2. Elimine el ítem cuya invarianza parece más
acertaron el ítem séptimo del test ( fa). defectuosa y recalcule la correlación entre
las estimaciones de b para el resto de los
ítems. ¿Cómo calificaría la invarianza una
q nj fa vez descartado el citado ítem?
3. Transforme los valores de b1 y b2 a una nue-
–3 - –2 20 2
–2 - –1 30 9
va escala E ′, según la siguiente expresión:
–1 - 0 40 20
0 - 1 60 51 E ′ = l00(b) + 500
1 - 2 40 36
2 - 3 10 10 4. ¿Qué cambios se han producido en la inva-
rianza de b tras la transformación del apar-
tado anterior?
1. El parámetro b para el ítem séptimo cuyos
datos aparecen en la tabla fue –0,5. Calcule 4. En la tabla adjunta aparecen las respuestas
el estadístico chi-cuadrado de Wright y de 60 personas a un ítem de un test de inteligencia.
Panchapakesan y diga si el modelo se ajusta Las 60 personas se han organizado en seis intervalos
a los datos para el ítem séptimo. Nivel de
confianza, 95 %.
2. Calcule los residuos estandarizados (RE) q Personas
para el ítem séptimo (datos de la tabla). Si
se adopta como criterio de un buen ajuste –3 - –2 0 1 0 0 0 0 0 0 1 0
que ninguno de los residuos supere el valor –2 - –1 1 0 0 0 1 0 0 1 0 0
–1 - 0 1 0 0 0 1 1 0 1 1 0
absoluto de 1, ¿puede afirmarse que el mo-
0 - 1 1 1 1 0 0 1 1 0 1 0
delo se ajusta a los datos? 1 - 2 1 1 1 1 0 1 1 1 0 0
3. A la vista de los residuos estandarizados del 2 - 3 1 1 1 1 1 1 1 0 0 1
apartado anterior, ¿en qué zona de q se pro-
© Ediciones Pirámide
222 / Introducción a la Psicometría
según sus puntuaciones en la variable medida q. 2. Al nivel de confianza del 95 %, ¿puede afir-
Los parámetros estimados para el ítem de la tabla marse que el modelo se ajusta a los datos para
mediante el modelo logístico de tres parámetros el ítem de la tabla? (utilice chi-cuadrado).
fueron: a = 0,6, b = 0,5 y c = 0,2. 3. Si se toma como criterio de ajuste que nin-
guno de los residuos estandarizados del
1. Calcule los valores P(qj) pronosticados por ítem supere un valor absoluto de 1,96, ¿pue-
el modelo para el punto medio de cada una de afirmarse que el ítem de la tabla se ajus-
de las categorías de q. ta a los datos?
SOLUCIONES
Pocos tópicos de la TRI han sido tan malinter- Supóngase un modelo logístico de dos paráme-
pretados como el de la métrica de q. La frase habi- tros, formulado en cierta métrica q, con a = 1,5 y
tual es que en los modelos de TRI la métrica de q b = 2; luego vendrá dado por:
es arbitraria, lo cual es cierto, siempre y cuando se
defina bien lo que se entiende por arbitrario. El lec- e D(1,5)(θ – 2 )
P(θ ) =
tor que no se haya saltado los apartados anteriores, 1 + e D(1,5)(θ – 2 )
si hubiese alguno, ya habrá captado la idea general
respecto a esta arbitrariedad, consistente en que el y como e = 2,72 y D = 1,7:
modelo establecido no predetermina el origen ni las
unidades de q, esto es, sigue siendo válido, siguen (2,72)(1,7 )(1,5)(θ – 2 ) (2,72)(2,55)(θ – 2 )
P(θ ) = =
obteniéndose las mismas P(q), si se utiliza otro ori- 1 + (2,72)(1,7 )(1,5)(θ – 2 ) 1 + (2,72)(2,55)(θ – 2 )
gen y otras unidades para medir q, siempre y cuan-
do, claro está, se hagan las oportunas correcciones Para un valor de q = 2, sustituyendo se obten-
en los parámetros de los ítems. Veamos primero un drá un valor de
ejemplo numérico y luego se concretarán las trans-
formaciones de q admisibles para los modelos logís- (2,72)(2,55)(2 – 2 )
P(θ ) = = 0,5
ticos. 1 + (2,72)(2,55)(2 – 2 )
© Ediciones Pirámide
Teoría de respuesta a los ítems / 223
© Ediciones Pirámide
224 / Introducción a la Psicometría
Análogo al de dos parámetros, pero además con Como es bien sabido, el modelo viene dado por
c′ = c.
e D(θ – b )
P(θ ) =
θ ′ = M (θ ) + k 1 + e D(θ – b )
b ′ = M (b) + k
Por tanto:
a
a′ =
M e D(θ – b )
Q(θ ) = 1 – P(θ ) = 1 – =
c′ = c 1 + e D(θ – b )
1 + e D(θ – b ) – e D(θ – b ) 1
c ′ + (1 – c ′ )e Da ′ (θ ′ – b′ ) = =
P(θ ′ ) = = 1+ e D( θ – b )
1+ e D( θ – b )
1 + e Da ′ ( θ ′ – b ′ )
c + (1 – c)e D( a /M )[(Mθ + k ) – (Mb + k )] Dividiendo en el modelo original ambos miem-
= = bros por Q(q):
1 + e D( a /M )[(Mθ + k ) – (Mb + k )]
c + (1 – c)e D( a /M )M (θ – b ) P(θ ) [e D(θ – b ) ]/[1 + e D(θ – b ) ]
= = = = e D(θ – b )
1 + e D( a /M )M (θ – b ) Q(θ ) 1/[1 + e D(θ – b ) ]
c + (1 – c)e Da(θ – b )
= = P(θ ) Si se hace D = 1 o, al modo de Rasch-Wright,
1 + e Da(θ – b )
su valor se incluye en q y b, es decir, se hace la mul-
tiplicación, entonces:
Esta indeterminación de la escala de q, como
ya se ha señalado, obliga en cada situación de ca- P(θ )
libración de un test a elegir una, con las conse- = e (θ – b )
Q(θ )
cuencias citadas sobre la métrica de los paráme-
tros de los ítems, siendo lo más corriente que la
métrica elegida por los programas ubique la media Tomando logaritmos neperianos:
en cero y la desviación típica en 1. Si se desea evi-
tar los valores negativos y decimales, se puede lle- P(θ )
ln = (θ – b) ln (e)
var a cabo cualquier otra transformación lineal Q(θ )
admisible.
como ln (e) = 1:
© Ediciones Pirámide
Teoría de respuesta a los ítems / 225
La escala logit proporciona una cierta idea a la Dividiendo P(q) entre Q(q):
hora de comparar personas entre sí. Sea, por ejem-
plo, una persona con q = q1 y otro con q = q2 y un
P(θ ) [e Da(θ – b ) ]/[1 + e Da(θ – b ) ]
ítem j con un índice de dificultad b = bj: = = e Da(θ – b )
Q(θ ) 1/[1 + e Da(θ – b ) ]
P(θ1 )
ln = (θ1 – b j )
Q(θ1 ) Tomando logaritmos neperianos:
P(θ 2 )
ln = (θ 2 – b j ) P(θ )
Q(θ 2 ) ln = Da(θ – b) ln (e) = Da(θ – b) [7.27]
Q(θ )
Restando miembro a miembro:
Por tanto, para este modelo el logit incluye el
P(θ1 ) P(θ 2 )
ln – ln = (θ1 – b j ) – (θ 2 – b j ) valor del índice de discriminación a.
Q(θ1 ) Q(θ 2 ) Si se desea comparar a dos personas con q = q1
y q = q2, respectivamente, en un ítem bj, los logits
Ahora bien, la diferencia de logaritmos es igual
vendrán dados por:
al logaritmo del cociente:
© Ediciones Pirámide
226 / Introducción a la Psicometría
Da
P(θ ) – c (1 – c)[e Da(θ – b ) ]/[1 + e Da(θ – b ) ] a′ =
= = e Da(θ – b ) K
Q(θ ) (1 – c)/[1 + e Da(θ – b ) ]
donde K y k son constantes positivas. En la nueva
Tomando logaritmos neperianos: escala (véase Lord, 1980, p. 84), para un modelo
logístico de tres parámetros se da una sencilla rela-
P(θ ) – c ción:
ln = Da(θ – b) ln (e) = Da(θ – b) [7.29]
Q(θ )
P(θ ′ ) – c
Aplicado a la comparación de dos personas, = (θ ′ / b ′ )a ′ [7.32]
Q(θ ′ )
análogamente al caso de dos parámetros:
La transformación realizada convierte P(q) en
[P(θ1 ) – c]/Q(θ1 ) otra función P(q ′) que ya no es la logística, pero,
ln = Da(θ1 – θ 2 ) [7.30]
[P(θ 2 ) – c]/Q(θ 2 ) como señala el propio Lord, la relación anterior es
tan simple y directa que tal vez la escala q ′ sea pre-
Las derivaciones anteriores pueden llevarse a ferible a q para la medición. A modo de ejercicio,
cabo con distintas bases logarítmicas, así como ex- trate el lector de derivar la relación anterior, susti-
tenderse a la comparación entre ítems, además de tuyendo en el modelo logístico de tres parámetros
entre personas (véase, por ejemplo, Hambleton y los valores correspondientes a la transformación y
Swaminathan, 1985). dividendo luego [P(q ′) – c] entre Q(q ′).
EJERCICIOS
1. Utilizando el modelo logístico de tres pará- 1. Para un determinado ítem se estimó un ín-
metros, se estimaron los parámetros a, b y c de to- dice de dificultad b = 1,5, un índice de dis-
dos los ítems de un test de inteligencia espacial y las criminación a = 0,8 y un valor de c = 0,20.
puntuaciones q de las personas. Las puntuaciones q Estimar la probabilidad que tienen de supe-
obtenidas por las cinco personas de la muestra uti- rar el ítem las personas con una puntuación
lizada fueron las siguientes: –2,4, –1,2, 0,0, 1,6, 2,0. q = 1.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 227
2. Transforme las puntuaciones q de las perso- test una puntuación q = 1,9; ¿qué puntua-
nas a otra escala de acuerdo con la siguien- ción le corresponderá en la escala logit?
te expresión: q ′ = 15(q) + 100. 2. Si en el ítem anterior el logit correspondien-
3. ¿Cuáles son los valores de los parámetros a, te a una de las personas fuese 1,5, ¿qué pun-
b y c del ítem en la nueva escala? tuación q habría obtenido en el test esa per-
4. Una persona que hubiese obtenido en la sona?
nueva escala una puntuación q ′ de 115 pun- 3. La diferencia entre las puntuaciones q de
tos, ¿qué probabilidad tiene de superar el dos personas en el test fue de 3 puntos.
ítem? ¿Cuál es su diferencia expresada en la esca-
5. ¿Qué puntuación q obtuvo en la escala ori- la logit?
ginal una persona que en la escala transfor- 4. En otro de los ítems del test cuyos paráme-
mada q ′ tiene 145 puntos? tros a y b desconocemos, a una persona le
corresponde una puntuación de 2 en la es-
2. Tras aplicar un test de 10 ítems a una mues- cala logit. ¿Cuál es la probabilidad de que
tra de 500 personas, se estimaron los parámetros de esa persona supere el ítem? ¿Cuál la de que
los ítems mediante el modelo logístico de dos pará- lo falle?
metros. 5. Si el ítem del apartado anterior tuviese una
dificultad b = 1 y una discriminación a = 0,5,
1. Los parámetros de uno de los ítems fueron ¿qué puntuación q habría obtenido la per-
a = 0,8 y b = 1,4. Una persona obtuvo en el sona cuyo logit era 2?
SOLUCIONES
6. CURVA CARACTERÍSTICA DEL TEST man los valores de P(q) de cada ítem para ese nivel
se obtiene la CCT, lo cual puede expresarse así:
6.1. Definición
n
Análogamente al concepto de CCI, pieza cen- CCT = ∑ Pi (θ ) [7.33]
tral de los modelos de TRI, puede hablarse de cur- i =1
va característica del test (CCT). Aunque su papel en
la TRI no es comparable con el de la CCI, tiene siendo n el número de ítems.
gran interés como puente entre algunos aspectos de Nótese que las sumas han de hacerse para cada
la teoría clásica de los test y la TRI, como ayuda nivel de q y, dado que q es continua, propiamente
para interpretar los resultados, o en la equiparación habrá que utilizar el cálculo infinitesimal, aunque
de las puntuaciones, por citar lo más sobresaliente. en la práctica es habitual dividir q en cortos inter-
La curva característica del test no es otra cosa valos sumando las P(q) de los ítems para cada in-
que la suma de las curvas características de los ítems tervalo. Se ilustra a continuación con un ejemplo
que componen el test: si para cada nivel de q se su- para valores discretos de q.
© Ediciones Pirámide
228 / Introducción a la Psicometría
n
P(q)
Ítems ∑ Pi (θ )
i =1
Ítem 4 Ítem 3 Ítem 2 Ítem 1 CCT
En la figura 7.17 aparecen representadas las test, en la estimación de las puntuaciones verdade-
cuatro CCI, y en la 7.18, la curva característica del ras de las personas en el test, sino en la estimación
test. más general de q, de la que un test particular sería
un indicador. No obstante, es ilustrativo entender
lo que bajo el prisma de la TRI sería la puntuación
6.2. Puntuaciones verdaderas en el test verdadera de una persona en el test.
La puntuación verdadera en el test de una perso-
Como ya se ha señalado, el interés de la TRI no na o personas a las que se ha estimado mediante un
se centra, como ocurría en la teoría clásica de los modelo de TRI una determinada puntuación q = qj
1,00
P(q)
0,50
1 2 3 4
0,00
–3 –2 –1 0 1 2 3
q
© Ediciones Pirámide
Teoría de respuesta a los ítems / 229
4,00
3,50
3,00
2,50
2,00
V
1,50
1,00
0,50
0,00
–3 –2 –1 0 1 2 3
q
Figura 7.18.—Curva característica del test formado por los cuatro ítems del ejemplo.
viene estimada por la suma de las probabilidades valores de q constituyen otra escala, precisamente
P(qj) dadas por las curvas características de los una escala que la CCT transforma en puntuaciones
ítems que componen el test, para el valor de qj: verdaderas. Puede afirmarse, por tanto, como seña-
la Lord (1980), que las puntuaciones verdaderas (V)
n y las puntuaciones (q) son la misma cosa pero expre-
Vj = ∑ Pi (θ j ) [7.34] sada en diferente escala. Ahora bien, la gran venta-
i =1 ja a favor de q es que si el modelo TRI funciona, la
puntuación q estimada a un persona no depende
donde n es el número de ítems, y Pi(qj), el valor co- del test utilizado, mientras que V sí. Véase esto ilus-
rrespondiente a cada CCI para q = qj. Adviértase trado en la figura 7.19, en la que aparecen las CCT
que este valor no es otra cosa que el valor generado de dos test. Nótese cómo para cada test varía la
por la curva característica del test para q = qj. Por puntuación verdadera estimada a las mismas perso-
ejemplo, para el test del ejemplo anterior compues- nas con q = qj.
to por cuatro ítems, la puntuación verdadera en el
test para las personas a las que se estimó una q = 2
Error típico de medida
vendría dada por:
Las puntuaciones verdaderas (V ), como ocurre
V = 0,0138 + 0,5000 + 0,9280 + 0,8938 = 2,3356 en la teoría clásica, y en general en cualquier pro-
ceso de estimación, no coincidirán siempre con las
Las puntuaciones verdaderas en el test así esti- empíricas (X ), definiéndose el error de medida como
madas pueden ser muy útiles de cara a la interpre- la diferencia entre ambas (e = X – V ), y el error tí-
tación de los resultados, pues vienen expresadas en pico de medida (Se), como la desviación típica de
la misma escala que las empíricas, mientras que los dichas diferencias.
© Ediciones Pirámide
230 / Introducción a la Psicometría
V1
V2
Para un cierto nivel de q = qj el valor del error drá dada por P(qj)Q(qj); luego la varianza de los n
típico de medida al cuadrado viene dado por ítems que componen el test, para el nivel qj, y asu-
miendo el principio de independencia local, vendrá
n dada por la suma de las varianzas de los ítems:
Se2 = ∑ Pi [(θ j )Qi (θ j )] [7.35]
n
i =1
∑ Pi (θ j )Qi (θ j )
i =1
donde:
que es la fórmula propuesta. Si todos los ítems tu-
n: Número de ítems del test. viesen la misma P(q), la varianza total de los erro-
Pi(qj): Valor de las CCI para q = qj, es decir, res de medida para cada nivel de q sería la de dis-
para el nivel de q para el cual se desea tribución binomial: nP(q)Q(q).
calcular Se.
Qi(qj) = [1 – Pi(qj)].
6.3. Curva característica de la persona
Este error típico tiene una característica notable
respecto al de la teoría clásica: su valor no es el mis- Análogamente a los conceptos de curva carac-
mo para todas las personas, está en función del valor terística del ítem y curva característica del test,
de q, lo cual quiere decir que la precisión con la que puede hablarse de curva característica de la perso-
miden los test no es uniforme a lo largo de la esca- na (CCP). Se obtiene empíricamente representan-
la, va a depender del nivel de las personas en la do en abscisas la dificultad de los ítems (parámetro
variable medida. b), y en ordenadas, la proporción de ítems acerta-
La obtención de la fórmula del error típico es dos por la persona en cada categoría (véase la fi-
inmediata. Para cada nivel qj de q, la varianza de los gura 7.20).
errores de medida de un ítem es la misma que la va- En la figura 7.20 aparecen las CCP empíricas de
rianza de las puntuaciones empíricas, pues q = x – v, dos personas para el mismo test. Para obtenerlas,
con v constante para ese nivel dado qj . Para ítems en primer lugar, se han de estimar los parámetros b,
dicotómicos la varianza de cada uno al nivel qj ven- que se agrupan por categorías según sus valores, en
© Ediciones Pirámide
Teoría de respuesta a los ítems / 231
1,00
0,50
P
0,00
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0
b
el ejemplo de –3,5 a + 3,5 (siete categorías). Los to, en ordenadas se ubicará la media de los valores
valores representados en ordenadas (P) son la pro- de q, el estimado para la persona en cuestión, esto
porción de ítems acertados por la persona dentro de es, en ordenadas se representa
cada categoría. Uno de los usos más prometedores
de la CCP (Trabin y Weiss, 1983) es su comparación j
Pi (θ )
con la curva teórica esperada, lo que permite anali- ∑ j
zar las discrepancias entre el comportamiento real i =1
EJERCICIOS
© Ediciones Pirámide
232 / Introducción a la Psicometría
2. Según la curva característica del test calcu- 1. Trace las curvas características de la perso-
lada en el apartado anterior, ¿qué puntua- na para las personas A, B y C.
ción se estima que obtendrán en el test dos 2. ¿Cuál de las tres curvas características es
personas a las que se estimó unas puntua- más atípica? ¿Por qué?
ciones q de 2,5 y 0,5? 3. A continuación se ofrecen los valores co-
3. ¿Cuál es la probabilidad de que una perso- rrespondientes a cada categoría provenien-
na a la que se estimó una puntuación tes de sumar las curvas características de los
q = 3,5 supere los cinco ítems del test? ítems. Para obtener estos valores se han su-
4. Dos personas obtuvieron, respectivamente, mado las Pi(q) de los ítems de cada catego-
puntuaciones q de 2,5 y –0,5. ¿Cuál se esti- ría j: Σ Pi(q).
ma que será la diferencia entre sus puntua-
ciones en el test? b Σ Pi(q)
5. Del test de cinco ítems se suprimieron los
dos ítems más difíciles, de modo que quedó –3 - –2 3,6
reducido a solo tres. ¿Cuál es la probabili- –2 - –1 4,9
dad de que una persona con una puntua- –1 - 0 4,5
ción q = 1,5 supere los tres ítems del nuevo 0 - 1 3,5
test? ¿Qué puntuación se estima que obten- 1 - 2 1,5
2 - 3 0,4
drá esa persona en el test?
SOLUCIONES
1.1.
q CCT q CCT
© Ediciones Pirámide
Teoría de respuesta a los ítems / 233
© Ediciones Pirámide
234 / Introducción a la Psicometría
1
2
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0 4,0
q
© Ediciones Pirámide
Teoría de respuesta a los ítems / 235
n
Dos parámetros Dai Pi (θ )Qi (θ ) ∑ D2 ai2 Pi (θ )Qi (θ )
i =1
n
DaiQi (θ )[Pi (θ ) – ci ] D 2 ai2Qi (θ )[Pi (θ ) – ci ]2
Tres parámetros
(1 – ci )
∑ Pi (θ )(1 – ci )2
i =1
7.4. Función de información de los ítems La FI de los ítems constituye un poderoso ins-
trumento para el análisis de los ítems, indicando no
Todos los conceptos anteriores referidos a la solo la cantidad de información que el ítem aporta
función de información del test son aplicables a a la medida de q, sino también, y lo que es tal vez
cada ítem por separado. Precisamente una de las más importante, a qué nivel de q aporta dicha in-
propiedades más importantes de la función de infor- formación (véase lo dicho en la figura7.22).
mación del test es que es la suma de las funciones de El ítem 1 aporta información máxima en torno a
información de los ítems. Análogamente a lo dicho valores de q = –1,5; el ítem 2, en torno a q = 0, y el
para el test, la FI del ítem viene dada por: ítem 3, para q = 2. Es importante advertir que si se está
interesado en medir q para valores bajos, por ejemplo,
entre –2 y –1, el ítem 1 le daría mucha más informa-
[ Pi ′(θ )]2 ción que el 2, y para valores altos el 3. Actualmente la
I (θ ) = [7.38]
Pi (θ )Qi (θ ) FI de los ítems es el método de análisis de ítems más
utilizado por los constructores de test, permitiéndoles
mediante la combinación de los ítems obtener test
donde Pi′(q), Pi(q) y Qi(q) tienen idéntico significado ajustados a sus necesidades. Por ejemplo, si se lleva a
al ya señalado en el apartado anterior para el test. cabo una selección de personal en la que se va a elegir
Nótese que la única diferencia con la Fl del test es a solo unos pocos muy competentes, se construiría un
que ha desaparecido el sumatorio, que indicaba test formado por ítems del tipo del 3, que es el que más
que, para obtener la FI del test, había que sumar las información aporta para niveles altos de q. La FI tam-
FI de los ítems. Esta propiedad aditiva de la FI del bién permitirá disminuir dramáticamente el número de
test respecto de las de los ítems va a permitir poder ítems de un test sin pérdida relevante de la información
confeccionar su forma según convenga eligiendo los aportada, descartándose aquellos que apenas aporten
ítems con una FI determinada. información a la medición.
© Ediciones Pirámide
236 / Introducción a la Psicometría
1 2 3
I(q)
–4 –3 –2 –1 0 1 2 3 4
q
Test
I(q)
Ítems
–4 –3 –2 –1 0 1 2 3 4
q
Figura 7.23.—Funciones de información de cinco ítems y función de información del test formado por esos cinco ítems.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 237
Por tanto, el ítem aporta información máxima donde n es el número de ítems y ai el índice de dis-
a la medida de q cuando q = 0,91; sería un ítem criminación de cada ítem.
óptimo para utilizarlo en la medición de q para va- Análogamente, para el modelo logístico de tres
lores en torno a 0,91; en concreto para q = 0,91 la parámetros la puntuación total del test (X ) vendrá
información aportada por el ítem es de 0,49. dada por:
n
Dai [Pi (θ ) – ci ]
7.6. Ponderación óptima de los ítems X = ∑ xi [7.43]
i = 1 Pi (θ )(1 – ci )
Como señalan Birnbaum (1968) y Lord (1980),
es posible asignar a los ítems ciertas ponderaciones Al contrario que en los casos anteriores, las
para maximizar la información que proporcionan. ponderaciones en el modelo de tres parámetros de-
Si a cada ítem se le asigna, por ejemplo, una pon- penden del nivel de q, reflejado en la fórmula por
deración wi, la función de información del test ven- Pi(q), característica esta no muy deseable para un
drá dada por: modelo.
⎡ n ⎤2
⎢ ∑ wi Pi ′(θ ) ⎥ 7.7. Eficiencia relativa de dos test
⎢i =1 ⎥⎦
I (θ , X ) = n⎣
∑ wi2 Pi (θ )Qi (θ ) Una de las aplicaciones prácticas más interesan-
i =1 tes de la FI es que permite comparar de un modo
© Ediciones Pirámide
238 / Introducción a la Psicometría
muy adecuado la eficacia de dos test para medir q Véase en la figura 7.24 la función de eficiencia
a sus distintos niveles o valores. Se denomina efi- para dos test, X e Y. Para valores de q por debajo
ciencia relativa (ER) de dos test para un determina- de –1,5 el test X es menos eficiente que el Y, ya que
do valor de q al cociente entre las funciones de in- esos valores I(qx)/I(qy) < 1. Para valores de q entre
formación de cada test para dicho valor de q: –1,5 y 2 ocurre lo contrario, el test X es más eficien-
te: I(qx)/I(qy) > 1. Finalmente, para valores de q su-
I (θ x ) periores a 2 la eficacia de ambos es similar. Trate el
ER = [7.44] lector, a modo de ejercicio, de dibujar dos (posibles)
I (θ y ) funciones de información que podrían tener los dos
test para dar lugar a la función de eficiencia aquí
donde: representada.
Las aplicaciones de la función de eficiencia son
I(qx): Función de información del test X para numerosas, amén de la obvia de comparar dos test,
q = qj. que no es poco; piénsese, por ejemplo, en la compa-
I(qy): Función de información del test Y para ración de un test consigo mismo, pero cuyos ítems
q = qj. se ponderan de diferente modo en dos ocasiones, o
se les cambia el número de alternativas, etc. La gran
Por ejemplo, si la FI de un test X para q = 1 ventaja en todos los casos es que la función de efi-
vale I(qx) = 10 y la FI de otro test Y para ese mismo ciencia permite establecer estas comparaciones para
valor de q = 1 vale I(qy) = 5, la eficacia relativa en los distintos niveles de q. Por ejemplo, Lord (1980,
ese punto de q vendrá dada por 10/5 = 2. A ese ni- p. 111) ilustra gráficamente cómo al disminuir el
vel (q = 1) el test X aporta el doble de información número de alternativas de los ítems de un test (SAT-
que el Y. V) este aumenta su eficiencia para las personas
Ahora bien, tal vez ello no ocurra a todos los competentes (valores altos de q), mientras disminu-
niveles de q, denominándose función de eficiencia a ye para los niveles bajos de q, lo que representa un
la curva que une los valores de la eficiencia relativa nuevo enfoque al problema clásico del número óp-
calculados a los distintos niveles de q. timo de alternativas por ítem.
2,00
1,50
ER
1,00
0,50
0,00
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0
q
© Ediciones Pirámide
Teoría de respuesta a los ítems / 239
EJERCICIOS
1. En la tabla adjunta se ofrece la información aportada por los cinco ítems de un test para distintos
valores de q:
q
Ítem
–3 –2 –1 0 1 2 3
© Ediciones Pirámide
240 / Introducción a la Psicometría
SOLUCIONES
1.1. 0,31, 0,90, 0,75, 0,72, 0,93, 0,95, 0,34. 4. q = +2.
2. A: 0,15; B: 0,80; ER = 0,19. 5. 0,09, 0,10, 0,27, 0,38, 0,27, 0,02, 0,06.
3. 5. 2.1.1. 0,39.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 241
8. BANCOS DE ÍTEMS tínez y Muñiz, 2006, 2015) y luego estimar los pa-
rámetros correspondientes, tal como se ha expuesto
8.1. Concepto y desarrollo al presentar los modelos de TRI. Sería, valga la
analogía, como construir un inmenso test bajo la
Un banco de ítems no es otra cosa que un con- óptica de la TRI, aunque nada impide, naturalmen-
junto de ítems organizados cuyas propiedades psi- te, utilizar también los indicadores de la teoría clá-
cométricas se conocen. La idea no es nueva, de una sica. Existe, no obstante, el problema adicional de
forma u otra siempre se han utilizado, pero en la cómo añadir nuevos ítems una vez que se han cali-
actualidad se dan dos circunstancias potenciadoras. brado n ítems por el procedimiento anterior. Su-
Por un lado, los ordenadores e internet ofrecen póngase que se han calibrado inicialmente 500
grandes ventajas a la hora de un almacenamiento ítems en una muestra de 20.000 personas; se dispo-
eficaz y de una recuperación y búsqueda rápidas y ne, por tanto, de un banco de 500 ítems. Si se ela-
eficientes. En este sentido, el ordenador no añade boran 100 nuevos ítems, el problema de añadirlos al
nada sustantivo desde el punto de vista conceptual, banco radica en que hay que calibrarlos en la mis-
pero sus posibilidades instrumentales son notorias ma métrica que el banco. Hay varios posibles dise-
y obvias. Por otra parte, y más importante, la TRI ños para llevar a cabo esta equiparación métrica. El
permite, como se ha visto, expresar las propiedades más habitual y práctico consiste en aplicar los nue-
de los ítems en términos de parámetros invariantes vos ítems a una muestra amplia de personas, a las
respecto de las personas, por lo que los profesiona- que también se aplica otro test compuesto por ítems
les e investigadores pueden elegir el tipo de ítem pertenecientes al banco ya calibrado (test de ancla-
más indicado para sus objetivos, siempre, claro está, je). Este test común de anclaje u otros diseños per-
que el banco de ítems sea suficientemente amplio y mite establecer la conexión entre las dos métricas,
heterogéneo. Prueba documental de esta vigencia la del banco y la surgida en la nueva calibración.
es, por ejemplo, el número especial dedicado al Para más detalles, véase el apartado siguiente sobre
tema por la revista Applied Psychological Measure- la equiparación de las puntuaciones. Por estos pro-
ment en 1986, y especialmente interesante el trabajo cedimientos se puede ir aumentando el número de
pionero de Chopin (1976), así como los de Millman ítems del banco y disponer de una buena descrip-
y Arter (1984), Wright y Bell (1984), Ward y Mu- ción de la variable a medir. En realidad, todo lo
rray (1994), Bergstrom y Gershon (1995) o Umar dicho en la TRI respecto a las invarianzas de las
(1999). Buenas revisiones recientes pueden consul- medidas de los test tiene sentido cuando se dispone
tarse en Vale (2006) y Muckle (2016), y en español de un banco de ítems. Si el modelo se ajusta a los
en Barbero (1996, 1999). datos, ciertamente la medida es invariante respecto
Dos aspectos de los bancos de ítems han de en- del subconjunto de ítems (test) del banco elegidos
tenderse cabalmente: uno, cómo se construyen, y para obtenerla.
otro, cómo se procede a partir de ellos para elabo- Las posibilidades para la elaboración de test a
rar test con determinadas características. Para cons- partir de los bancos de ítems son inmensas. Amén
truir un banco de ítems, una vez definido de forma del usuario, que se encuentra con los ítems hechos y
adecuada el constructo que mide el banco, hay que calibrados, con lo que ello supone en ahorros de
desarrollar los ítems de forma pertinente (Haladyna todo tipo, lo más importante es que permiten con-
y Rodríguez, 2013; Lane et al., 2016; Moreno, Mar- feccionar test con determinadas características espe-
© Ediciones Pirámide
242 / Introducción a la Psicometría
cificadas a priori. Generalmente, esta especificación (MIR) y psicólogos internos residentes (PIR); pién-
se hace mediante la función de información. El sese lo descabellado que sería utilizar un test cuya
usuario escoge una determinada FI, que suele deno- FI fuese similar a la 1 o a la 2 de la figura 7.25,
minarse «función de información objetivo» y que pues, dado que solo se admite una mínima propor-
dependerá del tipo de personas con las que se va a ción de los candidatos, es obligado que el test pro-
utilizar el test, eligiéndose ad hoc los ítems adecua- porcione información máxima para los más compe-
dos para generar dicha FI objetivo. Así, por ejem- tentes, que serán los admitidos.
plo, si se va a evaluar a personas de alta competencia En la actualidad se dispone de software abun-
se elegirá como objetivo una FI que dé información dante para el manejo de los bancos de ítems, que va
máxima para valores elevados de q, y los ítems in- desde Excel de Microsoft hasta sofisticados progra-
cluidos en el test serán los que se ajusten a esas exi- mas comerciales que funcionan online. Muckle
gencias. Los programas informáticos suelen ofrecer (2016) ofrece una buena descripción de algunos de
la FI de cada ítem, por lo que se puede obtener la los programas:
del test requerido combinando pertinentemente las
de los ítems. La ventaja sobre la teoría clásica es TAO: www.taotesting.com
notoria: según un tipo de personas u otro, se utiliza- Exam Studio: www.zoomorphix.com
rá el test más adecuado y las mediciones obtenidas Questionmark: www.questionmark.com
estarán, sin embargo, en la misma escala q. ExamDeveloper: www.examdesign.com
Véanse en la figura 7.25 las FI de tres test. La Fast Test: www.fasttestweb.com
utilización de uno u otro dependerá de los objetivos ADE: www.castleworldwide.com
del psicólogo: el test 1 discrimina eficientemente en- AUTHORize: www.certmanserv.com
tre las personas inferiores en q; el 2, entre las me- pan: www.panpowered.com
dias, y el 3, entre las superiores; las medidas propor- ProExam bank: www.proexam.org
cionadas por los tres están en la misma escala q. ITS: www.testys.com
Las implicaciones para la construcción de pruebas
adecuadas serán enormes, por poner un ejemplo Los bancos de ítems constituyen cada día más
bien conocido en nuestro país, como es el caso del el centro neurálgico de los procesos evaluativos, re-
test de admisión para médicos internos residentes clamando la interacción entre los actores que par-
1 2 3
I(q)
–4 –3 –2 –1 0 1 2 3 4
q
© Ediciones Pirámide
Teoría de respuesta a los ítems / 243
ticipan en la evaluación: psicómetras, expertos en escala q. (No confundir q con las puntuaciones em-
programación, especialistas en el constructo evalua- píricas de las personas en los test o con las verda-
do, autores de los ítems, los editores de test y otras deras estimadas en ellos.)
partes legítimamente implicadas que habrá que de- En conclusión, cuando se dispone de un banco
terminar en cada situación concreta. El reto futuro de ítems calibrados la estimación de q no depende
de los bancos de ítems es dar acogida y gestionar de del subconjunto de ítems (test) elegidos para esti-
forma adecuada las grandes novedades que están marla; las estimaciones son invariantes respecto del
ocurriendo en la evaluación psicológica y educativa, instrumento de medida; por tanto, el establecimien-
con especial mención para la construcción de ítems to de equivalencias entre los test es innecesario den-
informatizados (Sireci y Zenisky, 2016), la genera- tro del marco de la TRI. Otra cosa bien distinta es
ción automática de ítems (Gierl y Haladyna, 2013), que, por razones prácticas, se desee establecer una
los test adaptativos informatizados (Olea et al., 1999; relación no entre los valores estimados de q, que
Van der Linden y Glas, 2010) y el diseño óptimo de como se acaba de decir son los mismos, sino entre
los test (Van der Linden, 2016). Una gran preocupa- las puntuaciones verdaderas estimadas en cada test,
ción práctica de quienes gestionan los bancos es evi- o entre las empíricas. Dicha relación es inmediata a
tar perder ítems que se van «quemando» tras sucesi- partir de la curva característica de los test, como se
vas aplicaciones, pues resulta muy costoso en tiempo observa en la figura 7.26.
y dinero incorporar nuevos ítems a los bancos, dado Supongamos que los test de la figura 7.26 cons-
que es necesario todo un proceso de construcción, tan de 100 ítems cada uno. Para un valor de q = 0,30
validación y calibración. Algunos expertos estiman el valor de la CCT para el test A vale 50 y para el
que el precio de incorporar un nuevo ítem a un ban- test B vale 10. Es decir, obtener 50 puntos en el test
co puede llegar a rondar los mil dólares (Downing, A es lo mismo que obtener 10 en el B, ambos gene-
2006; Muckle, 2016; Vale, 2006), lo cual da una idea ran una q = 0,30. Para el resto de los valores se pro-
de los medios necesarios, si tenemos en cuenta que cede análogamente, pudiendo establecerse una re-
un banco puede alcanzar varios miles de ítems. presentación gráfica de la correspondencia entre las
puntuaciones de uno y otro test. Estrictamente, 50
y 10 serían las puntuaciones verdaderas estimadas
9. EQUIPARACIÓN DE PUNTUACIONES y, en la medida en que el modelo se ajuste a los da-
tos, también las empíricas. Como el ajuste perfecto
9.1. Concepto y técnicas no es lo usual, existen algunos métodos para mati-
zar la equiparación de las empíricas a partir de las
Seguramente el lector se hallará sorprendido de verdaderas estimadas, en vez de considerarlas inter-
que, tras señalar repetidamente que la TRI permitía cambiables sin más (véanse, por ejemplo, Hamble-
obtener medidas independientes de los instrumen- ton y Swaminathan; 1985; Lord, 1980). No obstan-
tos de medida, se esté hablando ahora de equiparar te, en la práctica las diferencias son insignificantes
puntuaciones obtenidas con distintos instrumentos. si el modelo se ajusta razonablemente (Lord y Win-
La sorpresa está justificada si se ha comprendido gersky, 1983), y, claro, si no se ajusta, hay que des-
todo lo anterior. Ciertamente, si se dispone de un cartarlo. La única ventaja que puede tener hablar en
conjunto de ítems (banco de ítems) calibrados, esto términos de las puntuaciones en los test y no de los
es, de los cuales se conocen sus parámetros previa- valores estimados de q es la mejor comprensión por
mente estimados, y el modelo de TRI se ajusta a los parte de los usuarios y clientes no muy familiariza-
datos, entonces es indiferente qué subconjunto de dos con la TRI, pero la información proporcionada
ellos se utilice como test, pues todos darán las mis- es estrictamente la misma, ya que las puntuaciones
mas estimaciones de q para las personas. En otras estimadas verdaderas en el test son una transforma-
palabras, el instrumento utilizado sí es invariante ción de q mediante la curva característica del test.
respecto de la medida de q. Desde el punto de vista Ahora bien, la situación real más habitual
de la TRI no habría, por tanto, ninguna necesidad (otras muchas son pensables) no es la precedente e
de establecer equivalencias entre los valores de q da- idílica en la que se dispone de un gran banco de
dos por los distintos test, ya que están en la misma ítems calibrados en la misma métrica del cual se
© Ediciones Pirámide
244 / Introducción a la Psicometría
A
100
B
80
60
V
40
20
0
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0
q
Figura 7.26.—Equiparación de las puntuaciones verdaderas estimadas de dos test, mediante sus curvas características.
extraen subconjuntos de ítems (test) para aplicar el nuevo test aplicado a nuevas personas con las ge-
según las conveniencias. Entre otras cosas, no lo es neradas por los anteriores test cuyos ítems están
porque los test se suelen «quemar» tras su utiliza- calibrados en otra métrica. En suma, es un proble-
ción en una ocasión, especialmente en algunos paí- ma de convertir la nueva métrica a la anterior. La
ses en los que existe una legislación que obliga a dificultad proviene de que las personas, y los ítems,
hacerlos públicos junto con las respuestas una vez son distintos; si fuesen los mismos, sencillamente se
que se han corregido y puntuado. Además, para ca- estimarían los parámetros conjuntamente en una
librar los ítems e incluirlos en el banco habría que métrica común, con lo que los valores estimados de
aplicarlos previamente a una muestra análoga a la q serían invariantes. La solución habitual es la ya
de interés, con el consecuente riesgo de filtraciones. citada en la construcción de los bancos de ítems, y
Piénsese que, en determinados casos, la puntuación consiste en incluir en el nuevo test un conjunto de
puede ser de gran importancia para la vida futura ítems calibrados en la métrica del test (o banco) con
de las personas: acceder o no a la universidad, ser el que se desea hacer equivaler el nuevo, esto es,
admitido en una profesión, etc., con todo un nego- utilizar un test de anclaje. Si, por ejemplo, el nuevo
cio de escuelas y academias preparando y entrenan- test consta de 100, se le añaden 20 calibrados que
do a tales efectos. Evidentemente, más que un pro- no van a ser generalmente utilizados en la califica-
blema teórico interesante de la medición psicológica ción pero que servirán para establecer el vínculo
o educativa, es este un problema típicamente apli- entre la anterior y presente métrica. Para ello se ca-
cado y que se plantea sobre todo a las instituciones libra el nuevo test, incluidos los ítems de vínculo,
dedicadas a la construcción y uso sistemático de estimando los parámetros de los ítems y los valores
test con distintos fines. Así que la situación más fre- de q para cada persona. A continuación se estable-
cuente en estos casos es disponer de un cierto ban- ce la relación lineal entre los parámetros b de los
co de ítems calibrados en una métrica común y uti- ítems comunes (test de anclaje) a ambas calibracio-
lizados previamente y de un nuevo test sin calibrar nes, en el ejemplo 20, y que en términos generales
en la misma métrica y que se va a usar en una vendrá dada por:
próxima evaluación. El problema es ahora cómo
equiparar las estimaciones de q proporcionadas por bp = (K )bn + D [7.46]
© Ediciones Pirámide
Teoría de respuesta a los ítems / 245
© Ediciones Pirámide
246 / Introducción a la Psicometría
1 S 2(X ) + 3Y – 1 S 2(X )4
S ya S ya 0,94(1,24) + 0,13 = 1,29
Ya = a a a
xa xa
Ya = (K )(X a ) + D Puntuaciones
Ítems Test A Test B
equiparadas
© Ediciones Pirámide
Teoría de respuesta a los ítems / 247
Para el resto de los valores se procede del mis- la lógica de este último consiste en estimar K y D
mo modo, obteniéndose los valores de la columna de tal guisa que minimicen las diferencias entre las
de la derecha de la tabla, correspondiente a las puntuaciones verdaderas estimadas por los test en-
puntuaciones del test B equiparadas para la métri- tre los que se trata de establecer la equivalencia.
ca del test A. Nótese que, en el caso de los ítems de En la práctica, afortunadamente, los programas
anclaje, se han promediado los valores asignados informáticos utilizados con los modelos de TRI per-
por la equiparación con los que de hecho tenían en miten llevar a cabo de un modo menos aparatoso el
el test A, dado que ambos valores por lo general no establecimiento de equivalencias entre dos test para
coincidirán exactamente. Así al ítem 16, por ejem- la situación anteriormente descrita. El diseño ilus-
plo, le correspondería un valor equiparado de: trado, en el que se utiliza un test común de anclaje
(–1,5)(1,24) + 0,13 = –1,73; sin embargo, en la co- entre los dos test a equiparar, es el más habitual en
lumna de la tabla correspondiente a las puntuacio- la práctica, por adaptarse bien a las situaciones
nes equiparadas aparece un valor de –1,81 que pro- «realmente existentes»; ahora bien, el diseño de
viene de promediar ambos valores: [–1,73 + equiparación más natural sería aplicar los dos test
+ (–1,9)]/2 = –1,81. Aquí, en mor de la sencillez, a equiparar a la misma muestra de personas y esti-
solo se equiparan los valores de los índices de difi- mar los parámetros de ambos conjuntamente en la
cultad (b), pero la misma ecuación de equiparación misma métrica. Cuando ello sea posible, así se reco-
se utilizaría para las puntuaciones de las personas. mienda. Incluso un tercer diseño (dos grupos equi-
Los índices de discriminación (a) quedarían equi- valentes) consistiría en aplicar ambos test a dos
parados al dividirlos entre 1,24, y los valores del muestras aleatorias de la misma población, en cuyo
parámetro c serían comunes para ambas métricas. caso, dada la aleatoriedad, cabría esperar distribu-
A modo de ejercicio puede el lector llevar a cabo la ciones parejas y se equipararían biunívocamente los
equiparación utilizando el modelo de regresión y valores de q obtenidos en ambas calibraciones. Este
comparar los resultados. método es altamente peligroso y no recomendable,
Señalar, finalmente, que, aunque aquí se ha ilus- amén de que para tal viaje no hace falta recurrir a
trado la equiparación mediante el método de me- la TRI, se puede llevar a cabo desde la óptica clási-
dia-desviación típica, debido a su sencillez, diversos ca, como de hecho se ha venido haciendo con cierta
autores (Hambleton y Swaminathan, 1985; Stoc- frecuencia. Para un tratamiento exhaustivo de los
king y Lord, 1983) recomiendan el de la media-des- problemas y métodos implicados en la equipara-
viación típica robustas o el método de la curva ca- ción, véanse Von Davier (2011) o Kolen y Brennan
racterística (Haebara, 1980; Stocking y Lord, 1983); (2014), y en español Navas (1996).
EJERCICIOS
© Ediciones Pirámide
248 / Introducción a la Psicometría
2. Un estudiante obtuvo una puntuación 4. Calcule la correlación entre las estimaciones
q = 1,3 en la segunda aplicación, ¿qué pun- de los parámetros b de los ítems de anclaje
tuación q le corresponde en el test utilizado en las dos ocasiones.
con la primera muestra? 5. ¿Cuál es la correlación entre los valores de b
3. Los parámetros estimados en la primera en la nueva métrica y las estimaciones hechas
aplicación para uno de los ítems fueron: a partir de ellos para la métrica primitiva? Co-
a = 0,75, b = 1,1 y c = 0,22. ¿Qué parámetros mente las diferencias entre este valor de la co-
le corresponderían en la nueva métrica? rrelación y el hallado en el apartado anterior.
SOLUCIONES
10. FUNCIONAMIENTO DIFERENCIAL igual modo para dos o más grupos de personas eva-
DE LOS ÍTEMS luadas, no perjudicando ni favoreciendo a las per-
sonas pertenecientes a distintos grupos, por ejemplo
10.1. Concepto hombres y mujeres, distintas culturas, nacionalida-
des, etc. En términos de la TRI, un ítem mostrará
El concepto de funcionamiento diferencial de FDI para dos o más grupos si a valores iguales de
los ítems (FDI) ya se expuso al tratar el enfoque q no corresponden valores iguales de P(q) en las
clásico. Como se indicaba entonces, se trata de ase- curvas características de los grupos considerados.
gurarse de que los ítems de un test funcionan de En la figura 7.27 aparece la curva característica de
M
1,00
H
0,80
0,60
P(q)
0,40
0,20
0,00
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0
q
Figura 7.27.—Curva característica de un ítem en una muestra de mujeres (M ) y en otra de hombres (H ).
© Ediciones Pirámide
Teoría de respuesta a los ítems / 249
un determinado ítem para dos grupos, uno de hom- saber, se hablará de sesgo siempre que se encuentren
bres y otro de mujeres. diferencias entre los grupos. Nótese que de la defi-
Nótese que para un mismo valor de q = qj , la nición original no se deriva esto: las comparaciones
probabilidad de acertar este ítem es superior para las no se establecen entre los grupos considerados glo-
mujeres que para los hombres. Por tanto, el ítem fun- balmente, sino entre las personas de ambos grupos
ciona diferente para hombres y mujeres, estando cla- que tienen el mismo nivel en la variable medida. Es
ramente sesgado contra los hombres, es decir, a nive- importante entender esta diferencia, pues es perfec-
les iguales de competencia en la variable medida q no tamente posible que un ítem esté sesgado «contra»
se corresponden probabilidades iguales de superar el determinada subpoblación según el primer concep-
ítem, están sistemáticamente a favor de las mujeres. to de sesgo y, sin embargo, este mismo grupo ob-
Más adelante se expondrán algunas técnicas para la tenga puntuaciones superiores a la subpoblación
evaluación y cuantificación del funcionamiento dife- «favorecida» por el sesgo. Dicha situación queda
rencial de los ítems en el marco de la TRI. ilustrada en la figura 7.28, en la que aparece la cur-
Como es fácil de entender, el problema del FDI va característica de un ítem para dos grupos, hom-
viene acompañado de serias implicaciones en el uso bres (H ) y mujeres (M ).
de los test, pues, de darse tal sesgo, ciertos grupos El ítem en cuestión está sesgado contra los
sociales, clásicamente blancos-negros, mujeres- hombres, pues para un mismo valor de q los valores
hombres, pobres-ricos, rurales-urbanos, etc. —cual- de P(q) son inferiores si la persona es hombre. Sin
quier otra partición es posible—, sufrirán las con- embargo, la puntuación media de los hombres es
secuencias. Si se toma una postura socialmente superior a la de las mujeres, lo cual depende de las
militante y se afirma de antemano que las variables distribuciones de q y no de las CCI. En la práctica,
psicológicas medidas han de tomar los mismos va- no se encontrarán habitualmente situaciones tan
lores para los grupos citados, u otros, entonces la claras como la utilizada aquí con el fin de ilustrar
definición de sesgo adoptada es mucho más lasa, a las diferencias entre ambos enfoques.
M
1,00
H
P(q)
0,50
0,00
–3,0
M H
q
© Ediciones Pirámide
250 / Introducción a la Psicometría
La psicometría se ocupa del sesgo tal como se por parte de varios expertos previo a su publica-
definió en primer lugar, es decir, entiende que un ítem ción. Una buena exposición sobre el modo de siste-
o un test están sesgados si personas igualmente com- matizar y formalizar esta revisión es la de Tittle
petentes y pertenecientes a distintas subpoblaciones (1982). Hecha tal revisión y aplicados los ítems a las
no tienen la misma probabilidad de superar el ítem personas, aún cabe llevar a cabo ciertos análisis es-
(o test). Ahora bien, si dos personas tienen el mismo tadísticos que permiten detectar el funcionamiento
nivel en una variable, ¿a qué se puede deber que un diferencial en ítems escapados al análisis previo. A
ítem diseñado para medir esa variable pueda estar este tipo de técnicas estadísticas a posteriori nos re-
sesgado, esto es, pueda ser más favorable a uno que ferimos aquí, pero dejando claro que solo son un
a otro? Las fuentes del sesgo son numerosas, y vienen complemento de un escrutinio riguroso previo.
generadas principalmente por el distinto bagaje cul- La TRI parece venir como anillo al dedo para
tural, social, económico, etc., de las personas. Dado la evaluación del FDI, como ya se apuntó al intro-
que estos antecedentes históricos de las personas ducir el concepto. Bajo la óptica de la TRI un ítem
nunca serán los mismos, y pueden ser marcadamente estará sesgado si su CCI no es la misma para los
distintos según la subcultura, si un ítem, o instru- grupos en consideración. En consecuencia, la lógica
mento, en general, se apoya más en la de unos que en general para evaluar el FDI será estimar las CCI
la de otros, tendrá altísimas probabilidades de no ser para ambos grupos y compararlas.
equitativo, de estar sesgado. Si, por ejemplo, un test En las dos figuras que siguen se ilustran dos ti-
de matemáticas está formulado de tal modo que exi- pos de FDI. En la figura 7.29 el ítem representado
ge un alto nivel de comprensión verbal, estará sesga- está claramente sesgado «contra» los hombres,
do contra los lectores menos eficientes. En términos mientras que en la figura 7.30 el sesgo depende del
de diseño se confunde el efecto de la comprensión nivel de q: para valores bajos de q el ítem está ses-
verbal con el de la competencia matemática, es decir, gado contra los hombres, y para niveles altos, con-
si una persona puntúa bajo en el test no sabremos a tra las mujeres. En el primer caso hablamos de FDI
ciencia cierta si atribuirlo a su bajo rendimiento en uniforme, y en el segundo, de no uniforme, pues
matemáticas o a que su competencia verbal es limi- depende de los valores de q.
tada y no ha llegado a captar los problemas plantea- Métodos para llevar a cabo la comparación de
dos. La casuística es interminable y puede decirse que las CCI se han propuesto varios, que van desde una
estrictamente no existen pruebas exentas completa- simple inspección visual de las CCI hasta complejos
mente de sesgo; más bien se trata de detectar la can- análisis estadísticos (Berk, 1982; Camilli y Shepard,
tidad de sesgo tolerable. Expuesto brevemente el con- 1994; Fidalgo, 1996; Hambleton y Swaminathan,
cepto de funcionamiento diferencial, véanse Shepard 1985; Lord, 1980; Rosenbaum, 1987; Rudner et al.,
(1982), Holland y Wainer (1993), Osterlind y Ever- 1980; Shepard et al., 1981, 1984, 1985).
son (2009) o Dorans y Cook (2016) para un análisis Aquí se comentarán brevemente algunos de ellos.
detallado. En español Fidalgo (1996) y Gómez, Hi-
dalgo y Gilera (2010) llevan a cabo muy buenas ex- Método de las áreas
posiciones del tema. A modo de ilustración, se des-
criben a continuación algunas de las técnicas sencillas Por este método (Rudner, 1977; Rudner et al.,
de que se valen los psicómetras para la detección del 1980), en un primer paso, se estiman las CCI de los
funcionamiento diferencial de los ítems. En la actua- ítems cuyo funcionamiento diferencial se está estu-
lidad los programas informáticos utilizados para es- diando para las dos (o más) subpoblaciones de in-
timar los parámetros de la TRI permiten asimismo terés, y a continuación se calcula el área compren-
la evaluación del FDI. dida entre las CCI. La cuantía del área constituye
un índice de la discrepancia entre las CCI y, en con-
10.2. Evaluación secuencia, del FDI, pues si ambas CCI coincidie-
sen, el área entre ambas sería cero, sería la misma
Seguramente el método más eficiente para evi- CCI, no habría funcionamiento diferencial.
tar en lo posible el funcionamiento diferencial de Más específicamente los pasos a seguir podrían
los ítems sea un cuidadoso análisis de su contenido concretarse en los siguientes:
© Ediciones Pirámide
Teoría de respuesta a los ítems / 251
1,00 M
H
P(q)
0,50
0,00
–3 –2 –1 0 1 2 3
q
1,00 H
M
0,80
0,60
P(q)
0,40
0,20
0,00
–3,0 –2,0 –1,0 0,0 1,0 2,0 3,0
q
1. Definir las subpoblaciones de interés, por 3. Estimar los parámetros de los ítems para el
ejemplo, mujeres-hombres, rural-urbano, modelo elegido en cada subpoblación. Los
universitarios-no universitarios, etc. parámetros han de estar en la misma métri-
El grupo más amplio suele denominarse ca en ambas subpoblaciones.
«referencia», y el minoritario, «focal». 4. Se calcula el área comprendida entre ambas
2. Elegir el modelo de TRI a utilizar. CCI:
© Ediciones Pirámide
252 / Introducción a la Psicometría
2(a2 – a1 )
A = (1 – c) ln [1 + e Da1a2 (b2 – b1)/( a2 – a1) ] – (b2 – b1 ) [7.52]
Da1a2
donde a, b y c son los parámetros de los ítems; D, Como se observa en la fórmula, las probabilida-
una constante que toma el valor 1,7, y q = 2,7182, des del grupo de referencia se restan del focal; por
la base de los logaritmos neperianos. Para poder uti- tanto, si el grupo de referencia es consistentemente
lizar esta fórmula se asume que el valor del paráme- superior al focal a lo largo de la escala, el valor de
tro c es el mismo para los dos grupos analizados. A será positivo, y si ocurre lo contrario, será negati-
Nótese que para el caso del modelo de dos paráme- vo. Si el FDI es no uniforme podría ocurrir que los
tros desaparece el término c, y para el caso del mo- valores positivos y negativos se anulasen, dando este
delo de un parámetro la fórmula se reduce a la dife- índice la falsa impresión de que no existe FDI cuan-
rencia absoluta entre los valores de los parámetros do en realidad sí lo hay, aunque no uniforme. Para
b de ambos grupos. Raju derivó posteriormente evitar este inconveniente puede utilizarse la misma
(Raju, 1990) una fórmula para el error típico del fórmula, pero elevando las diferencias al cuadrado
área, asumiendo que los cocientes entre el área y el y extrayendo la raíz cuadrada del resultado:
error típico se distribuyen según la curva normal.
Bajo este supuesto puede calcularse la significación
estadística del área, siempre en el supuesto de que
los parámetros c de ambas CCI son iguales. Las
A=
! #[P (θ ) − P (θ )] dθ
R F
2
[7.54]
#
A = [PR (θ ) – PF (θ )]dθ
[7.53] bargo, dos claros inconvenientes. El primero, ya ci-
tado, es que dan el mismo peso a todas las superfi-
© Ediciones Pirámide
Teoría de respuesta a los ítems / 253
© Ediciones Pirámide
254 / Introducción a la Psicometría
© Ediciones Pirámide
Teoría de respuesta a los ítems / 255
Según la autorizada opinión de Camilli y She- La discrepancia entre ambos valores es la medida
pard (1994), el índice DP sería el más indicado para del FDI.
el análisis del FDI bajo la óptica de la TRI, con lo El primer paso para obtener el índice de Linn y
cual es ciertamente difícil no estar de acuerdo. Harnisch es calcular las diferencias para cada per-
sona del grupo focal (Zj) entre su puntuación en el
Muestras pequeñas ítem (uj), que tomará los valores de 1 o 0 según lo
acierte o lo falle, y su probabilidad de superar el
Los métodos basados en la TRI tienen un in- ítem según la CCI elaborada a partir del grupo to-
conveniente común a todos ellos, derivado de los tal [PF + R(qj)]:
propios modelos de TRI, y es que para estimar los
parámetros con precisión las muestras tienen que [u j – PF + R (θ j )]
ser bastante amplias, por encima de 500 personas, Zj = [7.57]
por dar un número aproximado. Esto no suele re- PF + RQF + R
presentar ningún problema para las grandes com-
pañías que construyen y utilizan test, pero supone expresión que nos da la diferencia estandarizada
un serio inconveniente para numerosos profesiona- para una persona j del grupo focal entre su puntua-
les, tales como psicólogos o educadores, no integra- ción empírica y la pronosticada por la CCI del gru-
dos en grandes organizaciones. Es muy frecuente po total. Promediando los valores Zj de todas las
que este tipo de profesionales disponga de pocas personas del grupo focal, tendremos el índice gene-
personas, sobre todo en el caso del grupo focal, con ral (ZT) de FDI propuesto por Linn y Harnisch:
frecuencia minoritario, y, sin embargo, deseen inda-
gar el FDI de las pruebas utilizadas. Suele recomen- nF
Zj
darse el uso de alguno de los métodos clásicos ZT = ∑ nF
[7.58]
(Mantel-Haenszel, índice de estandarización, etc.) j =1
cuando se tienen muestras pequeñas, aunque tam-
poco estos funcionan a la perfección en esas cir- donde:
cunstancias. El rendimiento de los modelos de TRI
con muestras pequeñas no ha sido exhaustivamente Zj: Viene dado por la expresión 7.57.
investigado, aunque se dispone de varios trabajos nF: Es el número de personas del grupo focal.
que lo abordan (Hambleton et al., 1993; Linn y nF
Harnisch, 1981; Mazor et al., 1992; Muñiz, Ham- ∑ : Va de 1 al número total de personas del
bleton y Xing, 2001; Shepard et al., 1985). j = 1 grupo focal nF.
Linn y Harnisch (1981) propusieron una varian-
te interesante para seguir utilizando los modelos de Aparte de calcular este índice global de cada
TRI cuando en uno de los grupos, habitualmente el ítem, los autores sugieren que se calculen para zonas
focal, el número de personas es reducido. Los pasos de interés especial dentro del rango de q. Por ejem-
a seguir para la utilización de este procedimiento plo, podría dividirse q en varios intervalos y calcular
serían los siguientes: el índice Z para cada uno de ellos, lo que permitiría
analizar el FDI en función de las distintas zonas de
1. Estimar los parámetros de los modelos y las q. Ponderando los valores medios de Z de cada in-
puntuaciones q de las personas a partir de tervalo por el número de personas del grupo focal
la muestra completa, considerando conjun- dentro del intervalo correspondiente y sumando los
tamente el grupo de referencia y el focal. productos, se reproduciría el valor global ZT.
2. Comparar las probabilidades P(q) correspon- Si las personas del grupo focal obtienen siste-
dientes a la CCI así estimada con el rendi- máticamente puntuaciones inferiores a las pronos-
miento real de las personas del grupo focal. ticadas por la CCI global, el valor del índice ZT
será negativo; por el contrario, si su rendimiento es
Si no existiese FDI, ambos valores deberían superior, el índice será positivo. En el caso de FDI
coincidir, excepto por variaciones debidas al azar. no uniforme podrían anularse las diferencias posi-
© Ediciones Pirámide
256 / Introducción a la Psicometría
nF
Z 2j –1,0 0 0,50 –0,50 –1,00
ZT = ∑ nF
[7.59] –0,5 1 0,64 0,36 0,75
j =1 0,2 1 0,80 0,20 0,50
1,0 1 0,87 0,13 0,38
Una discrepancia clara entre los resultados ob- 1,8 1 0,90 0,10 0,33
tenidos mediante 7.58 y 7.59 sería indicativa de FDI 2,3 1 0,92 0,08 0,30
no uniforme. De nuevo, aquí no se dispone de prue-
bas estadísticas adecuadas para determinar la sig- Total: 1,26
nificación estadística de ZT, por lo que ha de pro-
cederse de modo descriptivo, como ya se indicara
en los casos anteriores. A partir de los valores de la última columna,
se obtiene el valor global del índice, dado por la
fórmula 7.58:
Ejemplo
1,26
En la primera columna de la tabla adjunta apa- ZT = = 0,21
6
recen las puntuaciones de las seis personas que
componen el grupo focal. La segunda columna (uj)
Una diferencia media de 0,21 es bastante eleva-
refleja si acertaron (1) o fallaron (0) el ítem analiza-
da, lo que indica que el ítem presenta un FDI para
do. La tercera (PR + F) ofrece la probabilidad de
el grupo de referencia y el focal, a favor del focal,
acertar el ítem según la CCI del grupo total.
dado que el signo de ZT es positivo. Nótese cómo
Para calcular el índice de Linn y Harnisch lo
los valores empíricos en el grupo focal son superio-
primero que hay que hacer es obtener la diferencia
res, excepto en un caso, a los pronosticados por la
entre uj y PR + F (cuarta columna) para cada persona
CCI del grupo total.
y dividir estas diferencias entre √PF + RQF + R (quinta
La filosofía del procedimiento de Linn y Har-
columna), obteniéndose así los valores Zj.
nisch (1981) de juntar ambos grupos, referencia y
Los valores de la última columna se calculan
focal, para llevar a cabo las estimaciones de los pa-
del siguiente modo:
rámetros no está exenta de críticas. A nivel teórico
puede ponerse en duda la legitimidad de juntar am-
–0,50 bos grupos, si se sospecha de la existencia de FDI,
Z1 = = –1,00
(0,50)(0,50) pues no constituirían muestras aleatorias de la mis-
ma población. Desde el punto de vista aplicado, si
0,36 el grupo de referencia es mucho más numeroso que
Z2 = = 0,75
(0,64)(0,36) el focal, es evidente que va a pesar más e influir en
la estimación de los parámetros y, por tanto, va a
0,20 tender a acercar la CCI global al grupo de referen-
Z3 = = 0,50
(0,80)(0,20) cia. No hay atajo sin trabajo, y esos serían los pea-
jes a pagar para obtener estimaciones más estables
0,13 que las que se conseguirían a partir de un grupo
Z4 = = 0,38
(0,87)(0,13) focal menguado en número de personas.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 257
donde:
b̂R – b̂F
Z = [7.60] c2: Tiene dos grados de libertad.
S ( b̂R ) + S 2 ( b̂F )
2
V: Vector de dimensión (1 × 2) de las diferen-
cias entre los parámetros b y a de ambas
donde bR§ y b§F son los parámetros del ítem estima- subpoblaciones.
dos en cada grupo, referencia y focal, S2(bR§ ) y S2(bF§ ) V ′: Vector traspuesto de V.
son las varianzas de b§ en cada grupo y Z se distri- Σ –1: Inversa de la matriz suma de varianzas co-
buye según la curva normal. varianzas de V para ambos grupos, de di-
El valor de Z obtenido se compara con el de la mensión (2 × 2).
distribución normal correspondiente al nivel de
Si la fórmula de Lord se aplica al modelo logís-
confianza adoptado, lo que permite aceptar o re-
tico de un parámetro, se simplifica notablemente,
chazar la hipótesis nula H0: b1 = b2.
pudiendo expresarse:
Para los modelos logísticos de dos y tres pará-
metros habrá que comparar b y a, considerando c
invariante y con valor cero en el caso de dos pará- (bF – bR )2
χ2 = [7.66]
metros. Lord (1980) propone el estadístico de con- var (bF ) + var (bR )
traste Z para ambos parámetros:
donde bF y bR son las estimaciones de los paráme-
tros b en los dos grupos, y var (bF) y var (bR), las
b̂R – b̂F varianzas estimadas, dadas por la inversa de las
Zb = [7.61]
S ( b̂R ) + S 2 ( b̂F )
2 funciones de información correspondiente a los pa-
rámetros de dificultad estimados.
âR – âF
Za = [7.62]
S ( âR ) + S 2 ( âF )
2
Ejemplo
donde las varianzas de a§ y b§ para cada subpobla- Los parámetros de un ítem para dos grupos, es-
ción vienen dadas por: timados mediante el modelo logístico de dos pará-
metros, fueron los siguientes:
1
N
[Pj (θ ) – ĉ]2 Q j (θ ) aR = 0,40 bR = 0,42
Sb̂2 =
D â /(1 – ĉ)2
2 2 ∑ Pj (θ )
[7.63]
aF = 0,90 bF = 1,42
j =1
© Ediciones Pirámide
258 / Introducción a la Psicometría
En el grupo de referencia las varianzas y cova- Efectuando las divisiones, se obtiene finalmente
rianzas de las estimaciones de los parámetros fueron: la matriz Σ –1:
var (a) = 0,02; var (b) = 0,01; cov (a, b) = 0,03. En el
grupo focal se obtuvieron los siguientes valores:
40 –30
var (a) = 0,05; var (b) = 0,07; cov (a, b) = 0,03. Vea-
mos cómo se procede para obtener el valor de c 2.
3 –30 35 4
El vector V vendría dado por las diferencias en-
tre los parámetros a y b: Ahora ya disponemos de los datos necesarios
para obtener c 2, que vendrá dada por el producto
[(0,90 – 0,40), (1,42 – 0,42)] = [0,50, 1,00] del vector V, la matriz Σ –1 y el vector V ′:
El vector V ′ es el transpuesto de V:
40 –30
0,50
3 1,00 4
χ 2 = V ∑ –1V ′ = [0,50,1,00] × 3 –30 35 4×
0,50
Para obtener la matriz Σ –1 han de sumarse las
matrices de varianzas covarianzas en el grupo de
× 3 1,00 4 = 15
referencia y el focal y posteriormente calcular la in-
versa de la suma. La matriz de varianzas covarian- Con dos grados de libertad el valor de c 2 en
zas para el grupo de referencia según los datos del las tablas correspondientes al nivel de confianza
enunciado vendría dada por: de 95 % viene dado por 5,99. Dado que nuestro
valor empírico (15) es muy superior, rechazamos
0,02 0,03 la hipótesis nula de que los parámetros del ítem
3 0,03 0,01 4 son estadísticamente iguales para ambos grupos,
es decir, el ítem presenta un funcionamiento dife-
rencial.
Para el grupo focal: Mediante c 2 puede someterse a prueba la hipó-
tesis no solo de que b1 = b2 y a1 = a2, sino que tam-
0,05 0,03
3 0,03 0,07 4 bién c1 = c2, en cuyo caso los grados de libertad de
c 2 serían tres y no dos. La razón por la que en la
práctica no suele incluirse c es debido a que su es-
La suma de las matrices anteriores nos da la timación es bastante imprecisa, tiene un error típico
matriz Σ: alto, por lo que su inclusión aumentaría el conser-
vadurismo de la prueba, rebajando la posibilidad
0,07 0,06 de detectar ítems con FDI. Si realmente existe un
3 0,06 0,08 4 FDI, ha de manifestarse en los valores de a y b, y
si estos no fuesen distintos, sería demasiado arries-
gado afirmar la existencia de FDI basándonos úni-
Se calcula la inversa de la matriz Σ: camente en el parámetro c.
La crítica fundamental a estas técnicas de com-
— Determinante: paración de parámetros es que pueden detectar
FDI cuando, en realidad, las diferencias entre las
(0,07)(0,08) – (0,06)(0,06) = 0,002 CCI son mínimas en el rango de las puntuaciones
q de interés; además, el número de falsos positivos
— Inversa:
es elevado, detecta muchos ítems con FDI que no
son tales. Por ello, estas técnicas de comparación de
0,08/0,002 –0,06/0,002
3 –0,06/0,002 0,07/0,002 4 los parámetros de los ítems no son las más utiliza-
das en la práctica.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 259
© Ediciones Pirámide
260 / Introducción a la Psicometría
rías de los ítems, el tamaño de la muestra o 6. Utilizar muestreos adecuados que permitan
la dimensionalidad de los datos. confirmar los resultados obtenidos.
2. Cuando sea posible utilizar más de un mé- 7. Extraer varias muestras aleatorias del grupo
todo de detección para confirmar los resul- de referencia cuando las diferencias en la
tados. variable medida entre el grupo de referencia
3. Utilizar algún indicador del tamaño del y el focal sean importantes; por ejemplo los
efecto para distinguir entre la mera signifi- valores centrales difieren en más de una des-
cación estadística y un efecto relevante. viación típica.
4. Utilizar representaciones gráficas para in- 8. A la hora de interpretar los resultados del
terpretar y comunicar adecuadamente el FDI hay que tener en cuenta la dirección
FDI. del FDI, los posibles efectos de amplifica-
5. Cuando se encuentren ítems con FDI, eli- ción o cancelación, así como sus posibles
minarlos del test (purificar el test) y repetir implicaciones a la hora de interpretar las
los análisis, llevando a cabo el proceso de puntuaciones de la prueba.
forma gradual o iterativa.
EJERCICIOS
1. En la tabla adjunta aparecen los parámetros para los grupos de referencia y focal. ¿Qué
a, b y c de seis ítems estimados mediante el progra- ítems muestran FDI?
ma BILOG para un grupo de mujeres (referencia) 4. Calcule el funcionamiento diferencial de los
y otro de hombres (focal). Los seis ítems correspon- seis ítems mediante c 2 de Lord y compare
den a un test de comprensión verbal. los resultados con los obtenidos por el mé-
todo de Raju en el apartado anterior. En el
grupo de referencia las varianzas de las es-
Referencia Focal
Ítems timaciones (para todos los ítems) son:
a b c a b c var (a) = 0,02, var (b) = 0,01 y cov (a, b) = 0,03.
En el caso del grupo focal (para todos los
1 0,46 -0,79 0,11 0,46 -0,79 0,11 ítems), var (a) = 0,05, var (b) = 0,07,
2 0,66 0,60 0,30 0,66 0,60 0,30 cov (a, b) = 0,03.
3 0,49 0,02 0,17 0,49 1,02 0,17 5. Calcule la correlación entre los parámetros
4 0,91 -0,44 0,26 0,91 -0,44 0,26
b de los ítems de ambos grupos. Elimine los
5 1,15 0,38 0,18 1,15 0,38 0,18
ítems que muestren FDI y vuelva a calcular
6 0,40 0,52 0,22 0,90 1,52 0,22
la correlación. Explique los cambios, si es
que los hubiere, experimentados por el va-
1. Mediante una inspección visual de la tabla, lor de la correlación.
¿considera que alguno de los ítems parece
mostrar un funcionamiento diferencial para 2. Las cuatro personas de un grupo focal ob-
ambos grupos? Razone su respuesta. tuvieron en un ítem las siguientes puntuaciones: 0,
2. Represente gráficamente las curvas caracte- 1, 1, l. Es decir, solo la primera lo falló. Las pun-
rísticas de los seis ítems. Utilice para ello la tuaciones de estas personas en el test fueron res-
fórmula del modelo logístico de tres pará- pectivamente: –1, 0, 0,5, 1,0. Calcule el índice pro-
metros. puesto por Linn y Harnisch para el citado ítem,
3. Calcule mediante la fórmula de Raju el área sabiendo que sus parámetros estimados en el grupo
comprendida entre las CCI de los seis ítems total fueron: a = 0,6, b = 1, c = 0,2.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 261
SOLUCIONES
© Ediciones Pirámide
262 / Introducción a la Psicometría
lo que pretendemos evaluar. En suma, ¿cómo se A continuación se presenta una tabla en la que
adapta una prueba al nivel de la persona a evaluar aparecen los parámetros a, b y c estimados a los
si no conocemos ese nivel? Existe toda una literatu- cuarenta ítems de un banco de comprensión ver-
ra especializada al respecto; véanse, por ejemplo, bal. También aparecen en la tabla el índice de di-
Wainer (1990), Lord (1980), Urry (1977), Weiss ficultad clásico ( p) y el índice de discriminación
(1983), y en español Olea, Ponsoda y Prieto (1999). clásico o correlación ítem-test (rjx). Estos datos,
En términos generales, pueden distinguirse dos aparte de otros, siempre acompañan a los ítems en
aproximaciones principales: un banco.
— Doble-nivel.
— Multinivel. Ítem a b c p rjx
En la lógica del doble-nivel, en un primer paso, 1 0,46 –0,79 0,12 0,66 0,44
estadio o nivel se aplica el mismo test a todas las 2 0,51 –0,59 0,12 0,64 0,46
personas y, en función de la puntuación obtenida, 3 0,47 –1,07 0,12 0,70 0,44
4 0,65 –1,35 0,12 0,78 0,54
se les aplica un segundo test según haya sido su ren-
5 0,67 –1,57 0,12 0,82 0,56
dimiento en el primero. Es decir, el primer test co- 6 0,67 –0,33 0,18 0,62 0,50
mún se utiliza para estimar de forma aproximada el 7 0,39 0,67 0,00 0,37 0,41
nivel q de las personas, que se medirá con precisión 8 0,63 –0,07 0,17 0,57 0,47
mediante la segunda aplicación. Esta estrategia tie- 9 0,67 0,61 0,30 0,53 0,39
ne su lógica, pero en la actualidad prácticamente no 10 0,42 –1,22 0,12 0,71 0,44
se utiliza. 11 0,51 –0,78 0,12 0,66 0,47
En la estrategia de multinivel, aunque caben mu- 12 1,10 0,37 0,18 0,44 0,56
chas alternativas, en general se va aplicando ítem a 13 0,84 –0,29 0,20 0,62 0,57
ítem, decidiendo cuál será el siguiente en función de 14 1,17 0,06 0,25 0,56 0,56
15 0,93 –0,24 0,21 0,62 0,57
las respuestas a los anteriores. Los aciertos condu-
16 0,74 –0,01 0,09 0,51 0,56
cirán a ítems más difíciles, y los fallos, a ítems más 17 1,01 –0,13 0,26 0,63 0,57
fáciles. Ello plantea toda una tecnología y decisio- 18 0,95 0,96 0,24 0,40 0,43
nes a tomar, tales como cuándo detener el proceso, 19 0,96 0,09 0,19 0,53 0,57
cómo ramificar los caminos, cuántos ítems aplicar, 20 1,07 0,19 0,19 0,51 0,56
etc., muy bien tratado por Lord (1980) y en español 21 0,60 –0,43 0,12 0,61 0,49
Olea et al. (1999). 22 0,68 0,94 0,17 0,38 0,44
Además de la ventaja central de los test adapta- 23 0,80 0,12 0,12 0,50 0,54
dos, consistente, como ya se ha señalado, en el uso 24 1,11 1,64 0,15 0,22 0,35
de test ajustados al nivel de la persona para maxi- 25 0,83 0,97 0,24 0,40 0,42
26 0,92 0,98 0,14 0,32 0,48
mizar así la información a ese nivel, otros beneficios
27 0,79 0,61 0,21 0,45 0,46
colaterales no son despreciables. Normalmente, se 28 0,57 –1,18 0,14 0,74 0,49
necesita menor número de ítems, lo que disminuye 29 0,65 –0,67 0,14 0,66 0,53
los efectos de la fatiga. Aumenta la motivación de las 30 0,48 –0,79 0,14 0,66 0,45
personas, pues ni los muy competentes han de con- 31 0,61 –0,78 0,14 0,69 0,49
testar ítems demasiado fáciles para ellos ni los me- 32 0,61 –0,20 0,14 0,58 0,53
nos competentes se estrellarán ante ítems excesiva- 33 0,82 –0,25 0,27 0,66 0,54
mente difíciles para su nivel. 34 0,57 –0,10 0,14 0,55 0,47
35 0,52 –0,62 0,14 0,65 0,46
36 0,91 –0,45 0,26 0,70 0,58
37 0,87 0,63 0,37 0,54 0,44
Ejemplo
38 0,63 0,38 0,21 0,51 0,46
39 0,69 –1,30 0,14 0,79 0,57
Vamos a ilustrar con un ejemplo la lógica des- 40 0,73 0,09 0,18 0,54 0,53
crita.
© Ediciones Pirámide
Teoría de respuesta a los ítems / 263
Supongamos tres personas (X, Y, Z) a las que a validez aparente de la prueba, pues las personas
partir de datos previos se estima tentativamente que examinadas, ajenas a los arcanos psicométricos, no
les corresponderían las siguientes puntuaciones res- entienden bien que con tan pocos ítems puedan ser
pectivamente: X = –1,3, Y = 0,0, Z = 0,9. Si hubiese evaluadas con rigor.
que elegir únicamente cinco ítems para evaluar a cada En la actualidad los TAI constituyen una de las
una de estas tres personas, ¿cuáles se elegirían? En líneas de trabajo más vigorosas dentro de la evalua-
otras palabras, ¿cuál sería el test adaptativo de cinco ción psicométrica, tanto en investigación como en
ítems que evaluaría con mayor precisión a cada una las aplicaciones profesionales. Se han desarrollado
de esas tres personas? Como se ha señalado, se trata TAI para prácticamente todos los campos aplica-
de elegir aquellos ítems cuya dificultad sea más pa- dos dentro de la psicología, educación y en general
recida a las puntuaciones q de las personas. La ra- ciencias sociales y de la salud. Por ejemplo, se han
zón es bien sencilla, pues, como se expuso al tratar propuesto TAI para evaluar aspectos del cáncer
de la función de información, en los modelos de uno (Petersen et al., 2006), pediatría (Allen, Ni y Haley,
y dos parámetros los ítems miden con mayor preci- 2008), dolor de espalda (Kopec et al., 2008), ansie-
sión, dan su información máxima, exactamente para dad (Gibbons et al., 2008; Walter et al., 2007), de-
el valor de q = b; en el caso del modelo de tres pa- presión (Smits, Cuijpers y Van Straten, 2011), es-
rámetros, hay que corregir ese valor ligeramente. quizotipia (Fonseca, Menéndez, Paino, Lemos y
Compruebe el lector cómo para evaluar a la Muñiz, 2013), calidad de vida (Rebollo et al., 2009,
persona X, cuya puntuación q = –1,3, los cinco 2010), satisfacción laboral (Chien et al., 2009) o cli-
ítems más adecuados serían el 4, 5, 10, 28 y 39. Se ma organizacional (Menéndez, Peña, Fonseca y
trataría de los ítems cuya dificultad (b) se acerca Muñiz, 2017), solo por citar algunos ejemplos. El
más a la competencia de la persona (q = –1,3). Sin aumento del uso de los TAI a partir de los años
embargo, el test que mejor se adapta a la persona ochenta ha sido exponencial, con millones de apli-
Y (q = 0,0) estaría formado por los ítems: 8, 14, 16, caciones y numerosas pruebas nacionales e interna-
19 y 40. Finalmente, para evaluar a Z se elegirían cionales de todo tipo aplicadas en forma de TAI
los ítems 7, 18, 22, 25 y 26. Nótese que ninguno de (Wainer, 2000; Zenisky y Luecht, 2016).
los ítems es compartido por los test elegidos para Para quienes deseen profundizar en el estudio
cada persona, lo cual es debido a que el nivel de las de los TAI hay una literatura abundante. En español
tres personas en la variable medida q es muy distin- el libro editado por Olea, Ponsoda y Prieto (1999)
to, por lo que los ítems elegidos también lo son. es de lectura obligada, y en él se abordan los aspec-
A pesar de usar tres test distintos, los resultados tos fundamentales de los TAI, incluido el software
vendrían expresados en una métrica común, pues disponible para implementarlos. Una buena pano-
los tres se han extraído de un banco cuya métrica rámica, también en español, puede verse en Barra-
es única para todos los ítems que contiene. En la da (2012). Una excelente visión del desarrollo his-
práctica no se procede habitualmente como se ha tórico de los TAI puede consultarse en Way y Robin
hecho aquí con fines ilustrativos, sino que se van (2016), y sobre la situación actual y las perspectivas
presentando (mediante un ordenador) los ítems uno de futuro son de gran interés las reflexiones de Mills
a uno y, según la persona vaya acertando o fallan- y Breithaupt (2016) y Zenisky y Luecht (2016).
do, se aumenta o disminuye la dificultad del ítem Abundan los textos clásicos para profundizar en el
siguiente. tema, entre los que cabe citar, por ejemplo, los de
A cada paso el programa de ordenador estima Bartram y Hambleton (2006), Davey (2011), Van
la puntuación q de la persona y la precisión de la der Linden y Glas (2010) o Yan, Von Davier y Lewis
estimación, deteniéndose el proceso cuando se al- (2014). Cabe señalar, finalmente, que se está abrien-
canza una precisión prefijada mediante una función do paso con fuerza un tipo de test adaptativos que
de información objetivo, aunque también se pueden no toman como unidad adaptativa los ítems indivi-
establecer otros criterios. En la práctica suele fijarse duales, sino grupos de ítems, por lo que se denomi-
un número mínimo de ítems que toda persona debe nan «test multietápicos». Una buena exposición so-
contestar, aunque se haya alcanzado con menos bre ellos puede verse, por ejemplo, en Zenisky,
ítems la precisión prefijada. Se hace para mejorar la Hambleton y Luecht (2010) y Yan et al. (2014).
© Ediciones Pirámide
264 / Introducción a la Psicometría
EJERCICIOS
SOLUCIONES
© Ediciones Pirámide
Fases para la construcción de un test 8
Una vez que se han visto en los capítulos prece- proceso de validación ya comienza a fraguarse in-
dentes las propiedades psicométricas más impor- cluso antes de la propia elaboración empírica del
tantes de los test, vamos a recapitular y presentar instrumento, pues todas las acciones que se realicen
aquí de forma sintética los pasos generales que ha- antes, durante y después permitirán recoger eviden-
bría que seguir para construir un instrumento de cias que ayuden a la interpretación de las puntua-
medida. No se trata de una exposición exhaustiva, ciones y a la posterior toma de decisiones (Elosua,
que excede las pretensiones de este texto introduc- 2003; Markus y Borsboom, 2013; Muñiz, 2004;
torio, pero esperamos que permita al lector extraer Wells y Faulkner-Bond, 2016; Zumbo, 2007a).
una idea cabal de cómo proceder si tuviese que de- A continuación se sintetiza en diez pasos el pro-
sarrollar un nuevo test, escala o cuestionario. Tra- cedimiento a seguir para desarrollar una prueba,
tamientos exhaustivos pueden verse en los trabajos que en esencia recogen las recomendaciones de los
de Downing (2006), Downing y Haladyna (2006), últimos estándares de la AERA, APA y NCME
Haladyna y Rodríguez (2013), Schmeiser y Welch, (2014). Autores como Downing (2006) y Lane et al.
(2006) o Lane, Raymond y Haladyna (2016), entre (2016) prefieren establecer doce pasos o fases. Por
otros muchos. En este apartado seguiremos en lí- supuesto no existe un número mágico al respecto,
neas generales los trabajos previos sobre el tema de lo esencial queda recogido en los diez propuestos.
Muñiz y Fonseca (2008, 2017). En la tabla 8.1 se recogen de forma esquemática los
La construcción de un instrumento de medida pasos que se deben considerar en el proceso de
es un proceso complejo que aquí vamos a concretar construcción y validación de un instrumento de me-
en diez pasos, si bien estos no son automáticos ni dida.
universales y pueden variar en función del propósi- A continuación se comentan brevemente los pa-
to del instrumento de medida (selección, diagnósti- sos propuestos en la tabla 8.1.
co, etc.), del modelo psicométrico utilizado (teoría
clásica, teoría de respuesta a los ítems), del tipo de
respuesta exigida por los ítems (selección o cons- 1. MARCO GENERAL
trucción), del formato de administración (lápiz y
papel o informatizado) o del contexto de evaluación Todo proceso de construcción de un instrumen-
(diagnóstico, evaluación de rendimientos, etc.), por to de medida comienza por una explicación detalla-
citar solo algunos casos. Todo el proceso de cons- da y precisa de cuáles son las razones que motivan
trucción debe desarrollarse de forma rigurosa y ob- su desarrollo. Un nuevo instrumento no se constru-
jetiva, siguiendo unos estándares de calidad, para ye porque sí, hay que justificarlo adecuadamente.
así maximizar la validez de las inferencias hechas a Asimismo, hay que delimitar con claridad cuál es la
partir de las puntuaciones obtenidas en la prueba variable objeto de medición, cuál va a ser el contex-
por las personas evaluadas (Downing, 2006; Lane, to de aplicación, las circunstancias en las que se va
Raymond y Haladyna, 2016). Puede decirse que el a administrar el instrumento de evaluación, el tipo
© Ediciones Pirámide
266 / Introducción a la Psicometría
TABLA 8.1
Fases del proceso de construcción de un test
1. Marco general
— Justificación y motivación.
— Contexto de aplicación.
— Uso e interpretación de las puntuaciones.
2. Definición de la variable medida
— Definición operativa.
— Definición sintáctica.
— Definición semántica.
3. Especificaciones
— Requerimientos de aplicación.
— Tipo, número, longitud, formato, contenido y distribución de los ítems.
— Especificaciones e instrucciones en la entrega del material, seguridad.
4. Construcción de los ítems
— Principios generales para la construcción de ítems.
— Tipos de ítems.
— Directrices para la construcción de ítems de elección múltiple.
5. Edición
— Composición.
— Edición.
— Puntuación y corrección.
6. Estudios piloto
— Selección de la muestra piloto (cualitativo y cuantitativo).
— Análisis y resultados del estudio piloto (cualitativo y cuantitativo).
— Depuración, revisión, modificación o construcción de ítems.
7. Selección de otros instrumentos de medida
— Justificación teórica.
— Obtener evidencias de relación con variables externas.
— Utilizar pruebas ya validadas.
8. Aplicación del test
— Selección y tamaño de la muestra y tipo de muestreo.
— Aplicación del instrumento de medida.
— Control de calidad y seguridad de la base de datos.
9. Propiedades psicométricas
— Análisis de los ítems.
— Fiabilidad.
— Validez.
10. Versión final del test
— Informe.
— Prueba final.
— Manual.
© Ediciones Pirámide
Fases para la construcción de un test / 267
de administración (individual, colectiva), el formato de una prueba deben venir avalados por evidencias
de aplicación (lápiz y papel, informática) y qué de- empíricas, como bien establece la norma ISO 10667,
cisiones se van a tomar a partir de las puntuaciones. relativa a la evaluación de personas en entornos la-
Las causas que pueden llevar a la construcción de borales y organizacionales. Más aún, como indica
un instrumento de evaluación son lógicamente di- nuestro código deontológico en su artículo 17, el
versas. Por ejemplo, un psicólogo puede decidir psicólogo tiene que estar profesionalmente prepara-
construir un instrumento porque no existe ningún do y especializado en la utilización de métodos, ins-
otro para medir una determinada variable, porque trumentos, técnicas y procedimientos que adopte en
los instrumentos existentes presentan unas pésimas su trabajo, y debe reconocer los límites de su com-
propiedades psicométricas, porque no incorporan petencia y los de sus técnicas.
alguna faceta relevante para analizar dicha variable
o simplemente porque los existentes se han queda-
do obsoletos. Wilson (2005) detalla y comenta las 2. DEFINICIÓN DE LA VARIABLE MEDIDA
principales razones para generar nuevos instrumen-
tos de medida. El objetivo esencial de esta segunda fase es la
Los responsables de la construcción del instru- definición operativa, semántica y sintáctica de la
mento de medida no solo deben especificar el mo- variable medida, así como las facetas o dimensiones
tivo por el cual quieren desarrollar una nueva herra- que la componen (AERA, APA y NCME, 2014;
mienta de medida sino que también deben delimitar Carretero y Pérez, 2005; Wilson, 2005).
con claridad cuál es el contexto en el que se va a La variable evaluada debe definirse en términos
aplicar, lo que incluye necesariamente la población operativos para que pueda ser medida de forma em-
objeto de medición (pacientes, alumnos, empresas, pírica (Muñiz, 2004). En este sentido, tan interesan-
departamentos, etc.) y las circunstancias de apli- te puede ser definir cuidadosamente lo que es como
cación (lugar, medios de los que se dispone y con- lo que no es. La facilidad o dificultad de la defini-
diciones de aplicación, individual o colectiva). ción operativa depende en cierta medida de la na-
También debe especificarse de antemano con qué turaleza de la variable objeto de medición. Para lle-
propósito van a ser utilizadas las puntuaciones y var a cabo una definición operativa es clave realizar
qué decisiones se van a tomar a partir de ellas. En una revisión exhaustiva de la literatura publicada al
este sentido, las puntuaciones en un instrumento de respecto, así como la consulta a expertos (Clark y
evaluación pueden servir para propósitos varios, Watson, 1995; Wilson, 2005). Ello permite, por un
como por ejemplo: seleccionar, diagnosticar, clasi- lado, delimitar la variable objeto de medición, y
ficar, orientar, evaluar un dominio específico o in- considerar todas sus dimensiones relevantes, y, por
cluso como método de cribado (AERA, APA y otro, identificar con claridad los comportamientos
NCME, 2014). Se debe dejar claro que las inferen- más representativos de tal variable (Calero y Padi-
cias que se extraigan de las puntuaciones de un ins- lla, 2004; Smith, 2005). Hay que evitar dejar fuera
trumento de medida no son universales, son siem- alguna faceta o dominio relevante (infrarrepresen-
pre para un uso, contexto y población determinados. tación), así como ponderar en demasía una faceta
Nótese que lo que puede ser válido para un grupo o dominio de la variable (sobrerrepresentación)
determinado de personas o población tal vez no lo (Smith et al., 2003). Asimismo, no se deben incor-
sea para otra, y lo que pueda ser válido en un con- porar facetas, o ítems, que no tengan relación con
texto de evaluación no tiene por qué serlo en otro la variable objeto de medición (varianza irrelevan-
diferente (Zumbo, 2007). te). Una definición operativa y precisa de la variable
En suma, un instrumento de medida vale para influye de forma determinante en la posterior ob-
lo que vale, y hay que explicitarlo de forma clara. tención de los diferentes tipos de evidencias de va-
Ello no es óbice para que una prueba desarrollada lidez, ayuda a especificar las conductas más repre-
originalmente con una determinada finalidad se re- sentativas de la variable objeto de medición y
vele en el futuro, tras distintos procesos de valida- facilita el proceso de construcción de los ítems (Ca-
ción, como buena predictora de otros aspectos ini- rretero y Pérez, 2005; Elosua, 2003; Muñiz et al.,
cialmente no contemplados. Los usos que se hagan 2005; Sireci, 1998a; Smith, 2005).
© Ediciones Pirámide
268 / Introducción a la Psicometría
No solo es importante una definición operativa respecto de la aplicación estándar (Dorans y Cook,
de la variable sino que también es preciso identifi- 2016; Wells y Faulkner-Bond, 2016).
car y definir sus facetas o dominios (definición se- En relación con los ítems, se debe especificar su
mántica) y la relación que se establece entre ellas, tipo, el número, la longitud, el contenido y el orden
así como con otras variables de interés (definición (disposición), así como el formato de respuesta o el
sintáctica) (Lord y Novick, 1968). Lógicamente, las tipo de alternativas que se van a utilizar. Con res-
diferentes facetas que componen la variable medida pecto a este tema, no existen normas universales, y
se deberían encontrar relacionadas, dado que se su- todo dependerá de las circunstancias de aplicación,
pone que miden la misma variable o constructo. Al del propósito de la variable objeto de medición y de
mismo tiempo hay que establecer la relación con otras circunstancias.
otras variables de interés. La variable objeto de me-
dición no se encuentra aislada en el mundo, sino
que está en relación o interacción con otras varia- 4. CONSTRUCCIÓN DE LOS ÍTEMS
bles. Es interesante comprender y analizar estas re-
laciones especificándolas de antemano con el pro- La construcción de los ítems constituye una de
pósito de llevar a cabo posteriores estudios dirigidos las etapas más cruciales dentro del proceso de ela-
a la obtención de evidencias de validez (Carretero y boración del instrumento de medida. Los ítems son
Pérez, 2005; Muñiz, 2004; Smith, 2005). la materia prima, los ladrillos a partir de los cuales
se conforma un instrumento de evaluación, por lo
que una construcción deficiente de los mismos inci-
3. ESPECIFICACIONES dirá en las propiedades métricas finales del instru-
mento de medida y en la validez de las inferencias
Una vez delimitados el propósito de la evalua- que se hagan a partir de las puntuaciones (Halady-
ción y la definición operativa de la variable que in- na y Rodriguez, 2013; Lane, Raymond y Haladyna,
teresa medir, se deben llevar a cabo determinadas 2016; Muñiz et al., 2005; Osterlind, 1998; Schmeiser
especificaciones relacionadas con el instrumento de y Welch, 2006).
medida. En esta fase se deben describir de forma Los principios básicos que deben regir la cons-
detallada y precisa aspectos concernientes a los re- trucción de cualquier banco de ítems son: represen-
querimientos de aplicación del instrumento de me- tatividad, relevancia, diversidad, claridad, sencillez
dida, el tipo, número, longitud, contenido y distri- y comprensibilidad (Muñiz et al., 2005). Todos los
bución de los ítems, especificaciones e instrucciones dominios de la variable de interés deben estar igual-
en la entrega del material y aspectos relacionados mente representados (evitando la infra o sobre
con la seguridad del mismo. rrepresentación), aproximadamente con el mismo
Los requerimientos de aplicación del instru- número de ítems, a excepción de que se haya consi-
mento de medida se refieren a cuál va a ser el so- derado un dominio más relevante dentro de la va-
porte de administración (papel o informático), a riable y que, por tanto, deba tener un mayor núme-
qué tipo de aplicación se va a realizar (individual ro de ítems, esto es, una mayor representación. Un
y/o colectiva) y a cuándo y en qué lugar se va a ad- muestreo erróneo del dominio objeto de evaluación
ministrar el instrumento de medida. Igualmente, se sería una clara limitación en la obtención de evi-
deben especificar los requerimientos cognitivos, de dencias de validez de contenido y tendrá repercu-
vocabulario y de accesibilidad de los participantes. siones en las inferencias que con posterioridad se
Es importante llevar a cabo adaptaciones (acomo- hagan a partir de las puntuaciones. Los ítems deben
daciones) para aquellos participantes que no pue- ser heterogéneos y variados para así recoger una
dan desempeñar la tarea en igualdad de condicio- mayor variabilidad y representatividad de la varia-
nes que el resto, por ejemplo, disponer de una ble. Deben primar la claridad y la sencillez y se de-
versión en Braille para una persona con deficiencia ben evitar tecnicismos, negaciones, dobles negacio-
visual. Las adaptaciones que se realicen deben estar nes o enunciados excesivamente prolijos o ambiguos
convenientemente avaladas por evidencias empíri- (Muñiz et al., 2005). Del mismo modo, los ítems
cas para que no supongan ventajas ni desventajas deben ser comprensibles para la población a la cual
© Ediciones Pirámide
Fases para la construcción de un test / 269
© Ediciones Pirámide
270 / Introducción a la Psicometría
© Ediciones Pirámide
Fases para la construcción de un test / 271
algo más bajos que los test similares forma- un test. Esta reducción de ítems afecta al
dos por ítems de elección múltiple. muestreo del constructo evaluado y por tan-
— Según algunos autores, los ítems que son to a las evidencias de validez de contenido
verdaderos no se comportan igual que los que se pueden obtener.
falsos.
En suma, se trata de un formato poco recomen-
En suma, los ítems verdadero-falso pueden uti- dable.
lizarse, son una opción, pero siguen siendo preferi-
bles los de elección múltiple clásicos.
Emparejamiento
© Ediciones Pirámide
272 / Introducción a la Psicometría
cognitivas. En este formato la persona evaluada más alta (techo). Si en el análisis de los
debe posicionarse en una escala de varias catego- ítems se detectan este tipo de ítems, hay que
rías ordinales entre las que tiene que elegir. Por eliminarlos de la prueba o reformularlos
ejemplo: para futuras evaluaciones.
— Formular los ítems de forma positiva, evitar
Me considero una persona ordenada: los negativos. Este punto es polémico, pues
hay autores que recomiendan balancear los
1. Total desacuerdo. positivos y negativos y luego recodificar los
2. En desacuerdo. negativos para obtener la puntuación total.
3. De acuerdo. Esta recomendación de balancear los ítems
4. Totalmente de acuerdo. positivos y negativos viene motivada por
la creencia de que así se podría evitar la
La popularidad de este formato proviene de su aquiescencia a la hora de responder, pero
facilidad de aplicación y de su adaptación a cual- tiene más inconvenientes que ventajas, por
quier ámbito de evaluación, razón que explica en lo que se desaconseja su uso. Por un lado,
la práctica se haya impuesto a otros modelos me- no está nada claro que de hecho evite o mi-
jor fundados científicamente, pero de aplicación tigue la aquiescencia, y, por otro, la recodi-
menos sencilla, como el de las comparaciones bi- ficación de los ítems es una práctica muy
narias de Thurstone (1927a, 1927b, 1928b), entre problemática, por las asunciones en las que
otros. se basa.
Hay una literatura abundante sobre su cons- — El número de alternativas que debe tener un
trucción y uso (Dillman et al., 2009; Haladyna y ítem tipo Likert es una cuestión ampliamen-
Rodríguez, 2013; Krosnick y Presser, 2010). Co- te investigada, y que ofrece muchos matices.
mentaremos aquí los aspectos más relevantes, rela- A continuación se resumen los resultados
tivos a su formulación y al número de categorías. más destacados. No deben utilizarse ítems
con tres alternativas, pues la alternativa cen-
— La frase sobre la que hay que pronunciarse tral tiende a atraer una gran cantidad de
debe estar claramente formulada, con un respuestas, lo que rebaja la capacidad discri-
lenguaje claro y directo, sin ambigüedad, de minativa del ítem. La mayoría de las inves-
modo que sepamos con precisión sobre qué tigaciones indican que los ítems tipo Likert
se está posicionando exactamente la perso- funcionan bien cuando se utilizan entre cua-
na evaluada. tro y siete categorías, siendo muy frecuente
— No hay que utilizar ítems que se refieren a el uso de cinco. Podría argumentarse que en
dos cuestiones al mismo tiempo, para evitar el caso de cinco la alternativa central podría
confusiones. Por ejemplo, si utilizamos el monopolizar las respuestas, como ocurría
ítem me gusta el pan y el vino, nunca sabre- con tres, pero su efecto es menor al existir
mos con precisión sobre qué se está pronun- otras cuatro opciones. Con cuatro o cinco
ciando la persona evaluada, de modo que categorías los ítems funcionan bien y tiene
mejor desglosar el ítem en dos, uno para el la ventaja de que resulta sencillo asignar un
pan y otro para el vino. nombre o etiqueta a cada categoría, lo cual
— Utilizar un lenguaje adaptado a la pobla- se vuelve más difícil si se aumenta el núme-
ción a la que va dirigida la prueba, evitando ro de categorías. En algunas poblaciones fa-
tecnicismos o palabras rebuscadas. miliarizadas con determinadas escalas po-
— Utilizar frases cortas, evitando la verbosi- drían utilizarse estas, como es el caso de las
dad innecesaria. poblaciones de estudiantes, que conocen
— Evitar que se produzcan efectos suelo y te- perfectamente la escala 0-10 utilizada para
cho, es decir, que la mayoría o todas las res- sus calificaciones. La ventaja de estas esca-
puestas de las personas evaluadas se concen- las más amplias es que tienden a aumentar
tren en la categoría más baja (suelo), o en la la variabilidad de las puntuaciones de las
© Ediciones Pirámide
Fases para la construcción de un test / 273
personas, lo cual siempre es deseable de cara lo cual hay que evitarlo a toda costa, por razones
a los análisis estadísticos y psicométricos obvias. Por ejemplo, cuando la respuesta se escribe
posteriores. Algunos autores no aconsejan a mano, como es muy habitual, el tipo de letra
este uso (Couper et al., 2006; Krosnick, puede condicionar notablemente al corrector, per-
1999), sobre todo con poblaciones poco fa- judicando claramente a las personas con peor le-
miliarizadas con ellas, por la posibilidad de tra. Este aspecto podría evitarse utilizando un pro-
que generen patrones de respuesta diferen- cesador de texto, cuando ello sea posible. El efecto
ciales en función de la interpretación de la de halo es otro posible sesgo, dado que la opinión
escala numérica, no anclada a una denomi- que el evaluador tiene sobre la persona evaluada
nación concreta de las categorías. Un análi- puede condicionar por generalización la correc-
sis detallado de la influencia del número de ción. La solución es eliminar los nombres de las
categorías de los ítems tipo Likert sobre las personas de la prueba antes de llevar a cabo una
propiedades psicométricas de la escala pue- corrección para que esta sea ciega respecto de la
de verse en Muñiz et al. (2005) y Lozano, persona evaluada. El efecto anclaje puede ser otro
García-Cueto y Muñiz (2008). Para un aná- condicionante de la corrección; por ejemplo, si el
lisis de los errores en el uso de este formato evaluador acaba de corregir una prueba con un
véase Carifio y Perla (2007). gran nivel, sin pretenderlo va a tender a evaluar
con más rigor a la siguiente persona que corrija al
quedar anclado al elevado nivel de la anterior.
Ensayo Para evitar estos y otros sesgos es muy importante
instruir y entrenar de forma adecuada a los correc-
En todos los formatos de los ítems vistos más tores, así como enseñarles a establecer unos crite-
arriba la persona tenía que elegir o seleccionar una rios claros que les permitan una corrección más
respuesta entre las que se le ofrecían; por eso a analítica y objetiva. Estos criterios de corrección,
veces se alude a ellos con la expresión general de denominados «rúbricas», no solo permiten una
«formatos selectivos», o «de elección». Sin embar- mayor objetividad a la hora de corregir, sino que
go, en el formato que se comenta ahora, denomi- han de hacerse públicos para orientar a las perso-
nado «de ensayo», «desarrollo» o «construcción», nas evaluadas. Por ejemplo, para la evaluación del
la persona evaluada tiene que construir la respues- trabajo fin de grado (TFG) en la Facultad de Psi-
ta. Aunque existen posibles variaciones, aquí se cología de la Universidad de Oviedo, se establecen
comenta el formato genuino en el que se pide a la los siguientes criterios con sus correspondientes
persona evaluada que desarrolle un determinado pesos, y además cada uno de esos criterios o di-
tema, por ejemplo el concepto y tipos de fiabilidad. mensiones se desglosa con mayor detalle, tratando
Este formato es más utilizado en el ámbito educa- de evitar ambigüedades y evaluaciones no equita-
tivo que en el estrictamente psicológico, pero es tivas:
aplicable a cualquier contexto. La gran ventaja de
los formatos de construcción frente a los selectivos Aspectos formales (0-10 puntos).
es que permite una mayor libertad de expresión de
la persona evaluada, pudiendo apreciarse su capa- — Estructura del trabajo: 0-4
cidad de expresión, su creatividad, su estilo y or- — Ajuste a normas APA: 0-3
ganización, amén de su dominio del tema propues- — Redacción: 0-3
to. Por estas razones es un formato muy apreciado
entre los educadores, que con cierta frecuencia lo Contenidos (0-45 puntos).
prefieren a los formatos de elección, los cuales,
más que generar la propia respuesta, exigen a la — Fundamentación: 0-10
persona evaluada reconocer entre las alternativas — Originalidad y objetivos: 0-10
propuestas la correcta. Pero todo tiene un precio, — Metodología: 0-10
y el de los formatos de desarrollo es la posible sub- — Resultados y conclusiones: 0-10
jetividad a la hora de la corrección y puntuación, — Bibliografía: 0-05
© Ediciones Pirámide
274 / Introducción a la Psicometría
— Estructura y calidad técnica: 0-10 1. Cada ítem debe centrarse en un contenido
— Claridad expositiva: 0-10 específico y en una determinada demanda
— Interacción con el tribunal: 0-10 cognitiva.
Cada ítem irá dirigido a evaluar un con-
Valoración del tutor (0-15 puntos). tenido y solo uno, sin mezcla ni confusión,
elaborando todos los ítems que fuesen ne-
— Asistencia a las tutorías: 0-3 cesarios para muestrear adecuadamente
— Seguimiento de las orientaciones: 0-3 los contenidos. Asimismo, el ítem deberá
— Cumplimiento plan de trabajo: 0-3 centrarse en un solo proceso cognitivo,
— Interés e implicación en el TFG: 0-3 como puede ser comprender un concepto,
— Entrega dentro del plazo establecido: 0-3 aplicar un conocimiento, hacer inferencias
o lo que fuere.
Estas directrices o rúbricas no son la panacea, 2. Utilizar material novedoso para evaluar el
pero ayudan a objetivar la evaluación y a evitar ses- aprendizaje de alto nivel.
gos y subjetivismos. El problema de la construcción Cuando se utilice parte de un libro, tex-
y valoración de los ítems de ensayo está muy am- to o documento en la evaluación, conviene
pliamente tratado en la bibliografía psicométrica; parafrasearlo, no utilizarlo literalmente,
pueden consultarse, por ejemplo, las directrices del para así evitar evaluar el mero recuer-
Educational Testing Service (Baldwin et al., 2005; do. Lo mismo debe hacerse con cualquier
Livingston, 2009), Hogan y Murphy (2007) y un tipo de materiales utilizados en la ense-
buen resumen en Haladyna y Rodríguez (2013). Tal ñanza.
vez la solución radical a la objetividad de la evalua- 3. Mantener el contenido de cada ítem inde-
ción de los ensayos venga a través de una vigorosa pendiente del contenido de otros ítems del
línea actual de investigación psicométrica sobre la test, no utilizar ítems encadenados.
corrección automática mediante programas de or- Un ítem no tiene que hacer alusión a
denador. Puede sorprender al lector la posibilidad ningún otro ni estar encadenado a los an-
de que un ensayo pueda ser corregido por un pro- teriores. Cuando se utiliza un texto o ma-
grama informático, pero los avances en este campo terial sobre el cual se hacen varios ítems,
son notables, existiendo ya programas con altas hay que ser especialmente cuidadoso con
prestaciones (Livingston, 2009; Shermis y Burstein, que unos ítems hagan alusión a otros. Si
2013; Williamson et al., 2006, 2010). esto ocurriera, según Haladyna y Rodrí-
guez (2013), tiende a sobreestimarse la fia-
bilidad. Además, tienden a beneficiar a las
4.2. Directrices para la construcción personas con experiencia en hacer los test,
de ítems de elección múltiple aunque no controlen la materia evaluada.
Recuérdese que los modelos psicométricos
Los ítems de elección múltiple son los más uti- de TRI asumen la independencia local, es
lizados en numerosos ámbitos de la evaluación psi- decir, que la respuesta a un ítem no influye
cológica, educativa y en general en las ciencias so- en la respuesta a otro, con lo que se estaría
ciales y de la salud. Su construcción inadecuada violando este principio.
puede causar serios perjuicios a las personas eva- 4. El ítem debe evaluar un contenido impor-
luadas y atentar contra la equidad de los test. Se tante, evitando contenidos muy específicos
presentan a continuación las directrices para su o muy generales.
construcción, desarrolladas por Haladyna et al. El número de ítems de un test es limita-
(2002, 2013) y Rodríguez (2016). Se refieren al con- do, así que hay que centrarse en los temas
tenido, formato, estilo, redacción del enunciado y más relevantes a evaluar, evitando cuestio-
redacción de las alternativas de los ítems. nes marginales o muy generales.
© Ediciones Pirámide
Fases para la construcción de un test / 275
© Ediciones Pirámide
276 / Introducción a la Psicometría
compleja, al final no sabemos si los estu- variable medida y las menos competentes.
diantes desconocen el problema matemáti- Hay que evitar alternativas obvias o absur-
co planteado o sencillamente no tienen das que rebajan la discriminación del ítem.
claro qué se pregunta. Además, al reducir En el apartado dedicado al análisis de los
la longitud de los enunciados, podemos in- ítems ya se expuso cómo se pueden eva-
cluir más ítems en el mismo tiempo desti- luar empíricamente estos aspectos una vez
nado a la evaluación, con el consiguiente que se ha aplicado el test. También vimos
beneficio que ello supone para la fiabili- allí los argumentos psicométricos que in-
dad y validez del test, tal como se vio en dican que el número aconsejable de alter-
los apartados correspondientes. nativas es tres, frente a cuatro o cinco.
14.
Asegurarse de que solo una de las alternati-
Redacción del enunciado vas es la respuesta correcta.
Puede parecer una obviedad, pero con-
11.
Incluir la idea central en el enunciado y no viene asegurarse de que no hay dudas so-
en las alternativas. bre cuál es la respuesta correcta. Esto se
La parte importante del texto debe ir en consigue con una buena revisión por parte
el enunciado, dejando las alternativas con de varios expertos; si hubiese alguna duda
un texto breve. Un error bastante común al respecto, hay que eliminar o corregir el
es hacer un enunciado breve y luego meter ítem. Si se detecta el problema tras llevar
demasiado texto en las alternativas, lo cual a cabo la evaluación, hay que suprimir el
aumenta innecesariamente la longitud del ítem como mal menor, pero, como se indi-
ítem y hace la tarea de la persona evalua- có más arriba, no es deseable, pues plantea
da más difícil, pues no conoce el objetivo serios problemas deontológicos al perjudi-
final del ítem hasta que no lee todas las car a las personas evaluadas.
alternativas que contienen la mayor parte 15.
Variar la colocación de la respuesta correcta.
de la información. Se refiere a que hay que repartir aleato-
12.
Expresar el enunciado en términos positi- riamente la alternativa en la que se coloca
vos. la respuesta correcta. Si, por ejemplo, un
Hay que evitar formular los ítems de test consta de treinta ítems de tres alterna-
forma negativa. La razón de esta recomen- tivas cada uno, la respuesta correcta debe-
dación es que a las personas les resulta ría aparecer diez veces en la primera alter-
mucho más difícil comprender textos for- nativa, diez en la segunda y diez en la
mulados de forma negativa que positiva. tercera. Hay que asegurarse de que esto se
Por tanto, al formularlo negativamente, la lleva a cabo correctamente, pues si se deja
comprensión del ítem estaría interfiriendo al mero azar del constructor del test po-
con la variable medida. Por ejemplo, si dría ocurrir perfectamente que por deter-
pretendo evaluar la competencia matemá- minada querencia no consciente acabase,
tica de las personas, no es deseable que por ejemplo, apareciendo la respuesta co-
desempeñe un papel importante la com- rrecta en primer lugar en el 80 % de los
prensión verbal, ya que distorsionaría el casos, lo cual podría ayudar a las personas
resultado. evaluadas a obtener aciertos de forma es-
puria.
Redacción de las alernativas 16.
Colocar las alternativas en un orden lógico
o numérico.
13.
Utilizar opciones que sean plausibles y dis- Cuando en las alternativas del ítem apa-
criminativas. rezcan cantidades numéricas, o ciertos ar-
Las alternativas del ítem tienen que te- gumentos lógicos, hay que presentarlos
ner sentido, ser plausibles y discriminar ordenados. Los ítems tratan de detectar si
entre las personas más competentes en la la persona evaluada domina determinada
© Ediciones Pirámide
Fases para la construcción de un test / 277
© Ediciones Pirámide
278 / Introducción a la Psicometría
las incorrectas, dando la pista a las alternativas alguna que es absurda, ri-
personas evaluadas de que la correcta dícula, de dudoso gusto y por tanto
es la opción larga. Hay que evitar este obvia para todas las personas evalua-
error a toda costa. das. Estas alternativas no contribuyen
b)
Determinantes específicos. a la calidad del ítem, por lo que no
Hay que evitar dar pistas mediante deben utilizarse en ningún caso, son
la utilización de determinantes tales alternativas perdidas. El siguiente
como siempre, nunca, totalmente, ab- ítem sería un ejemplo claro de lo di-
solutamente o completamente. Estos cho:
determinantes son tan extremos que
raramente van a figurar en la respues- El modelo lineal clásico fue formu-
ta correcta, por lo que están indican- lado originalmente por:
do a las personas evaluadas que la
opción en la que aparecen no es la co- — Spearman.
rrecta. Lo mejor es evitarlos. — Obama.
c)
Asociaciones de términos. — Cervantes.
A veces en la formulación de los
ítems se pueden introducir términos en Una persona puede desconocer que
el enunciado asociados con alguna de fue Spearman, quien en 1904 formu-
las alternativas, dando pistas sobre la lase el modelo lineal clásico, pero se-
respuesta correcta. Hay que evitar estas guro que no fallará el ítem, dada su
asociaciones, que pueden ser de sonidos formulación lamentable.
similares, términos idénticos en el enun- f ) Homogeneidad de las alternativas.
ciado y las alternativas u otras posibili- Si las alternativas son muy hetero-
dades. Por ejemplo, el siguiente ítem géneas en contenido o en su estructu-
estaría cayendo en este error, al incluir ra gramatical pueden dar pistas sobre
el término «fiabilidad» en el enunciado la respuesta correcta, conviene que
y en la tercera alternativa, que es la co- tengan una cierta homogeneidad. Un
rrecta, dando pistas obvias sobre ella: trabajo detallado sobre este aspecto
puede consultarse en Ascalon et al.
La fiabilidad de las puntuaciones de (2007).
un test se evalúa mediante el coefi-
ciente de: 21.
Hacer plausibles todas las alternativas inco-
rrectas.
— Determinación. Las alternativas incorrectas, denomi-
— Validez. nadas con frecuencia «distractores», han
— Fiabilidad. de ser todas plausibles a priori. Es decir,
todas las alternativas incorrectas deben
d) Pares o tríos de alternativas que den tener su lógica y permitir la discrimina-
pistas sobre la opción correcta. ción entre las personas más competentes
Hay que evitar incluir entre las al- y menos competentes en la variable me-
ternativas pares o tríos de ellas que dida. En contextos educativos pueden
por su estrecha relación den pistas utilizarse los errores más comunes de los
claras a las personas evaluadas sobre estudiantes en la formulación de los dis-
cuál es la respuesta correcta. tractores.
e) Alternativas claramente absurdas o ri- 22.
No utilizar el humor.
dículas. No debe utilizarse el humor ni las gra-
Con demasiada frecuencia se en- cias en la formulación de los ítems. Por
cuentran ítems que incluyen entre sus supuesto, el uso del humor puede ser un
© Ediciones Pirámide
Fases para la construcción de un test / 279
recurso interesante en numerosas situacio- plo si existen ítems que se deben recodificar, si se va
nes de enseñanza y aprendizaje, contribu- a crear una puntuación total o varias puntaciones,
yendo a rebajar las tensiones y a crear un etcétera.
buen clima, pero su uso en la formulación
de los ítems no contribuye a mejorar la
evaluación, todo lo contrario. Como seña- 6. ESTUDIOS PILOTO
lan Haladyna y Rodríguez (2013), supone
el desperdicio del distractor en el que se La finalidad de cualquier estudio piloto es
incluye, haciendo, por tanto, el ítem más examinar el funcionamiento general del instru-
fácil. También puede contribuir a que las mento de medida en una muestra de participantes
personas evaluadas no se tomen en serio con características semejantes a la población ob-
la evaluación, y en algunos casos puede jeto de interés. Esta fase es de suma importancia,
generar reacciones negativas de las perso- ya que permite detectar, evitar y corregir posibles
nas evaluadas, sometidas como están a la errores, así como llevar a cabo una primera com-
presión de la evaluación. probación del funcionamiento del instrumento de
evaluación en el contexto aplicado. El estudio pi-
loto podría verse como una representación en mi-
5. EDICIÓN niatura de lo que posteriormente va a ser el estu-
dio de campo.
En esta fase se compone y se imprime la prime- Existen dos tipos fundamentales de estudio pi-
ra versión del test, además de construir la base de loto: cualitativo y cuantitativo (Wilson, 2005). El
datos con las claves de corrección. Este paso ha estudio piloto cualitativo permite, a partir de grupos
sido con frecuencia injustamente infraestimado y, de discusión, debatir diferentes aspectos relaciona-
sin embargo es esencial, pues el continente bien po- dos con el instrumento de medida, por ejemplo la
dría echar a perder el contenido. Buenos ítems po- detección de errores semánticos o gramaticales, el
bremente editados dan como resultado un mal test, grado de comprensibilidad de los ítems, las posibles
igual que los malos barriles pueden echar a perder incongruencias semánticas, etc. Los participantes en
los buenos vinos. Podemos haber construido un este pilotaje pueden ser (o no) similares a la pobla-
buen banco de ítems que de nada servirá si luego ción objeto de medición. Por su parte, el estudio pi-
estos se presentan de forma desorganizada, con loto cuantitativo permite examinar las propiedades
errores tipográficos, o en un cuadernillo defectuoso. métricas de la versión preliminar del instrumento de
Uno de los errores más frecuentes entre los cons- medida, y ha de llevarse a cabo con personas simi-
tructores de test aficionados es utilizar fotocopias lares a las que va dirigida la prueba. En ambos casos
malamente grapadas, con la excusa de que solo se se deben anotar de forma detallada todas las posi-
trata de una versión experimental de la prueba, ol- bles incidencias acaecidas durante la aplicación, por
vidándose de que para las personas que las respon- ejemplo preguntas o sugerencias de los participan-
den no existen pruebas experimentales, todas son tes, grado de comprensión de los ítems, así como
definitivas. El aspecto físico de la prueba forma posibles errores o problemas detectados en el instru-
parte de la validez aparente. Es importante que el mento.
instrumento dé la impresión de medir de manera A continuación, una vez tabulados los datos, se
objetiva, rigurosa, fiable y válida la variable de in- procede a los análisis de la calidad psicométrica de
terés, porque, entre otros aspectos, influye en un los ítems. En función de criterios sustantivos y es-
punto esencial presente en todo el proceso de eva- tadísticos, algunos ítems se mantienen mientras que
luación: la motivación de las personas evaluadas. otros son descartados o modificados. Es importan-
Por otra parte, en esta fase también se debe cons- te que el constructor del instrumento de evaluación
truir, si fuera el caso, la base de datos donde poste- deje constancia de qué ítems fueron eliminados o
riormente se van a tabular las puntuaciones y a rea- modificados y por qué, además de explicitar con
lizar los análisis estadísticos pertinentes, así como claridad el criterio (cualitativo o cuantitativo) por
las normas de corrección y puntuación, por ejem- el cual se eliminaron. En este paso, si se considera
© Ediciones Pirámide
280 / Introducción a la Psicometría
conveniente, se pueden incorporar nuevos ítems. a) Que se encuentren validados para la pobla-
Todas las actividades deben ir destinadas a seleccio- ción objeto de interés y se conozcan sus
nar los ítems con mayores garantías métricas que propiedades psicométricas.
maximicen las propiedades finales del instrumento b) Que sean sencillos y de rápida administra-
de evaluación. Finalmente, se debe construir una ción.
nueva versión del instrumento de medida que es re- c) Que tengan «coherencia» sustantiva de
visada de nuevo por el grupo de expertos y que será cara a establecer relaciones entre las varia-
la que en última instancia se administre en el estu- bles, dentro de una red nomológica.
dio final de campo.
© Ediciones Pirámide
Fases para la construcción de un test / 281
administración de este tipo de herramientas, dar las ceso de medición en la ciencia que sea, la psicolo-
instrucciones a los participantes correctamente, gía incluida, conlleva necesariamente un error, el
ejemplificar con claridad cómo se resuelven las pre- cual tiene que quedar claramente reflejado cuando
guntas, supervisar la administración y minimizar al el profesional lleva a cabo una evaluación.
máximo las posibles fuentes de error. Por todo ello En esta fase debe primar por encima de todo el
es recomendable elaborar unas pautas o directrices rigor metodológico. Todos los pasos y decisiones
que permitan estandarizar la administración del que se tomen se deben describir con claridad y de-
instrumento de medida y garanticen la equidad. ben estar correctamente razonadas. En un primer
El control de calidad de la base de datos es otro lugar se deben analizar los ítems tanto a nivel cua-
tema a veces poco valorado en el proceso de cons- litativo como cuantitativo. Para seleccionar los me-
trucción de instrumentos de medida. Por control de jores ítems desde el punto de vista psicométrico se
calidad nos referimos a una actividad que tiene pueden tener en cuenta el índice de dificultad (cuan-
como intención comprobar que los datos introduci- do proceda), el índice de discriminación, las cargas
dos en la base de datos se correspondan exactamen- factoriales y/o el funcionamiento diferencial de los
te con las puntuaciones de los participantes en la ítems (Muñiz et al., 2005). El funcionamiento dife-
prueba. Frecuentemente, cuando introducimos las rencial de los ítems trata de garantizar la equidad
puntuaciones de los participantes en una base de en el proceso de medición. La ausencia de funcio-
datos se pueden cometer multitud de errores, razón namiento diferencial en un ítem supone que la pro-
por la cual es altamente recomendable comprobar babilidad de respuesta correcta depende únicamen-
de forma rigurosa que los datos se han introducido te del nivel del participante en la variable objeto de
correctamente. Una estrategia sencilla que se puede medición, y no está condicionada por la pertenen-
utilizar a posteriori es la de extraer al azar un cier- cia a un grupo determinado o característica, por
to porcentaje de los participantes y comprobar la ejemplo, género, cultura u otro aspecto cualquiera
correspondencia entre las puntuaciones en la prue- (Gómez, Hidalgo y Guilera, 2010). No se debe per-
ba y la base de datos. No obstante, los mejores erro- der de vista que la finalidad del análisis psicométri-
res son los que no se cometen, así que hay que po- co de los ítems es maximizar o potenciar las propie-
ner todos los medios para minimizar los errores a dades métricas del instrumento de medida; no
la hora de construir la base de datos. obstante, no existen reglas universales, y las consi-
deraciones estadísticas no garantizan unos resulta-
dos con significación conceptual, por lo que hay
9. PROPIEDADES PSICOMÉTRICAS que tener presente también los aspectos sustantivos
(Muñiz et al., 2005).
Una vez aplicado el test a la muestra de interés, Una vez seleccionados los ítems, se procede al
se procede al estudio de las propiedades psicomé- estudio de la dimensionalidad del instrumento para
tricas de sus puntuaciones: análisis de los ítems, obtener evidencias de validez de su estructura inter-
estimación de la fiabilidad de las puntuaciones, ob- na. En el caso de encontrar una solución esencial-
tención de evidencias de validez (por ejemplo, mente unidimensional, nos podríamos plantear la
estudio de la dimensionalidad, análisis del funcio- construcción de una puntuación total, y en el caso
namiento diferencial de los ítems, relación con va- de una estructura multidimensional deberíamos
riables externas) y construcción de baremos. Como pensar en un conjunto de escalas o perfil de puntua-
se ha visto con detalle en el epígrafe 2, la fiabilidad ciones. El análisis factorial exploratorio y confirma-
se refiere a la precisión de las puntuaciones, esto es, torio y el análisis de componentes principales son
a la calidad de los datos, mientras que la validez se las técnicas multivariantes más utilizadas para exa-
refiere a la calidad de las inferencias hechas a par- minar la estructura interna que subyace a las pun-
tir de las puntuaciones (Prieto y Delgado, 2010). tuaciones de un instrumento de evaluación (Ferran-
En sentido estricto no es fiable el test, sino las pun- do y Anguiano, 2010), si bien no son las únicas
tuaciones obtenidas en él. Análogamente, un test (Cuesta, 1996). Una vez determinada la dimensio-
no es válido, sino que lo son las inferencias hechas nalidad de las puntuaciones del instrumento de me-
a partir de las puntuaciones. Nótese que todo pro- dida, se lleva a cabo una estimación de la fiabilidad,
© Ediciones Pirámide
282 / Introducción a la Psicometría
para lo cual se pueden seguir diversas estrategias, partir de las puntuaciones de las personas. Asimis-
tanto desde el punto de vista de la teoría clásica de mo conviene llevar a cabo una evaluación rigurosa
los test como de la teoría de respuesta a los ítems y sistemática del instrumento elaborado, para lo
(Muñiz, 1997a, 2003). Posteriormente, y de cara a cual puede utilizarse el modelo de evaluación de test
obtener evidencias de validez, se debe observar la elaborado por la European Federation of Professio-
relación del instrumento de medida con otros instru- nal Psychologists Associations (EFPA), adaptado
mentos de evaluación, y finalmente se lleva a cabo en España por Hernández, Ponsoda, Muñiz, Prieto
una baremación del instrumento de medida que per- y Elosua (2016), que se presenta en el siguiente ca-
mita establecer puntos de corte con alguna finalidad pítulo.
práctica o profesional. Los desarrollos estadísticos y Se han descrito los diez pasos fundamentales
técnicos en este campo son notables, incorporándo- que habría que seguir para desarrollar un test obje-
se cada vez más a menudo los métodos estadísticos tivo y riguroso para evaluar variables psicológicas.
robustos (Erceg-Hurn y Mirosevich, 2008), el análi- Estos pasos no se pueden abordar en profundidad
sis factorial confirmatorio (Brown, 2015), los test desde un punto de vista técnico en un breve docu-
adaptativos informatizados (Olea, Abad y Barrada, mento como este; no se trataba de eso, sino de po-
2010; Wells y Faulkner-Bond, 2016) o el análisis de ner a disposición de los estudiantes y profesionales
redes (Borsboom y Cramer, 2013). una guía general que les permitiese obtener una vi-
sión panorámica de las actividades implicadas en el
desarrollo de los instrumentos de medida. Se cita
10. VERSIÓN FINAL DEL TEST además la bibliografía especializada, a la que pue-
den acudir aquellos interesados en profundizar en
En último lugar, se procede a la elaboración de esta temática. El campo de la elaboración de instru-
la versión definitiva del test, se envía un informe mentos de medida está altamente desarrollado, y es
de resultados a las partes interesadas y se elabora el necesario acudir a personal cualificado para su de-
manual que permita su utilización a otras personas sarrollo adecuado, pues constituye una temeridad
o instituciones interesadas. El manual de la prueba dejarlo en manos de aficionados bienintencionados.
debe recoger con todo detalle todas las característi- Que un instrumento de evaluación esté adecuada-
cas relevantes de la prueba. Finalmente, y aunque mente construido y reúna las propiedades técnicas
sea la última fase, esto no quiere decir que el proce- idóneas es condición necesaria, pero no es suficien-
so de validación concluya aquí, pues posteriores es- te: además hay que utilizar la prueba de forma per-
tudios deberán seguir recogiendo evidencias de va- tinente. En el capítulo 9 nos ocupamos de la utili-
lidez que permitan tomar decisiones fundadas a zación adecuada de los test.
© Ediciones Pirámide
Utilización de los test 9
1. ESTRATEGIAS PARA MEJORAR EL USO su práctica. En este sentido, distintas organizaciones
DE LOS TEST nacionales e internacionales han desarrollado códi-
gos éticos y deontológicos, así como directrices va-
En los últimos años se ha hecho un esfuerzo im- rias para guiar el uso adecuado de los test. Entre los
portante por parte de distintas instituciones y orga- primeros cabe destacar el metacódigo ético de la Fe-
nismos para mejorar el uso de los test, y es que de deración Europea de Asociaciones de Psicólogos
nada vale que una prueba reúna las mejores carac- (EFPA, 1996), el código ético desarrollado por la
terísticas psicométricas si luego se falla a la hora de APA (2017), el código sobre uso de los test (Joint
su utilización. Las organizaciones que dedican sus Committee on Testing Practices, 2004) o las directri-
esfuerzos a mejorar el uso de los test, tanto naciona- ces de la Asociación Europea de Evaluación Psico-
les como internacionales, llevan a cabo acciones y lógica (Fernández-Ballesteros et al., 2003). Aparte
proyectos de carácter muy diverso, si bien pueden de estos códigos generales, disponemos en la actua-
articularse en torno a dos grandes estrategias: res- lidad de un conjunto de directrices que marcan los
trictiva e informativa. La estrategia restrictiva se re- pasos a seguir desde la propia construcción de la
fiere a las acciones llevadas a cabo para limitar o prueba, su aplicación, interpretación y aplicación de
restringir el uso de los test a aquellos profesionales los resultados (Bartram, 1998; Brennan, 2006; Dow-
que están realmente preparados para hacerlo, aun- ning y Haladyna, 2006; Muñiz, 1997b). Merecen
que los sistemas utilizados varían de unos países a mención especial los estándares técnicos desarrolla-
otros (Bartram, 1996; Bartram y Coyne, 1998; Mu- dos por la APA y otras dos organizaciones (AERA,
ñiz, Prieto, Almeida y Bartram, 1999; Muñiz et al., APA y NCME, 2014), así como las directrices elabo-
2001; Prieto y Muñiz, 2000). Puede tratarse de res- radas por la Comisión Internacional de Test (ITC)
tricciones legales para la comercialización de los para la traducción y adaptación de los test de unas
test, certificación de profesionales que pueden usar culturas a otras (Hambleton, Merenda y Spielberger,
las pruebas, restricción de acceso a los test si no se 2005; International Test Commission, 2017; Muñiz,
acredita la competencia como usuario, etc. Estas res- Elosua, Padilla y Hambleton, 2016). Para consultar
tricciones u otras son necesarias, pero no garantizan otras directrices sobre el uso de los test en general,
por sí solas un uso adecuado de los test (Moreland, de los test informatizados e internet, o la utilización
Eyde, Robertson, Primoff y Most, 1995; Simner, de los test en el ámbito del trabajo y las organizacio-
1996), por lo que hay que complementarlas con la nes, véanse, por ejemplo, los trabajos de Muñiz y
difusión de información a todas las partes implica- Bartram (2007) y Muñiz, Hernández y Ponsoda
das, tales como profesionales, usuarios, instituciones (2015) o las páginas web de la ITC (www.intestcom.
y sociedad en general. Estas acciones llevadas a cabo org) y de la EFPA (www.efpa.eu). También en la pá-
en el marco de la estrategia que hemos denominado gina web del Consejo General de Psicología de Es-
«informativa» se refieren a todo tipo de iniciativas paña, en el apartado de la Comisión de Test, se pue-
encaminadas a difundir información sobre los test y de consultar información de interés (www.cop.es). Al
© Ediciones Pirámide
284 / Introducción a la Psicometría
lado de los códigos éticos y las directrices, hay dos la fotocopia de los materiales psicotécnicos perjudi-
medidas que merecen atención dentro de las accio- ca a todos, empezando por los autores, continuan-
nes enmarcadas en la estrategia de la información. do por las compañías editoras de los test y siguien-
Se trata por un lado de una nueva norma ISO 10667, do por los propios usuarios y clientes, que no están
que regula todo lo relativo a la evaluación de perso- recibiendo el material adecuado, amén de dañar la
nas en contextos laborales, y, por otro, de los mode- propia reputación de un profesional que trabaja
los de evaluación de la calidad de los test desarrolla- con materiales fotocopiados.
dos en distintos países (Evers et al., 2013; Hernández,
Ponsoda, Muñiz, Prieto y Elosua, 2016). Se presen- TABLA 9.1
tan a continuación algunos de los aspectos más re-
levantes a la hora de mejorar el uso que se hace de Competencias mínimas para el uso de los test
los test.
1. Evitar errores al puntuar y registrar los resulta-
dos.
2. Abstenerse de etiquetar a las personas con tér-
2. FORMACIÓN DE LOS USUARIOS minos despectivos basándose en las puntuacio-
nes de los test.
¿Qué debe saber un psicólogo para utilizar los 3. Mantener la seguridad de las plantillas y resto
test adecuadamente? ¿Es suficiente la formación de materiales.
que recibe en el grado? ¿Se requiere una formación 4. Asegurarse de que todas las personas evaluadas
especial para el uso de ciertos test? ¿Pueden utilizar siguen las instrucciones.
los test de forma adecuada otros profesionales que 5. Aplicar los test en unas condiciones que permi-
tan a los evaluados un rendimiento óptimo.
no sean psicólogos? Esas son algunas de las pregun-
6. Abstenerse de entrenar a las personas en los
tas en torno a las cuales gira el problema de la for- ítems del test.
mación. En primer lugar, señalar que el mero grado 7. Estar dispuesto a interpretar las puntuaciones y
en psicología no es garantía de que se posean cono- aconsejar a las personas evaluadas en sesiones
cimientos suficientes para utilizar cualquier tipo de diseñadas para ello.
test con cualquier finalidad. En muchos países, no 8. No hacer fotocopias del material psicotécnico.
es el caso de España, el grado no implica pasar 9. Abstenerse de utilizar hojas de respuesta caseras
obligatoriamente cursos de psicometría para ser que pueden no ajustarse con precisión a la plan-
psicólogo, pero, incluso cuando es así, es imposible tilla.
dar en la carrera una formación que cubra todos los 10. Establecer una buena relación con las personas
evaluadas.
test y finalidades para las que se usan. Es, por tan-
11. Abstenerse de responder preguntas de las perso-
to, inevitable una formación continua de posgrado, nas evaluadas examinados con mayor detalle del
que puede venir vía másteres, doctorado o cursos permitido por el manual del test.
de especialización impartidos por distintas institu- 12. No asumir que una norma para un trabajo vale
ciones, tales como universidades, hospitales, organi- sin más para otro diferente y que las normas
zaciones profesionales, etc. Debido a esta variedad válidas para un grupo son automáticamente
de instituciones formadoras, existe también una aplicables a otro distinto.
amplia gama de currículums impartidos, pues la di-
versidad de conocimientos exigidos en función del Fuente: adaptado de Moreland, Eyde, Robertson, Primoff
y Most (1995).
tipo de test y del área de aplicación es muy extensa.
Moreland et al. (1995), en un interesante trabajo
sobre las cualificaciones de los usuarios de los test, Las competencias mínimas están bien, pero los
señalan doce competencias mínimas que debe po- problemas sobre cuáles son los currículums más
seer cualquier usuario (tabla 9.1); pero son solo eso, adecuados y quién debe impartirlos resultan más
los mínimos. Tal vez convenga subrayar, por obvia, complejos. Por ejemplo, la comisión de test de la
la octava, relativa a la fotocopia de los materiales. EFPA en una de sus reuniones (Muñiz, 1996a) dis-
Muchos psicólogos profesionales, así como profe- cutió un posible modelo de currículum para la for-
sores universitarios, no parecen darse cuenta de que mación en el que se contemplasen tres factores: la
© Ediciones Pirámide
Utilización de los test / 285
especialización requerida por el instrumento (tres nas evaluadas y de los responsables de la evalua-
niveles: A, B, C), el tipo de profesional (psicólogo, ción. Finalmente, en el apartado de aplicaciones se
médicos/educadores, otros) y el área de aplicación aborda el uso de los test en contextos aplicados, con
(clínica, educativa, trabajo). Cruzando los tres fac- especial atención al ámbito laboral, educativo y
tores, se tendría un modelo de 27 (3 × 3 × 3) currí- evaluación de programas. Estos estándares repre-
culums distintos, y no es exhaustivo, otros muchos sentan de algún modo el consenso psicométrico del
modelos son pensables. En Europa cabe destacar el momento, por lo que su uso y consulta resultan im-
modelo de formación en el uso de los test en el prescindibles tanto en el ámbito teórico como en el
campo de psicología del trabajo del colegio de psi- aplicado y profesional.
cólogos inglés (Bartram, 1996), así como la aproxi- Mención especial merece también la norma
mación holandesa (Evers, 1996). Una buena pano- ISO 10667, que regula todo lo relativo a la evalua-
rámica de lo que ocurre en Estados Unidos puede ción de personas en entornos laborales. Las siglas
consultarse en Fremer (1996). En nuestro país el ISO se refieren a la organización internacional
Colegio Oficial de Psicólogos (COP) ha creado una para la estandarización (www.iso.org), que desa-
comisión de test que está trabajando sobre este y rrolla normativas en todos sectores industriales y
otros asuntos relacionados con ellos. También tiene de servicios. En cada país tiene un representante
establecido un programa de formación continua oficial, que en el caso de España es AENOR. A
(FOCAD), que incluye algunos módulos relativos iniciativa de los representantes alemanes (DIN), se
a la construcción y uso de los instrumentos de me- inició un proceso para elaborar una nueva norma
dida. En suma, dada la rápida evolución del campo ISO que regulase todo lo relativo a la evaluación
de la evaluación psicométrica, la formación conti- de las personas en el ámbito laboral, y tras cuatro
nua resulta imprescindible para usar de forma rigu- años de trabajo de una comisión internacional la
rosa y responsable los instrumentos de medida. norma se publicó en 2011, y la versión española en
2013. Como es fácil de entender, esta nueva norma
es de gran interés para los psicólogos, dado su pa-
3. ESTÁNDARES TÉCNICOS pel central en la evaluación de personas en contex-
tos laborales. La norma no inventa nada nuevo,
Ahora bien, sea cual fuere el programa de for- sencillamente sistematiza y da estructura de norma
mación, las normas fundamentales a las que tratan ISO a las directrices, códigos éticos y regulaciones
de ajustarse los formadores de usuarios son los es- dispersas ya existentes en el ámbito de la evalua-
tándares para el uso de los test, elaborados a modo ción. La norma ISO tiene una gran importancia,
de códigos técnicos por las asociaciones de psicólo- pues, una vez aprobada, las empresas e institucio-
gos de los distintos países y entre los que destacan nes podrán certificarse en ella, garantizando que la
por su uso generalizado los editados conjuntamen- cumplen. No tiene rango legal en sentido estricto
te por la American Educational Research Associa- pero constituye una importante base reguladora
tion, la APA y el National Council on Measure- del mercado, pues no será lo mismo estar certifica-
ment in Education (2014). La primera edición de do que no estarlo. El objetivo de la norma es pro-
estos estándares data de 1954, con ediciones en porcionar unas reglas claras y concisas a los pro-
1955, 1966, 1974, 1985, 1999 y 2014. Los estándares veedores de servicios de evaluación y a los clientes
cubren todos los aspectos relativos a la construc- de estos, con el fin de llevar a cabo un proceso eva-
ción y uso de los test, y la última edición de 2014 se luativo riguroso. Cubre todo el proceso de evalua-
organiza en torno a tres grandes apartados: funda- ción, desde el establecimiento del contrato de eva-
mentos, operaciones y aplicaciones. En el apartado luación hasta la utilización de los resultados,
de fundamentos se recoge todo lo relativo a la vali- pasando por la metodología de la evaluación en sí
dez, fiabilidad y equidad de los test. En el dedicado misma. Es aplicable a los procedimientos y méto-
a las operaciones se aborda todo lo concerniente al dos utilizados a nivel individual (selección, consejo,
diseño y construcción de los test, puntuaciones, formación...), grupal (clima y cohesión de equipos
equiparación, baremos, puntos de corte, aplicación, de trabajo) y organizacional (clima laboral, cultura
documentación y derechos y deberes de las perso- de empresa, satisfacción...). En la norma se descri-
© Ediciones Pirámide
286 / Introducción a la Psicometría
ben las competencias, obligaciones y responsabili- ción a las partes implicadas (feedback) y
dades de los clientes y de los proveedores del servi- valoración de la evaluación.
cio de evaluación, antes, durante y después del Revisión postevaluación, donde se comprue-
f )
proceso evaluativo. También proporciona directri- ba el cumplimiento de los objetivos, lo que
ces para todas las partes implicadas en el proceso se desarrolló y no de acuerdo con lo pla-
evaluador, incluida la propia persona evaluada y neado, las lecciones aprendidas para la me-
quienes reciban los resultados de la evaluación. jora futura, las consecuencias deseadas y
Esta nueva norma puede suponer un importante no deseadas que se hallaron, la claridad de
paso para la buena práctica de la evaluación de los informes y el uso que se hace de ellos.
personas en contextos laborales y organizacionales
(Muñiz, 2012). Además, aporta unas ventajas cla- Además de estos apartados, la norma incluye
ras para los psicólogos que trabajan en contextos cuatro anexos con especificaciones sobre:
organizacionales, pues:
a) Derechos y deberes de los participantes en
a) Proporciona a los psicólogos un lenguaje la evaluación.
claro y riguroso sobre evaluación. b) Documentación técnica sobre los métodos
b) Aporta un protocolo internacional. y procedimientos utilizados, que incluye
c) Otorga un papel central al psicólogo en el todo lo relativo a la documentación y pro-
departamento de recursos humanos. piedades psicométricas de los instrumentos
d) Potencia el rol del departamento de recur- de medida utilizados (fiabilidad, validez,
sos humanos en el organigrama de la em- equidad, acomodaciones, etc.).
presa. c) Información complementaria sobre el aná-
lisis e interpretación de los resultados.
La norma consta de seis partes: d) Información complementaria sobre los in-
formes y sus características.
Objeto y ámbito de aplicación, donde se
a)
hace una introducción y una descripción En conclusión, la norma ISO 10667 regula con
general de la norma. precisión y rigor las evaluaciones en entornos labo-
Terminología y definiciones, que fijan el sen-
b) rales, asegurándose de que todas las decisiones to-
tido estricto de la terminología utilizada. madas sobre las personas se basen en evidencias
Acuerdo cliente-proveedor de servicio, donde
c) empíricas comprobadas.
se establecen las responsabilidades del clien-
te y del proveedor de servicios, se hace una
previsión de resultados y consecuencias, se 4. PREPARACIÓN PARA LOS TEST
deja clara la competencia de los profesiona-
les implicados en la evaluación y se fijan las Cuando los test se aplican en un contexto de
posibles actividades complementarias de in- selección de personal, bien sea profesional o educa-
vestigación a llevar a cabo. tiva, en el que la persona evaluada se juega mucho,
Procedimientos de preevaluación, que tratan
d) surge inevitablemente la búsqueda de preparación o
de identificar las necesidades evaluativas, entrenamiento para intentar superar el test. En Es-
tomar decisiones sobre los servicios de eva- paña, dado que la selectividad universitaria no se
luación ofertados y acuerdo entre el provee- lleva a cabo mediante pruebas psicométricas, como
dor de servicios y el cliente. ocurre en la mayoría de los países avanzados, este
Realización de la evaluación, que constituye
e) problema tiene una menor incidencia, pero es ha-
el núcleo de la norma y abarca los siguien- bitual en los exámenes PIR y MIR, por ejemplo,
tes procesos: planificación de la evaluación, aparte de en otros procesos de selección. Cualquier
información a los participantes, desarrollo área en la que el test desempeñe un papel importan-
de la evaluación, interpretación de los re- te para la persona evaluada es susceptible de prepa-
sultados, preparación de informes, informa- ración, incluso los test de integridad en el puesto de
© Ediciones Pirámide
Utilización de los test / 287
trabajo (Alliger et al., 1996). Los datos muestran qué hacer con las personas que por razones econó-
con bastante claridad (Messick y Jungeblut, 1981; micas no pueden acceder a cursos de preparación,
Powers, 1993) que, al menos en el campo del rendi- que no suelen ser baratos. Para mitigarlo, las insti-
miento educativo, la preparación específica para los tuciones encargadas de construir y aplicar la prueba
test logra algunas mejoras en las puntuaciones ob- deben poner en manos de los aspirantes materiales
tenidas. Las ganancias suelen ser algo mayores en suficientes para que puedan familiarizarse con ella.
las áreas cuantitativas que en las verbales, y ambas En estas situaciones de tanta relevancia para las
están en función, como no podía ser de otro modo, personas evaluadas no faltará quienes intenten uti-
de las horas dedicadas al entrenamiento. El asunto lizar cualquier medio a su alcance para superar la
alcanza tal envergadura económica que existen em- prueba, copiando de otros, por ejemplo. Las agen-
presas transnacionales especializadas en la prepara- cias responsables de este tipo de pruebas disponen
ción. En Israel, por ejemplo, el 77 % de los estu- de sistemas sofisticados para detectar a los copiado-
diantes se someten a cursos de preparación de las res y, aparte de la meticulosidad de todo el proceso,
pruebas de selectividad universitaria (Allalouf y tras la prueba llevan a cabo un escrutinio exhaustivo
Shakhar, 1998). Aunque haya muchos programas de las respuestas para detectar posibles anomalías.
distintos y modalidades, la preparación para los Existen varios índices estadísticos a tal efecto (Frary
test siempre conlleva al menos tres elementos: et al., 1977; Hanson el al., 1987), así como software
específicamente diseñado para la detección a poste-
a) Familiarizarse con el test: conocer las ins- riori de copiadores. Un análisis detallado sobre los
trucciones, tipos de ítems, tiempos, forma- fraudes en el uso de las pruebas y la seguridad pue-
tos, tipo de corrección, etc. de consultarse en Foster (2016), Impara y Foster
b) Revisión y estudio de los contenidos sobre (2006) o Wollack y Fremer (2013). También pueden
los que versa el test. verse las directrices de la ITC sobre seguridad (Mu-
c) Coger oficio (test wiseness) para responder ñiz, Hernández y Ponsoda, 2015).
al test, es decir, aprender a utilizar en bene-
ficio propio las características y formato del
test. 5. UTILIZACIÓN DE LOS DATOS
DE LOS TEST
Las cuatro estrategias clásicas para sacar bene-
ficio de las características del test serían: uso efi- Si todo se ha hecho bien, es decir, el test es fia-
ciente del tiempo disponible, evitación de errores, ble y válido y la aplicación y corrección se han lle-
control sobre los aciertos al azar y razonamiento vado a cabo sin errores, aún hay que salvar el últi-
deductivo (Millman et al., 1965; Rogers y Yang, mo escollo que puede hacer peligrar un uso ético y
1996). deontológico del test: la correcta utilización de los
El uso de entrenamientos para superar los test resultados. Como ya se ha visto en los códigos y
¿puede llegar a alterar la validez predictiva de estos? estándares expuestos, este es un aspecto central en
Si así fuera, estaríamos ante un problema ciertamen- la práctica. La regla general es que los resultados
te serio. Los datos empíricos de los que se dispone solo pueden ofrecerse al cliente o persona/institu-
(Allalouf y Shakhar, 1998; Baydar, 1990; Jones, ción autorizada, salvo casos especiales previstos por
1986; Powers, 1985) parecen indicar con bastante la ley, tales como evaluaciones obligatorias. El psi-
claridad que al menos la validez predictiva de los cólogo se mueve a veces en un terreno resbaladizo
test de rendimiento académico no viene negativa- donde convergen la ética profesional, los intereses
mente afectada por la preparación. Una buena revi- de compañías e instituciones y la legislación corres-
sión de los resultados y problemas implicados en el pondiente. No hay reglas universales, pero el psi-
entrenamiento para los test puede verse en los tra- cólogo tiene que hacer todo lo posible para que
bajos de Crocker (2006) y Bishop y Davis-Becker prevalezca su ética profesional. Debido a estas difi-
(2016); también los estándares de la AERA, APA y cultades, la APA (1996) ha publicado un documen-
NCME (2014) incluyen algunas directrices al respec- to complementario del código ético y estándares
to. Emerge, no obstante, un problema adjunto, el de técnicos para orientar a los psicólogos en el uso de
© Ediciones Pirámide
288 / Introducción a la Psicometría
los datos de los test. En dicho documento se tratan luación clínica, donde, por otra parte, las pruebas
problemas tales como necesidad de informar de for- tienen su correspondiente copyright. Un problema
ma exhaustiva al cliente, seguridad de los datos, especialmente grave se presenta si se pretende apli-
personas no cualificadas para el uso de los resulta- car el principio sin alguna corrección a los test
dos, protección del copyright de la prueba, perita- adaptativos informatizados. Estos test, como ya se
ciones judiciales, reproducción de ítems en medios ha señalado antes, operan aplicando ciertos ítems
de comunicación, uso de materiales para la ense- extraídos de un banco de ítems a cada persona eva-
ñanza y entrenamiento, etc. El denominador común luada. Tras examinar a unas cuantas personas, pro-
a todas las recomendaciones ofrecidas es la necesi- bablemente la mayoría (o todos) de los ítems del
dad de mantener suma prudencia a la hora de ma- banco habrán sido utilizados, de modo que si se les
nejar tanto los resultados como los materiales del obliga a publicarlos, sencillamente se quedan sin
test, pues, de lo contrario, podría echarse a perder banco de ítems. Distintas organizaciones están tra-
la prueba, independientemente de sus otras propie- tando de modificar la legislación existente en algu-
dades psicométricas. nos países, elaborada para test de papel y lápiz,
Dentro de este contexto del uso de los datos y para ajustarla a las nuevas exigencias de los test
materiales del test, requiere mención especial la adaptativos informatizados (Lunz, 1997). Una po-
obligación legal existente en algunos países de hacer sible alternativa sería, por ejemplo, publicar cada
público el test (disclosure) una vez que se ha califi- cierto tiempo un porcentaje de los ítems del banco.
cado. Los fines perseguidos con ello son nobles y Aparte de aumentar los costes y chocar con los de-
pueden sintetizarse en cuatro: rechos de copyright, hacer públicos sistemáticamen-
te los ítems de los test utilizados plantea interro-
a) Como cualquier otra industria, la aplica- gantes acerca de la influencia sobre la validez de la
ción de test debe estar sujeta al escrutinio prueba en el futuro. Indirectamente puede tender a
externo que asegure transparencia y cali- rebajar la calidad de la prueba, al obligar a los
dad. constructores a elaborar nuevos ítems cada vez que
b) Ofrece a las personas evaluadas informa- los utilizan una vez. Escribir ítems y contrastar sus
ción sobre su actuación, permitiéndoles propiedades psicométricas es tarea compleja técni-
aprender de sus errores. camente y nada barata en tiempo y economía. Pa-
c) Permite a los examinados comprobar que rece que lo prudente sería encontrar un punto in-
no se cometieron errores con ellos y que los termedio de equilibrio entre la necesidad innegable
ítems son adecuados. de que las personas evaluadas se familiaricen con
d) Hace posible que las personas evaluadas se las pruebas, lo cual se puede hacer de muchas for-
familiaricen con la prueba: formato, tipos mas, y el derecho de autores y editores a elaborar
de contenidos, tiempos, etc. sus pruebas en un clima de confianza, de acuerdo
con las exigencias deontológicas de la profesión.
En suma, al hacer público el test, las personas La International Test Commission (ITC) ha pu-
que se vayan a evaluar en el futuro pueden practi- blicado tres directrices de gran interés que regulan
car con protocolos reales del test y las ya evaluadas todo lo relativo a la seguridad, control de calidad y
reciben información sobre lo hecho. Es difícil no uso de los test en investigación (Muñiz, Hernández y
estar de acuerdo con estos fines, pero en la práctica Ponsoda, 2015). Su traducción al español de libre ac-
no siempre y en todo caso son estrictamente apli- ceso puede verse en la página web de la Comisión de
cables. La primera consecuencia de hacer público el Test del Colegio Oficial de Psicólogos: www.cop.es.
test es que los ítems solo son utilizables una vez, lo
cual encarece notablemente la prueba, pues hay que
hacer nuevos ítems para cada ocasión. Por otra 6. MODELO DE EVALUACIÓN
parte, esta filosofía encaja bien para el caso de exá- DE LA CALIDAD DE LOS TEST
menes selectivos que se realizan periódicamente,
sobre todo en el campo educativo, pero choca si se Como se ha señalado más arriba, las acciones
trata de llevar a la práctica en áreas como la eva- llevadas a cabo para mejorar el uso de los test pue-
© Ediciones Pirámide
Utilización de los test / 289
den englobarse en dos grandes estrategias: restricti- de los expertos, los funde en uno solo y genera un
va e informativa. Dentro de la estrategia informati- primer informe sobre la prueba. Este informe del
va, una de las acciones más importante es evaluar coordinador se envía a los editores de la prueba
la calidad de los test y poner estas evaluaciones a evaluada por si desean hacer algún comentario al
disposición de los usuarios. Con el fin de evaluar de respecto. Recibidos los comentarios de los editores,
forma rigurosa y sistemática la calidad de los test y el coordinador tiene en cuenta lo que considere
no dejarla al criterio subjetivo de los evaluadores, oportuno según su criterio y genera el informe de-
la Comisión Europea de Test establecida por la finitivo, que será publicado en la página web del
EFPA ha desarrollado un modelo sistemático y es- COP. Como se puede observar, se trata de una eva-
tructurado de evaluación, cuya versión española se luación por pares, similar a la que se lleva a cabo
presenta más adelante. Para una descripción y aná- para evaluar otro tipo de documentos, tales como
lisis detallado del modelo, véase el trabajo de Her- artículos científicos, proyectos o becas. No es per-
nández, Ponsoda, Muñiz, Prieto y Elosua (2016). fecto, nada humano lo es, pero no es el fácil encon-
En España el modelo se conoce por las siglas CET- trar otro mejor. Por ese sistema desde 2010 ya se
R, provenientes de Cuestionario de Evaluación de han llevado a cabo en España cinco evaluaciones
Test-Revisado, puesto que existía un modelo previo cuyos resultados pueden verse en la página web del
desarrollado por Prieto y Muñiz (2000), que se re- COP y en los artículos publicados por los coordi-
visó teniendo en cuenta el modelo europeo. nadores de las evaluaciones (Elosua y Geisinger,
El objetivo del modelo no es otro que llevar a 2016; Fonseca y Muñiz, 2017; Hernández, Tomás,
cabo una evaluación exhaustiva de la calidad de los Ferreres y Lloret, 2015; Muñiz et al., 2011; Ponsoda
test. Consta de tres grandes apartados. En el prime- y Hontangas, 2013). La idea es ir avanzando hasta
ro se realiza una descripción general del test en el que se hayan evaluado la mayor parte de los test
segundo se valoran las características del test (la ca- editados en España; lo ideal sería que todos los test
lidad de sus materiales, instrucciones, adaptación, estuviesen evaluados, como ocurre, por ejemplo, en
desarrollo, sus ítems, etc.) y sus propiedades psico- Holanda.
métricas (análisis de ítems, validez, fiabilidad e inter- La utilización de este modelo de evaluación tie-
pretación de las puntuaciones), y en el tercero se lle- ne dos grandes ventajas; por un lado, ofrece infor-
va a cabo una valoración global del test. mación detallada de los test evaluados por expertos,
Una vez que se dispone de un modelo para eva- lo cual es de gran ayuda para los usuarios, que dis-
luar la calidad de los test, la pregunta que surge es: ponen así de información exhaustiva de calidad so-
¿quién puede utilizarlo? Por supuesto, la respuesta bre los test. Por otro, no menos importante, el mo-
es quien lo desee; de hecho el modelo es de libre delo constituye una guía para editores y autores de
acceso en la página web del COP. Ahora bien, en test de cuáles son los estándares que se espera ten-
España, como ocurre en otros países, el COP ha gan sus test, contribuyendo así a la mejora de los
establecido una Comisión Nacional de Test que lle- nuevos test que se construyan o a las nuevas valida-
va a cabo evaluaciones anuales de test y publica los ciones de los test ya existentes.
resultados en su página web para que puedan con- A continuación se presenta el modelo CET-R;
sultarlas todas las personas interesadas. Para proce- primero se incluyen unos comentarios que se facili-
der a esta evaluación la Comisión de Test actúa de tan a los evaluadores antes de que apliquen el mo-
la siguiente manera. En primer lugar, se decide qué delo y luego se presenta el modelo. Como se puede
test se van a evaluar ese año, normalmente entre observar, el modelo es de carácter cuantitativo, pues
diez y doce, y luego se elige a la persona que va a cada característica se puntúa en una escala de 1 a
coordinar la evaluación. El coordinador será el res- 5, y también cualitativo, dado que el evaluador tie-
ponsable de todo el proceso evaluativo, siendo su ne que llevar a cabo una valoración de carácter na-
labor independiente de la Comisión de Test y de los rrativo. Esto contrasta con el modelo de evaluación
autores y editores de estos. Este coordinador elige americano utilizado por el instituto BUROS (Buc-
dos expertos que van a evaluar cada test utilizando kendahl y Plake, 2006), cuya valoración no es cuan-
el modelo CET-R. Si fuese necesario, puede elegir titativa. Para un análisis de ambos modelos véase
un tercer revisor. Una vez que recibe los informes Elosua y Geisinger (2016).
© Ediciones Pirámide
290 / Introducción a la Psicometría
© Ediciones Pirámide
Utilización de los test / 291
que inducen a error se comentan a conti- c) Por lo que se refiere a los análisis de
nuación: sensibilidad y especificidad que permi-
ten evaluar la capacidad diagnóstica del
a) Cuando se pregunta en el apartado de test, en ocasiones los resultados son
«análisis de ítems» por su calidad, se presentados como diferencias entre gru-
pide una valoración de la información pos, y otras, como evidencias de la ca-
psicométrica que el manual ofrece de pacidad del test para predecir la perte-
los ítems y no si, tras su lectura, nos nencia a un cierto grupo diagnóstico.
parece que están bien o mal redacta- Esta información, referida a capacidad
dos. diagnóstica, debe incluirse en evidencias
b) Algo similar ocurre cuando se pregun- de validez para predecir un criterio.
ta por validez de contenido. En reali-
dad se quiere saber qué comprobacio- En la dirección http://glosarios.servidor-
nes se aportan sobre si el test evalúa las alicante.com/psicometria pueden encontrar
partes relevantes del constructo de in- un breve glosario de términos psicométricos
terés. que puede resultar útil.
© Ediciones Pirámide
292 / Introducción a la Psicometría
CUESTIONARIO CET-R
1.2. Nombre del test en su versión original (si la versión española es una adaptación).
1.9. Fecha de la última revisión del test (si el test original es español) o de su adaptación espa-
ñola (si se trata de un test adaptado).
1.10. Clasifique el área general de la o las variables que pretende medir el test (es posible marcar
más de una opción).
(Identifique el área de contenido definido en la publicación. Si no hay una definición clara, debe
señalarlo en el apartado «Otros», e indicar cuál es el área de contenido más adecuada según la infor-
mación proporcionada en el manual.)
( ) Inteligencia
( ) Aptitudes
( ) Habilidades
( ) Psicomotricidad
( ) Neuropsicología
( ) Personalidad
( ) Motivación
( ) Actitudes
( ) Intereses
( ) Escalas de desarrollo
( ) Rendimiento académico/competencia curricular
( ) Escalas clínicas
( ) Potencial de aprendizaje
( ) Calidad de vida/bienestar
( ) Estrés/burnout
( ) Estilos cognitivos
( ) Otros (indique cuál: ............................................)
© Ediciones Pirámide
Utilización de los test / 293
( ) Psicología clínica
( ) Psicología educativa
( ) Neuropsicología
( ) Psicología forense
( ) Psicología del trabajo y las organizaciones
( ) Psicología del deporte
( ) Servicios sociales
( ) Salud general y bienestar
( ) Psicología del tráfico
( ) Otros (indique cuál: ............................................)
1.13. Formato de los ítems (es posible marcar más de una opción).
( ) Respuesta construida
( ) Respuesta dicotómica (sí/no, verdadero/falso, etc.)
( ) Elección múltiple
( ) Respuesta graduada/tipo Likert
( ) Adjetivos bipolares
( ) Otro (indique cuál: ............................................)
( ) Administración oral
( ) Papel y lápiz
( ) Manipulativo
( ) Informatizado
( ) Otro (indique cuál: ............................................)
1.16. Cualificación requerida para el uso del test de acuerdo con la documentación aportada.
(Algunos países han adoptado sistemas para la clasificación de los test en distintas categorías en
función de la cualificación requerida por los usuarios. Un sistema muy utilizado es el que divide los test
en tres categorías: nivel A [test de rendimiento y conocimientos], nivel B [test colectivos de aptitudes e
inteligencia] y nivel C [test de aplicación individual de inteligencia, personalidad y otros instrumentos
complejos].)
© Ediciones Pirámide
294 / Introducción a la Psicometría
( ) Ninguna
( ) Entrenamiento y acreditación especifica*
( ) Nivel A
( ) Nivel B
( ) Nivel C
( ) Otra (indique cuál: ............................................)
1.18. Indique si existen diferentes formas del test y sus características (formas paralelas, versiones
abreviadas, versiones informatizadas o impresas, versiones para diferentes poblaciones —infantil versus
adultos—, etc.). En el caso de que existan versiones informatizadas, describa los requisitos inusuales
del hardware y software, si los hubiere, que fueran necesarios para administrar correctamente el test
(grabación de sonido, pantallas de resolución inusual, etc.).
( ) Manual
( ) Hoja autocorregible
( ) Lectura óptica de la hoja de respuestas
( ) Automatizada por ordenador (existe software de corrección, o plataformas de corrección on-
line)
( ) Efectuada por la empresa suministradora (las hojas de respuesta se envían a la empresa
para que esta se ocupe de la corrección)
( ) Mediante expertos
( ) Otro (indique cuál: ............................................)
1.20. Puntuaciones.
(Describa el procedimiento para obtener las puntuaciones directas, totales o parciales, corrección de
la probabilidad de responder correctamente por azar, inversión de ítems, etc.)
( ) Centiles
( ) Quintiles
( ) Deciles
© Ediciones Pirámide
Utilización de los test / 295
( ) Puntuaciones estandarizadas
( ) Puntuaciones típicas
( ) Eneatipos
( ) Decatipos
( ) T (media 50 y desviación típica 10)
( ) D (media 50 y desviación típica 20)
( ) CI de desviación [media 100 y desviación típica 15 (Wechsler) o 16 (Stanford-Binet)]
( ) No
( ) Sí*
* En caso afirmativo, haga una breve valoración del informe automatizado en la que consten las
características fundamentales, tales como tipo de informe y estructura, claridad, estilo, así como
su calidad.
1.23. Tiempo estimado para la aplicación del test (instrucciones, ejemplos y respuestas a los ítems).
1.24. Documentación aportada por el editor (es posible marcar más de una opción).
( ) Manual
( ) Libros o artículos complementarios
( ) Discos u otros dispositivos magnéticos
( ) Información técnica complementaria y actualizaciones
( ) Otra (indique cuál: ............................................)
1.26. Precio y número de ejemplares del paquete de cuadernillos (test de papel y lápiz). Indique la
fecha de consulta de precios.
© Ediciones Pirámide
296 / Introducción a la Psicometría
1.27. Precio y número de ejemplares del paquete de hojas de respuesta (test de papel y lápiz). In-
dique la fecha de consulta de precios.
1.28. Precio de la administración, y/o corrección y/o elaboración de informes por parte del editor.
Indique la fecha de consulta de precios.
2.1. Calidad de los materiales del test (objetos, material impreso o software).
* ( ) Inadecuada
** ( ) Adecuada pero con algunas carencias
*** ( ) Adecuada
**** ( ) Buena
***** ( ) Excelente (impresión y presentación de calidad, objetos bien diseñados, software
atractivo y eficiente, etc.)
* ( ) Inadecuada
** ( ) Adecuada pero con algunas carencias
*** ( ) Adecuada
**** ( ) Buena
***** ( ) Excelente (descripción muy clara y completa de las características técnicas, funda-
mentada en abundantes datos y referencias)
2.4. Adaptación del test (si el test ha sido traducido y adaptado para su aplicación en España).
© Ediciones Pirámide
Utilización de los test / 297
2.6. Calidad de las instrucciones para que quienes han de responder al test comprendan con
facilidad la tarea.
* ( ) Inadecuada
** ( ) Adecuada pero con algunas carencias
*** ( ) Adecuada
**** ( ) Buena
***** ( ) Excelente (claras y precisas, muy adecuadas para las poblaciones a las que va diri-
gido el test, incluyendo posibles acomodaciones a poblaciones especiales cuando el
test también pueda aplicarse en este tipo de poblaciones)
2.7. Calidad de las instrucciones para la administración, puntuación e interpretación del test.
* ( ) Inadecuada
** ( ) Adecuada pero con algunas carencias
*** ( ) Adecuada
**** ( ) Buena
***** ( ) Excelente (claras y precisas, tanto para la administración del test como para su pun-
tuación e interpretación)
* ( ) Inadecuada
** ( ) Adecuada pero con algunas carencias
*** ( ) Adecuada
**** ( ) Buena
***** ( ) Excelente (el procedimiento para emitir o registrar las respuestas es muy simple, por
lo que se evitan los errores en la anotación)
© Ediciones Pirámide
298 / Introducción a la Psicometría
* ( ) Inadecuada
** ( ) Adecuada pero con algunas carencias
*** ( ) Adecuada
**** ( ) Buena
***** ( ) Excelente (reflejan una revisión adecuada y actualizada sobre el constructo y las re-
ferencias metodológicas que aporta son adecuadas)
2.11. Validez.
[Los estándares de la AERA, NCME y APA de 1999 y los últimos de 2014 (AERA, NCME, APA,
1999, 2014) han producido un cambio importante en el concepto de validez: no se valida el test, sino
interpretaciones o usos concretos de sus puntuaciones. No hay distintos tipos de validez (de contenido,
de constructo, referida al criterio, etc.), sino un tipo único. Se aceptan, eso sí, distintas fuentes de eviden-
cias de validez. La importancia de recoger una u otra evidencia dependerá principalmente del uso que se
vaya a hacer del test. De las distintas evidencias, las tres más relevantes son las basadas: a) en el conteni-
do; b) en las relaciones con otras variables (con un criterio que se pretende predecir, con otro test que
mida el mismo o un constructo relacionado, etc.), y c) en la estructura interna (como, por ejemplo, eva-
luando la estructura factorial). Los ítems que aparecen a continuación evalúan el grado en que las evi-
dencias aportadas en cada caso son más o menos adecuadas. Si el manual del test usara la diferenciación
clásica de distintos tipos de validez (por ejemplo, validez de constructo o validez referida a un criterio),
se deberá incorporar la información al apartado correspondiente en función del tipo de análisis realizado.]
© Ediciones Pirámide
Utilización de los test / 299
(
) No se aporta información en la documentación
* (
) No se ha consultado a expertos sobre la representación del contenido
** (
) Se ha consultado de manera informal a un pequeño número de expertos
*** ) Se ha consultado a un pequeño número de expertos mediante un procedimiento sis-
(
tematizado (N < 10)
**** ( ) Se ha consultado a un número moderado de expertos mediante un procedimiento
sistematizado (10 ≤ N ≤ 30)
***** ( ) Se ha consultado a un amplio número de expertos mediante un procedimiento siste-
matizado (N > 30)
2.11.2. Evidencias basadas en la relación entre las puntuaciones del test y otras variables.
2.11.2.1.1. Diseños y/o técnicas empleados (es posible marcar más de una opción).
© Ediciones Pirámide
300 / Introducción a la Psicometría
2.11.2.1.4. Calidad de los test marcadores empleados para evaluar las relaciones.
2.11.2.1.5. Promedio de las correlaciones del test con otros test que midan el mismo constructo o
constructos con los que se esperen relaciones altas.
(Se ofrecen puntos de corte para la evaluación de los coeficientes de correlación cuando se trata del
mismo constructo. Dado que se esperan correlaciones de menor tamaño cuando se correlaciona el test
con un constructo diferente, reduzca en 0,15 puntos los topes anteriores cuando haya de aplicarlos en
esta situación.)
2.11.2.1.6. Promedio de las correlaciones del test con otros test que midan constructos con los
que el test no debería estar relacionado.
© Ediciones Pirámide
Utilización de los test / 301
2.11.2.1.8. Resultados de las diferencias entre grupos (pueden ser grupos naturales —por ejemplo,
grupos demográficos— o experimentales).
2.11.2.2. Evidencias basadas en las relaciones entre las puntuaciones del test y un criterio.
2.11.2.2.3. Atendiendo a la relación temporal entre la aplicación del test y la medida del criterio,
indique el tipo de diseño (es posible marcar más de una opción).
( ) Retrospectivo
( ) Concurrente
( ) Predictivo
2.11.2.2.4. Tamaño de las muestras en las evidencias basadas en las relaciones con un criterio*.
© Ediciones Pirámide
302 / Introducción a la Psicometría
* Indique si alguna característica de las muestras (por ejemplo, su carácter clínico) pudiera justifi-
car el tamaño reducido de la o las muestras:
© Ediciones Pirámide
Utilización de los test / 303
***** ( ) Excelente (los resultados apoyan la estructura del test tanto en lo que se refiere al
número de factores extraídos como a su interpretación. Además, se proporciona in-
formación suficiente y adecuada para evaluar la calidad de las decisiones tomadas
al aplicar la técnica —AFE y/o AFC, método de factorización, rotación, software em-
pleado, etc.— e interpretar los resultados)
2.11.4. Indique si el manual del test informa de las acomodaciones a introducir en la administración
del test, para la correcta evaluación de personas con limitaciones o diversidad funcional.
( ) No
( ) Sí*
2.12. Fiabilidad
2.12.1. Datos aportados sobre la fiabilidad (es posible marcar más de una opción).
© Ediciones Pirámide
304 / Introducción a la Psicometría
© Ediciones Pirámide
Utilización de los test / 305
( ) No se aporta información
( ) Coeficiente alfa o KR-20
( ) Alfa ordinal
( ) Lambda-2
( ) Otro (indique cuál: ............................................)
© Ediciones Pirámide
306 / Introducción a la Psicometría
(
) No se aporta información en la documentación
* (
) Un estudio con una muestra pequeña
** (
) Un estudio con una muestra adecuada
*** (
) Un estudio con una muestra grande
**** (
) Varios estudios con muestras de tamaño moderado o con alguna muestra grande y
otras pequeñas
***** ( ) Varios estudios con muestras grandes
( ) No se aporta información
( ) Fiabilidad de las puntuaciones en el rasgo latente
( ) Función de Información
( ) Otro (indique cuál: ............................................)
2.12.6.1. Coeficientes de fiabilidad inter-jueces (es posible marcar más de una opción).
( ) Porcentaje de acuerdo
( ) Coeficiente kappa
( ) Coeficiente de correlación intraclase (ICC)
( ) Coeficiente basado en la teoría de la generalizabilidad
( ) Otro (indique cuál: ............................................)
© Ediciones Pirámide
Utilización de los test / 307
© Ediciones Pirámide
308 / Introducción a la Psicometría
* ( ) Pequeño (N < 150)
** ( ) Suficiente (150 ≤ N < 300)
*** ( ) Moderado (300 ≤ N < 600)
**** ( ) Grande (600 ≤ N < 1.000)
***** ( ) Muy grande (N ≥ 1.000)
( ) Sí
( ) No
© Ediciones Pirámide
Utilización de los test / 309
2.13.2.2. Si se utiliza el juicio de expertos para establecer los puntos de corte, indique el proce-
dimiento empleado para fijar el estándar.
( ) Nedelsky
( ) Angoff
( ) Zieky y Livingston
( ) Hofstee
( ) Otro (indique cuál: ............................................)
2.13.2.3. Si se utiliza el juicio de expertos para establecer los puntos de corte, indique cómo se
ha obtenido el acuerdo interjueces (es posible marcar más de una opción).
( ) Coeficiente r0
( ) Coeficiente kappa
( ) Coeficiente Livingston
( ) Coeficiente de correlación intraclase (ICC)
( ) Otro (indique cuál: ............................................)
2.13.2.4. Si se utiliza el juicio de expertos para establecer los puntos de corte, indique el valor del
coeficiente de acuerdo interjueces (por ejemplo, kappa o ICC).
3.1. Con una extensión máxima de 1.000 palabras, exprese su valoración del test, resaltando sus
puntos fuertes y débiles, así como recomendaciones acerca de su uso en diversas áreas profesionales.
Indique asimismo cuáles son las características de la prueba que podrían ser mejoradas, carencias
de información en la documentación, etc.
© Ediciones Pirámide
310 / Introducción a la Psicometría
TABLA 1
Descripción del test
Característica Apartado Descripción
En la tabla 2 se resume la valoración de las características generales del test. Tome en consideración el
promedio de las calificaciones emitidas en los apartados que figuran en la segunda columna de la tabla 2.
El número de asteriscos que acompaña a las opciones de respuesta de los ítems se corresponde con la pun-
tuación correspondiente a cada ítem (de 1. «Inadecuado» a 5. «Excelente»)
TABLA 2
Valoración del test
Característica Apartados Valoración
© Ediciones Pirámide
Mirando hacia el futuro 10
Predecir el futuro es tarea imposible, el de la estar ajena a estas nuevas tendencias, apareciendo
evaluación psicométrica incluido, pues como bien nuevos enfoques psicométricos conectados con el
nos advirtió Taleb (2008) en su libro El cisne negro, análisis de las grandes bases de datos (big data) de
nadie hasta ahora fue capaz de prever los grandes las que se dispone actualmente (Markovetz, Blasz-
acontecimientos que a la postre cambiaron el rum- kiewicz, Montag, Switala y Schlaepfer, 2014). Por
bo de la humanidad. No se trata, por tanto, de pre- ejemplo, las ventajas potenciales de usar los teléfo-
decir aquí el rumbo que tomará la evaluación psi- nos móviles como terminales para la evaluación
cológica del futuro lejano, sino de señalar las vías abren nuevas posibilidades para la psicometría del
que se vislumbran, basándonos en las tendencias futuro (Armayones et al., 2015; Chernyshenko y
actuales a partir de las cuales se va desarrollando la Stark, 2016; Miller, 2012). Trabajos como el pionero
disciplina. Nos apoyaremos para ello en trabajos de Kosinski, Stillwell y Graepel (2013) analizan con
previos sobre el tema (Muñiz, 2012, 2018; Muñiz éxito la posibilidad de utilizar los «me gusta» de
y Fernández-Hermida, 2010; Muñiz, Hernández y Facebook como predictores de distintas caracterís-
Ponsoda, 2015). Como ya se ha señalado varias ve- ticas humanas, entre ellas los rasgos de la persona-
ces a lo largo del libro, la gran fuerza que está re- lidad, lo que hace preguntarse si nuestros rastros en
modelando la evaluación psicológica en la actuali- las redes sociales sustituirán algún día no muy leja-
dad son las nuevas tecnologías de la información, y no a los cuestionarios y test tal como los conocemos
en especial los avances informáticos, multimedia ahora. No sabemos nada del futuro, pero se nos re-
e internet. Autores como Bennet (1999, 2006), Breit presenta bello y excitante, una lucha sorda de fondo
haupt, Mills y Melican (2006), Drasgow (2016), entre nuestra inteligencia de carbono y agua y la
Drasgow, Luecht y Bennet (2006) o Sireci y Faulk- artificial del silicio. No sabemos si una de ellas ven-
ner-Bond (2016), entre otros muchos, consideran cerá a la otra, o se producirá la simbiosis, pero lo
que las nuevas tecnologías están influyendo sobre que está claro es que el silicio reclama un mayor rol
todos los aspectos de la evaluación psicológica, ta- en nuestras vidas, y la evaluación psicométrica no
les como el diseño de los test, la construcción y pre- es una excepción. Eso sí, la prueba del algodón, el
sentación de los ítems, la puntuación de los test y la árbitro, siempre será la validez; todas las fantasías
evaluación a distancia. Emergen nuevas formas de y avances tecnológicos pasan por demostrar que
evaluación, aunque, no nos engañemos, los test psi- aportan mejoras en la medida del constructo eva-
cométricos seguirán siendo herramientas funda- luado, pues de lo contrario no dejarán de ser meros
mentales, dada su objetividad y economía de me- fuegos de artificio.
dios y tiempo (Phelps, 2005, 2008). En este contexto Según Hambleton (Hambleton, 2004, 2006,
de cambio tecnológico surge la llamada psicología 2009), seis grandes áreas están atrayendo la aten-
2.0 (Armayones et al., 2015), que pretende extender ción de investigadores y profesionales. La primera
la psicología a través de las facilidades que ofrecen es el uso internacional de los test, lo que plantea
internet y las redes sociales. La evaluación no puede todo un conjunto de problemas de adaptación de
© Ediciones Pirámide
312 / Introducción a la Psicometría
los test de unos países a otros (Byrne et al., 2009; Por su parte, Sireci y Faulkner-Bond (2016) su-
Hambleton et al., 2005; Muñiz et al., 2016). La se- brayan seis tendencias actuales en línea con las ya
gunda es el uso de nuevos modelos psicométricos y comentadas del profesor Hambleton: uso de los test
tecnologías para generar y analizar los test. La ter- para establecer responsabilidades sobre la calidad
cera es la aparición de nuevos formatos de ítems de la educación, hacer las evaluaciones más accesi-
derivados de los grandes avances informáticos bles y adaptables a todas las personas, sean cuales
y multimedia, pasando de las modestas matrices sean sus características personales, aumento de las
en blanco y negro a las pantallas interactivas, con evaluaciones internacionales, uso de las nuevas tec-
animación y sonido, capaces de reaccionar a las nologías para mejorar la evaluación (Drasgow,
respuestas de las personas evaluadas (Irvine y Ky- 2016), demanda de nuevos métodos para mejorar
llonen, 2002; Shermis y Burstein, 2013; Sireci y Ze- los informes de los resultados y la evaluación diag-
nisky, 2006, 2016). La cuarta área que reclamará nóstica y finalmente llevar a cabo evaluaciones en
gran atención es todo lo relacionado con los test contextos menos estructurados, como los juegos
informatizados y sus vínculos con internet. Como (gamificación), utilizando además el potencial for-
ya se ha comentado, mención especial merecen en mativo de las evaluaciones. En el reciente libro so-
este campo los test adaptativos informatizados que bre tecnología y test editado por Drasgow (2016) se
permiten ajustar la prueba a las características de incluyen interesantes capítulos sobre nuevos tipos
la persona evaluada, sin por ello perder objetividad de ítems, evaluación y juegos, simulaciones, ensam-
o comparabilidad entre las personas, lo cual abre blaje automático de los test, corrección automática
perspectivas muy prometedoras en la evaluación de las pruebas, evaluación ambulatoria, entre otros,
(Mills y Breithaupt, 2016; Zenisky y Luecht, 2016). que dan una buena idea de por dónde emergen las
La evaluación a distancia o teleevaluación es otra innovaciones en nuestros días.
línea que se abre camino con rapidez, lo cual plan- Otro tema que cobra pujanza es el de la evalua-
ta serios problemas de seguridad de los datos y de ción ambulatoria ya citada, que si bien tiene rancio
las personas, pues hay que comprobar que la perso- abolengo en psicología, está resurgiendo con fuerza
na que se está evaluando es la que realmente dice en la actualidad impulsada por las nuevas tecnolo-
ser, sobre todo en contextos de selección de perso- gías (Chernyshenko y Stark, 2016; Trull y Ebner-
nal o de pruebas con importantes repercusiones Priemer, 2009, 2013; Van Os, Delespaul, Wigman,
para la vida futura de la persona evaluada. En este Myin-Germeys y Wichers, 2013). La evaluación
campo se están dando grandes avances básicos y ambulatoria abarca una amplia gama de métodos
aplicados (Bartram y Hambleton, 2006; Leeson, de evaluación que tratan de estudiar las experien-
2006; Mills et al., 2002; Parshall et al., 2002; Wi- cias de las personas en su entorno natural y en la
lliamson et al., 2006; Wilson, 2005). En quinto lu- vida diaria, permitiendo evaluar determinadas va-
gar cabe señalar un campo que puede parecer peri- riables y constructos psicológicos desde una pers-
férico pero que está cobrando gran importancia. Se pectiva más dinámica, personalizada, contextual y
trata de los sistemas a utilizar para dar los resulta- ecológica. Permite evaluar los sentimientos, las cog-
dos a los usuarios y partes legítimamente implica- niciones, las emociones y los síntomas de las perso-
das. Es fundamental que estos comprendan sin nas mediante dispositivos móviles en su contexto
equívocos los resultados de las evaluaciones, y no real diario. Para ello habitualmente se realizan eva-
es obvio cuál es la mejor manera de hacerlo, sobre luaciones varias veces al día durante un período
todo si se tienen que enviar para la interpretación y temporal (típicamente una semana) para captar su-
explicación del profesional, como ocurre en nume- ficientemente la variabilidad de los fenómenos. Las
rosas situaciones de selección de personal o en la preguntas se activan mediante un beep en un marco
evaluación educativa (Goodman y Hambleton, temporal fijado por el investigador, por ejemplo,
2004; Zenisky y Hambleton, 2016). Finalmente es entre las diez de la mañana y las diez de la noche.
muy probable que en el futuro haya una gran de- Además, estos beeps pueden presentarse de forma
manda de formación por parte de distintos profe- aleatoria o en intervalos de tiempo predetermina-
sionales relacionados con la evaluación; estar al dos, por ejemplo cada 90 minutos. A lo largo de
tanto de los cambios exige formación continua. cada día se recogen diferentes muestras de compor-
© Ediciones Pirámide
Mirando hacia el futuro / 313
tamiento, aproximadamente seis u ocho por día du- dasy, Sommer, Herle, Schützhofer e Inwanschitz,
rante siete días. Todos estos datos se vuelcan a una 2011; Hogan, Barrett y Hogan, 2007). Para evitar
plataforma para su análisis posterior. Se trata, pues, estos inconvenientes se están desarrollado numero-
de un abordaje complementario a los procedimien- sas estrategias, destacando las pruebas ipsativas
tos tradicionales de evaluación psicométrica de pa- (Brown y Maydeu-Olivares, 2013) y los test de aso-
pel y lápiz en contextos más o menos artificiales y ciación implícita (IAT), los cuales permiten detectar
de corte más bien transversal y retrospectivo (Fon- la asociación automática que una persona muestra
seca y Muñiz, 2017). La flexibilidad de los nuevos sobre diferentes ideas, objetos o conceptos (Green-
modelos psicométricos de análisis de redes pueden wald y Banaji, 1995; Greenwald et al., 2009), evitan-
permitir la incorporación y análisis de este tipo de do así la distorsión consciente de los autoinformes.
datos (Borsboom y Cramer, 2013; Fonseca, 2017), Como cualquier otra tecnología emergente, los IAT
así como los modelos procedentes de la teoría de no están exentos de limitaciones y existe un debate
los sistemas dinámicos o la teoría del caos (Nelson, sobre ellos en la literatura especializada (Barth,
McGorry, Wichers, Wigman y Hartmann, 2017). 2007; Fazio y Olson, 2003; Gawronsky y Payne,
Otro reto fundamental al que se enfrenta la eva- 2010; Hofmann, Gawronski, Gschwendner, Le y
luación psicológica es el uso masivo de autoinformes Schmitt, 2005).
en detrimento de otros indicadores de carácter neuro- Estas son algunas líneas de trabajo y los retos
biológico, personas cercanas (proxies) u observación sobre los que muy probablemente girarán las activi-
conductual, entre otros. Ahora bien, los autoinformes dades evaluadoras en un futuro no muy lejano. No
tienen serias limitaciones a dos niveles: epistemológi- se trata de hacer una relación exhaustiva ni mucho
co y técnico. A nivel espistemológico, al hacer que una menos, sino de indicar algunas pistas para orientar-
persona informe sobre sí misma retrotraemos la psi- se en el mundo cambiante de la evaluación psicoló-
cología al estatus de ciencia introspectiva, dejando gica. Estos cambios y progresos que se están produ-
nuestro nivel de análisis al albur de lo que una per- ciendo en la evaluación psicológica son de vital
sona cree saber sobre sí misma, o decida decirnos. importancia, pues al fin y al cabo la evaluación ri-
A nivel técnico, los autoinformes resultan muy vul- gurosa constituye la base de unos diagnósticos pre-
nerables al falseamiento y la distorsión, por lo que cisos, claves a su vez para generar intervenciones
los hace inservibles en numerosas situaciones (Aren- eficaces.
© Ediciones Pirámide
Apéndice
X = V + e luego
E(X ) = E(V )
Despejando:
mx = mv
e = X − V
1.4. cov (V, e) = 0
© Ediciones Pirámide
316 / Introducción a la Psicometría
E(V 2) − [E(V )]2 = var (V ) cov (Xj, Xk) = cov (Vj, Vk) = var (V )
Ahora bien:
1.8. rxe = se/sx
E(V j ek ) - E(V j )E(ek ) = cov (V j , ek )
La correlación entre las puntuaciones empí-
E(e jVk ) - E(e j )E(Vk ) = cov (e j ,Vk ) ricas y los errores vendrá dada por:
E(e j ek ) - E(e j )E(ek ) = cov (e j , ek )
cov (X , e) E(Xe) − E(X )E(e)
ρ xe = = =
Y según los supuestos 2 y 3 del modelo es σ xσ e σ xσ e
inmediato que:
E[(V + e)e] − E(V + e)E(e)
= =
cov (V j , ek ) = 0 σ xσ e
cov (e j ,Vk ) = 0 E(Ve) + E(e 2 ) − E(V )E(e) − [E(e)]2
=
cov (e j , ek ) = 0 σ xσ e
© Ediciones Pirámide
Apéndice / 317
Pero: Luego:
Según 1.3: σ v2
ρ x j xk =
mx1 = mv; mx2 = mv; mx3 = mv; ... ; mxk = mv
σ x2
luego
σ e2
ρ xx ′ = 1 −
sxsx′ = s x2 σ x2
Sustituyendo: operando:
σ v2
ρ xx ′ = σ x2 − σ e2
σ x2 ρ xx ′ = ; ρ xx ′ ⋅ σ x2 = σ x2 − σ e2
σ x2
2.2. rxx′ = 1 − [s e 2/s x2] σ e2 = σ x2 − σ x2 ρ xx ′ ; σ e2 = σ x2 (1 − ρ xx ′ )
Despejando s v2 de 1.7:
y extrayendo la raíz cuadrada:
s v2 = s x2 − s e2
σ e = σ x 1 − ρ xx ′
Sustituyendo en 2.1
_ _
2.8. Y ′ = rxy(sy/sx)(X − X ) + Y
σ x2 − σ e2
ρ xx ′ =
σ x2 Sea:
cov (X, V ) = s v2 = s y2 + b 2s x2 - 2b rxys ys x
σ v2 σ σ v2 δ f (e)
ρ xv = = v = = ρ xx ′ = 0 + 2bσ x2 − 2 ρ xyσ yσ x
σ xσ v σ x σ x2 δb
© Ediciones Pirámide
Apéndice / 319
0 = 2bσ x2 − 2 ρ xyσ yσ x s y2 2 s
2 ρ xyσ yσ x σy
s y·x
2
= s y2 + rxy
2
1 2
sx 2
sx 1 2
s x - 2 rxy y rxys ys x
b= = ρ xy
2σ x2 σx
Simplificando:
σy = σ y2 − ρ xy
2
σ y2 = σ y2 (1 − ρ xy
2
)
y ′ = ρ xy x
σx
Extrayendo la raíz cuadrada:
Expresado en puntuaciones directas:
s y ·x = s y 1 - rxy
2
σy
Y ′ − Y ′ = ρ xy (X − X )
σx 2.11. σ v·x = σ x 1 − ρ xx ′ ρ xx ′
La fórmula general viene dada en 2.10.
pero
_
Y ′ = Y ′ σ y·x = σ y 1 − ρ xy
2
luego En el modelo Y pasa a ser V :
σy
Y ′ = ρ xy (X − X ) + Y σ v·x = σ v 1 − ρ vx
2
σx
Ahora bien, según 2.3:
2.10. σ y·x = σ y 1 − ρ xy
2
s y·x
2
= Ey + 2
rxy
2
1 2
sx 2
Ex 2 - 2 rxy
sx 1 2
Exy
Pero
Ahora bien:
ρ xv = ρ xx ′ o ρ xv
2
= ρ xx ′
Ex2 = s x2 ; Exy = cov (x, y) = rxysysx
© Ediciones Pirámide
320 / Introducción a la Psicometría
σ v.x = σ x 1 − ρ xx ′ ρ xx ′ σ x2 ( ρ xx ′ + ρ zz ′ − 2 ρ xz )
ρ dd ′ =
σ x2 (2 − 2 ρ xz )
2.13. σ 2 ρ + σ z2 ρ zz ′ − 2σ xσ z ρ xz
ρ dd ′ = x xx2′
σ x + σ z2 − 2σ xσ z ρ xz simplificando:
s v2 s (V
2
x -Vz )
r dd ¢ = = = σ e2s = E(x1 − x2 )2
s x2 s (2X - Z )
σ e2s = E(x12 + x22 − 2x1x2 )
s v2x + s v2z - 2 cov (Vx ,Vz )
= σ e2s = Ex12 + Ex22 − 2Ex1x2
s x2 + s z2 - 2 cov (X , Z )
σ e2s = σ x21 + σ x22 − 2 cov (x1 , x2 )
Ahora bien: σ e2s = σ x21 + σ x22 − 2 ρ x1x2σ x1σ x2
σ v2
ρ xx ′ = Teniendo en cuenta que x1 y x2 son formas
σ x2 paralelas:
luego s x21 = s x22
2
s vx = rxx′s x2 luego
además, según 1.6: s e2s = 2s x2 − 2rxx′s x2
cov (Vx, Vz) = cov (X, Z) = sxszrxz
y sacando factor común 2s x2:
sustituyendo:
s e2s = 2s x2(1 − rxx′)
σ x2 ρ xx ′ + σ z2 ρ zz ′ − 2σ xσ z ρ xz
ρ dd ′ = Extrayendo la raíz cuadrada:
σ x2 + σ z2 − 2σ xσ z ρ xz
σ e s = σ x 1 − ρ xx ′ 2
2.14. ρ + ρ zz ′ − 2 ρ xz
ρ dd ′ = xx ′
2(1 − ρ xz )
2.17. σ e p = σ x 1 − ρ xx ′ 1 + ρ xx ′
Si los test están en la misma escala, entonces
en 2.13: e = x1 − x′1 (en puntuaciones diferenciales).
Los pronósticos de x1 a partir de x2 vendrán
s x2 = s z2 y sxsz = s x2 dados por:
© Ediciones Pirámide
Apéndice / 321
2
σ x1 σ V2 = σ 2 (v1 + v2 + ! + vn ) =
σ e2p 3
= E(x1 − x1′ ) = E x1 − ρ x1x2
2
1 2 4 x
σ x2 2
= ∑ σ vj2 + ∑ ∑ cov (v j , vk )
σ x21 σ x1
σ e2p = Ex12 + ρ x21x2 1 2
σ x2
2 1 2
Ex22 − 2 ρ x1x2
σ x2
Ex1x2 Ahora bien, para tests paralelos y puntua-
ciones verdaderas:
s V2 = n2s v2
Simplificando
Varianza de X:
s e2p = s x2 + rx2x ¢s x2 - 2 rx2x ¢s x2 = s x2 - rx2x ¢s x2
s e2p = s x2 (1 - rx2x ¢ ) = s x2 (1 + rxx ¢ )(1 - rxx ¢ ) σ X2 = σ 2 (x1 + x2 + ! + xn ) =
= ∑ σ xj2 + ∑ ∑ cov (x j , xk )
Extrayendo la raíz cuadrada:
donde
σ e p = σ x 1 − ρ xx ′ 1 + ρ xx ′
s xj = s xk = s x ;
cov (x j , xk ) = rx j xk s x j s xk = rxx ¢s x2
2.20. n ρ xx ′
ρ xx ′ =
1 + (n − 1) ρ xx ′ luego:
V = v1 + v2 + ! + vn n r xx ¢
r XX ¢ =
X = x1 + x2 + ! + xn 1 + (n - 1) rxx ¢
© Ediciones Pirámide
322 / Introducción a la Psicometría
s X2 = ∑ s j2 + ∑ ∑ cov ( j, k)
Según 2.20:
de donde
σ V2 n 2
σ v2
ρ XX ′ = = ∑ ∑ cov ( j, k) = s X2 − ∑ s j2
σ X2 nσ x2 + n(n − 1) ρ xx ′σ x2
Ahora bien, según 2.23 (penúltimo paso):
Si los componentes son paralelos:
σ X2 − ∑ σ 2j
1 21 2
n
α =
σ v2 = ρ x j xk σ x2 j = ρ xx ′σ 2j n −1 σ X2
σ X2 = ∑ σ x2 + n(n − 1) ρ x x σ x2
j j k j
=
Sustituyendo:
= ∑ σ 2j + n(n − 1) ρ xx ′σ 2j
s X2 − ∑ s j2 = ∑ ∑ cov ( j, k)
Sustituyendo: nos queda
n 2 rxx ¢s 2j
1 n − 121∑ ∑ σ 2
r XX ¢ = n cov ( j, k)
s X2 α = 2
X
(N − 3)α̂ 2 N α̂ − 3α̂ 2
nn(n − 1) ρ xx ′σ 2j α = + = + =
ρ XX ′ = N −1 N −1 N −1 N −1
(n − 1)σ X2
N α̂ 3α̂ 2
= − + =
Ahora bien: N −1 N −1 N −1
α̂ 3α̂ 2
n(n − 1)rxx′s j2 = s X2 − ∑ s j2 = − + =
(N − 1) N − 1 N − 1
luego N
α̂ 3α̂ α̂ 3α̂ 2
= − = − +
1 n − 121 σ ∑ 2
n σ X2 − σ 2j N 1 N −1 1 N −1 N −1
ρ XX ′ = − 1−
2 N N N
X
=1
∑σ = α 2
21 σ 2
n j Cuando N → ∞
ρ XX ′ 1−
n −1 2
X
1 3a 2
Por tanto, cuando los componentes son pa- =0 ; =0 ; =0
N N -1 N -1
ralelos a = rXX ′.
2.24. luego
∑ ∑ cov ( j, k)
1 21 2
n
α =
n −1 σ X2 a– = â
© Ediciones Pirámide
Apéndice / 323
n -1 n -1 MCr
1 − α̂ =
MC p
n   s v j s vk
sV2 >
n -1 Análogamente, en la población:
1 n - 12Â Â s
n
sV2 > v j s vk E(MCr )
1−α =
E(MC p )
Dividiendo entre s X2 y sustituyendo ∑ ∑ svjvk
por su equivalente (s X2 − ∑ s j2): Dividiendo miembro a miembro:
σ V2 σ X2 − ∑ σ 2j
1 21 2
n E(MCr )
>
σ X2 n −1 σ X2 1−α E(MC p )
=
1 − α̂ MCr
σ X2 − ∑ σ 2j
1 21 2
n
ρ XX ′ >
MC p
n −1 σ X2
reordenando:
pero el segundo miembro de la desigualdad
es a; luego:
MC p
rXX ′ ⩾ a 1−α E(MC p )
=
Nota. Aunque es fácil de ver que según las
1 − α̂ MCr
propiedades del sumatorio E(MCr )
© Ediciones Pirámide
Apéndice / 325
donde: 2.40.
Las esperanzas matemáticas de las medias
cuadráticas vienen dadas por:
N: Número de sujetos.
n: Número de ítems. Personas (p) s e2 + nms pi2 + nis pm
2
+ ninms p2
Evaluadores (i) s e + npvim + nmvpi + npnmvi2
2 2 2
Feld (1969) demuestra que en muestras
grandes (F1)(F2) se aproxima a F(N1 − 1),(N2 − 1), Modalidad (m) s e2 + npvim
2 2
+ nivpm + npnmvm2
entendiendo por grandes N > 100. p × i s e2 + nmvpi2
p × m s e2 + nis pm
2
2.39. Media.
i × m s e2 + npvim
2
© Ediciones Pirámide
326 / Introducción a la Psicometría
por tanto:
3.21. σ y2′
ρ xy
2
=
σ y2 e ′e = (Y − X b )′(Y − X b) =
= Y ′ Y − Y ′X b − b ′X ′ Y + b ′X ′X b =
ρ xyσ y = Y ′ Y − Y ′X b − ( Y ′Xb )′ + b ′X ′X b =
y′ = x
σx = Y ′ Y − 2 Y ′X b + b ′X ′X b
igualando a cero:
σ y2′ ρ xy
2
σ y2
ρ xy
2
= = = ρ xy
2
σ y2 σ y2 0 = X ′ Y − (X ′ X)b
3.22. σ y.x
2 despejando b:
ρ xy
2
= 1−
σ y2 b = (X ′X)−1X ′ Y
1.
E(b) = B
s y2 s y2¢ s y.x
2
= 2 + 2
sy 2
sy sy E(b) = E[(X ′X)−1X ′ Y] = E[(X ′X)−1X ′(XB + e)]
Y = XB + e
σ y.x
2
1= ρ xy
2
+ 2
σy luego:
σ y.x
2 E(b) = E[(X ′X)−1X ′ Y] = E[(X ′X)−1X ′(XB + e)]
ρ xy
2
= 1− 2
σy
Operando:
© Ediciones Pirámide
Apéndice / 327
luego: sustituyendo:
3 4
E(b) = IE(B) + 0 = E(B) = B Y ¢ Y - b ¢X ¢ Y
E = s y.123...k
2
N - K -1
2. var (b) = s e2 (X ′X )−1
es decir:
var (b) = E{[b − m(b)][b − m(b)]′} =
= E[(b − B)(b − B)′] Y ′ Y − b ′X ′ Y
N − K −1
pero:
es un estimador insesgado de
(b − B) = (X ′X )−1X ′ Y − B =
= (X ′X )−1X ′(X B + e) − B = 2
s y. 123... k
= (X ′X )−1X ′X B + (X ′X )−1X ′e − B =
= B + (X ′X )−1X ′e − B = (X ′X )−1X ′e
3.37. rxy − rzy rzx
rxy.z =
1 − rxz2 1 − rzy2
luego:
∑ xy − 1 zyS 2∑ zx − 1 S 2∑ zy +
2 r Sy rzxSx
E(e′e) = s y. 123... k(N − K − 1)
z z
o lo que es lo mismo:
1 S 21 S 2∑ z
rzxSx rzyS y
+ 2
3 N - K - 14 = s
e ¢e 2 rxy.z = z z
E y.123...k NSx 1 − rzx2 S y 1 − rzy2
© Ediciones Pirámide
328 / Introducción a la Psicometría
=
rxy − rzy rzx
rzy =
∑ zy
1− rzx2 1− rzy2
NSzS y
© Ediciones Pirámide
Tablas estadísticas
(continúa)
Los valores interiores indican probabilidades. Delante de la coma decimal, (’), se entiende que
va un cero. Así, por ejemplo, ’1292 equivale a 0’1292 e indica que P(Z ⩽ –1’13) = 0’1292.
© Ediciones Pirámide
330 / Introducción a la Psicometría
Los valores interiores indican probabilidades. Delante de la coma decimal, (’), se entiende que
va un cero. Así, por ejemplo, ’8925 equivale a 0’8925 e indica que P(Z < –1’24) = 0’8925.
Fuente: B
LUM, J. R. y ROSEMBLATT, J. I., Probabilities and Statistics, Filadelfia, Launders,
1972.
© Ediciones Pirámide
Tablas estadísticas / 331
Los valores centrales de la tabla son los puntos c 2p, n que dejan por debajo de sí un área igual a p, supuesto
un número n de grados de libertad. Así, por ejemplo c 20,95:11 = 19,68 significa que, para 11 grados de libertad,
la probabilidad de obtener un valor igual o menor que 19,68 vale 0,95. El valor 19,68 es la intersección de la
columna encabezada por 0,950 y la fila encabezada por 11.
© Ediciones Pirámide
332 / Introducción a la Psicometría
Los valores centrales de la tabla son los puntos tp, n que dejan por debajo de sí un área a p, supuesto un nú-
mero n de grados de libertad. Así, por ejemplo, t0,99:21 = 129,1518 significa que para 21 grados de libertad la
probabilidad de obtener un valor igual o menor que 2,1518 vale 0,99. El valor 2,1518 es la intersección de la
columna encabezada por 0,99 y la fila encabezada por 21.
© Ediciones Pirámide
TABLA D
Distribución F, P(Fn1, n2 ⩽ f0,95, n1, n2)
© Ediciones Pirámide
Tablas estadísticas / 333
334 / Introducción a la Psicometría
Distribución F, P(Fn1, n2 ⩽ f0,975, n1, n2)
TABLA D
© Ediciones Pirámide
TABLA D
Distribución F, P(Fn1, n2 ⩽ f0,990, n1, n2)
© Ediciones Pirámide
Tablas estadísticas / 335
336 / Introducción a la Psicometría
Distribución F, P(Fn1, n2 ⩽ f0,995, n1, n2)
TABLA D
© Ediciones Pirámide
Tablas estadísticas / 337
TABLA E
Distribución binomial, P(X ⩽ k).
© Ediciones Pirámide
338 / Introducción a la Psicometría
TABLA E
(continuación)
© Ediciones Pirámide
Tablas estadísticas / 339
TABLA E
(continuación)
© Ediciones Pirámide
340 / Introducción a la Psicometría
TABLA E
(continuación)
© Ediciones Pirámide
Tablas estadísticas / 341
TABLA E
(continuación)
© Ediciones Pirámide
342 / Introducción a la Psicometría
TABLA E
(continuación)
© Ediciones Pirámide
Tablas estadísticas / 343
TABLA E
(continuación)
© Ediciones Pirámide
344 / Introducción a la Psicometría
TABLA F
Distribución de dos variables normales con una correlación igual a KR21
(tomada de Subkoviak, 1984, pág. 277)
© Ediciones Pirámide
Tablas estadísticas / 345
TABLA II
Función de distribución normal tipificada
z
∫
x2
F(z) F (z) = 1 . e- 2 . dx
2
√ p -∞
© Ediciones Pirámide
346 / Introducción a la Psicometría
TABLA II (continuación)
z F(z) y z F(z) y z F(z) y
© Ediciones Pirámide
Tablas estadísticas / 347
TABLA II (continuación)
z F(z) y z F(z) y z F(z) y
© Ediciones Pirámide
348 / Introducción a la Psicometría
TABLA II (continuación)
z F(z) y z F(z) y z F(z) y
© Ediciones Pirámide
Tablas estadísticas / 349
TABLA II (continuación)
z F(z) y z F(z) y z F(z) y
© Ediciones Pirámide
Referencias bibliográficas
Abad, F. J., Olea, J., Ponsoda, V. y García, C. (2011). American Psychological Association (1954). Technical re-
Medición en ciencias sociales y de la salud. Madrid: commendations for psychological tests and diagnostic
Síntesis. techniques. Washington, DC: Autor.
Ackerman, T. A. (2005). Multidimensional item response American Psychological Association (1996). Statement
theory modeling. En J. McArdle y A. Maydeu (eds.), on the disclosure of test data. American Psychologist,
Festschrift for Roc McDonald. Hillsdale. Nueva York: 51, 644-648.
Erlbaum. American Psychological Association (2017). Ethical prin-
Adams, R. J., Wu, M. L. y Wilson, M. R. (2015). ACER ciples of psychologists and code of conduct. Washing-
ConQuest: Generalised Item Response Modelling ton, DC: APA.
Software [computer software]. Version 4. Cam- Amón, J. (1984). Estadística para psicólogos (2 vols.). Ma-
berwell, Victoria: Australian Council for Educational drid: Pirámide.
Research. https://www.acer.org/conquest. Anastasi, A. (1981). Coaching, test sophistication, and de
Aiken, L. R. (1980). Content validity and reliability of veloped abilities. American Psychologist, 36, 1086-1093.
single items or questionnaires. Educational and Anastasi, A. (1988). Psychological testing (2.a ed.). Nueva
Psychological Measurement, 40, 955-959. York: MacMillan.
Albanese, M. A. (1986). The correction for guessing: A Anastasi, A. y Urbina, S. (1997). Psychological testing (7.a
further analysis of Angoff and Schrader. Journal of ed.). Upper Saddle River, NJ: Prentice-Hall.
Educational Measurement, 23 (3), 225-235. Anderberg, M. R. (1973). Cluster Analysis for Applica-
Allalouf, A. y Shakhar, G. B. (1998). The effect of coa- tions. Nueva York: Academic Press.
ching on the predictive validity of scholastic aptitude Andrich, D. (1988). Rasch models for measurement. Be-
tests. Journal of Educational Measurement, 35, 31-47. verly Hills, CA: Sage.
Allen, D. D., Ni, P. y Haley, S. M. (2008). Efficiency and Angoff, W. H. (1971). Scales, norms, and equivalent sco-
sensitivity of multidimensional computerized adapti- res. En R. L. Thorndike (ed.), Educacional mesure-
ve testing of pediatric physical functioning. Disabili- ment (2.a ed.). Washington, DC: American Council
ty and Rehabilitation, 30, 479-484. on Education.
Allen, M. J. y Yen, W. M. (1979). Introduction to Measu- Angoff, W. H. (1982a). Summary and derivation of equa-
rement Theory. Monterrey, CA: Brooks/Cole Publis- ting methods used at ETS. En P. W. Holland y D. R.
hing Company. Rubin (eds.), Test Equating. Nueva York: Academic
Alliger, G. M., Lilienfeld, S. O. y Mitchell, K. E. (1996). Press.
The susceptibility of overt and covert integrity tests to Angoff, W. H. (1982b). Use of difficulty and discrimina-
coaching and faking. Psychological Science, 7, 32-39. tion indices for detecting item bias. En R. A. Berk
American Educational Research Association, American (ed.), Handbook of methods for detecting test bias.
Psychological Association y National Council on Baltimore, MD: The Johns Hopkins University Press.
Measurement in Education (1954, 1966, 1974, 1985, Angoff, W. H. (1984). Scales, norms and equivalent scores.
1999, 2014). Standards for educational and psycholo- Princeton, NJ: Educational Testing Service.
gical testing. Washington, DC: APA. Angoff, W. H. y Ford, S. F. (1973). Item-race interaction
American Federation of Teachers, National Council on on a test of scholastic aptitude. Journal of Educatio-
Measurement in Education y National Education nal Measurement, 10, 95-105.
Association (1990). Standards for teacher competence Angoff, W. H. y Schrader, W. B. (1984). A study of hy-
in educational assessment of students. Washington, potheses basic to the use of rights and formula scores.
DC: Autor. Journal of Educacional Measurement, 21, 1-17.
352 / Referencias bibliográficas
© Ediciones Pirámide
Referencias bibliográficas / 353
Berk, R. A. (ed.) (1982). Handbook of methods for detec- Bock, R. D. (1997). A brief history of item response
ting test bias. Baltimore, MD: The Johns Hopkins theory. Educational Measurement: Issues and Practi-
University Press. ce, 16 (4), 21-33.
Berk, R. A. (ed.) (1984a). A guide to criterion-referenced Bock, R. D. y Aitkin, M. (1981). Marginal maximum like-
test construction (2.a ed.). Baltimore, MD: The Johns lihood estimation of item parameters: An application
Hopkins University Press. of an EM algorithm. Psychometrika, 46, 443-459.
Berk, R. A. (1984b). Selecting the index of reliability. En Bock, R. D. y Wood, R. (1971). Test theory. Annual Re-
R. A. Berk (ed.), A guide to criterion-referenced test view of Psychology, 22, 193-224.
construction. Baltimore, MD: The Johns Hopkins Boring, E. G. (1950). A History of Experimental Psycho-
University Press. logy. Nueva York: Appleton (traducción española:
Berk, R. A. (1986). A consumer’s guide to setting perfor- México, Trillas, 1978).
mance standards on criterion referenced tests. Review Borsboom, D. y Cramer, A. O. J. (2013). Network analy-
of Educational Research, 56 (1), 137-172. sis: An integrative approach to the structure of
Berk, R. A. (1996). Standard setting; the next generation psychopathology. Annual Review of Clinical Psycho-
(Where few psychometricians have gone before). logy, 9, 91-121.
Applied Measurement in Education, 9 (3), 21 5-235. Borsboom, D. (2005). Measuring the mind. Conceptual
Beuk, C. H. (1984). A method for reaching a compromise issues in contemporary psychometrics. Nueva York:
between absolute and relative standards in examina- Cambridge University Press.
tions. Journal of Educationaf Measurement, 21, 147-152. Box, G. E. P. y Draper, N. R. (1987). Empirical model
Binet, A. y Simon, T. H. (1905a). Sur la necessité d’établir building and response surfaces. Nueva York: John Wi-
un diagnostic scientifique des états inférieurs de ley and Sons.
l’intelligence. L’Année Psychologique, 11, 163-190. Breithaupt, K. J., Mills, C. N. y Melican, G. J. (2006).
Binet, A. y Simon, T. H. (1905b). Méthodes nouvelles Facing the opportunities of the future. En D. Bar-
pour le diagnostic du niveau intellectuel des anor- tram y R. K. Hambleton (eds.), Computer-based tes-
maux. L’Année Psychologique, 11, 191-244. ting and the Internet (pp. 219-251). Chichester, Ingla-
Binet, A. y Simon, T. H. (1908). Le développement de terra: John Wiley and Sons.
l’intelligence chez les enfants. L’Année Psychologique, Brennan, R. L. (1980). Applications of generalizability
14, 1-94. theory. En R. A. Berk (ed.), A guide to criterion-refe-
Birnbaum, A. (1957). Efficient design and use of tests of renced test construction. Baltimore, MD: The Johns
ability for various decision-making problems. Series Hopkins University Press.
report n.o 58-16. Proyect n.o 7755-23. USAF School Brennan, R. L. (1983). Elements of Generalizability
of Aviation Medicine. Theory. Iowa City, IA: American College Testing
Birnbaum, A. (1958a). On the estimation of mental abi- Program.
lity. Series report, n.o 15. Proyect n.o 7755-23. USAF Brennan, R. L. (1987). Introduction to problems, pers-
School of Aviation Medicine. pectives and practical issues in equating. Applied
Birnbaum, A. (1958b). Further considerations of efficien- Psychological Measurement, 11 (3), 221-224.
cy in tests of a mental ability. Technical Report n.o 17, Brennan, R. L. (1998). Misconceptions at the intersection
Project n.o 7755-23. Randolph Air Force Base, TX: of measurement theory and practice. Educational
USAF School of Aviation Medicine. Measurement: Issues and Practice, 17, 5-9.
Birnbaum, A. (1968). Some latent trait models and their Brennan, R. L. (2001). Generalizability theory. Nueva
use in inferring a examinee’s ability. En F. M. Lord y York: Springer.
M. Novick, Statistical theories of mental test scores. Brennan, R. L. (2001). Some problems, pitfalls, and pa-
Reading, MA: Addison-Wesley. radoxes in educational measurement. Educational
Bishop, N. S. y Davis-Becker, S. (2016). Preparing exami- Measurement: Issues and Practice, 20 (4), 6-18.
nees for test taking. En S. Lane, M. R. Raymond y Brennan, R. L. (ed.) (2006). Educational measurement.
T. M. Haladyna (eds.), Handbook of test development. Westport, CT: Praeger.
Nueva York: Routledge. Brennan, R. L. y Kane, M. T. (1977). An index of depen-
Blanco, M. (1996). Psicofísica. Madrid: Universitas. dability for mastery tests. Journal of Educational
Bobko, P. (1986). A solution to some dilemmas when tes- Measurement, 14, 277-289.
ting hypotheses about ordinal interactions. Journal of Brennan, R. L. y Prediger, D. J. (1981). Coefficient kappa:
Applied Psychology, 71, 323-326. Some uses, misuses and alternatives. Educational and
Bock, R. D. (1972). Estimating item parameters and la- Psychological Measurement, 41, 687-699.
tent ability when responses are scored in two or more Briesch, A. M., Swaminathan, H., Welsh, M. y Chafou-
nominal categories. Psychometrika, 37, 29-51. leas, S. M. (2014). Generalizability theory: A practi-
© Ediciones Pirámide
354 / Referencias bibliográficas
cal guide to study design, implementation, and inter- Carifio, J. y Perla, R. J. (2007). Ten common misunders-
pretation. Journal of School Psychology, 52, 13-35. tandings, misconceptions, persistent myths and ur-
Brown, A. y Maydeu-Olivares, A. (2013). How IRT can ban legends about Likert scales and Likert response
solve problems of ipsative data in forced-choice ques- formats and their antidotes. Journal of Social Scien-
tionnaires. Psychological Methods, 18, 36-52. ces, 3 (3), 106-116.
Brown, F. G. (1983). Principles of Education and Psycholo- Carlson, J. E. (1987). Multidimensional item response
gy Testing. Nueva York: Holt, Rinehart and Winston. theory estimation: A computer program (Research Re-
Brown, T. A. (2006). Confirmatory factor analysis for port ONR87-2). Iowa City, IA: American College
applied research (2.a ed.). Nueva York: Guilford Press. Testing.
Brown, T. A. (2015). Confirmatory factor analysis for Carmines, E. G. y Zeller, R. A. (1979). Reliability and
applied research (2.a ed.). Nueva York: Guilford Press. Validity Assessment. Londres: Sage.
Browne, M. W. (1984). The decomposition of multitrait- Carretero, H. y Pérez, C. (2005). Normas para el desarro-
multimethod matrices. British Journal of Mathemati- llo y revisión de estudios instrumentales. Internatio-
cal and Statistical Psychology, 37, 1-21. nal Journal of Clinical and Health Psychology, 5, 521-
Buckendahl, C. W. y Plake, B. S. (2006). Evaluating tests. 551.
En S. M. Downing y T. M. Haladyna (eds.), Hand- Carroll, J. B. (1961). The nature of the data, or how to
book of test development. Mahwah, NJ: Lawrence choose a correlation coefficient. Psychometrika, 26,
Erlbaum Associates. 4, 347-372.
Budescu, D. V. y Nevo, B. (1985). Optimal number of Carver, R. P. (1970). Special problems in measuring chan-
options: An investigation of the assumption of pro- ge with psychometric device. En Evaluative research:
portionality. Journal of Educational Measurement, 22 Strategies and methods. Pittsburgh, PA: American
(3), 183-196. Institutes for Research.
Burt, C. (1941). The Factors of the Mind. Nueva York: Cattell, J. M. (1890). Mental tests and measurements.
McMillan. Mind, 15, 373-380.
Burt, C. (1955). The reliability estimated by analysis of Chen, F. F., Hayes, A., Carver, C. S., Laurenceau, J. P. y
variance. British Journal of Statistical Psychology, 8, Zhang, Z. (2012). Modeling general and specific va-
103-118. riance in multifaceted constructs: A comparison of
Byrne, B. M., Leong, F. T., Hambleton, R. K., Oakland, the bifactor model to other approaches. Journal of
T., Van de Vijver, F. J. y Cheung, F. M. (2009). A Personality, 80 (1), 219-251.
critical analysis of cross-cultural research and testing Chen, W. H. y Thissen, D. (1997). Local dependence in-
practices: Implications for improved education and dexes for item pairs using item response theory. Jour-
training in psychology. Training and Education in nal of Educational and Behavioral Statistics, 22 (3),
Professional Psychology, 3 (2), 94-105. 265-289.
Cai, L. (2013). FlexMIRT: Flexible multilevel multidimen- Chernyshenko, O. S. y Stark, S. (2016). Mobile psycholo-
sional item analysis and test scoring. Chapel Hill, NC: gical assessment. En F. Drasgow (ed.), Technology
Vector Psychometric Group. and Testing. Nueva York: Routledge.
Cai, L., Thissen, D. y Du Toit, S. (2011). IRTPRO: Flexible, Chien, T. W., Wu, H. M., Wang, W. C., Castillo, R. V. y
multidimensional, multiple categorical IRT modeling. Chou, W. (2009). Reduction in patient burdens with
Lincolnwood, IL: Scientific Software International. graphical computerized adaptive testing on the ADL
Calero, D. y Padilla, J. L. (2004). Técnicas psicométricas: scale: Tool development and simulation. Health and
los tests. En R. Fernández-Ballesteros (ed.), Evalua- Quality of Life Outcomes, 5, 7-39.
ción psicológica: conceptos, métodos y estudio de casos Chopin, B. H. (1976). Recent developments in item ban-
(pp. 323-355). Madrid: Pirámide. king: A review. En D. N. M. Gruijter y L. J. T. van
Camilli, G. (1979). A critique of the chi-square method der Kamp (eds.), Advances in psychological and edu-
of assessing ítem bias. Laboratory of educational re- cational measurement. Nueva York: Wiley.
search. University of Colorado: Boulder. Cizek, G. J. (1996). Setting passing scores. Educational
Camilli, G. (2006). Test fairness. En R. L. Brennan (ed.), Measurement: Issues and practice, 15 (2), 20-31.
Educational measurement. Westport, CT: American Cizek, G. J. (ed.) (2012). Setting performace standards:
Council on Education. Foundations, methods and innovations. Nueva York:
Camilli, G. y Shepard, L. A. (1994). Methods for identi- Routledge.
fying biased test items. Thousand Oaks, CA: Sage. Cizek, G. J. y Bunch, M. (2007). Standard setting: A
Campbell, D. T. y Fiske, D. W. (1959). Convergent and practitioner’s guide to establishing and evaluating per-
discriminant validation by the multitrait-multi- formance standard on tests. Thousand Oaks, CA:
method matrix. Psychological Bulletin, 56, 81-105. Sage.
© Ediciones Pirámide
Referencias bibliográficas / 355
Clark, L. A. y Watson, D. (1995). Constructing Validity: Cronbach, L. I. y Furby, L. (1970). How we should mea-
Basic issues in objective scale development. Psycho- sure «change» or should we? Psychological Bulletin,
logical Assessment, 7, 309-319. 74, 68-80.
Clauser, B. E. y Clyman, S. G. (1994). A contrasting- Cronbach, L. J. y Glesser, G. C. (1965). Psychological
groups approach to standard setting for performance Tests and Personnel Decisions. Urbana, IL: Universi-
assessments of clinical skills. Academic Medicine, 69 ty of Illinois Press.
(10), 42-44. Cronbach, L. J. y Meehl, P. E. (1955). Construct validity
Cohen, J. (1960). A coefficient of agreement for nominal in psychological tests. Psychological Bulletin, 52, 281-
scales. Educational and Psychological Measurement, 302.
20, 37-46. Cronbach, L. J. y Warrington, W. G. (1951). Time-limit
Cohen, J. (1968). Weighted Kappa: Nominal scale agree- tests: Estimating their reliability and degree of speed.
ment with provision for scaled de sagreement or par- Psychometrika, 16, 167-188.
tial credit. Psychological Bulletin, 70, 213-220. Cronbach, L. J., Gleser, G. C., Nanda, H. y Rajaratnarn,
Cohen, J. y Cohen, P. (1983). Applied Multiple Regression N. (1972). The dependability of behavioral measure-
and Correlation Analysis for the Behavioral Sciences. ment: Theory of generalizability for scores and profi-
Hillsdale, NY: LEA. les. Nueva York: Wiley.
Colom, B. R. (1995). Tests, inteligencia y personalidad. Cronbach, L. J., Rajaratnam, N. y Gleser, G. C. (1963).
Madrid: Pirámide. Theory of Generalizability: A liberalization of relia-
Colom, R. (2002). En los límites de la inteligencia. Ma- bility theory. The British Journal of Statistical Psy-
drid: Pirámide. chology, 16, 2, 137-163.
Couper, M. P., Tourangeau, R. y Conrad, F. G. (2006). Cuesta, M. (1996). Unidimensionalidad. En J. Muñiz
Evaluating the effectiveness of visual analog scales: (ed.), Psicometría (pp. 239-291). Madrid: Universi-
A web experiment. Social Science Computer Review, tas.
24 (2), 227-245. Cureton, E. E. (1951). En E. F. Lindquist (ed.), Educatio-
Conger, A. J. (1974). A revised definition for suppresor nal measurement (pp. 621-694). Washington, DC:
variables: A guide to their identification and interpre- American Council on Education.
tation. Educational and Psychological Measurement, Davey, T. (2011). Practical considerations in computer-based
34, 35-46. testing. Princeton, NJ: Educational Testing Service.
Coombs, C. H., Dawes, R. M. y Tversky, A. (1981). Intro- Dawes, R. M. (1972). Fundamentals of Attitude Measure-
ducción a la psicología matemática. Madrid: Alianza ment. Nueva York: Wiley.
(orig. 1970). De Finetti, B. (1965). Methods for discriminating levels
Crocker, L. (2006). Preparing examinees for test taking: of partial knowledge concerning a test item. British
Guidelines for test developers and test users. En S. M. Journal of Mathematical and Statistical Psychology,
Downing y T. M. Haladyna (eds.), Handbook of test 18, 87-123.
development. Mahwah, NJ: Lawrence Erlbaum Asso- De Gruijter, D. N. (1980). Accounting for uncertainty in
ciates. performance standards. Documento ERIC, núm. ED
Crocker, L. y Algina, J. (1986). Introduction to classical 199 280.
and modern test theory. Nueva York: Holt, Rinehart De Gruijter, D. N. (1985). Compromise methods for es-
and Winston. tablishing examination standards. Journal of Educa-
Cronbach, L. J. (1947). Test reliability: Its meaning and tional Measurement, 22, 263-269.
determination. Psychometrika, 12, 1-16. Delgado, A. R. y Prieto, G. (1998). Further evidence fa-
Cronbach, L. J. (1951). Coefficient alpha and the internal voring three-option items in multiple-choice tests.
structure of tests. Psychometrika, 16, 297-334. European Journal of Psycholoyical Assessment, 14 (3),
Cronbach, L. J. (1957). The two disciplines of scientific 197-201.
psychology. American Psychologist, 12, 671-684. Deng, N. (2009). References of non-nommercial software
Cronbach, L. J. (1975). Five decades of public controver- for IRT analyses. Center for Educational Assessment
sy over mental testing. American Psychologist, 30, Research Report, núm. 699. Amherst, MA: Universi-
1-14. ty of Massachusetts.
Cronbach, L. J. (1975). Beyond the two disciplines of Deng, N. y Hambleton, R. K. (2007). 20 Software packa-
scientific psychology. American Psychologist, 33, 116- ges for assessing test dimensionality. Amherst, MA:
127. University of Massachusetts.
Cronbach, L. J. (1987). Statistical test for moderator va- Deville, C. W. (1996). An empirical link of content and
riables: Flaws in analyses recently proposed. Psycho- construct equivalence. Applied Psychological Measu-
logical Bulletin, 102 (3), 414-417. rement, 20, 127-139.
© Ediciones Pirámide
356 / Referencias bibliográficas
Diamond, J. y Evans, W. (1973). The correction for gues- Ebel, R. L. (1951). Writing the test item. En E. F. Lind-
sing. Review of Educacional Research, 43, 181-191. quist (ed.), Educational Measurement (pp. 185-249).
Dillman, D. A., Smyth, J. D. y Christian, L. M. (2009). Washington, DC: American Council on Education.
Internet, mail and mixed-mode surveys: The trailo- Ebel, R. L. (1972). Essentials of Educacional Measure-
red design method, Hoboken, NJ: John Wiley & ment (2.a ed.). Englewood Cliffs, NJ: Prentice-Hall.
Sons. Educational Measurement: Issues and Practice (1987), 6 (2).
Donlon, T. (1978). An Exploratory Study of the Implica- Número especial dedicado a la estrategia «Golden
tions of Test Speededness. Princeton, NY: Educatio- Rule».
nal Testing Service. Egan, J. P. (1975). Signal detection theory and ROC analy-
Dorans, N. J. y Cook, L. (eds.) (2016). Fairness in Educa- sis. Nueva York: Academic Press.
tional Assessment and Measurement. Nueva York: Elosua, P. (2003). Sobre la validez de los tests. Psicothe-
Taylor y Francis. ma, 15, 315-321.
Dorans, N. J. y Holland, P. W. (1993). DIF detection and Elosua, P. (2009). ¿Existe vida más allá de SPSS? Descu-
description: Mantel-Haenszel and Standardization. bre R. Psicothema, 21 (4), 652-665.
En P. W. Holland y H. Wainer (eds.), Differential item Elosua, P. y Geisinger, K. F. (2016). Cuarta evaluación de
funtioning. Hillsdale, NJ: LEA. tests editados en España: forma y fondo. Papeles del
Douglas, J. y Cohen, A. S. (2001). Nonparametric item Psicólogo, 37, 82-88.
response function estimation for assessing parametric Elosua, P. y López, A. (2002). Indicadores de dimensio-
model fit. Applied Psychological Measurement, 25, nalidad para ítems binarios. Metodología de las Cien-
234-243. cias del Comportamiento, 4, 121-137.
Downing, S. M. (2006). Selected-response item formats in Elosua, P. y Zumbo, B. (2008). Coeficientes de fiabilidad
test development. En S. M. Downing y T. M. Ha- para escalas de respuesta categórica ordenada. Psi-
ladyna (eds.), Handbook of test development. Ma- cothema, 20, 896-901.
hwah, NJ: Erlbaum. Embretson, S. y Reise, S. (2000). Item response theory for
Downing, S. M. (2006). Twelve steps for effective test de- psychologists. Mahwah, NJ: LEA.
velopment. En S. M. Downing y T. M. Haladyna Erceg-Hurn, D. M. y Mirosevich, V. M. (2008). Modern
(eds.), Handbook of test development (pp. 3-25). Mah robust statistical methods: An easy way to maximize
wah, NJ: Lawrence Erlbaum Associates. the accuracy and power of your research. American
Downing, S. M. y Haladyna, T. M. (2006). Handbook of Psychologist, 63, 591-601.
test development. Mahwah, NJ: Lawrence Erlbaum Estes, W. K. (1975). Some targets for mathematical
Associates. psychology. Journal of Mathematical Psychology, 12,
Draper, N. R. y Smith, H. (1981). Applied Regression 263-282.
Analysis (2.a ed.). Nueva York: Wiley. European Federation of Professional Psychologists Asso-
Drasgow, F. (ed.) (2016). Technology and testing. Nueva ciation (1996). Meta-Code of Ethics. European Psy-
York: Routledge. chologist, 1, 151-154.
Drasgow, F. y Parsons, C. K. (1983). Applications of uni- Everitt, B. S. (1974). Cluster Analysis. Londres: Halstead
dimensional item response theory models to multidi- Press.
mensional data. Applied Psychological Measurement, Everitt, B. S. (1977). The Analysis of Contingency Tables.
7, 189-199. Londres: Halstead Press.
Drasgow, F., Luecht, R. M. y Bennett, R. E. (2006). Evers, A. (1996). Regulations concerning test qualifica-
Technology and testing. En R. L. Brennan (ed.), Edu- tions and test use in The Netherlands. European Jour-
cational measurement. Westport, CT: ACE/Praeger. nal of Psychological Assessment, 12, 153-159.
Du Bois, P. H. (1970). A History of Psycholoyical Testing. Evers, A., McCormick, C., Hawley, L., Muñiz, J. et al.
Boston: Allyn and Bacon. (2017). Testing practices and attitudes toward tests
Dunbar, S. B. y Ordman, V. L. (2003). Validity: Criterion- and testing: An international survey. International
related. En R. Fernández Ballesteros (ed.), Encyclo- Journal of Testing, 17, 158-190.
pedia of Psychological Assessment (pp. 1078-1082). Evers, A., Sijtsma, K., Lucassen, W. y Meijer, R. R.
Londres: Sage Publications. (2010). The Dutch Review Process for Evaluating the
Dunlap, W. P. y Kemery, E. R. (1987). Failure to detect Quality of Psychological Tests: History, Procedure,
moderating effects: Is multicollinearity the problem? and Results. International Journal of Testing, 10, 295-
Psychological Bulletin, 102 (3), 418-420. 317.
Dunnete, D. y Borman, W. C. (1979). Personnel selection Faggen, J. (1994). Settiny standards for constructed res-
and classification systems. Annual Review of Psycho- ponse tests: An overview. Princeton, NJ: Educational
logy, 30, 477-525. Testing Service.
© Ediciones Pirámide
Referencias bibliográficas / 357
Faulkner-Bond, M. y Wells, C. S. (2016). A brief history Flanagan, J. C. (1937). A note on calculating the stan-
of and introduction to item response theory. En C. S. dard error of measurement and reliability coefficients
Wells y M. Faulkner-Bond (eds.), Educational measu- with the test scoring machine. Journal of Applied
rement: From foundations to future. Nueva York: Psychology, 23, 529.
Guilford Press. Fleiss, J. L., Cohen, J. y Everitt, B. S. (1969). Large sam-
Fazio, R. H. y Olson, M. A. (2003). Implicit measures in ple standard errors of Kappa and weighted Kappa.
social cognition research: Their meaning and use. An- Psychological Bulletin, 72, 323-327.
nual Review of Psychology, 54, 297-327. Fonseca, E. (2017). Análisis de redes: ¿una nueva forma de
Feldt, L. S. (1965). The approximate sampling distribu- comprender la psicopatología? Revista de Psiquiatría y
tion of Kuder-Richardson reliability coefficient twen- Salud Mental. https://doi.org/10.1016/j.rpsm.2017.
ty. Psychometrika, 30, 357-370. 06.004.
Feldt, L. S. (1969). A test of the hypothesis that Cronbach’s Fonseca, E., Menéndez, L. F., Paino, M., Lemos, S. y
alpha or Kuder-Richardson coefficient twenty is the Muñiz, J. (2013). Development of a computerized
same for two test. Psychometrika, 34, 363-373. adaptive test for schizotypy assessment. PLoS ONE
Feldt, L. S. (1980). A test of the hypothesis that Cronbach 8(9): e73201. Doi: 10.1371.
Alpha reliability coefficient is the same for two tests Fonseca, E. y Muñiz, J. (2017). Quinta evaluación de
administered to the same sample. Psychometrika, 45, tests editados en España: mirando hacia atrás, cons-
99-105. truyendo el futuro. Papeles del Psicólogo, 38 (3),
Feldt, L. S. y Qualls, A. L. (1996). Estimation of measu- 161-16.
rement error variance at specific score levels. Journal Foster, D. (2016). Testing technology and its effects on
of Educational Measurement, 33, 141-156. test security. En F. Drasgow (ed.), Technology and
Feldt, L. S., Steffan, M. y Gupta, N. C. (1985). A com- testing. Nueva York: Routledge.
parison of five methods for estimating the standard Frary, R. B. (1980). The effect of misinformation, partial
error of measurement at specific score levels. Applied information, and guessing on expected multiple-choi-
Psychological Measurement, 9, 351-361. ce test item scores. Applied Psychological Measure-
Feldt, L. S., Woodruff, D. J. y Salih, F. A. (1987). Statis- ment, 4 (1), 79-90.
tical inference for coefficíent alpha. Applied Psycho- Frary, R. B., Tideman, T. N. y Watts, T. M. (1977). Indi-
logical Measurement, 11 (1), 93-103. ces of cheating on multiple choice tests. Journal of
Ferguson, G. A. (1942). Item selection by the constant Educacional Statistics, 2, 235-256.
process. Psychometrika, 7, 19-29. Fraser, C. y McDonald, R. P. (1988). NOHARM: Least
Fernández-Ballesteros, R., De Bruyn, E. E. J., Godoy, A., squares item factor analysis. Multivariate Behavioral
Hornke, L. F., Ter Laak, J., Vizcarro, C., Westhoff, Research, 23, 267-269.
K., Westmeyer, H. y Zaccagnini, J. (2003). Guías Fremer, J. (1996). Promoting high standards for test use:
para el proceso de evaluación (GAP): una propuesta Developments in the United States. European Journal
a discusión. Papeles del Psicólogo, 23 (84), 58-70. of Psychological Assessment, 12, 160-168.
Ferrando, P. J. y Anguiano, C. (2010). El análisis factorial Friedman, H. S. (1983). On shutting one’s eyes to face
como técnica de investigación en psicología. Papeles validity. Psychological Bulletin, 94, 185-187.
del Psicólogo, 31, 18-33. Frisbie, D. A. y Becker, D. F. (1991). An analysis of text-
Ferrando, P. J. y Lorenzo-Seva, U. (2017). Program FAC- book advice about true-false tests. Applied Measure-
TOR at 10: Origins, development and future direc- ment in Education, 4, 67-83.
tions. Psicothema, 29 (2), 236-240. Gaito, J. (1980). Measurement scales and statistics: Re-
Fidalgo, A. (1996). Funcionamiento diferencial de los surgence of an old misconception. Psychological Bu-
ítems. En J. Muñiz (ed.), Psicometría. Madrid: Uni- lletin, 87, 564-567.
versitas. Galton, F. (1883). Inquires into Human Faculty and its
Fidalgo, A. y Muñiz, J. (2002). Investigaciones actuales Development. Londres: MacMillan.
sobre el funcionamiento diferencial de los ítems. García-Cueto, E., Muñiz, J. y Lozano, L. M. (2002). In-
Metodología de las Ciencias del Comportamiento, 4, fluencia del número de alternativas en las propieda-
55-66. des psicométricas de los tests. Metodología de las
Fienberg, S. (1977). The Analysis of Cross-classified Ca- Ciencias del Comportamiento, supl., 201-205.
tegorical Data. Cambridge, MA: MIT Press. García-Pérez, M. A. (1987). A finite state theory of
Fitzpatrick, A. R. (1989). Social influences in standard- performance in multiple-choice tests. En E. E. Ros-
setting: The effects of social interaction on group kam y R. Suck (eds.), Progress in Mathematical
judgments. Review of Educational Research, 59, 315- Psychology, 1. North Holland: Elsevier Science Pu-
328. blishers.
© Ediciones Pirámide
358 / Referencias bibliográficas
García-Pérez, M. A. (1989). La corrección del azar en Gómez, J., Hidalgo, M. D. y Gilera, G. (2010). El sesgo
pruebas objetivas: un enfoque basado en una nueva de los instrumentos de medición. Tests justos. Papeles
teoría de estados finitos. Investigaciones Psicológicas, del Psicólogo, 31 (1), 75-84.
6, 33-62. Goodenough, F. L. (1949). Mental Testing: Its History,
Gawronsky, B. y Payne, B. K. (2010). Handbook of impli- Principles, and Applications. Nueva York: Rinehart.
cit social cognition: Measurement, theory, and appli- Goodman, D. P. y Hambleton, R. K. (2004). Student test
cations. Nueva York: Guilford. score reports and interpretive guides: Review of cu-
Geisinger, K. y Usher-Tate, B. J. (2016). A brief history rret practices and suggestions for future research.
of educational testing and psychometrics. En C. S. Applied Measurement in Education, 17, 145-220.
Wells y M. Faulkner-Bond (eds.), Educational measu- Greaud, V. A. (1988). Some effects of applying unidimen-
rement. From foundations to future. Nueva York: sional IRT to multidimensional tests. AERA annual
Guilford Press. meeting, Nueva Orleans.
Gibbons, J. D., Olkin, I. y Sobel, M. (1979). A subset Green, D. R. (1998). Consequential aspects of the validi-
selection technique for scoring items on a multiple ty of achievement tests: A publisher’s point of view.
choice test. Psychometrika, 44, 259-270. Educational Measurement: Issues and Practice, 17,
Gibbons, R. D., Weiss, D. J., Kupfer, D. J., Frank, E., 16-19.
Fagiolini, A., Grochocinski, V. J. et al. (2008). Using Green, P. E. (1976). Mathematical Tools for Applied Mul-
computerized adaptive testing to reduce the burden tivariate Analysis. Londres: Academic Press.
of mental health assessment. Psychiatric Services, 59 Green, S. B., Lissitz, R. W. y Mulaik, S. A. (1977). Limi-
(4), 361-368. tations of coefficient alpha as an index of test unidi-
Gierl, M. J. y Haladyna, T. M. (eds.) (2013). Automatic mensionality. Educacional and Psychological Measu-
ítem generation: Theory and practice. Nueva York: rement, 37, 827-838.
Routledge. Greeno, J. G. (1980). Mathematics in psychology. En P.
Gierl, M. J., Leighton, J. P. y Tan, X. (2006). Evaluating C. Dodwell (ed.), New horizons in Psychology (93-
DETECT classification accuracy and consistency 113). Londres: Penguin Books.
when data display complex structure. Journal of Edu- Greenwald, A. G. y Banaji, M. R. (1995). Implicit social
cational Measurement, 43 (3), 265-289. cognition: Attitudes, self-esteem, and stereotypes.
Gierl, M. J. y Haladyna, T. M. (eds.) (2013). Automatic Psychological Review, 102, 4-27.
item generation: Theory and practice. Nueva York: Greenwald, A. G., Poehlman, T. A., Uhlmann, E. I. y
Routledge. Banaji, M. R. (2009). Understanding and using the
Gifford, J. A. y Swaminathan, H. (1990). Bias and the implicit association test: III. Meta-analysis of predic-
effect of priors in bayesian estimation of parameters tive validity. Journal of Personality and Social Psycho-
of item response models. Applied Psychological Mea- logy, 97, 17-41.
surement, 14 (1), 33-43. Grier, J. (1975). The number of alternatives for optimum
Glas, C. (1990). RIDA: Rasch incomplete design analysis. test reliability. Journal of Educacional Measurement,
Arnhem: The Netherlands, National Institute for 12, l09-112.
Educational Measurement. Grier, J. (1976). The optimal number of alternatives at a
Glaser, R. (1963). Instructional technology and the mea- choice point with travel time considered. Journal of
surement of learning outcomes: Some questions. Mathematical Psychology, 14, 91-97.
American Psychologist, 18, 519-521. Grosse, M. E. y Wright, B. D. (1986). Setting, evaluating,
Glaser, R. y Klaus, D. J. (1962). Proficiency measure- and maintaining certification standards with the
ment: Assessing human performance. En R. Gagné Rasch model. Evaluation and the Health Proffesions,
(ed.), Psychological principies in system development. 9 (3), 267-285.
Nueva York: Holt, Rinehart and Winston. Guilford, J. P. (1936, 1954). Psychometric Methods. Nue-
Gleser, G. C., Cronbach, L. J. y Rajaratnam (1965). Ge- va York: McGraw-Hill.
nerability of scores innuenced by multiple sources of Guilford, J. P. (1967). The Nature of Human Intelligence.
variance. Psychometrika, 30, 395-418. Nueva York: McGraw-Hill.
Goldstein, G. y Wood, R. (1989). Five decades of item Guion, R. M. y Gibson, W. M. (1988). Personnel selec-
response modelling. British Journal of Mathematical tion and placement. Annual Review of Psychology,
and Statistical Psychology, 42, 139-167. 39, 349-374.
Gómez, J. (1996). Aportaciones de los modelos de estruc- Gulliksen, H. (1950). Theory of Mental Tests. Nueva
turas de covarianza al análisis psicométrico. En J. York: Wiley (reimpreso en 1987).
Muñiz (ed.), Psicometría (pp. 456- 554). Madrid: Gustafsson, J. E. (1980). A solution of the conditional
Universitas. estimation problem for long tests in the Rasch model
© Ediciones Pirámide
Referencias bibliográficas / 359
for dichotomous items. Educational and Psychologi- Hambleton, R. K. (1990). Item Response Theory: Intro-
cal Measurement, 40, 377-385. duction and Bibliography. Psicothema, 11 (1), 97-
Guttman, L. (1945). A basis for analyzing test-retest re- 107.
liability. Psychometrika, 10, 255-282. Hambleton, R. K. (1994a). The rise and fall of criterion-
Gwet, K. L. (2014). Handbook of inter-rater reliability. referenced measurement? Educational Measurement:
Gaithersburg, MD: Advanced Analytics. Issues and Practice, 13 (4), 21-26.
Haberman, S. J. (1974). The Analysis of Frecuency Data. Hambleton, R. K. (2004). Theory, methods and practices
Chicago: University of Chicago Press. in testing for the 21st century. Psicothema, 16 (4),
Haberman, S. J. (1978). Analysis of Qualitative Data (2 696-701.
vols.). Nueva York: Academic Press. Hambleton, R. K. (2006). Good practices for identifying
Haberman, S. J., Sinharay, S. y Chon, K. H. (2013). differential item functionaing. Medical Care, 44 (11),
Assessing item fit for unidimensional item respon- 182-188.
se theory models using residuals from estimated Hambleton, R. K. (2006). Testing practices in the 21st
item response functions. Psychometrika, 78, 417- century. Key Note Address, University of Oviedo,
440. Spain, March 8th.
Haebara, T. (1980). Equating logistic ability scales by Hambleton, R. K. (2009). Predicting future directions in
weighted least method. Japanese Psychological Re- testing practices. ATP Conference, Palm Springs, Fe-
search, 22, 144-149. bruary, 22-25, 2009.
Haertel, E. H. (2002). Standard setting as a participatory Hambleton, R. K. y Novick, M. R. (1973). Toward an
process: Implications for validation of standards-ba- integration of theory and method for criterion-refe-
sed accountability programs. Educational Measure- renced tests. Journal of Educational Meeasurement,
ment: Issues and Practice, 21, 16-22. 10, 159-170.
Hakel, M. D. (1986). Personnel selection and placement. Hambleton, R. K. y Plake, B. S. (1995). Using an exten-
Annual Review of Psychology, 37, 351-380. ded Angoff procedure to set standards on complex
Hakstian, A. R. y Whalen, T. E. (1976). A K-sample sig- performance assessments. Applied Measurement in
nificance test for independent alpha coefficients. Education, 8, 41-56.
Psychometrika, 41, 219-231. Hambleton, R. K. y Pitoniak, M. J. (2006). Setting per-
Haladyna, T. M. (2004). Developing and validating multi- formance standards. En R. L. Brennan (ed.), Educa-
ple-choice test item (3.a ed.). Hillsdale, NJ: LEA. tional measurement. Westport, CT: Praeger.
Haladyna, T. M., Downing, S. M. y Rodríguez, M. C. Hambleton, R. K. y Rogers, H. J. (1989). Detecting po-
(2002). A review of multiple-choice item-writing gui- tentially biased test items: Comparison of IRT area
delines. Applied Measurement in Education, 15 (3), and Mantel-Haenszel methods. Applied Measurement
309-334. in Education, 2 (4), 313-334.
Haladyna, T. M. y Rodríguez, M. C. (2013). Developing Hambleton, R. K. y Rovinelli, R. J. (1986). Assessing the
and validating test items. Nueva York: Routledge. dirnensionality of a set of test items. Applied Psycho-
Haladyna, T. M., Downing, S. M. y Rodríguez, M. C. logical Measurement, 10, 3, 287-302.
(2002). A Review of Multiple-Choice Item-Writing Hambleton, R. K. y Slater, S. C. (1997). Reliability of
Guidelines for Classroom Assessment. Applied Mea- credentialing examinations and the impact of scoring
surement in Education, 15, 309-333. models and standard-setting policies. Applied Measu-
Hambleton, R. K. (ed.) (1980). Contributions to crite- rement in Education, 10 (1), 19-38.
rion-referenced testing technology. Applied Psycholo- Hambleton, R. K. y Swaminathan, H. (1985). Item Res-
gical Measurement, 4 (4), 421-581 (número especial ponse Theory. Principles and applications. Boston:
dedicado a los tests referidos al criterio). Kluwer-Nijhoff.
Hambleton, R. K. (1980). Test score validity and stan- Hambleton, R. K., Clauser, B. E., Mazor, K. M. y Jones,
dard setting methods. En R. A. Berk (ed.), Criterion- R. W. (1993). Advances in the detection of differen-
referenced measurement: The state of the art (pp. 80- tially functioning test items. European Journal of
123). Baltimore, MD: Johns Hopkins University Psychological Assessment, 9 (1), 1-18.
Press. Hambleton, R. K., Swaminathan, H. y Rogers, H. J.
Hambleton, R. K. (1983a). Applications of item respose (1991). Fundamentals of item response theory.
theory. Vancouver: Educational Research Institute of Newbury Park, CA: Sage.
British Columbia. Hambleton, R. K., Merenda, P. F. y Spielberger, C. D.
Hambleton, R. K. (1983b). Application of item response (2005). Adapting educational and psychological tests
models to criterion-referenced assesment. Applied for cross-cultural assessment. Londres: Lawrence Erl-
Psychological Measurement, 7 (1), 33-44. baum Associates.
© Ediciones Pirámide
360 / Referencias bibliográficas
Hambleton, R. K., Swaminathan, H., Algina, J. y Coul- Hidalgo, M. D. y López-Pina, J. A. (2000). Funciona-
son, D. (1978). Criterion-referenced testing and miento diferencial de los ítems: presente y perspecti-
measuremente: A review of technical issues and de- vas de futuro. Metodología de las Ciencias del Com-
velopments. Review of Educational Research, 48, portamiento, 2, 167-182.
1-47. Hocking, R. R. (1976). The analysis and selection of va-
Han, K. T. (2007). WinGen: Windows software that ge- riables in linear regression. Biometrics, 32, 1-49.
nerates IRT parameters and item responses. Applied Hofmann, W., Gawronski, B., Gschwendner, T., Le, H. y
Psychological Measurement, 31 (5), 457-459. Schmitt, M. (2005). A Meta-Analysis on the Corre-
Han, K.T. y Rudner, L. M. (2016). Decision consistency. lation Between the Implicit Association Test and Ex-
En C. S. Wells y M. Faulkner-Bond (eds.), Educatio- plicit Self-Report Measures. Personality and Social
nal measurement. From foundations to future. Nueva Psychology Bulletin, 31 (10), 1369-1385.
York: Guilford Press. Hofstee, W. K. (1983). The case for compromise in edu-
Hanley, J. A. (1987). Standard error of the Kappa statis- cational selection and grading. En S. B. Anderson y
tic. Psychological Bulletin, 102 (2), 315-321. J. S. Helmick (eds.), On educacional testing. San Fran-
Hanson, B. A., Harris, D. J. y Brennan, R. L. (1987). A cisco, CA: Jossey Bass.
comparison of several statistical mechods for exami- Hogan, J., Barrett, P. y Hogan, R. (2007). Personality
ning allegations of copying, ACT Research Report Se- measurement, faking, and employment selection.
ries 87-15. Iowa City, IA: American College Testing Journal of Applied Psychology, 92 (5), 1270-1285.
Program. Hogan, T. P. y Murphy, G. (2007). Recommendations for
Harrison, D. A. (1986). Robustness of IRT parameter es- preparing and scoring constructed-response ittems:
timation to violations of the unidimensionality as- What the experts say. Applied Measurement in Educa-
sumption. Journal of Educational Statistics, 11 (2), tion, 20 (4), 427-441.
91-115. Holland, P. W. (1985). On the study of Differential Item
Hartigan, J. A. (1975). Clustering Algorithms. Nueva Performance without IRT. Proceedings of the Mili-
York: Wiley. tary Testing Association, octubre.
Hattie, J. A. (1984). An empirical study of various indices Holland, P. W. y Rubin, D. R. (eds.) (1982). Test equating.
for determining unidimensionality. Multivariate Be- Nueva York: Academic Press.
havioral Research, 19, 49-78. Holland, P. W. y Thayer, D. T. (1985). An alternative de-
Hattie, J. A. (1985). Assessing unidimensionality of tests finition of the ETS delta seale of item difficulty. Prin-
and items. Applied Psychological Measurement, 9, ceton, NJ: Educational Testing Service, Research Re-
139-164. port RR-85-43.
Hattie, J., Krakowski, K., Roger, J. y Swaminathan, H. Holland, P. W. y Thayer, D. T. (1986). Differential item
(1996). An assessment of Stout’s index of essential functioning and the Mantel-Haenszel procedure (pp.
unidimensionality. Applied Psychological Measure- 86-99). Princeton, NJ: Educational Testing Service,
ment, 20, 1-14. Research Report.
Hattie, J. A. y Krakowski, K. (1994). DIMENSION: A Holland, P. W. y Thayer, D. T. (1988). Differential item
program to generate unidimensional and multidi- performance and the Mantel-Haenszel procedure. En
mensional item data. Applied Psychological Measure- H. Wainer y H. I. Braun (eds.), Test validity. Hillsda-
ment, 17, 252. le, NJ: LEA.
Heise, D. R. y Bohrnstedt, G. W. (1970). Validity, invali- Holland, P. W. y Wainer, H. (eds.) (1993). Differential
dity, and reliability. En E. F. Borgatta y G. W. Bo- item functioning. Hillsdale, NJ: LEA.
hrnstedt (eds.), Sociological Methodology. San Fran- Horst, P. (1966). Psychological Measurement and Predic-
cisco, CA: Jossey Bass. tion. Belmont, CA: Wadsworth.
Hernández, A. y González Romá, V. (2000). Evaluación Hough, L. M. y Oswald, F. L. (2000). Personnel selection:
de matrices multirrasgo-multiocasión a través de mo- Looking toward the future, remembering the past.
delos factoriales aditivos y multiplicativos. Psicothe- Annual Review of Psychology, 51, 631-664.
ma, 12, 283-287. Hoyt, C. (1941). Test relibility obtained by analysis of
Hernández, A., Ponsoda, V., Muñiz, J., Prieto, G. y Elo- variance. Psychometrika, 6, 153-160.
sua, P. (2016). Revisión del modelo para evaluar la Hu, L. T. y Bentler, P. M. (1999). Cutoff criteria for fit
calidad de los tests utilizados en España. Papeles del indexes in covariance structure analysis: Conventio-
Psicólogo, 37, 192-197. nal criteria versus new alternatives. Structural Equa-
Hernández, A., Tomás, I., Ferreres, A. y Lloret, S. (2015). tion Modeling, 6 (1), 1-55.
Tercera evaluación de tests editados en España. Pa- Huberty, C. J. (1975). Discriminant analysis. Review of
peles del Psicólogo, 36, 1-8. Educacional Research, 45, 543-598.
© Ediciones Pirámide
Referencias bibliográficas / 361
Hulin, C. L., Drasgow, F. y Parsons, C. K. (1983). Item Joint Committeee of Testing Practices (2004). Code of
response theory. Aplication to psychological measure- fair testing practices. Washington, DC: American
ment. Homewood, IL: Dow Jones-lrvin. Psychological Association.
Hutchinson, T. P. (1982). Some theories of performance Joncich, G. (1968). The Sane Positivist: A Biography of
in multiple-choice test, and their implications for va- Edward L. Thorndike. Middletown, CT: Wesleyan
riants of the task. British Journal of Mathematical University Press.
and Statistical Psychology, 35, 71-89. Jones, R. F. (1986). A comparison of the predictive vali-
Huynh, H. (1976). On the reliability of decisions in do- dity of the MCAT for coached and uncoached stu-
main-referenced testing. Journal of Educacional Mea- dents. Journal of Medical Education, 61, 335-338.
surement, 13, 253-264. Jöreskog, K. G. y Sörbom, D. (1976). Statistical models and
Impara, J. C. y Foster, D. (2006). Item and test develop- methods for test-retest situations. En D. N. Gruijter y
ment strategies to minimize test fraud. En S. M. L. J. Van der Kamp (eds.), Advances in Psychological
Downing y T. M. Haladyna (eds.), Handbook of test and Educacional Measurement. Nueva York: Wiley.
development. Mahwah, NJ: Lawrence Erlbaum Asso- Juan-Espinosa, M. (1997). Geografía de la inteligencia hu-
ciates. mana. Madrid: Pirámide.
International Test Commission (2017). The ITC Guideli- Kane, M. T. (1994). Validating the performance stan-
nes for Translating and Adapting Test (second edi- dards associated with passing scores. Revíew of Edu-
tion) [www.IntestCom.Org]. cacional Research, 64, 425-461.
Ip, E. H. (2001). Testing for local dependency in dichoto- Kane, M. (2002). Validating high-stakes testing programs.
mous and polytomous item response models. Psycho- Educational Measurement: Issues and Practice, 21,
metrika, 66 (1), 109-132. 31-41.
Ironson, G. H. (1982). Use of chi-square and latent trait Kane, M. (2006a). Content-related validity evidence in
approaches for detecting item bias. En R. A. Berk test development. En S. M. Downing y T. M. Ha-
(ed.), Handbook of methods for detecting test bias. ladyna (eds.), Handbook of test development. Ma-
Baltimore, MD: The Johns Hopkins University hwah, NJ: LEA.
Press. Kane, M. (2006b). Validation. En R. Brennan (ed.), Edu-
Ironson, G. H. y Subkoviak, M. (1979). A comparation cational measurement. Westport, CT: Praeger.
of several methods of assessing item bias. Journal of Kane, M. (2016). Validation strategies: Delineating and
Educational Measurement, 16, 209-225. validating proposed interpretations and uses of test
Irvine, S. y Kyllonen, P. (eds.) (2002). Item generation for scores. En S. Lane, M. R. Raymond y T. M. Halady-
test development. Mahwah, NJ: Lawrence Erlbaum. na (eds.), Handbook of test development. Nueva York:
Izquierdo, I., Olea, J. y Abad, F. J. (2014). Exploratory Routledge.
factor analysis en validation studies: Uses and re- Kelley, T. L. (1928). Crossroads in the Mind of Man. Stan-
commendations. Psicothema, 26, 395-400. ford, CA: Stanford University Press.
Jaeger, R. M. (1982). An iterative structured judgment Kelley, T. L. (1939). The selection of upper and lower
process for establishing standards on competence groups for the validation of tests items. Journal of
tests: Theory and application. Educacional Evalua- Educacional Psychology, 30, 17-24.
tion and Policy Analysis, 4, 461-475. Kenny, D. A. (1994). The multitrait-multimethod matrix:
Jaeger, R. M. (1989). Certification of student competen- Design, analysis, and conceptual issues. En P. E. Sho-
ce. En R. L. Linn (ed.), Educational Measurement (3.a rut y S. T. Fiske (eds.), Personality research, methods
ed.). Nueva York: MacMillan. and theory. Hillsdale, NJ: LEA.
Jaeger, R. M. (1991). Selection of judges for standard- Kerlinger, F. N. y Pedhazur, E. J. (1973). Multiple Regres-
setting. Educacional Measurement: Issues and Practi- sion in Behavioral Research. Nueva York: Holt, Rine-
ce, 10 (2), 3-6. hart and Winston.
Jaeger, R. M. (1995). Setting performance standards Kirk, R. E. (1995). Experimental design: Procedures for
through two-stage judgmental policy capturing. the behavioral sciences (3.a ed.). Pacific Grove, CA:
Applied Measurement in Education, 8, 15-40. Brooks/Cole.
Jennrich, R. I. y Bentler, P. M. (2011). Exploratory bifac- Klecka, W. R. (1980). Discriminant Analysis. Beverly
tor analysis. Psychometrika, 76 (4), 537-549. Hills, CA: Sage.
Jensen, A. R. (1969). How much can be boost IQ and Kline, R. B. (2015). Principles and practice of structural
scholastic achievment? Harvard Educational Review, equation modeling (4.a ed.). Nueva York: Guilford Press.
39, 1-123. Koffier, S. L. (1980). A comparison of approaches for
Jensen, A. R. y Munro, E. (1979). Redaction Time, Move- setting proficiency standards. Journal of Educacional
ment Time and Intelligence. Intelligence, 3, 121-126. Measurement, 17, 167-178.
© Ediciones Pirámide
362 / Referencias bibliográficas
Kolen, M. J. (1988). Traditional equating methodology. Lawley, D. N. (1943). On problems connected with item
Educational Measurement, 7 (4), 29-36. selection and test construction. Proceedings of the
Kolen, M. J. y Brennan, R. L. (2014). Test equating, sca- Royal Society of Edimburg, 61, 273-287.
ling, and linking: Methods and practices. Nueva York: Lawley, D. N. (1944). The factorial analysis of multiple
Springer. item tests. Proceedings of the Royal Society of Edin-
Koo, T. K y Li, M. Y. (2016). A guideline for selecting burg, 62, 74-82.
and reporting intraclass correlation coefficients for Lazarsfeld, P. F. (1950). The logical and mathematical
reliability research. Journal of Chiropractic Medicine, foundation of latent structure analysis. En S. A.
15 (2), 155-163. Stouffer et al., Measurement and prediction. Prince-
Kopec, J. A., Badii, M., McKenna, M., Lima, V. D., Sa- ton, NJ: Princeton University Press.
yre, E. C. y Dvorak, M. (2008). Computerized adap- Lee, R., Miller, K. J. y Graham, W. K. (1982). Correction
tive testing in back pain: Validation of the CAT- for restriction of range and attenuation in criterion
5DQOL. Spine, 33, 1384-1390. related validation studies. Journal of App/ied Psycho-
Kosinski, M., Stillwell, D. y Graepel, T. (2013). Private logy, 67 (5), 637-639.
traits and attributes are predictable from digital re- Leeson, H. V. (2006). The mode effect: A literature review
cords of human behaviour. Proceedings of the Natio- of human and technological issues in computerized
nal Academy of Sciences (PNAS), 110 (15), 5802- testing. International Journal of Testing, 6, 1-24.
5805. Leew, J. y Mair, P. (2007). An introduction to the special
Krantz, D. H., Atkinson, R. C., Luce, R. D. y Suppes, P. volume on psychometric. Journal of Statistical Soft-
(eds.) (1974). Contemporary Developmencs in Mathe- ware, 20, 1-5.
matical Psychology (vol. 1: Leaming, Memory, and Levy, R., Mislevy, R. y Sinharay, S. (2009). Posterior pre-
Thinking). San Francisco, CA: Freeman. dictive model checking for multidimensionality in
Kristof, W. (1963). The statistical theory of stepped-up item response theory. Applied Psychological Measure-
reliability coefficients when a test has been divided ment, 33 (7), 519-537.
into several equivalent parts. Psychometrika, 28, 221- Liang, T. y Wells, C. S. (2009). A model fit statistic for
238. generalized partial credit model. Educational and
Krosnick, J. A. (1999). Survey research. Annual Review of Psychological Measurement, 69, 913-928.
Psychology, 50, 537-567. Liang, T., Wells, C. S. y Hambleton, R. K. (2014). An
Krosnick, J. A. y Presser, S. (2010). Question and ques- assessment of the nonparametric approach for eva-
tionnaire desing. En P. V. Marsden y J. D. Wright luating the fit of item response models. Journal of
(eds.), Handbook of survey research (2.a ed.). Bingley, Educational Measurement, 28 (2), 115-129.
Inglaterra: Emerald Group. Liang, T., Han, K. T. y Hambleton, R. K. (2009). Resid-
Kuder, G. F. y Richardson, M. W. (1937). The theory of Plots-2: Computer software for IRT graphical resi-
the estimation of test reliability. Psychometrika, 2, dual analyses. Applied Psychological Measurement, 33
151-160. (5), 411-412.
Laming, D. (1973). Mathematical Psychology. Londres: Likert, R. (1932). A technique for the measurement of
Academic Press. attitudes. Archives of Psichology, 22, 1-55.
Lane, S. (2014). Validity evidence based on testing conse- Lin, L. (1989). A concordance correlation coefficient to
quences. Psicothema, 26, 127-135. evaluate reproducibility. Biometrics, 45, 255-268.
Lane, S. y Stone, C. A. (2002). Strategies for examining Linacre, J. M. (2015). Winsteps Rasch measurement com-
the consequences of assessment and accountability puter program. Beaverton, OR: Winsteps.com.
programs. Educational Measurement: Issues and Linacre, J. M. y Wright, B. D. (1998). A user’s guide to
Practice, 21, 23-30. BIGSTEPS. http://www.winsteps.com/a/bigsteps.pdf.
Lane, S., Parke, C. S. y Stone, C. A. (1998). A framework Lindquist, E. F. (ed.) (1951). Educational Measure-
for evaluating the consequences of assessment pro- ment. Washington, DC: American Council on Edu-
grams. Educational Measurement: Issues and Practi- cation.
ce, 17, 24-28. Lindquist, E. F. (1953). Design and analysis of experi-
Lane, S., Raymond, M. R. y Haladyna, T. M. (eds.) ments in psychology and education. Boston, MA:
(2016). Handbook of test development. Nueva York: Houghton Miffiin.
Routledge. Linn, R. L. (ed.) (1989). Educational Measurement. Nue-
Lasko, T. A., Bhagwat, J. G., Zou, K. H. y Ohno-Ma- va York: MacMillan.
chad, L. (2005). The use of receiver operating charac- Linn, R. L. (ed.) (1989). Educational Measurement.
teristic curves in biomedical informatics. Journal of Washington, DC: American Council on Educa-
Biomedical Informatics, 38, 404-415. tion.
© Ediciones Pirámide
Referencias bibliográficas / 363
Linn, R. L. (1990). Admissions testing: Recommended tic curve parameters. Research Bulletin, 75-133. Prin-
uses, validity, differential prediction, and coaching. ceton, NJ: ETS.
Applied Measurement in Education, 3, 297-318. Lord, F. M. (1975). Formula scoring and number-right
Linn, R. L. (1997). Evaluating the validity of assessments: scoring. Journal of Educational Measurement, 12,
The consequences of use. Educational Measurement: 7-12.
Issues and Practice, 16, 14-16. Lord, F. M. (1977). Optimal number of choices per item,
Linn, R. L. (1998). Partitioning responsibility for the evalua- a comparison of four approaches. Journal of Educa-
tion of the consequences of assessment programs. Edu- cional Measurement, 14 (1), 33-38.
cational Measurement: Issues and Practice, 17, 28-30. Lord, F. M. (1980). Applications of item response theory
Linn, R. L. y Harnisch, D. L. (1981). Interaction between to practica/testing problems. Hillsdale, NJ: LEA.
item content and groups membership on achievment Lord, F. M. (1984). Standard errors of measurement at
test items. Journal of Educational Measurement, 18, different ability levels. Journal of Educacional Measu-
109-118. rement, 21 (3), 239-243.
Linn, R. L., Levine, M. V., Hastings, C. N. y Wardrop, J. Lord, F. M. (1986). Maximum likelihood and bayesian
(1981). Item bias in a test of reading comprehension. parameter estimation in item response theory. Jour-
Applied Psychological Measurement, 5, 159-173. nal of Educational Measurement, 23 (2), 157-162.
Lissitz, R. W. (ed.) (2009). The concept of validity: Revi- Lord, F. M. y Novick, M. R. (1968). Statistical theories
sions, new directions, and applications. Charlotte, NC: of mental tests scores. Reading, MA: Addison-Wes-
Information Age. ley.
Liu, Y. y Maydeu, A. (2013). Local dependence diagnos- Lord, F. M. y Wingersky, M. S. (1983). Comparison of
tics in IRT modeling of binary data. Educational and IRT observed-score and true-score «equating». Re-
Psychological Measurement, 73 (2), 254-274. search Bulletin, 83-86. Princeton, NJ: ETS.
Livingston, S. A. (1972). Criterion-referenced applica- Lorr, M. (1983). Cluster Analysis for the Social Sciences.
tions of classical test theory. Journal of Educational San Francisco, CA: Jossey-Bass.
Measurement, 9, 13-26. Lozano, L., García-Cueto, E. y Muñiz, J. (2008). Effect
Livingston, S. (2009). Constructed-response test questions: of the number of response categories on the reliabi-
Why we use them, how we score them. Princeton, NJ: lity and validity of rating scales. Methodology, 4 (2),
Educational Testing Service. 73-79.
Livingstone, S. A. y Zieky, M. J. (1982). Passing scores. Lubinski, D. y Humphreys, L. G. (1990). Assessing spu-
Princeton, NJ: ETS. rious «Moderator Effects»: Ilustrated substantively
Lloret-Segura, S., Ferreres-Traver, A., Hernández-Bae- with the hypothesized («Synergistic») relation bet-
za, A. y Tomás-Marco, I. (2014). El análisis facto- ween spatial and mathematical ability. Psychological
rial exploratorio de los ítems: una guía práctica, Bulletin, 107 (3), 385-393.
revisada y actualizada. Anales de Psicología, 30 (3), Luce, R. D., Bush, R. R. y Galanter, E. (eds.) (1963).
1151-1169. Handbook of Mathematical Psychology. Nueva York:
López-Pina, J. A. (1995). Teoría de respuesta al ítem: fun- Wiley.
damentos. Barcelona: PPU. Lumsden, J. (1961). The construction of unidimensional
López-Pina, J. A. e Hidalgo, M. D. (1996). Bondad de tests. Psychological Bulletin, 58, 122-131.
ajuste y teoría de respuesta a los ítems. En J. Muñiz Lunz, M. E. (1997). Constraints, concerns, alternatives for
(coord.), Psicometría. Madrid: Universitas. test disclosure. Comunicación presentada en el con-
Lord, F. M. (1952). A theory of test scores. Psychometric greso de la NCME, Chicago, marzo.
Monographs, 7. Magno, C. (2009). Taxonomy of aptitude test items: A
Lord, F. M. (1953a). The relation of test score to the trait guide for item writers. The International Journal of
underlying the test. Educational and Psychological Educational and Psychological Assessment, 2, 39-53.
Measurement, 13, 517-549. Magnuson, D. (1967). Test Theory. Reading, MA: Addi-
Lord, F. M. (1953b). An application of confidence inter- son-Wesley (traducción española: México, Trillas,
vals of maximum likelihood to the estimation of an 1972).
examinee’s ability. Psychometrika, 18, 57-75. Maguire, T., Hattie, J. y Brian, H. (1994). Construct vali-
Lord, F. M. (1968). An analysis of the verbal scholastic dity and achievement assessment. The Alberta Jour-
aptitude test using Birnbaum’s three parameter logis- nal of Educational Research, 40, 109-126.
tic model. Educational and Psychological Measure- Mantel, N. y Haenszel, W. (1959). Statistical aspects of
ment, 28, 989-1020. the analysis of data from retrospective studies of di-
Lord, F. M. (1974). Evaluation with artificial data of a sease. Journal of the National Cancer Institute, 22,
procedure for estimating ability and item characteris- 719-748.
© Ediciones Pirámide
364 / Referencias bibliográficas
Marascuilo, L. A. y Slaughter, R. E. (1981). Statistical Messick, S. (1975). The standard problem: Meaning and
procedures for identifying possible sources of item values in measurement and evaluation. American
bias based on chi-square statistics. Journal of Educa- Psychologist, 30, 955-966.
tional Measurement, 18, 229-248. Messick, S. (1980). Test validity and the ethics of assess-
Markovetz, A., Blaszkiewicz, K., Montag, C., Switala, C. ment. American Psychologist, 35, 1012-1027.
y Schlaepfer, T. E. (2014). Psycho-Informatics: Big Messick, S. (1988). The once and future issues of validity:
Data shaping modern psychometrics. Medical Hi- Assessing the meaning and consequences of measu-
potheses, 82 (4), 405-411. rement. En H. Wainer y H. I. Braun (eds.), Test vali-
Markus, K. A. y Borsboom, D. (2013). Frontiers of test dity (pp. 33-45). Hillsdale, NJ: LEA.
validity theory. Nueva York: Routledge. Messick, S. (1989). Validity. En R. L. Linn (ed.), Educatio-
Marsh, H. W. (1988). Multitrait-multimethod analysis. nal Measurement (3.a ed.). Nueva York: MacMillan.
En J. P. Keeves (ed.), Educational Research, methodo- Messick, S. y Jungeblut, A. (1981). Time and method in
logy and measurement: An international handbook coaching for the SAT. Psychological Bulletin, 89, 191-
(pp. 570-580). Oxford: Pergamon Press. 216.
Marshall, J. L. y Haertel, E. H. (1976). The mean split- Michell, J. (1986). Measurement scales and statistics: A
half coefficient of agreement: A single administration clash of paradigms. Psychological Bulletin, 100, 398-
index of reliability for mastery tests (manuscrito no 407.
publicado). Milwaukee: University of Wisconsin. Miller, G. (2012). The smartphone psychology manifesto.
Martínez Arias, M. R., Hernández Lloreda, M. J. y Her- Perspectives on Psychological Science, 7 (3), 221-237.
nández Loreda, M. V. (2006). Psicometría. Madrid: Milligan, G. W. y Cooper, M. C. (1987). Clustering
Alianza. methods. Applied Psychological Measurement, 11 (4),
Martínez-Cardeñoso, J. García-Cueto, E. y Muñiz, J. 329-354.
(2000). Efecto del entrenamiento sobre las propieda- Millman, J. y Arter, J. A. (1984). Issues in item banking.
des psicométricas de los tests. Psicothema, 12, 358- Journal of Educational Measurement, 21 (4), 315-330.
362. Millman, J., Bishop, H. y Ebel, R. (1965). An analysis of
Maydeu, A. (1996). Modelos multidimensionales de teo- test-wiseness. Educational and Psychological Measu-
ría de respuesta a los ítems. En J. Muñiz (coord.), rement, 25, 707-726.
Psicometría. Madrid: Universitas. Mills, C. N. y Breithaupt, K. J. (2016). Current issues in
Mazor, K. M., Clauser, B. E. y Hambleton, R. K. (1992). computer-based testing. En C. S. Wells y M. Faulk-
The effect of sample size on the functioning of the ner-Bond (eds.), Educational measurement: From fun-
Mantel-Haenszel statistic. Educational and Psycholo- dations to future. Nueva York: Guilford Press.
gical Measurement, 52, 443-452. Milis, C. N. y Melican, G. J. (1988). Estimating and ad-
McClelland, G. H. y Judd, C. M. (1993). Statistical diffi- justing cutoff scores: Features of selected methods.
culties of detecting interactions and moderator Applied Measurement in Education, 1, 261-275.
effects. Psychological Bulletin, 114 (2), 376-390. Mills, C. N., Potenza, M. T., Fremer, J. J. y Ward, W. C.
McDonald, R. P. (1970). The theoretical foundations of (eds.) (2002). Computer-based testing: Building the
common factor analysis, principal factor analysis and foundation for future assessments. Hillsdale, NJ: LEA.
alpha factor analysis. British Journal of Mathematical Mislevy, R. J. (1986). Bayes modal estimation in item res-
and Statistical Psychology, 23, 1-21. ponse models. Psychometrika, 51 (2), 177-196.
McDonald, R. P. (1978). Generalizability in factorable Mislevy, R. J. y Bock, R. D. (1984). BIWG: Maximum
domains: Domain validity and generalizability. Educ- likelihood item analysis and test scoring with logistic
cational and Psychological Measurement, 38, 75-79. models. Mooresville, IN: Scientific Software.
McDonald, R. P. (1986). Describing the elephant: Struc- Moreland, K. L., Eyde, L. D., Robertson, G. J., Primoff,
ture and function in multivariate data. Psychome- E. S. y Most, R. B. (1995). Assessment of test user
trika, 51 (4), 513-534. qualifications. American Psychologist, 5, 14-23.
McGraw, K. O. y Wong, S. P. (1996). Forming inferences Moreno, R., Martínez, R. J. y Muñiz, J. (2004). Directri-
about some intraclass correlation coefficients. Psycho- ces para la construcción de ítems de elección múlti-
logical Methods, 1, 30-46. ple. Psicothema, 16 (3), 490-497.
Mehrens, W. A. (1997). The consequences of consequen- Moreno, R., Martínez, R. y Muñiz, J. (2006). New guide-
tial validity. Educational Measurement: Issues and lines for developing multiple-choice items. Methodo-
Practice, 16, 16-18. logy, 2, 65-72.
Menéndez, L., Peña, E., Fonseca, E. y Muñiz, J. (2017). Moreno, R., Martínez, R. y Muñiz, J. (2015). Guidelines
Computerized adaptive assessment of organizational based on validity criteria for the development of mul-
climate. Anales de Psicología, 33 (1), 152-159. tiple choice ítems. Psicothema, 27, 388-394.
© Ediciones Pirámide
Referencias bibliográficas / 365
© Ediciones Pirámide
366 / Referencias bibliográficas
Muthén, B. (1988). Some uses of structural equation mo- Parshall, C. G., Spray, J. A., Kalohn, J. C. y Davey, T.
delling to validity studies: Extending IRT to external (2002). Practical considerations in computer-based tes-
variables. En H. Wainer y H. I. Braun (eds.), Test ting. Nueva York: Springer.
validity (pp. 213-238). Hillsdale, NJ: LEA. Parshall, C. G., Harmes, J. C., Davey, T. y Pashley, P.
Navas, M. J. (1996). Equiparación de puntuaciones. En (2010). Innovative items for computerized testing. En
J. Muñiz (ed.), Psicometría. Madrid: Universitas. W. J. van der Linden y C. A. Glas (eds.), Elemens of
Nedelsky, L. (1954). Absolute grading standards for ob- adapting testing. Londres: Springer.
jective tests. Educational and Psychological Measure- Paz, M. D. (1996). Validez. En J. Muñiz (ed.), Psicome-
ment, 14 (1), 3-19. tría (pp. 49-103). Madrid: Universitas.
Nelson, B., McGorry, P. D., Wichers, M., Wigman, J. T. Pedhazur, E. J. (1982). Multiple Regression in Behavioral
W. y Hartmann, J. A. (2017). Moving from static to Research (2.a ed.). Nueva York: Holt, Rinehart and
dynamic models of the onset of mental disorder. Winston.
JAMA Psychiatry, 74, 528-534. Peng, C. J. y Subkoviak, M. J. (1980). A note on Huynh’s
Nering, M. L. y Ostini, R. (eds.) (2010). Handbook of normal approximation procedure for estimating cri-
polytomous item response theory models. Nueva York: terion-referenced reliability. Journal of Educational
Routledge. Measurement, 17, 359-368.
Nevo, B. (1985). Face validity revisited. Journal of Edu- Peters (1981). Basic skills improvement policy implementa-
cational Measurement, 22, 287-293. tion guide n.o 3: Standards-setting manual. Boston,
Nitko, A. J. (1984). Defining criterion-referenced tests. En MA: Massachusetts State Department of Education.
R. A. Berk (ed.), A guide w criterion-referenced test Petersen, M. A., Groenvold, M., Aaronson, N., Fayers,
construction. Baltimore, MD: The Johns Hopkins P., Sprangers, M. y Bjorner, J. B. (2006). Multidimen-
University Press. sional computerized adaptive testing of the EORTC
Novick, M. R. (1966). The axioms and principal results QLQ-C30: Basic developments and evaluations. Qua-
of classical test theory. Journal of Mathematical Psy- lity Life Research, 15, 315-329.
choligy, 3, 1-18. Phelps, R. (ed.) (2005). Defending standardized testing.
Olea, J., Abad, F. y Barrada, J. R. (2010). Tests informa- Londres: LEA.
tizados y otros nuevos tipos de tests. Papeles del Psi- Phelps, R. (ed.) (2008). Correcting fallacies about educatio-
cólogo, 31, 94-107. nal and psychological testing. Washington, DC: APA.
Olea, J. y Ponsoda, V. (1996). Tests adaptativos informa- Pitoniak, M. J., Sireci, S. y Luecht, R. M. (2002). A mul-
tizados. En J. Muñiz (coord.), Psicometría. Madrid: titrait-multimethod validity investigation of scores
Universitas. from professional licensure exam. Educational and
Olea, J., Ponsoda, V. y Prieto, G. (eds.) (1999). Tests in- Psychological Measurement, 62, 498-516.
formatizados: fundamentos y aplicaciones. Madrid: Pitoniak, M. J. y Cizek, G. J. (2016). Standard setting. En
Pirámide. C. S. Wells y M. Faulkner-Bond (eds.), Educational
Orlando, M. y Thissen, D. (2000). Likelihood-based measurement. From foundations to future. Nueva
item-fit indices for dichotomous item response theory York: Guilford Press.
models. Applied Psychological Measurement, 24 (1), Plake, B. S., Melican, G. J. y Milis, C. N. (1991). Factors
50-64. influencing intrajudge consistency during standard-
Osterlind, S. J. (1998). Constructing test items: Multiple- setting. Educational Measurement: Issues and Practi-
Choice, constructed-response, performance and others ce, 10 (2), 15-16.
formats. Boston, MA: Kluwer Academic Publishers. Ponsoda, V. y Hontangas, P. (2013). Segunda evaluación
Osterlind, S. J. y Everson, H. T. (2009). Differential item de tests editados en España. Papeles del Psicólogo,
functioning. Thousand Oaks, CA: Sage. 34, 82-90.
Osterlind, S. J. y Merz, W. R. (1994). Building a taxo- Popham, W. J. (1978). Criterion-referenced measurement.
nomy for constructed-response test items. Educatio- Englewood Cliffs, NJ: Prentice-Hall.
nal Assessment, 2 (2), 133-147. Popham, W. J. (1992). Appropriate expectations for con-
Overall. J. E. y Klett, C. J. (1972). Applied multivariate tent judgments regarding teacher licensure tests.
analysis. Nueva York: McGraw-Hill. Applied Measurement in Education, 5, 285-301.
Padilla, J. L., Gómez, J., Hidalgo, M. D. y Muñiz, J. Popham, W. J. (1997). Consequential validity: Right con-
(2007). Esquema conceptual y procedimientos para cern-wrong concept. Educational Measurement: Is-
analizar la validez de las consecuencias del uso de los sues and Practice, 16, 9-13.
test. Psicothema, 19, 173-178. Popham, W. J. y Husek, T. R. (1969). Implications of
Padilla, J. L. y Benítez, I. (2014). Validity evidence based criterion-referenced measurement. Journal of Educa-
on response processes. Psicothema, 26, 136-144. tional Measurement, 6, 1-9.
© Ediciones Pirámide
Referencias bibliográficas / 367
Powers, D. E. (1985). Effects of coaching on GRE apti- Reckase, M. D. (2009). Multidimensional item response
tude test scores. Journal of Educational Measurement, theory. Statistics for Social and Behavioral Sciences.
22, 121-136. Londres: Springer.
Powers, D. E. (1986). Relation of test item characteristics Reid, J. B. (1991). Training judges to generate standard-
to test preparation/test practice effects: A quantitati- setting data. Educacional Measurement: Issues and
ve summary. Psychological Bulletin, 100, 67-77. Practice, 10 (2), 11-14.
Powers, D. E. (1993). Coaching for the SAT: Summary of Reise, S. P. (2012). The rediscovery of bifactor measure-
the summaries and an update. Educational Measure- ment models. Multivariate Behavioral Research, 47,
ment: Issues and Practice, 12, 24-30. 667-696.
Prieto, G. y Delgado, A. (1996). Construcción de los Reise, S. P. y Haviland, M. G. (2005). Item Response
ítems. En J. Muñiz (coord.), Psicometría. Madrid: Theory and the Measurement of Clinical Change.
Universitas. Journal of Personality Assessment, 84, 228-238.
Prieto, G. y Delgado, A. (2010). Fiabilidad y validez. Pa- Restle, F. y Greeno, J. G. (1970). Introduction to Mathe-
peles del Psicólogo, 31, 67-74. malical Psychology. Reading, MA: Addison-Wesley.
Prieto, G. y Muñiz, J. (2000). Un modelo para evaluar la Revuelta, J., Abad, F. y Ponsoda, V. (2006). Modelos po-
calidad de los tests utilizados en España. Papeles del litómicos. Madrid: La Muralla.
Psicólogo, 77, 65-71. Richardson, M. W. (1936). The relationship between diffi-
Putnam, S. E., Pence, P. y Jaeger, R. M. (1995). A multi- culty and the differential validity of a test. Psychome-
stage dominant profile method for setting standards trika, 1, 33-49.
on complex performance assessments. Applied Mea- Ríos, J. y Wells, C. (2014). Validity evidence based on
surement in Education, 8 (1), 57-83. internal structure. Psicothema, 26, 108-116.
Qualls, A. L. (1992). A comparison of score level estima- Rodríguez, M. C. (2005). Three options are optimal for
tes of the standard error of measurement. Journal of multiple-choice items: A meta-analysis of 80 years of
Educational Measurement, 29 (3), 213-225. research. Educational Measurement: Issues and Prac-
R Core Team (2014). R: A language and environment for tice, 24 (2), 3-13.
statistical computing. Viena: R Foundation for Statis- Rodríguez, M. C. (2016). Selected-response item develop
tical Consulting. ment. En S. Lane, M. R. Raymond y T. M. Haladyna
Raju, N. S. (1977). A generalization of coeflicient alpha. (eds.), Handbook of test development. Nueva York:
Psychometrika, 42, 549-565. Routledge.
Raju, N. S. (1988). The area between two item characte- Rogers, H. J. y Hambleton, R. K. (1989). Evaluation of
ristic curves. Psycholmetrika, 53, 495-502. computer simulated baseline statistics for use in bias
Raju, N. S. (1990). Determining the significance of esti- studies. Educational and Psychological Measurement,
mated signed and unsigned areas between two item 49, 355-369.
response functions. Applied Psychological Measure- Rogers, H. J. y Swaminathan, H. H. (2016). Concepts and
ment, 14 (2), 197-207. methods on research on differential functioning of
Rasch, G. (1960). Probabilistic models for some intelligen- test items. En C. S. Wells y M. Faulkner-Bond (eds.),
ce and attainment tests. Copenhague: The Danish Educational measurement: From foundations to future.
Institute for Educational Research. Nueva York: Guilford Press.
Rauthmann, J. (2011). Not only item content but also Rogers, W. T. y Yang, P. (1996). Test wiseness: Its nature
item formats is important: Taxonomizing item for- and application. European Journal of Psychological
mat approaches. Social Behavior and Personality, 39 Assessment, 12, 247-259.
(1), 119-128. Doi: 10.2224/sbp.2011.39.1.119. Roid, G. H. (1984). Generating the test items. En R. A. Berk
Rebollo, P., García-Cueto, E., Zardaín, P. C., Cuervo, J., (ed.), A guide to criterion-referenced test construction.
Martínez, I., Alonso, J., Ferrer, M. y Muñiz, J. (2009). Baltimore, MA: The Johns Hopkins University Press.
Desarrollo del CAT-Health, primer test adaptativo Roid, G. H. y Haladyna, T. M. (1980). The emergence of
informatizado para la evaluación de la calidad de an item-writing technology. Review of Educational
vida relacionada con la salud en España. Medicina Research, 50, 293-314.
Clínica, 133 (7), 241-251. Roid, G. H. y Haladyna, T. M. (1982). A technology for
Reckase, M. D. (1979). Unifactor latent trait models test item writing. Nueva York: Academic Press.
applied to multifactor tests: Results and implications. Rosenbaum, P. R. (1987). Comparing item characteristic
Journal of Educational Statistics, 4 (3), 207-230. curves. Psychometrika, 52 (2), 217-233.
Reckase, M. D. (1998). Consequential validity from the Rowley, G. L. y Traub, R. E. (1977). Formula scoring,
test developer’s perspective. Educational Measure- number-right scoring, and test taking strategy. Jour-
ment: Issues and Practice, 17, 13-16. nal of Educational Measurement, 14, 15-22.
© Ediciones Pirámide
368 / Referencias bibliográficas
Rudner, L. M. (1977). An approach to biased item iden- Schmittlein, D. C. (1984). Assessing validity and test-re-
tification using latent trait measurement theory. Re- test reliability for «pick K of n» data. Marketing
unión anual de la AERA, Nueva York. Science, 3, 23-40.
Rudner, L. M., Getson, P. R. y Knight, D. L. (1980). A Shavelson, R. J., Webb, N. M. y Rowley, G. L. (1989).
Monte Carlo comparison of seven biased item detec- Generalizability Theory. American Psychologist, 44
tion techniques. Journal of Educational Measurement, (6), 922-932.
17 (1), 1-10. Shavelson, R. J. y Webb, N. (1991). Generalizability
Rulon, P. J. (1939). A simplified procedure for determi- theory. Beverly Hills, CA: Sage.
ning the reliability of a test by split-halves. Harvard Shealy, R. T. y Stout, W. F. (1993). An item response
Educacional Review, 9, 99-103. theory model for test bias and differential test
Rusch, T., Mair, O. y Hatzinger, R. (2016). IRT packages functioning. En P. W. Holland y H. Wainer (eds.),
in R. En W. van der Linden (ed.), Handbook of item Differential item functioning. Hillsdale, NJ: LEA.
response theory. Boca Ratón, FL: Chamman & Hall/ Shepard, L. A. (1997). The centrality of test use and con-
CRC. sequences for test validity. Educational Measurement:
Ryan, A. M. y Ployhart, R. E. (2014). A century of selec- Issues and Practice, 16, 5-8.
tion. Annual Review of Psychology, 65, 693-717. Shepard, L. A. (1982). Definitions of bias. En R. A. Berk
Ryan, K. (2002). Assessment validation in the context of (ed.), Handbook of methods for detecting test bias.
high-stakes assessment. Educational Measurement: Baltimore, MD: The Johns Hopkins University Press.
Issues and Practice, 21, 7-15. Shepard, L. A., Camilli, G. y Averill, M. (1981). Compa-
Samejima, F. (1969). Estimation of latent ability using a rison of procedures for detecting test-item bias with
response pattern of graded scores. Psychometric Mo- both internal and external ability criteria. Journal of
nographs, 17. Educational Statistics, 67, 317-375.
Samejima, F. (1974). Normal ogive model on the conti- Shepard. L. A., Camilli, G. y Williams, D. M. (1984).
nous response level in the multidimensional latent Accounting for statistical artifacts in item bias re-
space. Psychometrika, 39, 11-121. search. Journal of Educational Statistics, 9, 93-128.
San Martín, R. y Pardo, A. (1989). Psicoestadística. Ma- Shepard. L. A., Camilli, G. y Williams, D. M. (1985).
drid: Pirámide. Validity of approximation techniques for detecting
Saunders, D. R. (1956). Moderator variables in predic- item bias. Journal of Educational Measurement, 22
tion. Educacional and Psycological Measurement, 16, (2), 77-105.
209-222. Shepard, L., Glaser, R., Linn, R. y Bohrnstedt, G. (1993).
Scalise, K. y Gifford, B. (2006). Computer-based as- Setting performance standards for achievement tests.
sessment in e-learning: A framework for constructing Standford, CA: National Academy of Education.
«intermediate constraint» questions and tasks for te- Shermis, M. D. y Burstein, J. (eds.) (2013). Handbook of
chnology platforms. The Journal of Technology, Lear- automated essay evaluation. Current applications and
ning, and Assesment, 4 (6). Retrieved from http:// new directions. Nueva York: Routledge.
www.jtla.org. Shoukri, M. M. (2010). Measures of interobserver agree-
Scheuneman, J. (1979). A method of assessing bias in test ment and reliability. Boca Ratón, FL: Taylor and
items. Journal of Educational Measurement, 16 (3), Francis.
143-152. Shrock, S. A. y Coscarelli, W. C. (2007). Criterion-referen-
Schmeiser, C. B. y Welch, C. (2006). Test development. ced test development. San Francisco, CA: Pfeiffer.
En R. L. Brennan (ed.), Educational measurement (4.a Shrout, P. E. y Fleiss, J. L. (1979). Intraclass correlations:
ed.) (pp. 307-353). Westport, CT: American Council Uses in assessing rater reliability. Psychological Bulle-
on Education/Praeger. tin, 86, 420-428.
Schmidt, F. L. y Hunter, J. E. (1996). Measurement error Silva, F. (1989). Evaluación conductual y criterios psico-
in psychological research: Lessons from 26 research métricos. Madrid: Pirámide.
scenarios. Psycholoyical Methods, 1 (2), 199-223. Simner, M. L. (1996). Recommendations by the Cana-
Schmidt, F. L. y Hunter, J. E. (1998). The validity and dian Psychological Association for improving the
utility of selection methods in personnel psychology: North American safeguards that help protect the pu-
Practical and theoretical implications of 85 years of blic against test misure. European Journal of Psycho-
research findings. Psychological Bulletin, 124 (2), 262- logical Assessment, 12, 72-82.
274. Sireci, S. (1998a). The construct of content validity. So-
Schmitt, N. y Stults, D. M. (1986). Methodology review: cial Indicators Research, 45, 83-117.
Analysis of multitrait-multimethod matrices. Applied Sireci, S. (1998b). Gathering and analyzing content vali-
Psychological Measurement, 10, 1-22. dity data. Educational Assessment, 5 (4), 299-321.
© Ediciones Pirámide
Referencias bibliográficas / 369
Sireci, S. G. (2003). Validity: Content. En R. Fernández Standards for educational and psychological testing (1974,
Ballesteros (ed.), Encyclopedia of Psychological As- 1985). Washinton, DC: American Psychological Aso-
sessment (pp. 1075-1077). Londres: Sage Publications. ciation.
Sireci, S. y Faulkner-Bond, M. (2014). Validity evidence Stanley, J. C. (1971). Reliability. En R. L. Thorndike
based on test content. Psicothema, 26, 100-107. (ed.), Educational Measurement (2.a ed.). Washing-
Sireci, S. y Geisinger, K. F. (1992). Analyzing test content ton, DC: American Council on Education.
using cluster analysis and multidimensional scaling. Stevens, S. S. (1946). On the theory of scales of measure-
Applied Psychological Measurement, 16, 17-31. ment. Science, 103, 667-680.
Sireci, S. y Geisinger, K. F. (1995). Using subject matter Stocking, M. y Lord, F. M. (1983). Developing a com-
experts to assess content representation: A MDS analy- mon metric in item response theory. Applied Psycho-
sis. Applied Psychological Measurement, 19, 241-255. logical Measurement, 7, 201-210.
Sireci, S. y Rios, J. A. (2013). Decisions that make a Stone, C. A. y Zhang, B. (2003). Assessing goodness of
difference in detecting differential item functioning. fit of item response theory models: A comparison of
Educational Research and Evaluation, 19, 170-187. traditional and alternative procedures. Journal of
Sireci, S. y Zenisky, A. L. (2006). Innovative items format in Educational Measurement, 40, 331-352.
computer-based testing: In pursuit of construct repre- Stout, W. (1987). A nonparametric approach for assessing
sentation. En S. M. Downing y T. M. Haladyna (eds.), latent trait unidimensionality. Psychometrika, 52 (4),
Handbook of test development. Hillsdale, NJ: LEA. 589-617.
Sireci, S. y Zenisky, A. L. (2016). Computerized innovative Stout, W. F., Habing, B., Douglas, J., Kim, H., Roussos,
item formats: Achievement and credentialing. En S. L. y Zhang, J. (1996). Conditional covariance-based
Lane, M. R. Raymond y T. M. Haladyna (eds.), Hand nonparametric multidimensionality assessment.
book of test development. Nueva York: Routledge. Applied Psychological Measurement, 20, 331-354.
Sireci, S. y Faulkner-Bond, M. (2016). The times they are Subkoviak, M. J. (1976). Estimating reliability from a sin-
A-changing, but the song remains the same. Future gle administration of a mastery test. Journal of Edu-
issues and practices in test validation. En C. S. Wells cational Measurement, 13, 265-276.
y M. Faulkner-Bond (eds.), Educational measure- Subkoviak, M. J. (1984). Estimating the reliability of
ment. From foundations to future (pp. 435-448). Nue- mastery-nonmastery classifications. En R. A. Berk
va York: Guilford Press. (ed.), A guide criterion-referenced test construction.
Smith, G. T., Fischer, S. y Fister, S. M. (2003). Incremen- Baltimore, MD: The Johns Hopkins University Press.
tal validity principles in test construction. Psycholo- Svetina, D. (2013). Assessing dimensionality of noncom-
gical Assessment, 15, 467-477. pensatory multidimensional item response theory
Smith, J. E. K. (1976). Analysis of qualitative data. with complex structures. Educational and Psychologi-
Annual Review of Psychology, 27, 487-499. cal Measurement, 73 (2), 312-338.
Smith, S. T. (2005). On construct validity: Issues of Svetina, D. y Levy, R. (2014). A framework for dimensio-
method measurement. Psychological Assessment, 17, nality assessment for multidimensional item response
396-408. models. Educational Assessment, 19 (1), 35-57.
Smits, N., Cuijpers, P. y Van Straten, A. (2011). Applying Swaminathan, H. (1983). Parameter estimation in item
computerized adaptive testing to the CES-D scale: A response models. En R. K. Hambleton (ed.), Appli-
simulation study. Psychiatry Research, 188, 147-155. cations of item response theory (pp. 24-44). Vancou-
Spath, H. (1980). Cluster Analysis Algorithms. Nueva ver, British Columbia: Educational Research Institu-
York: Wiley. te of British Columbia.
Spearman, C. (1904). The proof and measurement of as- Swaminathan, H. y Gifford, J. A. (1982). Bayesian esti-
sociation between two things. American Journal of mation in the Rasch model. Journal of Educational
Psychology, 15, 72-101. Statistics, 7, 175-192.
Spearman, C. (1907). Demonstration of formulae for true Swaminathan, H. y Gifford, J. A. (1985). Bayesian esti-
measurement of correlation. American Journal of mation in the two-parameter logistic model. Psycho-
Psychology, 18, 161-169. metrika, 50, 349-364.
Spearman, C. (1913). Correlations of sums and differen- Swaminathan, H. y Gifford, J. A. (1986). Bayesian esti-
ces. British Journal of Psychology, 5, 417-426. mation in the three-parameter logistic model. Psycho-
Spearman, C. (1927). The abilities of man. Nueva York: metrika, 51, 589-601.
McMillan. Swaminathan, H., Hambleton, R. K. y Algina. J. (1974).
Stafford, R. S. (1971). The Speededness Quotient: A new Reliability of criterion-referenced tests: A decision-
descriptive statistic for test. Journal of Educational theoretic formulation. Journal of Educational Measu-
Measurement, 8 (4), 275-277. rement, 11, 263-267.
© Ediciones Pirámide
370 / Referencias bibliográficas
Swaminathan, H., Hambleton, R. K. y Rogers, J. (2007). Thurstone, L. L. (1928a). The absolute zero in intelligen-
Assessing the fit of item response theory models. En ce measurement. The Psychological Review, 35, 175-
C. R. Rao y S. Sinharay (eds.), Handbook of statis- 197.
tics, vol. 26 (pp. 683-718). Ámsterdam: North Ho- Thurstone, L. L. (1928b). Attitude can be measured.
lland. American Journal of Sociology, 33, 529-554.
Swets, J. A. (1996). Signal detection theory and ROC Thurstone, L. L. (1931). The Reliability and Validity of
analysis in psychology and diagnostics: Collected pa- Tests. Ann Arbor, MI: Edward Brothers.
pers. Mahwah, NJ: LEA. Thurstone, L. L. (1937). Psychology as a quantitative ra-
Taleb, N. N. (2008). El cisne negro. Barcelona: Paidós tional science. Science, 85, 227-232.
(orig. 2007). Thurstone, L. L. (1938). Primary mental abilities. Psycho-
Taleporos, E. (1998). Consequential validity: A pratitioner’s metric Monogaphs.
perspective. Educational Measurement: Issues and Thurstone. L. L. (1947). Multiple Factor Analysis. Chica-
Practice, 17, 20-23. go, IL: University of Chicago Press.
Tate, R. (2003). A comparison of selected empirical Thurstone, L. L. y Ackerson, L. (1929). The mental
methods for assessing the structure of responses to growth curve for the Binet tests. The Journal of Edu-
test items. Applied Psychological Measurement, 27 cational Psychology, 20, 569-583.
(3), 159-203. Thurstone, L. L. y Chave, E. J. (1929). The Measurement
Tatsuoka, M. M. (1970). Discriminant Analysis. Cham- of Attitudes. Chicago, IL: University of Chicago
paign, IL.: Institute for Personality and Ability Testing. Press.
Taylor, H. C. y Russell, J. T. (1939). The relationship of Thurstone, L. L. y Thurstone, T. G. (1941). Factorial stu-
validity coefficients to the practical effectiveness of dies of intelligence. Psychometric Monographs, 2.
tests in selection: Discusion and tables. Journal of Timm, N. H. (1975). Multivariate Analysis with Applica-
Applied Psychology, 23, 565-578. tions in Education and Psychology. Monterrey, CA:
Tenopyr, M. L. y Oeltjen, P. D. (1982). Personnel Selec- Brooks-Cole Publising Co.
tion and Classification. Annual Review of Psychology, Tittle, C. K. (1982). Use of judgmental methods in item
33, 581-618. bias studies. En R. A. Berk (ed.), Handbook of
Terman, L. M. (1916). The Measurement of Intelligence. methods for detecting test bias. Baltimore, MD: The
Boston, MA: Houghton Miffiin. Johns Hopkins University Press.
Thissen, D. M. (1986). MULTIWG: Item analysis and Torgerson, W. S. (1958). Theory and Methods of Scaling.
scoring with multiple category response models (ver- Nueva York: Wiley.
sion 5). Mooresville, IN: Scientific Software. Townsend, J. T. y Ashby, F. G. (1984). Measurement sca-
Thissen, D. y Steinberg, L. (1984). A response model for les and statistics: The misconception misconceived.
multiple choice items. Psychometrika, 49, 501-519. Psychological Bulletin, 96, 394-401.
Thissen, D. y Steinberg, L. (1986). A taxonomy of item Trabin, T. E. y Weiss, D. J. (1983). The person response
response models. Psychometrika, 51 (4), 567-577. curve: Fit of individuals to item response theory mo-
Thorndike, E. L. (1904). An Introduction to the Theory of dels. En D. J. Weiss (ed.), New horizons in testing.
Mental and Social Measurements. Nueva York: Scien- Nueva York: Academic Press.
ce Press. Traub, R. E. y Hambleton, R. K. (1972). The effect of
Thorndike, R. L. (1951). Reliability. En E. F. Lindquidt scoring instructions and degree of speedness on the
(ed.), Educational Measurement. Washington, DC: validity and reliability of multiple-choice tests. Edu-
American Council on Education. cational and Psychological Measurement, 32, 737-758.
Thorndike, R. L. (ed.) (1971). Educational Measurement Trull, T. J. y Ebner-Premier, U. W. (2009). Using experien-
(2.a ed.). Washington, DC: American Council on ce sampling methods/ecological momentary as-
Education. sessment (ESM/EMA) in clinical assessment and cli-
Thorndike, R. L. (1982). Applied psychometrics. Boston, nical research: Introduction to the special section.
MA: Hougton Mifflin. Psychological Assessment, 21, 457-462.
Thurstone, L. L. (1925). A method of scaling psycholo- Trull, T. J. y Ebner-Priemer, U. W. (2013). Ambulatory
gical and educational tests. The Journal of Educatio- assessment. Annual Review of Clinical Psycology, 9,
nal Psychology, 16, 433-451. 151-176.
Thurstone, L. L. (1927a). A law of comparative judge- Tsutakawa, R. K. y Lin, H. Y. (1986). Bayesian estima-
ment. Psychological Review, 34, 273-286. tion of item response curves. Psychometrika, 51 (2),
Thurstone, L. L. (1927b). The method of paired compa- 251-268.
risons for social values. Journal of Abnormal Social Tucker, L. R. (1946). Maximum validity of a test with
Psychology, 21, 384-400. equivalent items. Psychometrika, 11, 1-13.
© Ediciones Pirámide
Referencias bibliográficas / 371
Tucker, L. R. (1987). Developments in classical item analy- Weinberg, S. (2003). Plantar cara. La ciencia y sus adver-
sis methods (ETS Research Report, 87-46). Prince- sarios culturales. Barcelona: Paidós.
ton, NJ: Educational Testing Service. Weiss, D. J. (ed.) (1983). New horizons in testing. Nueva
Turner, S. P. (1979). The concept of face validity. Quality York: Academic Press.
and Quantity, 13, 85-90. Wells, C. S. y Bolt, D. M. (2008). Investigation of a
Tversky, A. (1964). On the optimal number of alternati- nonparametric procedure for assessing goodness of
ves at a choice point. Journal of Mathematical fit in item response theory. Applied Measurement in
Psychology, 1, 386-391. Education, 21 (1), 22-40.
Tzelgov, J. y Stem, I. (1978). Relationship between varia- Wells, C. S. y Faulkner-Bond, M. (eds.) (2016). Educatio-
bles in three variables linear regression and the con- nal measurement. En C. S. Wells y M. Faulkner-
cept of suppressor. Educational and Psychological Bond (eds.), Educational measurement: From founda-
Measurement, 38, 325-335. tions to future. Nueva York: Guilford Press.
Umar, J. (1999). Item banking. En G. N. Masters y J. P. Wells, C. S., Rios, J. y Faulkner-Bond, M. (2016). Testing
Keeves (eds.), Advances in measurement in educational assumptions of item response theory models. En C.
research and assessment. Nueva York: Pergamon. S. Wells y M. Faulkner-Bond (eds.), Educational mea-
Urry, V. W. (1977). Tailored testing: A success application surement: From foundations to future. Nueva York:
of latent trait theory. Journal of Educational Measu- Guilford Press.
rement, 14, 181-196. Wells, C. S. y Faulkner-Bond, M. (eds.) (2016). Educatio-
Vale, C. D. (2006). Computerized item banking. En S. M. nal Measurement. From Foundations to Future. Nueva
Downing y T. M. Haladyna (eds.), Handbook of test York: Guilford Press.
development. Mahwah, NJ: Erlbaum. Way, W. D. y Robin, F. (2016). The history of computer-
Van Abswoude, A., Van der Ark, L. y Sijtsma, K. (2004). based testing. En C. S. Wells y M. Faulkner-Bond
A comparative study of test data dimensionality as- (eds.), Educational measurement: From fundations to
sessment procedures under nonparametric IRT mo- future. Nueva York: Guilford Press.
dels. Applied Psychological Measurement, 28 (1), 3-24. Whitely, S. (1980). Multicomponent latent trait models
Van der Linden, W. J. y Glas, C. A. (eds.) (2010). Ele- for ability tests. Psychometrika, 45, 479-494.
ments of adaptive testing. Nueva York: Springer. Widaman, K. F. (1985). Hierarchically nested covariance
Van der Linden, W. J. y Hambleton, R. K. (eds.) (1997). structure models for multitrait-multimethod data.
Handbook of modern item response theory. Nueva Applied Psychological Measurement, 9 (1), 1-26.
York: Springer-Verlag. Wiggins, G. (1993). Assessment: authenticity, context,
Van der Liden, W. (ed.) (2016). Handbook of item respon- and validity. Phi Delta Kappan, 15, 200-214.
se theory (3 volúmenes). Boca Ratón, FL: Chamman Wiggins, J. S. (1973). Personality and Prediction: Princi-
& Hall/CRC. ples of Personality Assessment. Reading, MA: Addi-
Van Os, J., Delespaul, P., Wigman, J., Myin-Germays, I. son-Wesley.
y Wichers, M. (2013). Beyond DSM and ICD: Intro- Wilcox, R. R. (1979). Prediction analysis and the reliabi-
ducing «precision diagnosis» for psychiatry using lity of a mastery test. Educational and Psychological
momentary assessment technology. World Psychiatry, Measurement, 39, 825-839.
12, 113-117. Wilcox, R. R. (1981). Solving measurement problems
Von Davier, A. A. (2011). Statistical models for test equa- with an answer —until— correct procedure. Applied
ting, scaling, and linking. Nueva York: Springer. Psychological Measurement, 5, 399-414.
Wainer, H. (1983). Are we correcting for guessing in the Wilcox, R. R. (1982). Some new results on a answer
wrong direction? En D. J. Weiss (ed.), New horizons —until— correct procedure. Journal of Educational
in testing. Nueva York: Academic Press. Measurement, 19, 67-74.
Wainer, H. (ed.) (1990). Computerized adaptive testing: A Wilcox, R. R. (1983). How do examinees behave when
primer. Hillsdale, NJ: LEA. taking multiple-choice tests? Applied Psychological
Wainer, H. (2000). CATs: Whither and whence. Psicoló- Measurement, 7 (2), 239-240.
gica, 21, 121-133. Wilcox, R. R. (1985). Estimating the validity of a multi-
Walter, O. B., Becker, J., Bjorner, J. B., Fliege, H., Klapp, ple-choice test item having K correct alternatives.
B. F. y Rose, M. (2007). Development and evaluation Applied Psychological Measurement, 9 (3), 311-316.
of a computer adaptive test for «Anxiety» (Anxiety- Wilson, M. (2005). Constructing measures: An item res-
CAT). Quality Life Research, 16 (suppl. 1), 143-155. ponse modeling approach. Mahwah, NJ: Lawrence
Ward, A. W. y Murray, M. (1994). Guidelines for the de- Erlbaum Associates.
velopment of ítem banks. Educational Measurement: Williamson, D. M., Bennett, R. E., Lazer, S., Berstein, J.,
Issus and Practice, 13 (1), 34-39. Foltz, P. W., Landauer, T. K., Rubin, D. P., Way, W.
© Ediciones Pirámide
372 / Referencias bibliográficas
P. y Sweeney, K. (2010). Automated scoring for the (Research Mem., n.o 23). Chicago: University Chica-
assessment of common core standards. Princeton, NJ: go, Dept. Ed.
Educational Testing Service. Yan, D., Von Davier, A. A. y Lewis, C. (2014). Compute-
Williamson, D. M., Mislevy, R. J. y Bejar, I. (2006). Au- rized multistage testing: Theory and applications.
tomated scoring of complex tasks in computer-based Boca Ratón, FL: CRC Press.
testing. Mahwah, NJ: LEA. Yela, M. (1987). Introducción a la teoría de los tests. Ma-
Winer, B. J. (1971). Statistical Principles in Experimental drid: Facultad de Psicología, Universidad Complu-
Design. Nueva York: McGraw-Hill. tense.
Wingersky, M. S. (1983). LOGIST: A program for com- Yela, M. (1990). Evaluar qué y para qué. El problema del
puting maximum likelihood procedures for logistic criterio. Papeles del Psicólogo, 46/47, 50-54.
test models. En R. K. Hambleton (ed.), Applications Yen, W. M. (1981). Using simulation results to choose a
of item response theory (pp. 45-56). Vancouver, BC: latent trait model. Applied Psychological Measure-
Educational Research Institute of British Columbia. ment, 5, 245-262.
Wingersky, M. S., Barton, M. A. y Lord, F. M. (1982). Yen, W. M. (1984). Effects of local item dependence on
LOGIST 5.0, version 1.0 user’s guide. Princeton, NJ: the fit and equating performance of the three-para-
ETS. meter logistic model. Applied Psychological Measure-
Wissler, C. (1901). Correlation of mental and physical ment, 8 (2), 125-145.
traits. Psychological Monographs, 3 (16). Yen, W. M. y Fitzpatrick, A. R. (2006). Item response
Wollack, J. A. y Fremer, J. J. (eds.) (2013). Handbook of theory. En R. L. Brennan (ed.), Educational measure-
test security. Nueva York: Routledge. ment (4.a ed.). Westport, CT: Praeger.
Wood, R., Wingersky, M. S. y Lord, F. M. (1976). Younger, M. S. (1979). Handbook for Linear Regression.
WGIST: A computer program for estimating examinee North Scituate, MA: Duxbury Press.
ability and item characteristic curve parameters (Re- Zachary, R. A. y Gorsuch, R. L. (1985). Continuous nor-
search Report 76-6). Princeton, NJ: Educational Tes- ming: Implications for the WAIS-R. Journal of Clini-
ting Service. cal Psychology, 41, 86-94.
Woodruff, D. J. y Feldt, L. S. (1986). Test for equality of Zedeck, S. (1971). Problems with the use of «moderator»
several alpha coefficients when their sample estimates variables. Psychological Bulletin, 76, 295-310.
are dependent. Psychometrika, 51 (3), 393-413. Zedeck, S. y Cascio, W. F. (1984). Psychological Issues in
Wright, B. D. (1968). Sample-free test calibration and per- Personnel Decisions. Annual Review of Psychology,
son measurement. Proceedings of the 1967 Invitational 35, 461-518.
Conference on Testing Problems. Princeton, NJ: Edu- Zenisky, A. L. y Hambleton, R. K. (2016). A model and
cational Testing Service. good practices for score reporting. En S. Lane, M. R.
Wright, B. D. (1977a). Solving measurement problems Raymond y T. M. Haladyna (eds.), Handbook of test
with the Rasch model. Journal of Educacional Mea- development. Nueva York: Routledge.
surement, 14, 97-116. Zenisky, A. L. y Luecht, R. M. (2016). The future of
Wright, B. D. (1977b). Misunderstanding of the Rasch mo- computer-based testing. En C. S. Wells y M. Faulk-
del. Journal of Educacional Measurement, 14, 219-226. ner-Bond (eds.), Educational measurement: from fun-
Wright, B. D. y Bell, S. R. (1984). Items banks: What, dations to future. Nueva York: Guilford Press.
why, how. Journal of Educacional Measurement, 21 Zenisky, A. L., Hambleton, R. K. y Luecht, R. M. (2010).
(4), 331-346. Multistage testing: Issues, designs, and research. En
Wright, B. D. y Mead, R. J. (1976). BICAL Calibrating W. J. van der Linden y C. A. Glas (eds.), Elements of
rating scales with the Rasch model (Research memo- adapting testing. Nueva York: Springer.
randum, n.o 23). Chicago, IL: Statistical Laboratory, Zhang, J. y Stout, W. (1999). The theoretical DETECT in-
Department of Education, University of Chicago. dex of dimensionality and its application to approxi-
Wright, B. D. y Panchapakesan, N. (1969). A procedure mate simple sturcture. Psychometrika, 64 (2), 213-249.
for sample free item analysis. Educational and Psycho- Zhao, Y. y Hambleton, R. K. (2009). Software for IRT
logical Measurement, 29, 23-48. analyses: Description and features. Center for Educa-
Wright, B. D. y Stone, M. H. (1979). Best test design. tional Assessment Research Report, 652. Amherst,
Chicago, IL: MESA. MA: University of Massachusetts.
Wright, B. D., Mead, R. J. y Bell, S. R. (1979). BICAL: Zieky, M. J. y Livingston, S. A. (1977). Manual for setting
A Rasch program for the analysis of dichotomus data. standards on the basic skills assessment tests. Prince-
Chicago, IL: MESA. ton, NJ: Educational Testing Service.
Wright, B. D., Mead, R. J. y Draba, R. (1976). Detecting Zieky, M. J., Perie, M. y Livingston, S. (2008). Cutscores:
and correcting item bias with a logistic response model A manual for setting standards of performance on edu-
© Ediciones Pirámide
Referencias bibliográficas / 373
cational and occupational tests. Princeton, NJ: Edu- Zumbo, B. y Chan, E. (eds.) (2014). Validity and valida-
cational Testing Service. tion in social, behavioural and health sciences. Lon-
Zumbo, B. D. (2007b). Three generations of DIF analy- dres: Springer.
ses: Considering where it has been, where it is now, Zumbo, B., Gadermann, A. M. y Zeisser, C. (2007). Or-
and where it is going. Language Assessment Quar- dinal versions of coefficients alpha and theta for
terly, 4 (2), 223-233. likert rating scales. Journal of Modern Applied Statis-
Zumbo, B. D. (2007a). Validity: Foundational issues and tical Methods, 6, 21-29.
statistical methodology. En C. R. Rao y S. Sinharay Zwick, W. R. y Velicer, W. F. (1996). Comparison of five
(eds.), Handbook of statistics (vol. 26). Psychometrics rules for determining the number of components to
(pp. 45-79). Ámsterdam, Holanda: Elsevier Science. retain. Pychological Bulletin, 99 (3), 432-442.
© Ediciones Pirámide
TÍTULOS RELACIONADOS
www.edicionespiramide.es