0% encontró este documento útil (0 votos)
19 vistas12 páginas

Concluye Indicando La Necesidad de Conocer Las Teorías de Los Tests para Una Mejor Comprensión y Utilización de Los Instrumentos de Medida

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1/ 12

Papeles del Psicólogo, 2010. Vol. 31(1), pp.

57-66
http://www.cop.es/papeles LAS TEORÍAS DE LOS TESTS:
SecciónMonográfica

TEORÍA CLÁSICA Y TEORÍA DE RESPUESTA A


LOS ÍTEMS TEST THEORIES: CLASSICAL THEORY AND
ITEM RESPONSE THEORY

José Muñiz
Facultad de Psicología. Universidad de Oviedo

Para una interpretación y utilización adecuada de las propiedades psicométricas de los tests es
necesario ir más allá del mero cálculo empírico, y conocer los fundamentos en los que se basan
esos cálculos. Con el fin de contribuir a esta comprensión más allá del mero manejo superficial de
la fórmulas psicométricas, el objetivo fundamental de este trabajo es presentar de una manera no
excesivamen te técnica y especializada las dos grandes teorías que guían la construcción y
Teoría Clásica de los Tests y la Teoría de
análisis de la mayoría de los tests: la
Respuesta a los Ítems. En primer lugar se hace un apunte histórico sobre los
tests, indicando cómo surgen y evolucionan al hilo de los avances técnicos y
estadísticos. Tras razonar acerca de la necesidad de utilizar teorías
psicométricas para el análisis y construcción de los tests, se expone la lógica
que subyace a la Teoría Clásica de los Tests, así como sus dos variantes
más granadas, la Teoría de la Generalizabilidad y los Tests Referidos al
Criterio. Luego se subrayan las limitaciones más importantes del enfoque
clásico y se exponen los fundamentos de la Teoría de Respuesta a los Ítems,
dentro de cuyo marco encuentran una solu ción satisfactoria algunos de los
problemas que el enfoque clásico no había sido capaz de resolver de forma
concluye
satisfactoria. Finalmente se comparan ambos enfoques, y se

indicando la necesidad de conocer las


teorías de los tests para una mejor
comprensión y utilización de los
instrumentos de medida.
Palabras clave: Tests, Teoría Clásica de los Tests, Teoría de Respuesta a los Ítems, Teorías de los tests.

For a correct interpretation and proper use of the psychometric properties of tests it is necessary to go beyond the mere
empirical calculation, and know the grounds on which these calculations are based. To contribute to this understanding
beyond the superficial handling of the psychometric formulas, the main goal of this work is to present, in a not technical
way, the two most important theories that guide the development and analysis of most tests: Classical Test Theory and
Item Response Theory. First, a historic note about tests and testing is made, indicating the evolution of tests according to
the technical and statistical advances. The importance of test theories in order to develop and analyse tests is pointed
out, and Classical Test Theory, including Generalizability Theory and Criterion Referenced Tests, is presented. After
underlining the limitations of the Classical Test Theory approach, Item Response Theory is presented. Within this new
framework some of the limitations of the Classical Test Theory find a proper solution. Finally both approaches are
compared, emphasizing the importance of test theories for a correct use and interpretation of psychometric properties of
the tests.
Key words: Tests, Classical Test Theory, Item Response Theory, Test theories.
Correspondencia: José Muñiz. Facultad de Psicología.

L Universi dad de Oviedo. Plaza Feijoo, s/n. 33003 Oviedo.


España. E-mail: [email protected]
nobles fines se han alcanzado mejor que otras,
os tests constituyen seguramente la tecnología
más sofisticada de la que disponen los pero ésa era y sigue siendo la idea central, evaluar
psicólogos para ejercer su profesión, por eso a todos por el mismo rasero.
no es infre
por aspectos tales como la cuna, la clase social, la NOTA HISTÓRICA
raza, el sexo, las creencias, las cartas de ¿Cuándo aparecen los tests por primera vez en la
recomendación, y otros sistemas de evaluación histo ria? Suele citarse como el origen remoto de los
subjetivos. Unas veces estos tests unas pruebas que los emperadores chinos ya
cuente que la sociedad identifique a los psicólogos hacían allá por el año 3000 antes de Cristo para
con los tests. Naturalmente, unos psicólogos utilizan evaluar la competen cia profesional de los oficiales
los tests más que otros, dependiendo de su campo que iban a entrar a su servicio. Otras muchas
profesional y de su forma de trabajar. Los tests son huellas antiguas pueden rastrar se, pero los tests
muestras de con ducta que permiten llevar a cabo actuales tienen sus orígenes más cerca nos en las
inferencias relevantes sobre la conducta de las pruebas senso-motoras utilizadas por Galton
personas. Bien utilizados son herramientas claves
en la profesión del psicólogo. No conviene olvidar
que los tests nacen con un afán de ob jetividad y 57
justicia, para evaluar a las personas por lo que
realmente valen, evitando evaluaciones sesgadas
Sección Monográfica

(1822-1911) en su laboratorio antropométrico. Pero personas analfabetas o que no domi naban el inglés.
se rá James McKeen Cattell (1860-1944) el primero Las pruebas tuvieron mucho éxito y ter minada la
inutili zar el término test mental, en 1890. Pronto guerra las empresas y otras instituciones adoptaron
quedó claro (Wissler, 1901) que estos primeros tests de forma entusiasta el uso de los tests para distintos
senso-motores no eran buenos predictores de las menesteres. Comenzaba así una expansión cre
capacidades cognos citivas de las personas, y Binet y ciente en el uso y creación de tests de todo tipo. La
Simon (1905) darán un giro radical al introducir en su apa rición de la técnica del análisis factorial va a
nueva escala tareas cog noscitivas para evaluar suponer un gran avance en la construcción y análisis
aspectos como el juicio, la com prensión y el de los tests, permitiendo la aparición de las baterías
razonamiento. Terman llevó a cabo la revisión de la de tests, cuyo representante más genuino serían las
escala en la Universidad de Stanford, la cual se Aptitudes Mentales Primarias (PMA) de Thurstone
conoce como la revisión Stanford-Binet (Terman, (Thurstone, 1938; Thursto ne y Thurstone, 1941). En
1916), utilizando por primera vez el concepto de Co España tuvimos la suerte de que uno de los grandes
ciente Intelectual (CI) para expresar la puntuación de pioneros de la Psicología Espa ñola, Mariano Yela,
las personas. La idea del CI había sido propuesta estudiase en Chicago con Thurstone en los años 40,
origina riamente por Stern, dividiendo la Edad mental lo que le permitió introducir en nuestro país todos los
por la Edad Cronológica y multiplicando el resultado avances de la época, e impulsar la Psico metría tanto
por 100 para evitar decimales. en el mundo académico, como su imple mentación
La escala de Binet abre una tradición de escalas aplicada, colaborando activamente en el desarrollo de
indivi duales que llega hasta nuestros días. En 1917 la empresa TEA (Pereña, 2007). La divi sión de la
los tests reciben otro gran impulso al aparecer los inteligencia en sus distintos factores o dimen siones
tests colectivos Alfa y Beta a raíz de la necesidad del dio lugar a la aparición de dos grandes líneas de
ejército norteame ricano de reclutar rápidamente estructuración de las dimensiones cognoscitivas, lo
soldados para la primera guerra mundial. El test Alfa que ha dado en llamarse la escuela inglesa y la
iba dirigido a la población general y el Beta a escuela ame ricana. En la primera se da más
importancia a un factor datos personales utiliza da por Woodworth en 1917
LAS TEORÍAS DE LOS TESTS para detectar neuróticos graves como el pionero de
los tests de personalidad. Por su parte el psiquiatra
suizo Rorschach propone en 1921 su test proyectivo
de manchas de tinta, al que seguirán otros muchos
central de inteligencia general, que coronaría una es tests basados en el principio de la proyec ción, que
tructura en la que luego vendrían dos amplias asume que ante un estímulo ambiguo, la per sona
dimensio nes, la verbal-educativa y la mecánico- evaluada tenderá a producir respuestas que de algún
espacial, en las que se articularían otros muchos modo reflejan aspectos importantes de su persona
factores más específi cos. El enfoque americano lidad. El lector interesado en la historia de los tests
asume una serie de dimensio nes no jerarquizadas pue de consultar por ejemplo el libro de Anastasi y
que compondrían el perfil cognoscitivo, que por Urbina (1998), aquí solo tratamos de dar unas
ejemplo en el caso del PMA serí an: la comprensión pinceladas para entender lo que sigue.
verbal, la fluidez verbal, aptitud nu mérica, aptitud Tras esta larga andadura de unos cien años, uno
espacial, memoria, rapidez perceptiva y razonamiento pue de preguntarse, por curiosidad, cuáles son en la
general. Ambos enfoques son compati bles, y tienen actuali dad los tests más utilizados por los psicólogos
mucho que ver con la tecnología estadísti ca utilizada, españoles, y si estos difieren de los que utilizan sus
sobre todo el análisis factorial. Toda esta línea de colegas europe os. Pues bien, en una encuesta
investigaciones psicométricas sobre la inteligen cia reciente hecha en seis pa íses europeos los tests
culmina en la obra magna de Carroll (1993), donde se más utilizados por los psicólogos españoles fueron:
sintetizan los grandes avances alcanzados. En 16PF, WISC, WAIS, MMPI, Beck, STAI, Rorschach,
España trabajos como los de Juan-Espinosa (1997), Raven, Bender e ISRA. Estos datos son muy
Colom (1995), o Andrés-Pueyo (1996) recogen y similares a los obtenidos en otros países europeos
analizan de forma brillante este campo de trabajo. (Muñiz et al., 2001).
Pero no sólo se producen avances en el campo de En suma, la historia de los tests es una historia
los tests cognoscitivos, también los tests de exitosa de la que la psicología tiene que sentirse
personalidad se aprovechan de los avances que se orgullosa, sin olvidar, claro está, que como ocurre
producen en la psico metría. Suele citarse la hoja de con cualquier tecno

58
Sección Monográfica
JOSÉ MUÑIZ construcción y análisis de los tests subyacen teorías
que guían su construcción y que condicionan y ti ñen
los tests según los avances teóricos y estadísticos de
cada momento.
logía de cualquier campo, en ocasiones su utilización A la vista de ello uno puede preguntarse con toda ra
por manos inexpertas ha dejado mucho que desear. zón: ¿por qué hacen falta teorías de los tests? O si se
Es por ello que en la actualidad distintas quiere de un modo más pragmático, ¿Por qué y para
organizaciones nacionales (Colegio Oficial de qué tienen los psicólogos en su carrera la asignatura
Psicólogos, COP) e inter nacionales (Federación de Psicometría dedicada fundamentalmente a
Europea de Asociaciones de Psi cólogos, EFPA; exponer estas teorías? La razón es bien sencilla, los
Comisión Internacional de Tests, ITC, Asociación tests son instrumen tos de medida sofisticados
Americana de Psicología, APA) desarrollan mediante los cuales los psicó logos llevan a cabo
numerosos proyectos y actividades para potenciar el inferencias y toman decisiones sobre aspectos
uso adecuado de los tests (Muñiz, 1997b; Muñiz y importantes de las personas. Por tanto hay que
Bartram, 2007; Prieto y Muñiz, 2000). asegurarse de que esas inferencias son adecuadas y
pertinentes, de lo contrario se puede perjudicar
¿POR QUÉ HACEN FALTA TEORÍAS DE LOS notable mente a las personas que acuden a los
TESTS? Hemos visto en el apartado anterior una psicólogos por la razón que sea. Las teorías
breve reseña histórica de cómo han surgido y han ido estadísticas de los tests van a permitir la estimación
evolucionando los tests concretos, pero nada hemos de las propiedades psicométricas de los tests para de
dicho acerca de las teorías que posibilitan la ese modo garantizar que las decisio nes tomadas a
construcción de los tests. Así contado podría
pensarse que los tests se van sucediendo sin orden partir de ellos son las adecuadas. Sin esas
ni concierto, pero nada más lejos de la reali dad. A la
teorías no podríamos tests tengan una idea más cabal y comprendan en
profundidad el alcance de las propiedades
psicométricas de los tests que están utilizando.
estimar la fiabilidad y la
TEORÍA CLÁSICA DE LOS TESTS
vali dez de los tests, lo El enfoque clásico es el predominante en la
construcción y análisis de los tests, así, por ejemplo,
cual es imprescindible los diez tests más utilizados por los psicólogos
españoles citados en el apartado anterior, todos ellos,
para poder usar los tests sin excepción, han sido desarrollados bajo la óptica
clásica. Sólo este dato ya deja bien patente la
de forma rigurosa y necesidad de que los profesionales entiendan
perfectamente la lógica clásica, sus posibilida des y
científica. Por supuesto, aparte de estas sus limitaciones.
Antes de entrar en la lógica de la teoría clásica, hay
teorías estadísticas sobre los tests, la construcción de
que señalar que hinca sus raíces en los trabajos
una prueba debe de guiarse por un mo delo o teoría
pioneros de Spearman de principios del siglo XX
psicológica sustantiva que dirige su cons trucción. En
(Spearman, 1904, 1907, 1913). Lleva por lo tanto
el trabajo de Muñiz y Fonseca-Pedrero (2008)
unos cien años en el circuito, así que se ha ganado
pueden consultarse los pasos fundamentales para
por méritos propios el adjetivo de clásica. A partir de
llevar a cabo la construcción de un test. Para un
esos años se produce un rápido desarrollo y para
análisis
1950 lo esencial ya está hecho, así que Gulliksen
(1950) lleva a cabo la síntesis canóni ca de este
enfoque. Más adelante serán Lord y Novick (1968)
quienes lleven a cabo una reformulación de la te oría
más detallado del proceso de construcción de un test clásica y abran paso al nuevo enfoque de la TRI que
pueden verse por ejemplo los trabajos de Carretero y veremos luego. Pero veamos lo esencial del enfoque
Pé rez (2005), Downing y Haladyna (2006), Morales, clá sico.
Uro sa y Blanco (2003), Muñiz (2000), Schmeiser y
Welch (2006), o Wilson (2005). MODELO LINEAL CLÁSICO
Hay dos grandes enfoques o teorías a la hora de Según mi experiencia, tras más de treinta años
cons truir y analizar los tests, son la Teoría Clásica de explican do estas cosas a los estudiantes de
los Tests (TCT) y el enfoque de la Teoría de psicología, lo que más les cuesta entender es para
Respuesta a los Ítems (TRI). No se trata aquí de qué, y por qué, se nece sita un modelo o teoría para
llevar a cabo exposicio nes detalladas de estas analizar las puntuaciones de los tests. Pero, ¿donde
teorías (en español pueden verse, por ejemplo, en está el problema?, se pregun tan, ahí está el test, ahí
Muñiz, 1997a, 2000, 2005), sino de subrayar los están las puntuaciones obtenidas por las personas en
aspectos claves, para que así los usuarios de los el test, unas altas, otras bajas, otras

59
Sección Monográfica

intermedias, así que adelante, asignemos a cada cual instrumentos han de estar homologados, requieren
su puntuación. Las cosas no son tan sencillas, el algún indicador del grado de precisión con el que
psicólogo, como cualquier otro profesional de otro miden, máxime los tests, ya que apoyados en ellos se
campo, tiene que asegurarse de que el instrumento toman decisiones muy importantes para las vidas de
que utiliza mide con precisión, con poco error. Y eso las personas. No es difícil estar de acuerdo en esto,
mismo vale para cualquier instrumento de medida, pero el problema es que cuando un psicólogo aplica
bien sea un aparato de la policía para medir la un test a una persona, o a varias, lo que obtiene son
velocidad de los vehículos, el metro para medir las las puntua ciones empíricas que esa persona o
distancias, o el surtidor de la gaso linera para medir personas obtienen en el test, pero eso nada nos dice
los litros de gasolina que nos dispen sa. Todos esos sobre el grado de pre cisión de esas puntuaciones, no
sabemos si esas puntua ciones empíricas obtenidas Psicología? Spe arman propone un modelo muy
se corresponden o no con las puntuaciones que simple, de sentido co mún, para las puntuaciones de
verdaderamente le corresponden a esa persona en la las personas en los tests, y que ha dado en llamarse
prueba. Bien podría ocurrir que las pun tuaciones modelo lineal clásico. Consis te en asumir que la
estuviesen, por ejemplo, algo rebajadas debi do a que puntuación que una persona obtiene en un test, que
ese día la persona no está en sus mejores denominamos su puntuación empírica, y que suele
condiciones, o porque las condiciones físicas en las designarse con la letra X, está formada por dos
que se desarrolló la aplicación de la prueba no eran componentes, por un lado la puntuación verdadera de
las más adecuadas, o porque las relaciones esa persona en ese test (V), sea la que sea, y por
establecidas entre los aplicadores de las pruebas y otro un error (e), que puede ser debido a muchas
las personas evaluadas dejaron mucho que desear. causas que se nos escapan y que no controlamos. Lo
Los psicólogos, como les ocurre a los que construyen dicho puede expresarse formalmente así: X = V + e
aparatos dispensadores de gasolina, estamos Ahora bien, si se ha entendido lo dicho, está
obligados a garantizar que las pun tuaciones de justificado decir que con esto poco hemos avanzado,
nuestros tests sean precisas, tengan poco error, el pues si una persona saca en un test 70 puntos de
problema es que esto no se sabe escrutando di puntuación empíri ca, el modelo no nos permite saber
rectamente las puntuaciones que obtienen las ni cual es su puntua ción verdadera ni el error
personas en los tests, esas puntuaciones vistas así contenido en esa puntuación. Exactamente así es,
de frente no nos dicen nada acerca de su grado de tenemos un solo dato, la puntuación empírica (X), y
precisión. Como no lo podemos hacer así de frente, dos incógnitas, la puntuación verdadera (V) y el error
es por lo que tenemos que dar algunos rodeos, es (e). Desde ese punto de vista no hemos avanzado
decir, es por lo que tenemos que plantear algunos nada, tenemos, eso sí, un modelo de puntua ción que
modelos que subyacen a las pun tuaciones a fin de parece sensato y plausible, pero nada más, y nada
ser capaces de estimar el grado de precisión de menos, pues que el modelo sea plausible es todo lo
éstas. El error está mezclado con la verda dera que se puede pedir para empezar. El error cometido
puntuación, como la sal en el agua del mar, o el polvo al medir alguna variable con un test (e) puede
con la paja, y para separarlos necesitamos llevar a deberse a muchas razones, que pueden estar en la
cabo algunos procesos y ahí es donde entran las propia persona, en el contexto, o en el test, una
teorí as o modelos estadísticos. Modelos para esto ha clasificación bastante ex haustiva de las fuentes
habido muchos, pero uno de los que se ha mostrado posibles de error puede consultar se en Stanley
más eficaz y parsimonioso es el modelo lineal clásico (1971). Para poder avanzar Spearman añade tres
propuesto ori supuestos al modelo y una definición, veamos cuáles
LAS TEORÍAS DE LOS TESTS son.
El primer supuesto es definir la puntuación
verdadera (V) como la esperanza matemática de la
puntuación em pírica, que formalmente puede
ginalmente por Spearman. Entender la lógica y funcio escribirse así: V = E(X). Lo que esto significa
namiento del modelo es muy sencillo, lo que ya es conceptualmente es que se define la puntuación
algo más latoso, aunque no difícil, es desarrollar los verdadera de una persona en un test como aquella
aspectos formales y deducciones del modelo, lo cual puntuación que obtendría como media si se le
constituye el corpus central de la psicometría, pero pasase infinitas veces el test. Se trata de una
para eso ya están los psicómetras, alguien tiene que definición teórica, nadie va a pasar infinitas veces un
hacerlo. test a nadie, por razones obvias, pero parece
¿Qué propuso Spearman a principios del siglo XX plausible pensar que si
que ha tenido tanto éxito en la historia de la

60
Sección Monográfica
JOSÉ MUÑIZ relación entre la cuantía de las puntuaciones
verdaderas de las personas y el tamaño de los
errores que afectan a esas puntuaciones. En otras
palabras, que el valor de la puntuación verdadera de
esto se hiciese la puntuación media que esa persona una persona no tiene nada que ver con el error que
sa case en el test sería su verdadera puntuación. En afecta esa puntuación, es decir, puede haber
el segundo supuesto Spearman asume que no existe puntuaciones verdaderas altas con errores bajos, o
altos, no hay conexión entre el tamaño de la validez de una prueba si se atenúan los errores de
puntuación verdadera y el tamaño de los errores. De medida, tan to de la prueba como del criterio. Por no
nuevo se trata de un supuesto en principio razonable, hablar de la fórmula que permite estimar los cambios
que formalmente puede expresarse así: r (v,e) = 0. en la fiabilidad de un test cuando varía la variabilidad
El tercer supuesto establece que los errores de de la muestra en la que se calcula. En suma, el
medida de las personas en un test no están modelo lineal clásico ex puesto, junto con los
relacionados con los errores de medida en otro test supuestos asumidos y la definición de tests paralelos
distinto. Es decir, no hay ninguna razón para pensar están a la base de todas las fórmulas clásicas
que los errores cometidos en una ocasión vayan a utilizadas habitualmente por los psicólogos que se
covariar sistemáticamente con los cometidos en otra valen de los tests en su práctica profesional. Alguien
puede podría decir que para usar estas fórmulas no hace
ocasión. Formalmente este supuesto
falta saber de donde vienen, ni cual es su
expresarse así: r(e , e fundamento, pero tal aserto no es digno de un
j k)=0.
Estas asunciones parecen razonables y sensatas, psicólogo que se respete a si mismo, a su ciencia, y a
pero no se pueden comprobar empíricamente de su profesión.
forma direc ta, serán las deducciones que luego se De modo que cuando los psicólogos manejan sus
hagan a partir de ellas las que permitan confirmarlas coefi cientes de fiabilidad y validez para indicar a sus
o falsearlas. Tras cien años formuladas y con muchos clientes o usuarios en general que los tests que
resultados empíricos detrás, bien podemos decir hoy utilizan son preci sos, tienen poco error de medida,
que las ideas de Spear man han sido de gran utilidad han de saber que esa estimación de la fiabilidad se
para la psicología. puede hacer gracias a este sencillo modelo y a los
Además del modelo y de estos tres supuestos, se supuestos planteados hace ya más de cien años.
formu la una definición de lo que son Tests Paralelos,
enten diendo por ello aquellos tests que miden lo TEORÍA DE LA GENERALIZABILIDAD Y
mismo exactamente pero con distintos ítems. Las TESTS REFERIDOS AL CRITERIO
puntuaciones verdaderas de las personas en los tests Este enfoque clásico ha generado diversas variantes
paralelos serían las mismas, y también serían iguales sobre todo en función del tratamiento dado al error de
las varianzas de los errores de medida. medida. Ha habido numerosos intentos de estimar los
Pues bien, el modelo lineal, junto con los tres distintos com ponentes del error, tratando de
supuestos enunciados, y la definición de tests descomponerlo en sus par tes. De todos estos
paralelos propuesta, constituyen el cogollo central de intentos el más conocido y sistemático es la Teoría de
la Teoría Clásica de los Tests. Un curso sistemático la Generalizabilidad (TG) propuesta por Cron bach y
de Psicometría consiste en llevar a cabo las sus colaboradores (Cronbach, Gleser, Nanda y Ra
deducciones correspondientes para a partir de esos jaratnam, 1972). Se trata de un modelo de uso
ingredientes llegar a las fórmulas que permiten complejo, que utiliza el análisis de varianza para la
estimar el grado de error que contienen las mayoría de sus cálculos y estimaciones.
puntuaciones de los tests, y que se denomina Otro desarrollo psicométrico surgido en el marco
habitual mente Fiabilidad de los Tests, véase al clási co ha sido el de los Tests Referidos al Criterio
respecto el traba jo de Prieto y Delgado (2010) en (TRC). Se trata de tests utilizados fundamentalmente
este mismo monográfico. También se obtienen otras en el ámbito educativo y en la evaluación en
fórmulas popu lares de la psicometría, como la de contextos laborales. Su objetivo es determinar si las
Spearman-Brown, que permite estimar la fiabilidad de personas dominan un crite rio concreto o campo de
un test cuando se conocimiento, por tanto no pre tenden tanto
discriminar entre las personas, como la mayoría de
los tests psicológicos, sino evaluar en qué grado
conocen un campo de conocimiento denominado
criterio, de ahí su nombre. Estos tests se desarrollan
aumenta o disminuye su longitud; o las fórmulas de a partir de la propuesta de Glaser (1963) y han tenido
ate nuación que permiten estimar el coeficiente de una gran influencia sobre todo en el ámbito
educativo.

61
Sección Monográfica
Los indicadores psicométricos clásicos desarrollados distintos tests son equiparables, lo cual es difícil de
a partir del modelo lineal clásico no se adaptaban ga rantizar en la práctica. Si eso falla la comparación
bien a la filosofía de construcción de estos nuevos se viene abajo. No hay duda que lo más deseable
tests, por lo que se ha desarrollado todo un conjunto científi camente sería que los resultados obtenidos al
de tecnología psicométrica específica para calcular la utilizar dis tintos instrumentos estuviesen en la misma
fiabilidad y vali dez, así como para establecer los escala, y todo quedaría resuelto de un plumazo, pues
puntos de corte que determinan si una persona bien, por extraño y contra intuitivo que parezca eso
domina o no el criterio eva luado (Berk, 1984; Cizek, es precisamente lo que va a conseguir el enfoque de
2001; Educational Measure ment, 1994; Muñiz, la TRI. Este nuevo enfo que de la TRI va a suponer
2000). un gran avance para la me dición psicológica,
propiciando un gran desarrollo de nuevos conceptos
LIMITACIONES DEL ENFOQUE CLÁSICO y herramientas psicométricas.
Del enfoque de la teoría clásica bien podría decirse La segunda gran cuestión no bien resuelta dentro
que goza de muy buena salud, hay pocas dudas de del marco clásico era la ausencia de invarianza de las
su utilidad y eficacia, baste decir, por ejemplo, que la pro piedades de los tests respecto de las personas
gran mayoría de los tests editados en España, utilizadas para estimarlas. En otras palabras,
práctica mente todos, están desarrollados y propiedades psico métricas importantes de los tests,
analizados dentro de este marco. Ahora bien, si es tales como la dificultad de los ítems, o la fiabilidad del
así, la pregunta obli gada es por qué hacen falta otras test, estaban en función del tipo de personas
teorías de los tests, o, en otras palabras, ¿qué utilizadas para calcularlas, lo cual resulta inadmisible
problemas de medición no quedaban bien resueltos desde el punto de vista de una medi ción rigurosa.
dentro del marco clásico para que se propongan Por ejemplo, la dificultad de los ítems, o los
nuevas teorías? Pues bien, había dos cuestiones coeficientes de fiabilidad dependen en gran medida
básicas que no encontraban buena solu ción en la del tipo de muestra utilizada para calcularlos. Este pro
teoría clásica y que hacían que la medición blema también encontrará una solución adecuada
psicológica no fuese homologable a la que exhibían den tro del marco de la TRI.
otras ciencias empíricas. Aparte de estas dos grandes cuestiones, había otras
Veamos la primera: dentro del marco clásico, las menores de carácter más técnico a las que la teoría
medi ciones no resultan invariantes respecto al clá sica no daba una buena solución. Por ejemplo,
instrumento uti lizado. Se preguntarán con razón qué cuando se ofrece un coeficiente de fiabilidad de un
quiere decir exactamente esa afirmación un tanto test en el marco clásico, como el coeficiente alfa de
críptica. Es muy sencillo, si un psicólogo evalúa la Cronbach (1951), se está presuponiendo que ese test
inteligencia de tres personas distintas con un test mide con una fiabilidad determinada a todas las
diferente para cada perso na, los resultados no son personas evaluadas con el test, cuando tenemos
comparables, no podemos de cir en sentido estricto evidencia empírica más que suficiente de que los
qué persona es más inteligente. Esto es así porque tests no miden con la misma preci sión a todas las
los resultados de los tres tests no están en la misma personas, dependiendo la precisión en gran medida
escala, cada test tiene la suya propia. Esto puede del nivel de la persona en la variable medi da. El
sorprender a los psicólogos usuarios habituales de la nuevo marco de la TRI va a solucionar este proble ma
teoría clásica, acostumbrados en la práctica a ofreciendo la Función de Información, que permite
comparar la inteligencia de personas que han sido estimar la fiabilidad de la prueba en función del nivel
eva luadas con distintos tests de inteligencia. Para de la persona en la variable medida.
hacerlo se transforman las puntuaciones directas de Además de estas cuestiones centrales, la TRI va a
los tests en otras baremadas, por ejemplo en gene rar toda una tecnología psicométrica nueva que
percentiles, con lo que se considera que se pueden cambia rá para siempre la forma de hacer
ya comparar, y de hecho así se hace. Este proceder psicometría; véase por ejemplo en este mismo
clásico para solventar el proble ma de la invarianza número monográfico el tra bajo de Olea, Abad y
no es que sea incorrecto, pero, amén de poco Barrada (2010). Ahora bien, con viene dejar muy
elegante científicamente, descansa sobre un pilar claro que estos nuevos modelos de TRI de ninguna
muy frágil, a saber, se asume que los grupos manera invalidan el enfoque clásico, si bien
normativos en los que se elaboraron los baremos de constituyen un excelente complemento que en
los determina
LAS TEORÍAS DE LOS TESTS

62
Sección Monográfica
JOSÉ MUÑIZ nótese que por estas fechas aún nos movemos a
nivel meramente teórico y estadístico, muy lejos de
las aplica ciones prácticas de estos nuevos modelos.
El gran impul so lo darán Lord y Novick (1968) en su
das circunstancias dan solución a problemas mal famoso libro, en el cual dedican cinco capítulos al
resuel tos en el marco clásico. Ambas tecnologías tema. A partir de su li bro las investigaciones sobre
conviven per fectamente en la construcción y análisis los modelos de TRI domina rán la psicometría, hasta
de los tests, igual que coches y aviones lo hacen en nuestros días. A partir de esa fecha empiezan a
el transporte, valga la analogía, unos son aparecer los programas informáticos necesarios para
aconsejables en determinadas situa ciones, y otros lo utilizar los modelos de TRI, tales como BICAL y
son en otras. LOGIST en 1976, BILOG en 1984, MULTI LOG,
Veamos los conceptos fundamentales sobre los que 1983, y otros muchos. En 1980 Lord publicará un
se apoyan los modelos de TRI. influyente libro (Lord, 1980) dedicado a las
aplicaciones de la TRI. De esas fechas hasta hoy los
TEORÍA DE RESPUESTA A LOS ÍTEMS (TRI) avances han sido notorios, y podemos decir que en
Como se acaba de señalar en el apartado anterior, la nuestros días la TRI domina el panorama
TRI va a resolver algunos graves problemas de la psicométrico. Una introducción a la TRI en español
medi ción psicológica que no encontraban una puede consultarse por ejemplo en Mu ñiz (1997a), en
solución ade cuada dentro del marco clásico. Ahora
bien, para poder hacerlo tiene que pagar el peaje de
formular modelos más complejos y menos intuitivos
que el modelo clásico, sin que ello suponga que
entrañen dificultades especia les. Pero antes de
pasar a exponer los fundamentos de estos modelos,
vamos a dar unas breves pinceladas de su
nacimiento histórico, para así ayudar al lector a ubi
carlos en la historia de la psicología. Quienes estén
inte resados en una descripción detallada de los
aspectos históricos pueden consultar por ejemplo el inglés es muy recomendable el libro de
trabajo de Muñiz y Hambleton (1992), titulado medio
siglo de teo ría de respuesta a los ítems.
GRÁFICO 1
CURVA CARACTERÍSTICA DE UN ÍTEM (CCI)
RESEÑA HISTÓRICA
En ciencia pocos avances surgen de repente, de la
noche a la mañana, sin incubación, lo más habitual es
que se produzca un proceso gradual que en un d

momento deter minado cuaja en una nueva línea de


a

trabajo. Y eso es más o menos lo que ha pasado con


i

la TRI, sus primeros atisbos pueden rastrearse en


b

trabajos pioneros de Thurs tone allá por los años


veinte (Thurstone, 1925), que se continúan en los
cuarenta con las aportaciones de auto res como
Lawley (1943, 1944) o Tucker (1946). Como se puede Variable media

ver ya en estos años de pleno dominio de la Teoría


Clásica se están dando los primeros pasos de los que
luego vendría a denominarse TRI. Esos son los oríge GRÁFICO 2
CURVAS CARACTERÍSTICAS DE OCHO ÍTEMS
nes remotos, pero será el gran psicómetra Frederic
Lord (1952) quien en su tesis doctoral dirigida por
Gulliksen, el gran sintetizador de la Teoría Clásica,
ponga los pri meros ladrillos firmes de la TRI.
Birnbaum en los años cincuenta aporta nuevos
avances, pero será el matemáti co danés Rasch
(1960), quien proponga su hoy famoso modelo
logístico de un parámetro. Bien podemos tomar esa
fecha como el momento de despegue de la TRI, pero
d

Variable media

63
Sección Monográfica

Hambleton, Swaminathan y Rogers (1991). Veamos valor que tomen tres parámetros: a, b y c. Siendo a el
a continuación los supuestos y los modelos de TRI. índice de discriminación del ítem, b la dificultad del
ítem y c la probabilidad que hay de acertar el ítem al
SUPUESTOS azar. Según los parámetros tomen unos valores u
Para resolver los problemas citados anteriormente otros se ge neran distintas formas de curvas, como
que no encontraban una buena solución dentro del se puede ver en el gráfico 2.
marco clásico, la TRI va a tener que hacer unas Naturalmente los valores de los parámetros se
asunciones más fuertes y restrictivas que las hechas calculan a partir de los datos obtenidos al aplicar los
por la Teoría Clásica. El supuesto clave en los ítems a una muestra amplia y representativa de
modelos de TRI es que existe una relación funcional personas. Para estos cálculos son necesarios
entre los valores de la va riable que miden los ítems y sofisticados programas de orde nador, no en vano los
la probabilidad de acertar estos, denominando a modelos de TRI no se extendieron hasta que se
dicha función Curva Característi ca del Ítem (CCI) dispuso de ordenadores potentes.
(Muñiz, 1997a). Un ejemplo de lo di cho puede verse La mayoría de los modelos de TRI, y desde luego
en el gráfico 1, nótese que al aumentar los valores de los más populares, asumen que los ítems constituyen
la variable medida, denomina da θ, aumenta la una so la dimensión, son unidimensionales, por tanto
antes de utilizar estos modelos hay que asegurarse
probabilidad de acertar el ítem P(θ). Los valores de la de que los da tos cumplen esa condición. Esto
variable medida, sea la que sea, se encuentran entre supone una restricción importante para su uso, pues
menos infinito y más infinito, mientras que en la teoría es bien sabido que muchos de los datos que manejan
clásica los valores dependían de la es cala de cada los psicólogos no son esencial mente
test, yendo desde el valor mínimo obteni ble en el test unidimensionales, si bien es verdad que los mode los
hasta el máximo. siguen funcionando bastante bien cuando los datos
La forma concreta de la CCI viene determinada por el no son estrictamente unidimensionales, es decir son
bas tante robustos a violaciones moderadas de la
unidimen sionalidad (Cuesta y Muñiz, 1999).
TABLA 1
Un tercer supuesto de los modelos de la TRI es la
DIFERENCIAS ENTRE LA TEORÍA CLÁSICA Y LA
TEORÍA DE RESPUESTA A LOS ÍTEMS deno minada Independencia Local, que significa que
LAS TEORÍAS DE LOS TESTS para uti
Aspectos Modelo Asunciones Invarianza de las
mediciones Índices de Dificultad y de Discriminación lizar estos modelos los modelos, por eso se suele
Invarianza de las Error típico de medida común para toda
ítems han de ser hablar de modelos de TRI.
propiedades del test Escala de las la muestra
puntuaciones Puede funcionar bien con muestras independientes unos de Teóricamente habría
entre 200 y 500 sujetos otros, es decir, la respuesta infinitos posi bles modelos,
Énfasis aproximadamente a uno de ellos no puede pues funciones matemáticas
Relación Ítem-Test Teoría de Respuesta a los Ítems estar condicionada a la donde elegir hay de sobra,
No Lineal respuesta dada a otros ahora bien las funciones
Descripción de los ítems Errores de Fuertes (difíciles de cumplir por los
ítems. En realidad si se más utilizadas por razones
datos)
medida cumple la varias son la función
Sí unidimensionalidad también logística y la curva normal.
se cumple la Independencia La función logística tiene
Tamaño Muestral Sí Local, por lo que a veces muchas ventajas sobre la
Teoría Clásica
ambos supuestos se tratan curva normal, pues da
Lineal
Entre - ∞ y + ∞ conjuntamente. resultados similares y sin
Débiles (fáciles de cumplir por los datos) em bargo es mucho más
MODELOS fácil de manejar
Ítem
No
Con los supuestos matemáticamente, así que
Curva Característica del Ítem
Parámetros a, b, c señalados, según se elija los tres modelos de TRI más
No
para la Cur va utilizados son los modelos
Entre cero y la Función de Información (varía según el Característica de los ítems logísticos, que adoptan la
puntuación máxima en el test nivel de aptitud)
una función matemática u función logística co mo
Se recomiendan más de 500 sujetos,
Test otra tendremos distintos Curva Característica de los
Sin especificar aunque depende del modelo
ítems. Si sólo se tiene en

64
Sección Monográfica
JOSÉ MUÑIZ En la actualidad hay más de cien modelos de TRI,
que se utilizan según el tipo de datos manejados, así
dispo nemos de modelos para escalas tipo Likert,
para datos dicotómicos, o para datos
cuenta la dificultad de los ítems (parámetro b) multidimensionales. Una bue na clasificación y
estamos ante el modelo logístico de un parámetro, o revisión de los modelos puede consul tarse en el libro
modelo de Rasch, por haber sido propuesto por este de Van der Linden y Hambleton (1997).
autor en 1960 (Rasch, 1960). Si además de la
dificultad se tiene en cuenta el índice de COMPARACIÓN DE LA TEORÍA CLÁSICA CON LA
discriminación de los ítems (paráme tro a) estamos TRI En la tabla 1, tomada de Muñiz (1997a), se
ante el modelo logístico de dos paráme tros, y si sintetizan las diferencias y similitudes entre el
además se añade la probabilidad de acertar el ítem al enfoque clásico y la TRI.
azar (parámetro c), tenemos el modelo logístico de
tres parámetros. Este modelo es el más general de A MODO DE CONCLUSIÓN
los tres, en realidad los otros dos son casos El objetivo de este artículo ha sido el presentar de
particulares, así cuando el parámetro c es cero una manera no técnica a los psicólogos
tenemos el modelo de dos parámetros, y cuando profesionales, lecto res de Papeles del Psicólogo, las
además el parámetro a es igual para todos los ítems, teorías más influyentes en la construcción y análisis
se convierte en el modelo de Rasch. Véase a de los tests: la Teoría Clási ca de los Tests y la
continuación la fórmula del modelo logístico de tres Teoría de Respuesta a los Ítems. Espe ro que estos
parámetros, donde P(θ) es la probabilidad de acer tar fundamentos les ayuden a entender e interpretar un
poco mejor los datos psicométricos que
el ítem, θ es la puntuación en la variable medida, a, b habitualmente se ofrecen sobre los tests. También
y c son los tres parámetros descritos, e es la base de sería bueno que ello les animase a refrescar sus
los logaritmos neperianos (2,72) y D es una constante conocimientos psicométricos y a profundizar en
que vale 1,7. aspectos nuevos rele vantes para su práctica
profesional. Todo lo relativo a la medición psicológica
Da(θ-b) Da(θ-b) ha evolucionado muy rápido en las últimas décadas,
P(θ) = c + (1-c) [e /(1+e )]
produciéndose importantes avances que es necesario
seguir de cerca para no quedarse atrás en el ámbito Cambridge University Press.
de la evaluación psicológica, pues sin una Cizek, G. J. (Ed.) (2001). Setting performance stan
dards: Concepts, methods, and perspectives.
Londres: LEA:
Colom, B. R. (1995). Tests, inteligencia y
personalidad. Madrid: Pirámide.
evaluación precisa y rigurosa no se puede hacer un Cronbach, L. J. (1951). Coefficient alpha and the inter
diagnóstico certero, y sin éste resulta imposible una nal structure of tests. Psychometrika, 16, 297-334.
in tervención eficaz. Cronbach, L.J., Gleser, G., Nanda, H., y Rajaratnam,
N. (1972). The dependability of behavioral measure
REFERENCIAS ment: Theory of generalizability for scores and profi
Anastasi, A., y Urbina, S. (1998). Los tests les. Nueva York: Wiley.
psicológicos. México: Prentice Hall. Cuesta, M. y Muñiz, J. (1999). Robustness of item res
Andrés-Pueyo, A. (1996). Manual de psicología ponse logistic models to violations of the
diferen cial. Madrid: McGraw Hill. unidimensio nality assumption. Psicothema, Vol.
Berk, R. A. (Ed.) (1984). A guide to criterion 11, 175-182
referenced test construction. Baltimore, MD: The Downing, S. M., y Haladyna, T. M. (2006). Handbook
Johns Hopkins University Press. of test development. Mahwah, NJ: Lawrence
Binet, A. y Simon, T. H. (1905). Methodes nouvelles Erlbaum Associates.
pour le diagnostic du niveau intellectuel des Educational Measurement: Issues and Practice
anormaux. L'année Psychologique, 11, 191-244. (1994). Número monográfico dedicado a los treinta
Carretero-Dios, H., y Pérez, C. (2005). Normas para años de tests referidos al criterio. Vol. 13, nº 4.
el desarrollo y revisión de estudios instrumentales. Glaser, R. (1963). Instructional technology and the
Inter national Journal of Clinical and Health mea surement of learning outcomes: Some
Psychology, 5, 521-551. questions. Ame rican Psychologist, 18, 519-521.
Carroll, J. B. (1993). Human cognitive abilities: A Gulliksen, H. (1950). Theory of mental tests. Nueva
survey of factor-analytic studies. Nueva York: York: Wiley.

65
Sección Monográfica

Hambleton, R. K., Swaminathan, H., y Rogers, J. respuesta a los ítems. Madrid: Pirámide.
(1991). Fundamentals of item response theory. Muñiz, J. (1997b). Aspectos éticos y deontológicos
Beverly Hills, CA: Sage. de la evaluación psicológica. En A. Cordero (ed.),
Juan-Espinosa, M. (1997). Geografía de la La eva luación psicológica en el año 2000. Madrid:
inteligencia humana. Madrid: Pirámide. Tea Edi ciones.
Lawley, D. N. (1943). On problems connected with Muñiz, J. (2000). Teoría Clásica de los Tests. Madrid:
item selection and test construction. Proceedings Pi rámide.
of the Ro yal Society of Edimburg, 61, 273-287. Muñiz, J. (2005). Classical test models. En B. S.
Lawley, D. N. (1944). The factorial analysis of Everitt and D. C. Howell (Eds.), Encyclopedia of
multiple item tests. Proceedings of the Royal Statistics in Behavioral Science. Chichester: John
Society of Edim burg, 62, 74-82. Wiley and Sons. (Vol. 1, pp. 278-282).
Lord, F. M. (1952). A theory of test scores. Muñiz, J., y Bartram, D. (2007). Improving
Psychometric Monographs, nº 7. international tests and testing. European
Lord, F. M. (1980). Applications of item response Psychologist, 12, 206- 219.
theory to practical testing problems. Hillsdale, NJ: Muñiz, J., Bartram, D., Evers, A., Boben, D., Matesic,
LEA. Lord, F. M., y Novick, M. R. (1968). Statistical K., Glabeke, K., Fernández-Hermida, J. R. y Zaal,
theories of mental test scores. New York: Addison- J. (2001). Testing practices in European countries.
Wesley. Morales, P., Urosa, B., y Blanco, A. B. Euro pean Journal of Psychological Assessment,
(2003). Construc ción de escalas de actitudes tipo 17(3), 201-211.
Likert. Madrid: La Muralla. Muñiz, J. y Fonseca-Pedrero, E. (2008).
Muñiz, J. (1997a) Introducción a la teoría de Construcción de instrumentos de medida para la
evaluación universita ria. Revista de Investigación of Psychology, 15, 72-101.
en Educación, 5, 13-25. Spearman, C. (1907). Demonstration of formulae for
Muñiz, J. y Hambleton, R. K. (1992). Medio siglo de true measurement of correlation. American Journal
teo ría de respuesta a los ítems. Anuario de of Psychology, 18, 161-169.
Psicología, 52(1), 41-66. Spearman, C. (1913). Correlations of sums and
Olea, J., Abad, F.J y Barrada, J.R. (2010). Tests infor differen ces. British Journal of Psychology, 5, 417-
LAS TEORÍAS DE LOS TESTS
426. Stanley, J. C. (1971). Reliability. En R. L.
Thorndike (Ed.), Educational Measurement.
Washington: American council on Education.
Terman, L. M. (1916). The measurement of
matizados y otros nuevos tipos de tests. Papeles
intelligence. Boston: Houghton Mifflin.
del Psicólogo, 31(1), 97-107
Thurstone, L. L. (1925). A method of scaling
Pereña, J. (2007). Una tea en la psicometría
psychologi cal and educational tests. The Journal
española. Madrid: Tea Ediciones.
of Educational Psychology, 16, 433-451.
Prieto, G. y Delgado, A. (2010). Fiabilidad y validez.
Thurstone, L. L. (1938). Primary mental abilities.
Papeles del Psicólogo, 31(1), 67-74
Psycho metric Monographs, nº 1.
Prieto, G. y Muñiz, J. (2000). Un modelo para evaluar
Thurstone, L. L. y Thurstone. T. G. (1941). Factorial
la calidad de los tests utilizados en España.
stu dies of intelligence. Psychometric Monographs, nº
Papeles del Psicólogo, 77, 65-71.
2. Tucker, L.R. (1946). Maximum validity of a test
Rasch, G. (1960). Probabilistic models for some intelli
with equi valent items. Psychometrika, 11, 1-13.
gence and attainment tests. Copenhague: The
Van der Linden, W. J. y Hambleton, R. K. (Eds.)
Danish Institute for Educational Research.
(1997). Handbook of modern item response
Schmeiser, C. B., y Welch, C. (2006). Test
theory. Nueva York: Springer-Verlag.
development. En R. L. Brennan (Ed.), Educational
Wilson, M. (2005). Constructing measures: An item
Measurement (4th ed.) (pp. 307-353). Westport,
res ponse modeling approach. Mahwah, NJ:
CT: American Council on Education/Praeger.
Lawrence Erlbaum Associates.
Spearman, C. (1904). The proof and measurement of
Wissler, C. (1901). Correlation of mental and physical
as sociation between two things. American Journal
traits. Psychological Monographs, 3, nº 16.

66

También podría gustarte