Pruebas Estandarizadas y Evaluacion Rendimiento J.M. Jornet Meliá y J.M. Suárez Rodríguez

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

Revista de Investigacin Educativa - Vol. 14, n. 2, pgs.

141-163

PRUEBAS ESTANDARIZADAS Y EVALUACIN DEL RENDIMIENTO: USOS Y CARACTERSTICAS MTRICAS


J.M. Jornet Meli y J.M. Surez Rodrguez'

RESUMEN

En este artculo presentamos algunas reflexiones sobre el uso de las pruebas estandarizadas para la evaluacin del rendimiento. Se propone una tipologa de pruebas cuyos componentes son: pruebas como Indicadores de resultados, pruebas de certificacin y de admisin, pruebas de dominio, pruebas de clase y pruebas individualizadas. Para cada tipo de prueba se revisan las propiedades mtricas que se derivan de los objetivos, caractersticas y finalidad de las pruebas.
ABSTRACT

In this article we present some reflections about the use of the standarized tests for achievement evaluation. It is proposed a test typology whose components are: tests as outcome indicators, certification and admission tests, domain tests, classroom tests and tailored tests. The measurement properties derived from the tests objectives, characteristics and purpose are reviewed for each kind of test.

1 Dpto. Mtodes d'Investigaci i Diagnstic en Educaci. Universitat de Valencia (Estudi General). Avda. Blasco Ibez, 21. 46010-Valencia. Tl. y Fax: 96/3864430. E-mail: [email protected] / [email protected]

142
INTRODUCCIN

J.M. Jornet Meli y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

143

La utilizacin de pruebas Estandarizadas en el mbito Educativo es muy frecuente. En la literatura se utilizan cotidianamente trminos que denominan diversos tipos de instrumentos que aluden a este tipo de pruebas: Tests Referidos al Dominio, Tests Referidos a Objetivos, Tests de Competencia, Tests de Certificacin, Tests de Dominio, Tests referidos al Criterio, etc.... No obstante, en nuestro medio sociocultural, su uso es ms bien escaso y, ciertamente, son pocas las pruebas estandarizadas de Rendimiento que se hayan desarrollado en nuestro pas y para nuestro sistema educativo. Las razones que estn a la base de este fenmeno pueden ser diversas, pero desde nuestro punto de vista, los usos equvocos de este tipo de pruebas han arraigado la concepcin de que son poco tiles a efectos evaluativos y que, en todo caso, su uso est indefectiblemente ligado a corrientes pedaggicas que atienden poco a las caractersticas de los individuos. Obviamente, esta posicin que atribuimos a buena parte de los detractores de las Pruebas Estandarizadas est simplificada y, probablemente, sera matizada de diversas formas, sin embargo quiz es la posicin ms generalizada entre ellos. Desde nuestro punto de vista, el problema normalmente radica en que se pretende de las pruebas estandarizadas usos e interpretaciones para los que normalmente no han sido construidas y, en ocasiones, se desarrollan con esquemas de elaboracin que han sido diseados metodolgicamente para objetivos evaluativos diferentes. Generalmente, la inadecuacin de las pruebas est en parte debida a que los criterios de construccin de pruebas se presentan de manera indiferenciada. Aunque son pocos los Modelos de Medida disponibles, las variaciones en su aplicacin pueden ser mltiples. En la adaptacin precisa de estos elementos radica buena parte de la calidad de las pruebas estandarizadas. Por adaptacin nos referimos en este caso al ajuste de los mtodos, procedimientos y tcnicas de elaboracin a las caractersticas concretas de la prueba que se desea construir. Estas caractersticas son, a su vez, consecuencia del compromiso de diversos factores como son: el objeto de medida, finalidad/uso de la prueba y las caractersticas de las personas a las que se desea evaluar a travs de la prueba. En este contexto, puede ser de inters realizar algunas reflexiones acerca de los componentes generales de actuacin en la elaboracin de pruebas estandarizadas, que permitan un mayor aprovechamiento de stas para los procesos evaluativos.
DIMENSIONES DE CLASIFICACIN DE LAS PRUEBAS ESTANDARIZADAS

de la confluencia de diversos factores. En ellos, podemos identificar dimensiones de definicin que afectan a la construccin de las pruebas. Generalmente estas dimensiones son de carcter bipolar y definen un eje en el cul pueden situarse las caractersticas de cada prueba de forma gradual. As, comentaremos brevemente cada dimensin identificndola con sus polaridades. En todos los casos, al entenderse que estas dimensiones son graduales, cabe establecer un elemento de clasificacin intermedio, que corresponden a "enfoques mixtos", que por no ser reiterativos obviaremos en la exposicin subsiguiente de dimensiones. Caractersticas del Objeto de Medida. Las caractersticas del Dominio Educativo2 a que va dirigido la prueba es un elemento de definicin bsico que condiciona, desde los elementos de Validez, el conjunto del desarrollo de la prueba. El Dominio Educativo constituye el Universo de Medida desde el que se extraen los componentes de la prueba y al que se pretende representar desde ella. Sin entrar en los factores especficos de los tipos de contenidos educativos, las dimensiones a tener en cuenta para orientar el desarrollo de las pruebas son las siguientes: 1. Amplitud del Dominio Educativo (Dominios amplios vs. reducidos). 2. Lmites del Dominio Educativo (Dominios con limites difusos/no-finitos vs. Dominios con lmites concretos / finitos). 3. Dimensionalidad del Dominio Educativo (Dominios Multidimensionales vs. Unidimensionales). Caractersticas de la poblacin a que va dirigida la prueba. Afecta fundamentalmente a la eleccin del Modelo de Medida y la seleccin de indicadores que permitan el anlisis adecuado del ajuste de las caractersticas de la prueba a las de la poblacin. Las dimensiones ms relevantes son: 4. Amplitud de la poblacin (Poblacin extensa vs. Reducida). 5. Grado de diversidad de la poblacin'(Poblacin Heterognea vs. Homognea). Finalidad y uso de la prueba. La Validez no es en s misma una caracterstica imputable a una prueba, es ms bien el uso que se pretende realizar de las puntuaciones de ella derivadas lo que debe analizarse como elemento de validacin (Hambleton; 1984). As, la utilizacin que se desee realizar de la prueba tiene consecuencias desde la definicin del Dominio Educativo hasta el establecimiento de Estndares de puntuacin. Las dimensiones ms importantes que pueden identificarse en este punto son: 6. Decisiones asociadas al uso de la prueba (De carcter Formativo vs. Sumativo). 7. Unidades sobre las que se pretenden tomar decisiones (Individuos vs. Grupos). Caractersticas del tipo de Interpretacin de puntuaciones. Como en el caso anterior, estos elementos afectan a todo el desarrollo de la prueba. La dimensin central a que pueden reducirse estas caractersticas es: 8. Tipo de Estndar de referencia (Normativo vs. Criterial).

En la literatura especializada en Medicin y Evaluacin se identifican una gran cantidad de trminos referidos a pruebas estandarizadas. Ante esta diversidad es conveniente determinar algunas dimensiones que nos permitan abordar su clasificacin. Entre estas dimensiones nos centraremos en aqullas que estn relacionadas con los componentes mtricos o metodolgicos de su elaboracin. En este caso, el grado de estandarizacin no entra a formar parte de las dimensiones de clasificacin, dado que es una caracterstica constante en todas las pruebas a las que aqu nos referiremos. Como sealamos en la introduccin a este artculo, los tipos de pruebas devienen

2 Por Dominio Educativo nos referimos al conjunto de objetivos, contenidos, actividades y tareas que constituyen el objeto de la educacin, sea en general sea en un programa concreto (Jornet y Surez, 1989a).

144

J.M. Jornet Melid y J.M. Sudrez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

145

El cruce de estas dimensiones puede servir para identificar las caractersticas de diversos tipos de pruebas estandarizadas y orientar los componentes especficos de sus procesos de elaboracin. Una propuesta, aunque no exhaustiva, de tipologa de pruebas estandarizadas se recoge en el Cuadro 1. Los elementos metodolgicos y los aspectos que entendemos ms relevantes en su construccin los comentaremos a continuacin.
PRUEBAS DE AMPLIO ESPECTRO

el Anlisis y/o Evaluaciones de Sistemas Educativos, Centros y Programas, pruebas de Certificacin y pruebas de Admisin. Pruebas Estandarizadas como Indicadores de Resultados. La actividad evaluativa forma parte de la cultura de gestin de los Estados democrticos. En el mbito pedaggico pueden observarse diversos modelos y enfoques de Evaluacin de los sistemas educativos en los que confluyen indicadores de diferente ndole. Para la construccin de indicadores de resultados, parece claro que cuando se aborda el anlisis de un Sistema Educativo, de un Programa o de un Centro, uno de los indicadores a tener en cuenta aunque no de forma exclusiva son los resultados esenciales del programa (De Miguel, et al., 1994; Prez Juste y Martinez Aragn, 1989; Tejedor et al., 1994). En estos contextos es necesario utilizar pruebas estandarizadas que "traduzcan" los niveles de competencia que en las diferentes disciplinas y materias, una sociedad asume como objetivo educativo. En este sentido, no es posible abordar un anlisis adecuado de un sistema o un Programa si no se cuenta con pruebas estandarizadas de probada fiabilidad y validez. As, buena parte de los modelos de evaluacin de Sistemas Educativos basados en indicadores' incorporan indicadores de resultados del aprendizaje de los alumnos sustentados sobre pruebas estandarizadas, diferencindolos de las calificaciones escolares o de otros indicadores de sntesis (como las tasas de egresados) que suelen identificarse como Resultados del Sistema. En los campos de la evaluacin de centros y de programas tambin resulta habitual la utilizacin de estas pruebas como indicadores. Mayor tradicin, si cabe, tiene la utilizacin de pruebas de este tipo como indicadores para actuaciones evaluativas a la medida en muy diversos niveles educativos, mbitos de referencia y objetivos (a partir de los servicios de instituciones como el ETS en USA, el APU para Inglaterra, Gales e Irlanda del Norte; o el CITO en el contexto holands-alemn). Qu componentes estn implicados en la elaboracin de estas pruebas? La definicin del Dominio a que se refieren estas pruebas debe realizarse por un Comit de Expertos en la Materia objeto de evaluacin, apoyados por especialistas en Medicin y Evaluacin como asesores metodolgicos. Los problemas que deben enfrentar este tipo de Comits son variados y de su adecuada solucin depende en

En este apartado revisamos las caractersticas y usos de pruebas de Rendimiento que se orientan a la evaluacin de grandes reas o Dominios Educativos. En esta categora incluimos las pruebas que se utilizan como Indicadores de Resultados para CUADRO 1 TIPOS FUNDAMENTALES DE PRUEBAS ESTANDARIZADAS VALORADOS RESPECTO A OCHO DIMENSIONES BSICAS DE CARACTERIZACIN
DIMENSIONES DE VALORACIN

Tipo de Prueba Estandarizada

Amplitud del Dominio Educativo

Lmites del Dominio Educativo

Dimensionalidad'

Amplitud de la Poblacin

Grado de diversidad de la Poblacin

Decisiones Asociadas

Unidades sobre las que se decide

Tipo de Estndar

DE AMPLIO ESPECTRO: Indicadores De Resultados Certificacin Admisin

Amplio

No-finitos Difusos

Multidimensionales

Amplia / Muy amplia

Heterognea

Formativas/ Sumativas Sumativas

Grupos

Mixto: Normativo

Individuos

Normativo Criterial Criterial

DE NIVEL o DOMINIO

Mixto

Mixto

Multidimen- Intermedia sionales / Amplia Unidimensionales Reducida / Muy reducida Amplia/ Reducida Reducida

Mixto

Sumativas

Individuos

DE CLASE

Reducido

Finitos Concretos

Homognea

Formativas/ Sumativas Formativas Formativas/ Sumativas

Individuos

Criterial

DE PROPSITO DIAGNSTICO INDIVIDUALIZADAS

Mixto

Finitos Concretos Finitos Concretos

Mixtos

Heterognea Homognea

Individuos

Normativo Criterial Criterial

Reducido

Unidimensionales

Individuos y/o Grupos

3 Hace referencia a Ias caractersticas originales del Dominio Educativo. Todas las pruebas es preciso adecuarlas a Universos Unidimensionales, por lo que en el caso de universos multidimensionales, se focalizan las pruebas sobre regiones especficas del Dominio.

4 Existen sistemas de indicadores que permiten la comparabilidad entre diversos pases y utilizan un nmero relativamente reducido de pruebas como es el caso de la OCDE (CERI / INES;1995) o la Comunidad Europea (West et al., 1995). A un nivel intermedio se encuentran los programas desarrollados por la IEA (Postlethwaite, 1987), finalmente existen otros ms completos en cuanto a la informacin que emplean sobre productos educativos como el sistema federal USA (SSPEI, 1991) o algunos otros sistemas ms recientes que se estn impulsando en el mbito iberoamericano (por ejemplo la propuesta de Martnez Rizo; 1996). En nuestro pas, el Instituto Nacional de Calidad y Evaluacin (INCE) est desarrollando pruebas como indicadores de resultados del sistema educativo, habindose comenzado a publicar los primeros resultados (Gil, Gonzlez y Surez, 1995; INCE, 1996).

146

J.M. Jornet Meli y J.M. Surez Rodrguez

Pruebas estandarizadas

evaluacin del rendimiento

147

buena medida la validez y utilidad de las pruebas resultantes. Pasamos a revisar brevemente los elementos que caracterizan mtricamente el desarrollo de estas pruebas y, en consecuencia, condicionan su uso. El Dominio Educativo, como Universo de Medida, suele ser muy amplio, referido generalmente a una materia o disciplina considerada en funcin de los objetivos terminales de todo un perodo educativo (por ejemplo, las Matemticas o el Lenguaje en la Primaria, o al final de la Secundaria) o, a lo sumo, se focalizan sobre grandes dimensiones de las mismas (Medida o Algebra, Comprensin Lectora...). Adems, los limites del Dominio suelen ser difusos, dado que junto a la amplitud del mismo, se suma como dificultad aadida en la definicin del Dominio el hecho de que suelen ser pruebas cuya finalidad es la evaluacin en una gran poblacin de sujetos, afectados por muy diversas aplicaciones de los Diseos Curriculares de referencia, desarrollados sobre diferentes modelos didcticos. Este hecho conlleva que nos encontremos ante Dominios en la prctica no-finitos, en los que no es posible establecer una estrategia de muestreo probabilstico desde el Universo de Medida para configurar la Pruebas. De esta forma, la definicin del Dominio debe realizarse sobre productos educativos esenciales, equiprobables a travs de diferentes subpoblaciones y que mantengan sus parmetros fundamentales invariantes en las subpoblaciones identificables en la poblacin. Una dificultad adicional en la definicin de este tipo de Dominios reside en que, por la amplitud del Universo de Medida, generalmente no son unidimensionales y estn apoyados en constructos tericos dbiles', con pocas evidencias de validacin. En este tipo de pruebas, los avances mas claros corresponden a estructuraciones dimensionales por el nivel cognitivo que implican las tareas-tems. As, si bien la base de desarrollo de la definicin del Dominio recae sobre el juicio de expertos, tambin es cierto que su comprobacin se sustenta fundamentalmente sobre comprobaciones estructurales basadas en el anlisis emprico de los resultados de las pruebas. En este sentido, un problema adicional que encontramos en estos desarrollos es que la comprobacin de la Unidimensionalidad7 es difcil, pues, aunque existan propuestas metodolgicas especficas para este tipo de anlisis con variables dicotmicas, ciertamente los resultados son insatisfactorios dado que las dimensiones en muchas ocasiones se identifican por la dificultad de los Items y no son interpretables desde los contenidos. Por ello, en las estrategias de desarrollo de este tipo de pruebas es especialmente
5 Ante la imposibilidad de concretar todos los miembros del Universo de Medida, se pasa a utilizar estrategias de representacin fundamentadas en tipologas bsicas o elementos clave en la estructura del Dominio. 6 Es decir, no suelen estar desarrollados a partir de una teora de aprendizaje que, de manera holsta, globalice y de sentido a la estructuracin y funcionalidad de la prueba. 7 Siendo este un supuesto bsico sobre el que se sustenta la medida desde cualquiera de los modelos actualmente existentes y que se enraiza en la informacin que se extrae en cada elemento de la prueba (Hambleton y Swaminathan, 1985; Osterlind, 1992). Aunque se han planteado algunas alternativas para superar este problema, como los trabajos de Reckase (1979) o Samejima (1974), hasta el momento no se pueden considerar como autnticas opciones disponibles.

importante el trabajo realizado por el Comit de expertos, anticipando la estructura terica posible del Dominio e identificando regiones en el mismo, de forma que para cada uno de los subdominios se configuren pruebas especficas. Junto a los problemas tericos contemplados en lneas anteriores, es preciso considerar en la definicin del Dominio de estas pruebas, algunos aspectos de orden prctico ligados a la funcionalidad de las mismas. Si se desea desarrollar pruebas que sirvan como Indicador de Resultados y utilizarlas en evaluaciones sucesivas, no es til configurar una sola prueba'. La alternativa de elaborar Formas Paralelas es compleja y difcil de lograr. En este marco, la creacin de Bancos de Reglas de Generacin de Elementos' lo ms deseable o Bancos de tems lo ms frecuente se configuran como alternativas que nos acercan a la posibilidad de disponer de pruebas aleatoriamente paralelas o al menos equivalentes. En este contexto de desarrollo es especialmente importante el trabajo que realiza el Comit de expertos en cuanto a la formulacin y revisin de tems. As, un aspecto crucial en la elaboracin de este tipo de pruebas es el Anlisis Lgico de tems que se centra sobre diferentes elementos. En primer lugar, respecto a la seleccin inicial de tems, es conveniente basarla en dos dimensiones del contenido: a) la importancia de los tems, y b) su dificultad terica. Esta consideracin de dos dimensiones facilita que los tems sean propuestos y seleccionados desde la idea, antes sealada, de que que representen conocimientos o habilidades esenciales, cubriendo a su vez diferentes estratos de dificultad. Desde esta estrategia se evita que la seleccin de tems se contamine con la idea de "mnima competencia", la cual, en ocasiones, es entendida como expresin de la dificultad y no de la importancia: este hecho constituye una desviacin frecuente del trabajo de estos comits. Otro elemento a tener en cuenta en la formulacin de los tems es su calidad tcnica, la cual es necesario revisar inicialmente por procedimientos lgicos y, posteriormente, basndose en resultados de ensayos piloto. En el caso de utilizacin de Items de Eleccin Mltiple, el anlisis de distractores debe constituir un trabajo central de este aspecto. As, es tanto ms importante el control y la anticipacin de la dificultad y la adivinacin desde la formulacin de los tems, que desde el anlisis emprico de resultados. Junto a estos elementos, el anlisis del Sesgo supone un aspecto clave para la validez de este tipo de pruebas. Debe tenerse en cuenta que stas son pruebas destinadas a la Medicin y Evaluacin de un Dominio en una amplia poblacin de referencia. De esta manera, es conveniente anticipar en el anlisis lgico las variables que podran
8 Una sola aplicacin de una prueba de estas caractersticas puede inhabilitar su uso. Una vez es conocida una prueba de este tipo puede ser utilizada como objeto directo de aprendizaje. 9 Son procedimientos que concretan de forma unvoca al tem de forma que su escritura se torna automtica, entre ellos los ms destacados son los que se recogen en Roid y Haladyna (1982). Aunque lentamente, los procedimientos han ido evolucionando para tratar de hacer frente a la evaluacin de la actuacin en tareas complejas, incrementando el nivel cognitivo de la evaluacin (por ejemplo, los conjuntos de tems tem sets desarrollados por Haladyna 1992, o el modelado de tems desarrollado por La Duca La Duca et al. 1986).

148

J.M. Jornet Meli y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

149

actuar como fuente de sesgo. No vamos a extendernos aqu en estos aspectos, dado que han sido anteriormente expuestos en esta Revista (Jornet y Surez, 1990; Ordeana, 1991); sin embargo, en este tipo de pruebas es bsica la independizacin del sesgo, el cual puede provenir de diferentes fuentes como el Sexo, el mbito territorial, los niveles socioculturales o socioeconmicos, la Lengua, etc... El control de todos estos elementos se basa en dinmicas de juicio bien establecidas, en las que en la sntesis de resultados se utilizan procedimientos de anlisis de la consistencia inter-jueces. En este sentido, hay que destacar la necesidad de los procedimientos de juicio, el estudio de las dinmicas ms adecuadas a seguir por parte de los Comits y de los tipos de anlisis a realizar, tanto como elementos de sntesis de la opinin de los Comits, como para detectar jueces que aportan valoraciones extremas, etc. La Validez de las pruebas se asienta sobre procesos de anlisis terico de los componentes de medida y la revisin lgica de todas las unidadesl. Es fundamental reconocer el valor de los procesos de juicio en este mbito, los cuales debern ser atendidos adecuadamente. No obstante, un problema habitual que se contempla en este tipo de pruebas es que muchas de ellas se sustentan ms sobre el Modelo de Medida utilizado que sobre el anlisis terico del Dominio Educativo. Por mencionar tan slo uno de los elementos clave en que se asienta la Validez de Constructo. De hecho, el problema estriba en que los principios que se refieren a la validez y que estn recogidos en cualquiera de los modelos de medida no son sino una parte relativamente reducida de los indicios que definimos como facetas de la Validez de Constructo (Angoff, 1988). Por ello las aportaciones de los modelos de medida deben entenderse en un plano instrumental dentro de la estrategia global de validacin y no a la inversa. Qu Modelo de Medida es ms adecuado en este contexto? Si se pretende utilizar estas pruebas sobre una poblacin amplia, la base mtrica necesariamente se encuentra en la Teora de Respuesta al tem que favorece el desarrollo de pruebas sobre parmetros invariantes de los tems y que permiten una graduacin adecuada de los tems asociados con la habilidad general que mide la prueba (Hambleton y Swaminathan, 1985; Weiss y Yoes, 1991). No obstante, estos modelos han demostrado su adecuacin, hasta el momento, con dos condiciones bastante precisas no existiendo un acuerdo generalizado sobre su utilizacin cuando alguna de ellas no se cumple. La primera condicin resulta de la unidimensionalidad del constructo y la segunda del tamao de la poblacin referente para establecer la invarianza (Linn, 1990; Osterlind, 1992). Un elemento adicional, que gua la seleccin de Indicadores tanto para el Anlisis de tems, como para la Fiabilidad, es el tipo de interpretacin de las puntuaciones que se requiere. As, la dicotoma Normativa-Criterial est a la base de esta seleccin. Las pruebas estandarizadas de Rendimiento como Indicadores de Resultados no son interpretadas individualmente, por lo que, en principio, no sera necesario ningn elemento que coadyuve a Ia interpretacin. As, respecto a la seleccin de indicadores,
10 Y debe ser refrendada por la acumulacin de evidencias empricas, tanto desde una base de investigacin experimental como correlacional.

el Anlisis de parmetros de los tems y el sesgo, junto a comprobaciones de la fiabilidad como consistencia global seran suficientes para un planteamiento mtrico adecuado de las pruebas. Sin embargo, el contexto de uso de estas pruebas aunque no requieran de un Estndar para la interpretacin individual de puntuaciones lleva a que se necesite algn procedimiento global. De este modo, estas pruebas se utilizan en Evaluaciones sobre la Calidad de un Sistema, un Centro o un Programa y, por ello, debe tenerse en cuenta que de no acompaarse de ningn elemento interpretativo la Evaluacin quedar en el terreno meramente descriptivo. En ste mbito, las informaciones normativas son indudablemente la base de anlisis y la referencia ms clara respecto a las caractersticas del Dominio evaluado. No obstante, es conveniente que el Comit de Expertos que desarrolla el Anlisis y Especificacin del Dominio establezca adems un Estndar" basado en juicio que identifique, al menos, los niveles mnimos de competencia aceptables como indicador de suficiencia del sistema. El Estndar operativiza la idea de calidad. Este tipo de Estndares, son especialmente tiles en estudios Longitudinales, pues es conocido que cuando trabajamos con grandes muestras, pequeas diferencias se identifican como diferencias estadsticamente significativas, y es necesario algn tipo de criterio que nos permita valorar la "cualidad de la diferencia". Para el desarrollo de este tipo de Estndares se puede trabajar desde Metodologas especficas de Estndares basados en los Items. Son especialmente de inters para este tipo de pruebas los procedimientos desarrollados para situaciones multivariadas de decisin, como por ejemplo las propuestas de modificacin del mtodo de Angoff (Hambleton y Plake, 1995), el procedimiento de Jaeger (1993) o la sntesis formulada por Putnam, Pence y Jaeger (1995). Estos procedimientos abordan la toma de decisiones en tareas complejas, partiendo de la base de que lo que se busca es un perfil de ejecucin a travs de un conjunto de dimensiones relevantes; lo que es el caso de una buena parte de las situaciones que se encuentran dentro de este tipo de pruebas. En definitiva, constituyen un avance en la linea de operativizar la idea de calidad a partir de los contenidos evaluados, reteniendo la complejidad consustancial a la magnitud del Dominio a que se refieren este tipo de pruebas. Pruebas Estandarizadas de Certificacin y de Admisin. Estas pruebas tienen por objeto recoger la informacin que permita certificar que una persona ha superado administrativamente un determinado nivel educativo o que tiene los conocimientos necesarios para ser admitido en un programa de formacin de amplio espectro, por ejemplo, en la enseanza universitaria12. Son pruebas que, por
11 Entendemos por Estndar la puntuacin en el Dominio que indica el nivel mnimo de competencia. Se trata de la expresin de este nivel en la Escala de puntajes verdaderos, tericos, libres de error (Jornet y Surez, 1989b). 12 En nuestro pas existen pocas experiencias an desarrolladas con este tipo de pruebas. Estudios de inters a este respecto son los de Tourn (1985) y Toca y Tourn (1989), en el mbito universitario, o en relacin a la Educacin General Bsica los trabajos llevados a cabo por Rivas et al. (1986), que desarrollaron una lnea de investigacin que condujo a la elaboracin de pruebas para los finales de Ciclo en la EGB en diversas materias.

150

J.M. Jornet Melid y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

151

tanto, se orientan a un universo instruccional muy amplio, cuya definicin es bsicamente emprica es decir, muy operativizada, y que se centran muy especialmente en el producto educativo. As, si se pretende establecer un nivel generalizado que certifique unos conocimientos mnimos para superar la Secundaria Obligatoria, obviamente estamos hablando de abordar la medicin y evaluacin de un Dominio educativo que se extiende a lo largo de cuatro aos y que est concretado en un nmero importante de materias diferenciadas. Adems, parece razonable tener presente que para esta situacin no existen aportaciones tericas que nos permitan extraer conclusiones cindonos a la valoracin de unas cuantas dimensiones. Como mucho, podremos efectuar una definicin bastante pormenorizada del Universo de Medida eligiendo algn punto de referencia como pueden ser los textos legales que reflejan las orientaciones y objetivos necesarios en estos niveles. En relacin directa con esta cuestin, si no se dispone de un marco terico slido de referencia y se debe abarcar un universo muy amplio es bsicamente imposible abordar una evaluacin del proceso, por lo que estas pruebas se suelen concentrar en la valoracin del producto educativo. Las reglas de conexin entre el Universo de Medida de referencia y la prueba concreta no se pueden especificar de forma exhaustiva, por los mismos motivos que acabamos de apuntar. Las referencias a la definicin del Dominio Educativo, que sealamos para las pruebas anteriores, son aplicables aqu. nicamente debe tenerse en cuenta que en la seleccin de unidades del Dominio prevalecern los juicios acerca de la relevancia de los Items como expresin de competencia, dado que ello es especialmente importante para poder establecer el Estndar. Qu tipo de interpretacin se requiere en estas pruebas? A diferencia de las pruebas descritas anteriormente, hay que considerar que a partir de estas pruebas se pretende realizar una interpretacin especfica del nivel de competencia de cada persona, por lo que el planteamiento global de desarrollo de las pruebas vara sustancialmente en la seleccin de indicadores. Precisamente debido a esta referencia individual en el objetivo de valoracin, en este contexto, cuando se trata de la valoracin de personas pertenecientes a una poblacin muy amplia resulta especialmente importante enfatizar el anlisis del sesgo para asegurar la equidad de la evaluacin. El establecimiento del estndar de superacin es difcil que se refiera exclusivamente a un valor absoluto. En este sentido, hay que tener presente que la propia amplitud y heterogeneidad del contenido hacen muy difcil poder definir exactamente cul es el nivel mnimo exigible mediante objetivos o conocimientos especficos a un sujeto para alcanzar el nivel de competencia. Adems, estas pruebas afectan al conjunto de la sociedad y, por ello, deben participar muy directamente en este proceso de decisin los diversos colectivos implicados. As, es conveniente llevar a cabo un proceso de determinacin del estndar de tipo mixto, integrando los criterios absolutos con las consecuencias que de su aplicacin se derivaran para diferentes colectivos. De este modo, es muy importante tener en cuenta en este trabajo la minimizacin de los Errores de Seleccin, por lo que las labores de adecuacin del Estndar como

Punto de Corte'3 son especialmente relevantes. La determinacin de la puntuacin de corte debe desarrollarse a partir de un proceso iterativo en el que se conjuguen tcnicas de juicio con anlisis empricos y en el que el estudio de las consecuencias de aplicacin del Estndar moderen las aplicaciones de juicio. En este contexto es bsica la retroalimentacin de informacin al Comit de Expertos que desarrolla las pruebas. En estos procedimientos se tiende a seleccionar la puntuacin de corte como aquella que maximiza la fiabilidad y minimiza los Errores de Seleccin (tipo I y tipo II). No obstante, atendiendo a la Razn de Pase14, si es que est prefijada, el Comit de Expertos puede valorar la utilidad diferencial de asumir decisiones con Error tipo I o tipo II, de forma que se integren en la determinacin de la puntuacin de corte la composicin de aquellos errores evaluativos que resulte menos lesiva para el adecuado uso del estndar. Como en el caso de las pruebas anteriores estas pruebas deben sustentar su desarrollo como Modelo de Medida sobre la Teora de Respuesta al tem. Sin embargo, en la seleccin de indicadores para el anlisis de tems y para la fiabilidad es preciso tener en cuenta la existencia del estandar criterial. Por ello, en la determinacin de la fiabilidad deben contemplarse indicadores de Consistencia de la Decisin, de forma que pueda valorarse la capacidad de la prueba para diferenciar, al menos, entre sujetos que tienen y no tiene el nivel mnimo de competencia en el Dominio de Referencia. Por su parte, en el analisis de tems se atender especialmente a la identificacin de indicadores de discriminacin, en los que debern incluirse formulaciones que tengan en cuenta adems de la capacidad global de discriminacin la actuacin consecuente con el Punto de Corte fijado. Pruebas de Nivel y de Dominio. Las pruebas de Nivel y las de Dominio las podemos considerar como variaciones de las anteriores, diferencindose en virtud de la amplitud del Dominio Educativo a que se refieren que es ms reducido o bien en relacin a la amplitud de la poblacin a la que van dirigidas que tambien suele ser ms especfica. Tienen en parte por tanto unos objetivos y caractersticas semejantes a las anteriores. En este caso, nos estamos refiriendo a pruebas que aporten informacin, por ejemplo, sobre si un estudiante ha alcanzado el nivel suficiente como para pasar de un curso a otro en una materia, o bien si ha superado los niveles mnimos exigidos en un programa de formacin concrete por ejemplo, un programa de reciclaje para docentes sobre tcnicas de observacin en el aula. El hecho de referirse a un programa educativo mucho ms concreto conlleva diferencias sustanciales que se pueden sintetizar en las siguientes:
13 Entendemos por Punto de Corte aquella puntuacin en la prueba que expresa el nivel mnimo de competencia. Proviene del Estndar y constituye el ajuste emprico del mismo, teniendo en cuenta criterios de fiabilidad (Jornet y Surez, 1989b). 14 % de sujetos que pueden ser admitidos, por ejemplo, en un programa. 15 Se ha informado de algunos desarrollos especficos de pruebas insertas en Modelos evaluativos que podran ser identificables en esta categora como los trabajos de Rodrguez Lajo (1986), Jornet (1987) y Jornet et al. (1993).

152

J.M. Jornet Meli y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

153

a) se puede dar una definicin del universo de referencia tanto emprica como terica esto ltimo especialmente en los programa ms concretos, se puede aspirar a la valoracin del proceso y no slo del producto. Al ser b) pruebas referidas a dominios ms concretos cabe identificar unidades en el Dominio, a partir de las cuales se puedan realizar inferencias acerca de los procesos, las reglas de conexin entre el universo y la prueba estn mucho ms determic) nadas en numerosas ocasiones completamente determinadas, d) en el anlisis de tems, junto a los indicadores de los parmetros bsicos resulta de inters (al ser pruebas de nivel o de evaluacin de un programa especfico) la sensitividad instruccional, como expresin de la capacidad de los tems para discriminar las adquisiciones propias del programa, e) la amplitud de las poblaciones de referencia puede condicionar el Modelo de Medida adecuado a cada caso. As, se debe distinguir entre las pruebas que se orientan a poblaciones amplias y las que se destinan a mbitos ms concretos. Por ejemplo, hay que diferenciar entre una prueba de Clculo para primero de Primaria aplicable a estudiantes valencianos y otra destinada a evaluar la competencia alcanzada en un programa de formacin para la participacin de Equipos Directivos de Centros. El Dominio se concreta en ambos caso, pero la primera situacin va dirigida a una poblacin amplia y le son aplicables los mismos referentes de Medida que los ya comentados en los casos anteriores, mientras que en la segunda situacin las pruebas se debern sustentar en la Teora Clsica del Test y en indicadores que provienen del mbito de la Evaluacin Referida al Criterio'". f) el estndar de referencia est normalmente basado en un criterio absoluto aunque se den, obviamente, casos en que se utiliza una combinacin con informacin normativa. En cualquier caso, este tipo de pruebas se sita entre las pruebas amplio espectro y las de Aula, adoptando caractersticas que les son propias a los dos enfoques.
PRUEBAS DE CLASE O DE USO EN EL AULA

Las pruebas de Clase o pruebas de Aula hacen referencia a las que puede utilizar el profesor para la evaluacin de sus alumnos. No obstante, es en este mbito donde probablemente se aprecia una peor aceptacin de las pruebas estandarizadas. Y ello, porque se atribuye a la Estandarizacin condiciones que alejan estas pruebas de la individualizacin. Sin embargo, debe tenerse en cuenta que ambos Estandarizacin e Individualizacin no son conceptos necesariamente contradictorios; ms bien, es el tipo de uso que se realice de las pruebas lo que puede enfrentarlos. La Estandarizacin mejora
16 En ambos casos se pueden utilizar aportaciones derivadas de la Teora de la Generalizabilidad para conseguir indicadores ms consistentes de los parmetros de la prueba, especialmente en aquellos casos en los que no sea adecuado utilizar los modelos TRI (Brennan, 1983; Shavelson y Webb, 1991).

esencialmente las condiciones de objetivacin de la medida. Y ello a veces se olvida por parte de los detractores de las pruebas, poniendo el nfasis sobre aspectos propios de la individualizacin que, sin embargo, podran se atendidos con pruebas estandarizadas, sin considerar que los procedimientos no-estandarizados no resuelven adecuadamente los problemas derivados de la subjetividad del observador o el evaluador. Por otra parte, el marco derivado de la LOGSE ha puesto de manifiesto la necesidad de individualizar o personalizar los diseos curriculares. Un problema prctico al que habitualmente aluden los profesores es la falta de metodologa adecuada para el desarrollo de las Adaptaciones Curriculares Individualizadas. Obviamente, las soluciones no estn slo en la Medida y la Evaluacin, pero stas constituyen un elemento instrumental inicial desde el que abordar la solucin de este problema. As, debe tenerse en cuenta que el desarrollo de pruebas estandarizadas para la evaluacin de una unidad didctica es probablemente el marco donde puede disponerse de pruebas ms vlidas. Esto es as, dado que los Dominios Educativos de referencia en estos casos constituyen Universos de Medida finitos, claramente especificables, concretos. Este hecho afecta directamente a la Validez de Contenido, pudiendo aspirar en este contexto a pruebas ms representativas del Dominio Educativo del que se derivan. Por otra parte, si se estructura el Dominio Educativo de forma perfectamente asociada al planteamiento metodolgico-didctico, la Validez de Constructo tambin puede verse beneficiada. Esto es as, no slo por el hecho de la asociacin trabajo de aulasistema de evaluacin (que sera una expresin ms concreta de la Validez de Constructo, como Validez Curricular), sino muy especialmente por las caractersticas del desarrollo del aprendizaje, en el que se podr reflejar el constructo terico que est a la base del diseo curricular y del enfoque metodolgico-didctico del programa. Adems, los Dominios Educativos, en estos casos, se refieren a unidades didcticas o lecciones por lo que incluyen pocas unidades, lo que favorece el micro-anlisis de todas las tareas-tems implicados en el Dominio. Pueden permitir, pues, una definicin exhaustiva de la poblacin de conductas que pongan de manifiesto las adquisiciones (habilidades, capacidades y destrezas) a que hace referencia un Dominio. De esta forma, en la definicin de este tipo de Dominios cabe identificar unidades de medida, a partir de las cuales se puedan inferir interpretaciones procesuales bastante precisas, as como de productos especficos. Ello favorece que este tipo de pruebas pueda estar muy bien adaptado para la medicin y evaluacin de procesos y productos de aprendizaje". De este modo, las posibilidades de interpretacin se abren: no slo se puede interpretar un nivel de competencia a partir de la puntuacin total sino explicar el nivel, informando de los procesos de adquisicin a partir de la interpretacin particular de los tems. Este hecho se ve favorecido porque la situacin de Medida que puede darse en un Aula no tiene por qu limitarse a una situacin de examen habitual tipo test. En este
17 Recientemente se ha venido informando de propuestas de inters en nuestro mbito educativo, como las de Buenda y Salmern (1994) o las de Toboso (1995 a y b).

154

J.M. Jornet Meli y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

155

marco, pueden formar parte de la "prueba" diversos tipos de elementos: desde tems clsicos de lpiz y papel hasta tems micro-situacionales en los que la valoracin provenga de la observacin de la tarea que realiza cada individuo. La definicin del Dominio, establecimiento de Reglas de generacin de tems y escritura de tems, la realiza como en casos anteriores un comit de expertos, pero en esta situacin, est compuesta por los profesores de una materia (o departamento, o equipo de ciclo). En el trabajo a realizar por el Comit hay que tener en cuenta los siguientes aspectos: Antes de desarrollar la prueba es esencial definir el rol que sta tendr dentro de los recursos evaluativos de que disponga el profesor. El contexto ideal de uso es aquel en el que se identifican fuentes mltiples y diversos instrumentos. En el desarrollo del Anlisis del Dominio la reflexin deber orientarse hacia elementos de relevancia de los tems respecto de los objetivos que pretenden medir (Congruencia tem-Objetivo) as como respecto a la representatividad de los tems como situacin evaluativa en relacin a los planteamientos metodolgico-didcticos seguidos en el Aula. Aunque en este contexto no resulta tan trascendente el anlisis del Sesgo de los tems, su anticipacin por procesos de juicio es una labor de especial inters. As, junto a variables bsicas como Sexo o Lengua en Comunidades bilinges, dependiendo del nivel educativo, pueden producirse sesgos en situaciones de apertura del currculum. De esta manera, pueden haber alumnos reforzados en su aprendizaje de una materia por el efecto del aprendizaje de otras opcionales. Este tipo de sesgo sera importante identificarlo a efectos de determinar adecuadamente el nivel de competencia a que puede aspirarse en la materia en la que se desarrolla la prueba. No obstante, aunque existan sesgos de los que necesariamente tengamos que independizar a las pruebas, otros como el ltimo mencionado puede ser difcil de eliminar, por lo que al menos es importante identificarlos, conocerlos, y asignarles valor diagnstico o modulador de las decisiones evaluativas. El anlisis del sesgo en este caso se basa ms sobre procesos cualitativos de juicio que sobre la comprobacin emprica de los resultados obtenidos por las personas evaluadas. El factor clave para poder llevar a cabo una comprobacin adecuada es el tamao de la muestra, en estos casos muy reducida. Respecto a los componentes tcnicos derivados del Modelo de Medida, en este contexto no puede utilizarse la Teora de Respuesta al tem, dado que el tamao de los grupos que se trabaja es muy reducido. No obstante, dentro de la Teora Clsica de los Tests se dispone de indicadores suficientes que pueden, realizando las adecuadas adaptaciones en su uso e interpretacin, operacionalizar los anlisis necesarios. Asimismo, en el marco de la Evaluacin Referida al Criterio existen mltiples indicadores de fcil utilizacin que racionalizan la lgica de seleccin criterial. Sin embargo, hay que tener presente que las caractersticas derivadas del objeto de

medida y del uso de la prueba, as como las que devienen de los tipos de distribucin que podemos encontrar en pequeas muestras", conllevan necesarias modificaciones en la utilizacin e interpretacin de indicadores clsicos. De esta manera, caractersticas bsicas empricas tiles en la seleccin de tems del Modelo Clsico no seran deseables aqu. El valor de los parmetros e indicadores radica no tanto como elemento de seleccin de los tems (que se sustentar preferentemente sobre procesos de juicio) como elemento de informacin para el grupo de profesores Comit que desarrolla la prueba. Su valor como indicadores de seleccin de tems, se circunscribe a la comprobacin de las hiptesis funcionales que el Comit haya anticipado para los tems, respecto a la dificultad terica y su capacidad de discriminacin primordialmente (Jornet y Surez, 1994 ; Rivas, Jornet y Surez, 1995). Qu tipo de interpretaciones se requieren? En este contexto, en donde se deben tomar decisiones acerca de la promocin de cada persona en su aprendizaje, es preciso conocer adecuadamente su posicin respecto del Dominio Educativo, por lo que la interpretacin necesariamente debe ser criterial, basada en un estndar absoluto. Para el desarrollo del Estndar y su especificacin como puntuacin de corte la aportacin del Comit de Expertos es nuevamente esencial. Entre los mtodos en que pueden apoyarse, en este contexto de desarrollo de pruebas, cobran especial relevancia aqullos que utilizan como informacin para retroalimentar al Comit en su proceso de determinacin, el anlisis de las consecuencias de su aplicacin sobre sujetos conocidos (Livingston y Zieky, 1982). Estos usos, en la prctica, se convierten en evidencias de validacin de la puntuacin de corte. En cualquier caso, los procesos de evaluacin en el Aula hay que considerar que no se debe aspirar a que se sustenten sobre pruebas estandarizadas exclusivamente. La oportunidad de su utilizacin depende fundamentalmente de que sean adecuadas al tipo de materia que se pretenda evaluar. La defensa del uso de este tipo de pruebas para la evaluacin debe realizarse desde el marco en que realmente sean ms tiles (fiables y vlidas) que otras alternativas o tcnicas evaluativas. Asimismo, debe tenerse en cuenta que las pruebas estandarizadas deben derivarse desde un programa educativo bien establecido y, como instrumento estn al servicio del mismo. Un peligro genrico que nace del uso de cualquier sistema de evaluacin es que acaben siendo los instrumentos los que constituyan la referencia para el desarrollo del programa, acabando por condicionar su uso (De la Orden, 1993).
PRUEBAS DE PROPSITO DIAGNSTICO

Las Pruebas de Propsito Diagnstico rompen con el discurso de lo ms general a lo ms concreto que relaciona los tres tipos que hemos expuesto. As, mientras en las pruebas revisadas con anterioridad el objetivo es, en trminos generales, valorar las
18 No sera aceptable anticipar como efecto educativo que el Rendimiento se distribuir como la Curva Normal. Es ms lo habitual y deseable sera que los efectos educativos fueran asimilables a distribuciones beta, con tendencia asimtrica negativa.

156

J.M. Jornet Meli y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

157

adquisiciones sobre un programa educativo, ms o menos amplio, aqu se trata de poder indagar respecto a la posible existencia de determinados problemas de aprendizaje y cules son sus caractersticas concretas. El objetivo es, pues, delimitar si se da un determinado problema en el proceso normal de adquisiciones que desarrolla un sujeto y poder extraer informacin sobre la cualidad de tal problema, de modo que se pueda orientar mejor la subsiguiente intervencin. En este grupo incluimos dos grandes tipos de pruebas: referidas al Currculum y de diagnstico propiamente dichas. Las pruebas estandarizadas referidas a un currculum tienen por objeto indagar acerca de la posicin de un sujeto respecto a un Diseo Curricular dado (que acta como Dominio Educativo). Las hemos clasificado aqu porque su propsito generalmente es de tipo diagnstico, dado que se trata de recabar informacin independiente de las calificaciones escolares y sin finalidad de uso en el contexto del Aula acerca de si los sujetos tienen adquisiciones bsicas correspondientes con su desarrollo curricular-escolar, o bien presentan disfunciones-19. Generalmente, estas pruebas pretenden abarcar Dominios amplios, correspondientes a dimensiones que se identificables a travs de un Diseo Curricular de largo alcance (como por ejemplo, Numeracin, Clculo Mental, Interpretacin de Datos o Resolucin de Problemas). Sin embargo, en el anlisis del Dominio prevalece la identificacin de los elementos clave que se asocian a diferentes etapas de adquisicin. Esta identificacin es la que permite situar al sujeto en su nivel de aprendizaje en el Dominio. Por su parte, las pruebas Diagnsticas propiamente dichas tienen como finalidad no slo determinar la posicin del sujeto en el Dominio de referencia, sino describir adecuadamente los elementos deficitarios con el fin de planificar la intervencin. En este sentido, las unidades del Dominio deben estar claramente definidas y previamente analizadas respecto a su asociacin con unidades de intervencin. Es habitual que en estas situaciones se parta de un marco terico que define dimensiones respecto de las cuales su puede concentrar la informacin significativa para la toma de decisiones, aunque no siempre tenga la consistencia terico-metodolgica debida (De la Orden et al. 1994). Como seala Oosterhof (1994), las pruebas de propsito diagnstico deben ser utilizadas con cautela, pues la investigacin bsica acerca de los constructos en ellas implicados, todava es escasa 20. En relacin directa con esto, el objetivo de la evaluacin con estas pruebas es mixto, en el sentido que pueden estar orientadas al proceso educativo, al producto o a cualquier combinacin de ambos objetivos. Esto conlleva que las pruebas estn basa19 Aunque no son muy frecuentes, existen ya algunas pruebas de inters como por ejemplo la Escala Key-Math R de Connolly (1988), adaptada por Mari (1996) a nuestro contexto educativo o algunas otras desarrolladas directamente en el mismo, como la Batera de Pruebas de Lenguje FCI (Bartolom, et al., 1985). 20 Sin embargo, se pueden identificar ya desarrollos muy adecuados (como la prueba CRIL de Lenguaje de Wiig, 1990, de la que parte el desarrollo de la prueba ICL de Puyuelo y Renom 1993 y Puyuelo, Renom y Solanas 1995).

das en unas reglas de conexin con el universo tan especficas como lo permita las caractersticas y la amplitud del mismo. Finalmente, el estndar en que se basa la decisin suele ser una combinacin de indicadores absolutos y normativos. Esto es as dado que para la determinacin de la existencia de un problema suele ser tan til emplear definiciones absolutas que reflejen las claves de su identificacin (nivel en que se produce un problema, patrn procesual del mismo, etc...) como la informacin relativa al grupo de pertenencia para situar la dimensin caracterstica del mismo por ejemplo, un problema de inversiones en la lectura depender tanto de una determinada frecuencia concreta como de la situacin relativa dependiendo del grupo de edad al que pertenece el sujeto. PRUEBAS INDIVIDUALIZADAS En este caso el objeto es proporcionar un sistema de recogida de informacin muy flexible que se ajuste a las caractersticas de cada sujeto o situacin de medida y que proporcione, por ello, una informacin ms rica y significativa en los puntos crticos. Como se aprecia en el Cuadro 2, no siempre la unidad de referencia es un sujeto concreto, pudiendo ser un currculum o programa completo. Adems, la adaptacin puede realizarse de forma esttica o dinmica. En el primer caso la prueba entera se construye en funcin de las caractersticas o directrices del grupo o situacin de referencia, mientras que en el segundo caso es el propio rendimiento el que proporciona el patrn de referencia para la adaptacin sucesiva de la prueba. Estamos hablando de pruebas que precisan de una definicin lo ms exhaustiva posible del Dominio Instruccional de referencia y de unas reglas sumamente concretas de relacin entre el Universo Instruccional y la prueba. De no producirse estas condiciones no se podra establecer bien el ajuste para cada situacin o individuo. En general, las pruebas adaptadas se fundamentan en bancos de objetivos e tems que ofrecen algunas grandes organizaciones pblicas y privadas. Los dos formatos esenciales se dan en funcin de que sea la propia empresa u organizacin que facilite la adaptacin ya completada al usuario final o que se le suministre la informacin y una herramienta informtica a este ltimo para que pueda hacer esta adaptacin por sus propios medios. As, los sistemas AIMS (Academic Instructional Measurement Systems) de The Psychological Corporation, ORBIT (Objective-Referenced Bak of tems and Tests) de CTB / McGraw-Hill o MULTISCORE de The Riverside Publishing Company estn compuestos por unos centenares a miles de objetivos y muchos miles de tems que abarcan la mayor parte de los mbitos curriculares de la educacin primaria y secundaria. La adaptabilidad en el caso de situaciones o programas depender de la cantidad de opciones disponibles sobre el dominio (objetivos, tems, etc.), de las informaciones sobre la estructura y caractersticas mtricas de los elementos (dificultad, discriminacin, eleccin de alternativas, recomendaciones asociadas, etc.) y de la existencia de mecanismos para integrar variaciones propias de cada situacin en la prueba (herramientas que permitan el desarrollo de objetivos, tems con diversas variantes, recomendaciones, etc.).

158

J.M. Jornet Melid y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

159

En el caso de los tests con adaptacin instantnea a la ejecucin por el sujeto como el MicroCAT Testing System (Assessment Systems Corporation, 1988) o los WICAT Systems (1986) sirven esencialmente las ideas que acabamos de apuntar. No obstante, la adaptabilidad en estos casos se incrementa cuando esta pruebas se puede adaptar mejor al sujeto en la situacin especfica de aplicacin que sirve como referencia (sea el programa, el sistema especfico de recuperacin, etc.). Asimismo, la informacin que se puede obtener en estas situaciones es tan rica que difcilmente se puede encarar una prueba de este tipo solamente en funcin de una valoracin del producto. No obstante, este es el enfoque predominante todava, pues se ha producido una adaptacin excesivamente mimtica respecto a las pruebas tradicionales. Pinsese que estamos hablando de pruebas que por su complejidad, normalmente, precisan de un soporte de tecnologa informtica, ya que el nico medio que facilita una gran precisin y variedad en la recoleccin de informacin. De hecho, este tipo de medida es el horizonte natural de los sistemas EAO al incorporar la evaluacin dinmica que se precisa en estos casos. Hoy en da, con todo, la mayora de los sistemas EAO estn lejos de adoptar las posibilidades de medida inherentes a este tipo de pruebas de hecho, tienen serios problemas para cubrir las mnimas directrices que garanticen una valoracin del rendimiento. Existen, no obstante, algunas excepciones que constituyen caminos muy sugerentes, como la experiencia del Cognition Technology Group en la Universidad de Vanderbilt (Goldman, Pellegrino y Bransford, 1994), con planteamientos integrales de enseanza y evaluacin-medida que pueden aportar respuestas a algunas necesidades de transformacin que ya hemos sealado. La calidad de la Definicin del Dominio de estas pruebas basadas en bancos de tems es bastante elevada21. En cualquier caso, el nivel de especificacin que requieren permite una valoracin ajustada y actualizada de estos sistemas que sirva de referencia para nuestra actuacin. Por ejemplo, se realizan revisiones de estos sistemas peridicamente que nos aaden referentes de validez y utilidad de los mismos (Naccarato, 1988). Los Modelos de Medida asociados a las aplicaciones ms consistentes estn basados en Teora de Respuesta al tem, tanto para la composicin del banco de referencia como para su gestin en cada situacin de evaluacin concreta (Kingsbury y Zara, 1989). No obstante, como ya hemos sealado, el campo es muy heterogneo y desestructurado, hallndose incluso pruebas que no estn soportadas por modelo alguno de medida. En definitiva, para los proyectos de una cierta envergadura respaldados por instituciones o empresas de suficiente solvencia las herramientas disponibles en los modelos TRI constituyen la recomendacin universalmente aceptada. Las limitaciones son las mismas que ya se han descrito respecto a otras pruebas y las ventajas son an mayores, al entramarse los procedimientos con mayor facilidad en una estructura de aplicacin basada en ordenador. Queda por resolver, a pesar de todo, una amplia variedad de temticas y situaciones para las que, al igual que en otros contextos de evaluacin, no cesan de proponerse alternativas parciales que, siendo muy
21 Otra cuestin bien diferente la constituyen los sistemas de evaluacin ligados a las aplicaciones EAO, cuya calidad metodolgica general es muy desigual.

CUADRO 2
SNTESIS DE PROCEDIMIENTOS DE PRUEBAS INDIVIDUALIZADAS
Tipos de Prueba o procedimiento
PRUEBAS DE ADMINISTRACIN INDIVIDUAL

Objetivo

Caractersticas de las Tareas/Pruebas

Mejorar la precisin en la estimacin de la habilidad del sujeto

Las tareas estn graduadas, en ocasiones se basa la administracin en senderos de decisin. Pruebas estadsticamente paralelas

PRUEBAS DE FORMAS MLTIPLES

Obtener mltiples medidas paralelas, equivalentes o al menos comparables de cada sujeto. Simplificar la medida ajustndola al nivel de habilidad del sujeto Maximizar la precisin de la estimacin de la habilidad de cada sujeto, utilizando el mnimo nmero de Items Diagnosticar las dificultades de aprendizaje concretas del sujeto

PRUEBAS ESTANDARIZADAS DE NIVELES MLTIPLES TESTS ADAPTATIVOS DE NIVEL

Items basales; determinaciones del nivel inicial de partida de la prueba. tems clave-caractersticos de niveles.

DIAGNSTICOS

Seleccin especfica de los tems a administrar en funcin del nivel inicial demostrado por el sujeto en tems de prueba. Pruebas ajustadas a diseos curriculares y adaptadas a niveles especficos.

SOPORTES TECNOLGICOS A LA INVIDUALIZACIN BANCOS DE ITEMS TRADICIONALES

Automatizar la construccin de pruebas a partir de una definicin genrica del Dominio, con tems cerrados e identificados por sus parmetros. Automatizar la construccin de tems, y en algunos casos, incluso su administracin. Generar mltipies pruebas paralelas.

BANCOS DE REGLAS DE GENERACIN DE ITEMS

Tests paralelos en contenido, diferentes para cada sujeto y que pueden ajustarse a los diversos curricula.

sugerentes, no se han estructurado en ningn planteamiento suficientemente slido hasta el momento presente. Por lo que respecta a los estndares, aunque tambin utilizan informacin respecto a criterios diferenciales, lo fundamental de las decisiones consiste en las definiciones absolutas que incorporan. De hecho, en muchos casos los referentes diferenciales son parciales o imposibles, en funcin de la adaptacin que se realice por ejemplo, si se aade una cantidad sustancial de modificaciones en la definicin de algn subdominio educativo todo referente normativo a este respecto carecera de validez. En otras

160

J.M. Jornet Meli y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

161

situaciones, la informacin normativa solamente puede actuar como referente marco relativamente alejado, dado que el propsito de estas pruebas suele ser ms formativo u orientado a la recuperacin. Desafortunadamente existe poco trabajo hecho en este mbito e incluso las orientaciones reflejadas a este respecto en las "normas y orientaciones de actuacin" (APA, 1986) no parecen haber madurado suficientemente la necesaria adaptacin a estas situaciones de medida-evaluacin.
ALGUNAS NOTAS FINALES

La evolucin de los mtodos de construccin de pruebas aporta una base bastante slida para el desarrollo de instrumentos estandarizados de evaluacin. Para nuestro mbito educativo, los desarrollos son muy escasos, aunque crecientes, en consonancia con la progresiva implantacin de actividades de evaluacin. El arraigo de una cultura evaluativa sin duda conllevar la necesidad de utilizar instrumentos mucho mejor construidos y adaptados que los que habitualmente se utilizan. La demanda de calidad tambin afectar a los instrumentos evaluativos. Slo ser posible responder a estos retos si abordamos decididamente el desarrollo de instrumentos de medida educativa, que respondan a las necesidades de los diversos programas y fenmenos a evaluar. La institucionalizacin de la revisin del sistema educativo y de los diferentes componentes y actores del mismo es una realidad a la que necesariamente se debe responder con instrumentos mejor diseados. Incluso, hechos evaluativos que afectan muy directamente a nuestra sociedad como es la selectividad universitaria en la actualidad an se desarrolla sobre esquemas imprecisos, que hacen que sta no responda en definitiva al sistema y que no se pueda hablar de equidad evaluativa. Actuaciones como la selectividad estn reclamando respuestas profesionales evaluativas que, al menos, integren las opciones metodolgicas disponibles. En el campo del Diagnstico Educativo tambin es evidente la carencia de instrumentos. De hecho no se dispone de Bateras a lo largo de los diferentes niveles y reas educativas que cubran las dimensiones esenciales del Rendimiento. Otro tanto puede decirse respecto a las versiones individualizadas, como las Pruebas Asistidas por Ordenador, que adems deben reivindicar su existencia frente a los exiguos sistemas de evaluacin que incorporan las aplicaciones de Enseanza Asistida por Ordenador. Respecto a las evaluaciones en el Aula deben estar soportadas sobre una profunda reflexin por parte de los profesores acerca de los componentes de sus diseos curriculares. Un aspecto central de esta reflexin debe ser el sistema de evaluacin. El desarrollo de instrumentos no tiene por qu ser la finalidad, pero s constituye un buen medio de revisin de los componentes de un programa educativo, as como de los elementos que inciden en su realizacin. Incorporar elementos propios de las pruebas estandarizadas, como son el anlisis de los Dominios Educativos o el Desarrollo de Estndares, aunque no se persiga ni se llegue a una estandarizacin completa, supone indudablemente integrar elementos de mejora de los procesos evaluativos. Obviamente, en muchas ocasiones se afirma que el profesorado no ha sido formado para abordar este tipo de procesos. La respuesta es clara: es necesario reforzar la

formacin de estos profesionales en estas reas, dado que son instrumentales para su actuacin docente. Por ltimo, la estandarizacin de la medida, como base para la evaluacin, si quiera en sus versiones ms "tecnolgicas" como las Pruebas Asistidas por Ordenador, no implica necesariamente un empobrecimiento de la informacin necesaria en la evaluacin. Existen suficientes vas de trabajo para incorporar definitivamente la medida de tareas complejas, el proceso de construccin de los conocimientos, el aprendizaje cooperativo o el pensamiento crtico. En buena medida, nos tenemos que comprometer en realizar un esfuerzo por avanzar en esas direcciones y tratar de situarnos en lnea con los pases ms desarrollados en estos mbitos disciplinares.
REFERENCIAS BIBLIOGRFICAS

AMERICAN PSYCHOLOGICAL ASSOCIATION (1986) Guidelines for computer-based tests and interpretation. Washington, D.C.: Autor. ANGOFF, W.H. (1988) Validity: An evolving concept. En H. WAINER y H.I. BRAUN (Eds.) Test Validity. Hillsdale, NJ: LEA. BARTOLOM, M.; BISQUERRA, R.; CABRERA, F.; ESPN, J.V.; MATEO, J. Y RODRGUEZ, Ll. (1985) Batera de Pruebas de Lenguaje Final de Ciclo Inicial. Barcelona: CEAC. BRENNAN, R.L. (1983) Elements of Generalizability Theory. Iowa City, IA: American College Testing Program. BUENDIA, L. y SALMERN, H. (1994) Construccin de pruebas criteriales de aula. Revista de Investigacin Educativa, 23, 405-410. CERI/ INES (1995) Education at a Glance. OECD Indicators. Pars: OECD. CONNOLLY, A.J. (1988) Key Math Revised: a diagnostic inventory of essential mathematics. Circle Pins, Minnesota: American Guidance Service. DE LA ORDEN, A. (1993) Influencia de la evaluacin del aprendizaje en la eficacia de la enseanza. Revista de Investigacin Educativa, 22, 7-42. DE LA ORDEN, A.; GAVIRIA, J.L.; FUENTES, A. y LZARO, A. (1994) Modelos de construccin y validacin de instrumentos diagnsticos. Revista de Investigacin Educativa, 23, 129-178. DE MIGUEL, M. et al. (1994) Evaluacin para la calidad de los Institutos de Educacin Secundaria. Madrid: Escuela Espaola. GIL, G.; GONZLEZ, A. y SUREZ, J.C. (1995) Un modelo de construccin de pruebas de rendimiento para la evaluacin de las enseanzas mnimas en la Educacin Primaria. En AIDIPE (Comp.) Estudios de Investigacin Educativa en Intervencin Psicopedaggica. Valencia: AIDIPE. GOLDMAN, S.R., PELLEGRINO, J.W. y BRANSFORD, J.D. (1994) Assessing programs that invite thinking. En E. BAKER y H.F. O'NEIL Jr. (Eds.) (1994) Technology Assessment in Education and Training. Hillsdale, NJ: LEA. HALADYNA, T.M. (1992) Context dependent tem sets. Educational Measurement: Issues and Practice. 11, 11-25. HAMBLETON, R.K. (1984) Validating the tests scores. En R. BERK (De.) A guide to

162

J.M. Jornet Melid y J.M. Surez Rodrguez

Pruebas estandarizadas y evaluacin del rendimiento

163

Criterion-Referenced Tests construction. Baltimore, Mass.: Johns Hopkins University

Press. HAMBLETON, R.K.; SWAMINATHAN, H. (1985) tem Response Thory: Principles and Applications. Norwell, MA: Kluwer. INCE (1996) Lo que aprenden los alumnos de 12 aos. Evaluacin de la Educacin Primaria. Datos bsicos. 1995. Madrid: Centro de Publicaciones del Ministerios de Educacin y Cultura. JORNET, J.M. (1987) Una aproximacin terico-emprica a los mtodos de medicin de referencia criterial. Tesis Doctoral. Valencia: Universitat de Valencia. JORNET, J.M. y SUREZ, J.M. (1989a): Conceptualizacin del Domnio educativo desde una perspectiva integradora en Evaluacin Referida al Criterio. Bordn. 41, 2, 237-275. JORNET, J.M. y SUREZ, J.M. (1989b): Revisin de Modelos y Mtodos en la determinacin de estndares y en el establecimiento de un Punto de corte en Evaluacin Referida al Criterio (ERC). Bordn. 41, 2, 277-301. JORNET, J.M. y SUREZ, J.M. (1994) Evaluacin Referida al Criterio. Construccin de un Test Criterial de Clase. En V. GARCA HOZ (Dir.) Problemas y Mtodos de Investigacin en Educacin Personalizada. Madrid: Rialp. JORNET, J.M., SUREZ, J.M., GONZLEZ SUCH, J., PREZ CARBONELL, A. y FERRNDEZ, M.R. (1993) Evaluation Report of the Project: Communication and Presentation Skills for Technological Transfer Agents. Euro-Innovations-Manager. Valencia: ADEIT / IMPIVA / CEEI. KINGSBURY, G.G. y ZARA, A.R. (1989) Procedures for selecting Items for computerized adaptive testing. Applied Measurement in Education 2(4), 359-375. LADUCA, A., STAPLES, W.I., TEMPLETON, B. y HOLZMAN, G.B. (1986) tem modelling procedure for constructing content-equivalent multiple-choice questions. Medical Education, 20, 53-56. LINN, R.L. (1990) Has tem Response Theory increased the Validity of Achievement Test scores? Applied Measurement in Education, 3, 2, pp. 115-141. LIVINGSTON, S.A. y ZIEKY, M.J. (1982) Passing Scores. Princeton N.J.: ETS. MARI, R. (1996) Evaluacin del Rendimiento en Matemticas: adaptacin de la Escala Key Math-R. Tesis Doctoral (en prensa: microficha). Valencia: Universitat de Valencia. MARTNEZ RIZO, F. (1996) La calidad de la educacin en Aguascalientes. Diseo de un sistema de monitoreo. Aguascalientes, Mxico: Universidad Autnoma de Aguascalientes (UAA)-Instituto de Educacin de Aguascalientes (IEA). NACCARATO, R.W. (1988) A guide to item banking in Education (3a ed.) Portland, O.: Northwest Regional Education Laboratory. ORDEANA, B. (1991) Funcionamiento diferencial de los tems: una aplicacin al campo de las diferencias entre sexos. Revista de Investigacin Educativa, 9, 17, 119-128. OSTERLIND, S.J. (1992) Constructing test items. (2a ed.). Boston: Kluwer. PREZ JUSTE, R. y MARTNEZ ARAGN, L. (1989) Evaluacin de centros y calidad educativa. Madrid: Cincel. POSTLETHWAITE, T.N. (1987) Introduction: Special issue on the Second IEA Study. Comparative Educational Review. 31(1), 150-158.

RECKASE, M.D. (1979) Unifactor latent trait models applied to multifactor tests. Journal of Educational Statistics. 4, 207-230. RIVAS F. et al. (1986): Proyecto Valencia: Objetivos bsicos de aprendizaje en los Ciclos y Areas de Lenguaje y Matemticas en la EGB. Una aproximacin de Evaluacin Referida al Criterio. Valencia: Servicio de Estudios y Publicaciones Universitarias, S.A. RIVAS, F. JORNET, J.M. y SUREZ J.M. (1995) Evaluacin del aprendizaje escolar: claves conceptuales y metodolgicas bsicas. En F. SILVA (De.): Evaluacin psicolgica en nios y adolescentes. Madrid: Sntesis. RODRGUEZ LAJO, M. (1986) Evaluacin del rendimiento criterial vs. Normativo. Modelo de evaluacin FCO. Revista de Investigacin Educativa. 3, 6, 304-321. ROID, G.H. y HALADYNA, T.M. (1982) A technology of test-item writing. New York : Academic Press. SAMEJIMA, F. (1974) Normal ogive model on the continuous response level in the multidimensional latent space. Psychometrika. 39, 111-121. SHAVELSON, R.J. y WEBB, N.M. (1991) Generalizability Theory. A Primer. Newbury Park, CA.: SAGE. SPECIAL STUDY PANEL ON EDUCATION INDICATORS (SSPEI) (1991) Education counts. An indicator system to monitor the nation's educational health. Washington : National Center for Educational Statistics. USA Department of Education. TEJEDOR, F.J.; GARCA VALCRCEL, A. y RODRGUEZ CONDE, M.J. (1994) Perspectivas metodolgicas en la evaluacin de programas en el mbito educativo. Revista de Investigacin Educativa. 23, 93-128. TOBOSO J. (1995a): Fundamentos tericos del proceso evaluador desde el marco curricular de la LOGSE. En AIDIPE (Comp.): Estudios de Investigacin Educativa en Intervencin Psicopedaggica. Valencia: AIDIPE. TOBOSO J. (1995b): Estudio emprico sobre la Evaluacin de componentes cognitivos en la Resolucin de problemas. En AIDIPE (Comp.): Estudios de Investigacin Educativa en Intervencin Psicopedaggica. Valencia: AIDIPE. TOCA, M.T. y TOURON, J. (1989) Factores del Rendimiento Acadmico en los Estudios de Arquitectura. Revista de Investigacin Educativa, 7, 14, 31-47. TOURON, J. (1985) La prediccin del rendimiento acadmico: procedimientos, resultados e implicaciones. Revista Espaola de Pedagoga, 169-170, 473-495. WEISS, D.J. y YOES, M.E. (1991) Item Response Theory. En R.K. HAMBLETON y J.N. ZAAL (eds.) Advances in Educational and Psychological Testing. Boston, MA: Kluwer WEST, A.; PENNELL, H.; THOMAS, S. y SAMMONS, P. (1995) Educational performance indicators. EERA Bulletin, 1, 3, 3-11.

También podría gustarte