Criterios y Normas
Criterios y Normas
Criterios y Normas
Por una votación de 6 a 2, la junta de educación en Stamford, Connecticut, ha adoptado una resolución que
requiere que los solicitantes para trabajos docentes "demuestren dominio del inglés escrito y hablado como
un requisito previo para ser contratados". La resolución también estipula los maestros que ahora trabajan en
las escuelas de Stamford se examinarían en inglés y los que se encuentren con "deficiencia en la comunicación"
recibirán instrucción de recuperación.
Si podemos especificar al menos el desempeño mínimo aceptable para cada objetivo, tendremos un estándar
de desempeño con el cual probar nuestros programas de instrucción; tendremos un medio para determinar si
nuestros programas tienen éxito en lograr nuestra intención de instrucción. Lo que debemos tratar de hacer,
entonces, es indicar en nuestra declaración de objetivos cuál será el desempeño aceptable, agregando
palabras que describan el criterio de éxito. (p. 44)
Mager continuó para ilustrar lo que quería decir con un objetivo de comportamiento y su estándar
asociado:
El estudiante debe ser capaz de resolver correctamente al menos siete ecuaciones lineales simples dentro de
un período de treinta minutos. Dado un esqueleto humano, el estudiante debe poder identificarse
correctamente al etiquetar al menos 40 de los. . . huesos; No habrá penalización por adivinar. El estudiante
debe ser capaz de deletrear correctamente al menos el 80 por ciento de las palabras que se le llaman durante
un período de examen. (p. 44)
Los porcentajes de alumnos de segundo grado en la población normal que respondieron a los ítems
a) y b) correctamente fueron 56% y 88%, respectivamente. Cualquier estándar de rendimiento, por
ejemplo, "8 de 10 correctos", para un grupo de elementos como el elemento "a" sería bastante
inadecuado para un grupo de elementos como el elemento "b", ya que son muy diferentes en
dificultad. Los resultados de una evaluación de séptimo grado realizada por el Departamento de
Educación de Nueva Jersey ilustran el mismo punto. Los alumnos promediaron 86% en la suma
vertical, pero solo 46% en la suma horizontal. Los caprichos de la enseñanza y la medición son tan
poco conocidos que la declaración a priori de los estándares de desempeño es temeraria.
Benjamin S. Bloom (1968), cuyo nombre se ha asociado estrechamente con la noción de
"aprendizaje de la maestría", ha escrito sobre psicología de la instrucción de maneras que dependen
fundamentalmente de las nociones de estándares de desempeño:
La mayoría de los estudiantes (quizás más del 90 por ciento) pueden dominar lo que tenemos que enseñarles.
(p. 1)
Hay pocas dudas de que las escuelas ahora proporcionan experiencias de aprendizaje exitosas para algunos
estudiantes, tal vez tan alto como un tercio de los estudiantes. Si las escuelas deben proporcionar experiencias
de aprendizaje satisfactorias y satisfactorias para al menos el 90 por ciento de los estudiantes, se deben
realizar cambios importantes en las actitudes de los estudiantes, maestros y administradores ... (p.2)
Por lo tanto, estamos expresando la opinión de que, dado el tiempo suficiente (y los tipos de ayuda
adecuados), el 95 por ciento de los estudiantes ... puede aprender un tema hasta un alto nivel de dominio.
Estamos convencidos de que el grado de A como índice de dominio de una materia puede, bajo condiciones
apropiadas, alcanzarse por hasta el 95 por ciento de los estudiantes en la clase. (p. 4)
Popham (1973), escribiendo sobre objetivos de instrucción para maestros en capacitación, reafirmó
la centralidad de los estándares de desempeño:
Sin embargo, hay otra dimensión en la escritura objetiva, una dimensión que ayuda al maestro a planificar y
evaluar su instrucción. Implica establecer estándares de desempeño, es decir, especificar antes de la
instrucción los niveles mínimos de rendimiento de los alumnos. (p. 3)
En una clase de matemáticas, el estudiante podrá resolver diez de los quince problemas del perímetro. (p. 3)
El estudiante podrá identificar correctamente, a través de procedimientos de análisis químico, al menos cinco
sustancias desconocidas. (p. 6)
Wiersma y Jurs (1976), al describir el componente de evaluación instruccional de Educación guiada
individualmente (el plan instructivo del Centro de Investigación y Desarrollo de la Universidad de
Wisconsin), dieron la siguiente descripción de las pruebas: referenciado por criterios
Al detallar el papel de las pruebas en los programas de evaluación, Ralph W. Tyler (1973) ilustró un
estándar de desempeño para determinar el dominio:
Por ejemplo, en la lectura primaria, los niños que ingresan sin haber aprendido a distinguir letras y sonidos
pueden ser evaluados para el final del año en reconocimiento de letras, asociación de letras con sonidos y
reconocimiento de palabras de las cien palabras más comunes. Para cada una de estas "cosas por aprender"
específicas, al niño se le presentará una muestra lo suficientemente grande de ejemplos para proporcionar
evidencia confiable de que podría reconocer las letras del alfabeto, podría asociar los sonidos apropiados con
cada letra, solo y en palabras, y él podía reconocer las cien palabras más comunes. Un niño ha demostrado
dominio de conocimientos, habilidades o habilidades específicas cuando realiza correctamente el 85 por
ciento de las veces. (Se necesita una pequeña asignación, como el 15 por ciento, para los lapsos comunes a
todas las personas). (P. 105)
El personal de la Evaluación Nacional del Progreso Educativo ha lidiado con el problema de los
estándares de desempeño durante años para casi la satisfacción de nadie. Aunque nunca han
adoptado una posición oficial al respecto, sí cooperaron con el Consejo Nacional para los Estudios
Sociales en un esfuerzo por aplicar estándares de desempeño a los resultados de las evaluaciones
de ciudadanía y estudios sociales (Feria, 1975). Se formó un panel totalmente representativo de
nueve jueces (3 minorías, 5 mujeres, 3 menores de 30 años). A cada juez se le mostró un ítem de
evaluación y luego se le preguntó: “¿Qué nivel de rendimiento a nivel nacional para el nivel de edad
que se considera sería más satisfactorio para este ejercicio?
(1) menos del 20% correcto, (2) 20-40%, (3) 41-60%, (4) 61-80%, o (5) más del 80%? "El panel emitió
más de 5,000 juicios en una sesión de tres días, y se informó que "... los miembros del panel
estuvieron de acuerdo más a menudo que no, pero a veces distribuyeron sus respuestas en todas
las categorías disponibles" (Feria, 1975, p. 45). Alrededor de la mitad de los ejercicios recibieron un
"nivel de rendimiento satisfactorio" de "más del 80%". Alrededor del 35% de los ejercicios satisfarían
al panel si entre el 60% y el 80% de los examinados respondieran correctamente. Los niveles de
rendimiento deseados generalmente estaban por encima de las tasas reales de respuesta correcta.
¿Qué se debe hacer de la brecha? Debe ser leído como evidencia de la deficiencia del sistema
educativo; ¿O es un testimonio de las aspiraciones del panel, el ajetreo estadounidense y el espíritu
humano indomable ("El alcance del hombre debe exceder su alcance, etc.")?
El lector puede preguntar de manera justificable: “¿Qué tipo de discurso están realizando estos
expertos?”. ¿Cómo se puede considerar tales afirmaciones como “el estudiante debe ser capaz de
resolver correctamente al menos siete ecuaciones lineales simples en treinta minutos”?
o "¿el 90 por ciento de todos los estudiantes pueden dominar lo que tenemos que enseñarles?" Si
tales declaraciones deben ser cuestionadas, ¿deberían ser cuestionadas como afirmaciones que
emanan de la psicología, las estadísticas o la filosofía? ¿Mantienen algo sobre el aprendizaje o algo
sobre la medición? ¿Son afirmaciones empíricas incomprensibles o son simplemente retórica
educativa hablada más por efecto que por sustancia?
A lo largo de este continuo de logros, la puntuación de un estudiante en una medida basada en criterios
proporciona información explícita sobre lo que el individuo puede o no puede hacer. Las medidas referidas al
criterio indican el contenido del repertorio de comportamiento, y la correspondencia entre lo que hace un
individuo y el continuo subyacente de logros. Las medidas que evalúan los logros de los estudiantes en
términos de un criterio de criterio proporcionan información sobre el grado de competencia alcanzado por un
estudiante en particular que es independiente de la referencia al desempeño de otros. (pp. 519- 520)
En los escritos tempranos de Glaser, había algunos indicios de que las pruebas referidas a criterios
podían usarse para establecer puntajes de corte entre competencia e incompetencia, o que las
distinciones entre pasar y fallar y dominio y no dominio tienen sentido psicológico. Más bien, como
lo revela la cita anterior, se asume que hay "... un continuo de adquisición de conocimientos que va
desde la ausencia de competencia hasta el desempeño perfecto" y el "... grado de competencia
alcanzado por un estudiante en particular [énfasis agregado] Es lo que se valora. La competencia se
concibe como una característica del continuo.
Hay, a lo sumo, sugerencias ambiguas de que existe un solo punto en el que la competencia se
convierte en incompetencia. Solo una vez en su papel inicial, Glaser (1963) se adueñó de la retórica
de las puntuaciones de corte:
Necesitamos especificar niveles de desempeño mínimos que describan la menor cantidad de competencia de
final de curso que se espera que el estudiante alcance, o que necesita para continuar con el siguiente curso
en una secuencia. (p. 520)
Casi al mismo tiempo que Glaser estaba desarrollando sus pensamientos acerca de la medición
basada en criterios, Mager (1962) publicó lo que pronto sería su exposición ampliamente leída y
muy influyente sobre objetivos de comportamiento, Preparación de objetivos instructivos. El pasaje
en el texto de Mager (1962) más pertinente para rastrear el desarrollo de ideas contemporáneas de
pruebas basadas en criterios fue citado anteriormente en esta monografía y se repite aquí:
Si podemos especificar al menos el desempeño mínimo aceptable para cada objetivo, tendremos un estándar
de desempeño con el cual probar nuestros programas de instrucción; tendremos un medio para determinar si
nuestros programas tienen éxito en lograr nuestra intención de instrucción. (p. 44, énfasis añadido)
Por lo tanto, Mager agregó la idea del estándar de desempeño a la larga noción del objetivo de
comportamiento.
Los escritos de Glaser y Mager fueron influyentes en el desarrollo de las pruebas y la evaluación a
mediados de los años sesenta. Entre las personas significativamente influenciadas por ambos estaba
W. James Popham. De hecho, Popham parece haber desempeñado un papel primordial en la fusión
del lenguaje de Glaser y Mager.
En 1969, Popham y Husek escribieron uno de los artículos más citados sobre pruebas basadas en
criterios. Escribieron sobre la "medición basada en criterios" y utilizaron el término "estándar de
rendimiento" de Mager:
Las medidas referidas a criterios son aquellas que se utilizan para determinar el estado de un individuo con
respecto a algún criterio, es decir, el estándar de desempeño. (p. 2)
El uso de la palabra "criterio" por parte de Glaser con su significado coloquial de "estándar", la
publicación simultánea de las nociones bastante simples de Mager de los estándares de rendimiento
y la mezcla de Glaser y Mager de Popham en el mismo bote combinados para crear la impresión de
que el "criterio" en las pruebas de referencia de criterio no fue la escala de comportamiento
articulada a una prueba y la elaboración del significado de las puntuaciones, sino que el "criterio"
fue la puntuación de corte, la división entre aprobación-falla, dominio-no dominio y competencia
incompetencia. Esta interpretación de la palabra "criterio" es evidente en la conversación informal
de educadores y especialistas en medición. Este significado se entiende cuando las personas hablan,
como lo hacen ahora habitualmente, de "establecer el criterio en una prueba o ítem de prueba con
referencia a criterios". Además, está claro que los estadísticos y psicométricos que se han dirigido al
análisis matemático de criterios Las pruebas referenciadas han tenido en mente este significado de
"criterio". Axiomatizan el problema de las pruebas de referencia según el criterio de la siguiente
manera: "Considere una calificación Cx en una prueba de tal manera que las personas con
puntuaciones verdaderas por encima de Cx" pasen "la prueba".
Cuando Glaser y Nitko (1971) buscaron aclarar el significado de “referencia a criterios” unos ocho
años después de los documentos originales de Glaser, la noción de
El estándar de rendimiento se arrastró al final de la definición:
Una prueba de referencia de criterio es aquella que se construye deliberadamente para obtener mediciones
que se puedan interpretar directamente en términos de estándares de desempeño especificados ... Los
estándares de desempeño generalmente se especifican al definir algún dominio de tareas que el estudiante
debe realizar. Muestras representativas de las tareas de este dominio se organizan en una prueba. Las
mediciones se toman y se utilizan para hacer una declaración sobre el rendimiento de cada individuo en
relación con ese dominio. (p. 653)
El concepto de una norma de desempeño estuvo ausente de la definición de Harris y Stewart (1971)
de una prueba de criterio de referencia:
Una prueba basada en criterios puros es una que consiste en una muestra de tareas de producción extraídas
de una población bien definida de desempeños, una muestra que puede usarse para estimar la proporción de
desempeños en esa población en la que el estudiante puede tener éxito. (p. 1)
En la actividad de principios de la década de 1970, se olvidó en gran medida que los primeros
principios de las pruebas basadas en criterios eran inciertos y tentativos. La creencia llegó a ser
ampliamente aceptada de que las pruebas basadas en criterios llevan consigo un estándar de
desempeño o puntaje de corte que indica dominio. Para 1976, la interpretación del "puntaje de
corte" de las pruebas referidas a criterios había avanzado tanto que en un simposio de AERA titulado
Pruebas con criterios de referencia, cuatro de los cinco artículos eran esencialmente tratamientos
psicométricos del problema de puntajes de corte (AERA 1976 Programa de la Reunión Anual, página
187, sesión 27.03).
El pensamiento de Glaser después de su artículo seminal de 1963 ha evolucionado hacia una
apreciación más completa del complejo y variado tejido del comportamiento y las pruebas. La
elección de Glaser del término "criterio" fue sugerida con bastante sensatez por el uso del término
en psicometría clásica. Allí, la palabra "criterio" denota una escala de medición utilizada para validar
una prueba o una escala psicométrica. Generalmente es una escala formada por la observación o el
registro de la conducta que el instrumento psicométrico debe predecir. Por ejemplo, la prueba
psicométrica podría ser un inventario de interés vocacional de papel y lápiz, y el criterio, una escala
de las elecciones ocupacionales reales de las personas. O, la prueba podría ser el rendimiento en un
tablero de formularios, y el criterio, una evaluación de la velocidad y precisión de los empleados en
el manejo de una caja registradora.
Fue en este sentido psicométrico clásico que Glaser (comunicación personal, 1976) intentó que se
entendiera el término "criterio" en las pruebas basadas en criterios. Visualizó pruebas
estrechamente articuladas a los comportamientos relevantes que la psicometría tradicional
incorporaba en la escala de criterio, pero rara vez en la prueba en sí.
La evolución del significado de "criterio" en las pruebas de referencia de criterio es, de hecho, un
estudio de caso en confusión y corrupción de significado. Encontramos que una lectura cuidadosa
de los pensamientos de Glaser sobre la naturaleza y el uso de las pruebas basadas en criterios es
convincente, y contienen poca de la sugerencia de Mager de que los estándares de rendimiento se
crearán ex nihilo y se utilizarán para decidir el dominio o el no dominio. La coincidencia en el tiempo
del trabajo de Glaser y Mager, y el entusiasmo entusiasta de Popham en ambas posiciones han
creado la confusión contemporánea de los dos. Además, la mezcla indiscriminada del pensamiento
de Glaser y Mager ha dado fuerza a las observaciones convincentes de Glaser sobre las pruebas de
las recomendaciones menos defendibles de Mager sobre "estándares de desempeño".
Jackson (1970) probablemente describió mejor la concepción actual de Glaser de las pruebas
basadas en criterios cuando escribió: "... el término 'referenciado por criterios' se usará aquí para
aplicar solo a una prueba diseñada y construida de una manera que defina reglas explícitas. vincular
los patrones de rendimiento de las pruebas con los referentes de comportamiento ”(p. 3). Son los
matemáticos y otros simplificadores quienes tradujeron prematuramente una noción tentativa, una
que debe esperar el desarrollo de una psicología instructiva y de aprendizaje más sofisticada, en la
idea de "puntajes de corte" y "niveles de dominio". Si alguna vez hubo una El concepto educativo
mal preparado para el tratamiento matemático, es la idea de la referencia a criterios.
Varias personas que leyeron borradores anteriores de esta monografía me instaron a hacer el mismo
punto. Temían que las críticas a los métodos para establecer estándares o puntos de corte pudieran
interpretarse descuidadamente como críticas a nociones asociadas que están lógicamente
separadas, en especial las "pruebas de referencia de dominio". Estaba convencido de que se
necesitaba una advertencia. Pero dónde colocarlo es un problema; uno no puede predecir dónde
alguien podría dibujar una asociación injustificada. La advertencia tendrá que caber aquí, ya sea que
parezca o no el lugar adecuado.
Las objeciones planteadas contra las pruebas de referencia de criterio hasta este punto y más allá
se refieren a la noción de puntaje de corte, estándar o nivel de criterio. No se aplican a las nociones
de pruebas de referencia de dominio ni a ninguna otra sugerencia sensata para escribir pruebas.
Dejando a un lado las cuestiones del significado previsto de "prueba referenciada a criterio",
debemos analizar detenidamente el trabajo que ha generado el significado corrompido de la palabra
"criterio", es decir, el sentido de criterio como estándar, nivel de dominio, puntuación de corte, o
marca de aprobación-falla. La palabra "criterio" por ahora se toma como sinónimo de "estándar" o
"corte" y no en el sentido de una escala de comportamiento ligada o articulada a una escala de
prueba.
Hemos identificado seis clases de técnica para determinar el puntaje de criterio en una prueba de
referencia de criterio:
Muchos puntajes de criterio parecen haber sido establecidos de una manera apropiada, aunque tal
vez de forma simpática, se refirió a un "conteo hacia atrás desde el 100%". Se establece un objetivo
y se escribe un elemento de prueba para corresponderlo. Dado que se considera que el objetivo es
importante, o de lo contrario no se habría declarado, su autor respalda fácilmente la proposición de
que todos deberían poder responder a la pregunta de la prueba basada en ella, es decir, el "nivel de
rendimiento deseado" es del 100%. . Pero la razón y la experiencia prevalecen y se reconoce
rápidamente que la perfección es imposible y se deben hacer concesiones para la enfermedad
mental, los errores de oficina, la desinformación, la falta de atención, etc. El hecho de que se haga
una concesión se vuelve angustiosamente arbitrario, y algunos permiten un 5%. Deficiencia y otros
que permiten un 20% o más. Por ejemplo,
No mantengo que la licencia o que estas pruebas no permitan una evaluación sensata, no personal,
no están correlacionadas con la demarcación arbitraria de las puntuaciones en dos con vlid, criterios
importantes, en las categorías descritas por palabras e ideas de sentido psicométrico clásico.
Por lo general, les gusta "competente frente a incompetente", "hábil es experto y por ley (Griggs
contra Duke Power contra no calificado", "conocedor de vs. co.) Debe serlo. Me mantengo, sin
embargo, sin saberlo ".
Nota:
A Personas en el cuadrante II aprueban el CRT pero suspenden el examen de licencia.
B Las personas en el cuadrante IV aprueban el examen de licencia, pero no pasan el CRT.
Antes de dar la prueba, los instructores del curso reciben copias de la prueba y las siguientes instrucciones:
En cada ítem de la prueba, tache las respuestas que el estudiante con la D más baja debería poder rechazar
como incorrectas. A la izquierda del elemento, escriba el recíproco del número de las respuestas restantes.
Por lo tanto, si tachas una de cada cinco respuestas, escribe 1/4.
Ejemplo. (El ejemplo debe ser preferiblemente uno de los ítems de la prueba en cuestión).
La luz tiene características de onda. ¿Cuál de las siguientes es la mejor evidencia experimental para esta
afirmación?
Después de que los instructores hayan marcado unos cinco o seis elementos siguiendo las
instrucciones anteriores, se recomienda que celebren una breve conferencia para comparar y
discutir los estándares que han utilizado. También puede ser bueno que en este momento estén de
acuerdo en un valor tentativo de k constante (consulte la sección sobre la puntuación de aprobación
mínima). Después de una conferencia de este tipo, los instructores deben proceder de forma
independiente.
Terminología
a. Las respuestas que el estudiante D más bajo debería poder rechazar como incorrectas, y que, por
lo tanto, deberían ser atractivas para los estudiantes F, se llaman respuestas F. En el ejemplo
anterior, la respuesta E fue la única respuesta F en la opinión del instructor que marcó el elemento.
b. Los estudiantes que poseen el conocimiento suficiente para rechazar las respuestas F y deben
elegir entre las respuestas restantes al azar, se llaman estudiantes F-D, para sugerir el conocimiento
de la línea de frontera entre F y D.
c. La puntuación media más probable de los estudiantes de F-D en una prueba se llama puntuación
de conjetura de F-D y se denota por MFD. Como se mostrará más adelante, MFD es igual a la suma
de los recíprocos de los números de respuestas que no sean F-respuestas.
Los siguientes párrafos están citados de Nedelsky (1954). “La puntuación correspondiente a la D más
baja se establece igual a MFD + kσFD, donde MFD es la media del MFD obtenido por varios
instructores, y k es una constante cuyo valor está determinado por varias consideraciones. Los
estudiantes de F-D se caracterizan no tanto por el conocimiento positivo que poseen como por ser
capaces de evitar ciertos juicios erróneos. La mayoría de los instructores que han utilizado la técnica
de puntuación de conjetura F-D han considerado que esta norma de "ausencia de ignorancia" es
leve, y que, por lo tanto, la puntuación mínima para aprobar debe ser tal que la mayoría de los
estudiantes de F-D no aprueben. Al asignar a k los valores -1, 0, 1 y 2 (en promedio) fallarán
respectivamente 16 por ciento, 50 por ciento, 84 por ciento y 98 por ciento de los estudiantes de F-
D. Se puede llegar a una decisión final informada sobre el valor de k después de que los instructores
hayan elegido las respuestas F, ya que en ese momento se encuentran en una mejor posición para
estimar el rigor de los estándares que han estado usando. Sin embargo, manteniendo el espíritu de
los estándares absolutos, el valor de k debería acordarse antes de que se calculen los valores de
MFD y, sin duda, antes de que se conozcan los puntajes de los estudiantes.
Es la esencia de la técnica propuesta que se llega a la norma de logro mediante una consideración
detallada de los elementos individuales de la prueba. Solo se deben realizar ajustes menores
variando el valor de k. La razón para introducir k constante, con la flexibilidad y ambigüedad que lo
acompaña, es que las respuestas F en la mayoría de los exámenes varían entre dos extremos; el muy
incorrecto, cuya elección indica una ignorancia grave, y el moderadamente incorrecto, el rechazo de
la cual indica un conocimiento pasajero. Si una prueba en particular tiene predominantemente el
primer tipo de respuestas F, esta peculiaridad de la prueba puede corregirse dando a k un valor alto.
De manera similar, un valor bajo de k corregirá el predominio del segundo tipo de respuestas F. Se
espera que en la mayoría de los casos, un cambio de no más de + .5 en el valor tentativo de k
acordado durante la conferencia preliminar debería introducir la corrección necesaria. Sería difícil
encontrar una justificación teórica para valores de k tan altos como dos; para más pruebas, el valor
k = 0 es probablemente demasiado bajo. Esto sugiere un rango de valores de trabajo bastante
estrecho, digamos entre 0.5 y 1.5 con el valor k = 1 como un buen punto de partida.
“Si una parte A de una prueba dada consta de ítems de NA, cada uno de los cuales tiene respuestas
de SA no F (una de las cuales es la respuesta correcta), el puntaje de conjetura de FD para cada ítem,
es decir, la probabilidad de que un estudiante de FD obtener la respuesta correcta en cualquier
elemento, es PA = 1 / SA. Los valores más probables de la media y el cuadrado de la desviación
estándar en esta parte de la prueba están dados por MA = PANA y σA: = PA (1 - PA) NA. MFD = ΣMFD,
A y σFD = ΣσA. los
El valor de MFD debe calcularse con precisión para cada prueba. σFD, sin embargo, se le puede dar
un valor aproximado. En una prueba de cinco ítems de respuesta, S puede variar de uno a cinco. Si
estos cinco valores son igualmente frecuentes, σFD = .41 (N). Si, por otro lado, los valores extremos,
S = 1 y S = 5, son menos frecuentes que los otros tres valores, como parece probable que sea cierto
para la mayoría de las pruebas, .41 (N) <σFD <.50 N. Como kσFD suele ser mucho más pequeño que
el MFD, las aproximaciones están en orden. Con k = 1 y σFD = .45 (N), la ecuación, Puntuación de
aprobación mínima = MFD + .45 N, debería funcionar bastante bien en la mayoría de los casos y, por
lo tanto, se recomienda como punto de partida para experimentar con la técnica propuesta . “(Pp.
4-7)
La técnica de Ebel (1972) es la siguiente: "La segunda debilidad de la definición
de la puntuación de aprobación como un porcentaje de la puntuación total es que todavía deja
elementos sustanciales de azar en la determinación del puntaje de aprobación. Los elementos
pueden ser más difíciles, o menos difíciles o menos discriminatorios, de lo que pretendía el
constructor de prueba. Si un examen pasa o no, un examen específico puede ser determinado por
las preguntas en el examen en lugar de por su nivel de competencia profesional.
Supongamos, por ejemplo, que la cantidad de ítems en una prueba de 100 ítems que cae
en cada categoría cuando se agrupan las calificaciones de cinco jueces fue como se
muestra en el
segunda columna del cuadro 19.8. La suma de estos productos dividida por 500 da una
estimación del puntaje de aprobación apropiado ”(Ebel, 1972, pp. 493-494).
Table 19.8
Passing Score Estimated from Item
Characteristics
Important
Acceptable
Questionable
Medium 11 50% 50
Hard 7 30% 210
500
37130 =74.26%
Angoff (1971) presentó una técnica esencialmente equivalente a la de Ebel pero que no se
molestó en desglosar la relevancia por dificultad de los elementos:
... pídale a cada juez que indique la probabilidad de que la "persona mínimamente aceptable"
responda a cada elemento correctamente. En efecto, los jueces pensarían en una cantidad de
personas mínimamente aceptables, en lugar de solo en una de ellas, y estimarían la proporción de
personas mínimamente aceptables que responderían a cada elemento correctamente. La suma de
estas probabilidades, o proporciones, representaría la puntuación mínimamente aceptable. (p.
515)
Hay dos problemas potenciales: (a) ¿Pueden los jueces hacer tales determinaciones de
manera consistente y confiable ?; (b) ¿Cuál es el estado lógico-psicológico del concepto de
"competencia mínima"?
Se ha reportado poca investigación empírica sobre el primer problema. Pero un estudio
reciente y sólido produjo resultados sorprendentes. Andrews y Hecht (1976) llevaron a
cabo una comparación empírica de los métodos de Nedelsky y Ebel. Se seleccionó un
grupo de ocho jueces de entre un comité de individuos que habían contribuido con 180
ítems de cuatro opciones a un examen de opción múltiple que se administró a nivel
nacional para certificar a los trabajadores profesionales.
Los jueces se reunieron en dos ocasiones separadas para establecer estándares una vez
por el método Nedelsky y luego por el método Ebel. El estudio fue cuidadosamente
diseñado con contrapeso de orden y mitades de la prueba para controlar el orden y los
efectos de la memoria. Los hallazgos fueron asombrosos. Según el método de Ebel, el
porcentaje de preguntas que, en opinión de los jueces, deberían haber sido respondidas
correctamente por una persona "mínimamente competente" fue del 69%. El porcentaje
correspondiente determinado por el método de Nedelsky fue del 46%. Esta diferencia es
desconcertantemente grande. Sin embargo, la situación es más grave de lo que indicaría
una brecha de 23 puntos en el porcentaje de elementos correctos. Esta diferencia
porcentual en la cantidad de elementos correctos requeridos para "aprobar" el examen de
certificación no indica directamente la diferencia en porcentajes de los examinados que
"aprobarían" la prueba según el criterio de Ebel del 69% (de los artículos correctos) versus
el criterio de Nedelsky del 46% .
Podemos estimar estos dos porcentajes de examinados que "pasan" haciendo algunas
suposiciones razonables. Supongamos que los 180 elementos de prueba son de dificultad
promedio, es decir, p = .50 para cada elemento; entonces la media de la prueba de 180
ítems sería 90. Además, suponga que el rango de puntajes es desde un puntaje de
oportunidad hasta un puntaje perfecto, y que la distribución de puntajes totales es
aproximadamente normal. En estas condiciones, la desviación estándar de los puntajes
totales de la prueba sería igual a aproximadamente una sexta parte del rango, de modo
que σX = (Puntuación perfecta - Puntuación de probabilidad) / 6 = (180 - 45) / 6 = 135/6 =
22.5.
Se puede estimar aproximadamente, entonces, que los puntajes totales de las pruebas
probablemente tengan una distribución normal con una media de 90 y una desviación
estándar de 22.5. Esta distribución se muestra en la Figura 2, donde también se indican los
"puntajes de aprobación" de Ebel y Nedelsky.
La figura revela una enorme discrepancia entre los estándares de Ebel y Nedelsky. Solo el
7% de los examinados serían certificados por el estándar Ebel, mientras que el 63% de los
examinados serían certificados usando el estándar Nedelsky. La impresión de lo científico
la objetividad creada por el rigmarole de las cuadrículas y las correcciones de adivinación
se evaporan rápidamente cuando uno ve la asombrosa discrepancia entre las tasas de
aprobación de los dos métodos de configuración estándar.
El estado lógico y psicológico del concepto de competencia mínima debe ser cuestionado.
La historia de la toxicología presenta un caso del uso infructuoso de un concepto análogo,
la "dosis letal mínima". Trevan (1927) descartó el concepto hace casi cincuenta años:
El uso común de esta expresión [dosis letal mínima] en la literatura del sujeto implicaría
lógicamente las suposiciones de que existe una dosis, para cualquier veneno dado, que
solo es suficiente para matar a todos o la mayoría de los animales de una especie dada , y
que las dosis muy pequeñas no matarían a ningún animal de esa especie. Cualquier
trabajador, sin embargo, acostumbrado a las estimaciones de toxicidad, sabe que estas
suposiciones no representan la verdad. (p. 484)
El uso común del término "competencia mínima" por parte de los educadores sugiere un
sentido del nivel más pequeño posible de habilidad o conocimiento en el que uno todavía
puede funcionar adecuadamente. "Competencia mínima" sugiere tal sinónimo
construcciones como nivel de habilidad "esencial", o "nivel más alto que aún es
inadecuado" o "menos permisible". Por ejemplo, en su explicación del aprendizaje de la
maestría, Bloom (1968) escribió:
El problema básico es determinar cómo la mayor proporción del grupo de edad puede aprender de
manera efectiva las habilidades y los temas que se consideran esenciales para su propio desarrollo
en una sociedad compleja. (p. 2)
Las posibilidades matemáticas de las pruebas basadas en criterios no se han pasado por
alto. Con una fecundidad característica, los estadísticos han escrito numerosos artículos
sobre la precisión psicométrica del puntaje de criterio en las pruebas de referencia de
criterio (Kefer y Bramble, 1974; Huynh, 1976; Swaminathan, Hambleton y Algina, 1974,
1975), la confiabilidad y validez del criterio. pruebas referenciadas, y la maximización de
las relaciones beneficio-pérdida a través de la clasificación de los examinados con pruebas
basadas en criterios (Besel, 1973; Emrick, 1971; Hambleton y Novick, 1973; Kriewall,
1969).
Sin excepción, estos investigadores aceptan una interpretación de "puntaje de corte" de
las pruebas basadas en criterios. Evitan las preguntas sobre cómo se justifica cualquier
"puntaje de criterio" en particular o cómo se selecciona. Más bien, proceden del punto en
el que alguien (maestro, padre, miembro de la junta escolar o quien sea) ha determinado
una puntuación de criterio, Cx. El tratamiento del problema por Hambleton y Novick
(1973) es ilustrativo:
Esta técnica para establecer un puntaje de criterio se llama así porque se basa en el
enfoque general de la investigación operativa de maximizar un producto valioso al
encontrar un punto óptimo en una curva matemática o en una gráfica. Una ilustración
aclarará este significado.
De acuerdo con la aplicación de la estrategia de investigación de operaciones de Bormuth
(1971) para determinar la "legibilidad" óptima de los pasajes de instrucción, Block (1972)
presentó un método que supuestamente era la técnica racionalmente justificable para
determinar el puntaje de criterio en las pruebas de referencia de criterio. En teoría, el
investigador enseñaría a muchos grupos diferentes aleatoriamente equivalentes hasta
que alcanzaran varios niveles de competencia en una "prueba de referencia de criterio",
por ejemplo, 10%, 15%, 20%, ..., 95%, 100%. Además, todos los grupos se medirían en una
medida externa de resultados valiosos, por ejemplo, rendimiento en una escala de
retención o transferencia de aprendizaje, ingresos a la edad de 40 años, "éxito en la vida",
etc. A continuación, una gráfica que relaciona el grado de dominio en la prueba de
referencia de criterio y el rendimiento en la escala de resultados valorados se dibuja (ver
Figura 4).
Ese nivel de desempeño en la prueba de referencia de criterio para la cual se maximiza el
puntaje de resultado valorado se convierte en el puntaje de criterio determinado
"racionalmente". Inmediatamente queda claro que este método no resuelve
satisfactoriamente el problema de determinación del puntaje de criterio a menos que la
curva de la Figura 4 no sea monotónica, es decir, a menos que en algún punto entre 0% y
100% se doble y comience a regresar a la línea de base de la gráfica. Porque a menos que
ocurra esta curva, la puntuación del criterio en la prueba de referencia de criterio que
maximiza el resultado valorado será del 100%, un nivel de perfección imposible y un
estándar trivial e irreflexivo. Sospechamos que las gráficas no monotónicas serán raras
excepciones cuando tanto la prueba de referencia de criterio como la escala de resultados
valorados son medidas de rendimiento cognitivo. Es decir, esperamos que el rendimiento
en la escala de resultados valorados aumente monótonamente a medida que aumenta el
rendimiento en la prueba de referencia de criterio.
Figura 4. Relación hipotética entre una prueba basada en criterios y un resultado valioso
Una forma de solucionar este problema es introducir un segundo resultado valorado que
tenga una relación inversa con el grado de dominio en la prueba de criterio de referencia,
por ejemplo, interés o actitud hacia el tema aprendido, y los estudiantes desarrollan
actitudes más pobres a medida que estudian el tema. Considere los gráficos en la Figura 5.
Figura 5. Relaciones separadas y compuestas entre una prueba basada en criterios y dos
resultados valiosos
Bajo las condiciones en la Figura 5, se puede encontrar un "puntaje de criterio" único para
el cual se maximiza el resultado compuesto (1 + 2). Esto parece proporcionar un método
"racional" y no arbitrario para establecer un puntaje de criterio en la prueba de referencia
de criterio. Pero, la eliminación de la arbitrariedad es ilusoria. El elemento de juicio poco
confiable en este método está oculto en el resultado compuesto. Para ponderar los
resultados cognitivos y afectivos por igual en la formación del compuesto es una elección
arbitraria de compuestos de entre la siguiente clase general de compuestos:
Resultado compuesto = a (Resultado 1) + b (Resultado 2)
Esta arbitrariedad es muy similar al problema de ponderar los falsos positivos y los falsos
negativos en el enfoque de la "teoría de la decisión".
Hay poco en la cara del problema para recomendar el compuesto "desenlace1 +
desenlace2" sobre el compuesto "2x desenlace1 + desenlace2". Este último compuesto
cambiaría sustancialmente el "puntaje de criterio" en la Figura 5 a la derecha a lo largo de
la línea de base. El único intento empírico de establecer puntajes de criterio por el método
de "investigación de operaciones" resultó precisamente en esta ambigüedad.
Los resultados del estudio empírico de Block (1972) aparecen en la Figura 6. Noventa y un
estudiantes de octavo grado recibieron enseñanza de álgebra matricial. Los sujetos se
asignaron casi por igual a cinco grupos: control, 65%, 75%, 85% y 95% de dominio, según
lo medido por una prueba de referencia de criterio. En los cuatro grupos de “dominio del
porcentaje”, los estudiantes recibieron enseñanza y repasaron la lección hasta que
pudieron responder correctamente el porcentaje designado de preguntas en la prueba de
dominio; el grupo de control simplemente estudió la lección y tomó el examen de
dominio. Se desarrolló una medida de criterio de "resultado valorado"; incluía veinte
artículos. Esta prueba externa se administró después de que todos los sujetos hubieran
aprendido hasta o sobrepasando el nivel de dominio designado por su grupo. En segundo
lugar, al finalizar el estudio se administró una escala de "actitud hacia el álgebra". Las
medidas en la prueba de logros externos y la escala de actitud para los cinco grupos de
nivel de dominio aparecen en la Figura 6.
Uno primero inspecciona la Figura 6 en busca de cualquier evidencia de relaciones no
monotónicas. Aunque Block hizo gran parte de la curva en la curva de "actitud" en la
Figura 6, la relación entre la prueba de criterio de referencia y la escala de actitud es no
convincentemente curvilínea.6 La curva de "logro" definitivamente no es no monotónica,
como se esperaba. Bloque (1972) concluyó:
... el mantenimiento del nivel del 95 por ciento [de dominio] es el mejor maximizado [sin importar
la calificación de un absoluto] el aprendizaje representado por los criterios cognitivos, mientras que
el mantenimiento del nivel del 85 por ciento maximiza el aprendizaje representado por los criterios
afectivos. Dado un modelo para relacionar puntuaciones en los criterios cognitivos [sic] con
puntuaciones en los criterios afectivos [sic], por lo tanto, habría sido posible establecer un estándar
de dominio para la secuencia de álgebra. (p. 14)
Nota: Después del Bloque (1972).
Figura 6. Actitud y Logro para cinco grupos de niveles de estilo
En la última oración de la cita, Emrick expone el nudo del argumento con el que tomo la
excepción. La pregunta más general sugerida por la afirmación de Emrick es una que no
podemos abordar adecuadamente aquí. Sin embargo, debe ser recomendado a la
atención de los filósofos y empiristas de la educación. "¿Hay algún aumento en la
precisión, al afirmar de manera conductual lo que uno desea enseñar, al cuantificar las
decisiones que ahora se toman de manera menos formal, un bien incondicional que,
aunque no necesariamente represente una ganancia de valor, seguramente no puede ser
peor que la imprecisión?" ( "Un hombre educado no exige más exactitud de la permitida
por el tema tratado". [Kaplan, 1964, pág. 283.]) Pedir más precisión de la que permiten las
circunstancias es una tontería, y puede ser imprudente como bien. El problema, tal como
lo veo, es precisamente si es apropiado un procedimiento de prueba con referencia a
criterios que implique niveles de dominio o de criterio. Yo creo que no. Con respecto al
establecimiento de puntajes de criterio en pruebas de referencia de criterio, nada puede
ser más seguro y mejor que algo arbitrario.
Que yo sepa, todo intento de derivar un puntaje de criterio es descaradamente arbitrario
o se deriva de un conjunto de premisas arbitrarias. Pero la arbitrariedad no es un
fantasma, y uno no debería encogerse de una tarea necesaria porque implica decisiones
arbitrarias. Sin embargo, las decisiones arbitrarias a menudo conllevan riesgos
sustanciales de interrupción y dislocación. Menos arbitrariedad es más segura.
Considere un ejemplo real pertinente. Un gran distrito escolar en Florida en el verano de
1975 decidió reexaminar su definición de "retraso mental". Uno imagina que sus motivos
se originaron tanto en el Zeitgeist para la "integración" como en la preocupación pública
sobre el uso excesivo de la etiqueta de "retraso mental" . Los administradores en el
distrito decidieron sustituir una nueva definición de "retraso mental" (que había sido
establecida por la Asociación Americana para la Deficiencia Mental) por la antigua
definición de "coeficiente intelectual por debajo de 75". El nuevo estándar AAMD para
"retraso mental" involucraba una conjunción de varios indicadores, cada uno con un
punto de corte arbitrario. (Probablemente sea seguro decir que se organizó alrededor de
una mesa de comité con poca idea de qué porcentaje de la población escolar se designaría
como "retrasado mental"). Aunque es de esperar que el porcentaje de personas que se
encuentran por debajo del recorte Los puntajes de descuento en varias variables, incluso
moderadamente correlacionadas, son extremadamente pequeños, el personal del distrito
escolar se sorprendió desagradablemente en septiembre de 1975 cuando hubo un vaciado
masivo de alumnos desde personas con retraso mental hacia las clases regulares. Las aulas
regulares estaban inundadas de antiguos alumnos con "retraso mental" para los cuales los
maestros no tenían ni capacitación, ni experiencia, ni materiales. El primer mes de clases
fue caótico. Luego, la administración rescindió la orden y se restableció la antigua
definición de retraso mental.
Todo el asunto podría haber sido tratado de manera más inteligente y menos arbitraria. La
preocupación con la que la administración intentó lidiar fue que demasiados alumnos,
alrededor del 10%, fueron clasificados como "mentalmente retrasados" por la definición
de "IQ por debajo de 75". El curso menos perturbador habría sido planificar el cambio del
porcentaje de los alumnos en clases con retraso mental del 10% al 8% o el 7%, ya sea
reduciendo ligeramente el límite de la prueba de CI o pidiendo a los maestros de
educación especial que nominen a los mejores prospectos para integrarse en las aulas
regulares, vea cómo respondió el sistema a esto Cambia, y procede.
En este ejemplo se encuentra un medio para hacer frente al problema de las normas.
Quizás el único criterio que sea seguro y convincente en la educación sea el cambio. Los
aumentos en el rendimiento cognitivo generalmente se consideran buenos y disminuyen
como malos. Aunque uno no puede hacer juicios absolutos satisfactorios de desempeño
(¿es este nivel de desempeño de lectura bueno o magistral?), Uno puede juzgar
fácilmente una mejora en el desempeño como buena y una disminución como mala.
Mi posición sobre este asunto se justifica apelando a una pregunta metodológica más
general en la evaluación. ¿Es comparativa toda evaluación significativa? ¿O existen
estándares absolutos de valor? Siento que en la educación prácticamente no existen
estándares absolutos de valor. La “bondad” y la “maldad” deben ser reemplazadas por los
conceptos esencialmente comparativos de “mejor” y “peor”. La evaluación absoluta en
educación, como se refleja en esfuerzos como la acreditación escolar y la licencia
profesional, ha sido caprichosa y autoritaria. Por otro lado, los juicios de valor basados en
evidencia comparativa nos impresionan como convincentes y justos. Los datos de los
experimentos comparativos, las pruebas de referencia a las normas y las evaluaciones
longitudinales del cambio son pruebas comparativas, y por lo tanto disfrutan de una en la
misma conversación mencionada anteriormente, se le preguntó a Michael Scriven si creía
que todas las evaluaciones eran necesariamente comparativas. Él respondió: "No, solo
toda buena evaluación es comparativa".
Presunta superioridad sobre la evidencia no comparativa. El economista Kenneth Boulding
(1953) hizo la misma observación sobre los sistemas sociales en general: “Casi todo el
mundo es sensible a las estadísticas comparativas. A menudo, no es el valor absoluto de
una variable lo que es significativo, sino la diferencia entre su valor y el de otra persona u
organización comparable ”(p. Xxxii).
Estoy seguro de que las únicas interpretaciones sensatas de los datos de los programas de
evaluación se basarán únicamente en si la tasa de rendimiento aumenta o disminuye. Las
interpretaciones y decisiones basadas en niveles absolutos en el rendimiento de los
ejercicios no tendrán ningún significado, ya que estos niveles absolutos varían de manera
inexplicable en función del contenido y la dificultad del ejercicio, ya que los jueces no
estarán de acuerdo sobre la cuestión de qué consecuencias deberían derivarse del mismo
nivel absoluto de rendimiento. y ya que no hay manera de relacionar los niveles absolutos
de desempeño en los ejercicios con el éxito en el trabajo, en los niveles más altos de
educación o en la vida. Establecer estándares de desempeño en pruebas y ejercicios por
métodos conocidos es una pérdida de tiempo o algo peor.
En educación, uno puede reconocer la mejora y la decadencia, pero uno no puede hacer
juicios absolutos convincentes de lo bueno y lo malo. Es bueno reconocer que al proponer
el "cambio" como la solución al problema de los estándares, uno introduce un problema
de estándares, o juicio absoluto, en un segundo nivel, es decir, ¿cuánto aumento es bueno
o suficiente? ¿Cuánta pérdida se tolera antes de tomar acción? En este caso, uno se
enfrenta precisamente al problema de la puntuación de un criterio, ¿cuántos puntos
porcentuales puede tolerarse, lo que se evitó al sustituir el criterio de cambio por una
puntuación de criterio absoluta? Pero la sustitución no fue en vano. Se adquirió
considerable claridad y consenso cuando "cambio" se sustituyó por "nivel absoluto de
rendimiento", incluso si no se resolvían todos los problemas.