Unidad Iv

VALIDEZ
UNIDAD IV
Definición
• La validez de los instrumentos de medición tiene que ver con lo que miden y con qué
tan bien lo hacen; nos indican qué se puede inferir a partir de sus resultados. A este
respecto, debe tenerse el cuidado de no aceptar el nombre de la prueba o el test
como indicador de lo que mide, pues, aunque son títulos cortos, convenientes para
propósitos de identificación, casi todos son demasiado generales y vagos para indicar
el área de conducta que cubren; no obstante, cada vez son mayores los esfuerzos
por utilizar nombres más específicos y que puedan definirse de manera empírica.
• Más aún, la validez no puede expresarse en términos generales, no es posible decir

en abstracto que es "alta" o "baja", sino que hay que referirse al uso el que se planea
utilizar el instrumento.
• EVOLUCIÓN DE LOS CONCEPTOS DE VALIDEZ DE LAS PRUEBAS
• Uno de los primeros usos de las pruebas fue la evaluación de lo que

los individuos hablan aprendido en determinadas áreas de contenido.
En la actualidad, se aplican a los exámenes escolares de fin de cursos
y las pruebas presentadas para obtener la licencia de manejo o para
desempeñar ciertas ocupaciones. En general, para evaluar esta
categoría de pruebas se compara su contenido con el del área que
pretenden probar. La aproximación descriptiva sigue siendo
importante en la validación de los instrumentos para algunas
aplicaciones.
• Cuando la examinación pasó a su segunda etapa, el énfasis cambió a
la predicción, ¿cómo responderán diferentes personas a una situación
dada, ahora o en algún momento futuro?, ¿cómo reaccionará este
individuo en diferentes situaciones específicas? Se designó como
criterio al desempeño en la situación para la cual se pretende
predecir la conducta. En este caso, la validez del instrumento
generalmente se informa como el coeficiente de correlación entre
los resultados del test y una medida de criterio directa e
independiente.
• Este procedimiento es en especial apropiado para el uso de las
pruebas en la selección o colocación de individuos en programas
educativos, empleos o programas particulares de tratamiento. De
este modo, para una prueba de aptitud me clínica el criterio
puede ser el desempeño laboral como maquinista; para una de
aptitud académica, las calificaciones escolares, y para una prueba
de neuroticismo, las valoraciones de los compañeros o alguna otra
información disponible sobre el comportamiento del individuo en
diversas situaciones.
• La corriente actual en la historia de la evaluación refleja dos tendencias
principales (1) un fortalecimiento de la orientación teórica, y (2) una estrecha
vinculación entre la teoría y la verificación psicológicas mediante la
comprobación empírica y experimental de las hipótesis.
• Estas tendencias son tan evidentes en la elaboración y la validación de los

instrumentos como en el conjunto de las otras áreas de la psicología (Anastasi,
1992a, 1992h, 1995). Un resultado de estas corrientes es el reconocimiento
creciente del valor de los constructos para describir y comprender la conducta
humana. Los constructos son categorías amplias que se derivan de los rasgos
comunes que comparten las variables conductuales observables directamente;
pero se trata de entidades teóricas que por su parte no pueden ser observadas
de manera directa.
• El interés en los constructos llevó a la introducción de lo que al principio se
consideró la tercera categoría de validez, a saber, la validez de constructo
(AERA, APA, NCME, 1985, APA, AERA, NCME 1974, Cronbach y Mechl, 1955). A la
larga y en la medida en que especifica lo La que prueba mide, la validez de
constructo llegó a reconocen como la validez fundamental e incluyente de
concepto. Los procedimientos de validación predictiva y de contenido se
encuentran entre las muchas fuentes de información que contribuyen a la
definición y la comprensión de los constructos evaluados por la prueba. Al mismo
tiempo, proporcionan información que es valiosa por derecho propio y destacan
en la evaluación de las pruebas para determinados usos. De ahí que los
conceptos (y términos) hayan sobrevivido a pesar de su integración en el
concepto más amplio de validez de constructo.
VALIDEZ DE CONTENIDO
• Naturaleza. Los procedimientos de validación por descripción de contenidos

comprenden principalmente el examen sistemático del contenido de la prueba para
determinar si cubre una muestra representativa del área de conducta que debe medir
Esta forma de validación se utiliza sobre todo en los instrumentos diseñados para medir
qué tan bien ha dominado el individuo una habilidad o un curso de estudio. Puede
parecer que basta con la simple inspección del contenido de la prueba para establecer
su validez para dicho propósito, por ejemplo, una prueba de multiplicación, ortografía o
contabilidad parecería válida por definición si está constituida reactivos de
multiplicación, ortografía o contabilidad. Pero la solución no es tan sencilla. Un
problema es el muestreo adecuado del universo de reactivos.
• El área de conducta por examinar debe analizarse sistemáticamente para
garantizar que los reactivos cubran todos los aspectos importantes y en la
proporción correcta. Es fácil cargar en exceso las pruebas con los aspectos
del campo que más se prestan para la preparación de reactivos objetivos. Por
ello, resulta conveniente describir de antemano toda el área considerada en
lugar de hacerlo después de que la prueba está lista; por ejemplo, un examen
educativo bien formulado debe cubrir los objetivos de la instrucción y no sólo
su temario. En consecuencia, hay que definir el contenido de manera amplia
para que, además del conocimiento real, incluya objetivos importantes como
la aplicación de principios y la interpretación de datos. Más aún, la validez
depende más de la relevancia que las respuestas del individuo tengan para el
área conductual considerada que la importancia aparente del contenido del
reactivo.
• Procedimientos específicos. La validez de contenido se introduce
desde el inicio en la prueba mediante la elección de reactivos
apropiados. Para las pruebas educacionales, la preparación de los
reactivos es precedida por una revisión cuidadosa y sistemática de
textos y resúmenes importantes para el curso y por la consulta con
expertos en la materia. Sobre la base de la información recabada se
establecen las especificaciones de la prueba que deben seguir los
redactores de los reactivos y en las que tienen que precisar las áreas o
temas del contenido, los objetivos o procesos educativos que han de
probarse y la importancia relativa de temas y procesos individuales.
• Las especificaciones finales deben indicar el número de reactivos
de cada clase que hay que preparar para cada tema: por ejemplo,
la evaluación de la habilidad de lectura puede incluir la
comprensión del vocabulario en el contexto, la comprensión literal
del contenido y la extracción de inferencias correctas de la
información proporcionada.
• Validez de facie. La validez de contenido no debe confundirse con
la validez de facie (conocida también como validez aparente).
Esta última no es valides en el sentido técnico, es decir, no se
refiere a lo que la prueba verdaderamente mide, sino a lo que
parece medir. La valides de facie alade as la prueba "parece válida
a los examinados que la presentan, al personal administrativo que
decide sobre o uso y a otros. observadores sin capacitación
técnica. En esencia, la cuestión de la validez de facie tiene que
ver con el rapport y las relaciones públicas.
• Aunque el uso común del término validez a este respecto puede
resultar confuso, la validez de facie es en si misma un rango
deseable de los instrumentos; al, cuando las pruebas
originalmente diseñan du para niños y formuladas dentro de las
aulas empezaron a extender su uso a los adultos para que una
prueba funcione no basta con que sea objetivamente valida,
también debemos parecerlo.
VALIDEZ REFERIDA AL CRITERIO
• Validación concurrente y predictiva. Los procedimientos de validación de criterio-

predicción indican la efectividad de la prueba para predecir el desempeño del
individuo en actividades específicas. La medida de criterio contra la que se validan
los resultados del instrumento puede obtenerse aproximadamente al mismo
tiempo que los resultados de la prueba o después de un intervalo establecido. Los
estándares de examinación ("Testing Standards") de 1985 utilizan estas relaciones
temporales entre el criterio y la prueba como base para diferenciar entre la
validación concurrente y la predictiva.
• El término "predicción" se utiliza en sentido amplio para referirse a la su
posición que puede hacer la prueba sobre cualquier situación de criterio,
o bien en el sentido más restringido de anticipación sobre un intervalo.
La expresión "validez predictiva" se emplea en este último sentido, y la
información que proporciona es muy pertinente para las pruebas usadas
en la selección y clasificación de personal. La contratación de personal,
la selección de estudiantes para su ingreso a la universidad o a escuelas
profesionales y la asignación de personal militar a programas de
capacitación ocupacional son algunos ejemplos de las decisiones que
requieren el conocimiento de la validez predictiva de los instrumentos.
• Otros ejemplos incluyen el uso de las pruebas descartar a los individuos que
probablemente desarrollen trastornos emocionales en ambientes de tensión o para
identificar a los pacientes psiquiátricos que es más probable que se beneficien de
cierta terapia.
• Cuando no es factible extender los procedimientos de validación por el tiempo

requerido para obtener la validación predictiva o una muestra adecuada de
preselección para los propósitos del examen, se emplea la validación concurrente
como sustituta. En estos casos, la prueba se aplica a un grupo del que ya se tienen
los datos de criterio; por ejemplo, se comparan los resultados obtenidos en la
prueba por universitarios con promedio académico en el momento del examen, o
los resultados obtenidos por empleados con su éxito actual en el trabajo.
• Por otro lado, para ciertos usos de los test la validación
concurrente resulta más conveniente y puede justificarse por
derecho propio. La distinción lógica entre la validación predictiva
y concurrente no se basa en el tiempo, sino en los objetivos del
examen. La validación concurrente es adecuada para las pruebas
que se emplean para diagnosticar el estado actual más que para
predecir los resultados futuros.
• Contaminación del criterio. Una precaución esencial al encontrar la valides
de una prueba consiste en asegurar que sus propios resultados no influyan en
la condición del criterio de cualquier individuo; por ejemplo, si un maestro o
el supervisor de una planta industrial saben que determinado individuo
obtuvo un pésimo resultado en un test de aptitud, ese conocimiento puede
influir en la calificación que otorguen al estudiante o en la clasificación que
asignen al trabajador, en contraste, quien obtuvo una puntuación elevada
puede recibir el beneficio de la duda cuando se preparan sus calificaciones
académicas o clasificaciones laborales. Es evidente que estas influencias
elevarán la correlación entre los resultados obtenidos en la prueba y el
criterio.
VALIDEZ DE CONSTRUCTO
• PROCEDIMIENTOS DE IDENTIFICACIÓN DEL CONSTRUCTO El término

"validez de constructo" fue oficialmente introducido en el léxico
psicométrico en 1954 en las Recomendaciones técnicas para las
pruebas psicológicas y las técnicas de diagnóstico (APA, 1954), que
constituyeron la primera edición de los actuales Estándares de
examinación. Al año siguiente apareció la primera exposición detallada
de la validez de constructo en un artículo de Cronbach y Mechl (1955).
• La validez de constructo de un instrumento es el grado en el que
puede afirmarse que mide un constructo o rasgo teórico. La
aptitud académica, la comprensión mecánica, la fluidez verbal, la
rapidez de la marcha, el neuroticismo y la ansiedad son algunos
ejemplos de dichos constructos. La validación de constructo
requiere de la acumulación gradual de diversas fuentes de
información; cada constructo se deriva de las interrelaciones
establecidas entre medidas conductuales y se forma para organizar
y dar cuenta de las concordancias observadas en la respuesta.
• Cambios en el desarrollo. La diferenciación-por-edad es un importante
criterio utilizado en la validación de una serie de tests tradicionales de
inteligencia. Instrumentos como el Stanford-Binet y la mayor parte de las
pruebas para preescolares se contrastan con la edad cronológica para
determinar si las puntuaciones muestran un incremento progresivo
conforme aumenta la edad. Como se espera que, durante la niñez, las
habilidades aumenten con la edad, se argumenta que si la prueba es
válida sus resultados deberán mostrar dicho incremento. El mismo
concepto de una escala cronológica de inteligencia, como la iniciada por
Binet, se basa en la suposición de que la "inteligencia" aumenta con la
edad, al menos hasta la madurez.
• Correlaciones con otros tests. En ocasiones se citan las correlaciones
entre una nueva prueba y otros instrumentos similares como evidencia
de que la nueva prueba mide aproximadamente la misma área general
de conducta que otras que llevan el mismo nombre, como "tests de
inteligencia" o "pruebas de aptitud mecánica". A diferencia de las
correlaciones encontradas en la validez de criterio-predicción, estas
correlaciones deben ser moderadamente altas, pero no demasiado. Si la
nueva prueba se correlaciona muy bien con cualquier otra ya disponible,
sin agregar ventajas como la brevedad o facilidad de aplicación,
entonces el nuevo instrumento es una duplicación innecesaria.
• Análisis factorial. Desarrollado como un medio para identificar rasgos
psicológicos, el análisis factorial es particularmente relevante para
los procedimientos de validación de constructo. En esencia, se trata
de una refinada técnica estadística para analizar las interrelaciones
de los datos conductuales; por ejemplo, si se aplican 20 pruebas a
300 personas, el primer paso consiste en calcular las correlaciones de
cada instrumento con el resto. Una inspección de la tabla de las 190
correlaciones resultantes puede revelar ciertas agrupaciones entre
las pruebas, lo que indica la localización de rasgos comunes.
• En el proceso del análisis factorial, se reduce el número de variables o
categorías en cuyos términos puede describirse el desempeño de cada
individuo a un número relativa mente pequeño de factores o rasgos
comunes. En el ejemplo citado, cinco o seis factores pueden ser
suficientes para explicar las correlaciones entre las 20 pruebas. En lugar
de que cada individuo sea descrito en términos de los 20 resultados
originales, la descripción se hace de acuerdo con los resultados que haya
obtenido en cinco o seis factores Un propósito importante del análisis
factorial es simplificar la descripción de la conducta, reduciendo el
número de categorías a unos cuantos factores o rasgos comunes.
• Consistencia interna. En la descripción de algunos tests, especialmente
en el campo de la personalidad, se afirma que han sido validados por el
método de consistencia interna. La característica esencial de este
método es que el criterio no es otro que la calificación total del propio
instrumento. En ocasiones se utiliza una adaptación del método de
grupos contrastados, seleccionando grupos extremos sobre la base de la
calificación total en la prueba. En cada reactivo se compara la ejecución
del grupo de criterio superior con el desempeño del grupo inferior. Los
reactivos que no logran mostrar una proporción significativamente
mayor de "aciertos" (o respuestas esperadas) en el grupo superior que en
el inferior se consideran inválidos y se eliminan o revisan.
• Otra aplicación del criterio de consistencia interna incluye la correlación
de las calificaciones de los subtests con el resultado total; por ejemplo,
muchos tests de inteligencia constan de subpruebas que se aplican por
separado (como las de vocabulario, aritmética, completación de figuras,
etc.) y cuyos resultados se combinan para encontrar el resultado total. En
la elaboración de esas pruebas, a menudo se correlacionan las
calificaciones de cada subtest con la calificación total y se elimina
cualquier subtest cuya correlación con éste sea demasiado baja. Las
correlaciones de los subtests restantes se muestran luego como evidencia
de la consistencia interna del instrumento.
• VALIDEZ CONVERGENTE Y DISCRIMINANTE. En un minucioso análisis de
la validación de constructo, D. T. Campbell (1960) señaló que para
demostrar la validez de constructo, no basta con demostrar que una
prueba tiene una correlación elevada con otras variables con las que
en teoría debe hacerlo, sino también que no tiene una correlación
significativa con variables de las que se supone debe diferir. Llamaron
al primer proceso validación convergente y a la última validación
discriminante. La correlación de una prueba de razonamiento
cuantitativo con las calificaciones obtenidas luego en un curso de
matemáticas sería un ejemplo de validación convergente
MUCHAS GRACIAS POR LA
ATENCIÓN
MG. MARIA BEATRIZ BENITEZ BENITEZ

Unidad Iv

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Unidad Iv

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad Iv

Cargado por

Copyright:

Formatos disponibles

VALIDEZ

• Más aún, la validez no puede expresarse en términos generales, no es posible decir

• Uno de los primeros usos de las pruebas fue la evaluación de lo que

• Estas tendencias son tan evidentes en la elaboración y la validación de los

• Naturaleza. Los procedimientos de validación por descripción de contenidos

la evaluación de la habilidad de lectura puede incluir la

comprensión del vocabulario en el contexto, la comprensión literal

del contenido y la extracción de inferencias correctas de la

• Validación concurrente y predictiva. Los procedimientos de validación de criterio-

• Cuando no es factible extender los procedimientos de validación por el tiempo

• PROCEDIMIENTOS DE IDENTIFICACIÓN DEL CONSTRUCTO El término

También podría gustarte