Metodo de Evaluacion Minicex
Metodo de Evaluacion Minicex
Metodo de Evaluacion Minicex
EDUCACIN MDICA
Algunos mtodos de evaluacin de las competencias:
Escalando la pirmide de Miller
Recibido: 18 ago. 2006 Aceptado: 24 ago. 2006
Servicio de Medicina Familiar y Comunitaria. Hospital Italiano de Buenos Aires. Correspondencia: [email protected]
URL:http://revista.hospitalitaliano.org.ar
INTRODUCCIN
En el artculo La evaluacin de los conocimientos: lo
que parece ser, es realmente lo que es? del Nmero 1
de 2005 de esta misma revista
2
, se trataron los fundamen-
tos de la evaluacin de las competencias en medicina. All
se compar a la incompetencia mdica con una enfer-
medad que puede ser diagnosticada a travs de pruebas
que no son perfectas.
Como fue desarrollado en ese artculo, la competencia es
especfica segn el contenido o el contexto. Esto significa
que el hecho de lograr una competencia ptima en un rea
no es un buen predictor de competencia en otra, an en el
caso de que dichas reas se encuentren muy relacionadas.
Esto tiene que ver con que la adquisicin de competencias
es especfica para contenidos o contextos diferentes aun-
que parezcan similares (la competencia del examen fsico
en un paciente con insuficiencia cardaca no predice el
desempeo en el examen fsico de un paciente con fibrosis
pulmonar). Como consecuencia de este fenmeno, es ne-
cesario aumentar el nmero de casos en las evaluaciones
para asegurar una adecuada confiabilidad intercasos
13
.
Otra conclusin es que un nico mtodo no puede valorar
a toda la pirmide de Miller. Se necesita una combinacin
de diferentes mtodos.
Adems, se mencion el papel fundamental de la evalua-
cin como orientadora del aprendizaje, por lo que su dise-
o debe ser estratgico en funcin de los efectos de apren-
dizaje deseados.
En este artculo, se describirn las caractersticas de al-
gunas pruebas frecuentemente utilizadas en nuestro me-
dio, y se har una reflexin final sobre su aplicacin en
el da a da.
ESCALANDO LA PIRMIDE DE MILLER
En ese mismo artculo, se present a la pirmide de Miller,
del ao 1990
4
. Este es un modelo para la evaluacin de la
competencia profesional organizada como una pirmide de
cuatro niveles. En los dos niveles de la base se sitan los
conocimientos (saber) y cmo aplicarlos a casos concretos
(saber cmo). En el nivel inmediatamente superior (mos-
trar cmo), se ubica a la competencia cuando es medida en
ambientes in vitro (simulados) y donde el profesional debe
demostrar todo lo que es capaz de hacer. En la cima se halla
el desempeo (hace) o lo que el profesional realmente hace
en la prctica real independientemente de lo que demuestre
que es capaz de hacer (competencia).
Adems, durante la dcada de los 90 se volvi ms evi-
dente la necesidad de una evaluacin del aprendizaje ms
autntica e integrada, as como la mayor incorporacin de
los estudiantes a la evaluacin.
Hoy en da se ha vuelto bastante clara la nocin de que la
evaluacin tradicional organizada en la combinacin de
constructos ya no es sustentable. En Educacin, el mode-
lo ms conocido es el de conocimientos tericos, habili-
dades y destrezas, actitudes. Los constructos o concep-
tos son rasgos (traits, en idioma ingls) ms o menos esta-
bles en el tiempo, que pueden ser medidos en forma sepa-
rada e independientes entre s, y son genricos; es decir,
son competencias generales no dependientes del contex-
to. Sin embargo, repetidamente se ha observado que hay
ms variacin dentro de un mismo instrumento de evalua-
cin (de un caso a otro, de una estacin a otra en el Exa-
men Clnico Objetivo y Estructurado [ECOE]
3
) que la que
hay entre diferentes instrumentos. La correlacin entre un
examen escrito de conocimientos y una estacin del ECOE
del mismo contenido puede ser mayor que entre dos esta-
ciones del mismo ECOE. Se concluye que lo importante
no es el mtodo, sino el contenido para determinar cul es
la competencia medida
7
.
Actualmente, a la luz de estos hallazgos, se ha abando-
nado la bsqueda del instrumento ideal que mida todos
los constructos a la vez. La idea actual es que para com-
pletar una determinada tarea, es necesario que diferentes
aspectos de la competencia estn juntos e integrados. La
pirmide de Miller marca el comienzo de esta forma de
pensamiento. Cada nivel usa un verbo o acciones que
son observables, por lo que pueden ser valoradas y usa-
das para la evaluacin. De esta manera, se acepta en la
actualidad que varios instrumentos deben ser combina-
dos para obtener juicios sobre la competencia de los es-
tudiantes en los distintos niveles
9
.
Otro factor importante es la autenticidad
8,9
. Su inclusin
Rev. Hosp. Ital. B.Aires Vol. 26 N 2, agosto 2006 56
debera ser prioritaria cuando se estn diseando progra-
mas para la evaluacin de las competencias mdicas. Esto
significa que las situaciones en las cuales es evaluada la
competencia de los estudiantes se parezca lo ms posible
a la situacin en la que la competencia deba ser utilizada
en la realidad. Varias razones sostienen esta afirmacin:
1. Las personas guardan y recuperan informacin de ma-
nera ms efectiva cuando es aprendida en un contex-
to relevante
7
.
2. Durante el proceso de aprendizaje, las personas alma-
cenan informacin contextual, alguna de ella aparen-
temente irrelevante
7
.
En conclusin, cuanto ms autntica sea la aproximacin
al aprendizaje y la evaluacin, ms informacin contextual
ser incorporada en el proceso.
QU PRUEBAS USAR
La pirmide de Miller, como ya fue comentado, presenta
4 niveles de competencia, definidos como sabe, sabe
cmo, demuestra y hace. En la Figura 1 se observan
los cuatro niveles y algunos de los mtodos utilizados para
evaluar cada uno de ellos.
Describiremos los mtodos mencionados en la Figura 1
y adems, usaremos la nocin de utilidad de un examen
en donde se vinculan estas variables y se les da diferente
peso
2,14
. As:
Utilidad= Confiabilidad x Validez x Impacto
educacional x Aceptabilidad x 1
Costo
En la Tabla 1, se enumeran diferentes tipos de pruebas y
cules son sus caractersticas en relacin a la aplicacin
de la frmula de utilidad:
EXMENES ESCRITOS
NIVEL DE SABE Y SABE CMO
En este nivel los exmenes son escritos. Este tipo de eva-
luaciones pueden ser clasificadas como de formato de res-
puesta o formato de estmulo, segn dnde se ponga el
nfasis del tem
10,11
.
Las pruebas de formato de respuesta incluyen las pregun-
tas de respuesta corta y las de ensayo. Adems de la longi-
tud, ambas solicitan al candidato respuestas cognitivas
diferentes.
En las preguntas de respuesta de ensayo, se pregunta por
conocimiento o procesamiento de la informacin ms que
reproduccin, requiriendo de los candidatos que establez-
can procesos de razonamiento o sntesis de informacin,
o pidindoles que apliquen conocimientos en diferentes
contextos. La confiabilidad inter-casos es baja dada la
limitacin de presentar muchas preguntas a desarrollar
en un tiempo determinado. La confiabilidad inter-obser-
vador tambin es baja, dada la disparidad de los criterios
de correccin.
Las preguntas de respuesta corta no son mejores que las
de eleccin de opciones mltiples (EOM). Por lo tanto,
slo deberan usarse en las situaciones en las que la gene-
racin espontnea de la respuesta sea un aspecto esencial
del estmulo (la vieta o descripcin del caso).
Las pruebas de formato de estmulo incluyen las que tie-
Figura 1. la pirmide de Miller y los mtodos de evaluacin. Mini CEX, Mini Clinical Evaluation Exercise; ECOE, Examen Clnico y Objetivo
Estructurado.
Mini CEX, perfiles de prctica,
pacientes de incgnito ...
Opcin mltiple, puntos clave,
ensayo, oral ...
Opcin mltiple, puntos
clave, ensayo, oral ...
ECOE, examen oral con pacientes,
portafolio ...
A
u
t
e
n
t
i
c
i
d
a
d
C
o
n
d
u
c
t
a
s
C
o
g
n
i
c
i
n
Hace
Demuestra
Sabe cmo
Sabe
57 Mtodos de evaluacin de las competencias Durante E.
nen en su enunciado descripciones ricas de claves contex-
tuales, o no. Las que tienen formato rico en contexto eva-
lan ms efectivamente el razonamiento clnico y perte-
necen al nivel de sabe cmo. Las de formato pobre en
contexto evalan conocimiento de tipo memorstico y per-
tenecen al nivel de sabe. Estimulan la toma de decisio-
nes ms simple, del tipo si / no.
En la Tabla 2, se ejemplifican las diferencias entre formatos.
LA PRUEBA DE ELECCIN DE OPCIONES MLTIPLES
(EOM)
Este tipo de prueba no necesita presentacin, ya que cual-
quier profesional de la salud estuvo expuesto a sus efectos
en algn momento de su vida. Su propsito es evaluar co-
nocimiento terico (nivel de sabe y sabe cmo)
10,11,12
.
Sus ventajas logsticas son su mayor fortaleza. Cientos o
miles de alumnos pueden ser evaluados al mismo tiempo
con mnima participacin humana. Sus desventajas ms
reconocidas son que evalan (en general, debido a su cons-
truccin como de formato de estmulo pobre en contexto),
conocimiento de tipo memorstico ms que razonamiento
ms elaborado y la diferencia entre reconocer la res-
puesta correcta en lugar de recuperarla de la memoria. Dado
su empleo tan extendido, existe buen grado de evidencia
sobre sus caractersticas psicomtricas.
Sin embargo, como ya se mencion, es posible disear tems
con descripciones ricas del contexto (formato de estmulo
rico en contexto) que simulan casos reales y evalan ms
adecuadamente las competencias del nivel sabe cmo.
Confiabilidad: los EOM son capaces de tomar muestras de
Tabla 1. Caractersticas de las pruebas segn la frmula de utilidad de una evaluacin. ECOE, Examen Clnico y Objetivo Estructurado; Mini
CEX, Mini Clinical Evaluation Exercise; (+), bajo; (++), moderado; (+++), alto.
Tipo de prueba Confiabilidad Validez Impacto educacional Costo
Opcin Mltiple +++ +++ (de contenido) + +
Puntos Clave +++ +++ ++ ++
Examen oral + + + +/++
Ensayo + + + +/++
Caso largo + + + ++/+++
ECOE ++/+++ +++ +++ +++
Mini CEX ++ +++ +++ ++/+++
Portafolio +/++ ++ +++ ++
Formato pobre en contexto con preguntas abiertas
Cuando el oxgeno difunde desde el aire alveolar hasta el
eritrocito atraviesa diferentes estructuras.
Mencione esas estructuras.
Formato pobre en contexto con tems de eleccin mltiple
Marque cules de las siguientes son medidas de prevencin
primaria:
a. Anticoagulacin en un paciente con FA.
b. Uso del cinturn de seguridad.
c. Rehabilitacin cardiovascular.
d. Suero hiperinmune antitetnico.
Tabla 2. diferencias entre formatos de estmulo rico y pobre en contexto.
Formato rico en contexto con preguntas abiertas
El Sr. Garca es un enfermo terminal. Tiene un mesotelioma en
el trax derecho. Desarrolla disnea sbita CF IV por lo que se
interna. Se diagnostica derrame pleural masivo y se decide la
evacuacin y sellado pleural.
Tres das despus lo ve en el domicilio. Le refiere que se le hin-
charon ambos miembros inferiores. Explique los posibles diag-
nsticos diferenciales y por qu.
Formato rico en contexto con tems de eleccin mltiple
Los padres traen a control a Julin, de 3 aos de edad. En el
examen usted observa que el testculo izquierdo del nio no se
encuentra en la bolsa escrotal, sino en el conducto inguinal, pero
que puede llevarlo hasta el escroto, donde permanece. Usted le
informa a los padres que se trata de un testculo en ascensor y le
indica:
a. Ciruga.
b. Testosterona.
c. Gonadotrofina corinica.
d. Observacin y control.
Rev. Hosp. Ital. B.Aires Vol. 26 N 2, agosto 2006 58
amplios contenidos muy efectivamente, ya que en poco tiempo
de examen es posible alcanzar altos ndices de confiabilidad,
que son impensables con otros mtodos. La experiencia y la
opinin de los expertos indican que los alumnos podran res-
ponder una pregunta por minuto, por lo que es posible expo-
nerlos a 180 preguntas en tres horas. En estos niveles, la
confiabilidad puede ser tan alta como, o superior a 0.90. Esto
se explica por el hecho de que al existir tantas preguntas que
evalan diferentes dominios del conocimiento, se controla la
especificidad de caso
2
. Una prueba con 40 o 50 preguntas o
menos tiene baja confiabilidad para el uso en decisiones im-
portantes
12
. La confiabilidad inter-observador es 1.0, ya que
los criterios son previos a la correccin, que es automtica.
Validez: existen varios cuestionamientos a la validez del
EOM. Entre ellos se destacan los siguientes:
1. Evala el reconocimiento de la respuesta correcta, no
la memoria: existe evidencia de que esto parece no ser
as. Estos estudios muestran una alta correlacin entre
pruebas que miden la memoria con los tems de EOM.
Estas observaciones se basan en el hecho de que tanto
el reconocimiento como la memoria acceden a los mis-
mos sistemas cognitivos
12
.
2. Slo mide conocimiento terico, no resolucin de pro-
blemas: cuando los tems estn construidos con for-
mato de estmulo pobre en contexto, slo miden cono-
cimiento terico, al igual que cualquier otra prueba.
Para evaluar habilidades como resolucin de proble-
mas, lo importante es que la raz de la pregunta (enun-
ciado) exponga un caso contextualizado sobre el que
hay que tomar decisiones particulares
12
.
3. Slo mide la capacidad de reconocer la respuesta co-
rrecta; no tiene nada que ver con medir competencia o
desempeo: esto no parece ser tan as. Existen estu-
dios que indican una correlacin aceptable (0,60 - 0,70)
entre EOMs y el desempeo en la prctica
12
.
Impacto educacional: sin duda, este es el aspecto donde el
EOM presenta mayores debilidades. Si es utilizado como
evaluacin sumativa, su impacto en el estilo de aprendizaje
de los alumnos es negativo, ya que orienta el estudio hacia la
memorizacin. Sin embargo, se lo ha utilizado con ese fin
como evaluacin de progreso (progress testing) en institu-
ciones con curricula basadas en problemas, como Maastricht
o McMaster. En esta forma de evaluar, todos los alumnos de
la carrera son evaluados con EOM orientado al que egresa de
la carrera. Los alumnos de cada ao son percentilados y los
que estn por fuera del percentilo 95 identificados para ser
aconsejados sobre sus estudios. As, se consigue que los alum-
nos no estudien exclusivamente para el examen, sino que man-
tengan un ritmo continuo a lo largo del ao
12,14
.
PROBLEMAS BASADOS EN PUNTOS CLAVE
(KEY FEATURES)
En nuestro pas, tambin se conocen con el nombre de
simuladores. Consiste en una descripcin corta de un es-
cenario o vieta (caso) en el que se presenta un problema.
Por cada vieta se pueden realizar varias preguntas que es-
tn orientadas a evaluar las decisiones importantes solamen-
te
11,12
. Un estudio reciente recomienda hasta tres o cuatro
preguntas por caso para asegurar una adecuada confiabili-
dad
6
. El formato de las preguntas puede variar desde EOM
a respuestas abiertas cortas (ver Tabla 3). Otro formato po-
sible es el de seleccin de un lista larga de opciones (exten-
ded-matching questions). En este formato, las preguntas
ofrecen una lista de opciones de la que el examinado debe
elegir las respuestas apropiadas. Es muy flexible y permite
construir un puntaje de manera sencilla. Tambin es posible
penalizar las decisiones que puedan poner en riesgo la vida
del paciente o que sean altamente inadecuadas.
Puede aplicarse tanto en forma escrita como electrnica.
Confiabilidad y validez: de acuerdo a varios estudios, el
ndice de confiabilidad vara entre 0,6 y 0,80 y se ha de-
mostrado su validez para medir las habilidades de resolu-
cin de problemas
11,12
.
Impacto educacional: son aceptadas tanto por estudian-
tes como por docentes, como un buen escenario de simu-
lacin con lpiz y papel. La construccin de un caso de
puntos clave puede ser trabajosa e insumir varias horas,
ya que son necesarios varias preguntas para producir ex-
menes con confiabilidad aceptable
11,12
.
NIVEL DE DEMUESTRA CMO
EXAMEN ORAL (EL CASO LARGO)
Incluye una variedad de tcnicas que estimulan al alumno
a demostrar el razonamiento usado en la prctica profe-
sional, en general como respuesta a las preguntas del do-
cente
14
. Los exmenes orales tienen una larga tradicin
en medicina. El ms tradicional es el llamado caso largo o
extenso. Este mtodo ya fue mencionado y descrito por
Flexner en su famoso informe como el que mejor evala
las competencias clnicas de los estudiantes de grado. Prc-
ticamente, desde entonces su estructura no ha variado y es
utilizado universalmente, aunque en los ltimos aos ha
sido desplazado por el ECOE
3
como evaluacin sumativa
final de la carrera de medicina.
El caso largo consiste en que el examinado debe entrevistar
y examinar a un paciente, en la mayora de los casos inter-
nado, en general sin ser observado, durante un tiempo que
oscila entre 30 y 45 minutos. Luego el examinador le pide
que le reporte sus hallazgos y se establece una serie de pre-
guntas basadas en hipotticos casos cortos u otros conteni-
dos no relacionados con el caso, a criterio del examinador.
Confiabilidad: presenta dos problemas que casi los han
inhabilitado para la evaluacin sumativa: falta de confia-
bilidad inter-observador y, sobre todo, falta de confiabili-
dad inter-casos. Es claro que, debido a que el acuerdo en-
tre dos observadores es diverso, la confiabilidad inter-ob-
59 Mtodos de evaluacin de las competencias Durante E.
servador es baja. Esto se debe sobre todo a lo que se des-
cribe como estilos de calificar duros o blandos (dove/
hawk, en ingls). El principal problema es que el caso lar-
go evala en profundidad un solo caso y amenaza seria-
mente la confiabilidad inter-casos. Como ya fue descrip-
to, la competencia en un caso no la predice en otros, an
cuando sean similares
6,14
. Por lo tanto, es necesario au-
mentar el nmero para mejorar la confiabilidad inter-ca-
sos. Un estudio demuestra que para mejorar la confiabili-
dad inter-casos es necesario que el estudiante sea evalua-
do con 10 casos largos para alcanzar un ndice alfa de
Cronbach de 0,8. En este caso, se asumi que diferentes
pares de observadores evaluaran a los estudiantes, por lo
que tambin se obtuvo una amplia muestra de los juicios
de los observadores. Tericamente y de acuerdo a las con-
clusiones de ese trabajo, es posible alcanzar una adecuada
confiabilidad inter-casos e inter-observadores cuando el
estudiante es expuesto a por lo menos 10 casos, siempre y
cuando se cuente con la logstica y el nmero suficiente
de pacientes y examinadores
14.
Dadas las restricciones logsticas imperantes, las faculta-
des de medicina tradicionalmente evalan a sus estudian-
tes con un solo caso.
Validez e impacto educacional: la aproximacin al
mundo real, por lo menos del paciente internado, y su
amplia aceptacin entre los mdicos, le otorgan una alta
validez de primera impresin (face validity), su princi-
pal fortaleza. Aproxima al examinado a las tareas reales
con los pacientes. Sin embargo, la validez de constructo
no est suficientemente estudiada as como tampoco su
impacto educacional. Es posible que la evaluacin con
pacientes reales a travs de los casos largos tenga dife-
rentes consecuencias sobre el aprendizaje y el estudio,
comparado con el ECOE.
EL EXAMEN CLNICO OBJETIVO Y ESTRUCTURADO
(ECOE)
El ECOE fue introducido hace treinta aos como una aproxi-
macin confiable para la evaluacin de las habilidades cl-
nicas
3
. Es una prueba con formato flexible, basado en un
circuito de pacientes en las llamadas estaciones. En cada
estacin, los examinados interactan con un paciente simu-
lado o estandarizado, para demostrar habilidades especfi-
cas. Los pacientes simulados o estandarizados, son perso-
nas entrenadas para representar problemas de los pacientes
de una manera real. Este tipo de pacientes son valiosos so-
bre todo para evaluar las habilidades para entrevistar. Las
estaciones pueden ser cortas (5 minutos) o largas (15 minu-
tos), simples (evala un solo problema por vez) o dobles (la
segunda evala otros conocimientos luego de haber entre-
vistado un paciente en la primera, por ejemplo).
En cada estacin, un observador pone un puntaje de acuer-
do a una lista de cotejo o escala global previamente dise-
ada y validada. Los observadores son entrenados en el
Tabla 3. Ejemplo de un problema basado en puntos clave. TA, tensin arterial; BMI, body mass index (ndice de masa corporal).
Marta tiene 57 aos. Hace 8 aos que no menstra. Es la primera vez que lo consulta. Viene a hacerse un control. Su marido falleci
en un accidente hace 3 aos. Vive sola. Ahora hace tres meses que est de novia. Esto la ha motivado para intentar bajar de peso.
Hace dos meses ha iniciado una dieta y camina ida y vuelta al colegio en donde da clases (queda a 20 cuadras). Ya baj 3 kg. Su
padre muri de un infarto a los 72 aos. Su madre an vive y es sana. Sus hermanos y sus dos hijos tambin son sanos. Fum 10
cigarrillos por da desde los 20 hasta los 40 aos.
El registro de enfermera le informa: TA 160/90; BMI 27 kg/m
2
.
Trae laboratorios de hace 6 meses, que muestran: glucemia de 200 mg/dL, triglicridos 150, HDL 40 mg/dL, colesterol total de 240.
Luego del interrogatorio usted le vuelve a controlar la TA y encuentra: 140/85. El resto del examen fsico es normal.
En relacin a este caso seleccione los problemas que presenta la paciente:
(puede seleccionar varias opciones, pero atencin, las elecciones errneas pueden disminuir el puntaje).
Elevacin de la glucemia en ayunas
Alto riesgo cardiovascular
Moderado riesgo cardiovascular
Bajo riesgo cardiovascular
Hipertensin arterial
Registro de tensin arterial elevado
Dislipemia
Diabetes
BMI elevado
Sedentarismo
Ex tabaquista de 10 aos/pack
Ex tabaquista de 20 aos/pack
Rev. Hosp. Ital. B.Aires Vol. 26 N 2, agosto 2006 60
uso de esas escalas, quienes pueden ser profesionales o
los mismos pacientes simulados entrenados.
Confiabilidad: la confiabilidad inter-observador es alta y
vara entre 0,62 y 0,99 en diferentes publicaciones
12,14
. Este
nivel se explica sobre todo por el uso de listas de cotejo y
escalas globales y el entrenamiento de los observadores.
La confiabilidad intercasos es baja, como en cualquier prue-
ba, si el nmero de casos es bajo (se mide en nmero de
horas ya que la duracin de las estaciones puede variar).
Sin embargo, se demostr que mejora cuando se aumenta
el tiempo de duracin de ECOE. Para un ECOE de 4 horas
se reconoce una confiabilidad intercasos de 0,8
12,14
.
Validez: sin duda, tiene una alta validez de primera im-
presin (face validity) dada la seduccin que la realidad
simulada ofrece.
La validez de contenido para la evaluacin de competen-
cias clnicas ha sido demostrada en varios estudios. El
uso de estaciones cortas permite la evaluacin de mu-
chos aspectos por hora de examen, pero limita la inclu-
sin de casos complicados. Esto puede atentar contra la
validez de contenido.
La validez de constructo tambin ha sido demostrada a
travs de estudios que muestran puntajes ms altos en
estudiantes de medicina de primero a cuarto aos. Sin
embargo, hay algunos estudios que muestran que la co-
rrelacin entre los puntajes del ECOE y pruebas escritas
de conocimiento es alta (0,72), sugiriendo que, si bien
no miden los mismos dominios, el ECOE aportara poca
discriminacin cuando se aplican las dos pruebas secuen-
cialmente. La evidencia que soporta la validez de crite-
rio no es tan robusta
12,14
.
Impacto educacional: no es sorprendente que la adicin
de evaluacin de habilidades clnicas en forma sistemati-
zada tenga un impacto positivo en el estilo de aprendizaje
de los alumnos y en el diseo del currculo.
Costo: sin duda, una de las mayores limitaciones, debido
al costo directo as como el invertido en la implementa-
cin. Depende del nmero de estaciones y del tipo de en-
cuentros que se planifiquen: nmero de pacientes simula-
dos, tipo de observadores, etc.
Fortalezas
12
:
1. Una amplia gama de habilidades para un relativo am-
plio nmero de alumnos puede ser evaluada en relati-
vamente poco tiempo.
2. El uso de escalas predeterminadas asegura cierta ob-
jetividad.
3. La variabilidad del paciente y el observador es dismi-
nuida al mximo, a diferencia de los casos largos.
4. Puede ser usado para fines formativos o sumativos.
5. El formato es flexible: nmero y duracin de las esta-
ciones, circuitos paralelos, rango de competencias a
ser evaluadas etc.
Debilidades
12
:
1. A menudo, las estaciones solicitan que los alumnos de-
muestren habilidades aisladas del encuentro clnico.
2. El ECOE se asienta sobre el uso de listas de cotejo que
ponen el nfasis en la evaluacin exhaustiva y paso
por paso de la habilidad, lo que puede atentar contra la
evaluacin del resultado del desempeo global y su
relevancia.
3. Las limitaciones sobre lo que puede ser simulado aco-
ta el tipo de pacientes que puede ser presentado en las
estaciones.
4. Logstica y costo.
NIVEL DE HACE:
LA OBSERVACIN DIRECTA (EL Mini-CEX)
1,5
Intuitivamente, evaluar a los estudiantes observndolos
en accin es atractivo. En los ambientes clnicos, los
docentes evalan el progreso de los alumnos observn-
dolos con los pacientes, a menudo, resumiendo sus ob-
servaciones en una escala global al final de un perodo
de formacin, por otra parte de dudoso valor. La evalua-
cin del desempeo de los alumnos con pacientes reales
a travs de la observacin puede ser realizada de varias
maneras: el observador puede estar fsicamente presente
en el consultorio, observar desde un lugar contiguo a tra-
vs de un espejo o de cmaras de video u observar un
video de la entrevista. Esta decisin depende de los ob-
jetivos de la evaluacin: presencia en caso de maniobras
del examen fsico o cirugas, cmaras o video-grabacio-
nes para las habilidades de entrevista clnica. El obser-
vador debera recolectar informacin a travs de una lis-
ta de cotejo o una escala global que le permita dar feed-
back sobre el desempeo con el propsito de mejorarla.
Un problema con este tipo de observaciones es que los
estndares usados para los casos pueden variar porque
en general un solo experto observa el encuentro entre el
examinado y el paciente y los expertos rara vez estudian
los casos en profundidad.
Confiabilidad: un estudio concluy que se necesitan al
menos diez observaciones estructuradas al ao para obte-
ner resultados reproducibles de competencia clnica con un
instrumento estructurado
1,5
. Probablemente, el mayor pro-
blema en la evaluacin de las habilidades clnicas es la falta
de observacin por parte de los docentes a los residentes.
Por otra parte, existe en general demora entre la observa-
cin y la trascripcin de las calificaciones obtenidas en el
encuentro. La demora introduce error en las calificaciones.
Observaron que cuando los formularios no eran estructu-
rados, una frecuente caracterstica de los formularios de
evaluacin que se utilizan en la prctica clnica, los do-
centes detectaban slo el 30% de las debilidades y fortale-
zas. Las fortalezas fueron omitidas con mayor frecuencia
61 Mtodos de evaluacin de las competencias Durante E.
que las debilidades. La evaluacin de estas fortalezas y
debilidades aumentaron un 60% con los docentes que uti-
lizaban formularios estructurados
1,5
.
Existen variaciones intraobservador vinculadas a cambios
de la atencin, de perspectiva, de estndares, de humor o
de estado de nimo. Existen variaciones interobservadores.
Diferencias de criterios, de puntos de vista, de rigor son
algunas fuentes de este problema.
En conclusin, en base a lo antes expuesto se proponen
las siguientes recomendaciones
1,5
:
Los estudiantes deben ser observados en un amplio es-
pectro de situaciones clnicas y procedimientos y por
mltiples evaluadores. La bibliografa en general su-
giere al menos entre 7 a 11 observaciones para obtener
conclusiones razonables de la competencia clnica glo-
bal del estudiante o residente
14-16
.
Utilizar formularios cortos y estructurados como el
Mini CEX (ver Alves de Lima A. Claves para la eva-
luacin efectiva del residente. Rev Hosp. Ital. B.Aires,
2005; 25(3/4):107-111).
Definir claramente las consignas.
Dar tiempo para la evaluacin.
Maximizar el valor de devolucin (feed-back) como
herramienta formativa.
Solicitar la trascripcin inmediata de las calificacio-
nes luego del examen.
Complementar observaciones formales con informales.
Considerar trabajar en grupo para tomar decisiones de
promocin.
Entrenar y calibrar a los evaluadores.
Chequear los instrumentos de evaluacin.
CONCLUSIONES
Este artculo pretende resumir algunos de los aspectos ms
importantes de los mtodos de evaluacin ms frecuente-
mente utilizados en nuestro medio y dar algunas sugeren-
cias sobre su uso.
En primer lugar, no hay un solo tipo de mtodo de evalua-
cin de las competencias que sea intrnsecamente supe-
rior. Esta afirmacin tal vez vaya en contra de mucha lite-
ratura sobre el tema y sobre lo que a menudo se piensa en
los ambientes docentes.
Un segundo punto es que, en el caso de los mtodos escri-
tos, los formatos de respuesta tienen menos influencia so-
bre lo que est siendo medido que lo que estamos inclina-
dos a pensar. En ese sentido, deberamos poner el foco en
el formato del estmulo ms que en el formato de respues-
ta. El tipo de preguntas debera ser seleccionado de acuer-
do a sus fortalezas y debilidades. Un buen manual para
escribir preguntas puede encontrarse en el sitio de la
National Board of Medical Examiners:
http://www.nbme.org/about/itemwriting.asp#spanish.
A modo de recomendacin final, para mejorar la calidad
de nuestras evaluaciones, es necesario aumentar el nme-
ro de casos en los exmenes para asegurar una adecuada
confiabilidad intercasos.
Otra conclusin es que un nico mtodo no puede valorar
a toda la pirmide de Miller; se necesita una combinacin
de diferentes mtodos.
Adems, no se debe olvidar el papel fundamental de la
evaluacin como orientadora del aprendizaje, por lo que
su diseo debe ser estratgico en funcin de los efectos de
aprendizaje deseados.
Agradecimientos
A la Dra. Alejandrina Lo Sasso por su apoyo y haber ofre-
cido generosamente los casos de problemas de puntos cla-
ve como ejemplos.
BIBLIOGRAFA
1. Alves de Lima A. Claves para la evaluacin
efectiva del residente. Rev Hosp. Ital. B.Aires
2005; 25(3/4):107-11.
2. Durante E. La evaluacin de los
conocimientos: lo que parece ser, es realmente
lo que es? Rev Hosp. Ital. B.Aires
2005;25(1):18-23.
3. Harden RM, Gleeson FA. Assessment of
clinical competence using an objective
structured clinical examination (OSCE). Med
Educ 1979;13(1):41-54.
4. Miller GE. The assessment of clinical skills/
competence/performance. Acad Med 1990;65(9
Suppl):S63-7.
5. Norcini JJ, Blank LL, Arnold GK, Kimball
HR. The mini-CEX (clinical evaluation
exercise): a preliminary investigation. Ann
Intern Med 1995;123(10):795-9.
6. Norman G, Bordage G, Page G, Keane D.
How specific is case specificity? Med Educ
2006;40(7):618-23.
7. Regehr G, Norman GR. Issues in cognitive
psychology: implications for professional
education. Acad Med 1996;71(9):988-1001.
8. Schuwirth LW, van der Vleuten CP. The use
of clinical simulations in assessment. Med Educ
2003;37 Suppl 1:65-71.
9. Schuwirth LW, van der Vleuten CP.
Changing education, changing assessment,
changing research? Med Educ 2004;38(8):805-
12.
10. Schuwirth LW, van der Vleuten CP.
Different written assessment methods: what can
be said about their strengths and weaknesses?
Med Educ 2004;38(9):974-9.
11. Schuwirth LW, et al. How to write short
cases for assessing problem-solving skills. Med
Teacher 1999;21(2):144-50.
12. Shannon S, Norman G. Evaluation methods:
a resource handbook. 3
rd
ed. Hamilton, Ont:
McMaster University. The Program for
Educational Development, 1995.
13. Wass V, van der Vleuten C. The long case.
Med Educ 2004;38(11):1176-80.
14. Van der Vleuten CP. The assessment of
professional competence: development,
research and practical implications. Advances
in Health Sciences Education 1996;1:41-67.