Enfoque Bayesiano en Modelos de Teoria de Respuesta Al Item

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 108

Nro.

27
SERIE B
ENFOQUE BAYESIANO EN MODELOS DE
TEORIA DE RESPUESTA AL ITEM
Jorge Bazan
Luis Valdivieso
Arturo Calderon

San Miguel, Febrero del 2010

Departamento de Ciencias
Seccion Matematica
Pontificia Universidad Catolica del Per
u
Apartado 1761
Lima-Per
u


PRESENTACION
Con el objetivo de promover el intercambio de experiencias de investigacion entre academicos nacionales e internacionales, los programas
de Posgrado en Estadstica, Matematicas Aplicadas y Matematicas de la
Pontificia Universidad Catolica del Per
u (PUCP) organizaron la I Jornada Internacional de Probabilidad y Estadstica (JIPE-2010).
La jornada conto con sesiones plenarias y conferencias a cargo de
reconocidos academicos internacionales, cinco minicursos, una sesion de
comunicaciones y presentacion de posters. Todos los trabajos fueron sujetos a la aprobacion de un comite cientfico internacional.
Pensado como el primero de una serie de eventos similares, el JIPE
se desarrollo en el campus de la PUCP del 3 al 5 de febrero del 2010.
El evento fue un proyecto ganador del premio Ulises de la Escuela de
Posgrado de la PUCP instituido para promover la internalizacion de sus
programas. El evento ha contado tambien con el apoyo de la Seccion
Matematicas del Departamento de Ciencias.
En este reporte se presenta el material utilizado en uno de los minicursos ofrecidos en el evento. Agradecemos a los autores por su esfuerzo y
contribucion desinteresada por promover el area y difundir los resultados
de sus investigaciones.

Comite Cientfico JIPE-2010


Comite Organizador JIPE-2010

Indice general
1. Introducci
on

2. Modelos TRI binarios unidimensionales tradicionales


2.1. Modelos de variables latentes . . . . . . . . . . . . . . .
2.2. Formulacion general de la TRI . . . . . . . . . . . . . .
2.3. Casos particulares . . . . . . . . . . . . . . . . . . . . .
2.4. El modelo TRI con enlace logit . . . . . . . . . . . . . .
2.5. Caractersticas de los modelos TRI . . . . . . . . . . . .
2.5.1. Sobreparametrizacion de parametros . . . . . . .
2.5.2. Presencia de parametros incidentales . . . . . . .
2.5.3. Identificabilidad . . . . . . . . . . . . . . . . . .
2.6. Relacion de la TRI con la TCT . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

3. Inferencia Bayesiana
3.1. Funcion de verosimilitud . . . . . . . . . . . . . . . . . . .
3.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . .
3.2.1. Ejemplo 1: Un intervalo para una proporcion . . .
3.2.2. Ejemplo 2: Inferencia para una distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Metodos de MCMC . . . . . . . . . . . . . . . . . . . . .
4. Las prioris en TRI
4.1. Nociones basicas . . . . . . . . . . . . . . . . . . . . .
4.2. Prioris no informativas para el modelo TRI de 1 y
parametros . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Prioris no informativas para los modelo TRI de 1 y
parametros con puntajes extremos . . . . . . . . . . .
i

5
5
7
9
10
11
11
11
11
13
16
16
16
18
21
22

27
. . 27
2
. . 30
2
. . 32

5. Inferencia Bayesiana en TRI


5.1. La distribucion a posteriori en TRI . . . . . . . . . . . . .
5.2. Inferencia Bayesiana en el modelo de ojiva normal . . . .
5.2.1. Especificacion del modelo . . . . . . . . . . . . . .
5.2.2. Esquema MCMC usando adaptative rejection sampling (ARS) . . . . . . . . . . . . . . . . . . . . . .
5.2.3. Una formulacion adecuada para el modelo TRI de
ojiva normal . . . . . . . . . . . . . . . . . . . . .
5.2.4. MCMC usando un esquema de data augmentation
Gibbs sampling (DAGS) . . . . . . . . . . . . . . .
5.3. Criterios de comparacion de modelos en el contexto Bayesiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

35
35
36
36

6. Aplicaciones
6.1. Analisis de una escala de percepcion de peso . . . . . . . .
6.2. Analisis de una prueba de Matematicas . . . . . . . . . .
6.2.1. Comparando varios modelos TRI para los datos de
la prueba de Matematicas . . . . . . . . . . . . . .
6.2.2. Analisis de sensibilidad usando diferentes prioris
para a y b en el modelo 2P . . . . . . . . . . . . .
6.2.3. Inferencia e interpretacion de los parametros en el
modelo 2P . . . . . . . . . . . . . . . . . . . . . . .

44
44
52

7. Extensiones y comentarios finales


7.1. Modelos TRI con enlaces asimetricos . . . . .
7.1.1. El modelo de ojiva normal asimetrico
7.1.2. Los modelos LPE y RLPE . . . . . . .
7.2. Modelos TRI bajo restricciones de rapidez .
7.3. Comentarios finales . . . . . . . . . . . . . . .

65
66
66
68
70
72

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

37
38
38
40

53
55
60

A. Inferencia Bayesiana en TRI usando WinBUGS


73
A.1. Codigo WinBUGS para esquema Gibbs Sampling . . . . 73
A.2. Codigo WinBUGS para esquema ARS . . . . . . . . . . . 74
ii

B. Un Tutorial de WinBUGS para TRI


76
B.1. Fase 1: Definir el modelo . . . . . . . . . . . . . . . . . . . 76
B.2. Fase 2: Parametros para la simulacion . . . . . . . . . . . 82
B.3. Fase 3: Evaluacion de las cadenas generadas . . . . . . . . 86

iii

Introducci
on

Un modelo de variable latente es un modelo estadstico que relaciona un conjunto de variables (las llamadas variables manifiestas) con
un conjunto de varibles latentes. En general se asume que las respuestas
en los indicadores o variables manifiestas son el resultado de la posicion individuo en la variable o variables latentes consideradas y que las
variables manifiestas no tienen nada en com
un despues de controlar la
variable latente, aspecto conocido como independencia local. Para una
mayor comprension acerca de las variables latentes puede revisarse Borsboom, Mellenbergh y van Heerden (2003).
Como proponen Bartholomew y Knoot (1999), existen diferentes
tipos de modelos de variables latentes dependiendo si las variables manifiestas y latentes son categoricas o continuas. As por ejemplo, cuando
ambas son continuas tenemos el modelo de Analisis Factorial, cuando
ambas son categoricas tenemos los modelos de clase latente. Cuando las
variables manifiestas son continuas y las latentes son categoricas tenemos
el modelo de analisis de perfiles latentes y de manera inversa, cuando las
variables latentes se asumen continuas y las manifiestas discretas tenemos los modelos de rasgos latentes.
Dos de los mas importantes modelos de rasgos latentes en orden
historico son la teora clasica de los test (TCT) (ver por ejemplo, Lord y
Novick, 1968) y la teora de la respuesta al item (TRI) (ver por ejemplo,
Baker, 1992). Estos modelos se emplean principalmente para el analisis
de datos de indicadores o variables manifiestas obtenidas en procesos de
medicion y o evaluacion en los que lo que se pretende medir no puede
observarse directamente o es subyacente a estos indicadores y por tanto
es conceptualizado como una variable latente.
Historicamente estos modelos han sido desarrollados en el ambito
de la Psicometra pero actualmente y especialmente la TRI es un area
importante y creciente no solo en Estadstica si no en areas de Computacion y Probabilidad debido a la importante cantidad de problemas que
1

se plantean con el desarrollo y aplicaciones crecientes de esta clase de


modelos. La importancia del estudio de los modelos TRI subyace tambien en sus m
ultiples aplicaciones crecientes a campos tan diversos como
la Educacion, la Psicologa, la Poltica, la Sociologa, la Economa, la
Medicina, el Marketing, la Ingeniera Genetica entre otras.
Una clase particular de modelos de TRI, son aquellos en las que
las variables manifiestas categoricas son representadas en una matriz de
respuestas dicotomicas o binarias (exito y fracaso) y la variable latente
es una sola. Un modelo como este se denominada de TRI binario unidimensional. En el Per
u, uno de estos modelos, el denominado modelo
de Rasch, es usado por el Ministerio de Educacion para reportar el rendimiento escolar peruano en pruebas nacionales e internacionales. Otros
ejemplos de uso que se pueden citar son, aquel donde las variables manifiestas describen si los postulantes a un examen responden bien o no a sus
distintas preguntas y lo que se pretende evaluar es una determinada habilidad cognitiva como el desempe
no matematico; si diferentes proyectos
de inversion satisfacen o no ciertos criterios y lo que se pretende es generar un ranking de proyectos basado en una variable latente subyacente
ae estos indicadores que puede ser denominada calidad del proyecto; si
los pacientes presentan o no ciertos sntomas donde la variable latente es
la condicion de salud relacionada con la enfermedad suyacente, etc. En
todos estos casos, las variables manifiestas son denominadas de manera
generica como tems.
Si bien a nivel internacional existe un gran desarrollo en la investigacion y aplicacion de los modelos de TRI y algunas textos estadsticos
importantes han sido escritos para la presentacion de estos modelos como
Baker (1992) y Andrade, Tavares y Valle (2000) as como importantes
trabajos compilatorios aparecen en van der Linden y Hambleton (1997)
y Fischer y Molenaar (1995), existen pocos textos que tengan un tratamiento estadstico de los modelos TRI binarios unidimensionales. Un
esfuerzo en esa lnea ha sido desarrollado recientemente por Bazan, Valdivieso y Calderon, (2008). En el presente trabajo, continuando en esa
direccion, presentamos el siguiente documento desarrollado en el marco
2

de la I Jornada Internacional de Probabilidad y Estadstica, JIPE 2010.


En este documento, que puede ser considerado una segunda version
del anterior, presentaremos los principales modelos TRI binarios unidimensionales a los que podemos denominar modelos TRI tradicionales.
Estos modelos son denominados en la literatura como modelos modelos
de 1, 2 y 3 parametros dependiendo de cuantos parametos se asocian al
comportamiento de los items o variables manifiestas e incluyen aquellos
donde se emplea un enlace logit o probit entre la probabilidad de acertar un tem y el predictor latente que contiene la variable latente y los
parametros de tem.
Nuestra propuesta es realizada desde la perspectiva de la Inferencia Bayesiana, corriente que ha tenido u
ltimamente un gran desarrollo
como consecuencia del uso de los denominados metodos MCMC (Markov Chain Monte Carlo, por sus siglas en ingles). Dado que los metodos MCMC son computacionalmente intensivos hemos querido tambien
complementar nuestra propuesta presentando los programas de software
libre Bayes@PUCP y WinBUGS, el primero de los cuales esta siendo
actualmente desarrollado por los autores en el marco de un proyecto de
investigaci
on de la Direccion Academica de Investigacion de la Pontificia
Universidad Catolica del Per
u.
El resto del documento esta organizado de la siguiente manera. En el
captulo 2 presentaremos los modelos de TRI binarios unidimensionales
tradicionales. En el captulo 3 se hara una breve revision de la Inferencia Bayesiana y de los metodos MCMC. En el captulo 4 se presenta
una importante discusion del uso de prioris en modelos de TRI. En el
captulo 5 se estudia la Inferencia Bayesiana del modelo de TRI binario
unidimensional, con especial enfasis en el modelo con enlace probit. En
el captulo 6 se muestran dos aplicaciones, una en la que se emplea un
modelo TRI binario con enlace logit y se compara con resultados obtenidos bajo TCT y otra que muestra una aplicacion de los modelos TRI
para el estudio de una prueba de Matematicas haciendo uso de los softwares Bayes@PUCP y WinBUGS. En el captulo 7 daremos una breve
introduccion a algunas de las posibles extensiones de los modelos TRI
3

binarios unidimensionales tradicionales y referencias de investigaciones


actualmente desarrolladas para estos modelos. Culminaremos este trabajo presentando, como apendice, un breve tutorial del uso de WinBUGS
para la Inferencia Bayesiana en un modelo TRI.
A lo largo de este documento representaremos a la funcion de probabilidad y/o densidad de un elemento aleatorio Y con la letra f o fY si se
necesita enfatizar la dependencia de Y . Denotaremos tambien en negrita
y con may
usculas a las secuencias o vectores aleatorios, solo en may
usculas a las variables aleatorias y en min
usculas a los valores observados de
estos elementos aleatorios.

2.1

Modelos TRI binarios unidimensionales


tradicionales
Modelos de variables latentes

Definici
on 2.1.1. Definimos un modelo latente como el par ordenado
(Y, U), donde la secuencia aleatoria Y = (Y1 , Y2 , Y3 , . . .) y el vector
aleatorio U = (U1 , U2 , . . . , Um ) contienen a las denominadas variables
manifiestas y latentes, respectivamente.
Una variable es considerada latente en el sentido que no es empricamente observable y manifiesta en caso contrario. En general, los modelos
de variables latentes se formulan con el proposito de conocer las principales caractersticas de U en base al conocimiento de Y.
Definici
on 2.1.2. Un modelo latente (Y, U) se dice que satisface:
La independencia condicional, si la distribucion condicional de cualquier subconjunto de Y dado U = u puede expresarse como el
producto de las distribuciones marginales condicionales de Y dado
U = u, para todo de u Rm . En este caso diremos que el modelo
es condicionalmente independiente.
La monotonicidad, si
1 P (Yi y|U = u) = P (Yi > y|U = u)

(2.1)

son funciones no decrecientes de u Rm , para cualquier y R e


i N+ . En este caso diremos que el modelo es mon
otono.
La unidimensionalidad, si U es una variable aleatoria unidimensional; es decir, con m = 1. En este caso diremos que el modelo es
unidimensional.
5

Definici
on 2.1.3. Un modelo latente (Y, U) se denomina condicionalmente mon
otono si satisface la independencia condicional y la monotonicidad. Si ademas el modelo es unidimensional se dice que (Y, U) es un
modelo condicionalmente mon
otono unidimensional o que admite una
representaci
on mon
otona unidimensional.
Proposici
on 2.1.1. Considere un modelo mon
otono unidimensional
(Y, U ) en donde cada Yi |U = u toma tan solo dos posibles valores: uno
llamado exito con probabilidad u y el otro llamado fracaso con probabilidad 1 u, siendo 0 < u < 1. Entonces existe una u
nica distribuci
on
para U , dada por G, tal que toda distribuci
on finito dimensional de Y
puede representarse por:
Z Y
f (y) =
uyi (1 u)1yi dG(u),
i

donde los yi denotan a las componentes del vector finito dimensional y.

Demostraci
on. La existencia esta garantizada por el teorema de representacion de De Fineti (Schervish, 1995) que indica que esto ocurre si
todos las componentes de Y son una secuencia infinita permutable (las
variables independientes e identicamente distribuidas lo son) siendo
G(u) = lm P (Sn u)
n

con
Sn = Y1 + Y2 + . . . , Yn

Sn
.
n n

u = lm

Dado que cada Yi |U sigue una distribucion de Bernoulli, toda distribucion conjunta finito dimensional de Y condicionada a U , resulta
ser
Y
f (y|U = u) =
uyi (1 u)1yi
i

y consecuentemente su distribucion marginal viene dada por


Z
f (y) = f (y|U = u)dG(u).

Algunas resultados adicionales para esta clase general de modelos


latentes se pueden revisar en Holland y Rosenbaum (1986).

2.2

Formulaci
on general de la TRI

Definici
on 2.2.1. Considere n sujetos evaluados en una prueba de k
items. Un modelo de Teora de Respuesta al item, o por brevedad modelo
TRI, binario unidimensional es un sistema en el que para cada sujeto i
se tiene un modelo de variable latente mon
otono unidimensional (Y, Ui )
definido por las expresiones:
Yij |ui , j Bernouilli(pij )

(2.2)

pij = P (Yij = 1 | ui , j ) = F (mij )

(2.3)

mij = aj (ui bj ),

(2.4)

i = 1 . . . , n, j = 1, . . . , k
donde
Yij es la variable manifiesta que modela la respuesta binaria del
sujeto i que responde al tem j.
j = (aj , bj ) son parametros que representan, respectivamente, a
la discriminacion y la dificultad del tem j.
ui es el valor de la variable latente Ui para el sujeto i, que podramos
interpretarla como la habilidad del sujeto i.
7

pij es una probabilidad condicionada a que Ui = ui .


F se denomina la curva caracterstica del item (CCI) y
mij es un predictor latente lineal en relacion a la habilidad del
sujeto i.

Observaciones
El modelo TRI satisface la propiedad de independencia condicional
latente ; es decir, para un sujeto i las respuestas Yij a los diferentes
items son condicionalmente independientes dada la variable latente
Ui , i = 1 . . . , n.
El modelo TRI satisface la propiedad de monotonicidad latente ,
pues es una funcion estrictamente no decreciente de Ui ,i = 1 . . . , n.
El modelo TRI es unidimensionalmente latente .
En la TRI, F (mij ), donde i = 1 . . . , n y j = 1, . . . , k, es la misma
para cada caso y F 1 (.) es llamada la funcion de enlace.
Se asume tambien independencia entre las respuestas de los distintos sujetos.
Los parametros de dificultad bj y de discriminacion aj representan
la posicion e inclinacion del item j, respectivamente, siendo aj un
valor proporcional a la inclinacion de la CCI en el punto bj . Valores
aj < 0 no son esperados. El espacio parametrico para el parametro
bj es arbitrario y corresponde al mismo que para ui que por lo
usual se toma como la recta real.

Otra parametrizacion muy com


un para el predictor lineal latente
es mij = aj ui bj . Esta parametrizacion es muy importante desde el
punto de vista computacional ya que es facilita el tiempo computacionl
8

de convergencia. Cuando se usa esta parametrizacion, la dificultad en


b
(2.4) puede obtenerse haciendo ajj en el resultado obtenido con esta
parametrizacion. En general, esta es la parametrizacion preferida en la
Inferencia Bayesiana.

Proposici
on 2.2.1. En un modelo TRI binario, la densidad conjunta
del vector de respuestas multivariantes Y = (Y 1 , . . . , Y n )0 , con Yi =
(Yi1 , . . . , Yik ), dado el vector de variables latentes U = (U1 , . . . , Un )0 y
el vector de par
ametros de los tems = (1 , . . . , k )0 puede ser escrito
como:
f (y|u, ) =

n Y
k
Y

F (mij )yij (1 F (mij ))1yij

(2.5)

i=i j=1

Demostraci
on. La prueba es directa por la independencia condicional
latente.

El primer modelo TRI binario fue introducido por Lord (1952) con
una CCI dada por F (x) = (x), siendo la funcion de distribucion
acumulada de una variable normal estandar. Este modelo es conocido
en la literatura psicometrica como un modelo de ojiva normal el cual
corresponde, en el contexto de los modelos lineales generalizados, a una
funcion de enlace probit. Por otro lado, Birbaum (1968) considero una
ex
CCI dada por F (x) = L(x), donde L(x) = 1+e
on
x denota a la funci
de distribucion acumulada de una variable logstica. Esta induce, en el
lenguaje de los modelos lineales generalizados, a una funcion de enlace
logit. Este modelo es conocido como el modelo logstico.

2.3

Casos particulares

El modelo (2.2) admite diversas formulaciones, las cuales dependen


basicamente de como se considere la CCI. En su version mas simple
9

podramos tomar aj = 1 y considerar una CCI de la forma


P (Yij = 1 | ui , bj ) = F (ui bj ).

(2.6)

Este es llamado un modelo TRI de un parametro.


De manera mas general podramos considerar una CCI de la forma

P (Yij = 1 | ui , aj , bj , cj ) = cj + (1 cj )F (aj (ui bj )),

(2.7)

donde el parametro cj [0, 1] representa la probabilidad de que un


individuo con mnima habilidad responda correctamente al item j y F
es una funcion de distribucion. Este es conocido como el modelo TRI de
tres parametros. De tomarse cj = 0, el modelo se reduce al denominado
modelo TRI de dos parametros.

2.4

El modelo TRI con enlace logit

El modelo TRI con enlace logit o modelo logstico es el modelo


probablemente mas usado en TRI. La version de tres parametros para
este modelo establece que (2.3) viene dada por:

P (Yij = 1|ui , aj , bj , cj ) = cj + (1 cj )

1
1+

eDaj (ui bj )

(2.8)

donde por lo usual se asume que D = 1 aunque algunos autores consideran tambien el valor D = 1.7 a fin de aproximar este modelo a uno
de ojiva normal. Como casos particulares se tiene
P (Yij = 1|ui , aj , bj ) =

P (Yij = 1|ui , bj ) =

10

1
1+

eDaj (ui bj )

1
1 + eD(ui bj )

(con cj = 0) y

(con cj = 0 y aj = 1).

Al u
ltimo modelo de un parametro, se le conoce tambien como el modelo de Rasch y tiene derivaciones propias (vease por ejemplo Fischer y
Molenaar, 1995).

2.5
2.5.1

Caractersticas de los modelos TRI


Sobreparametrizaci
on de par
ametros

Una de las caractersticas mas saltantes de los modelos TRI es que


estan sobreparametrizados, el modelo de 3 parametros por citar tiene
n + 3k par
ametros desconocidos. Ello hace, como es de esperarse, que
la inferencia en estos modelos sea intensiva computacionalmente. Note
que a mayor tama
no de muestra y mayor n
umero de tems aumenta el
n
umero de parametros a ser estimados.

2.5.2

Presencia de par
ametros incidentales

Es bastante conocido que los estimados de parametros estructurales no son necesariamente consistentes cuando son estimados de manera
conjunta con parametros incidentales (Neyman y Scott, 1948). En TRI,
para un n
umero fijo de tems, los parametros de los tems son denominados estructurales mientras los parametros de la variable latente son
considerados incidentales debido a que el n
umero de parametros de la
variable latente se incrementa si se incrementa el n
umero de respondientes. Debemos llamar la atencion que el procedimiento de estimacion
conjunta por maxima verosimilitud es un metodo frecuente en la estimacion del modelo de Rasch, y se encuentra implementado en el software
Winstep y como es de esperarse tiene resultados no consistentes frente
a otros metodos como ha sido mostrado por Chincaro y Bazan (2010).

2.5.3

Identificabilidad

Un parametro se dice identificado si distintos valores del parametro


implican diferentes distribuciones de probabilidad para los datos. Un
11

modelo es identificado si todos sus parametros son identificados. Sin


embargo, como indica Rivers (2003) cualquier hipotesis acerca de la no
identificabilidad de un parametro no se puede probar.
Sin embargo en TRI, puede notarse que el predictor lineal en (2.4)
puede escribirse como

aj (ui bj ) =

aj
[(40ui + 200) (40bj + 200)] = aj (ui bj ).
40

As, la verosimilitud con ui , aj y bj es la misma que con


ui = 40ui + 200, aj =

aj
y bj = 40bj + 200.
40

De esta manera, los parametros del modelo no pueden ser estimados de


manera u
nica a menos de que se impongan ciertas restricciones. En este
caso distintas combinaciones de valores de los parametros no necesariamente implican diferentes distribuciones de probabilidad para los datos.
Notese sin embargo que la probabilidad de que un individuo responda
correctamente a cierto tem es siempre la misma, independientemente de
la escala utilizada para los parametros del modelo. Aunque deseable como indica Rivers (2003), identificacion es un requerimiento debil para la
estimacion en el sentido de ser una condicion necesaria pero no suficiente
para la existencia de buenos estimadores.
Dada las caractersticas de este tipo de modelos enunciadas, el problema de ajustar los parametros del modelo es por tanto bastante complejo. Desde un punto de vista clasico la solucion mas utilizada es enfrentar el problema dividiendolo en dos etapas. En una primera etapa,
denominada de calibraci
on, se asume una distribucion aleatoria conocida
para las variables latentes U y se estiman los parametros de tem usando
una muestra de calibracion. En una segunda etapa, denominada de
estimaci
on, se asumen conocidas las estimaciones de los parametros de
los temes y se estiman las variables latentes para la muestra de estudio.
Con esto el problema de sobreparametrizacion disminuye y el problema
12

de estimacion de parametros incidentales se evita. Esta es la estrategia


denominada por Patz y Junker (1989) como la de divide y conquistaras
se aplica cuando se obtienen estimativas de Maxima Verosimilitud Marginal va un algoritmo EM donde es com
un imponer restricciones para
los parametros de temes como los considerados por ejemplo en Bock y
Aitkin (1981) aspecto que permite que el problema de identificabilidad
sea evitado. Este metodo de estimacion es bastante usado y se encuentra implementado en softwares como Conquest y BILOG M G y en la
librera ltm de R.
Desde la perspectiva bayesiana, que es la que nos interesa en este
documento, la sobreparametrizacion se mantiene y por tanto el tiempo
computacional es generalmente mayor que la estrategia anterior debido
a la necesidad de estimar mas parametros de manera conjunta. Pero la
estimacion conjunta resulta conveniente porque refleja mejor el problema
original de la TRI que es estimar las caractersticas individuales y de los
temes de manera simultanea y completa. Adicionalmente, en la inferencia bayesiana la distincion entre parametros incidentales y estructurales
carece de sentido pues tanto los parametros de tem como de sujetos son
tratados como variables aleatorias y la incertidumbre acerca de su valor
es recogida por una especificacion de una distribucion a priori para ellas.
Finalmente el problema de identificabilidad tambien es resuelto considerando la especificacion de distribuciones a priori para los parametros del
modelo TRI binario unidimensional porque estas prioris puede proporcionar un origen o punto cero, una metrica y una direccion. Un analisis
de las condiciones de las prioris en TRI para obtener distribuciones a
posteriori propias f (u, |y) se estudiara en el subsiguiente captulo.
2

2.6

Relaci
on de la TRI con la TCT

Como ha sido mencionado en la introduccion otro modelo de rasgos


latentes, historicamente anterior a la TRI, para el estudio de tests o
pruebas es la teora clasica de los test (TCT) y que se basa en el modelo
lineal de Spearman ampliamente documentado por Lord y Novick (1968),
13

ver tambien por ejemplo Bazan (2004). En la TCT, el modelo usado se


basa en la ecuacion:
Si = Ui + i ,
Pk
donde Si = j=1 Yij es la puntuacion total (score) o puntaje observado
obtenido por el individuo i para una prueba de k temes, Ui es el rasgo
latente o puntaje verdadero medido por el test y i es el error aleatorio
asociado al individuo i. Otra forma como es conocida esta teora es teora
del puntaje verdadero o teora de error latente.
En la TCT una tarea complementaria e importante es el analisis
clasico de temes, que se apoya principalmente en dos indicadores de
amplio uso que pueden ser revisados en Lord y Novick (1968):
1. La proporcion de respuesta positiva o probabilidad emprica en el
tem j:
\
pbj = P (Y
ij = 1).
2. La discriminacion clasica del tem, denotada por dj , que nos indica
la capacidad del tem para discriminar entre casos con alto y bajo
nivel del rasgo latente medido por los k temes de la prueba. Hay
varias alternativas para dj , siendo la mas usada
dj = pbA
bB
j p
j ,
donde pbA
on de respuesta positiva en el tercio superior
j es la proporci
on de
de la distribucion de los puntajes totales y pbB
j es la proporci
respuesta positiva en el tercio inferior, indicador que es usado en
el captulo de aplicaciones. Otra alternativa es la correlacion de
Pearson entre el puntaje del tem y la puntuacion total depurada
del puntaje de este tem. Esta, que en tal contexto se denomina
la correlacion biserial puntual, no es la empleada en el captulo
empleara en este trabajo; pero vale indicar que con cualquiera de
estas medidas debe ocurrir que dj > 0 y cuanto mayor sea dj ,
mayor poder de discriminacion tendra el tem j.
14

La teora clasica tiene problemas no resueltos, a saber, el primero es


que no provee una medida de ajuste de los datos al modelo. El segundo
es que la capacidad del tem para medir el riesgo no esta en un mismo eje
con las puntuaciones o scores S de la prueba, pues en un caso se trata de
una probabilidad (emprica) y en el segundo de un puntaje total en otra
escala. Asociado con lo anterior, esta el hecho cierto que dos personas
pueden tener igual puntuacion S y sin embargo haber obtenido este
mismo valor a partir de respuestas positivas a tems correspondientes a
diferentes niveles de intensidad del rasgo medido por la prueba o test.
Los problemas mencionados son resueltos precisamente en la TRI.
Una explicacion de la TCT se encuentra en Calderon, A. (2005),
Bazan, J.L. (1997) y Lord y Novick (1968). Algunos programas libres
para el analisis de tems que, desde el punto de vista de la TCT, pueden destacarse son Vista (http://www.visualstats.org/), Openstat
(http://statpages.org/miller/openstat/) y varias libreras en R.
En la practica el analisis clasico de tems es complementario y muy
relacionado a la TRI como lo ilustraremos en el captulo 6, aplicacion 1,
donde se realiza una comparacion emprica entre la TCT y la TRI para
el analisis de una escala de percepcion de peso.

15

3
3.1

Inferencia Bayesiana
Funci
on de verosimilitud

Definici
on 3.1.1. Sea Y un vector aleatorio cuya distribucion dependa
de un parametro . Definimos la funcion de verosimilitud L para un
vector de datos observados y de Y como
L(y|) = f (y | )
La verosimilitud es la probabilidad que usted pueda encontrar el
valor observado dado el modelo.
Definici
on 3.1.2. Un estimador de m
axima verosimilitud para el parame
tro es el valor para el cual la funcion de verosimilitud L(y|) es
maxima.
La solucion de inferencia clasica consiste en maximizar L y obtener
A menudo es mas conveniente maximizar
la solucion correspondiente .
el logaritmo natural de la funcion de verosimilitud
`(y|) = log L(y|).
Cuando la solucion de maxima verosimilitud no puede obtenerse
analticamente se recurre a metodos numericos.

3.2

Inferencia Bayesiana

En la inferencia Bayesiana hay importantes diferencias con la inferencia clasica (de maxima verosimilitud). Para una revision rapida puede
verse Casella y Berger (2002). Una revision mas detallada puede encontrarse en Robert (2001).
A manera de resumen consideremos el vector aleatorio Y | donde
es un parametro que caracteriza a la distribucion de Y . En la inferencia
Bayesiana:
16

1. es un vector aleatorio no determinstico y por lo tanto tiene una


distribucion de probabilidades asociada.
2. Es posible usar informacion preliminar acerca de , la cual se puede
sintetizar proponiendo una distribucion a prioripara , f ().
3. Los datos se organizan en la funcion de verosimilitud L(y|).
4. Usando el teorema de Bayes es posible obtener la distribucion a
posterioride dados los datos:
f (|y) =

f (, y)
L(y|)f ()
=
.
f (y)
f (y)

Notese que la distribucion a posteriori es proporcional a la verosimilitud


y a la priori; es decir
f (|y) L(y|)f (),
desde que la distribucion marginal o no condicional de Y , f (y) , no
depende del parametro .

Observaci
on:
Tomando logaritmo en la expresion anterior obtenemos:
log f (|y) `(y|) + log f ().
Por tanto, si se considera una priori no informativa para ; es decir,
f () = c (con c una constante)
maximizar log f (|y) para resulta equivalente a maximizar `(y|).
En otras palabras, la estimacion de maxima verosimilitud (que maximiza `(y|)) puede considerarse como un caso particular de inferencia Bayesiana sin informacion a priori. Naturalmente cuando
f () 6= c, la maximizacion de la posteriori sera distinta a la de
maxima verosimilitud.

17

Una vez identificada la distribucion a posteriori para , f (|y), es


posible realizar la inferencia requiriendo para esta distribucion las
medidas que se deseen como por ejemplo:
E(|y), V (|y), M ed(|y), Q (|y)
que corresponden, respectivamente, a la media, varianza, mediana
y cuantil de la distribucion a posteriori de dado Y = y. As por
ejemplo, se puede definir un intervalo para |y dado de esta manera
P (A B|y) = 1 ,
donde
A = Q 2 (|y), B = Q1 2 (|y)
son los cuantiles correspondientes.
Notese en este caso A y B son valores de la distribucion a posteriori
de y por tanto el intervalo corresponde a un intervalo de probabilidad y no a un nivel de confianza como en la inferencia clasica.
Por esta razon a este intervalo se le conoce como un intervalo de
credibilidad.

3.2.1

Ejemplo 1: Un intervalo para una proporci


on

Un problema bastante frecuente es el de la inferencia sobre una proporcion p. Por ejemplo, supongamos que estamos interesados en construir
un intervalo de confianza para la proporcion p de aprobacion presidencial en Lima Metropolitana con base a la informacion obtenida por una
encuestadora en una muestra aleatoria de n = 400 personas de Lima
Metropolitana. Si la proporcion de aprobacion obtenida en la muestra
fue de p = 0.3, como entonces podramos hacer inferencias sobre p,
tanto desde un punto de vista clasico como Bayesiano.
18

Soluci
on cl
asica
En la inferencia clasica es conocido que una aproximacion para el
intervalo de confianza al 100(1 ) % para p viene dado por:
r
IC(p) = p z

1
2

p(1 p)
.
n

En nuestro caso para un nivel de confianza del 95 % obtendramos


z1 2 = z0,975 = 1.96 y por tanto el intervalo
r
IC(p) = 0.3 1.96

0.3 0.7
= [0.2550908, 0.3449092].
400

Podemos concluir entonces, con un nivel de confianza del 95 %, que la


aprobacion presidencial se encuentre en aproximadamente un rango de
entre el 26 y 35 %.
Soluci
on Bayesiana
En la solucion Bayesiana se reconoce a p como una variable aleatoria
y por tanto puede establecerse una distribucion a priori. Luego, usando
la evidencia muestral en la verosimilitud de los datos se busca obtener
la distribucion a posteriori para p dados estos; es decir, f (p|y). Para
realizar esto podemos seguir los siguientes pasos:
Fase 1. Especificacion de la distribucion a priori. Dado que 0 p
1 una distribucion natural para p sera considerar una distribucion
Beta del tipo
p Beta(, ).
Fase 2. Especificacion de los parametros de la distribucion a priori.
De estudios anteriores, digamos considerando el resultado de los
u
ltimos meses, se puede considerar que
E(p) = 0.35 y V (p) = 0.01.
19

Sobre esta base podemos encontrar que


= 1.6125 y = 14.375
y por tanto
f (p) =

( + ) 1
)p
(1 p)1 p1.61251 (1 p)14.3751 ,
()(

donde la u
ltima es una igualdad excepto por una constante que no
depende de p y por tanto no es de interes.
Fase 3. Obteniendo la verosimilitud. En este caso se trata de un
modelo Binomial Y |p B(n, p) y por tanto tenemos que
L(y|p) =

n
Y

Cyni pyi (1 p)1yi ,

i=1

Cyni

donde las combinatorias


podran omitirse ya que son constantes
Pn
en relacion a p. Como p = 0.30 tenemos que i=1 yi = 0.30400 =
120 y por tanto
Pn

L(y|p) p

i=1

yi

(1 p)n

Pn
i=1

yi

= p120 (1 p)400120 .

Fase 4. Hallando la distribucion a posteriori. Combinando la priori


con la posteriori tenemos
f (p|y) p127.61251 (1 p)294.3751
y por lo tanto la distribucion a posteriori es
p|y Beta(127.6125, 294.375)
Fase 5. Haciendo inferencia en base a la distribucion a posteriori.
Algunas medidas son
pest = E(p|y) = 0.30
que corresponde a la media a posteriori. Los percentiles son P97.5 =
0.35, P2.5 = 0.26 por lo que la probabilidad de estar entre 0.26 y
0.35 es del 90 %.
20

En el ejemplo anterior observamos que la distribucion a posteriori fue relativamente facil de obtener e identificar. En muchas ocasiones,
sin embargo, tal tarea no es del todo automatica ya que dependiendo
de la priori elegida la distribucion a posteriori puede ser bastante compleja e incluso no pertenecer a algunas de las familias de distribuciones
conocidas. En tal situacion, como ejemplificaremos en el siguiente problema, tenemos por fortuna la posibilidad de recurrir a un conjunto de
metodos de simulacion, globalmente conocidos como de Montecarlo, que
nos permitiran obtener de manera aproximada la deseada distribucion a
posteriori.

3.2.2

Ejemplo 2: Inferencia para una distribuci


on normal

Supongamos que Y | N (, 2 ) es un modelo probabilstico para


una variable de interes con 2 conocido y un parametro a estimar.
Si se toma una muestra aleatoria Y1 , ..., Yn de Y | , la funcion de verosimilitud es:
L(y|) =

n
Y
i=1

f (yi |) =

n
Y

i=1

1
12
n e 2
(2 2 ) 2

2
1
1
e 22 (yi )
2

Pn
i=1

(yi )2

Dado que 2 es conocido, en la inferencia clasica se buscara obtener


el estimador de maxima verosimilitud de al optimizar
`(y|) = log L(y|),
cuya solucion viene dada por la media de y.
Por otro lado, desde un punto de vista Bayesiano, hay que considerar una distribucion a priori para . Como < < se puede
proponer cualquier modelo probabilstico en ese rango, como una distribucion t-Student, normal, logstica, Cauchy, etc.

21

Si consideramos por ejemplo Cauchy(0, 1), entonces


f ()

1
1 + 2

y consecuentemente la distribucion a posteriori posee el n


ucleo siguiente:
1

f (|y) L(y|)f () =

e 2

Pn
i=1

(yi )2

1 + 2

donde como es usual hemos omitimos todo lo que no dependa de .


Esta no corresponde a distribucion conocida alguna y por lo tanto la
posibilidad de realizar inferencias en base a ella se hace complicada. Para
salvar esta situacion haremos uso de metodos de simulacion estocastica
conocidos como cadenas de Markov Montecarlo o brevemente MCMC.

3.3

M
etodos de MCMC

Como hemos visto en este captulo, el paradigma Bayesiano centra su interes en la distribucion a posteriori f (|y). Ella contiene toda la
informacion relevante del parametro desconocido dada la data observada y. As, toda inferencia estadstica puede deducirse de la distribucion
a posteriori al considerarse alg
un resumen adecuado. Tales res
umenes
toman tpicamente la siguiente forma integral:
Z
I = g()f (|y)d.
(3.1)
Por ejemplo, si se tiene interes en estimadores puntuales del parametro
desconocido uno puede utilizar la media a posteriori, que no es sino un
caso particular de (3.1) de tomarse g(x) = x. Otro interes podra centrarse en predecir alg
un valor futuro y en base a la distribucion predictiva a
posteriori
Z
f (
y |y) =

f (
y |, y)f (|y)d,

la cual no es sino un caso particular de (3.1) con g(x) = f (


y |x, y).
22

El problema con (3.1) es que, como en el caso del ejemplo 2, es


usualmente muy complicado o imposible evaluar I. Incluso las tecnicas
numericas de cuadratura u otras para aproximar (3.1) podran presentar
problemas, mas a
un si el parametro es multidimensional.
Durante los u
ltimos a
nos una gran cantidad de artculos han aparecido en relacion a la evaluacion de (3.1) por metodos de simulacion colectivamente conocidos como cadenas de Markov de Montecarlo (MCMC).
La racionalidad de estos metodos subyace en dise
nar iterativamente una
cadena de Markov para de tal manera que f (|y) sea su distribucion
ergodica estacionaria. Empezando en alg
un estado inicial 0 la idea es
simular un n
umero suficientemente grande M de transiciones bajo la cadena de Markov y registrar los correspondientes estados simulados j .
Luego, bajo ciertas condiciones de regularidad, es posible mostrar que la
media muestral ergodica
M
1 X
I =
g(j )
M j=1

converge a la integral deseada en (3.1). En otras palabras, I nos provee de una buena aproximacion para I. El reto de los metodos MCMC
consiste entonces en precisar una cadena de Markov adecuada con la distribucion a posteriori f (|y) como su distribucion estacionaria y decidir
cuando detener la simulacion. Una excelente introduccion a los procesos de Markov y al teorema ergodico puede encontrarse en Ross (1995).
Para un enfoque mas formal en relacion a la inferencia Bayesiana puede
consultarse Tierney(1994).
Describamos ahora uno de los metodos MCMC mas populares conocido como el muestreador de Gibbs. El siguiente ejemplo nos ilustra
su aplicacion.
Ejemplo 3.3.1. (Gelfand y Smith, 1990) Consideremos un modelo de
analisis de varianza de efectos aleatorios:
yij = i + ij ,
23

donde i = 1, 2, . . . , k, j = 1, 2, . . . , n, los errores ij N (0, 2 ) se asumen


independientes entre si y los efectos aleatorios i N (, 2 ) se asumen
tambien independientes entre si y estos de los errores. Si asumimos prioris
inversas Gaussianas y normales del tipo:
2 IG(a1 , b1 )
|2 N (0 , 2 )
2 IG(a2 , b2 )
se puede mostrar que la distribuciones a posteriori de 2 |y, , , 2 y
2 |y, , , 2 son tambien inversas Gaussianas y las distribuciones a posteriori de |y, , 2 , 2 y |y, , 2 , 2 son normales, donde y = (yij )
denota al vector de la data y al vector de efectos de los k tratamientos.
Para estimar los momentos a posteriori del tipo (3.1) definiremos
una cadena de Markov para el parametro de interes = (, , 2 , 2 ).
2
2
) al vector de estados de la ca, ,n
Denotaremos por n = (n , n , ,n
dena en la nesima iteraccion. Dada la naturaleza de una cadena de
Markov, todo lo que necesitamos es definir las probabilidad condicionales de transicion de la cadena entre las iteraciones n y n + 1. Haremos
esto, muestreando de la distribucion condicional a posteriori completa
para dada la data a traves de los siguientes pasos, donde por estamos denotando que las variables condicionadas en el lado izquierdo
tiene las mismas distribucion normales e inversas Gaussianas que las ya
comentadas del lado derecho:
2
2
1. n+1 |y, n , ,n
, ,n
,
2
2
2. n+1 |y, n+1 , ,n
, ,n
,
2
2
3. ,n+1
|y, n+1 , n+1 , ,n
,
2
2
4. ,n+1
|y, n+1 , n+1 , ,n+1
,

Los pasos 1 al 4 definen una cadena de Markov {n } cuya distribucion converge a la deseada f (|y). Los promedios ergodicos del tipo
24

PM
1
I = M
on numerica de
j=1 g(j ) nos proveen luego de una aproximaci
la integral a posteriori (3.1).
El ejemplo descrito es un caso particular del muestreador de Gibbs.
En general dado el parametro = (1 , . . . , p ), el muestreador de Gibbs
trabaja en forma iterativa. Para cada dimension j = 1, 2, . . . , p genera
las distribuciones condicionales a posteriori de
j,n+1 j |y, 1,n+1 , . . . , j1,n+1 , j+1,n , . . . , p,n .

(3.2)

El metodo de Gibbs debe su popularidad al hecho de que en muchos modelos estadsticos la distribucion condicional a posteriori completa f (j |y, k , k 6= j) se puede simular al ser explcita. Ocurren, sin
embargo, casos en donde esto no es posible y por ello se hace necesario contar con otros metodos MCMC alternativos. Posiblemente el mas
generico de estos esquemas es el de Metropolis. Para generar la distribucion a posteriori, este metodo define una cadena de Markov en el que
una transicion sigue los pasos siguientes:
pro1. Se genera un valor de a partir de alguna distribucion h(|)
puesta que la detallaremos mas adelante.
2. Se calcula
= mn{1,
a(, )

f (|y)
h(|)
.
}

f (|y) h(|)

3. Se reemplaza por con probabilidad a y en caso contrario se lo


mantiene sin cambios.
La seleccion de la distribucion propuesta h es esencialmente arbitraria sujeta a ciertas restricciones tecnicas. Utilizandose por ejemplo
= h(|)
como por decir la normal
una distribucion simetrica con h(|)
centrada en el parametro se tiene la ventaja practica de que el radio

h(|)
se cancela en a. Otra variante practica de interes es el uso de

h(|)
Tierney (1994) refiere a
distribuciones propuestas independientes h().
estos algoritmos como cadenas independientes. Hasting (1970) propone
25

una larga clase de algoritmos similares basados en una expresion mas


general para la probabilidad de aceptacion a.
Las cadenas de Markov que son utilizados en los esquemas MCMC
poseen generalmente un espacio continuo de estados. Tierney (1994)
muestra que estos algoritmos convergen a una distribucion ergodica estacionaria () = f (|y) sujeta a tres condiciones de regularidad: irreducibilidad, aperiodicidad e invarianza. La nocion de irreducibilidad manifiesta que para cualquier estado y cualquier conjunto de estados B con
probabilidad (B) > 0, existe n N tal que al cabo de n iteraciones la
cadena pueda hacer una transicion de a B con probabilidad positiva. La
invarianza se refiere por otro lado, a la propiedad de que si empezamos
con un vector de estados generado por , entonces futuras transiciones
en la cadena dejaran la distribucion marginal de inalterada; es decir,
n , para cualquier n N+ .
El muestreador de Gibbs y el esquema de Metropolis-Hastings son
por construccion invariantes con respecto a la distribucion a posteriori
buscada. Lo que uno debe de verificar entonces son la aperiodicidad e
irreducibilidad de la cadena, siendo esta u
ltima la mas crtica pues en
ocasiones es posible encontrar un subconjunto de estados tales que cuando la cadena simulada entre en ella sea improbable salir y el algoritmo
por tanto se entrampe en ese punto sin llegar a converger.
En la practica mas importante que establecer convergencias teoricas
es reconocer la convergencia practica; es decir, juzgar cuantas transiciones M debe de ser suficientes como para obtener promedios ergodicos
I que esten cerca de (3.1). El procedimiento mas simple radica en graficar las trayectorias n contra el n
umero de iteraciones n y juzgar por
inspeccion que la convergencia se da de no presentarse tendencia alguna
obvia.
Algunas referencias adicionales de metodos MCMC en inferencia
bayesiana que se pueden indicar son Chen, Shao, Ibrahim (2000), Gamerman y Freitas (2006).

26

4
4.1

Las prioris en TRI


Nociones b
asicas

Denotemos por a un vector no observable de cantidades o par


ametros poblacionales de interes y sea y el vector de valores observados.
Las conclusiones estadsticas bayesianas acerca de , son hechas en
terminos de proposiciones probabilsticas, las cuales estan condicionadas
a los valores observados de y. Es en este nivel fundamental de condicionamiento de los datos observados que la inferencia bayesiana se aparta de
la inferencia estadstica clasica que esta basada en una evaluacion retrospectiva del procedimiento usado para estimar sobre la distribucion de
posibles valores de y condicionada al valor verdadero pero desconocido
de .
Con el proposito de hacer proposiciones probabilsticas acerca de
dado y, debemos empezar con un modelo que proporciona la distribuci
on
de probabilidad conjunta para e y. La funcion de densidad (y/o probabilidad) conjunta puede escribirse como el producto de dos densidades
que a menudo se refieren como la densidad a priori f () y la densidad
muestral (o verosimilitud ) f (y | ):
f (, y) = f (y | )f ().
Condicionando simplemente a los valores conocidos de los datos y y
usando la propiedad basica de probabilidad condicional conocida como
regla de Bayes, obtenemos la densidad a posteriori
f ( | y) =

f (, y)
f (y | )f ()
=
f (y)
f (y)

(4.1)

R
donde f (y) = f (y | )f ()d. Como anteriormente vimos, una forma
equivalente de la expresion anterior es omitir el factor f (y), que no depende de . Esta se denomina la densidad a posteriori no normalizada.
En tal caso escribiremos:
27

f (|y) f (y | )f ()

(4.2)

Cuando la distribucion a priori no tiene base poblacional, ella pueden ser difcil de construir. En tal sentido si uno desea que esta priori
juegue un rol mnimo en la distribucion a posteriori, uno llega a las llamadas distribuciones a priori de referencia, donde su densidad es descrita
como vaga, plana, difusa o no informativa. La racionalidad para usar
prioris no informativas es a menudo justificada diciendo que los datos
hablen por si mismos desde que la distribucion a posteriori de depende
apenas de f (y | ) y no de informacion externa a los datos recientes dada
por la priori f ().
Si f () c, con c constante y ] , [, tal distribucion no es
estrictamente posible, pues su integracion es infinita. En general, llamaremos a la densidad de la priori f () como propia si no depende de los
datos y su integral da 1. En el caso de una integral no finita diremos
que la priori es impropia. No obstante, una priori impropia puede llevar
a una distribucion a posteriori propia.
En casos mas complejos, donde por citar = (1 , 2 ) es un vector
bivariado, es importante estudiar bajo que condiciones la distribucion
a posteriori f ( | y) es propia. Para esto consideraremos las siguientes
definiciones preliminares.
Definici
on 4.1.1. Sea Y un vector aleatorio con funcion de verosimilitud f (y | 1 , 2 ). Diremos que Y es no identificable para 2 si
f (y | 1 , 2 ) = f (y | 1 ), y.

Definici
on 4.1.2. Si Y es un vector aleatorio con funcion de verosimilitud f (y | 1 , 2 ). Diremos que 2 es no identificable si f (2 | 1 , y) =
f (2 | 1 ), y.

28

Proposici
on 4.1.1. Las definiciones arriba son equivalentes.
Demostraci
on. Usando la definicion de probabilidad condicional y el hecho de que 2 es no identificable podemos escribir
f (y | 1 , 2 ) =

f (2 | y, 1 )f (y, 1 )
f (y, 1 , 2 )
=
= f (y | 1 ).
f (1 , 2 )
f (2 | 1 )f (1 )

Analogamente, usando la definicion de probabilidad condicional y el hecho que Y tiene una funcion de densidad no identificable para 2 podemos escribir
f (2 | y, 1 ) =

f (y, 1 , 2 )
f (y | 1 , 2 )f (1 , 2 )
=
= f (2 | 1 ).
f (1 , y)
f (y | 1 )f (1 )

El significado de la no identificabilidad para 2 es que los datos observados no incrementan el conocimiento a priori acerca de 2 | 1 o que
la funcion muestral no dependa de 2 .
Lema 4.1.1. (Ghosh et al. 2000)
Sea Y un vector de observaciones con verosimilitud f (y|1 , 2 ). Si Y
es no identificable para 2 , entonces la distribuci
on a posteriori de =
(1 , 2 ) es propia si y solamente si las distribuciones 1 |y y 2 |1 son
ambas propias.
Demostraci
on. Usando (4.2), la hipotesis y la definicion de probabilidad
condicional tenemos
f (1 , 2 |y) f (y|1 , 2 )f (1 , 2 ) = f (y|1 )f (2 |1 )f (1 ) = f (2 |1 )f (1 |y).
De aqu sigue que para que |y sea propia 1 |y y 2 |1 deben ser propias. Basta que una de ellas sea impropia para obtener que (1 , 2 )|y es
impropia.

29

4.2

Prioris no informativas para el modelo TRI de 1


y 2 par
ametros

Teorema 4.2.1. (Ghosh et al. 2000)


Considere un modelo TRI de un par
ametro. Si la distribuci
on a priori
para las habilidades de los n sujetos y los par
ametros de dificultad de los k
items (U , b) es no informativa y proporcional a una constante, entonces
la distribuci
on a posteriori para (U , b) es impropia.
Demostraci
on. Defina Uic = Ui b1 , i = 1, . . . , n, y bcj = bj b1
, j = 2, . . . , k. Estas son transformaciones lineales 1-1. Si escribimos
U c = (U1c , . . . , Unc ) y bc = (bc2 , . . . , bck ), entonces (U c , bc , b1 ) es una
transformacion 1-1 de (U , b). Como la transformacion es lineal el Jacobiano de la transformacion de (U , b) a (U c , bc , b1 ) es constante libre
de cualquier parametro. Entonces f (uc , bc , b1 ) c con c una constante.
De esta manera la distribucion a posterior de f (b1 | uc , bc ) c. Como
b1 tiene distribucion sobre R, se sigue que f (b1 | uc , bc ) es impropia.
Por otro lado, la funcion de verosimilitud del modelo de un parametro puede ser reformulada como:
f (y|uc , bc , b1 ) =

n Y
k
Y
i=i j=2

F (uci bcj )yij F (uci bcj )1yij

n
Y

F (uci )yi1 F (uci )1yi1 ,

i=1

donde F (.) = 1 F (.).


Notese que para este modelo b1 es no identificable; es decir,
f (y | uc , bc , b1 ) = f (y | uc , bc ).
Considere 2 = b1 y 1 = (uc , bc ). Aplicando el lema 4.1.1 tenemos
finalmente el resultado deseado desde que f (2 | 1 ) es impropia.

Teorema 4.2.2. Considere un modelo TRI de 2 par


ametros. Si la distribuci
on a priori para (U , a, b) es no informativa y proporcional a una
constante, entonces la distribuci
on a posteriori de (U , a, b) es impropia.
30

Demostraci
on. Defina Uic = Ui b1 , i = 1, . . . , n, y bcj = bj b1 , j =
2, . . . , k transformaciones lineales 1-1. Si escribimos U c = (U1c , . . . , Unc )
y bc = (bc2 , . . . , bck ), entonces (U c , a, bc , b1 ) es una transformacion 1-1
de (U , a, b). Como la transformacion es lineal el Jacobiano de la transformacion de (U , a, b) a (U c , a, bc , b1 ) es constante libre de cualquier
parametro. Entonces f (uc , a, bc , b1 ) c con c constante. De esta manera la distribucion a posterior de f (b1 | uc , a, bc ) c. Como b1 tiene
distribucion sobre R, se sigue que f (b1 | uc , a, bc ) es impropia.
Por otro lado, la funcion de verosimilitud del modelo de 2 parametros puede ser reescrita como:

f (y|uc , a, bc , b1 ) =

n Y
k
Y

F [aj (uci bcj )]yij F [aj (uci bcj )]1yij

i=i j=2
k
Y

F [a1 uci ]yi1 F [a1 uci ]1yi1 ,

i=1

donde F (.) = 1 F (.).


Notese que para el modelo TRI de 2 parametros, b1 es no identificable.
Es decir
f (y | uc , a, bc , b1 ) = f (y | a, uc , bc ).
Considere 2 = b1 y 1 = (U c , a, bc ). Aplicando el lema 4.1.1 tenemos
finalmente el resultado deseado desde que f (2 | 1 ) es impropia.

Teorema 4.2.3. (Albert y Ghosh, 2000) Considere un modelo TRI de 2


par
ametros. Si la distribuci
on a priori para al menos un (aj ) es impropia,
entonces la distribuci
on a posteriori de (U , a, b) es impropia.
Demostraci
on. La prueba en detalle es presentada en Albert y Ghosh
(2000) y consiste en probar en primer lugar que para alg
un aj con distribucion impropia la distribucion posterior de f (a, b | y) es impropia.
De aqu f (a, b, u | y) es tambien impropia.

31

Es interesante notar, sin embargo, que todas las posteriores condicionales completas son propias cuando se asume al menos un aj impropia.
De esta manera esta propiedad de la distribucion a posteriori no podra
ser detectada en la implementacion del algoritmo de Gibbs.
Por otro lado, algunos autores sugieren que prioris no informativas
para U , a y b hacen que el analisis Bayesiano sea comparable al analisis
de maxima verosimilitud. Pero en el analisis Bayesiano esto es altamente
cuestionable, porque la posterior es impropia en este caso. Esto es consecuencia de un resultado mas general establecido abajo por Albert y
Ghosh (2000) pero no probado.
Teorema 4.2.4. (Albert y Ghosh, 2000) Considere un modelo TRI de
2 par
ametros. Si la distribuci
on a priori f (U , a) g(a), donde g es una
funci
on positiva arbitraria de a (por ejemplo g puede ser una funci
on de
densidad propia para a). Entonces la distribuci
on posterior es siempre
impropia.

4.3

Prioris no informativas para los modelo TRI de


1 y 2 par
ametros con puntajes extremos

Definici
on 4.3.1. Considerando una prueba de k items respondida por
Pn
Pk
n sujetos, definimos yi = j=1 yij y yj = i=1 yij como respectivamente los puntajes del sujeto i y del tem j. El puntaje extremo de sujeto ocurre cuando existe un sujeto i para el cual se cumple que yi = k
o yi = 0. As tambien el puntaje extremo de tem ocurre cuando existe
un tem j para el cual se cumple que yj = n o yj = 0.

Teorema 4.3.1. (Ghosh et al. 2000)


Considere un modelo TRI de un par
ametro. Si la distribuci
on a priori
para (U c , bc ) es no informativa, proporcional a una constante y existe
al menos un puntaje extremo (de tem o sujeto), entonces la distribuci
on
posterior de (U c , bc ) es impropia.
32

Demostraci
on. Sin perdida de generalidad asumamos que el sujeto h
tiene puntaje extremo yh = 0 lo cual implica que su puntaje en cada
tem es cero (yhj = 0 para todo j = 1, . . . , k). Ahora
Z

L(b |y) =

k
Y

F (uch + bcj )F (uch )duch .

j=2

k
Y

j=2

F (bcj )F (0)duch = .

Similarmente si el sujeto h tiene puntaje extremo yh = k, lo cual implica


que su puntaje en cada tem es uno (yhj = 1 para todo j = 1, . . . , k), se
tiene que
Z

L(bc |y) =

k
Y

j=2

Z
F (uch + bcj )F (ucl )duch

k
Y

F (bcj )F (0)duch = .

j=2

Por otro lado, considere que el tem k tiene puntaje extremo yk = 0 lo


cual implica que el puntaje de cada sujeto en el tem k es cero (yik = 0
para todo i = 1, . . . , n). Ahora
Z

L(u |y) =

n
Y

i=1

F (uci

bck )dbck

I
Y

Z
F (uci )

i=1

dbck = .

Finalmente si yk = n lo cual implica que el puntaje de cada sujeto en


el tem k es uno (yik = 1 para todo i = 1, . . . , n), se tiene que
Z
L(uc |y) =

n
Y

i=1

F (uci + bck )dbck

En consecuencia f (uc , bc |y) es impropia.

n
Y
i=1

Z
F (uci )

dbck = .

Teorema 4.3.2. (Ghosh et al. 2000)


Considere un modelo TRI de un par
ametro. Si la distribuci
on a priori
para (U c , bc ) es no informativa, proporcional a una constante, no existe
puntajes extremos (de tem o sujeto) y si la la funci
on de distribuci
on
R
n+k1
usada para la curva caracterstica del tem satisface |z|
dF (z)
|, entonces la distribuci
on posterior de (U c , bc ) es propia.
33

Demostraci
on. Remitimos al lector a revisar la prueba realizada en Ghosh
et al (2000)

El tercer supuesto del teorema anterior, relativa a las funciones usadas para las curvas caractersticas de tem, ocurre automaticamente para
cualquier distribucion con momentos finitos. De esta manera, el teorema
se cumple para los enlaces logit y probit. El teorema es tambien aplicable
a distribuciones t con grados de libertad que exceden n + k + 1. Para
otros enlaces como los discutidos en el captulo final de este documento
as como para la de los modelos de 2 y 3 parametros se debe establecer
nuevos teoremas acerca de la existencia de distribuciones a posteriori
propias bajo prioris impropias. En general los teoremas mostrados indican que es recomendable considerar prioris propias para los parametros
de tem y la variable latente, especialmente en el caso de la priori para el parametro de discriminacion. Ademas como ha sido comentado en
el captulo 2, prioris propias aseguran la identificabilidad del modelo y
evitan el problema de presencia de parametros incidentales.

34

5
5.1

Inferencia Bayesiana en TRI


La distribuci
on a posteriori en TRI

Como recordamos, la funcion de verosimilitud para un modelo TRI


estandar viene dado por
f (y|u, ) =

n Y
k
Y

F (mij )yij (1 F (mij ))1yij ,

(5.1)

i=i j=1

donde F (.) podra denotar a la funcion de distribucion acumulada de


una variable normal estandar o logstica.
En este captulo consideraremos la siguiente clase general de distribuciones a priori para los parametros del modelo:
f (u, ) =

n
Y

g1i (ui )

i=1

k
Y

g2j (j )

(5.2)

j=1

donde g1i (ui ), con i = 1 . . . , n, denotara a la funcion de densidad de una


variable normal estandar y g2j (j ) = g21j (aj )g22j (bj ), con j = 1, . . . , k,
estara constituida por distribuciones propias tanto para g21j como para
g22j a fin de garantizar, como se vio en el captulo anterior, distribuciones
a posteriori propias.
Una vez especificada la distribucion a priori tenemos que la posteriori viene dada por:
f (u, |y) f (y|u, ) f (u, ).

(5.3)

No obstante, como se estudio antes, esta distribucion no es en general identificable. De esta manera se requiere de metodos MCMC. En
lo que resta ilustraremos detalladamente la inferencia Bayesiana usado
metodos MCMC para TRI para el caso del modelo de ojiva normal.
35

5.2
5.2.1

Inferencia Bayesiana en el modelo de ojiva normal


Especificaci
on del modelo

La funcion de verosimilitud para el modelo de ojiva normal viene


dada por:
f (y|u, ) =

n Y
k
Y

(mij )yij (1 (mij ))1yij ,

i=i j=1

donde es la funcion de distribucion acumulada normal estandar.


Si en la clase de prioris fijada consideramos (como por ejemplo en
Rupp et al. , 2004) tomar g21j como la densidad correspondiente a una
variable normal con media a y varianza a2 y a g22j como la densidad
correspondiente a una variable normal con media 0 y varianza b2 para
todo j = 1, ..., k, se tiene que g2j sigue una distribucion normal bivariada
con vector de medias y matriz de varianza-covarianza dadas por:
= (a , 0)0 y =

h 2
a
0

0 i
.
b2

La distribucion conjunta a posteriori viene dada entonces por:

!
n Y
k
k
n
Y
Y
Y
yij
1yij
f (u, |y)
(mij ) (1(mij ))
g1i (ui )
g2j (aj , bj )
i=i j=1

j=1

i=1

o mas explcitamente por:


f (u, |y)

n Y
k
Y

(mij )yij (1 (mij ))1yij

i=i j=1
n
k
k
h 1 X
i
1 X 2
1 X
exp
u2i + 2
bj + 2
(aj a )2 .
2 i=1
b j=1
a j=1

36

En base a esta distribucion conjunta no es difcil encontrar las siguientes


distribuciones condicionales completas:

f (ui |, y) =

k
Y

(mij )yij (1 (mij ))1yij (ui ; 0, 1)

j=1

(j |u, y) =

n
Y

(mij )yij (1 (mij ))1yij (aj ; a , a2 )(bj ; 0, b2 ),

i=1

donde por (.; , 2 ) estamos denotando a la funcion de densidad de una


variable aleatoria normal con media y varianza 2 .

5.2.2

Esquema MCMC usando adaptative rejection


sampling (ARS)

El modelo de ojiva normal puede ser ajustado usando MCMC. Note que todas las distribuciones condicionales previamente indicadas no
son estandares. Por este hecho es difcil implementar un muestreo de
Gibbs . Sin embargo, dado que las distribuciones condicionales completas del modelo son log-concavas (es decir, el logaritmo de las densidades
correspondientes son funciones concavas), el muestreo exacto de ellas
puede se ejecutado usando rejection sampling (ver e.g. Gilks and Wald
(1982)). Esos autores desarrollan tambien un esquema adaptative rejection sampling (ARS). El ARS construye dinamicamente dos envolventes
(una superior y una inferior) para la distribucion a ser muestreada de
evaluaciones sucesivas de la densidad en los puntos rechazados. El algoritmo se detiene cuando el punto propuesto ha sido aceptado. Este es el
procedimiento por defecto en el software WinBUGS 1.3 para el modelo
de ojiva normal.
37

5.2.3

Una formulaci
on adecuada para el modelo TRI
de ojiva normal

Teorema 5.2.1. Para i = 1 . . . , n sujetos que responden a j = 1, . . . , k


tems de una prueba, el modelo TRI de ojiva normal puede representarse
por:

1, si Zij > 0
Yij =
(5.4)
0, si Zij 0,
donde
Zij = mij + eij
y eij N (0, 1).
Demostraci
on. Basta observar que pij = P (Yij = 1) = P (Zij > 0) =
(mij ), i = 1 . . . , n , j = 1, . . . , k. Luego, la estructura normal lineal
de la variable latente auxiliar produce un modelo equivalente al modelo
de ojiva normal.

5.2.4

MCMC usando un esquema de data augmentation Gibbs sampling (DAGS)

Teorema 5.2.2. Para i = 1 . . . , n sujetos que responden a j = 1, . . . , k


tems de una prueba, el modelo TRI de ojiva normal (5.4) presenta las
siguientes distribuciones condicionales completas:
f (zij |ui , j , y) (zij ; mij , 1)I(zij , yij ).
f (ui |zi , , y) (ui ; mui , vui ), donde:

Pk
a
z
+
b
j
ij
j
j=1
1
m ui =
y vui = P k
.
Pk
2
2
j=1 aj + 1
j=1 aj + 1
f (j |u, zj , y) 2 (j ; mj , vj ), donde
h
i1 h
i
h
i1
1
1
0
0
mj = W 0 W +1
W
Z
+

,
v
=
W
W
+
,
j

38

h i
h 2
a
a
, =
0
0

0 i
y W = (u, 1) con Wi0 = (ui , 1).
b2

Demostraci
on. Usando la nueva formulacion tenemos que la funcion de
verosimilitud de datos aumentados, considerando a estos como D =
(Z, y), viene dada por:

f (D|u, ) =

n Y
k
Y

(zij ; mij , 1)I(zij , yij ),

i=1 j=1

donde I(zij , yij ) = I(zij > 0)I(yij = 1) + I(zij 0)I(yij = 0) , i =


1 . . . , n y j = 1, . . . , k. As, la distribuci
on conjunta a posteriori completa
f (u, |D) es proporcional a:
h

k
k
n
k
n
X
1 X X
1 X 2 i
1 X 2
bj + 2
a
I(zij , yij )
(zij mij )2 +
u2i + 2
2 i=1 j=1
b j=1
a j=1 j
i=1

y por tanto las distribuciones condicionales completas siguen.

Con estas condicionales uno puede implementar facilmente el muestreo de Gibbs. Rutinas en R (en MCMCpack de Martin y Quinn, 2003) y
Mathlab (Johnson e Albert, 1999) se disponen en la Web. En WinBUGS,
la implementacion de este procedimiento no es directa pues precisa de
una correcta especificacion de las variables indicadoras. Mayores detalles
pueden seguirse en Bazan, Bolfarine, Leandro (2006). Un detalle de los
codigos para estos procedimientos se muestra en el apendice A y seran
usados en la subseccion 6.2.2. Los esquemas de simulacion MCMC para
los otros modelos tradicionales son similares al caso presentado. Para
mayores detalles, vease Sahu (2002).
39

5.3

Crit
erios de comparaci
on de modelos en el contexto Bayesiano

El desarrollo de metodos MCMC permite ajustar una gran cantidad de modelos para un mismo conjunto de datos y por tal motivo es
necesario comparar modelos alternativos con el proposito de identificar
un modelo apropiado que pueda describir adecuadamente estos datos.
Existe un variedad de metodologas para comparar el ajuste de modelos Bayesianos alternativos. Se puede ver por ejemplo el trabajo Gilks
et al. (1996). El principal criterio usado en este trabajo es el criterio
de informaci
on de desvo (o DIC de Deviance Information Criterion)
propuesto por Spiegelhalter et al. (2002). EL DIC es u
til aqu porque es
relativamente facil de calcular, interpretar y es satisfactorio para modelos jerarquicos complicados (Johnson, 2003) y esta basado en la nocion
de desvo Bayesiano(Dempster, 1977).
El desvo Bayesiano (Dempster, 1977) para modelos TRI es definido, de manera general, usando la verosimilitud del modelo como

D(, u) = 2ln(f (y|u, )) = 2

n X
k
X

lnP (Yij = yij |u, ).

(5.5)

i=1 j=1

Recordemos aqu que y denota a las respuestas observadas (0 o 1) de los


n sujetos para los k tems, se asocia a los parametros de los tems y u
a las habilidades de los sujetos.
El desvo bayesiano es tambien una medida de bondad de ajuste.
Dado un conjunto de modelos alternativo a ser comparados, el que mejor
ajuste a los datos sera aquel que tiene menor valor de desvo Bayesiano.
Es interesante destacar que la distribucion a posteriori puede tambien
ser usada para evaluar el ajuste (relativo) de un modelo dado. Esto
ha sido propuesto en varios trabajos, entre ellos Gilks et al. (1996) y
Spiegelhalter et al. (1996). Aqu, la cantidad E(D(, u)), esta basada
en la distribucion a posteriori de y u y , es denominada el esperado
40

del desvo bayesiano a posteriori o desvo medio a posteriori (posterior


mean of the deviance ) tambien es una medida de bondad de ajuste. Esta
esperanza puede ser aproximada usando el algoritmo MCMC a traves de
G

E(D(, u))

1 X
D( g , ug ),
G g=1

(5.6)

donde el ndice g representa la g-esima realizacion simulada de un total


de G realizaciones simuladas. Este estimador es denominado como Dbar
por Spiegelhalter et al. (2002) y es obtenido por defecto en WinBugs.
Por otro lado, Carlin y Louis (2000) y Brooks (2002) han sugerido penalizar E(D(, u)) como en los casos del criterio de Informacion
Bayesiana (Schwarz) o Criteiro de Akaike (Akaike, 1973). Esto lleva al
Esperado del Criterio de Informacion de Akaike (EAIC) definido por
EAIC = E(D(, u)) + 2p,

(5.7)

y al esperado del Criterio de Informacion Bayesiana de Schwarz (EBIC)


definido por
EBIC = E(D(, u)) + plnN

(5.8)

en el que p es el n
umero de parametros del modelo y N es el n
umero total de observaciones. Estos criterios se pueden obtener de manera
aproximada usando el algoritmo MCMC a traves de
\ = Dbar + 2p,
EAIC

\ = Dbar + plnN
EBIC

(5.9)

Lamentablemente, en el caso de los modelos jerarquicos se tiene problemas con estos criterios, porque no es facil definir p y N . Por ejemplo, en
la TRI tenemos respuestas de k tems para los examinados i = 1, . . . , n,
entonces, N = nk el total de observaciones o N = n es el total de examinados. Si las respuesta a los tems en cada examinado son independientes,
entonces la primera eleccion sera mas apropiada; pero si las respuestas
fueran correlacionadas en cada examinado, se puede escoger la u
ltima
41

alternativa. En la TRI se debera considerar el primer caso tomandose en cuenta que la independencia condicional se cumple. Sin embargo
la situacion real es algo intermedia. Similarmente, si consideramos una
coleccion de efectos aleatorios como es el caso de las variables latentes
en TRI, una para cada examinado, la pregunta es como esto puede
contribuir con el n
umero de parametros p ?. Si los efectos aleatorios no
tienen nada en com
un (i.e., estos se comportan esencialmente como efectos fijos), ellos deberan contribuir con n parametros para cada p, pero si
los datos (o las prioris) indican que todos ellos son esencialmente identicos, ellos deberan contribuir con un poco mas o un n
umero efectivo de
parametrospara el tama
no del modelo p.
Debido a este tipo de problemas Spiegelhalter et al. (2002) propusieron D como un valor apropiado para penalizar E(D(, u)). El DIC
es una modificacion del esperado del desvo y es definido como
DIC = E(D(, u)) + D ,

(5.10)

D = E(D(, u)) D(E(), E(u))).

(5.11)

donde
es denominado como el n
umero de par
ametros efectivos (Spiegelhalter
et al, 1996) y D(E(), E(u))) es el desvo bayesiano de las medias a
posteriori o desvo bayesiano de los esperados a posteriori (deviance of
posterior mean) obtenido considerando los valores medios o esperados
a posteriori de los parametros del modelo. Las esperanzas arriba estan
basadas en las distribuciones a posteriori de y u las que se pueden
aproximar usando el algoritmo MCMC a traves de
D(E(), E(u) D

G
1 X

i=1

1 X 1 X g
,
u ,
G i=1 G i=1
G

g ,

(5.12)

donde como se ha indicado antes el ndice g representa a g-esima realizacion simulada de un total de G realizaciones simuladas. Esta estimacion
es denominado como Dhat en Spiegelhalter et al. (2002) y es obtenida
42

por defecto en el WinBugs.


El DIC penaliza el esperado del desvo bayesiano por la complejidad
del modelo o n
umero de parametros efectivos representado por D . El
DIC es aproximadamente analogo al AIC y EAIC y puede aproximarse
por:
[ = Dbar Dhat = Dbar + 2D ,
DIC
(5.13)
donde valores bajos del DIC indican el mejor ajuste. Otra ventaja del
DIC es que como esta basado en la funcion de verosimilitud, esta puede
ser descompuesta para cada observacion, por lo que se puede implementar residuales bayesianos (Gelfand, 1996) para evaluar la bondad de
ajuste local. La estimacion del DIC se obtiene por defecto en el WinBugs.
Spiegelhalter et al. (2002) indican que el DIC implementado en
WinBUGS puede ser usado para comparar modelos complejos (vea por
ejemplo Johnson, 2003) y grandes diferencias en los criterios se pueden
atribuir a diferencias predictivas reales en los modelos.

43

Aplicaciones

En este captulo ilustraremos el enfoque Bayesiano para el modelo


de TRI a traves de dos ejemplos. En ellos discutiremos como especificar
las prioris , los valores iniciales para definir el estado inicial de la cadena
de Markov y como realizar diagnosticos de convergencia en la implementacion del Algoritmo MCMC. Mas a
un, en nuestra primera aplicacion
haremos una comparacion con la teora clasica de los tests.

6.1

An
alisis de una escala de percepci
on de peso

Esta aplicacion esta basada en los datos de la investigacion de


Martnez, et.al. (2003), relativa a trastornos alimentarios, donde se aplico el
Inventario de Conductas Alimenticias de Zusman (2000) que mide el
riesgo de trastorno alimentario (Anorexia, Bulimia, etc.) y factores asociados en adolescentes mujeres. Los datos provienen de una muestra probabilstica de 2,141 alumnas distribuidas entre 18 colegios p
ublicos y 8
privados, obtenidos a partir del Padron de Centros Educativos 1999 del
Ministerio de Educacion.
La prueba tiene varias areas o escalas y de ellas se ha seleccionado la
llamada escala de peso, que registra la percepcion y preocupacion por
el peso, rutinas, temores, controles y conductas patologicas asociadas.
Su importancia radica en que si bien para la adolescente en riesgo el
peso se convierte en la manifestacion cuantitativa del problema que la
perturba, por razones culturales y de globalizacion, el peso es tambien
una preocupacion general de las adolescentes, tengan un trastorno o
no. Para efecto de analisis las respuestas de las participantes han sido
pasadas a formato de variable binaria Y , donde el valor 0 indica poca
o nula frecuencia (Nunca, Casi nunca) y el valor 1 revela una mayor
frecuencia (A veces, Casi siempre, Siempre) de la conducta registrada
por el tem. Los 15 tems son:
44

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15

Me preocupa mi peso.
Me peso todos los das.
Pienso que mi rendimiento escolar ha mejorado desde que he comenzado a bajar de peso.
Subo y bajo de peso con facilidad.
Acudo a medicos y/o centros especializados para bajar de peso.
Me gusta que mi ropa me quede suelta.
Siento angustia cuando subo de peso.
Tengo miedo de pesarme.
Siento que mis padres exageran cuando se preocupan por mi peso.
Mi familia esta pendiente de lo que como.
Quiero bajar de peso.
Pienso que es mejor ser delgada que inteligente.
Controlo mi peso.
Las mujeres queremos estar mas flacas.
Mis amigas me dicen que estoy muy delgada.

Para este tipo de data, donde no hay una habilidadpor medir y la


persona lo sabe, la concepcion de acertar al azar no es aplicable. Por otra
parte, no se puede garantizar que todos los tems tienen similar discriminacion aj , y naturalmente, la dificultadbj de cada tem representa el
mayor o menor riesgo asociado a la conducta especfica que se mide. El
modelo debe ser uno de dos parametros y para efectos de este ejemplo,
usaremos el modelo logstico.
Para la estimacion de los parametros de este modelo usaremos la
metodologa Bayesiana con ayuda del software WinBUGS como fue especificado en el captulo 5. Siguiendo las recomendaciones de Patz y
Junker (1999) y de Albert y Ghosh (2000), la secuencia jerarquica de
distribuciones que se carga en WinBUGS es:
Yij | uj , ai , bi Bernoulli(pij ),
donde pij viene dado por el modelo 2PL, uj N (0, 1), ai N (0, a2 ) y
bi LogN (0, b2 ). Aqu se tomo
a = 2 y b =

1
,
2

pues el tama
no de muestra de 2,141 casos haca poco sensibles los resultados a las especificaciones de a y b (Patz y Junker, 1999).
45

En la tabla 6.1 se presenta una comparacion de los indicadores de


riesgo y discriminacion estimados seg
un la teora clasica (TCT) y la
teora de respuesta al tem (TRI).

Item

Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15

Riesgo
tem
0.67
0.12
0.12
0.47
0.05
0.51
0.54
0.42
0.41
0.59
0.62
0.19
0.45
0.86
0.78

TCT
Indice de
discriminacion
0.61
0.20
0.28
0.52
0.11
0.42
0.83
0.72
0.53
0.38
0.76
0.35
0.53
0.27
0.24

Riesgo Item bi
Media D. Estandar
-0.64
0.04
1.23
0.04
1.39
0.05
0.08
0.03
1.86
0.07
-0.03
0.03
-0.24
0.06
0.31
0.04
0.25
0.03
-0.24
0.03
-0.65
0.06
1.01
0.04
0.15
0.03
-1.28
0.05
-0.82
0.03

IRT
discriminaci
on Item aj
Media
D. Estandar
1.02
0.06
0.37
0.04
0.64
0.05
0.53
0.04
0.50
0.06
0.37
0.03
1.91
0.14
1.08
0.06
0.51
0.04
0.29
0.03
1.78
0.12
0.59
0.04
0.50
0.04
0.63
0.05
0.32
0.04

Tabla 6.1

Notese que en el caso del modelo TRI es posible obtener ademas


una medida de dispersion para cada estimacion, porque la TRI provee
de una distribucion para cada parametro. Una consecuencia es que con
la TRI es posible obtener intervalos de confianza para esos valores, algo
que facilita las comparaciones entre tems, que es una tarea importante
cuando se esta en la fase de construccion de una prueba.
El grafico 6.1 es una diagrama de dispersion que compara visualmente los indicadores de riesgo (proporcion de positivos en la TCT y
parametro bj en TRI) en sus respectivas escalas.
46

Grafico 6.1
Riesgo seg
un TRI vs riesgo seg
un TCT
Analogamente, el grafico 6.2 compara los ndices de discriminacion
(dj en TCT y aj en TRI).

Grafico 6.2
Discriminacion seg
un TRI vs discriminacion seg
un TCT
47

El grafico 6.1 muestra que los valores del indicador de riesgo en TCT
y TRI producen la misma jerarquizacion de los tems y por tanto son
igualmente interpretables. Destaca el tem 5 (Acudo a m
edicos y/o
centros especializados para bajar de peso) como un tem referido
a un mayor riesgo. El tem 14 (Las mujeres queremos estar m
as
flacas) es un tem correspondiente a un menor riesgo de todos Notese
que el modelo TRI permite diferenciar valores de riesgo que la TCT no
logra. As por ejemplo, los items 2 y 3 tienen igual riesgo TCT pero
distinta media b1 en TRI (ver los valores en las tabla 6.1)
La tabla 6.1 y el grafico 6.2 muestran que los valores del indicador
de discriminacion en TCT y IRT no necesariamente producen la misma
jerarquizacion de los tems, as por ejemplo, en TCT el tem 13 (Controlo mi peso) es mas discriminador que el tem 12 (Pienso que es
mejor ser delgada que inteligente) pero en TRI es al reves. No se
interpreta aqu la significacion psicologica de estas frases, eso corresponde a un profesional del area, pero si se observan los riesgos, resulta que
el tem 12 tambien es mas riesgoso y eso cuadra mas con la idea extrema
de preferir la delgadez a la inteligencia.
En general, aunque el modelo TRI presente la misma informacion
del modelo TCT, provee al constructor del test de otras informaciones
que TCT no tiene, por ejemplo, Intervalos de confianza para riesgos y
capacidad de analizar la separacion entre tems.
La tabla 6.2 muestra las estadsticas de las puntuaciones en la Escala
de percepcion de peso, estimadas seg
un la teora clasica (denominadas
scores en la psicometra) y seg
un el modelo TRI (U ). En ambos casos
un mayor valor indica una mayor propension al riesgo. Aunque las dos
teoras generan puntuaciones, por construccion las del TRI estan en la
misma escala que la de los parametros bj de los tems, cosa que no sucede
en la TCT, donde los parametros de los tems son proporciones.
48

Estadsticas de percepcion de peso


TCT
TRI
Score
U
Mnimo
0
-2.00
Maximo
15
2.48
Media
6.81
0.00
D. Estandar
3.01
0.88
Asimetra
0.06
0.02
Kurtosis
-0.79
-0.78
Correlacion
-0.96
Tabla 6.2
Estadsticas de puntuaciones seg
un modelos
El grafico 6.3 compara las puntuaciones obtenidas seg
un los dos
modelos, proporcionando ademas intervalos de confianza de 95 % para
las puntuaciones TRI.

Grafico 6.3
Puntuaciones en TCT vs puntuaciones TRI
49

De la tabla 6.2, se ve que los scores TCT son n


umeros enteros que
van de 0 a 15, pues se obtienen como la suma simple de los 15 tems
binarios. En cambio las puntuaciones TRI forman un continuo. Lo anterior es una diferencia fundamental entre ambas teoras, pues la TCT
obliga a que muchas personas obtengan igual puntuacion, a
un cuando
tengan riesgos distintos, cosa que no sucede en la TRI.
El grafico 6.2 muestra como personas con igual puntuacion TCT
s llegan a ser diferenciadas con las puntuaciones TRI, por eso lo de
los intervalos de confianza que ilustran lo que pasa. Aunque la correlacion alta entre escalas indica que proporcionan practicamente los mismos
ordenes entre personas, la continuidad en el caso TRI permite diferenciar
casos de modo muy fino, que es algo importante en el diagnostico clnico.
La comparacion de tems puede hacerse visualmente via intervalos
de confianza en diagramas de caja. As el grafico 6.4 muestra las distribuciones a posteriori de los parametros de riesgo b1 de los tems (el
riesgo va en el eje vertical) y los ubica mostrando su extension y posibles
traslapes. El grafico 6.5 hace algo analogo con las discriminaciones.
Finalmente el grafico 6.6 es como un mapa de tems que los identifica en sus dos caractersticas importantes. As tenemos por ejemplo,
que el Item 14 es de menor riesgo y menor discriminacion, que el tem 5
es de mayor riesgo y poco discriminativo, mientras que el Item 7 es de
riesgo mediano y bastante discriminativo.
Para esta prueba otros modelos alternativos pueden ser estudiados,
como por ejemplo el modelo de Rasch. Tambien los modelos estudiados
en la seccion 7 podran utilizarse en esta aplicacion. En general se pueden comparar los diferentes modelos propuesto en este trabajo desde la
perspectiva Bayesiana empleando los diferentes criterios mostrados en la
seccion 5.3, como es el caso de la siguiente aplicacion.
50

Grafico 6.4
Diagrama de cajas de parametros TRI de riesgo

Grafico 6.5
Diagrama de cajas de parametros TRI de discriminacion
51

Grafico 6.6
Diagrama de dispersion riesgo vs discriminacion en TRI

6.2

An
alisis de una prueba de Matem
aticas

En esta aplicacion, 14 items de una prueba de Matematicas disponibles en


www2.minedu.gob.pe/umc/admin/images/publicaciones/boletines/Boletin-13.pdf

se aplicaron a 131 estudiantes de nivel socio economico alto de sexto


grado de primaria. Las estadsticas de los puntajes de esta prueba se
presentan en la tabla 6.3.
52

Estadsticas
Media
Varianza
Asimetra
Mnimo
Alpha
Media Item-Tot.
Max Puntaje
Min Puntaje

valores
10.84
3.432
-0.795
5
0.481
0.364
10
12

Estadsticas
Mediana
Desv. Estd.
Curtosis
Maximo
Media P
Mean Biserial
N (Grupo alto)
N (Grupo bajo)

valores
11
1.853
0.449
14
0.774
0.572
52
45

Tabla 6.3
Estadsticas de los puntajes de la prueba de Matematicas con 14 tems
y 131 examinados
Los datos presentan un puntaje medio de 11 puntos (sobre un puntaje maximo de 20 puntos) y una desviacion estandar de casi 2 puntos.
De las estadsticas, se puede indicar que los puntajes presentan asimetra
con dominio de puntajes altos. La prueba presenta una confiabilidad dada por el coeficiente alfa de Cronbach de 0.48.
En el anexo B de este trabajo, el lector podra encontrar un tutorial
del WinBUGS para el analisis de estos datos.

6.2.1

Comparando varios modelos TRI para los datos de la prueba de Matem


aticas

Para comparar los diferentes modelos propuestos en este trabajo e


ilustrar el uso del DIC, generamos 202000 iteraciones y descartamos los
2000 valores iniciales. Usando un thin de 100, se obtuvo un tama
no de
muestra efectiva de 2000. Estimadores de los parametros del modelo se
calcularon de estas iteraciones. Varios criterios para evaluar la convergencia se calcularon, usando la librera CODA, entre ellos los propuestos
por Geweke (1992).
53

Los valores de DIC se muestran en la tabla 6.4 para seis modelos


TRI: 1P, 1L, 2P, 2L, 3P, 3L, donde el primer n
umero indica si el modelo
es de uno, dos o tres parametros, respectivamente; mientras que la u
ltima letra denota si el modelo es de ojiva normal (P) o logstico (L). El
modelo 2P se ajusto usando ARS y Gibbs Sampling. As para este modelo observamos que la aproximacion basada en datos aumentados (Gibss
Sampling) lleva menos tiempo que la aproximacion MCMC basada en la
verosimilitud original (ARS) lo que es coherente con un resultado similar
obtenido por Sahu, 2002, con el modelo 3P. Note tambien que en general
los modelos 1P, 2P y 3P son mas rapidos que sus correspondientes modelos 1L, 2L y 3L. Ademas en ambos casos el tiempo de simulacion se
incrementa conforme el modelo incluye mas parametros. Considerando
el valor de DIC, el mejor modelo ajustado resulto el modelo 3P pero
sin embargo el modelo 2P es bastante cercano. Nosotros preferimos el
modelo 2P por ser un modelo mas simple.
models
(1)
(2)
(3)
(4)
(5)
(6)

type
1L
1P
2L
2P
3L
3P

time
53
42
78
71
148
87

parameters
145
145
159
159
173
173

Dbar
1467
1460
1461
1447
1464
1443

Dhat
1372
1340
1378
1359
1384
1356

D
94.46
120.3
82.74
88.41
80.08
87.8

DIC
1561
1581
1544
1536
1544
1531

Tabla 6.4
Comparacion de modelos usando el criterio DIC

Vale aclarar, que el tiempo en la tabla se refiere al n


umero de segundos necesarios para correr 2000 iteraciones en un PC con procesador
Pentium IV de 1800 MHZ y 256 de memoria RAM.
54

6.2.2

An
alisis de sensibilidad usando diferentes prioris para a y b en el modelo 2P

Para evaluar la sensibilidad de la estimacion Bayesiana para el modelo de ojiva normal 2P se han tomado en cuenta diferentes prioris y se
ha realizado un analisis considerando los datos descritos anteriormente.
Los codigos MCMC requeridos son presentados en el anexo A.
La estimacion bayesiana basada en MCMC fue implementada en
WinBUGS. Se generaron cadenas con 50,000 iteraciones considerando
saltos (thin)=1, 5, 10 y descartando las primeras 500 iteraciones (Burin), as que los tama
nos de muestra son de 49,500, 9,900 y 4,950, respectivamente. Cuando se usa MCMC, los valores de muestra para iteraciones
iniciales de la cadena son descartados por su dependencia con los valores iniciales y para garantizar la convergencia. Tambien, en este modelo
TRI, se espera una presencia de autocorrrelaciones entre los valores de la
cadena debido a la presencia de variables latentes como lo apunta Chen
et al. (2000). Debido a esto se recomienda usar valores de thin superiores
a 10.
Como ha sido mencionado en el captulo 4, prioris propias para aj y
bj garantizan que las distribuciones a posteriori completas de los parametros del modelo sean propias. Albert y Ghosh (2000) mencionan que la
eleccion de prioris propias en las variables latentes resuelven el problema
de identificacion de estos modelos, y, adicionalmente, distribuciones a
priori informativas para aj y bj se pueden usar para reflejar la creencia
de que los valores de los parametros de tem no son extremos (no estan
en la frontera del espacio parametrico). Si se esta en la situacion donde
se dispone de poca informacion a priori acerca de los parametros de dificultad, uno puede elegir varianzas para estos parametros grandes. Esta
eleccion puede tener un efecto modesto en la distribucion a posteriori
para datos no extremos, y puede resultar en una distribucion a posteriori propia cuando hay datos extremos (cuando se observa estudiantes que
tienen todos sus tems correctos o incorrectos). (Albert y Ghosh, 2000)
y tambien, Sahu (2002) establecen que valores grandes de la varianza
55

llevan a estimados no estables.


En la tabla 6.5 se muestra algunas prioris consideradas en la literatura para los parametros de tem en el modelo de ojiva normal. Aqui
por N(0,1)I(0,) estamos denotando a la distribucion normal estandar que
esta truncada para valores negativos.
Priori

Autor

a prior

b prior

A
B
C
D
E
F

Jhonson y Albert (2000)


Congdon (2001)
Albert y Ghosh (2000)
Sahu (2002), Albert e Ghosh (2000)
Spiegelhalter et al (1996)
Sahu (2002), Patz e Junker (1999)

N(2,1)
N(1,1)
N(0,1)
N(0,1)
N(0,1)I(0,)
N(1,0.5)I(0,)

N(0,1)
N(0,1)
N(0,1)
N(0,10000)
N(0,10000)
N(0,2)

Tabla 6.5
Especificacion de prioris para parametros de tem en el modelo de ojiva
normal
En el grafico 6.7 se presentan las estimaciones de los parametros de
discriminacion y de dificultad para el modelo de ojiva normal para las
diferentes prioris dadas en la tabla 6.5. Como se observa en este grafico
las prioris A, B y C son precisas y las prioris D y E tienen prioris difusas
o prioris no informativas en el parametro de dificultad. Las prioris E y
F son truncadas en el parametro de discriminacion.

56

1,8

11

1,4

11

11

1,0

Discrimination parameter

0,6

12

12

0,2

12

-0,2
-3

-2

-1

-3

-2

PRIOR a-b
N(2,1)-N(0,1)

-1

-3

-2

PRIOR a-b
N(1,1)-N(0,1)

-1

PRIOR a-b
N(0,1)-N(0,1)

1,8

11

1,4

11

11

1,0

12

0,6
0,2

12

12
6

-0,2
-3

-2

-1

PRIOR a-b
N(0,1)-N(0,10000)

-3

-2

-1

PRIOR a-b
N(0,1)I(0,)-N(0,10000)

-3

-2

-1

PRIOR a-b
N(1,0.5)I(0,)-N(0,2)

Difficulty parameter

Grafico 6.7
Media a posteriori de los parametros de dificultad y de discriminacion
para diferentes prioris en el modelo de ojiva normal
De acuerdo al grafico 6.7, el modelo 2PLP es insensible a la especificacion de priors para los parametros de dificultad y de discriminacion.
Un analisis de una va para evaluar si los parametros de tem son diferentes de acuerdo a las prioris resulto no significativo.
En el analisis de la sensibilidad se ajusto varios modelos de probabilidad para los mismos datos. Para comparar los seis modelos correspondientes a cada priori, se calculo la expected deviance a posterior(Dbar), la deviance information criterion(DIC) y el n
umero efectivo de parametros D que son descritos en el captulo 5 y en Spiegelhalter
et al. (2002).
Spiegelhalter et al. (2002) indican que el DIC implementado en el
software WinBUGS se puede usar para comparar modelos complejos y
57

grandes diferencias en el criterios se pueden atribuir a diferencias predictivas reales en los modelos, aunque persisten algunas crticas. En el
modelamiento jerarquico con variables latentes auxiliares como en los
modelos TRI, la verosimilitud o complejidad del modelo no es u
nica
as que la deviance del modelo (el DIC y D D que se basan en ella)
cuando hay variables latentes no es u
nica y puede ser calculada de varias maneras (Delorio and Roberts, 2002). Con variables latentes auxiliares, el software WinBUGS usa la verosimilitud completa de las variables
observadas y de la variable latente introducida (como efectos fijos y aleatorios respectivamente en el modelamiento jerarquico) para obtener la
distribucion posterior para los parametros de interes. Cuando este es el
caso, WinBUGS presenta DICs marginales para la variable observada
(efectos fijos) y para las variables latentes auxiliares (efecto aleatorio).
Para una comparacion de los modelos propuestos, nosotros consideramos DIC marginal para la variable observada porque el foco del analisis
esta en f (y|u, ) y aunque variables aleatorias auxiliares se introducen
(en dos etapas, para variables latentes y parametros de tem) estas no
son el focos del analisis.
El analisis del DIC en la tabla 6.6, confirma que todas las prioris
tienen el mismo ajuste. El grafico 6.8 hace comparaciones de estas diferentes prioris considerando un grafico de la media y desviacion estandar
para los parametros de tem.
prior
A
B
C
D
E
F

a media
0.6355
0.5356
0.4599
0.5168
0.5414
0.5879

b media
-1.021
-0.999
-0.979
-1.099
-1.101
-1.048

Dbar
1450.14
1461.09
1453.16
1446.60
1453.22
1445.00

Dhat
1369.86
1383.61
1368.36
1358.26
1375.48
1352.90

pD
80.28
77.48
84.80
88.34
77.75
92.11

DIC
1530.43
1538.57
1537.96
1534.94
1530.97
1537.11

Tabla 6.6
Comparacion Dbar y DIC de prioris para el modelo de ojiva normal
58

Standard Deviations of difficulty parameter

0,90
N(0,1)I(0,)-N(0,10000)
0,88
N(0,1)-N(0,10000)
0,86
0,84

N(1,0.5)I(0,)-N(0,2)

0,82
N(2,1)-N(0,1)
0,80
0,78

N(1,1)-N(0,1)

0,76

N(0,1)-N(0,1)

0,74
-1,15

-1,10

-1,05

-1,00

-0,95

-0,90

Standard Deviations of discrimination parameter

Means of difficulty parameter

0,40
N(2,1)-N(0,1)
0,38

N(0,1)-N(0,10000)
N(0,1)I(0,)-N(0,10000)

0,36
0,34

N(1,1)-N(0,1)

0,32

N(1,0.5)I(0,)-N(0,2)

0,30
0,28

N(0,1)-N(0,1)

0,26
0,24
0,44

0,48

0,52

0,56

0,60

0,64

0,68

Means of discrimination parameter

Grafico 6.8
Comparacion del modelo de ojiva normal con diferentes prioris
59

Para los parametros de dificultad, se tiene que las prioris estan organizadas desde las prioris no informativas o difusas hasta prioris precisas.
A mayor precision de la priori especificada menor varianza en la posteriori y mayor valor de la media a posteriori de la dificultad. En el caso del
parametro de discriminacion, tenemos que las prioris estan organizadas,
en el eje x, de menor a mayor media a posteriori, y en el eje y de mayor
precision a mayor valor de la variancia especificada a priori excepto para
el caso de mayor de la media a priori.
A pesar de que observamos que las prioris son similares en el ajuste
del modelo consideramos que la priori F es mas a apropiada porque
presenta menor coeficiente de variabilidad en relacion a la especificacion
de un gran varianza a priori para la dificultad. Este resultado prueba lo
indicado por Sahu (2002) que indica que ha investigado otras prioris con
otros hiperparametros pero esta es la mas estable.

6.2.3

Inferencia e interpretaci
on de los par
ametros
en el modelo 2P

Considerando las prioris a N (1, 0,5)I(0, ) y b N (0, 2) dada por


Sahu (2002), o priori F , se realizo un analis final de los datos con el
proposito de inferencia. Se considero un Bur-in de 1000 y un tama
no de
muestra efectivo de 1000 iteraciones considerando un valor de thin=10.
Estas estimaciones son esencialmente estables si se consideran otros tama
nos de muestra. La convergencia fue monitoreada usando hasta 5
cadenas de tama
nos diferentes despues de descartar las primeras 1000
iteraciones. Fue usado la librera CODA de R para obtener la estadstica de Gelman y Rubin (1992) que indico que un total de 159 cadenas
generadas convergen.
En media, para generar un tama
no de bur-in de 1000 el programa
demora 90 segundos, y para 10000 iteraciones adicionales usa 957 segundos. En el grafico 6.9 se presenta el historico de la cadena y la densidad
emprica a posteriori para el item 11 y la media y desviacion estandar
de la variable latente.
60

a[12]

a[12] sample: 1000

1.5

3.0

1.0

2.0

0.5

1.0
0.0

0.0

1000

2500

7500

5000

-0.5

10000

0.0

0.5

1.0

iteration

b[12]

b[12] sample: 1000


1.0

4.0
3.0
2.0
1.0
0.0

0.75
0.5
0.25
0.0
1000

2500

5000

7500

-0.25

10000

0.0

0.25

0.5

0.75

iteration
mu

mu sample: 1000

0.4

6.0

0.2

4.0

0.0

2.0

-0.2

0.0

-0.4

1000

2500

7500

5000

-0.4

10000

0.2

0.0

-0.2

iteration

du

du sample: 1000

1.2

8.0
6.0
4.0
2.0
0.0

1.0

0.8

0.6

1000

2500

7500

5000

10000

0.6

0.8

1.0

iteration

Grafico 6.9
Historico de la cadena y densidad para los parametros del tem 11 y
media y desviacion estandar a posteriori de la variable latente
Estimaciones de los parametros de discriminacion y de dificultad
para el modelo de ojiva normal se presentan en la tabla 6.7. El tem 11
es el mas discriminativo mientras el tem 9 es el menor. Tambien, el tem
11 es el mas facil mientras el tem 12 es el mas difcil.
61

Parametros de
discriminacion

Parametros de
dificultad

Variable
latente

a1
a2
a3
a4
a5
a6
a7
a8
a9
a10
a11
a12
a13
a14
b1
b2
b3
b4
b5
b6
b7
b8
b9
b10
b11
b12
b13
b14
u media
d.e u

Media

sd

P2,5

Mediana

P97,5

0.54
0.29
0.55
0.91
0.49
0.32
0.88
0.97
0.20
0.49
1.35
0.39
0.45
0.41
-0.90
-1.09
-0.03
-1.91
-1.23
0.37
-1.82
-1.53
-0.80
-1.19
-2.31
0.43
-1.01
-1.71
0.94
0.04

0.24
0.18
0.24
0.33
0.24
0.18
0.34
0.35
0.14
0.23
0.41
0.19
0.23
0.26
0.16
0.15
0.13
0.33
0.18
0.11
0.33
0.31
0.13
0.17
0.46
0.12
0.16
0.23
0.06
0.08

0.13
0.03
0.16
0.33
0.09
0.03
0.29
0.39
0.01
0.08
0.64
0.06
0.05
0.03
-1.25
-1.37
-0.27
-2.62
-1.62
0.16
-2.63
-2.30
-1.06
-1.55
-3.32
0.21
-1.35
-2.20
0.82
-0.12

0.52
0.27
0.53
0.88
0.48
0.30
0.84
0.92
0.18
0.48
1.32
0.38
0.43
0.37
-0.90
-1.08
-0.03
-1.88
-1.22
0.37
-1.78
-1.50
-0.80
-1.18
-2.25
0.42
-1.00
-1.70
0.93
0.04

1.09
0.70
1.09
1.61
1.02
0.73
1.60
1.80
0.51
1.02
2.18
0.80
0.93
0.97
-0.60
-0.80
0.23
-1.36
-0.90
0.61
-1.28
-1.03
-0.57
-0.87
-1.53
0.67
-0.71
-1.32
1.06
0.21

Tabla 6.7: Media y desviacion estandar a posteriori e intervalo de


credibilidad al 95 % para los parametros del modelo de ojiva normal
62

El tem 11 dice: Luisa, Dora y Mara compran tela. Luisa compro la


mitad de un metro, Dora compro 75 centmetros y Mara compro cincuenta centmetros. Quienes compraron la misma cantidad de tela?.
El tem 12 dice: Un recipiente recibe 4.5 litros de agua cada minuto.
Cuantos litros de agua tendra el recipiente despues de un hora y media?. Por otro lado, el tem 6 dice: Resuelve las siguientes operaciones
con decimales: 0.75 0.2 + 1.2 0.30.
Es claro, del texto de los tems, que la habilidad latente requerida
para encontrar la solucion del tem 11 es menor que la del tem 12. Para
un mismo valor de habilidad, el alumno tiene mayor probabilidad de
suceso en el tem 11 antes que en el tem 12. Por eso el tem 11 es mas
facil que el tem 12 como el modelo de ojiva normal postula.
Tambien es importante percibir para el tem 11 que un peque
no
cambio en la habilidad del alumno (digamos, un conocimiento de lo que
significa mitad de un metro) produce un rapido incremento de la probabilidad de suceso del tem. Pero en el tem 9 un peque
no cambio de
habilidad del alumno (digamos el conocimiento de decimales) no se traduce en un incremento rapido de la probabilidad de suceso del tem. As el
tem 11 es mas discriminativo porque permite distinguir mejor entre los
alumnos que saben o no saben un determinado conocimiento especfico
al tem. Diagramas de caja para las medias a posteriori de los tems se
presentan en el grafico 6.10. Para mayor detalle de interpretacion de los
parametros de tem puede verse Johnson y Albert(2000).
Con respecto a la variable latente, la media de las medias a posteriori para los examinados es 0.94 lo que indica que el grupo de estudiantes
presenta habilidades con asimetra negativa como fue encontrado en los
puntajes (vease la tabla 6.7). De esta manera encontramos que las habilidades estimadas tienen correspondencia con el puntaje. Modelos que
dan cuenta de esta asimetra han sido desarrollados recientemente por
Bazan et al (2006), Bolfarine y Bazan (2007). Un detalle de estos modelos
puede encontrarse en el captulo siguiente.

63

box plot: a

3.0

[11]

2.0

[8]
[7]

[4]

[1]

[3]

[5]

[10]

[13]

1.0

[14]

[12]

[6]

[2]

[9]

0.0

box plot: b

1.0

[12]

[6]
[3]

0.0
[9]

[1]

[13]

[2]

[10]

[5]
[8]

-1.0
[4]

[7]

[14]
[11]

-2.0

-3.0

-4.0

Grafico 6.10
Box-plots de las medias a posteriori de los parametros de
discriminacion (a) y dificultad (b) en el modelo de ojiva normal

64

Extensiones y comentarios finales

En este trabajo hemos presentado los modelos de teora de respuesta


al item binarios tradicionales desde la perspectiva de la inferencia Bayesiana. Una presentaci
on parecida para el caso del Brasil, pero desde
el punto de vista clasico, puede revisarse en Andrade, Tavares y Valle
(2000).
El modelo al que hemos hecho mayor referencia es el modelo de
dos parametros, el cual vimos ajustaba muy bien al analisis de los data
en nuestras aplicaciones. Este modelo es bastante interesante porque
diversas extensiones han sido propuestas a partir de el. Una de ellas es
la inclusion de parametros adicionales de tems como, por citar, el modelo
tres parametros donde se incluye un parametro de adivinacion, el modelo
skew-probit (Bazan, et al, 2006) que incluye un parametro de penalidad
o bonificacion del tem o el modelo de Teslets que incluye un parametro
para la interaccion entre determinados temes (Wang, Bradlow, y Wainer,
2003).
Otras extensiones de estos modelos se obtienen considerando a la
variable latente U como multidimensional y no unidimensional (ver por
ejemplo, Beguin y Glas, 2001, Linardakis y Dellaportas, 2002). Tambien
existen extensiones donde se consideran variables predictoras o variables
explicativas. Se da tambien el caso de modelos multinivel (Fox y Glas,
2001) y de modelos con errores de medicion (Fox y Glas, 2003). Otro
grupo de extensiones se obtiene cuando se toma como variable manifiesta
valores discretos mnimamente ordinales y no respuesta binaria. En ese
caso se esta frente a modelos de TRI para respuesta policotomica (las
escalas de actitudes y las pruebas de desempe
no son ejemplos de estos
casos).
Con esto queremos resaltar que la TRI no es solo de interes desde el
punto de vista aplicativo sino tambien por los diferentes desarrollos de
tipo formal y computacional que generan. Si bien la lista de extensiones
dada bosqueja una vision muy panoramica del area, invitamos a los
65

interesados a comunicarse con los autores para conocer mas detalle de


otras extensiones y problemas abiertos que persisten en este campo. A
manera de ilustracion mostraremos seguidamente con un poco mayor
detalle tres modelos TRI no estandares en los cuales los autores han
venido trabajando.

7.1

Modelos TRI con enlaces asim


etricos

En los modelos tradicionales de TRI, la CCI es simetrica; este es


el caso del modelo logstico y de ojiva normal. Sin embargo, como ha
observado Samejima (2000), Bazan et. al. (2006) y Bolfarine y Bazan
(2007) CCI asimetricas pueden ser incorporadas considerando un nuevo
parametro de tem que controla la forma de dicha curva. Esta asimetra
es en muchos casos necesaria para una mejor modelizacion de respuestas
con una baja proporcion de 0s o 1s. Seguidamente mostraremos tres
de estos modelos.

7.1.1

El modelo de ojiva normal asim


etrico

Este modelo postula que la probabilidad de acierto dados los parametros de habilidad y de tems es:
pij = P (Yij = 1 | ui , j ) = SN (mij ; j ),
donde j > 0 es un parametro de asimetra, mij = aj ui bj es el predictor latente lineal y SN denota a la funcion de distribucion acumulada
de una variable skew normal con funcion de densidad
SN (x; ) = 2(x)(x),
siendo la funcion de densidad de una variable normal estandar.
Notese que si = 0, el modelo de ojiva normal asimetrico es un modelo estandar de ojiva normal. El grafico 7.1 muestra la sensibilidad del
modelo con respecto al nuevo parametro presentando diferentes CCI
66

0.8
0.6
0.4
0.2
0.0

probability of correct response

1.0

para diferentes valores de la variable latente asociada con la habilidad U ,


y considerando parametros de tem a = 1, b = 0 y = 2, 1, 0, 1, 2 en
el modelo de ojiva normal asimetrico. Note que cuando > 0, la probabilidad de respuesta correcta tienen un bajo crecimiento para bajos valores
de variable latente U . De otra manera, cuando < 0, la probabilidad de
respuesta correcta tiene un rapido crecimiento para bajos valores de la
variable latente U . Es por este comportamiento que este parametro es
interpretado como un parametro de penalidad o de bonificacion.

latent variable

Grafico 7.1
CCI para el modelo de ojiva skew normal
67

La verosimilitud L(y|u, a, b, ) del modelo es proporcional a


n Y
k
Y

[SN (mij ; j )]yij [1 SN (mij ; j )]1yij ,

i=i j=1

pero similarmente a lo visto en (5.4) el modelo TRI de ojiva normal


asimetrico puede ser definido de manera alternativa por

>0
1, si Zij
Yij =

0, si Zij 0,

donde Zij
denota a la variable Zij dada en (5.4) condicionada a que
Vij = vij ,

N (j vij + mij , 1 j2 ),
Zij

j = j

1+2j

Vij HN (0, 1)

[0, 1] es una reparametrizacion mas conveniente que j y

HN denota a la distribucion normal positiva o half normal.


Bajo esta nueva formulacion, la verosimilitud puede reescribirse proporcional a
n Y
k
Y

(Zij
; j vij + mij , 1 j2 )(Vi,j ; 0, 1)I(vij > 0)p(yij | zij
),

i=1 j=1

donde

0)I(yij = 0).
> 0)I(yij = 1) + I(zij
) = I(zij
p(yij | zij

Mayores detalles acerca de este modelo puede ser revisado en Bazan


et al. (2006)

7.1.2

Los modelos LPE y RLPE

Estos modelos postulan que la probabilidad de acierto dados los


parametros de habilidad y de temes es:
pij = P (Yij = 1 | ui , aj bj ) = Fj (mij ),
68

donde Fj es una funcion de distribucion acumulada indexada por el


parametro j > 0 y evaluada en mij = aj ui bj . Dependiendo de que
funcion de distribucion se especifique tendremos los modelos Logstico
positivo exponencial (LPE) y reflejo del logstico positivo exponencial
(RLPE). En el primer caso, este se caracteriza por
F1 (x) = 1 (1 + ex )j
y en el segundo por:
F2 (x) = (1 + ex )j
Estos corresponden a las funciones de distribucion acumuladas Scobit y
Burr de tipo II, respectivamente.
Note que F1 (x) 6= 1 F1 (x) o F2 (x) 6= 1 F2 (x) y que F1 y F2
son asimetricas y se cumple que
F2 (x) = 1 F1 (x)
o
F1 (x) = 1 F2 (x).
El modelo LPE fue propuesto por Samejima (2000) pero ha sido
implementado en Bolfarine y Bazan (2007) junto al modelo RLPE propuesto por ellos.
En ambos modelos j puede tambien interpretarse como un parametro de penalidad o bonificacion de manera similar al caso del modelo de
ojiva skew normal. Ello puede observarse en las CCI del grafico 7.2.
Mayores detalles de este modelo puede revisarse en Bolfarine y Bazan
(2007).

69

1.0
0.8
0.6
0.4
0.0

0.2

probabilty of correct response

1.0
0.8
0.6
0.4
0.2
0.0

probabilty of correct response

latent variable

latent variable

Grafico 7.2
CCI para los modelos LPE y RLPE

7.2

Modelos TRI bajo restricciones de rapidez

El problema de la rapidez surge cuando una prueba tiene restricciones de tiempo. Ello hace que los sujetos que la respondan limiten sus
analisis en especial para los u
ltimos temes de la prueba.
La posibilidad de construir un modelo que tome en cuenta esta restriccion fue considerada por Yamamoto y Everson (1997) y Bolt, et.
70

al. (2002). El primero asume basicamente un modelo logstico de dos


parametros para la probabilidad de responder correctamente a los primeros temes y un proceso de adivinanza para los u
ltimos. De otro lado,
Bolt planteo mas bien un modelo Rash para todos los temes, pero en
donde los parametros de dificultad de los temes varan seg
un sean estos
los primeros o u
ltimos, siendo la dificultad de los u
ltimos mayor a la
de los primeros. Basados en estos trabajos Goegebeur, et. al.(2008) han
recientemente propuesto un modelo de proceso de cambio gradual. Este
modelo postula que la probabilidad de acierto dados los parametros de
habilidad y de temes es:

pij = P [Yij = 1 | i , i , i , aj , bj , cj ] = cj + (1 cj )G(mij ),


donde
n h
j
ii o
G(mij ) = pij Pj (i , i ), Pj (i , i ) = min 1, 1
i
k
y pij se escribe bajo el modelo logstico de dos parametros.
El parametro i [0, 1] es introducido al modelo para expresar el
punto, representado como una fraccion del n
umero de tems, donde el
examinado experimenta por primera vez el efecto de rapidez. De otro
lado, i 0 controla la tasa de decrecimiento hacia la situacion de
adivinacion.
La racionalidad del modelo es como sigue. Cuando un examinado
i encuentra el item j, el responde de acuerdo a un modelo TRI de 3
parametros o a un proceso de adivinacion aleatorio con probabilidad
Pj (i , i ) y 1 Pj (i , i ), respectivamente. Bajo el proceso de solucion
de problemas el examinado conoce la respuesta con probabilidad pij ; si
es ignorante, el examinado adivina al azar.
El lector interesado en la estimacion de los parametros de este modelo, desde un punto de vista Bayesiano, puede consultar Valdivieso y
Bazan (2009).
71

7.3

Comentarios finales

En este trabajo hemos intentado presentar la estimacion Bayesiana


de los modelos TRI binarios tradicionales, tanto desde un punto de vista
teorico como practico. Nuestra intencion ha sido la de interesar a la comunidad academica como profesional en la aplicacion adecuada de estos
modelos. Esto supone mejorar las propuestas de evaluacion y medicion
disponibles en nuestro medio y acercarnos a los modelos que ya se usan
en otros pases. Asimismo hemos presentado diversas alternativas desarrolladas mas alla del modelo Rasch facilitando la interpretacion de sus
resultados.
Actualmente estamos implementando todos los modelos detallados
en un software generador de codigos. Estos codigos permitiran al interesado realizar de manera directa las estimaciones u otros procedimientos
Bayesianos en WinBUGS. Este programa, al que hemos denominado Bayes@PUCP, estara disponible para los interesados que lo requieran.
Este tipo de trabajos son parte de los desarrollos que realiza el grupo
de investigacion de Modelos Matematicos y Estadsticos para evaluacion
MMEPE de la Seccion Matematicas de la PUCP.

72

Inferencia Bayesiana en TRI usando WinBUGS

En este anexo presentamos los codigos para implementar en WinBUGS los dos procedimientos de estimacion bayesiana en TRI, esquemas
ARS y Gibbs Sampling, desarrollados en el captulo. Estos codigos, para
los modelos de uno, dos o tres parametros con ojiva norma o logstica
pueden ser obtenidos tambien considerando el aplicativo Bayes@PUCP,
el cual implementa los modelos indicados mas otros nuevos modelos propuestos en Bazan et al (2006) y Bolfarine y Bazan (2007).

A.1

C
odigo WinBUGS para esquema Gibbs Sampling

A continuacion se presenta el codigo WinBUGS para el modelo de


ojiva normal de un parametro (1P) y de dos parametros (2P) considerando aumentacion de datos, es decir considerando el esquema de Gibbs
Samplng.
model

{ #likelihood function
for (i in 1 : n) {
for (j in 1 : I) {

#2P
#

m[i,j] <- a[j]*u[i] - b[j]

#1P
m[i,j] <- u[i] - b[j]
z[i,j] ~ dnorm(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1])
}
}
#priors F for item parameters
for (j in 1:k) {
b[j] ~ dnorm(0,0.5);

73

# 1P
#

a[j] ~ dnorm(1,2)I(0,);
}
#prior for latent variable
for (i in 1:n) { u[i] ~ dnorm(0,1) }
# auxiliary latent variable
lo[1] <- -50; lo[2] <- 0; \# i.e., z| y=0 ~ N(m,1)I(-50,0)
up[1] <0; up[2] <- 50; \# i.e., z| y=1 ~ N(m,1)I(0,50)
# mean and standard deviation for latent variable
mu<-mean(u[ ])
du<-sd(u[ ])
}

Note que si se quiere obtener las versiones correspondientes para los


modelos de Rasch y 2L logstico solamente se debe modificar la lnea
dnorm(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1])
por la linea
dlogis(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1]).

A.2

C
odigo WinBUGS para esquema ARS

Otra posibilidad de codigos para WinBUGS en los modelos logsticos


de un, dos y tres parametros se presenta a continuacion
model{
for (i in 1:n) { for (j in 1:k )
{ y[i,j]~dbern(p[i,j])
#1L
m[i,j]<-theta[i]-b[j]
#2L Model
#m[i,j]<-a[j]*(theta[i]-b[j])
p[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))
#3L Model

74

#pl[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))
# p[i,j]<-c[j]+(1-c[j])*pl[i,j]
}
}
#abilities priors
for (i in 1:n) { theta[i]~dnorm(0,1)}
#items priors
for (j in 1:k) {
# Sinharay (2004)
b[j]~dnorm(0,1)
#
a[j]~dlnorm(0,1)
#
c[j] ~ dbeta(5,17)
}
}

Note que en este caso no se requiere la version no aumentada del


modelo para implementar el esquema ARS.
Aprovechando que el programa WinBUGS ya contiene la funcion
de enlace logit, tambien es posible escribir logit(p[i,j])<-m[i,j]
en lugar de p[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))
Si se desea obtener las correspondientes versiones del modelo de ojiva normal, solamente ha de modificarse las expresiones correspondientes
de las probabilidades por p[i,j]<-Phi(m[i,j]) aprovechando que el
WinBUGS tiene la funcion de la acumulada de la normal Phi.

75

Un Tutorial de WinBUGS para TRI

Para usar la inferencia Bayesiana usando WinBUGS aseg


urese de
contar con el programa. El programa puede ser obtenido de
http://www.mrc-bsu.cam.ac.uk/bugs/winbugs/contents.shtml
Para un uso efectivo del programa con todas sus funciones es necesario registrarse y obtener un archivo que es enviado anualmente. Otra
posibilidad, sin registro previo es usar OpenBugs disponible en
http://mathstat.helsinki.fi/openbugs/
En este tutorial usaremos el conjunto de datos de la prueba de
Matematicas (Math Data) analizado en el captulo 6 de aplicaciones,
pero bajo el modelo de Rasch. Si usted desea usar el WinBUGS para sus
propios datos, no necesita modificar la sintaxis del modelo. Solamente
debe introducir sus propios datos especificando el n
umero de sujetos (n)
y el n
umero de tems de su prueba (k). Para mejorar la interpretacion
de los resultados obtenidos en el modelo revise a Bond y Fox (2005).
En general, el procedimiento para realizar una inferencia Bayesiana
mediante WinBUGS se pueden sintetizar en 3 fases que detallamos a
continuacion.

B.1

Fase 1: Definir el modelo

Paso 1. Seleccionar el modelo. Se


nalar con el mouse model como
aparece en la figura abajo. En el men
u seleccionar Model, luego Specification. Hacer click en Check Model
76

Si todo estuviera correcto, el mensaje abajo, en la parte izquierda


es model is syntactically correct
77

Paso 2. Llamar los datos. Seleccionar list (se


nalar con el Mouse)
como aparece en la figura abajo. Hacer click en Load Data.

Si todo estuviera correcto, el mensaje abajo, en la parte izquierda es data


loaded

78

Paso 3. Compilar.

Hacer click em Compile de Specification Tool

Si todo estuviera correcto, el mensaje abajo, en la parte izquierda es


model compiled.
79

Paso 4. Llamar los valores iniciales. Seleccionar list de los valores


iniciales (se
nalar con el mouse) como aparece en la figura abajo. Hacer
click en Load Inits

Si todo estuviera correcto, el mensaje abajo, en la parte izquierda es this


chain contains uninitialized variables.
80

Paso 5. Simular valores iniciales de las variables faltantes.


cer click en Gen Inits

Ha-

Si todo estuviera correcto, el mensaje abajo, en la parte izquierda es


inicial values generated, model initialized.
81

B.2

Fase 2: Par
ametros para la simulaci
on

Paso 6. Definir par


ametros para monitorear. Seleccionar en el
Men
u, Inference, luego Samples. En la ventana, node, escribir los parametros a monitorear. En el modelo Rasch son b y theta. Cada vez que coloca
un nodo haga click en Set. Al final escriba en la ventana: *

82

Paso 7. Hacer la simulaci


on MCMC. En el Men
u seleccionar Model, luego Update. En la ventana, updates, escriba el n
umero de simulaciones que desea hacer. El default es 1,000. Para el modelo de Rasch
la sugerencia es 4,000 las cuales seran descartadas para la inferencia
(proceso Bur-In).
83

Luego hacer click en update. Si todo estuviera correcto, el mensaje abajo,


en la parte izquierda es model is updating. Al final aparece el tiempo
que su computador uso para la simulacion. Este tiempo depende del
procesador que use. En nuestro caso duro 66 segundos.
84

85

B.3

Fase 3: Evaluaci
on de las cadenas generadas

Paso 8. Evaluar la cadenas generadas.


1. En la ventana Sample Monitor Tool, hacer clic en history. En este
caso ud. obtiene una grafica para cada parametro del modelo que
corresponde a los diferentes valores que toma el parametro en cada
iteracion. En este caso, son 4,000 valores. Lo que debe analizarse
es si las cadenas (series de valores generados) son convergentes.

En el caso de los datos de Matematica, por inspeccion todas las


cadenas son convergentes o estacionarias.
86

2. En la ventana Sample Monitor Tool, hacer clic en density. En este caso ud. obtiene una grafica para cada parametro del modelo
que corresponde a los diferentes valores que toma el parametro en
cada iteracion. La grafica corresponde a la distribucion emprica
obtenida de los valores generados.

87

Por inspeccion las cadenas mostradas en el grafico anterior son


unimodales y simetricas.

3. En la ventana Sample Monitor Tool, hacer clic en coda. En este caso


ud. obtiene dos nuevos archivos: Coda index y Coda for chain 1. Los
cuales deben ser grabados como nombre .ind y nombre .out. Estos
archivos permiten realizar un analisis mediante algunas medidas de
evaluacion de las cadenas disponibles en las libreras CODA y BOA
del programa R.
Estas libreras pueden obtenerse respectivamente en

http://cran.r-project.org/src/contrib/Descriptions/
coda.html

http://www.public-health.uiowa.edu/boa/Home.html

Por otro lado, el programa R de software libre esta disponible en

http://www.r-project.org/
88

89

Paso 9. Obtener estadsticas de resumen. En la ventana


Sample Monitor Tool, hacer click en Stat

Note que se obtienen medidas de res


umen de la distribucion a
posteriori de los parametros. La media a posteriori es comparable con las estimativas obtenidas usando inferencia clasica. Pero
a diferencia de dicha inferencia donde es necesario asumir ciertas
suposiciones asintoticas para obtener los errores estandar asociados, en la inferencia Bayesiana puede obtenerse cualquier medida
a posteriori como mediana y percentiles. En este caso se obtiene
un res
umen de 4,000 valores generados usando MCMC.
90

Paso 10. Obtener medidas definitivas y medida de comparaci


on de modelos. En la inferencia Bayesiana es importante
generar una cadena lo suficientemente grande para obtener la convergencia de la misma. Para ello es importante estudiar la auto
correlacion de la serie, lo cual ayuda a determinar el n
umero de
saltos o thin que debe hacerse para obtener las estadsticas definitivas de los parametros del modelo. Si hay una auto correlacion
alta es necesario un thin (salto) mayor para seleccionar los valores. Tambien hay que considerar el Bur-in o valores iniciales a ser
descartados. Esos aspectos son discutidos en los artculos de las
referencias. Nosotros vamos a considerar las primeras 4,000 iteraciones como Bur-in y como la autocorrelacion mostrada en el
grafico para el modelo es baja, el thin sera de 1 como por defecto.

91

Para tener una medida de comparacion de modelos frente a modelos alternativos es importante usar la medida DIC (Deviance Information Criteria). En el Men
u seleccionar Inference, luego DIC. En
la ventana DIC tool seleccione set. Luego finalmente repita el paso
7 considerando 2,000 iteraciones adicionales. Finalmente vuelva a
la ventana DIC tool y presione DIC.

El resultado es
Dbar = post.meanof 2 log L;
Dhat = 2 log Lat post.mean of stochastic nodes

y
total
92

Dbar
1465.900
1465.900

Dhat
1372.290
1372.290

pD
93.608
93.608

DIC
1559.5109
1559.5109

Finalmente repetimos el paso 9 para las nuevas 2,000 iteraciones.


Aseg
urese de colocar en el espacio beg 4,001 para que las estadsticas sean de las u
ltimas 2,000 iteraciones.

Los primeros resultados aparecen a continuacion


93

node
b[1]
b[2]
b[3]
b[4]
b[5]
b[6]
b[7]
b[8]
b[9]
b[10]
b[11]
b[12]
b[13]
b[14]
theta[1]
theta[2]
theta[3]
theta[4]
theta[5]

94

mean
-1.582
-2.063
-0.0929
-2.994
-2.212
0.6497
-2.862
-2.286
-1.527
-2.13
-2.99
0.7283
-1.813
-3.272
-0.3447
0.8446
-1.292
-1.308
0.8582

sd
0.2523
0.2788
0.2108
0.3797
0.2987
0.2167
0.355
0.297
0.247
0.2955
0.3734
0.2185
0.2614
0.4289
0.5904
0.6733
0.548
0.5399
0.6807

MC error
0.006718
0.008793
0.006927
0.009508
0.00923
0.007031
0.00843
0.008845
0.007468
0.009572
0.01022
0.007656
0.007499
0.01122
0.0115
0.01749
0.01431
0.01695
0.01573

2,5 %
-2.097
-2.627
-0.5039
-3.777
-2.801
0.2158
-3.59
-2.917
-2.031
-2.726
-3.731
0.303
-2.346
-4.175
-1.465
-0.4474
-2.333
-2.31
-0.4268

median
-1.57
-2.054
-0.09345
-2.985
-2.203
0.6483
-2.842
-2.277
-1.527
-2.118
-2.964
0.7273
-1.81
-3.258
-0.3554
0.8302
-1.301
-1.32
0.8516

97,5 %
-1.102
-1.544
0.3108
-2.288
-1.658
1.061
-2.203
-1.735
-1.058
-1.566
-2.312
1.159
-1.33
-2.482
0.8927
2.159
-0.2057
-0.1854
2.265

start
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001

sample
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000

Bibliografa
[1] Albert, J. H. (1992). Bayesian Estimation of Normal Ogive Item
Response Curves Using Gibbs Sampling. Journal of Educational
Statistics, 17, 251 - 269.
[2] Albert, J.H. y Ghosh, M. (2000). Item response modeling.
Generalized Linear Models: A Bayesian Perspective(D. Dey, S.
Ghosh & Mallick, eds.), Marcel-Dekker, New York, 173-193.
[3] Andrade, D. F. , Tavares, H. R. y Valle, R. C. (2000). Introducao `a Teoria da resposta ao Item : Conceitos e Aplicacoes. 14o
SINAPE : Caxambu, MG.
[4] Baker, F.B. (1992). Item Response Theory - Parameter Estimation Techniques. New York: Marcel Dekker, Inc.
[5] Bartholomew,D.J. y Knoot, M. (1999). Latent variable models
and factor analysis. (2nd ed.). London: Arnold. (Kendalls Library of Statistics 7.
[6] Bazan, J., Bolfarine, H. y Branco, M. (2004b). A skew item
response model. ISBA 2004 World Meeting. Vi
na del Mar. Chile, May 23-27, 2004. ISBA (International Society for Bayesian
Analysis).
[7] Bazan, J. L., Bolfarine, H. y Leandro, A. R. (2006). Sensitivity
analysis of prior specification for the probit-normal IRT model:
an empirical study. Estadstica. Journal of The Inter-American
Statistical Institute 58, 17-42.
[8] Bazan, J. L., Branco, D. M. y Bolfarine, H. (2006). A skew item
response model. Bayesian Analysis, 1 861- 892.
[9] Bazan, J. L., (2004). Introduccion al modelo psicometrico de la
Teora Clasica de los Test (parte I). Pro Matem
atica. PUCP. 18
(35-36), 79-107.
95

[10] Bazan, J. (1997) Metodologa estadstica de construccion de


pruebas. Una aplicacion al estudio de las actitudes hacia la matematica en la Unalm. Tesis para optar el ttulo de Ingeniero
Estadstico. Universidad Nacional Agraria La Molina.
[11] Bolfarine, H. y Bazan, J.
ponse Models. Presentacion
si
on. Baha, Brasil. Sesion
mericano de probabilidad y
Lima-Peru. Febrero.

L. (2007). Skewed Logit Item Resoral. Escuela de Modelos de Regrede Poster en el Congreso latinoaestadstica matem
atica. CLAPEM.

[12] Bazan, J., Calderon, A. y Valdivieso, L (2009). Modelos de


teora de respuesta al tem bajo enfoque Bayesiano- 1era. Edicion- Sociedad Matematica Peruana - Lima.
[13] Beguin, A. A.,y Glas, C. A. W. (2001). MCMC estimation of
multidimensional IRT models. Psychometrika, 66, 541-562.
[14] Birnbaum, A. (1968). Some Latent Trait Models and Their
Use in Infering an Examinees Ability. In Lord, F.M. y Novick,
M.R. Statistical Theories of Mental Test Scores. eading, MA :
Addison-Wesley.
[15] Bock, R. D. y Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: Application of an EM algorithm. Psychometrika 64,153-168.
[16] Bolt, D.M., Cohen, A.S.; y Wollack, J.A. (2002). Item parameter estimation under conditions of test speededness: Application
of a mixture Rasch model with ordinal constraints. Journal of
Educational Measurement, 39,331-348.
[17] Bond, T. G. y Fox, C. M. (2007). Applying the Rasch Model:
Fundamental Measurement in the Human Sciences. Philadelphia: Lawrence Erlbaum Associates.
[18] Borsboom, D., Mellenbergh, G. J. y van Heerden, J.(2003).
The Theoretical Status of Latent variables. Psychological Review, 110, 203-219.
96

[19] Brooks, S. P. (2002). Discussion on the paper by Spiegelhalter,


Best, Carlin, and van de Linde. Journal of the Royal Statistical
Society Series B, 64, 3,616-618.
[20] Calderon, A. (2005). Una aplicacion del Modelo de Respuesta
al Item en el diagnostico de Trastornos Alimentarios. Monografa
para optar al ttulo de Ingeniero Estadstico. Universidad Nacional Agraria La Molina. Lima
[21] Carlin, B.P. y Louis, T.A. (2001).Bayes and Empirical Bayes
Methods for Data Analysis Essays on Item Response Theory.
Second edition. New York: Chapman & Hall.
[22] Casella, G. y Berger, R. L (2002). Statistical Inference,Duxbury: Pacific Grove, CA.
[23] Chen, M-H, Shao, Q. M. y Ibrahim, J. G (2000). Monte Carlo
Methods in Bayesian Computation. New York: Springer Verlag.
[24] Chincaro, O. y Bazan, J. (2010). Una comparacion de metodos
de estimacion del modelo de Rasch. Poster presentados en la I
Jornada Internacional de Probabilidad y Estadstica JIPE 2010.
Lima: PUCP, Febrero.
[25] Delorio, M. y Robert, C. P. (2002). Discussion on the Paper
by Spiegelhalter, Best, Carlin and van der linde (2002). Journal
Royal Statistics Society. Serie B. 64, 629-630.
[26] Dempster, A. P., Laird N.M. y Rubin, D.B. (1977). Maximum
Likelihood from Incomplete Data via the EM Algorithm. Journal
of the Royal Statistical Society B, 39, 1, 1-38.
[27] Fischer, G. y Molenaar, I. (1995). Rasch Models. Foundations, recent development, and applications. The Nerthelands:
Springer-Verlag.
[28] Fox, J. P. y Glas, C. A.W. (2001). Bayesian estimation of a
multilevel IRT model using Gibbs sampling. Psychometrika, 66,
271-288.
97

[29] Fox, J. P. y Glas, C. A.W. (2003). Bayesian Modeling of measurement error in predictor variables using item response theory.
Psychometrika, 68, 169-191.
[30] Gamerman, D. y Lopes, H. F (2006). Markov Chain Monte
Carlo: Stochastic Simulation for Bayesian Inference, Chapman
and Hall/CRC.
[31] Gelfand, A. E. (1996). Model Determination using Samplingbased methods. En Markov Chain Monte Carlo in Practice,
Gilks, W.R. y Richardson, S. y Spiegelhalter, D. J. (editor)
captulo 9, 145-161.
[32] Gelfand, A.E. y Smith, A.F.M. (1990). Sampling-based approaches to calculating marginal densities. J. Am. Stat. Assoc.
85, 398-409.
[33] Gelman, A. y Rubin, D. B. (1992). Inference from iterative
simulation using multiple sequences. Statistical Science, 7, 457472.
[34] Geweke, J. (1992). Evaluating the accuracy of sampling-based
approaches to the calculation of posterior moments. En: Bernardo, J.M., Berger, J.O., Dawid, A.P., Smith, A.F.M. (eds.) Bayesian Statistics, vol. 4, pp. 169-193. Oxford University Press,
Oxford .
[35] Ghosh, M., Ghosh, A., Chen, Ming-Hui y Agresti, A. (2000).
Noninformative priors for one parameter item response models.Journal of Statistical Planning and Inference. 88, 99-115.
[36] Gilks, W. R., Richardson. S. e Spiegelhalter, D. J. (1996).
Markov Chain Monte Carlo in practice. London : Chapman &
Hall.
[37] Gilks, W. R. y Wild, P. (1992). Adaptive rejection sampling
for Gibbs sampling. Applied Statistics, 41, 337-348.
[38] Goegebeur, Y., De Boeck, P., Wollack, J.A. y Cohen, A.S.
(2008). A Speeded Item Response Model with Gradual Process
Change. Psychometrika, 73,65-87.
98

[39] Hastings, W.K. (1970). Monte Carlo sampling methods using


Markov chains. Biometrika 57, 97-109.
[40] Holland, P. y Rosenbaum, P. (1986). Conditional Association
and Unidimensionality in Monotone Latent variable models. The
Annals of Statistics. 14 1523-1543.
[41] Johnson, V. y Albert, J. (2000). Ordinal Data Modeling. New
York, MA: Springer-Verlag.
[42] Johnson, T. R. (2003). On the use of heterogeneous thresholds
ordinal regression models to account for individual differences in
response style. Psychometrika, 68(4), 563-583.
[43] Linardakis, M. y Dellaportas, P. (2002). An approach to multidimensional item response modeling. E. I. George. (Ed.). Bayesian Methods with applications to science policy and oficial
statistics. 331-340.
[44] Lord, F. M. (1952). A theory of test scores. New York: Psychometric Society.
[45] Lord, F. y Novick, M. R. (1968). Statistical theories of mental
test scores. Reading, MA: Adisson-Wesley.
[46] Martin, A.D. y Quinn, K. M. (2002). MCMCpack.
scythe.wustl.edu/mcmcpack.html.
[47] Martinez, P., Zusman, L., Hartley, J., Morote R. y Calderon
A.D. (2003). Estudio epidemiologico de los eranstornos elimentarios y factores esociados en Lima Metropolitana. Revista de
Psicologa, 2, 234-269.
[48] Neyman, J. y Scott, E. L. (1948). Consistent estimates based
on partially consistent observations. Econometrika, 16(1), 1-32.
[49] Patz, R. J., y Junker, B. W. (1999). A straighforward approach to Markov Chain Monte Carlo methods for item response
models. Journal of Educactional and Behavioral Statistics, 24,
146-178.
99

[50] Rivers, D. (2003). Identification of Multidimensional Spatial


Voting Models. Technical Report: Political Methodology Working Papers. Stanford University.
[51] Roberts, C., P.(2001) The Bayesian Choice: from decisiontheoretic foundations to computational implementation. 2nd ed.
New york: Springer-Verlag.
[52] Rupp, A., Dey, D. K., y Zumbo, B. (2004). To Bayes or Not to
Bayes, from Whether to When: Applications of Bayesian Methodology To Item Response Modeling. Structural Equations Modeling. 11, 424-451.
[53] Ross, S. (1995). Stochastic Processes, Wiley: New York, NY.
[54] Schervish, M. J. (1995). Theory of Statistics, Springer-Verlag:
New York, NY.
[55] Sahu, S. K. (2002). Bayesian estimation and model choice in
item response models. Journal Statistical Computing Simulation,
72,217-232.
[56] Samejima, F (2000). Logistic positive exponent family of models: Virtue of asymmetric item characteristic curves. Psychometrika, 65:3: 319-335.
[57] Schervish, M. J. (1995). Theory of Statistics, Springer-Verlag:
New York, NY.
[58] Spiegelhalter, D. J., Thomas, A., Best, N. G. y Gilks,
W.R.(1996). BUGS 0.5 examples (Vol. 1 Version i). Cambrigde, UK: University of Cambride.
[59] Tierney, L. (1994). Markov chains for exploring posterior distributions. Ann. Stat. 22, 1701-1762.
[60] Valdivieso, L. y Bazan, J. L. (2009). Bayesian Estimation in a
Speed Item Response Model. Presentacion oral. 1er Congresso
Brasileiro de Teoria de Resposta ao Item. Florianopolis Brasil.
Diciembre.
100

[61] van der Linden, W.J. y Hambleton, R. K. (1997). Handbook


of Modern Item response Theory. New York: Springer-Verlag.
[62] Wang, X, Bradlow,E. T. y Wainer,H. (2003). A General Bayesian Model for Testlets: Theory and Applications. Applied Psychological Measurement, 26, 109-128.
[63] Yamamoto, K. y Everson, H. (1997). Modeling the effects of
test length and test time on parameter estimation using the hybrid model. Applications of latent trait and latent class models
in the social sciences. In J. Rost & R. Langeheine (Eds.), New
York: Waxmann, 89-99.
[64] Zusman, L (2000). Las conductas alimenticias en adolescentes
mujeres de Lima Metropolitana: sus manifestaciones y las caractersticas personales y familiares asociadas. Tesis de Maestra
PUCP.

Dr. Jorge Luis Bazan


Pontificia Universidad Catolica del Per
u
email: [email protected]
Dr. Luis Valdivieso
Pontificia Universidad Catolica del Per
u
email: [email protected]
Lic. Arturo Calderon
Pontificia Universidad Catolica del Per
u
email: [email protected]

101

También podría gustarte