Enfoque Bayesiano en Modelos de Teoria de Respuesta Al Item
Enfoque Bayesiano en Modelos de Teoria de Respuesta Al Item
Enfoque Bayesiano en Modelos de Teoria de Respuesta Al Item
27
SERIE B
ENFOQUE BAYESIANO EN MODELOS DE
TEORIA DE RESPUESTA AL ITEM
Jorge Bazan
Luis Valdivieso
Arturo Calderon
Departamento de Ciencias
Seccion Matematica
Pontificia Universidad Catolica del Per
u
Apartado 1761
Lima-Per
u
PRESENTACION
Con el objetivo de promover el intercambio de experiencias de investigacion entre academicos nacionales e internacionales, los programas
de Posgrado en Estadstica, Matematicas Aplicadas y Matematicas de la
Pontificia Universidad Catolica del Per
u (PUCP) organizaron la I Jornada Internacional de Probabilidad y Estadstica (JIPE-2010).
La jornada conto con sesiones plenarias y conferencias a cargo de
reconocidos academicos internacionales, cinco minicursos, una sesion de
comunicaciones y presentacion de posters. Todos los trabajos fueron sujetos a la aprobacion de un comite cientfico internacional.
Pensado como el primero de una serie de eventos similares, el JIPE
se desarrollo en el campus de la PUCP del 3 al 5 de febrero del 2010.
El evento fue un proyecto ganador del premio Ulises de la Escuela de
Posgrado de la PUCP instituido para promover la internalizacion de sus
programas. El evento ha contado tambien con el apoyo de la Seccion
Matematicas del Departamento de Ciencias.
En este reporte se presenta el material utilizado en uno de los minicursos ofrecidos en el evento. Agradecemos a los autores por su esfuerzo y
contribucion desinteresada por promover el area y difundir los resultados
de sus investigaciones.
Indice general
1. Introducci
on
.
.
.
.
.
.
.
.
.
3. Inferencia Bayesiana
3.1. Funcion de verosimilitud . . . . . . . . . . . . . . . . . . .
3.2. Inferencia Bayesiana . . . . . . . . . . . . . . . . . . . . .
3.2.1. Ejemplo 1: Un intervalo para una proporcion . . .
3.2.2. Ejemplo 2: Inferencia para una distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. Metodos de MCMC . . . . . . . . . . . . . . . . . . . . .
4. Las prioris en TRI
4.1. Nociones basicas . . . . . . . . . . . . . . . . . . . . .
4.2. Prioris no informativas para el modelo TRI de 1 y
parametros . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Prioris no informativas para los modelo TRI de 1 y
parametros con puntajes extremos . . . . . . . . . . .
i
5
5
7
9
10
11
11
11
11
13
16
16
16
18
21
22
27
. . 27
2
. . 30
2
. . 32
35
35
36
36
6. Aplicaciones
6.1. Analisis de una escala de percepcion de peso . . . . . . . .
6.2. Analisis de una prueba de Matematicas . . . . . . . . . .
6.2.1. Comparando varios modelos TRI para los datos de
la prueba de Matematicas . . . . . . . . . . . . . .
6.2.2. Analisis de sensibilidad usando diferentes prioris
para a y b en el modelo 2P . . . . . . . . . . . . .
6.2.3. Inferencia e interpretacion de los parametros en el
modelo 2P . . . . . . . . . . . . . . . . . . . . . . .
44
44
52
65
66
66
68
70
72
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
38
38
40
53
55
60
iii
Introducci
on
Un modelo de variable latente es un modelo estadstico que relaciona un conjunto de variables (las llamadas variables manifiestas) con
un conjunto de varibles latentes. En general se asume que las respuestas
en los indicadores o variables manifiestas son el resultado de la posicion individuo en la variable o variables latentes consideradas y que las
variables manifiestas no tienen nada en com
un despues de controlar la
variable latente, aspecto conocido como independencia local. Para una
mayor comprension acerca de las variables latentes puede revisarse Borsboom, Mellenbergh y van Heerden (2003).
Como proponen Bartholomew y Knoot (1999), existen diferentes
tipos de modelos de variables latentes dependiendo si las variables manifiestas y latentes son categoricas o continuas. As por ejemplo, cuando
ambas son continuas tenemos el modelo de Analisis Factorial, cuando
ambas son categoricas tenemos los modelos de clase latente. Cuando las
variables manifiestas son continuas y las latentes son categoricas tenemos
el modelo de analisis de perfiles latentes y de manera inversa, cuando las
variables latentes se asumen continuas y las manifiestas discretas tenemos los modelos de rasgos latentes.
Dos de los mas importantes modelos de rasgos latentes en orden
historico son la teora clasica de los test (TCT) (ver por ejemplo, Lord y
Novick, 1968) y la teora de la respuesta al item (TRI) (ver por ejemplo,
Baker, 1992). Estos modelos se emplean principalmente para el analisis
de datos de indicadores o variables manifiestas obtenidas en procesos de
medicion y o evaluacion en los que lo que se pretende medir no puede
observarse directamente o es subyacente a estos indicadores y por tanto
es conceptualizado como una variable latente.
Historicamente estos modelos han sido desarrollados en el ambito
de la Psicometra pero actualmente y especialmente la TRI es un area
importante y creciente no solo en Estadstica si no en areas de Computacion y Probabilidad debido a la importante cantidad de problemas que
1
2.1
Definici
on 2.1.1. Definimos un modelo latente como el par ordenado
(Y, U), donde la secuencia aleatoria Y = (Y1 , Y2 , Y3 , . . .) y el vector
aleatorio U = (U1 , U2 , . . . , Um ) contienen a las denominadas variables
manifiestas y latentes, respectivamente.
Una variable es considerada latente en el sentido que no es empricamente observable y manifiesta en caso contrario. En general, los modelos
de variables latentes se formulan con el proposito de conocer las principales caractersticas de U en base al conocimiento de Y.
Definici
on 2.1.2. Un modelo latente (Y, U) se dice que satisface:
La independencia condicional, si la distribucion condicional de cualquier subconjunto de Y dado U = u puede expresarse como el
producto de las distribuciones marginales condicionales de Y dado
U = u, para todo de u Rm . En este caso diremos que el modelo
es condicionalmente independiente.
La monotonicidad, si
1 P (Yi y|U = u) = P (Yi > y|U = u)
(2.1)
Definici
on 2.1.3. Un modelo latente (Y, U) se denomina condicionalmente mon
otono si satisface la independencia condicional y la monotonicidad. Si ademas el modelo es unidimensional se dice que (Y, U) es un
modelo condicionalmente mon
otono unidimensional o que admite una
representaci
on mon
otona unidimensional.
Proposici
on 2.1.1. Considere un modelo mon
otono unidimensional
(Y, U ) en donde cada Yi |U = u toma tan solo dos posibles valores: uno
llamado exito con probabilidad u y el otro llamado fracaso con probabilidad 1 u, siendo 0 < u < 1. Entonces existe una u
nica distribuci
on
para U , dada por G, tal que toda distribuci
on finito dimensional de Y
puede representarse por:
Z Y
f (y) =
uyi (1 u)1yi dG(u),
i
Demostraci
on. La existencia esta garantizada por el teorema de representacion de De Fineti (Schervish, 1995) que indica que esto ocurre si
todos las componentes de Y son una secuencia infinita permutable (las
variables independientes e identicamente distribuidas lo son) siendo
G(u) = lm P (Sn u)
n
con
Sn = Y1 + Y2 + . . . , Yn
Sn
.
n n
u = lm
Dado que cada Yi |U sigue una distribucion de Bernoulli, toda distribucion conjunta finito dimensional de Y condicionada a U , resulta
ser
Y
f (y|U = u) =
uyi (1 u)1yi
i
2.2
Formulaci
on general de la TRI
Definici
on 2.2.1. Considere n sujetos evaluados en una prueba de k
items. Un modelo de Teora de Respuesta al item, o por brevedad modelo
TRI, binario unidimensional es un sistema en el que para cada sujeto i
se tiene un modelo de variable latente mon
otono unidimensional (Y, Ui )
definido por las expresiones:
Yij |ui , j Bernouilli(pij )
(2.2)
(2.3)
mij = aj (ui bj ),
(2.4)
i = 1 . . . , n, j = 1, . . . , k
donde
Yij es la variable manifiesta que modela la respuesta binaria del
sujeto i que responde al tem j.
j = (aj , bj ) son parametros que representan, respectivamente, a
la discriminacion y la dificultad del tem j.
ui es el valor de la variable latente Ui para el sujeto i, que podramos
interpretarla como la habilidad del sujeto i.
7
Observaciones
El modelo TRI satisface la propiedad de independencia condicional
latente ; es decir, para un sujeto i las respuestas Yij a los diferentes
items son condicionalmente independientes dada la variable latente
Ui , i = 1 . . . , n.
El modelo TRI satisface la propiedad de monotonicidad latente ,
pues es una funcion estrictamente no decreciente de Ui ,i = 1 . . . , n.
El modelo TRI es unidimensionalmente latente .
En la TRI, F (mij ), donde i = 1 . . . , n y j = 1, . . . , k, es la misma
para cada caso y F 1 (.) es llamada la funcion de enlace.
Se asume tambien independencia entre las respuestas de los distintos sujetos.
Los parametros de dificultad bj y de discriminacion aj representan
la posicion e inclinacion del item j, respectivamente, siendo aj un
valor proporcional a la inclinacion de la CCI en el punto bj . Valores
aj < 0 no son esperados. El espacio parametrico para el parametro
bj es arbitrario y corresponde al mismo que para ui que por lo
usual se toma como la recta real.
Proposici
on 2.2.1. En un modelo TRI binario, la densidad conjunta
del vector de respuestas multivariantes Y = (Y 1 , . . . , Y n )0 , con Yi =
(Yi1 , . . . , Yik ), dado el vector de variables latentes U = (U1 , . . . , Un )0 y
el vector de par
ametros de los tems = (1 , . . . , k )0 puede ser escrito
como:
f (y|u, ) =
n Y
k
Y
(2.5)
i=i j=1
Demostraci
on. La prueba es directa por la independencia condicional
latente.
El primer modelo TRI binario fue introducido por Lord (1952) con
una CCI dada por F (x) = (x), siendo la funcion de distribucion
acumulada de una variable normal estandar. Este modelo es conocido
en la literatura psicometrica como un modelo de ojiva normal el cual
corresponde, en el contexto de los modelos lineales generalizados, a una
funcion de enlace probit. Por otro lado, Birbaum (1968) considero una
ex
CCI dada por F (x) = L(x), donde L(x) = 1+e
on
x denota a la funci
de distribucion acumulada de una variable logstica. Esta induce, en el
lenguaje de los modelos lineales generalizados, a una funcion de enlace
logit. Este modelo es conocido como el modelo logstico.
2.3
Casos particulares
(2.6)
(2.7)
2.4
P (Yij = 1|ui , aj , bj , cj ) = cj + (1 cj )
1
1+
eDaj (ui bj )
(2.8)
donde por lo usual se asume que D = 1 aunque algunos autores consideran tambien el valor D = 1.7 a fin de aproximar este modelo a uno
de ojiva normal. Como casos particulares se tiene
P (Yij = 1|ui , aj , bj ) =
P (Yij = 1|ui , bj ) =
10
1
1+
eDaj (ui bj )
1
1 + eD(ui bj )
(con cj = 0) y
(con cj = 0 y aj = 1).
Al u
ltimo modelo de un parametro, se le conoce tambien como el modelo de Rasch y tiene derivaciones propias (vease por ejemplo Fischer y
Molenaar, 1995).
2.5
2.5.1
2.5.2
Presencia de par
ametros incidentales
Es bastante conocido que los estimados de parametros estructurales no son necesariamente consistentes cuando son estimados de manera
conjunta con parametros incidentales (Neyman y Scott, 1948). En TRI,
para un n
umero fijo de tems, los parametros de los tems son denominados estructurales mientras los parametros de la variable latente son
considerados incidentales debido a que el n
umero de parametros de la
variable latente se incrementa si se incrementa el n
umero de respondientes. Debemos llamar la atencion que el procedimiento de estimacion
conjunta por maxima verosimilitud es un metodo frecuente en la estimacion del modelo de Rasch, y se encuentra implementado en el software
Winstep y como es de esperarse tiene resultados no consistentes frente
a otros metodos como ha sido mostrado por Chincaro y Bazan (2010).
2.5.3
Identificabilidad
aj (ui bj ) =
aj
[(40ui + 200) (40bj + 200)] = aj (ui bj ).
40
aj
y bj = 40bj + 200.
40
2.6
Relaci
on de la TRI con la TCT
15
3
3.1
Inferencia Bayesiana
Funci
on de verosimilitud
Definici
on 3.1.1. Sea Y un vector aleatorio cuya distribucion dependa
de un parametro . Definimos la funcion de verosimilitud L para un
vector de datos observados y de Y como
L(y|) = f (y | )
La verosimilitud es la probabilidad que usted pueda encontrar el
valor observado dado el modelo.
Definici
on 3.1.2. Un estimador de m
axima verosimilitud para el parame
tro es el valor para el cual la funcion de verosimilitud L(y|) es
maxima.
La solucion de inferencia clasica consiste en maximizar L y obtener
A menudo es mas conveniente maximizar
la solucion correspondiente .
el logaritmo natural de la funcion de verosimilitud
`(y|) = log L(y|).
Cuando la solucion de maxima verosimilitud no puede obtenerse
analticamente se recurre a metodos numericos.
3.2
Inferencia Bayesiana
En la inferencia Bayesiana hay importantes diferencias con la inferencia clasica (de maxima verosimilitud). Para una revision rapida puede
verse Casella y Berger (2002). Una revision mas detallada puede encontrarse en Robert (2001).
A manera de resumen consideremos el vector aleatorio Y | donde
es un parametro que caracteriza a la distribucion de Y . En la inferencia
Bayesiana:
16
f (, y)
L(y|)f ()
=
.
f (y)
f (y)
Observaci
on:
Tomando logaritmo en la expresion anterior obtenemos:
log f (|y) `(y|) + log f ().
Por tanto, si se considera una priori no informativa para ; es decir,
f () = c (con c una constante)
maximizar log f (|y) para resulta equivalente a maximizar `(y|).
En otras palabras, la estimacion de maxima verosimilitud (que maximiza `(y|)) puede considerarse como un caso particular de inferencia Bayesiana sin informacion a priori. Naturalmente cuando
f () 6= c, la maximizacion de la posteriori sera distinta a la de
maxima verosimilitud.
17
3.2.1
Un problema bastante frecuente es el de la inferencia sobre una proporcion p. Por ejemplo, supongamos que estamos interesados en construir
un intervalo de confianza para la proporcion p de aprobacion presidencial en Lima Metropolitana con base a la informacion obtenida por una
encuestadora en una muestra aleatoria de n = 400 personas de Lima
Metropolitana. Si la proporcion de aprobacion obtenida en la muestra
fue de p = 0.3, como entonces podramos hacer inferencias sobre p,
tanto desde un punto de vista clasico como Bayesiano.
18
Soluci
on cl
asica
En la inferencia clasica es conocido que una aproximacion para el
intervalo de confianza al 100(1 ) % para p viene dado por:
r
IC(p) = p z
1
2
p(1 p)
.
n
0.3 0.7
= [0.2550908, 0.3449092].
400
( + ) 1
)p
(1 p)1 p1.61251 (1 p)14.3751 ,
()(
donde la u
ltima es una igualdad excepto por una constante que no
depende de p y por tanto no es de interes.
Fase 3. Obteniendo la verosimilitud. En este caso se trata de un
modelo Binomial Y |p B(n, p) y por tanto tenemos que
L(y|p) =
n
Y
i=1
Cyni
L(y|p) p
i=1
yi
(1 p)n
Pn
i=1
yi
= p120 (1 p)400120 .
En el ejemplo anterior observamos que la distribucion a posteriori fue relativamente facil de obtener e identificar. En muchas ocasiones,
sin embargo, tal tarea no es del todo automatica ya que dependiendo
de la priori elegida la distribucion a posteriori puede ser bastante compleja e incluso no pertenecer a algunas de las familias de distribuciones
conocidas. En tal situacion, como ejemplificaremos en el siguiente problema, tenemos por fortuna la posibilidad de recurrir a un conjunto de
metodos de simulacion, globalmente conocidos como de Montecarlo, que
nos permitiran obtener de manera aproximada la deseada distribucion a
posteriori.
3.2.2
n
Y
i=1
f (yi |) =
n
Y
i=1
1
12
n e 2
(2 2 ) 2
2
1
1
e 22 (yi )
2
Pn
i=1
(yi )2
21
1
1 + 2
f (|y) L(y|)f () =
e 2
Pn
i=1
(yi )2
1 + 2
3.3
M
etodos de MCMC
Como hemos visto en este captulo, el paradigma Bayesiano centra su interes en la distribucion a posteriori f (|y). Ella contiene toda la
informacion relevante del parametro desconocido dada la data observada y. As, toda inferencia estadstica puede deducirse de la distribucion
a posteriori al considerarse alg
un resumen adecuado. Tales res
umenes
toman tpicamente la siguiente forma integral:
Z
I = g()f (|y)d.
(3.1)
Por ejemplo, si se tiene interes en estimadores puntuales del parametro
desconocido uno puede utilizar la media a posteriori, que no es sino un
caso particular de (3.1) de tomarse g(x) = x. Otro interes podra centrarse en predecir alg
un valor futuro y en base a la distribucion predictiva a
posteriori
Z
f (
y |y) =
f (
y |, y)f (|y)d,
converge a la integral deseada en (3.1). En otras palabras, I nos provee de una buena aproximacion para I. El reto de los metodos MCMC
consiste entonces en precisar una cadena de Markov adecuada con la distribucion a posteriori f (|y) como su distribucion estacionaria y decidir
cuando detener la simulacion. Una excelente introduccion a los procesos de Markov y al teorema ergodico puede encontrarse en Ross (1995).
Para un enfoque mas formal en relacion a la inferencia Bayesiana puede
consultarse Tierney(1994).
Describamos ahora uno de los metodos MCMC mas populares conocido como el muestreador de Gibbs. El siguiente ejemplo nos ilustra
su aplicacion.
Ejemplo 3.3.1. (Gelfand y Smith, 1990) Consideremos un modelo de
analisis de varianza de efectos aleatorios:
yij = i + ij ,
23
Los pasos 1 al 4 definen una cadena de Markov {n } cuya distribucion converge a la deseada f (|y). Los promedios ergodicos del tipo
24
PM
1
I = M
on numerica de
j=1 g(j ) nos proveen luego de una aproximaci
la integral a posteriori (3.1).
El ejemplo descrito es un caso particular del muestreador de Gibbs.
En general dado el parametro = (1 , . . . , p ), el muestreador de Gibbs
trabaja en forma iterativa. Para cada dimension j = 1, 2, . . . , p genera
las distribuciones condicionales a posteriori de
j,n+1 j |y, 1,n+1 , . . . , j1,n+1 , j+1,n , . . . , p,n .
(3.2)
El metodo de Gibbs debe su popularidad al hecho de que en muchos modelos estadsticos la distribucion condicional a posteriori completa f (j |y, k , k 6= j) se puede simular al ser explcita. Ocurren, sin
embargo, casos en donde esto no es posible y por ello se hace necesario contar con otros metodos MCMC alternativos. Posiblemente el mas
generico de estos esquemas es el de Metropolis. Para generar la distribucion a posteriori, este metodo define una cadena de Markov en el que
una transicion sigue los pasos siguientes:
pro1. Se genera un valor de a partir de alguna distribucion h(|)
puesta que la detallaremos mas adelante.
2. Se calcula
= mn{1,
a(, )
f (|y)
h(|)
.
}
f (|y) h(|)
h(|)
se cancela en a. Otra variante practica de interes es el uso de
h(|)
Tierney (1994) refiere a
distribuciones propuestas independientes h().
estos algoritmos como cadenas independientes. Hasting (1970) propone
25
26
4
4.1
f (, y)
f (y | )f ()
=
f (y)
f (y)
(4.1)
R
donde f (y) = f (y | )f ()d. Como anteriormente vimos, una forma
equivalente de la expresion anterior es omitir el factor f (y), que no depende de . Esta se denomina la densidad a posteriori no normalizada.
En tal caso escribiremos:
27
f (|y) f (y | )f ()
(4.2)
Cuando la distribucion a priori no tiene base poblacional, ella pueden ser difcil de construir. En tal sentido si uno desea que esta priori
juegue un rol mnimo en la distribucion a posteriori, uno llega a las llamadas distribuciones a priori de referencia, donde su densidad es descrita
como vaga, plana, difusa o no informativa. La racionalidad para usar
prioris no informativas es a menudo justificada diciendo que los datos
hablen por si mismos desde que la distribucion a posteriori de depende
apenas de f (y | ) y no de informacion externa a los datos recientes dada
por la priori f ().
Si f () c, con c constante y ] , [, tal distribucion no es
estrictamente posible, pues su integracion es infinita. En general, llamaremos a la densidad de la priori f () como propia si no depende de los
datos y su integral da 1. En el caso de una integral no finita diremos
que la priori es impropia. No obstante, una priori impropia puede llevar
a una distribucion a posteriori propia.
En casos mas complejos, donde por citar = (1 , 2 ) es un vector
bivariado, es importante estudiar bajo que condiciones la distribucion
a posteriori f ( | y) es propia. Para esto consideraremos las siguientes
definiciones preliminares.
Definici
on 4.1.1. Sea Y un vector aleatorio con funcion de verosimilitud f (y | 1 , 2 ). Diremos que Y es no identificable para 2 si
f (y | 1 , 2 ) = f (y | 1 ), y.
Definici
on 4.1.2. Si Y es un vector aleatorio con funcion de verosimilitud f (y | 1 , 2 ). Diremos que 2 es no identificable si f (2 | 1 , y) =
f (2 | 1 ), y.
28
Proposici
on 4.1.1. Las definiciones arriba son equivalentes.
Demostraci
on. Usando la definicion de probabilidad condicional y el hecho de que 2 es no identificable podemos escribir
f (y | 1 , 2 ) =
f (2 | y, 1 )f (y, 1 )
f (y, 1 , 2 )
=
= f (y | 1 ).
f (1 , 2 )
f (2 | 1 )f (1 )
Analogamente, usando la definicion de probabilidad condicional y el hecho que Y tiene una funcion de densidad no identificable para 2 podemos escribir
f (2 | y, 1 ) =
f (y, 1 , 2 )
f (y | 1 , 2 )f (1 , 2 )
=
= f (2 | 1 ).
f (1 , y)
f (y | 1 )f (1 )
El significado de la no identificabilidad para 2 es que los datos observados no incrementan el conocimiento a priori acerca de 2 | 1 o que
la funcion muestral no dependa de 2 .
Lema 4.1.1. (Ghosh et al. 2000)
Sea Y un vector de observaciones con verosimilitud f (y|1 , 2 ). Si Y
es no identificable para 2 , entonces la distribuci
on a posteriori de =
(1 , 2 ) es propia si y solamente si las distribuciones 1 |y y 2 |1 son
ambas propias.
Demostraci
on. Usando (4.2), la hipotesis y la definicion de probabilidad
condicional tenemos
f (1 , 2 |y) f (y|1 , 2 )f (1 , 2 ) = f (y|1 )f (2 |1 )f (1 ) = f (2 |1 )f (1 |y).
De aqu sigue que para que |y sea propia 1 |y y 2 |1 deben ser propias. Basta que una de ellas sea impropia para obtener que (1 , 2 )|y es
impropia.
29
4.2
n Y
k
Y
i=i j=2
n
Y
i=1
Demostraci
on. Defina Uic = Ui b1 , i = 1, . . . , n, y bcj = bj b1 , j =
2, . . . , k transformaciones lineales 1-1. Si escribimos U c = (U1c , . . . , Unc )
y bc = (bc2 , . . . , bck ), entonces (U c , a, bc , b1 ) es una transformacion 1-1
de (U , a, b). Como la transformacion es lineal el Jacobiano de la transformacion de (U , a, b) a (U c , a, bc , b1 ) es constante libre de cualquier
parametro. Entonces f (uc , a, bc , b1 ) c con c constante. De esta manera la distribucion a posterior de f (b1 | uc , a, bc ) c. Como b1 tiene
distribucion sobre R, se sigue que f (b1 | uc , a, bc ) es impropia.
Por otro lado, la funcion de verosimilitud del modelo de 2 parametros puede ser reescrita como:
f (y|uc , a, bc , b1 ) =
n Y
k
Y
i=i j=2
k
Y
i=1
31
Es interesante notar, sin embargo, que todas las posteriores condicionales completas son propias cuando se asume al menos un aj impropia.
De esta manera esta propiedad de la distribucion a posteriori no podra
ser detectada en la implementacion del algoritmo de Gibbs.
Por otro lado, algunos autores sugieren que prioris no informativas
para U , a y b hacen que el analisis Bayesiano sea comparable al analisis
de maxima verosimilitud. Pero en el analisis Bayesiano esto es altamente
cuestionable, porque la posterior es impropia en este caso. Esto es consecuencia de un resultado mas general establecido abajo por Albert y
Ghosh (2000) pero no probado.
Teorema 4.2.4. (Albert y Ghosh, 2000) Considere un modelo TRI de
2 par
ametros. Si la distribuci
on a priori f (U , a) g(a), donde g es una
funci
on positiva arbitraria de a (por ejemplo g puede ser una funci
on de
densidad propia para a). Entonces la distribuci
on posterior es siempre
impropia.
4.3
Definici
on 4.3.1. Considerando una prueba de k items respondida por
Pn
Pk
n sujetos, definimos yi = j=1 yij y yj = i=1 yij como respectivamente los puntajes del sujeto i y del tem j. El puntaje extremo de sujeto ocurre cuando existe un sujeto i para el cual se cumple que yi = k
o yi = 0. As tambien el puntaje extremo de tem ocurre cuando existe
un tem j para el cual se cumple que yj = n o yj = 0.
Demostraci
on. Sin perdida de generalidad asumamos que el sujeto h
tiene puntaje extremo yh = 0 lo cual implica que su puntaje en cada
tem es cero (yhj = 0 para todo j = 1, . . . , k). Ahora
Z
L(b |y) =
k
Y
j=2
k
Y
j=2
F (bcj )F (0)duch = .
L(bc |y) =
k
Y
j=2
Z
F (uch + bcj )F (ucl )duch
k
Y
F (bcj )F (0)duch = .
j=2
L(u |y) =
n
Y
i=1
F (uci
bck )dbck
I
Y
Z
F (uci )
i=1
dbck = .
n
Y
i=1
n
Y
i=1
Z
F (uci )
dbck = .
Demostraci
on. Remitimos al lector a revisar la prueba realizada en Ghosh
et al (2000)
El tercer supuesto del teorema anterior, relativa a las funciones usadas para las curvas caractersticas de tem, ocurre automaticamente para
cualquier distribucion con momentos finitos. De esta manera, el teorema
se cumple para los enlaces logit y probit. El teorema es tambien aplicable
a distribuciones t con grados de libertad que exceden n + k + 1. Para
otros enlaces como los discutidos en el captulo final de este documento
as como para la de los modelos de 2 y 3 parametros se debe establecer
nuevos teoremas acerca de la existencia de distribuciones a posteriori
propias bajo prioris impropias. En general los teoremas mostrados indican que es recomendable considerar prioris propias para los parametros
de tem y la variable latente, especialmente en el caso de la priori para el parametro de discriminacion. Ademas como ha sido comentado en
el captulo 2, prioris propias aseguran la identificabilidad del modelo y
evitan el problema de presencia de parametros incidentales.
34
5
5.1
n Y
k
Y
(5.1)
i=i j=1
n
Y
g1i (ui )
i=1
k
Y
g2j (j )
(5.2)
j=1
(5.3)
No obstante, como se estudio antes, esta distribucion no es en general identificable. De esta manera se requiere de metodos MCMC. En
lo que resta ilustraremos detalladamente la inferencia Bayesiana usado
metodos MCMC para TRI para el caso del modelo de ojiva normal.
35
5.2
5.2.1
n Y
k
Y
i=i j=1
h 2
a
0
0 i
.
b2
!
n Y
k
k
n
Y
Y
Y
yij
1yij
f (u, |y)
(mij ) (1(mij ))
g1i (ui )
g2j (aj , bj )
i=i j=1
j=1
i=1
n Y
k
Y
i=i j=1
n
k
k
h 1 X
i
1 X 2
1 X
exp
u2i + 2
bj + 2
(aj a )2 .
2 i=1
b j=1
a j=1
36
f (ui |, y) =
k
Y
j=1
(j |u, y) =
n
Y
i=1
5.2.2
El modelo de ojiva normal puede ser ajustado usando MCMC. Note que todas las distribuciones condicionales previamente indicadas no
son estandares. Por este hecho es difcil implementar un muestreo de
Gibbs . Sin embargo, dado que las distribuciones condicionales completas del modelo son log-concavas (es decir, el logaritmo de las densidades
correspondientes son funciones concavas), el muestreo exacto de ellas
puede se ejecutado usando rejection sampling (ver e.g. Gilks and Wald
(1982)). Esos autores desarrollan tambien un esquema adaptative rejection sampling (ARS). El ARS construye dinamicamente dos envolventes
(una superior y una inferior) para la distribucion a ser muestreada de
evaluaciones sucesivas de la densidad en los puntos rechazados. El algoritmo se detiene cuando el punto propuesto ha sido aceptado. Este es el
procedimiento por defecto en el software WinBUGS 1.3 para el modelo
de ojiva normal.
37
5.2.3
Una formulaci
on adecuada para el modelo TRI
de ojiva normal
1, si Zij > 0
Yij =
(5.4)
0, si Zij 0,
donde
Zij = mij + eij
y eij N (0, 1).
Demostraci
on. Basta observar que pij = P (Yij = 1) = P (Zij > 0) =
(mij ), i = 1 . . . , n , j = 1, . . . , k. Luego, la estructura normal lineal
de la variable latente auxiliar produce un modelo equivalente al modelo
de ojiva normal.
5.2.4
Pk
a
z
+
b
j
ij
j
j=1
1
m ui =
y vui = P k
.
Pk
2
2
j=1 aj + 1
j=1 aj + 1
f (j |u, zj , y) 2 (j ; mj , vj ), donde
h
i1 h
i
h
i1
1
1
0
0
mj = W 0 W +1
W
Z
+
,
v
=
W
W
+
,
j
38
h i
h 2
a
a
, =
0
0
0 i
y W = (u, 1) con Wi0 = (ui , 1).
b2
Demostraci
on. Usando la nueva formulacion tenemos que la funcion de
verosimilitud de datos aumentados, considerando a estos como D =
(Z, y), viene dada por:
f (D|u, ) =
n Y
k
Y
i=1 j=1
k
k
n
k
n
X
1 X X
1 X 2 i
1 X 2
bj + 2
a
I(zij , yij )
(zij mij )2 +
u2i + 2
2 i=1 j=1
b j=1
a j=1 j
i=1
Con estas condicionales uno puede implementar facilmente el muestreo de Gibbs. Rutinas en R (en MCMCpack de Martin y Quinn, 2003) y
Mathlab (Johnson e Albert, 1999) se disponen en la Web. En WinBUGS,
la implementacion de este procedimiento no es directa pues precisa de
una correcta especificacion de las variables indicadoras. Mayores detalles
pueden seguirse en Bazan, Bolfarine, Leandro (2006). Un detalle de los
codigos para estos procedimientos se muestra en el apendice A y seran
usados en la subseccion 6.2.2. Los esquemas de simulacion MCMC para
los otros modelos tradicionales son similares al caso presentado. Para
mayores detalles, vease Sahu (2002).
39
5.3
Crit
erios de comparaci
on de modelos en el contexto Bayesiano
El desarrollo de metodos MCMC permite ajustar una gran cantidad de modelos para un mismo conjunto de datos y por tal motivo es
necesario comparar modelos alternativos con el proposito de identificar
un modelo apropiado que pueda describir adecuadamente estos datos.
Existe un variedad de metodologas para comparar el ajuste de modelos Bayesianos alternativos. Se puede ver por ejemplo el trabajo Gilks
et al. (1996). El principal criterio usado en este trabajo es el criterio
de informaci
on de desvo (o DIC de Deviance Information Criterion)
propuesto por Spiegelhalter et al. (2002). EL DIC es u
til aqu porque es
relativamente facil de calcular, interpretar y es satisfactorio para modelos jerarquicos complicados (Johnson, 2003) y esta basado en la nocion
de desvo Bayesiano(Dempster, 1977).
El desvo Bayesiano (Dempster, 1977) para modelos TRI es definido, de manera general, usando la verosimilitud del modelo como
n X
k
X
(5.5)
i=1 j=1
E(D(, u))
1 X
D( g , ug ),
G g=1
(5.6)
(5.7)
(5.8)
en el que p es el n
umero de parametros del modelo y N es el n
umero total de observaciones. Estos criterios se pueden obtener de manera
aproximada usando el algoritmo MCMC a traves de
\ = Dbar + 2p,
EAIC
\ = Dbar + plnN
EBIC
(5.9)
Lamentablemente, en el caso de los modelos jerarquicos se tiene problemas con estos criterios, porque no es facil definir p y N . Por ejemplo, en
la TRI tenemos respuestas de k tems para los examinados i = 1, . . . , n,
entonces, N = nk el total de observaciones o N = n es el total de examinados. Si las respuesta a los tems en cada examinado son independientes,
entonces la primera eleccion sera mas apropiada; pero si las respuestas
fueran correlacionadas en cada examinado, se puede escoger la u
ltima
41
alternativa. En la TRI se debera considerar el primer caso tomandose en cuenta que la independencia condicional se cumple. Sin embargo
la situacion real es algo intermedia. Similarmente, si consideramos una
coleccion de efectos aleatorios como es el caso de las variables latentes
en TRI, una para cada examinado, la pregunta es como esto puede
contribuir con el n
umero de parametros p ?. Si los efectos aleatorios no
tienen nada en com
un (i.e., estos se comportan esencialmente como efectos fijos), ellos deberan contribuir con n parametros para cada p, pero si
los datos (o las prioris) indican que todos ellos son esencialmente identicos, ellos deberan contribuir con un poco mas o un n
umero efectivo de
parametrospara el tama
no del modelo p.
Debido a este tipo de problemas Spiegelhalter et al. (2002) propusieron D como un valor apropiado para penalizar E(D(, u)). El DIC
es una modificacion del esperado del desvo y es definido como
DIC = E(D(, u)) + D ,
(5.10)
(5.11)
donde
es denominado como el n
umero de par
ametros efectivos (Spiegelhalter
et al, 1996) y D(E(), E(u))) es el desvo bayesiano de las medias a
posteriori o desvo bayesiano de los esperados a posteriori (deviance of
posterior mean) obtenido considerando los valores medios o esperados
a posteriori de los parametros del modelo. Las esperanzas arriba estan
basadas en las distribuciones a posteriori de y u las que se pueden
aproximar usando el algoritmo MCMC a traves de
D(E(), E(u) D
G
1 X
i=1
1 X 1 X g
,
u ,
G i=1 G i=1
G
g ,
(5.12)
donde como se ha indicado antes el ndice g representa a g-esima realizacion simulada de un total de G realizaciones simuladas. Esta estimacion
es denominado como Dhat en Spiegelhalter et al. (2002) y es obtenida
42
43
Aplicaciones
6.1
An
alisis de una escala de percepci
on de peso
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
Me preocupa mi peso.
Me peso todos los das.
Pienso que mi rendimiento escolar ha mejorado desde que he comenzado a bajar de peso.
Subo y bajo de peso con facilidad.
Acudo a medicos y/o centros especializados para bajar de peso.
Me gusta que mi ropa me quede suelta.
Siento angustia cuando subo de peso.
Tengo miedo de pesarme.
Siento que mis padres exageran cuando se preocupan por mi peso.
Mi familia esta pendiente de lo que como.
Quiero bajar de peso.
Pienso que es mejor ser delgada que inteligente.
Controlo mi peso.
Las mujeres queremos estar mas flacas.
Mis amigas me dicen que estoy muy delgada.
1
,
2
pues el tama
no de muestra de 2,141 casos haca poco sensibles los resultados a las especificaciones de a y b (Patz y Junker, 1999).
45
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
Item
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
Riesgo
tem
0.67
0.12
0.12
0.47
0.05
0.51
0.54
0.42
0.41
0.59
0.62
0.19
0.45
0.86
0.78
TCT
Indice de
discriminacion
0.61
0.20
0.28
0.52
0.11
0.42
0.83
0.72
0.53
0.38
0.76
0.35
0.53
0.27
0.24
Riesgo Item bi
Media D. Estandar
-0.64
0.04
1.23
0.04
1.39
0.05
0.08
0.03
1.86
0.07
-0.03
0.03
-0.24
0.06
0.31
0.04
0.25
0.03
-0.24
0.03
-0.65
0.06
1.01
0.04
0.15
0.03
-1.28
0.05
-0.82
0.03
IRT
discriminaci
on Item aj
Media
D. Estandar
1.02
0.06
0.37
0.04
0.64
0.05
0.53
0.04
0.50
0.06
0.37
0.03
1.91
0.14
1.08
0.06
0.51
0.04
0.29
0.03
1.78
0.12
0.59
0.04
0.50
0.04
0.63
0.05
0.32
0.04
Tabla 6.1
Grafico 6.1
Riesgo seg
un TRI vs riesgo seg
un TCT
Analogamente, el grafico 6.2 compara los ndices de discriminacion
(dj en TCT y aj en TRI).
Grafico 6.2
Discriminacion seg
un TRI vs discriminacion seg
un TCT
47
El grafico 6.1 muestra que los valores del indicador de riesgo en TCT
y TRI producen la misma jerarquizacion de los tems y por tanto son
igualmente interpretables. Destaca el tem 5 (Acudo a m
edicos y/o
centros especializados para bajar de peso) como un tem referido
a un mayor riesgo. El tem 14 (Las mujeres queremos estar m
as
flacas) es un tem correspondiente a un menor riesgo de todos Notese
que el modelo TRI permite diferenciar valores de riesgo que la TCT no
logra. As por ejemplo, los items 2 y 3 tienen igual riesgo TCT pero
distinta media b1 en TRI (ver los valores en las tabla 6.1)
La tabla 6.1 y el grafico 6.2 muestran que los valores del indicador
de discriminacion en TCT y IRT no necesariamente producen la misma
jerarquizacion de los tems, as por ejemplo, en TCT el tem 13 (Controlo mi peso) es mas discriminador que el tem 12 (Pienso que es
mejor ser delgada que inteligente) pero en TRI es al reves. No se
interpreta aqu la significacion psicologica de estas frases, eso corresponde a un profesional del area, pero si se observan los riesgos, resulta que
el tem 12 tambien es mas riesgoso y eso cuadra mas con la idea extrema
de preferir la delgadez a la inteligencia.
En general, aunque el modelo TRI presente la misma informacion
del modelo TCT, provee al constructor del test de otras informaciones
que TCT no tiene, por ejemplo, Intervalos de confianza para riesgos y
capacidad de analizar la separacion entre tems.
La tabla 6.2 muestra las estadsticas de las puntuaciones en la Escala
de percepcion de peso, estimadas seg
un la teora clasica (denominadas
scores en la psicometra) y seg
un el modelo TRI (U ). En ambos casos
un mayor valor indica una mayor propension al riesgo. Aunque las dos
teoras generan puntuaciones, por construccion las del TRI estan en la
misma escala que la de los parametros bj de los tems, cosa que no sucede
en la TCT, donde los parametros de los tems son proporciones.
48
Grafico 6.3
Puntuaciones en TCT vs puntuaciones TRI
49
Grafico 6.4
Diagrama de cajas de parametros TRI de riesgo
Grafico 6.5
Diagrama de cajas de parametros TRI de discriminacion
51
Grafico 6.6
Diagrama de dispersion riesgo vs discriminacion en TRI
6.2
An
alisis de una prueba de Matem
aticas
Estadsticas
Media
Varianza
Asimetra
Mnimo
Alpha
Media Item-Tot.
Max Puntaje
Min Puntaje
valores
10.84
3.432
-0.795
5
0.481
0.364
10
12
Estadsticas
Mediana
Desv. Estd.
Curtosis
Maximo
Media P
Mean Biserial
N (Grupo alto)
N (Grupo bajo)
valores
11
1.853
0.449
14
0.774
0.572
52
45
Tabla 6.3
Estadsticas de los puntajes de la prueba de Matematicas con 14 tems
y 131 examinados
Los datos presentan un puntaje medio de 11 puntos (sobre un puntaje maximo de 20 puntos) y una desviacion estandar de casi 2 puntos.
De las estadsticas, se puede indicar que los puntajes presentan asimetra
con dominio de puntajes altos. La prueba presenta una confiabilidad dada por el coeficiente alfa de Cronbach de 0.48.
En el anexo B de este trabajo, el lector podra encontrar un tutorial
del WinBUGS para el analisis de estos datos.
6.2.1
type
1L
1P
2L
2P
3L
3P
time
53
42
78
71
148
87
parameters
145
145
159
159
173
173
Dbar
1467
1460
1461
1447
1464
1443
Dhat
1372
1340
1378
1359
1384
1356
D
94.46
120.3
82.74
88.41
80.08
87.8
DIC
1561
1581
1544
1536
1544
1531
Tabla 6.4
Comparacion de modelos usando el criterio DIC
6.2.2
An
alisis de sensibilidad usando diferentes prioris para a y b en el modelo 2P
Para evaluar la sensibilidad de la estimacion Bayesiana para el modelo de ojiva normal 2P se han tomado en cuenta diferentes prioris y se
ha realizado un analisis considerando los datos descritos anteriormente.
Los codigos MCMC requeridos son presentados en el anexo A.
La estimacion bayesiana basada en MCMC fue implementada en
WinBUGS. Se generaron cadenas con 50,000 iteraciones considerando
saltos (thin)=1, 5, 10 y descartando las primeras 500 iteraciones (Burin), as que los tama
nos de muestra son de 49,500, 9,900 y 4,950, respectivamente. Cuando se usa MCMC, los valores de muestra para iteraciones
iniciales de la cadena son descartados por su dependencia con los valores iniciales y para garantizar la convergencia. Tambien, en este modelo
TRI, se espera una presencia de autocorrrelaciones entre los valores de la
cadena debido a la presencia de variables latentes como lo apunta Chen
et al. (2000). Debido a esto se recomienda usar valores de thin superiores
a 10.
Como ha sido mencionado en el captulo 4, prioris propias para aj y
bj garantizan que las distribuciones a posteriori completas de los parametros del modelo sean propias. Albert y Ghosh (2000) mencionan que la
eleccion de prioris propias en las variables latentes resuelven el problema
de identificacion de estos modelos, y, adicionalmente, distribuciones a
priori informativas para aj y bj se pueden usar para reflejar la creencia
de que los valores de los parametros de tem no son extremos (no estan
en la frontera del espacio parametrico). Si se esta en la situacion donde
se dispone de poca informacion a priori acerca de los parametros de dificultad, uno puede elegir varianzas para estos parametros grandes. Esta
eleccion puede tener un efecto modesto en la distribucion a posteriori
para datos no extremos, y puede resultar en una distribucion a posteriori propia cuando hay datos extremos (cuando se observa estudiantes que
tienen todos sus tems correctos o incorrectos). (Albert y Ghosh, 2000)
y tambien, Sahu (2002) establecen que valores grandes de la varianza
55
Autor
a prior
b prior
A
B
C
D
E
F
N(2,1)
N(1,1)
N(0,1)
N(0,1)
N(0,1)I(0,)
N(1,0.5)I(0,)
N(0,1)
N(0,1)
N(0,1)
N(0,10000)
N(0,10000)
N(0,2)
Tabla 6.5
Especificacion de prioris para parametros de tem en el modelo de ojiva
normal
En el grafico 6.7 se presentan las estimaciones de los parametros de
discriminacion y de dificultad para el modelo de ojiva normal para las
diferentes prioris dadas en la tabla 6.5. Como se observa en este grafico
las prioris A, B y C son precisas y las prioris D y E tienen prioris difusas
o prioris no informativas en el parametro de dificultad. Las prioris E y
F son truncadas en el parametro de discriminacion.
56
1,8
11
1,4
11
11
1,0
Discrimination parameter
0,6
12
12
0,2
12
-0,2
-3
-2
-1
-3
-2
PRIOR a-b
N(2,1)-N(0,1)
-1
-3
-2
PRIOR a-b
N(1,1)-N(0,1)
-1
PRIOR a-b
N(0,1)-N(0,1)
1,8
11
1,4
11
11
1,0
12
0,6
0,2
12
12
6
-0,2
-3
-2
-1
PRIOR a-b
N(0,1)-N(0,10000)
-3
-2
-1
PRIOR a-b
N(0,1)I(0,)-N(0,10000)
-3
-2
-1
PRIOR a-b
N(1,0.5)I(0,)-N(0,2)
Difficulty parameter
Grafico 6.7
Media a posteriori de los parametros de dificultad y de discriminacion
para diferentes prioris en el modelo de ojiva normal
De acuerdo al grafico 6.7, el modelo 2PLP es insensible a la especificacion de priors para los parametros de dificultad y de discriminacion.
Un analisis de una va para evaluar si los parametros de tem son diferentes de acuerdo a las prioris resulto no significativo.
En el analisis de la sensibilidad se ajusto varios modelos de probabilidad para los mismos datos. Para comparar los seis modelos correspondientes a cada priori, se calculo la expected deviance a posterior(Dbar), la deviance information criterion(DIC) y el n
umero efectivo de parametros D que son descritos en el captulo 5 y en Spiegelhalter
et al. (2002).
Spiegelhalter et al. (2002) indican que el DIC implementado en el
software WinBUGS se puede usar para comparar modelos complejos y
57
grandes diferencias en el criterios se pueden atribuir a diferencias predictivas reales en los modelos, aunque persisten algunas crticas. En el
modelamiento jerarquico con variables latentes auxiliares como en los
modelos TRI, la verosimilitud o complejidad del modelo no es u
nica
as que la deviance del modelo (el DIC y D D que se basan en ella)
cuando hay variables latentes no es u
nica y puede ser calculada de varias maneras (Delorio and Roberts, 2002). Con variables latentes auxiliares, el software WinBUGS usa la verosimilitud completa de las variables
observadas y de la variable latente introducida (como efectos fijos y aleatorios respectivamente en el modelamiento jerarquico) para obtener la
distribucion posterior para los parametros de interes. Cuando este es el
caso, WinBUGS presenta DICs marginales para la variable observada
(efectos fijos) y para las variables latentes auxiliares (efecto aleatorio).
Para una comparacion de los modelos propuestos, nosotros consideramos DIC marginal para la variable observada porque el foco del analisis
esta en f (y|u, ) y aunque variables aleatorias auxiliares se introducen
(en dos etapas, para variables latentes y parametros de tem) estas no
son el focos del analisis.
El analisis del DIC en la tabla 6.6, confirma que todas las prioris
tienen el mismo ajuste. El grafico 6.8 hace comparaciones de estas diferentes prioris considerando un grafico de la media y desviacion estandar
para los parametros de tem.
prior
A
B
C
D
E
F
a media
0.6355
0.5356
0.4599
0.5168
0.5414
0.5879
b media
-1.021
-0.999
-0.979
-1.099
-1.101
-1.048
Dbar
1450.14
1461.09
1453.16
1446.60
1453.22
1445.00
Dhat
1369.86
1383.61
1368.36
1358.26
1375.48
1352.90
pD
80.28
77.48
84.80
88.34
77.75
92.11
DIC
1530.43
1538.57
1537.96
1534.94
1530.97
1537.11
Tabla 6.6
Comparacion Dbar y DIC de prioris para el modelo de ojiva normal
58
0,90
N(0,1)I(0,)-N(0,10000)
0,88
N(0,1)-N(0,10000)
0,86
0,84
N(1,0.5)I(0,)-N(0,2)
0,82
N(2,1)-N(0,1)
0,80
0,78
N(1,1)-N(0,1)
0,76
N(0,1)-N(0,1)
0,74
-1,15
-1,10
-1,05
-1,00
-0,95
-0,90
0,40
N(2,1)-N(0,1)
0,38
N(0,1)-N(0,10000)
N(0,1)I(0,)-N(0,10000)
0,36
0,34
N(1,1)-N(0,1)
0,32
N(1,0.5)I(0,)-N(0,2)
0,30
0,28
N(0,1)-N(0,1)
0,26
0,24
0,44
0,48
0,52
0,56
0,60
0,64
0,68
Grafico 6.8
Comparacion del modelo de ojiva normal con diferentes prioris
59
Para los parametros de dificultad, se tiene que las prioris estan organizadas desde las prioris no informativas o difusas hasta prioris precisas.
A mayor precision de la priori especificada menor varianza en la posteriori y mayor valor de la media a posteriori de la dificultad. En el caso del
parametro de discriminacion, tenemos que las prioris estan organizadas,
en el eje x, de menor a mayor media a posteriori, y en el eje y de mayor
precision a mayor valor de la variancia especificada a priori excepto para
el caso de mayor de la media a priori.
A pesar de que observamos que las prioris son similares en el ajuste
del modelo consideramos que la priori F es mas a apropiada porque
presenta menor coeficiente de variabilidad en relacion a la especificacion
de un gran varianza a priori para la dificultad. Este resultado prueba lo
indicado por Sahu (2002) que indica que ha investigado otras prioris con
otros hiperparametros pero esta es la mas estable.
6.2.3
Inferencia e interpretaci
on de los par
ametros
en el modelo 2P
a[12]
1.5
3.0
1.0
2.0
0.5
1.0
0.0
0.0
1000
2500
7500
5000
-0.5
10000
0.0
0.5
1.0
iteration
b[12]
4.0
3.0
2.0
1.0
0.0
0.75
0.5
0.25
0.0
1000
2500
5000
7500
-0.25
10000
0.0
0.25
0.5
0.75
iteration
mu
mu sample: 1000
0.4
6.0
0.2
4.0
0.0
2.0
-0.2
0.0
-0.4
1000
2500
7500
5000
-0.4
10000
0.2
0.0
-0.2
iteration
du
du sample: 1000
1.2
8.0
6.0
4.0
2.0
0.0
1.0
0.8
0.6
1000
2500
7500
5000
10000
0.6
0.8
1.0
iteration
Grafico 6.9
Historico de la cadena y densidad para los parametros del tem 11 y
media y desviacion estandar a posteriori de la variable latente
Estimaciones de los parametros de discriminacion y de dificultad
para el modelo de ojiva normal se presentan en la tabla 6.7. El tem 11
es el mas discriminativo mientras el tem 9 es el menor. Tambien, el tem
11 es el mas facil mientras el tem 12 es el mas difcil.
61
Parametros de
discriminacion
Parametros de
dificultad
Variable
latente
a1
a2
a3
a4
a5
a6
a7
a8
a9
a10
a11
a12
a13
a14
b1
b2
b3
b4
b5
b6
b7
b8
b9
b10
b11
b12
b13
b14
u media
d.e u
Media
sd
P2,5
Mediana
P97,5
0.54
0.29
0.55
0.91
0.49
0.32
0.88
0.97
0.20
0.49
1.35
0.39
0.45
0.41
-0.90
-1.09
-0.03
-1.91
-1.23
0.37
-1.82
-1.53
-0.80
-1.19
-2.31
0.43
-1.01
-1.71
0.94
0.04
0.24
0.18
0.24
0.33
0.24
0.18
0.34
0.35
0.14
0.23
0.41
0.19
0.23
0.26
0.16
0.15
0.13
0.33
0.18
0.11
0.33
0.31
0.13
0.17
0.46
0.12
0.16
0.23
0.06
0.08
0.13
0.03
0.16
0.33
0.09
0.03
0.29
0.39
0.01
0.08
0.64
0.06
0.05
0.03
-1.25
-1.37
-0.27
-2.62
-1.62
0.16
-2.63
-2.30
-1.06
-1.55
-3.32
0.21
-1.35
-2.20
0.82
-0.12
0.52
0.27
0.53
0.88
0.48
0.30
0.84
0.92
0.18
0.48
1.32
0.38
0.43
0.37
-0.90
-1.08
-0.03
-1.88
-1.22
0.37
-1.78
-1.50
-0.80
-1.18
-2.25
0.42
-1.00
-1.70
0.93
0.04
1.09
0.70
1.09
1.61
1.02
0.73
1.60
1.80
0.51
1.02
2.18
0.80
0.93
0.97
-0.60
-0.80
0.23
-1.36
-0.90
0.61
-1.28
-1.03
-0.57
-0.87
-1.53
0.67
-0.71
-1.32
1.06
0.21
63
box plot: a
3.0
[11]
2.0
[8]
[7]
[4]
[1]
[3]
[5]
[10]
[13]
1.0
[14]
[12]
[6]
[2]
[9]
0.0
box plot: b
1.0
[12]
[6]
[3]
0.0
[9]
[1]
[13]
[2]
[10]
[5]
[8]
-1.0
[4]
[7]
[14]
[11]
-2.0
-3.0
-4.0
Grafico 6.10
Box-plots de las medias a posteriori de los parametros de
discriminacion (a) y dificultad (b) en el modelo de ojiva normal
64
7.1
7.1.1
Este modelo postula que la probabilidad de acierto dados los parametros de habilidad y de tems es:
pij = P (Yij = 1 | ui , j ) = SN (mij ; j ),
donde j > 0 es un parametro de asimetra, mij = aj ui bj es el predictor latente lineal y SN denota a la funcion de distribucion acumulada
de una variable skew normal con funcion de densidad
SN (x; ) = 2(x)(x),
siendo la funcion de densidad de una variable normal estandar.
Notese que si = 0, el modelo de ojiva normal asimetrico es un modelo estandar de ojiva normal. El grafico 7.1 muestra la sensibilidad del
modelo con respecto al nuevo parametro presentando diferentes CCI
66
0.8
0.6
0.4
0.2
0.0
1.0
latent variable
Grafico 7.1
CCI para el modelo de ojiva skew normal
67
i=i j=1
>0
1, si Zij
Yij =
0, si Zij 0,
donde Zij
denota a la variable Zij dada en (5.4) condicionada a que
Vij = vij ,
N (j vij + mij , 1 j2 ),
Zij
j = j
1+2j
Vij HN (0, 1)
(Zij
; j vij + mij , 1 j2 )(Vi,j ; 0, 1)I(vij > 0)p(yij | zij
),
i=1 j=1
donde
0)I(yij = 0).
> 0)I(yij = 1) + I(zij
) = I(zij
p(yij | zij
7.1.2
69
1.0
0.8
0.6
0.4
0.0
0.2
1.0
0.8
0.6
0.4
0.2
0.0
latent variable
latent variable
Grafico 7.2
CCI para los modelos LPE y RLPE
7.2
El problema de la rapidez surge cuando una prueba tiene restricciones de tiempo. Ello hace que los sujetos que la respondan limiten sus
analisis en especial para los u
ltimos temes de la prueba.
La posibilidad de construir un modelo que tome en cuenta esta restriccion fue considerada por Yamamoto y Everson (1997) y Bolt, et.
70
7.3
Comentarios finales
72
En este anexo presentamos los codigos para implementar en WinBUGS los dos procedimientos de estimacion bayesiana en TRI, esquemas
ARS y Gibbs Sampling, desarrollados en el captulo. Estos codigos, para
los modelos de uno, dos o tres parametros con ojiva norma o logstica
pueden ser obtenidos tambien considerando el aplicativo Bayes@PUCP,
el cual implementa los modelos indicados mas otros nuevos modelos propuestos en Bazan et al (2006) y Bolfarine y Bazan (2007).
A.1
C
odigo WinBUGS para esquema Gibbs Sampling
{ #likelihood function
for (i in 1 : n) {
for (j in 1 : I) {
#2P
#
#1P
m[i,j] <- u[i] - b[j]
z[i,j] ~ dnorm(m[i,j],1)I(lo[y[i,j]+1],up[y[i,j]+1])
}
}
#priors F for item parameters
for (j in 1:k) {
b[j] ~ dnorm(0,0.5);
73
# 1P
#
a[j] ~ dnorm(1,2)I(0,);
}
#prior for latent variable
for (i in 1:n) { u[i] ~ dnorm(0,1) }
# auxiliary latent variable
lo[1] <- -50; lo[2] <- 0; \# i.e., z| y=0 ~ N(m,1)I(-50,0)
up[1] <0; up[2] <- 50; \# i.e., z| y=1 ~ N(m,1)I(0,50)
# mean and standard deviation for latent variable
mu<-mean(u[ ])
du<-sd(u[ ])
}
A.2
C
odigo WinBUGS para esquema ARS
74
#pl[i,j]<-exp(m[i,j])/(1+exp(m[i,j]))
# p[i,j]<-c[j]+(1-c[j])*pl[i,j]
}
}
#abilities priors
for (i in 1:n) { theta[i]~dnorm(0,1)}
#items priors
for (j in 1:k) {
# Sinharay (2004)
b[j]~dnorm(0,1)
#
a[j]~dlnorm(0,1)
#
c[j] ~ dbeta(5,17)
}
}
75
B.1
78
Paso 3. Compilar.
Ha-
B.2
Fase 2: Par
ametros para la simulaci
on
82
85
B.3
Fase 3: Evaluaci
on de las cadenas generadas
2. En la ventana Sample Monitor Tool, hacer clic en density. En este caso ud. obtiene una grafica para cada parametro del modelo
que corresponde a los diferentes valores que toma el parametro en
cada iteracion. La grafica corresponde a la distribucion emprica
obtenida de los valores generados.
87
http://cran.r-project.org/src/contrib/Descriptions/
coda.html
http://www.public-health.uiowa.edu/boa/Home.html
http://www.r-project.org/
88
89
91
Para tener una medida de comparacion de modelos frente a modelos alternativos es importante usar la medida DIC (Deviance Information Criteria). En el Men
u seleccionar Inference, luego DIC. En
la ventana DIC tool seleccione set. Luego finalmente repita el paso
7 considerando 2,000 iteraciones adicionales. Finalmente vuelva a
la ventana DIC tool y presione DIC.
El resultado es
Dbar = post.meanof 2 log L;
Dhat = 2 log Lat post.mean of stochastic nodes
y
total
92
Dbar
1465.900
1465.900
Dhat
1372.290
1372.290
pD
93.608
93.608
DIC
1559.5109
1559.5109
node
b[1]
b[2]
b[3]
b[4]
b[5]
b[6]
b[7]
b[8]
b[9]
b[10]
b[11]
b[12]
b[13]
b[14]
theta[1]
theta[2]
theta[3]
theta[4]
theta[5]
94
mean
-1.582
-2.063
-0.0929
-2.994
-2.212
0.6497
-2.862
-2.286
-1.527
-2.13
-2.99
0.7283
-1.813
-3.272
-0.3447
0.8446
-1.292
-1.308
0.8582
sd
0.2523
0.2788
0.2108
0.3797
0.2987
0.2167
0.355
0.297
0.247
0.2955
0.3734
0.2185
0.2614
0.4289
0.5904
0.6733
0.548
0.5399
0.6807
MC error
0.006718
0.008793
0.006927
0.009508
0.00923
0.007031
0.00843
0.008845
0.007468
0.009572
0.01022
0.007656
0.007499
0.01122
0.0115
0.01749
0.01431
0.01695
0.01573
2,5 %
-2.097
-2.627
-0.5039
-3.777
-2.801
0.2158
-3.59
-2.917
-2.031
-2.726
-3.731
0.303
-2.346
-4.175
-1.465
-0.4474
-2.333
-2.31
-0.4268
median
-1.57
-2.054
-0.09345
-2.985
-2.203
0.6483
-2.842
-2.277
-1.527
-2.118
-2.964
0.7273
-1.81
-3.258
-0.3554
0.8302
-1.301
-1.32
0.8516
97,5 %
-1.102
-1.544
0.3108
-2.288
-1.658
1.061
-2.203
-1.735
-1.058
-1.566
-2.312
1.159
-1.33
-2.482
0.8927
2.159
-0.2057
-0.1854
2.265
start
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
4001
sample
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
2000
Bibliografa
[1] Albert, J. H. (1992). Bayesian Estimation of Normal Ogive Item
Response Curves Using Gibbs Sampling. Journal of Educational
Statistics, 17, 251 - 269.
[2] Albert, J.H. y Ghosh, M. (2000). Item response modeling.
Generalized Linear Models: A Bayesian Perspective(D. Dey, S.
Ghosh & Mallick, eds.), Marcel-Dekker, New York, 173-193.
[3] Andrade, D. F. , Tavares, H. R. y Valle, R. C. (2000). Introducao `a Teoria da resposta ao Item : Conceitos e Aplicacoes. 14o
SINAPE : Caxambu, MG.
[4] Baker, F.B. (1992). Item Response Theory - Parameter Estimation Techniques. New York: Marcel Dekker, Inc.
[5] Bartholomew,D.J. y Knoot, M. (1999). Latent variable models
and factor analysis. (2nd ed.). London: Arnold. (Kendalls Library of Statistics 7.
[6] Bazan, J., Bolfarine, H. y Branco, M. (2004b). A skew item
response model. ISBA 2004 World Meeting. Vi
na del Mar. Chile, May 23-27, 2004. ISBA (International Society for Bayesian
Analysis).
[7] Bazan, J. L., Bolfarine, H. y Leandro, A. R. (2006). Sensitivity
analysis of prior specification for the probit-normal IRT model:
an empirical study. Estadstica. Journal of The Inter-American
Statistical Institute 58, 17-42.
[8] Bazan, J. L., Branco, D. M. y Bolfarine, H. (2006). A skew item
response model. Bayesian Analysis, 1 861- 892.
[9] Bazan, J. L., (2004). Introduccion al modelo psicometrico de la
Teora Clasica de los Test (parte I). Pro Matem
atica. PUCP. 18
(35-36), 79-107.
95
L. (2007). Skewed Logit Item Resoral. Escuela de Modelos de Regrede Poster en el Congreso latinoaestadstica matem
atica. CLAPEM.
[29] Fox, J. P. y Glas, C. A.W. (2003). Bayesian Modeling of measurement error in predictor variables using item response theory.
Psychometrika, 68, 169-191.
[30] Gamerman, D. y Lopes, H. F (2006). Markov Chain Monte
Carlo: Stochastic Simulation for Bayesian Inference, Chapman
and Hall/CRC.
[31] Gelfand, A. E. (1996). Model Determination using Samplingbased methods. En Markov Chain Monte Carlo in Practice,
Gilks, W.R. y Richardson, S. y Spiegelhalter, D. J. (editor)
captulo 9, 145-161.
[32] Gelfand, A.E. y Smith, A.F.M. (1990). Sampling-based approaches to calculating marginal densities. J. Am. Stat. Assoc.
85, 398-409.
[33] Gelman, A. y Rubin, D. B. (1992). Inference from iterative
simulation using multiple sequences. Statistical Science, 7, 457472.
[34] Geweke, J. (1992). Evaluating the accuracy of sampling-based
approaches to the calculation of posterior moments. En: Bernardo, J.M., Berger, J.O., Dawid, A.P., Smith, A.F.M. (eds.) Bayesian Statistics, vol. 4, pp. 169-193. Oxford University Press,
Oxford .
[35] Ghosh, M., Ghosh, A., Chen, Ming-Hui y Agresti, A. (2000).
Noninformative priors for one parameter item response models.Journal of Statistical Planning and Inference. 88, 99-115.
[36] Gilks, W. R., Richardson. S. e Spiegelhalter, D. J. (1996).
Markov Chain Monte Carlo in practice. London : Chapman &
Hall.
[37] Gilks, W. R. y Wild, P. (1992). Adaptive rejection sampling
for Gibbs sampling. Applied Statistics, 41, 337-348.
[38] Goegebeur, Y., De Boeck, P., Wollack, J.A. y Cohen, A.S.
(2008). A Speeded Item Response Model with Gradual Process
Change. Psychometrika, 73,65-87.
98
101