Etologuia 2014 24 15 37 Modelos Mixtos Una Guia para El Usuario Temeroso PDF
Etologuia 2014 24 15 37 Modelos Mixtos Una Guia para El Usuario Temeroso PDF
Etologuia 2014 24 15 37 Modelos Mixtos Una Guia para El Usuario Temeroso PDF
15
J. Seoane
ETOLOGUA, 24 (2014)
17
J. Seoane
(ecuacin 1)
ETOLOGUA, 24 (2014)
Cuadro 1
El modelo de regresin lineal simple que describe la relacin entre una variable respuesta y
otra explicativa, ambas continuas, se representa grficamente como una lnea recta con arreglo
a la siguiente frmula:
Yi = + Xi + i
Esta ecuacin puede parecer fea, asustar y, como todas, incrementar el riesgo de perder lectores
[13], pero merece la pena examinarla con detalle para entender bien qu estamos haciendo.
Usemos la siguiente piedra de Rosetta para ello:
Yi es el valor de la variable respuesta (la riqueza de especies) en uno de los 45 puntos de
muestreo (de i = 1 a 45).
es el valor de la intercepta en el origen de coordenadas, e.d., el valor de la respuesta Y
cuando el predictor X es cero; lo que solo es interpretable si, como en nuestro ejemplo, existe
la posibilidad de que tal predictor sea 0 (hay puntos con NAP = 0, pero pinsese en una
regresin del peso de nios con su estatura para entender que esto no siempre es as).
es el valor general de la pendiente de la recta de manera que su grado de inclinacin
sealar una relacin ms o menos acusada entre las variables (pendientes prximas a
la horizontal revelan falta de asociacin).
Xi es el valor de la variable explicativa (NAP) en ese mismo punto de muestreo.
i es el error (alias residuo) para el punto i, e.d., la diferencia entre el valor de la respuesta
realmente observado y el que se predice para l; se visualiza como la distancia del punto
a la recta que describe el modelo. Algunos errores sern grandes y otros pequeos, pero
en conjunto se asume que su distribucin sigue una distribucin normal con media cero y
desviacin tpica , lo que se representa as: i ~ N(0, 2). Los residuos expresan la infor
macin de los datos que queda por explicar, por lo que el modelo tendr menor capacidad
explicativa cuanto mayor sea la suma acumulada de las distancias de los puntos a la recta
de la regresin (que es proporcional a la varianza de los errores 2).
La expresin para nuestro ejemplo es:
Riquezai = + (NAP)i + i
Y el ajuste del modelo de regresin es:
Riquezai = 6,69 2,87(NAP)i + i
Esto indica que la relacin entre ambas variables es negativa (figura 1), de forma que por cada
unidad que aumenta NAP la riqueza se reduce en casi 3 especies (en 2,87). La intercepta se
puede interpretar como la riqueza de especies basal, la que tendra un punto de muestreo con
NAP = 0, unas 7 especies (6,69). En este ejemplo, esta referencia parece interpretable, pues
el valor de NAP = 0 est dentro del conjunto de valores posibles para NAP (la intercepta no
es interpretable en otro casos: pensemos en una regresin del peso de nios como variable
respuesta sobre su estatura como variable explicativa; aqu X = 0 no tiene sentido).
Es importante notar que con esta regresin entendemos que existe una relacin universal
entre Riqueza y NAP que describimos a travs de un muestreo, estimando los parmetros de
la ecuacin 1 (, y ) con la informacin que proporciona un subconjunto de todos los puntos
de muestreo posibles (infinitos en este caso). Es muy probable que si hubiramos tomado
otros 45 puntos de muestreo distintos la relacin encontrada fuera algo distinta, pero el modelo
asume que la relacin es vlida para todos los puntos en cualquier playa del rea de estudio.
ETOLOGUA, 24 (2014)
19
Yi = + Xi + i
20
Riqueza
25
20
5
0
J. Seoane
1,0 0,5
0,0 0,5
NAP
1,0
1,5
2,2
ETOLOGUA, 24 (2014)
(ecuacin 2)
Este modelo es justificable pero para el presente ejemplo tiene dos limi
taciones. Primero, el tamao muestral ya no es tan grande en comparacin
con el nmero de parmetros a estimar con l (n = 19 vs 45). Segundo, el
factor playa se ha incorporado por defecto como un efecto fijo, enten
dindose que las 9 playas agotan la poblacin de playas que se pueden
muestrear, lo que tiene como consecuencia que la relacin encontrada
solo debera darse como vlida para el conjunto de playas muestreadas,
sin poderse extrapolar a otras. Adems, si el diseo de muestreo fuera
desequilibrado se podran magnificar las diferencias entre grupos (e.d.,
entre playas en este ejemplo), pues los grupos con bajo tamao muestral
suelen presentar mayor variabilidad y se tiende a estimar para ellos par
metros ms extremos [9].
Resulta inmediato plantearse otros dos modelos de complejidad in
termedia que requieren estimar 11 parmetros para describir la relacin
entre la Riqueza y el NAP. As, la intensidad de la relacin () puede ser
general, la misma para todas las playas, pero que cada una tenga una
distinta riqueza basal, es decir, una distinta intercepta (cuadro 2b):
Yij = j + Xij + ij
(ecuacin 3)
21
J. Seoane
Cuadro 2a
El modelo que incorpora una intercepta y una pendiente propias para cada playa es equivalente a
un ANCOVA que se construye con una variable continua (NAP), un factor (playa) y la interaccin
entre ambos (Riqueza = NAP x playa), lo que simplificadamente se representa as:
Donde:
Yij es el valor de la variable respuesta (la riqueza de especies) en uno de los 5 puntos de
muestreo (de i = 1 a 5) de una de las 9 playas (de j = 1 a 9).
j es el valor de la intercepta en el origen de coordenadas para una playa j dada.
j es el valor particular de la pendiente de la recta en cada una de las 9 playas j.
Xij es el valor de la variable explicativa (NAP) en ese mismo punto de muestreo.
ij es el error para el punto i en la playa j. De nuevo, en conjunto se asume que su
distribucin sigue una distribucin comn a todos, normal con media cero y desviacin
tpica : ij ~ N(0, 2).
Esta formulacin exige estimar 19 parmetros (una intercepta y una pendiente por cada playa,
ms una desviacin tpica para los errores) con la informacin contenida en el mismo tamao
muestral, lo que ya parece preocupante (figura C2a).
Riqueza
20
15
10
5
0
1,0
0,0
2,0
22
ETOLOGUA, 24 (2014)
Cuadro 2b
En dos modelos ms sencillos, se puede asumir que las playas difieren solo en cuanto a la
riqueza basal (; hay playas ricas y pobres, pero la relacin de la Riqueza con NAP es la misma
en todas ellas):
Yij = j + Xij + ij
o solo en cuanto a la intensidad de la relacin (; todas las playas parten del mismo nmero de
especies, pero la relacin de la Riqueza con NAP es distinta entre ellas):
Yij = + j Xij + ij
Donde:
Y ij es el valor de la variable respuesta (la riqueza de especies) en uno de los
5 puntos de muestreo (de i = 1 a 5) de una de las 9 playas (de j = 1 a 9).
Xij es el valor de la variable explicativa (NAP) en ese mismo punto de muestreo
es el valor general de la pendiente de la recta en todas las playas.
j es el valor particular de la pendiente de la recta en cada una de las 9 playas j.
es el valor general de la intercepta en el origen para todas las playas.
j es el valor de la intercepta en el origen para una playa j dada.
ij es el error para el punto i en la playa j, que se asume que sigue una distribucin
ij ~ N(0, 2).
20
20
15
15
Riqueza
Riqueza
10
5
0
10
1,0
0,0
0
0,5 1,0 1,5 2,0
1,0
NAP
0,0
0,5 1,0
NAP
1,5
2,0
ETOLOGUA, 24 (2014)
23
J. Seoane
(ecuacin 4)
ETOLOGUA, 24 (2014)
(ecuacin 5)
25
J. Seoane
Cuadro 3
El modelo mixto con intercepta aleatoria se representa as:
Yij = + j + Xij + ij
Donde:
Yij es el valor de la variable respuesta (la riqueza de especies) en uno de los 5 puntos de
muestreo (de i = 1 a 5) de una de las 9 playas (de j = 1 a 9).
es el valor general de la intercepta en el origen de coordenadas para todas las playas
de la zona de estudio.
aj es la intercepta aleatoria para cada una de las 9 playas; se extrae de una distribucin
normal con media cero y desviacin tpica a: aj ~ N(0, a2) y se aade a la intercepta ge
neral para obtener el valor de la riqueza de partida en cada playa. En el ejemplo a=2,94.
es el valor general de la pendiente de la recta en todas las playas de la zona de estudio.
Xij es el valor de la variable explicativa (NAP) en ese mismo punto de muestreo
ij es el error para el punto i en la playa j; ij ~ N(0, 2). En el ejemplo = 3,06.
Este modelo ajusta una variable continua de efectos fijos (NAP) y otra categrica de efectos
aleatorios (playa, figura C3). Exige estimar cuatro parmetros: dos fijos ( y ) y dos aleatorios
(a y ). Una vez ajustados los parmetros el modelo resume la riqueza as:
Riquezai1 = 6,58 + 2,62 2,57NAPi1 + residuoi1 (para los 5 puntos i de la playa 1)
Riquezai2 = 6,58 + 5,20 2,57NAPi2 + residuoi2 (para los 5 puntos i de la playa 2)
Riquezai3 = 6,58 2,61 2,57NAPi3 + residuoi3 (para los 5 puntos i de la playa 3)
(...)
Riquezai9 = 6,58 0,42 2,57NAPi9 + residuoi9 (para los 5 puntos i de la playa 9)
Riqueza
20
15
10
5
0
1,0
0,0
2,0
Figura C3. Representacin del modelo mixto con intercepta aleatoria que describe la variacin
de la Riqueza en relacin al NAP. En la figura la lnea gruesa describe el efecto fijo, general,
para la poblacin de playas ( y ) y las lneas finas describen los efectos aleatorios particu
lares para cada una de ellas ( + aj). Los crculos dan la combinacin de valores de Riqueza
y NAP observados.
26
ETOLOGUA, 24 (2014)
27
J. Seoane
observadores son muy congruentes para cada ave lo que sugerira que
los errores de medida entre observadores son despreciables [14]. La co
rrelacin intraclase ser elevada si la varianza del factor aleatorio (2a)
es alta (lo que ocurre cuando cada playa es muy diferente al resto). En
esta situacin resulta ventajoso registrar los predictores del componente
fijo del modelo al nivel en que se agrupan los datos (las playas o los indi
viduos), pues podran contribuir a explicar la varianza entre esos grupos
(un predictor as sera, p.e., la precipitacin media anual de cada playa,
distinta entre playas pero igual para todos los puntos que se encuentran
en una en particular, o el sexo de los individuos). La correlacin intraclase
puede ser pequea si la varianza del factor aleatorio es baja (p.e., si todas
las playas se parecen entre s). En esta situacin es ms interesante tomar
los predictores al nivel mximo de detalle, en todos los puntos de mues
treo en las playas (como se hace con el NAP en el ejemplo desarrollado
aqu) o en cada ocasin en que se mide un individuo, pues esto reducir
la varianza de los residuos (2) y redundar en estimas ms precisas [17].
Una alta variabilidad dentro de los grupos en que se agregan los datos
(2) contribuye a reducir esa correlacin entre las medidas individuales.
El modelo mixto con intercepta y pendiente aleatorias
Resulta inmediato plantearse un modelo ligeramente ms complejo
que contemple adems la posibilidad de que la relacin de la variable res
puesta con la explicativa sea diferente en cada unidad en que se mida. En
nuestro ejemplo, se podra plantear que el efecto de NAP sobre la riqueza
fuera distinto en las diferentes playas en unas podra ser ms acusado
que en otras debido a aspectos desconocidos o no evaluados, de igual
manera que los individuos sometidos a un tratamiento pueden responder
de manera diferente a ste debido a las diferencias individuales ms all
de las que pueden evaluarse a travs de su edad, sexo y otras caracters
ticas que pudieran haberse medido. Por tanto, se trata de incluir un nuevo
efecto aleatorio, que corresponde a la pendiente, en un modelo mixto que
se denomina de intercepta y pendiente aleatorias y que se expresa as:
Yij = + j + ( + bj)Xij + ij
28
(ecuacin 6)
ETOLOGUA, 24 (2014)
29
J. Seoane
Cuadro 4
El modelo mixto con intercepta y pendiente aleatorias se representa as:
Yij = + j + ( + bj) Xij + ij
Donde:
Yij es el valor de la variable respuesta (la riqueza de especies) en uno de los 5 puntos de
muestreo (de i = 1 a 5) de una de las 9 playas (de j = 1 a 9).
es el valor general de la intercepta en el origen para todas las playas de la zona de
estudio.
aj es la intercepta aleatoria para cada una de las 9 playas; se extrae de una distribucin
normal con media cero y desviacin tpica a: aj ~ N(0, a2) y se aade a la intercepta
general para obtener el valor de la riqueza de partida en cada playa.
es el valor general de la pendiente de la recta en todas las playas de la zona de estudio.
bj es la pendiente aleatoria para cada una de las 9 playas; se extrae de una distribucin
normal con media cero y desviacin tpica b: bj ~ N(0, b2) y su efecto modifica la pendiente
general en funcin de la variable respuesta.
Xij es el valor de la variable explicativa (NAP) en ese mismo punto de muestreo.
ij es el error para el punto i en la playa j; ij ~ N(0, 2).
Este modelo ajusta una variable continua de efectos fijos y aleatorios (NAP) y otra categrica
de efectos aleatorios (playa, figura C4). Exige estimar cinco parmetros: dos fijos ( y ) y
tres aleatorios (a, b y ). Una vez ajustados los parmetros el modelo resume la riqueza as:
Riquezai1 = 6,59 + 1,83 + (2,83 0,83)NAPi1 + residuoi1 (para los 5 i puntos de la playa 1)
Riquezai2 = 6,59 + 5,77 + (2,83 2,71)NAPi2 + residuoi2 (para los 5 i puntos de la playa 2)
Riquezai3 = 6,59 2,78 + (2,83 + 1,32)NAPi3 + residuoi3 (para los 5 i puntos de la playa 3)
(...)
Riquezai9 = 6,59 0,25 + (2,83 + 0,11)NAPi9 + residuoi9 (para los 5 i puntos de la playa 9)
Riqueza
20
15
10
5
0
1,0
0,0 0,5 1,0 1,5 2,0
NAP
Figura C4. Representacin del modelo mixto con intercepta y pendiente aleatorias que describe
la variacin de la Riqueza en relacin al NAP. En la figura la lnea gruesa describe el efecto fijo,
general, para la poblacin de playas ( y ) y las lneas finas describen los efectos aleatorios
particulares para cada una de ellas ( + aj). Los crculos dan la combinacin de valores de
Riqueza y NAP observados.
30
ETOLOGUA, 24 (2014)
(ecuacin 7)
31
a8
a3
b5
a = 3,54
b8
b3
b1
a1
a5
10
J. Seoane
b = 1,71
10 6 4 2 0
4 6
15
10
5
0
+ a5
+ a1
+ a8
+ a3
1,0
+ b1
+ b5
+ b8
+ b3
32
ETOLOGUA, 24 (2014)
14
12
10
8
6
4
2
10
6
4
2
Pendientes (j, + bj)
decir, un modelo mixto estimar una riqueza de partida para una playa en
particular algo ms prxima al promedio de todas ellas que la que estimara
una regresin con los datos de solo esa playa. Este patrn se conoce como
el encogimiento de los coeficientes (del ingls shrinkage). Su interpre
tacin parte de reconocer que en un modelo mixto las categoras del factor
de agrupamiento (playas, individuos) son una seleccin de las que podran
haberse tomado de la poblacin bajo estudio y, en consecuencia, se puede
esperar que se parezcan en la medida en que los elementos de esa poblacin
compartan caractersticas entre s [10]. Los parmetros encogen de forma
ETOLOGUA, 24 (2014)
33
J. Seoane
2
20
10
0
Riqueza
20
10
0
20
10
0
1
2
NAP
ms acusada para las playas o los individuos ms diferentes del resto, con
menor nmero de observaciones (si el diseo muestral es desequilibrado)
y para aquellos en los que las regresiones lineares tienen menor capacidad
explicativa (R2), lo que equilibra convenientemente la complejidad (el nmero
de modelos) y el ajuste a los datos [4, 9] (figura 3).
En general, los parmetros calculados por un modelo de efectos mixtos
son intermedios entre los que se obtendran en un modelo de efectos fijos
que incluyera un factor de agrupamiento como el ANCOVA de la ecuacin
2 y el modelo de efectos fijos que obviara la estructura agrupada de los
datos como la regresin de la ecuacin 1. Si las diferencias entre playas
34
ETOLOGUA, 24 (2014)
ETOLOGUA, 24 (2014)
35
J. Seoane
2. Chiarati, E., Canestrari, D., Vera, R. & Baglione, V., 2012. Subordinates benefit
from exploratory dominants: response to novel food in cooperatively breeding
carrion crows. Animal Behaviour ,83: 103109.
3. Laiolo, P., Vgeli, M., Serrano, D. & Tella, J. L., 2008. Song diversity predicts
the viability of fragmented bird populations. PLoSONE, 3: e1822.
4. Maestre, F. et al., 2012. Plant
36
ETOLOGUA, 24 (2014)
ETOLOGUA, 24 (2014)
37