Los Métodos Estadísticos en El Mejoramiento Genético
Los Métodos Estadísticos en El Mejoramiento Genético
Los Métodos Estadísticos en El Mejoramiento Genético
Daniel Gianola 1
Resumen: Se hace una revisión de los métodos estadísticos que han sido usados para
inferir los valores de cria. Las contribuciones claves incluyen los modelos de genética
estadística; la predicción insesgada lineal óptima (BLUP); las ecuaciones del modelo
mixto de Henderson y las técnicas de cómputo asociadas con esta técnica; la estimación
de componentes de varianza y de covarianza, con énfasis en los métodos basados en la
verosimilitud; los procedimientos bayesianos; los métodos para respuestas categóricas,
datos longitudinales, y para el análisis de supervivencia. Se discuten las repercusiones de
los efectos de selección sobre las inferencias. Se presenta un inventario de algunos de los
paquetes de cómputo disponibles. Se ofrece una discusión sobre algunas áreas que
requerirán atención en el futuro.
1
Departaments of Animal Sciences, Biostatistics and Medical Informatics, and of Dairy Science,
University of Wisconsin – Madison, Madison, Wisconsin 53706, Estados Unidos de América. Correo
electrónico: [email protected]
1
Abstract: Statistical methods that have been applied for inferring breeding values in
animal breeding are reviewed. Landmarks include statistical genetic models; best linear
unbiased prediction; Henderson's mixed model equations and associated computing
techniques; variance and covariance component estimation, with emphasis on likelihood-
based methods; Bayesian procedures; methods for categorical responses, longitudinal
data and survival analysis. The problem caused by the effects of selection on inferences is
discussed. An inventory of some available computing software is presented. A discussion
on some areas for future development is given.
2
Introducción
Introduction
Muchas características observables (ya sean continuas o discretas) parecen tener un modo
de herencia poligénico, y están sometidos a influencias ambientales considerables. También
existen características ligadas al sexo, tales como la producción lechera (la cual sólo se observa
en las hembras) y la circunferencia escrotal en sementales; se cree que esta última tiene una
correlación genética positiva con la fertilidad de las vacas. En el ganado lechero es más
relevante inferir el mérito genético de los machos, debido al impacto que pueden tener en la tasa
de mejoramiento. Por ejemplo, como resultado de la inseminación artificial y de la amplia
disponibilidad de semen congelado, algunos sementales de ganado lechero producen miles de
hijas en varios países, creando así una oportunidad para la evaluación internacional de
sementales, si bien a un costo mayor en términos de la complejidad del modelo estadístico y de
implementación (Schaeffer, 1985).
Las bases de datos de la zootecnia pueden ser muy grandes (por ejemplo, millones de
registros de lactación en la cría de ganado lechero), multivariados (es posible que sea necesario
modelar simultáneamente varias características), a veces gaussiana (por ejemplo, el logaritmo
de la concentración de células somáticas en la leche, un indicador de enfermedad de ubre), o
definitivamente no-normal en otros, tal como es el caso con las características discretas
mencionadas antes. La estructura de los datos puede ser de corte transversal o bien longitudinal
(por ejemplo, las curvas de crecimiento en pollos parrilleros), extremadamente desbalanceadas,
y posiblemente exhiba patrones de datos faltantes no aleatorios. Por ejemplo, no todas las vacas
de primera lactación producirán una segunda lactación, debido a la eliminación secuencial por
3
baja productividad, fallo reproductivo, o enfermedad. También es posible que algunos
sementales sean usados más intensivamente que otros debido a diferencias percibidas en su
valor genético, por lo cual habrá selección genética como consecuencia de la variación en su
contribución a la descendencia nacida en la siguiente generación.
Dado todo lo anterior, no es de extrañar que la estadística haya sido tan importante para
la zootecnia. Las siguientes fuentes contienen ejemplos de algunos de los métodos y problemas
estadísticos más relevantes que se han discutido en los congresos de zootecnia durante los
últimos 25 años: Hill (1974, 1980); Henderson (1977); Thompson (1977, 1979, 1982); Dempfle
(1982); Gianola, Foulley y Fernando (1986); Schaeffer y Kennedy (1986); Meyer (1990);
Ducrocq (1990); Gianola y Hammond (1990); Sorensen et al. (1994); Foulley y Quaas (1994);
Bidanel (1998); Tempelman y Firat (1998); y Wang (1998).
Nuestro propósito es describir algunos de los métodos estadísticos que han sido
empleados en zootecnia para inferir valores de cria. Algunas contribuciones históricas claves se
describen en la sección 2. La sección 3 trata varios problemas concretos, y ofrece conjeturas
sobre posibles contribuciones futuras. Este trabajo esta dedicado al Prof. Ing. Agr. Jaime Rovira.
Su brillante curso de Zootecnia, impartido en 1967 en la Facultad de Agronomia en
Montevideo, Uruguay, fue una influencia decisiva en la carrera del autor.
Contribuciones Claves
Landmarks
Las formas funcionales más comúnmente empleadas en el punto 1 recién mencionado han
sido lineales. A pesar de su conveniencia, esta no es siempre una especificación razonable. Con
respecto a 3, el supuesto más ampliamente usado y abusado ha sido el de la normalidad
multivariada. Esto se debe a que a menudo se propone que las características se heredan de
4
manera multifactorial, es decir, que hay un gran número de genes que actúan de manera aditiva,
y que los efectos de las sustituciones de genes son infinitesimalmente pequeños. La información
molecular comienza a indicar que el supuesto que muchos genes actúen juntos no es
implausible, al menos en algunos casos. Por ejemplo, un estudio que empleó marcadores
genéticos en ganado lechero (Zhang et al., 1998) sugiere la presencia de “locus de
características cuantitativas” que afectan el porcentaje de grasa en leche en los cromosomas 2, 6,
14, 26, 28, y este tipo de investigación aún está en etapas tempranas. Si los alelos actúan
aditivamente y tienen efectos pequeños, su suma rápidamente produce un proceso normal. En
este contexto, no está claro lo que se gana a partir de usar la información de los marcadores, al
menos desde un punto de vista estadístico. Debe tenerse presente que un modelo estadístico para
la evaluación genética basado en información proveniente de marcadores requiere conocer el
mapa de distancias genéticas. Este requisito introduce más parámetros en el modelo, y fuentes
adicionales de incertidumbre.
Fisher (1918) estableció las bases para el modelo infinitesimal y se ocupó de las
consecuencias de la herencia Mendeliana a nivel fenotípico. El modelo que planteó es:
y obtuvo un precursor del análisis de varianza al proponer una partición de la varianza genética
en componentes aditivos y de dominancia. A partir de éstos pueden obtenerse más o menos
inmediatamente las correlaciones esperadas entre los distintos tipos de parientes. En particular,
el modelo aditivo ha sido extremadamente útil y ha resistido los embates del tiempo bastante
bien. Más aún, ha constituido el punto de partida de la genética estadística para la obtención de
predictores de valores de cria, y ha conducido a una evaluación bastante precisa de los
sementale s lecheros. El modelo sigue usándose, si bien de manera más sofisticada, vectorial,
tema que será tratado próximamente.
A pesar de que Fisher había descrito cómo deben tomarse en cuenta las interacciones
entre alelos en locus distintos, no fue sino hasta Cockerham (1954) y Kempthorne (1954) que la
varianza total debida a dichas interacciones pudo partirse en lo que se llaman componentes
“epistáticos”, bajo el supuesto de una población grande panmíctica en equilibrio de ligamiento.
Kempthorne (1954) empleó el concepto de probabilidad de identidad por descendencia ideado
por Malécot (1948), y descompuso la varianza epistática en varios componentes, dependiendo
del número de loci involucrados en la expresión de la característica. Por ejemplo, con dos loci,
la varianza genética epistática puede expresarse como la suma de los componentes de varianza
“aditiva x aditiva”, “aditiva x dominancia”, y “dominancia x dominancia”. Su contribución
permitió expresar la covarianza entre características medidas en parientes en una población que
se aparea al azar en términos de componentes genéticos de varianza y covarianza. Estos
resultados fueron aprovechados más tarde por Henderson (1988) para inferir efectos genéticos
de dominancia y de epistasis mediante predicción lineal insesgada óptima, un tema que será
tratado más tarde.
Otras extensiones adicionales de los modelos genéticos estadísticos han incluido, por
ejemplo, efectos maternales (Falconer, 1965; Willham, 1963; Koerkhuis y Thompson, 1997),
5
herencia citoplásmica y de clonación (Kennedy y Schaeffer, 1990). El modelo de Willham es
interesante estadísticamente porque subsume una estructura multivariada dentro de una
univariada. Este modelo incluye covarianzas entre los efectos genéticos directos (expresados en
el individuo en el cual fueron medidos) y efectos genéticos maternos (expresados si el individuo
se convierte en la madre de crías que a su vez son medidas).
Generalidades
General
Lush (1931) empleó coeficientes de paso para obtener fórmulas para evaluar el mérito
genético de sementales lecheros, suponiendo que las medias y los componentes de varianza
ambiental y genético eran conocidos. Se descubrió que se necesitaba cierta regresión a la media,
o contracción. Robertson (1955) demostró que la estadística de Lush puede obtenerse a partir de
un promedio ponderado entre la informació n “poblacional” y los datos, con lo cual se anticipa
una interpretación bayesiana. A modo de ejemplo, consideremos el modelo simple:
en el cual yij es una observación realizada en la j-ésima progenie del semental i, µ es una
constante común a todas las observaciones, si ~ N (0, ís ) es la habilidad de transmisión del
i-ésimo semental, y eij ~ N (0, íe), distribuido independientemente, es un residual peculiar al
individuo ij. Supongamos que µ y los componentes de la varianza í s (varianza entre
sementales) y íe (varianza dentro de sementales) son parámetros “poblacionales” conocidos.
Hay dos fuentes de información respecto al i-ésimo semental: 1) lo que se sabe de la población,
y 2) el desempeño promedio yi de sus n vástagos. A primera vista, parecería natural combinar
ambas fuentes en un promedio ponderado de la media poblacional, 0, y la desviación media del
grupo de progenie, yi − µ , usando como pesos la “precisión de la población”, (ís -1 ) y la
precisión aportada por los datos, (n/í e-1 ), respectivamente. En otras palabras,
−1
1 n 1
sˆi = + ⋅ 0 + ( y i − ì )
n
νs νe νs νe
(2)
=
n
(y − ì )
νe i
n+
νs
6
1 n
−1 νs
νˆi = + =ν s 1 − (3)
νs νe ν + νe
s
n
donde z es una variable aleatoria distribuida normalmente con media sˆ1 − sˆ 2 y varianza:
ν z =ν s 2 − ν s
1
+
1 . .
ν ν
e
ν + e
ν +
n2
s s
n1
β + Zu + e,
y = Xβ (4)
donde β es un vector fijo (en muestreo conceptual repetido), y u ~ N (0, G) y e ~ N (0, R) son
vectores aleatorios no correlacionados; X y Z son matrices de incidencia, y G y R son matrices
de varianza-covarianza, las cuales son funciones de parámetros de dispersión (conocidos). El
vector de efectos aleatorios u puede incluir efectos de rebaño, valores de cria, desviaciones
ambientales permanentes comunes a todos los registros del mismo animal (o conjunto de
animales), etc. La densidad conjunta de u y y está dada por:
β , G, R) ∝ p(y| u, β , R) p(u|G)
p(u, y|β
1
∝ exp{- β - Zu)’ R-1 (y - Xβ
[ (y - Xβ β - Zu) + u’G-1 u ]}. (5)
2
7
La maximización simultánea de (5) con respecto a β y u conduce a las ecuaciones de Henderson
para el modelo mixto (MME – Mixed Model Equations):
Henderson pensó que estaba maximizando una función de verosimilitud, por lo que llamó a â̂ y
a û los estimadores de “máxima verosimilitud” de β y u respectivamente. Resulta que â̂ de
hecho es el estimador de máxima verosimilitud de β bajo el supuesto de normalidad y si tanto G
como R son conocidas, pero técnicamente u no puede “estimarse” por tratarse de un vector
aleatorio. Hoy se sabe que la función objetivo maximizada por Henderson es una densidad
posterior conjunta, bajo un planteamiento bayesiano, o bien una verosimilitud “penalizada” o
“extendida” en un sentido ad hoc. Sin embargo, este “error” tiene un final feliz, pues tanto
Henderson como Searle demostraron posteriormente que aún sin el supuesto de normalidad, â̂
es el estimador de mínimos cuadrados generalizados de β y que û es el mejor predictor lineal
insesgado de u; la inversa de la matriz de coeficientes en (6) produce las matrices de covarianza
de â̂ y de uˆ − u . Este resultado es válido tanto para el planteamiento univariado como para el
multivariado. Goldberger (1962) derivó el BLUP independientemente de Henderson.
donde P = I – X(X’X)-1 X’. Esto indica que BLUP produce predicciones sesgadas de valores de
cria específicos, aunque el sesgo desaparece asintóticamente (a medida que aumenta la
información de cada animal). Paradójicamente, en el límite, ya no es posible predecir valores de
cria de manera única, porque ocurre una degeneración en el rango.
8
puede ser de orden de varios millones de ecuaciones. Esto es particularmente cierto para
modelos, sean univariados o multivariados, en los cuales un efecto genético aditivo es ajustado
para cada animal con un registro de producción, así como para animales sin registros en la
genealogía, pero que necesitan ser incluidos para reflejar adecuadamente la covarianza genética
entre parientes. Por estos motivos, deben usarse métodos iterativos para resolver las ecuaciones
MME (por ejemplo, Schaeffer y Kennedy, 1986; Misztal y Gianola, 1987), aunque se necesitan
aproximaciones para evaluar la incertidumbre de las predicciones. El sistema MME ha sido
tratado en la literatura estadística algo parcamente (por ejemplo, Patterson y Thompson, 1971;
Harville, 1977; Wolfinger, 1993; Lee y Nelder, 1996). Este hecho resulta sorprendente, porque
las ecuaciones MME aportan varias ventajas al ser usadas como algoritmo para calcular varios
métodos de estimación de componentes de varianza en modelos lineales generalizados de
efectos mixtos (Harville y Mee, 1984; Gilmour, Anderson y Rae, 1985; Foulley et al., 1987a).
A partir de lo anterior, debe quedar claro que la “predicción” de los valores de cria
depende de una manera no trivial de los componentes de varianza y covarianza. Se han
propuesto muchos métodos, pero solamente unos cuantos han resistido la prueba del tiempo.
Hofer (1998) realizó una revisión de prácticamente todos los métodos que se han empleado
hasta la actualidad. Debido a que las series de datos en zootecnia pueden ser enormes,
desbalanceados, y que los modelos tienen un número considerable de parámetros de
localización parásitos, los métodos sencillos similares al ANOVA rara vez producen resultados
satisfactorios. Henderson (1953) describió tres métodos para datos desbalanceados. El más
general de ellos, el Método 3, usa formas cuadráticas basadas en un ajuste de mínimos
cuadrados de varios submodelos, y produce estimadores insesgados. Harvey (1960, 1970)
incorporó este método a un software de estimación de componentes de varianza y covarianza, y
este programa fue usado ampliamente en la zootecnia. Searle (1968, 1971) y sus estudiantes
aclararon los métodos de Henderson, y los presentaron en forma matricial.
9
problemas, al menos en la estimación. Los artículos de Hartley y Rao (1968) y de Harville
(1977) fueron muy influyentes. Muchos algoritmos para estimación por máxima verosimilitud
pueden derivarse usando MME ( (Harville, 1977; Henderson, 1984; Harville y Callanan, 1990).
No queda claro si la migración hacia métodos basados en la verosimilitud fue consecuencia de
la disponibilidad de algo nuevo que podía calcularse mediante el algoritmo MME (usado
iterativamente, puesto que los estimadores de máxima verosimilitud no pueden escribirse
explícitamente para la mayoría de los modelos), o si el atractivo eran las propiedades asintóticas
del método.
1
l [â,è] ∝ |V(è)|-1/2 exp [- SSE]
2
1 ) 1
∝ |V(è)|-1/2 exp [- SSE ] exp {- SSB}, (8)
2 2
donde:
β )’ V-1 (è) (y - Xβ
SSE = (y - Xβ β)
)
SSE = (y - X â̂ )’ V-1 (è) (y - X â̂ )
β - â̂ )’[XV-1 (è)X](β
SSB = (β β - â̂ )
con
Harville (1974) demostró que el estimador REML es la moda de la distribución posterior de los
parámetros de varianza después de integrar con respecto a los efectos fijos (con una distribución
a priori impropia uniforme) para eliminarlos de la distribución posterior conjunta, la cual es
proporcional a la función de verosimilitud “total”. El cálculo de probabilidades incorpora
10
automáticamente la incertid umbre acerca de los efectos fijos, al menos desde una perspectiva
bayesiana. La verosimilitud integrada (o “restringida”) es entonces proporcional a:
1 ) 1
lI [è] ∝ |V(è)|-1/2 exp[- SSE ] ∫ exp − SSB dâ
2 ℜâ 2
1 )
∝ |V(è)|-1/2 exp[- SSE ] |X’V-1 (è)X|-1/2 (9)
2
Esto es consecuencia de que el integral superior involucra una densidad gaussiana, por lo cual
puede expresarse de manera exacta. La maximización de lI [è] con respecto a è produce los
estimadores REML de los parámetros de dispersión (Harville, 1974). Si se ignoran las
constantes que no dependen de los parámetros, tenemos:
1 1
log lI [è] = log l [â,è] + SSB - |X’V-1 (è)X|. (10)
2 2
∝ ∫ℜ ℜ∫
p (y | â , u, R (è )) p (u | G (è )) du dâ .
â u
11
Una vez que se han hecho las simplificaciones algebraicas resultantes de combinar las formas
cuadráticas dentro de las funciones exponenciales, y después de haber integrado la densidad
gaussiana, uno obtiene:
1
lI [è] ∝ |R(è)|-1/2 |G(è)|-1/2 exp[- SSR] |C(è)|-1/2 , (11)
2
donde
−1
X' R −1 (è ) X X' R −1 (è )Z
C( è ) =
Z' R (è ) X Z' R (è ) Z + G (è )
−1 −1 −1
es la inversa de la matriz de coeficientes de las ecuaciones del modelo mixto. Las distintas
representaciones de la verosimilitud restringida conducen a distintos algoritmos para el cálculo
de estimadores REML, cada uno de los cuales tiene sus ventajas y sus desventajas.
El predictor BLUP sólo existe cuando los parámetros de dispersión è son conocidos (al
menos proporcionalmente en modelos de componentes de varianza), así que una pregunta
importante es qué método de estimación de è debe emplearse cuando el objetivo es predecir los
valores de cria. Es concebible que un método que se considere óptimo (con respecto a algún
criterio) para estimar los componentes de varianza no sea óptimo en el contexto de inferir los
valores de cria. Gianola y Fernando (1986) y Gianola, Foulley y Fernando (1986) emplearon
una idea bayesiana para responder a esta pregunta. Argumentaron que usar BLUE y BLUP con
los parámetros desconocidos de (co)varianza evaluados en los estimadores REML correspondía
a una integración aproximada que eliminaba los parámetros de dispersión de cierta distribución
posterior. Esto produce una solución bayesiana aproximada para el problema de realizar
inferencias sobre valores de cria cuando las varianzas genéticas y ambientales son desconocidas.
Sin embargo, es necesario que la verosimilitud restringida sea muy aguda para que esto
funcione adecuadamente.
12
ascendencia frecuentista, pero no surge de ninguna formulación de verosimilitud. Por lo tanto, la
combinación no corresponde a ninguna de las filosofías de inferencia “clásicas”. ¿Significa esto
que este “recombinante” corresponde al punto más brillante de las posibilidades de la ciencia
estadística actual? La respuesta parecería ser negativa, como lo ilustra el estudio de Harville y
Carriquiry (1992).
Técnicas Bayesianas
Bayesian Procedures
Generalidades
General
Debido a que la distribución posterior conjunta es gaussiana, también son gaussianas las
distribuciones marginales o cualquier distribución condicional inducida. Así mismo, es cierto
que cualquier combinación lineal de β y de u también tendrá una distribución posterior
gaussiana. Por ejemplo, supongamos que deseamos inferir un vector de méritos o de “valores
genéticos agregados” (en la acepción de Hazel, 1943) h = Mu, de un conjunto de candidatos.
Aquí, M es una matriz constante que refleja la importancia económica relativa de las
características, y u es un vector de valores genéticos de varias características. Entonces, la
distribución posterior de h es gaussiana, con media igual al vector hˆ = Muˆ y matriz de
covarianza MCuM’, donde Cu es la submatriz correspondiente a u en la inversa de (12).
h = m’u + u’Qu,
donde m’ es un vector fila conocido y Q es una matriz conocida, la cual podemos suponer que
es simétrica sin pérdida de generalidad. La distribución posterior de h no puede expresarse de
forma cerrada, pero puede ser estimada mediante métodos Monte Carlo, obteniendo muestras de
u según la distribución normal posterior (12) para de esa manera obtener muestras de h
13
empleando la expresión anterior. Sin embargo la media y la varianza de la distribución posterior
de h pueden obtenerse analíticamente:
Bulmer (1980) y Fernando y Gianola (1986) demostraron que la media condicional o la media
posterior son una regla óptima de ordenamiento cuando todos los parámetros son conocidos. Al
contrario del caso de una función de mérito lineal, como se mencionó arriba, la precisión
posterior del candidato, o bien, equivalentemente, la confiabilidad de su evaluación, es un
componente no trivial de la media posterior al inferir el mérito de segundo orden. De hecho,
para algunas formas sencillas de la función de mérito puede demostrarse que si dos candidatos
tienen la misma media posterior (evaluación genética), uno escogería aquel que tuviera la
varianza posterior más grande. Para formas más complicadas de la función de mérito, la
predicción de valores de cria prácticamente sólo puede hacerse recurriendo a métodos de Monte
Carlo.
Técnicas de Cadenas de Markov Monte Carlo, o MCMC (Markov Chain Monte Carlo)
Markov Chain Monte Carlo Techniques
Gianola y Fernando (1986) propusieron usar el enfoque bayesiano como método general de
inferencia para resolver un gran número de problemas de zootecnia, lineales o no lineales, aún
en situaciones en las cuales existe incertidumbre sobre todos los parámetros de localización y de
dispersión. Las primeras aplicaciones de este paradigma se basaban en aproximaciones
gaussianas a la distribución posterior conjunta o a las distribuciones posteriores marginalizadas
parcialmente, debido a las dificultades técnicas que se encontraban. Sin embargo, no fue sino
hasta que las Cadenas de Markov Monte Carlo (MCMC – Markov Chain Monte Carlo )
surgieron que pudo aprovecharse el poderío y la flexibilidad del enfoque bayesiano sin
limitación alguna. Hay muchos métodos MCMC, como el algoritmo Metropolis-Hastings, el
muestreo Gibbs, el salto reversible, el “templado simulado – simulated tempering” , el
“muestreo del pasado – sampling from the past”, etc. Para una revisión de algunos de los
algoritmos, consulte Robert (1996). Sin lugar a dudas, el más popular de ellos ha sido el
muestreo Gibbs, a pesar de que solamente puede usarse bajo ciertas condiciones.
La idea básica del muestreo Gibbs es la siguiente (para una introducción al tema,
consulte Gianola, Rodríguez-Zas y Shook, 1994). Supongamos que se desea hacer inferencias
sobre un parámetro λ , el cual puede ser un escalar o un vector (como los valores de cria, por
ejemplo), a partir de su distribución posterior. Supongamos adicionalmente que el modelo
estadístico requiere también que se especifiquen algunos parámetros adicionales parásitos, δ ;
por ejemplo, en un modelo lineal de efectos mixtos, estos serían los efectos fijos y los
componentes de dispersión. La densidad posterior conjunta está dada por:
λ ,δ
p(λ δ |y)
Típicamente, las densidades marginales p(λ λ |y) y p(δ δ |y) son muy difíciles o imposibles de
derivar analíticamente. Una alternativa es estimar algunas características salientes de la
distribución posterior de valores de cria con densidad p(λ λ |y) mediante métodos muestrales. El
muestreo Gibbs es uno de esos procedimientos y en este caso necesitamos obtener las
distribuciones totalmente condicionales, [δδ |λ
λ , y] y [λ
λ |δ
δ , y]. Entonces se obtiene una muestra a
14
δ |λ
partir de [δ λ , y], y el valor resultante se usa para actualizar los parámetros parásitos en [λ
λ |δ
δ , y];
en seguida, se obtiene un valor de λ de la distribución recién actualizada, y se usa ese valor para
actualizar [δδ |λ
λ , y], y el proceso se repite un gran número de veces, digamos m. Si ciertas
condiciones se cumplen, estas iteraciones crean una cadena de Markov cuya distribución de
equilibrio es la distribución posterior [λ λ ,δ
δ |y]. En algún punto m (en el cual decimos que el
muestreo “convergió”) cualquier valor nuevo pertenece a la distribución posterior, con la
consecuencia de que el componente correspondiente a λ proviene de la distribución posterior
marginal de interés. Si uno acumula un número razonablemente grande de muestras, de manera
tal que las inferencias tengan un error de simulación pequeño, uno puede estimar, por ejemplo,
la media, mediana, varianza o estadísticas de orden posteriores, o bien la densidad posterior
marginal de cualquier valor de crianza en regiones de interés en el espacio de λ . Un par de
características cruciales del muestreo Gibbs es que las distribuciones totalmente condicionales
sean reconocibles y que sea fácil obtener muestras a partir de ellas. De lo contrario,
necesitaremos recurrir a otros métodos de muestreo para generar la muestra, tales como
Metropolis-Hastings o muestreo de rechazo.
Las primeras aplicaciones del muestreo Gibbs a la zootecnia fueron las de Wang,
Rutledge y Gianola (1993, 1994), y desde entonces ha habido muchos artículos que han
empleado MCMC. Una aportación importante fue la introducción de medidas bayesianas para
cuantificar la incertidumbre en respuesta a la selección genética (Sorensen et al., 1994; Wang et
al., 1994), el cual es un problema en zootecnia en el cual la combinación de los enfoques de
verosimilitud y frecuentista apenas puede considerarse como una aproximación cruda, aún bajo
el supuesto de normalidad. El método bayesiano reside en estimar la distribución posterior de
las medidas de cambio genético, las cuales son funciones de los valores de cria no observables.
Estos últimos se obtienen a partir de sus distribuciones posteriores mediante MCMC, y con
estas muestras uno obtiene muestras de la distribución posterior de la respuesta a la selección,
por ejemplo. La distribución posterior del cambio genético no observable se estima a partir de la
colección entera de muestras. Recientemente, Sorensen, Fernando y Gianola (2001) propusieron
un método para seguir la evolución de la varianza genética aditiva durante el transcurso de la
selección.
Datos Categóricos
Categorical Data
Las variables dependientes de información limitada son muy comunes en el análisis de datos de
fertilidad y de enfermedad. Los criadores animales no dudaron (y aún no dudan) en emplear
modelos lineales para dichas variables, a pesar de causar preocupación entre los estadísticos.
Thompson (1979), por ejemplo, expresó: “Me siento un poco incómodo al usar modelos lineales
para estas características dicotómicas. (I have some unease at using linear models for these
dichotomous traits.)”, y sugirió algunas alternativas que intuitivamente son atractivas para el
análisis de modelos mixtos de datos binarios.
15
aleatoria binaria, por ejemplo, presencia o ausencia de mastitis en una vaca lechera. Si la
responsabilidad es mayor a un umbral conceptual, se observa la mastitis; de lo contrario, la vaca
está sana. Debido a que no puede observarse la responsabilidad, se toma como respuesta la
desviación estándar residual en la escala subyacente. Para simplificar, supongamos que la
distribución subyacente de la responsabilidad es logística, de manera que la probabilidad
condicional de que la i-ésima observación se registre como “mastitis” es:
P
ln i = x i ' â + z i ' u.
1 − Pi
Al igual que en el modelo lineal de efectos mixtos, sea u ~ N (0, G) la distribución previa de los
efectos aleatorios, con una distribución previa uniforme para β . Si la varianza de los efectos
aleatorios es conocida, la moda de la distribución posterior conjunta de β y de u puede
encontrarse iterando mediante:
Este método fue extendido por Foulley, Gianola y Thompson (1983) para el caso de
modelos con respuestas gaussianas y categóricas, por Hoeschele et al. (1986) para respuestas
binarias multivariadas, y por Foulley et al. (1987b) para modelos en los cuales las variables
categóricas de respuesta dependen de un conteo que tiene una distribución condicional de
Poisson. Harville y Mee (1984), Foulley et al. (1987a, 1990), Tempelman y Gianola (1996,
1999) y Tempelman y Firat (1998) se ocuparon de estimar los componentes de dispersión en
estos casos. En concreto, Harville y Mee (1984) y Foulley et al. (1987a) hicieron uso de una
aproximación gaussiana, con el algoritmo “obtener esperanzas-maximizar” (EM – Expectation-
Maximization) usado para calcular estimadores “cuasi-REML”, o, quizá empleando una
terminología más apropiada, estimadores “de máxima verosimilitud cuasi-marginal”. Gilmour et
al. (1985) emplean un procedimiento ligeramente diferente para datos categóricos; basan su
propuesta en la cuasi-verosimilitud, y, si bien sus estimadores de los componentes de la varianza
y sus predictores de los efectos aleatorios carecen de justificación formal, se reducen a BLUP y
REML cuando las respuestas son gaussianas. Sorensen et al. (1995) presentaron una solución
puramente bayesiana para respuestas policotómicas ordenadas basada en muestreo Gibbs. En
vista de los recursos de cómputo disponibles hoy en día, no hay mucha justificación para seguir
usando modelos lineales ni aproximaciones en el análisis de datos categóricos. Sin embargo, los
16
modelos alternativos deben usarse con cuidado porque pueden surgir cuestiones sutiles de
identificación de parámetros.
En la primera etapa uno de los supuestos es que las trayectorias (los pesos del mismo
individuo, por ejemplo) pueden ser descritas mediante el siguiente modelo paramétrico:
17
donde yi es condicionalmente independiente de yj para cualquier par concebible. En (15), Ri (ã)
es una matriz n i × n i de varianza-covarianza de la primera etapa, la cual depende de ã, un vector
de parámetros de dispersión. Por ejemplo, si los residuos están independiente e idénticamente
distribuidos dentro de los individuos, entonces Ri (ã) = I ni ã, donde ã es la varianza alrededor de
la trayectoria esperada, por lo cual ã es un escalar en este caso. La forma de la matriz Ri (ã)
depende de los supuestos que se hagan sobre la dispersión.
La segunda etapa del modelo define de qué manera varían los parámetros específicos de
cada individuo con respecto a variables independientes, las cuales posiblemente representan
fuentes genéticas de variación. Para facilitar su definición, puede ser conveniente suponer que la
segunda etapa del modelo es lineal con respecto a los efectos de las variables independientes.
Sin embargo, al menos en teoría, no existe razón que impida que tal especificación sea no lineal,
particularmente si así lo sugieren consideraciones teóricas. Si se adopta un modelo lineal, la
estructura es la siguiente:
èi = Xi â + ui + ei , i = 1, 2, ..., M. (16)
lo cual implica que e i | Ó e ~ N (0, Óe). Los elementos en la diagonal de Óe son las varianzas de
los residuos de la segunda etapa, y los términos fuera de la diagonal corresponden a las
covarianzas. En algunos casos, uno puede optar por asignar una distribución con colas pesadas o
robusta para los residuos, como puede ser una distribución t multivariada, con r componentes.
En este caso, uno escribiría ei | í e , Óe ~ tr (0, Óe, íe) para denotar una distribución t
r-dimensional, con un vector de ceros como media, matriz de varianza-covarianza Óe y í e grados
de libertad. Debemos hacer mención que para una distribución t multivariada, Óe = (í e /(íe - 2))
Se, donde Se es la matriz de escala, por lo cual íe > 2 es una condición necesaria para que exista
la matriz de varianza-covarianza (Zellner, 1971). Suele suponerse que los residuos de la
segunda etapa son mutuamente independientes entre individuos. Los parámetros pueden
expresarse de manera compacta como sigue:
Esto quiere decir que la distribución de la segunda etapa para todos los parámetros de todos los
individuos está dada por:
18
de los parámetros de trayectoria, un supuesto común (y conveniente) en la genética cuantitativa
es:
donde queda implícito que los parámetros están ordenados dentro de los individuos, que A es la
matriz aditiva genética entre los M individuos, y que G0 , es la matriz genética aditiva de
varianza-covarianza de los parámetros, de tamaño r × r. Si G0 es desconocida, también debe
proponerse una distribución a priori para la misma. La incertidumbre sobre todas las cantidades
desconocidas se introduciría en la densidad previa conjunta
Una vez que los datos se hayan combinado con la distribución a priori mediante el uso del
teorema de Bayes, pueden obtenerse inferencias. La distribución a priori recién mencionada
puede estar acotada, de acuerdo con conocimientos previos sobre los valores de los parámetros,
o bien debido a consideraciones teóricas. Debemos enfatizar que una ventaja del enfoque
bayesiano reside en la posibilidad de incorporar al análisis información externa estocástica.
Antes del advenimiento de MCMC era necesario usar métodos aproximados. Por
ejemplo, Gianola y Kachman (1983) y Kachman y Gianola (1984) propusieron emplear
métodos bayesianos empíricos y variantes de REML para obtener estimaciones de valores de
cria y de componentes de (co)varianza, respectivamente, para funciones no-lineales (el modelo
lineal era un caso particular) que describían trayectorias longitudinales, como por ejemplo la
lactación o el crecimiento. Estos estimadores son idénticos a los que obtuvieron posteriormente
Lindstrom y Bates (1990) y Laird (1990), empleando lo que se ha llamado modelos de
“regresión aleatoria”. Rekaya (1997), Rodríguez-Zas (1998) y Chang (1999) describieron
implementaciones totalmente bayesianas de curvas de lactación no lineales mediante MCMC
(muestreo por rechazo, Metropolis-Hastings) incluyendo distribuciones con colas pesadas. Un
enfoque aparentemente distinto ha sido el de las funciones de “covarianza” (Kirkpatrick y
Lovsfold, 1989), donde la covarianza entre registros de individuos se considera una función
continua del tiempo. Meyer (1998) describe una implementación REML de las funciones de
covarianza, pero no queda clara como puede extenderse el paradigma que ella emplea a una
situación en la cual la trayectoria requiere de un modelo intrínsicamente no lineal.
Análisis de Supervivencia
Survival Analysis
Un área que ha recibido cada vez más atención en la zootecnia ha sido el análisis de
supervivencia aplicado a la vida productiva o longevidad productiva (Smith y Allaire, 1986;
Ducrocq y Casella, 1996; Sorensen, Gianola y Korsgaard , 1998, y Korsgaard et al., 1999). Al
igual que en las ciencias médicas, también se han empleado modelos de “riesgos
proporcionales” en la genética animal. Aquí, los conceptos básicos son: 1) la función de
supervivencia, la cual modela la probabilidad que un individuo sobreviva hasta el tiempo t, y 2)
la función de riesgo, es decir, la “probabilidad instantánea” que un individuo que ha sobrevivido
hasta el tiempo t muera poco después. Una característica prevaleciente en los modelos de
supervivencia es la presencia de observaciones censuradas. Por ejemplo, puede saberse que una
vaca estaba presente en el rebaño en cierto momento, pero que fue vendida a otro rebaño por
motivos de producción, pero no hay información sobre la fecha en la cual terminó su carrera. La
densidad de todas las observaciones, dados los parámetros, consiste de dos componentes: una
para las observaciones censuradas, la cual depende de los parámetros a través de la función de
supervivencia, y otra (para los datos no censurados) en la cual los parámetros entran a través de
la función de riesgo. En estos modelos el riesgo de muerte de un individuo se expresa como el
producto de un riesgo basal y un riesgo multiplicativo que depende de efectos fijos y aleatorios.
19
En esta área se han empleado técnicas bayesianas empíricas para inferir valores de cria (por
ejemplo, Ducrocq y Casella, 1996), aunque técnicamente son factibles los tratamientos
bayesianos puros. Un punto que queda por resolver es cómo incorporar un análisis de
supervivencia al caso de varias características. Este problema es de fácil solución si se usa un
modelo lineal censurado (Korsgaard et al., 1999), si bien esto sacrifica la flexibilidad y el
realismo de los supuestos. Similarmente, hay situaciones en las cuales puede ser necesario
modelar una función de riesgo multivariada. Guo (1999), por ejemplo, estudió la longevidad
productiva y la prolificidad vitalicia en cerdas. Ambas características pueden estar sujetas a
truncamie nto, y se requeriría un modelo de supervivencia bivariado para hacer inferencias sobre
la correlación genética y ambiental entre las características.
Tal como mencionamos antes, los datos de zootecnia rara vez se originan a partir de un
mecanismo genuinamente aleatorio. Excepto en experimentos diseñados, la “historia del
proceso de selección” se conoce parcialmente. Una cuestión de importancia es hasta qué punto
se distorsionan las inferencias cuando, por ejemplo, se ignoran la selección o el apareamiento
selectivo. Algunas contribuciones importantes han sido las de Kempthorne y von Krosigk que
aparecen en Henderson et al. (1959), Curnow (1961) y, notablemente, Henderson (1975). Im,
Fernando y Gianola (1989) estudiaron los problemas inferenciales desde un punto de vista de
“datos faltantes”, mientras que Gianola y Fernando (1986) y Fernando y Gianola (1990) dan el
tratamiento bayesiano.
Kempthorne y von Krosigk (Henderson et al., 1959), y Curnow (1961), usan supuestos
de normalidad y demuestran que el estimador de máxima verosimilitud es el mismo con y sin
selección, siempre y cuando toda la información empleada para tomar decisiones con respecto a
la selección sea usada en el análisis. Im, Fernando y Gianola (1989) presentan el resultado de
manera más general, para cualquier distribución. Esto no implica que la distribución asintótica
del estimador de máxima verosimilitud no se vea afectada por la selección. Para obtener la
matriz de información cuando hay selección uno necesita obtener esperanzas con respecto a la
distribución marginal de las observaciones bajo selección, en lugar de hacerlo bajo muestreo
aleatorio. De lo contrario, resulta interesante que el estimador puntual es válido, mientras que
las inferencias respecto a intervalos son inválidas al considerar muestreo conceptual repetido.
Por lo tanto la selección no es completamente ignorable si uno desea ir más allá de un estimador
puntual. Gianola, Fernando, Im y Foulley (1989) hacen una revisión de algunas de estas
cuestiones.
Henderson (1975) derivó los mejores predictores lineales insesgados del valor de cria
bajo un modelo concreto de selección, dando por hecho que los parámetros de dispersión son
conocidos. En esta instancia, bajo muestreo repetido, las matrices de incidencia y la matriz de
parentesco deben permanecer constantes de replicación a replicación. El modelo de Henderson
es válido sólo si los animales son intercambiables, en el sentido que cualquier permutación de
componentes produce la misma distribución y la misma matriz de relación. Esto es inverosímil
en la práctica. Sea cual fuere el caso, y considerando estas restricciones, él dio condiciones para
insesgamiento, las cuales han sido citadas y respetadas en el área de zootecnia. Una de ellas, por
ejemplo, dice que si la selección está basada en funciones lineales de valores de cria
inobservables, algunos factores aleatorios del modelo (como podrían ser los rebaños) deben ser
tratados como fijos para obtener predictores insesgados de los valores de cria. En primer lugar,
es obvio que si uno pudiera observar los valores de cria para construir las funciones lineales a
partir de las cuales se basará la selección, no tendría caso predecir cosa alguna, pues el estado
real de la naturaleza sería conocido. En segundo lugar, esto no describe el tipo de selección que
uno encontraría en la práctica. Sin embargo, resulta interesante que sus derivaciones fueron
recibidas sin crítica alguna por los zootecnistas, con la excepción notable de Thompson (1979).
20
En cualquier caso, Henderson (1975) probablemente constituye el mejor intento frecuentista
para obtener predicción insesgada de efectos aleatorios bajo selección.
Existen situaciones en las cuales la selección no puede ser ignorada. Por ejemplo, es de
esperarse que en un análisis de las características de la carcasa en ganado vacuno que ignorara la
selección concomitante por tasa de crecimiento conduciría a inferencias inválidas. Aquí es
esencial el intentar modelar los “datos faltantes” o el procedimiento de selección, o bien, quizá
considerar adoptar métodos robustos de inferencia. Por ejemplo, si la selección (natural o
artificial) desplaza a una población hacia algún punto óptimo intermedio, esto debe ser tomado
en cuenta de alguna manera. Si tal selección se realiza de acuerdo a funciones gaussianas de
aptitud (fitness), la distribución resultante posterior a la selección sigue siendo gaussiana, pero
los parámetros son distintos (ver, por ejemplo, Bulmer, 1980). En términos generales, el
problema de obtener inferencias bajo selección puede plantearse como sigue: (Sorensen,
Fernando y Gianola, 2001). Supongamos que la selección está basada en un vector aleatorio z, y
que una función de selección s(z) produce datos mutuamente exclusivos y exhaustivos yi (i = 1,
2, ..., S). Cada uno de los vectores de datos yi consta de datos que serían observados si un
conjunto específico de animales resultase seleccionado, por ejemplo, para producir registros
adicionales o bien para convertirse en padres de la siguiente generación. Debemos resaltar que
la función de selección es discreta, de tal manera que s(z) = i, con i = 1, 2, ..., S. Por ejemplo,
supongamos que una vaca de una par de hembras será escogida para producir un segundo
registro de lactación, de acuerdo con la producción de una primera lactación. Sea yjk el k-ésimo
registro de la vaca j (j = 1, 2). Aquí, z = [y11 , y21 ]’. Si y11 > y21 , el registro adicional observado es
y12 y s(z) = 1, lo cual produce y1 = [y11 , y21,, y12 ]’. A la inversa, si y11 y21 , la observación
adicional es y22 , s(z) = 2, y entonces y2 = [y11 , y21,, y22 ]’. Por lo tanto, la variable aleatoria s(z)
tiene por espacio muestral a todos los patrones posibles (‘diseños’). De manera más general, s(z)
puede referirse a los ‘diseños’ de un experimento de selección multigeneracional. Supongamos
que z(t) tiene una distribución con parámetro ö. El vector de datos observados es yi , y estos
datos se usan para inferir un vector de parámetros ëi ; el vector de parámetros es específico para
cada vector de datos porque, por ejemplo, los valores de cria desconocidos de individuos
asociados con y1 , por poner un caso, serán distintos de los que estén asociados con y2 . Bajo
selección, la densidad posterior de ëi y de ö puede expresarse de la siguiente manera:
S
p sel( ëi , ö | yi ) ∝ p( ëi , ö) ∑
j =1
p[ yi , s(z) = j | ëi , ö] ä( i – j) (21)
21
= p( ëi , ö) p(yi | ëi ) Pr [ s(z) = i | yi , ëi , ö ]
que es la densidad posterior sin selección. Si las dos condiciones antecitadas se cumplen, la
selección es ignorable y el proceso de inferencia prosigue como si no hubiera habido selección.
Un caso especial de interés es aquel en el que todos los datos o bien un subconjunto de ellos se
ha usado para tomar decisiones de selección y tales datos han sido incluidos en el análisis. En
este caso Pr[s(z) = i | ëi , ö, yi ] = 1, porque s(z) queda completamente especificado si yi está
dado. De aquí sigue que la selección es ignorable cuando está basada total o parcialmente en los
datos usados para obtener inferencias. En conclusión, cuando todos los registros se usan para
construir la distribución posterior de una incógnita ë, todas las distribuciones, sean conjuntas,
condicionales, y marginales son iguales a las que se obtendrían si no hubiera habido selección.
Software de Cómputo
Computing Software
Debido al tamaño de las series de datos de zootecnia, se han dedicado muchos esfuerzos
para hacer BLUP y REML computacionalmente factibles, incluso en modelos multivariados.
Misztal (1998) compara los distintos paquetes de cómputo; Hofer (1998) contiene discusión
adicional. Los paquetes más ampliamente usados para modelos lineales de efectos mixtos son
DFREML (Meyer, 1991), DMU (Jensen y Madsen, 1994), MTDFREML (Kriese et al., 1994),
VCE (Groeneveld, 1994) y ASREML (Gilmour y Thompson, 1998). Algunos paquetes incluyen
implementaciones de MCMC (Van Tassell y Van Vleck, 1996; Groeneveld y García Cortés,
1998; Janss, 1998). Janss y de Jong (1999) ajustaron un modelo univariado de efectos mixtos a
aproximadamente 1,4 millones de efectos de localización, con 700,000 valores genéticos
adicionales (con una matriz de relación, A, del orden correspondie nte) de rendimiento lechero
de ganado holandés, y usaron muestreo Gibbs. Estimaron las distribuciones posteriores de
heredabilidad de manera precisa. Este caso es un ejemplo en el cual MCMC permite estimar una
distribución completamente, mientras que cálculos determinísticos basados en la verosimilitud
no son factibles. Hay algunos programas para modelos no lineales, de análisis de supervivencia,
y de variables dependientes limitadas, pero no son generales. Un ejemplo es SURVIVAL KIT,
útil para el análisis de modelos de supervivencia (Ducrocq y Sölkner, 1998).
Desarrollos Futuros
Future Developments
Los zootecnistas han adoptado las nuevas ideas y tecnología estadísticas a un ritmo
bastante acelerado. ¿Pueden esperarse avances adicionales? Una primera área que requiere
trabajo adicional es la de especificación y crítica de modelos. No es razonable esperar que todas
las características cuantitativas puedan ser adecuadamente descritas con un modelo lineal con
una especificación universal “rebaño-año+animal+efectos permanentes+ambiente+residual”
bajo supuestos gaussianos. Dado el crecimiento constante en el poderío computacional y los
algoritmos, existe flexibilidad para ajustar tanto formas funcionales como distribuciones más
22
realistas, así como para cuestionar los modelos de manera más estricta, siendo esta última un
área que no ha recibido la atención que se merece. Una medida relativa de la bondad del
modelo, al menos en un marco bayesiano, consiste en evaluar las probabilidades posteriores de
cada uno de un conjunto de modelos alternativos. Esto requiere calcular los factores de Bayes o
bien emplear métodos de salto reversible para estimar la distribución de probabilidad posterior
de los modelos. Strandén y Gianola (1997), por ejemplo, encontraron fuerte evidencia en contra
de un modelo con errores gaussianos. Una especificación con una distribución t para los
residuos era al menos 105 más probable que su contraparte gaussiana; esta diferencia
correspondería a una diferencia de aproximadamente 23 en la escala de una prueba de cociente
de verosimilitudes.
Una segunda área de interés está relacionada con los riesgos inherentes de adoptar
supuestos demasiado fuertes respecto a la dimensionalidad de un modelo. Algunos zootecnistas
parecen creer que un análisis de un modelo con un gran número de dimensiones es
necesariamente mejor (o que proporciona una “norma de oro”) que un modelo basado en
supuestos menos ambiciosos. Si el estado real de la naturaleza es desconocido, no existe razón
para esperar que un modelo con más parámetros aporte una descripción “óptima” de la realidad
(Malécot, 1947). Supongamos, por ejemplo, que disponemos de las características A, B,C, ..., Z,
y que se ajusta un modelo gaussiano para características múltiples, con tantas dimensiones como
hay letras en el abecedario, para predecir los valores de cria y estimar los parámetros genéticos.
Esto es equivalente a construir un modelo probabilístico del siguiente tipo:
Podemos hacer la analogía de que esta expresión es como una escalera, pero ¿qué pasa si
algunos de los peldaños son falsos? Puede haber razones válidas para creer que haya normalidad
aproximada en los márgenes. Lamentablemente, esto no es una condición suficiente para definir
un proceso conjunto gaussiano, puesto que todas las distribuciones condicionales deben ser
gaussianas para que esto sea verdad. Strandén y Gianola (1997), por ejemplo, usaron factores de
Bayes y hallaron que los modelos de repetibilidad univariados (ya fuera con errores gaussianos
o con distribución t) eran mucho más plausibles que los modelos bivariados que describían el
rendimiento lechero durante la primera y segunda lactaciones en ganado Ayrshire. Aún si uno
adopta un modelo de varias dimensiones, Rekaya, Weigel y Gianola (1999) demuestran cómo
una parametrización más parsimoniosa de una matriz de varianza-covarianza puede producir
inferencias dramáticamente más precisas sobre las correlaciones genéticas, cuando se compara
con un modelo estándar para múltiples características. Un problema relacionado en el área de
zootecnia, y también importante, es el de describir varianzas heterogéneas de manera
parsimoniosa empleando modelos “estructurales” (Foulley, et al., 1992; San Cristóbal et al.,
1993).
23
Una tercera área de interés es la de disponer de robustez ante violaciones a los
supuestos, tal como mencionamos anteriormente. Hay trabajos en marcha que ajustan
distribuciones con colas pesadas (Strandén y Gianola, 1998; Rodríguez-Zas, 1998;
Rodríguez-Zas, Gianola y Shook, 1998; Rosa, 1998), modelos no paramétricos bayesianos
(Saama, 1999) y el uso de splines (White, Thompson y Brotherstone, 1999). Respecto a
distribuciones con colas pesadas, Strandén (1996) y Strandén y Gianola (1999) describen la
manera en la cual los modelos lineales de efectos mixtos, tanto univariados como para múltiples
características, pueden extenderse para acomodar distribuciones t, para así obtener un análisis
más robusto. Strandén y Gianola (1997) encontraron que los modelos con errores independiente
e idénticamente t-distribuidos, univariados o bivariados, eran más plausibles que sus
contrapartes bayesianas para caracterizar el rendimiento lechero en ganado. En este estudio, la
distribución posterior de los grados de libertad estaba concentrada entre los valores de 6 y 10, lo
cual invalida el supuesto gaussiano. Por otra parte, Rodríguez-Zas (1998) encontró que las
medias posteriores de los grados de libertad fluctuaban entre 20 y 24 al usar “regresiones al
azar” no lineales para describir los conteos de células somáticas en vacas Holstein. En este caso
los factores de Bayes no fueron decisivos en contra del supuesto gaussiano. Rosa (1998) apuntó
que los modelos t podían extenderse fácilmente (al menos desde un punto de vista bayesiano)
para reflejar asimetrías en la distribución de los efectos aleatorios. Esto ya había sido sugerido
por Fernández y Steel (1998a,b) para la primera etapa de un modelo jerárquico. Rosa, Gianola y
Padovani (1998, 1999) ajustaron siete distribuciones (Gaussiana, t univariada y multivariada,
slash univariada y multivariada, normal contaminada univariada y multivariada) a datos de peso
al nacer de ratones. Las distribuciones gaussianas y la s tres distribuciones robustas
multivariadas resultaron ser las de menor plausibilidad. Entre las tres distribuciones robustas
univariadas, la slash y la normal contaminada produjeron modelos que eran entre 5 y 6 veces
más probables (a posteriori) que la t-univariada. El modelo gaussiano era unas 10-26 veces
menos factible que otro modelo con una distribución normal contaminada univariada. Esto
indica que los análisis basados en los supuestos gaussianos pueden ser peligrosos para la
inferencia probabilística en su totalidad. Si bien la normalidad puede no causar problemas
serios desde el punto de visto de la predicción puntual de valores de cria, puede crear
dificultades para calcular las probabilidades de eventos ordenados. Por ejemplo, Heringstad,
Rekaya y Gianola (1999, sin publicar), usaron datos noruegos binarios de mastitis para estimar,
mediante MCMC en un modelo bayesiano de umbral, la probabilidad posterior de que al menos
10 de los mejores 25 sementales (ordenamiento basado en medias posteriores) fueran aquellos
con las habilidades de transmisión más grandes en la escala de responsabilidad; el análisis
involucró a 257 sementales jóvenes y unos 12.000 registros. Este tipo de cálculo probabilístico
puede usarse para distinguir entre varios modelos, escogiendo aquellos que tengan la
probabilidad más alta de que el ordenamiento de los valores reales corresponda al ordenamiento
de la evaluación, dados los datos. Claramente, el usar un supuesto gaussiano para datos binarios
0-1 generaría probabilidades espurias. El cálculo de la probabilidad de ordenar correctamente un
conjunto de variables aleatorias que ni son independientes ni se distribuyen idénticamente es un
problema viejo en la zootecnia (Henderson, 1973).
Uno de los mayores retos en la zootecnia es cómo tratar los datos resultantes de
procesos de selección crípticos. Por lo tanto, el proponer modelos de selección es un área que
debe recibir más atención, más allá de las simulaciones ad hoc que suelen generarse para
estudiar lo que ocurre bajo condic iones muy concretas. Por ejemplo, Gianola y Hill (1999)
derivaron predicción lineal insesgada óptima para selección estabilizante. Las inferencias
dependen de conocer el valor óptimo hacia el cual se está moviendo la población, y de una
matriz de parámetros. En principio, estos parámetros puede estimarse al comparar los datos
antes y después de la selección. Sin embargo, si uno hubiera observado los datos antes de que
ocurriera la selección, dicha selección sería ignorable, al menos desde un punto de vista
bayesiano o de verosimilitud. Tal como mencionamos, Sorensen, Fernando y Gianola (2001)
propusieron una técnica que permite inferir la trayectoria de la varianza genética aditiva (bajo
un modelo infinitesimal) durante el transcurso de la selección. Empleando datos simulados,
24
mostraron que la distribución posterior de la varianza genética aditiva para cualquier generación
cubría adecuadamente el valor real. Su análisis bayesiano es mucho más preciso que ajustar una
regresión de los hijos sobre los padres, lo cual ha sido una forma de inferencia de verosimilitud
condicional que se ha recomendado para algunos tipos de datos. Una extensión obvia consiste
en estudiar la dinámica de la correlación genética entre características.
Agradecimientos
Acknowledgements
El autor agradece los comentarios hechos por David Balding, Jean-Louis Foulley,
Daniel Sorensen y Robin Thompson en relacion a una versión (en inglés) publicada en
“Handbook of Statistical Genetics”, Wiley&Sons, Buffins Lane, Gran Bretaña (2001, ISBN O-
471-86094-8). Este trabajo fue financiado por la Estación Agrícola Experimental Wisconsin
(Wisconsin Agriculture Experiment Station) y por los fondos para investigación
NRICGP/USDA 99-35205-8162, y NSF DEB-0089742.
Referencias Bibliográficas
References
Balding, D.J. et al. (Eds.) (2001), Handbook of Statistical Genetics. Nueva York: John Wiley &
Sons, Ltd.
Bidanel, J. P (1998), “Benefits and Limits of Increasingly Sophisticated Models for Genetic
Evaluation: the Example of Pig Breeding,” Proceedings of the Sixth World Congress on
Genetics Applied to Livestock Production, 25, 577-584, Armidale: Animal Genetics and
Breeding Unit.
Cockerham, C. Clark (1954), “An Extension of the Concept of Partitioning Hereditary Variance
for the Analysis of Covariances Among Relatives when Epistasis is Present”, Genetics, 39, 859-
882.
25
Curnow, R. N. (1961), “The Estimation of Repeatability and Heritability from Records Subject
to Culling,” Biometrics, 17, 553-566.
Dempfle, L. (1977), “Relation Entre BLUP (Best Linear Unbiased Prediction) et Estimateurs
Bayesiens,” Annales de Génetique et de Séléction Animale, 9, 27-32.
Ducrocq, V. y Sölkner, J. (1998), “The Survival Kit: a Fortran Package for the Analysis of
Survival Data,” Proceedings of the Sixth World Congress on Genetics Applied to Livestock
Production, 22, 51-52, Armidale: Animal Genetics and Breeding Unit.
Falconer, D. S. (1965), “Maternal Effects and Selection Response”, Genetics Today, 763-774
(Geerts, S.J., Ed.), Oxford: Pergamon.
Fernández, C. y Steel, M. F. J. (1998a), “On Bayesian Modelling of Fat Tails and Skewness,”
Journal of the American Statistical Association, 93, 359-371.
Foulley, J. L., Gianola, D. y Im. S. (1990), “Genetic Evaluation for Discrete Polygenic Traits in
Animal Breeding,” Advances in Statistical Methods for Genetic Improvement of Livestock , 361-
409 (Gianola, D., y Hammond, K. Eds.), Berlin: Springer-Verlag.
26
Foulley, J.. L., Gianola, D. y Thompson, R. (1983), “Prediction of Genetic Merit from Data on
Categorical and Quantitative Variates with an Application to Calving Difficulty, Birth Weight
and Pelvic Opening,” Genetics, Selection, Evolution, 15, 407-424.
Foulley, J. L., Im, S., Gianola, D. y Höschele, I. (1987a), “Empirical Bayes Estimation of
Parameters for n Polygenic Binary Traits”, Genetics, Selection, Evolution, 19, 197-224.
Foulley, J. L., Gianola, D., y Im. S. (1987b), “Genetic evaluation for traits distributed as
Poisson-Binomial with reference to reproductive traits,” Theoretical and Applied Genetics, 73,
870-877.
Foulley, J.L., San Cristóbal, M.., Gianola D., y Im, S. (1992), “Marginal likelihood and
Bayesian approaches to the analysis of heterogeneous residual variances in mixed linear
Gaussian models,”. Computational Statistics and Data Analysis, 13, 291-305.
Fox, J. (1984), Linear Statistical Models and Related Methods, New York: Wiley.
Gianola, D. y Goffinet, B. (1982), “Sire Evaluation with Best Linear Unbiased Predictors,”
Biometrics, 38, 1085-1088.
Gianola, D. y Foulley, J. L. (1983), “Sire Evaluation for Ordered Categorical Data with a
Threshold Model”, Genetics, Selection, Evolution, 15, 201-224.
Gianola, D., Foulley, J. L., y Fernando, R. L. (1986), “Prediction of Breeding Values when
Variances are not Known,” Proceedings of the Third World Congress on Genetics Applied to
Livestock Production, XII, 356-370, Lincoln: Agricultural Communications, University of
Nebraska.
Gianola, D., y Hammond, K. (Eds.) (1990), Advances in Statistical Methods for Genetic
Improvement of Livestock , Berlin: Springer-Verlag.
Gianola, D. y Hill, W. G. (1999), “Selection for an intermediate optimum and best linear
unbiased prediction”, en preparación.
Gianola, D., Piles, M. M., y Blasco, A. (1999), “Bayesian Inference about Parameters of a
Longitudinal Trajectory when Selection Operates on a Correlated Trait,” Proceedings of
International Symposium in Animal Breeding and Genetics, 101-132, Universidade Federal de
Viçosa, Brasil.
27
Gianola, D., Rodríguez-Zas, S. y Shook, G. E. (1994), “The Gibbs sampler in the animal Model:
a Primer,”. 47-56, Seminaire Modele Animal, Foulley, J. L. y Molenat, M. (Eds.), Jouy-en-
Josas: INRA.
Gilmour, A. R., Anderson, R. D., Rae, A. L. (1985), “The Analysis of Binomial Data by a
Generalized Linear MIxed Model,” Biometrika, 72, 593-599.
Guo, S. F. (1999), “Application of Survival and Censored Linear Models to the Analysis of
Herdlife and Lifetime Prolificacy in Landrace Sows,” Tésis de Maestría, University of
Wisconsin-Madison.
Hartley, H. O. y Rao, J. N. K. (1967), “Maximum Likelihood Estimation for the Mixed Analysis
of Variance Model”, Biometrika, 54, 93-108.
Harvey, W. R. (1960), “Least-squares analysis of data with unequal subclass numbers,” Bulletin
20-8, Washington: United States Department of Agriculture, Agricultural Research Service.
Harville, D. A. (1974), “Bayesian Inference for Variance Components Using Only Error
Contrasts,” Biometrika, 61, 383-385.
Hazel, L. N. (1943), “The Genetic Basis for Constructing Selection Indexes,” Genetics, 28, 476-
490.
28
Henderson, C. R. (1950), “Specific and General Combining Ability”, en: Gowen, J. W (Ed.),
Heterosis, 352-370, Ames: Iowa State College
Press.
Henderson, C. R. (1963), “Selection Index and Expected Genetic Advance”, en: Hanson, W. D.
y Robinson, H. F. (Eds.), Statistical Genetics and Plant Breeding, 141-163, Publication 992,
Washington D. C.: National Academy of Sciences-National Research Council.
Henderson, C. R. (1973), “Sire Evaluation and Genetic Trends,” Proceedings of the Animal
Breeding and Genetics Symposium in Honor of Dr. Jay L. Lush, 10-41, Champaign: American
Society of Anima l Science and the American Dairy Science Association.
Henderson, C. R. (1975), “Best Linear Unbiased Estimation and Prediction Under a Selection
Model,” Biometrics, 31, 423-449.
Hill, W. G. (1974), “Heritabilities: Estimation Problems and the Present State of Information,”
Proceedings of the First World Congress on Genetics Applied to Livestock Production, I, 343-
351, Madrid: Gráficas Orbe.
Hoeschele, I., Uimari, P., Grignola, F. E., Zhang, Q. y Gage, K. (1997), “Advances in Statistical
Methods to Map Quantitative Trait Loci in Outbred Populations,” Genetics, 147, 1445-1457.
Höschele, I., Foulley, J. L., Colleau, J. J. y Gianola, D. (1986), “Genetic Evaluation for Multiple
Binary Responses”, Genetics, Selection, Evolution, 18, 299-320.
Im, S., Fernando, R. L. y Gianola, D. (1989), Likelihood Inferences in Animal Breeding Under
Selection: A Missing Data Theory Viewpoint,” Genetics, Selection, Evolution, 21, 399-414.
29
Janss, L. L. G. (1998), “MaGGic: A Package of Subroutines for Genetic Analysis with Gibbs
Sampling,” Proceedings of the Sixth World Congress on Genetics Applied to Livestock
Production, 27, 459-460, Armidale: Animal Genetics and Breeding Unit.
Jensen, J. y Madsen, P. (1994), “DMU: a Package for the Analysis of Multivariate Mixed
Models,” Proceedings of the Fifth World Congress on Genetics Applied to Livestock
Production, 22, 45-46, Guelph: University of Guelph.
Jiang, J. (1996), “REML Estimation: Asymptotic Behavior and Related Topics,” The Annals of
Statistics, 24, 255-286.
Korsgaard. I. R., Lund, M. S., Sorensen, D., Gianola, D., Madsen, P. y Jensen, J. (1999),
“Multivariate Bayesian Analysis of Gaussian, Right-Censored Gaussian, Ordered Categorical
and Binary Traits in Animal Breeding,” Proceedings of the Computational Cattle Breeding 99
Workshop. Interbull Bulletin, 20, 79-92. Uppsala, Sweden.
Kriese, L. A., Boldman K. G., Van Vleck, L. D., y Kachman, S. D. (1994), “A Flexible Set of
Programs to Estimate (Co)variances for Messy Multiple Trait Animal Models Using Derivative
Free REML and Sparse Matrix Techniques,” Proceedings of the Fifth World Congress on
Genetics Applied to Livestock Production, 22, 43-44, Guelph: University of Guelph.
Laird, N. M. (1990), “Analysis of Linear and Nonlinear Growth Models with Random
Parameters,” Advances in Statistical Methods for Genetic Improvement of Livestock , 329-343
(Gianola, D., y Hammond, K. Eds.), Heidelberg: Springer-Verlag.
Lee, Y. y Nelder, J. A. (1996), “Hierarchical Generalized Linear Models”, Journal of the Royal
Statistical Society, B58, 619-678.
30
Lindley, D. V. y Smith, A. F. M. (1972), “Bayes Estimates for the Linear Model” (con
discusión), Journal of the Royal Statistical Society , B34, 1-41.
Lush, J. L. (1931), “The Number of Daughters Necessary to Prove a Sire,” Journal of Dairy
Science, 14, 209-220.
Malécot, G. (1947), “Statistical Methods and the Subjective Basis of Scientific Knowledge,”
Genetics, Selection, Evolution, 31, 269-298.
Meyer, K. (1990), “Present Status of Knowledge about Statistical Procedures and Algorithms to
Estimate Variance and Covariance Components,” Proceedings of the Fourth World Congress on
Genetics Applied to Livestock Production, XII, 407-418, Penicuik: Joyce Darling.
Meyer, K. (1991), “Estimating Variances and Covariances for Multivariate Animal Models by
Restricted Maximum Likelihood,” Genetics, Selection, Evolution, 23, 67-83.
Meyer, K. (1998), “Modeling Repeated Records: Covariance Functions and Random Regression
Models to Analise Animal Breeding Data”, Proceedings of the Sixth World Congress on
Genetics Applied to Livestock Production, 25, 517-520, Armidale: Animal Genetics and
Breeding Unit.
Rekaya, R. (1997), “Análisis Bayesiano de Datos de Producción en los Días del Control Para la
Selección de Caracteres Lecheros,” Tésis Doctoral, Universidad Politécnica de Madrid.
Rekaya, R., Weigel, K. A., y Gianola, D. (1999), “Bayesian Estimation of a Structural Model
for Genetic Covariances for Milk Yield in Five Regions of the USA,” European Association for
Animal Production. 50th Annual Meeting, Zurich, Switzerland, 7 pp.
Robert, C. (1996), Méthodes de Monte Carlo par Châines de Markov, Paris: Economica.
31
Rodríguez-Zas, S. L., Gianola, D. y Shook, G. E. (1998), “Bayesian Analysis of Nonlinear
Mixed Effects Models for Somatic Cell Score Lactation Patterns in Holsteins,” Proceedings of
the Sixth World Congress on Genetics Applied to Livestock Production, 25, 497-500, Armidale:
Animal Genetics and Breeding Unit.
Rönningen, K. (1971), “Some Properties of the Selection Index derived by Henderson's Mixed
Model Method”, Zeitschrift für Tierzuchtung und Züchtungsbiologie , 8, 186-193.
Rosa, G. J. M., Gianola, D. y Padovani, C. R. (1999), “Bayesian Robust Linear Mixed Models
via Gibbs Sampling” (enviado)
Searle, S. R. (1974), “Prediction, Mixed Models and Variance Components,” en: Proschan, F. y
Serfling, R. J., Eds., Reliability and Biometry, Philadelphia: Society for Industrial and Applied
Mathematics.
Searle, S. R., Casella, G. y McCulloch, C. E. (1992), Variance Components, New York: Wiley.
Smith, F. H. (1936), “A Discriminant Function for Plant Selection”, Annals of Eugenics, 7, 240-
250.
Sorensen, D. A., Andersen, S., Jensen, J. Wang, C. S. y Gianola, D. (1994), “Inferences About
Genetic Parameters Using the Gibbs Sampler,” Proceedings of the Fifth World Congress on
Genetics Applied to Livestock Production, 18, 321-328, Guelph: University of Guelph.
32
Sorensen, D. A., Andersen, S., Gianola, D. y Korsgaard, I. (1995), “Bayesian Inference in
Threshold Models Using Gibbs Sampling,” Genetics, Selection, Evolution, 27, 229-249
Sorensen, D. A., Wang, C. S., Jensen, J. y Gianola, D. (1994), “Bayesian analysis of genetic
change due to selection using Gibbs sampling,” Genetics, Selection, Evolution, 26, 333-360.
Sorensen, D. A., Fernando, R. L. y Gianola, D. (2001), “Inferring the Traje ctory of Genetic
Variance in the Course of Artificial Selection,” Genetical Research, 77, 83-94.
Strandén, I. (1996), “Robust Mixed Effects Linear Models with t-distributions and application
to dairy cattle breeding,” Tésis Doctoral, University of Wiscons in-Madison.
Strandén, I. y Gianola, D. (1997), “Gaussian versus Student-t Mixed Effects Linear Models for
Milk yield in Ayrshire Cattle. European Association for Animal Production. 48th Annual
Meeting, Vienna, Austria, 16pp.
Strandén, I. y Gianola, D. (1999), “ Mixed effects linear models with t-distributions for
quantitative genetic analysis: a Bayesian approach,” Genetics, Selection, Evolution, 31, 25-42.
Tempelman, R. J. y Gianola, D. (1996), “A Mixed Effects Model for Overdispersed Count Data
in Animal Breeding,” Biometrics, 52, 265-279.
Tempelman, R. J. y Firat, M. Z. (1998), “Beyond the Linear Mixed Model: Perceived versus
Real Benefit,” Proceedings of the Sixth World Congress on Genetics Applied to Livestock
Production, 25, 605-612, Armidale: Animal Genetics and Breeding Unit.
Van Tassel, C. P. y Van Vleck, L. D. (1996), “Multiple -trait Gibbs Sampler for Animal Models;
Flexible Programs for Bayesian and Likelihood Based (Co)variance Component Inference,”
Journal of Animal Science, 74, 2586-2597.
33
Wang, C. S. (1998), “Implementation Issues in Bayesian Analysis in Animal Breeding,”
Proceedings of the Sixth World Congress on Genetics Applied to Livestock Production, 25, 481-
488, Armidale: Animal Genetics and Breeding Unit.
Wang, C. S. , Gianola D., Sorensen, D.A., Jensen, J., Christensen, A. y Rutledge, J. J. (1994),
“Response to selection for litter size in Danish Landrace pigs: a Bayesian analysis,” Theoretical
and Applied Genetics, 88, 220-230.
Wright, S. (1921), “Systems of Mating. I. The Biometric Relations Between Parent and
Offspring,” Genetics, 6, 111-123.
Wolfinger, R. (1993), “Laplace's Approximation for Nonlinear Mixed Models, Biometrika, 80,
791-795.
Zhang, Q., Boichard, D., Hoeschele, I., Ernst, C., Eggen A., Murkve, B., Pfister-Genskow, M.,
Witte, L. A., Grignola, F. E., Uimari, P., Thaller, G. y Bishop, M. D. (1998), “Mapping
Quantitative Trait Loci for Milk Production and Health of Dairy Cattle in a Large Outbred
Pedigree,” Genetics, 149, 1959-1973.
34