Poisson Ayuda 1

Comparación del Modelo
COM-Poisson y el Modelo Poisson
Álvaro Arley Castaño Colorado
Universidad Nacional de Colombia

Facultad de Ciencias, Escuela de Estadı́stica
Medellı́n, Colombia
2017
Comparación del Modelo
COM-Poisson y el Modelo Poisson
Álvaro Arley Castaño Colorado
Tesis o trabajo de grado presentada(o) como requisito parcial para optar al tı́tulo de:
Magı́ster en Ciencias - Estadı́stica
Director: Juan Carlos Correa Morales

Ph.D. en Estadı́stica
Lı́nea de Investigación:
Bioestadı́stica
Universidad Nacional de Colombia

Facultad de Ciencias, Escuela de Estadı́stica
Medellı́n, Colombia
2017
Nunca consideres el estudio como una obliga-
ción, sino como una oportunidad para penetrar
en el bello y maravilloso mundo del saber.
Albert Einstein
Agradecimientos
A mi madre y hermano quienes me brindaron su apoyo en las etapas de estudio, pasantı́a y

en la elaboración de esta investigación.
A Juan Carlos Correa Morales, profesor asociado de la Universidad Nacional de Colombia,

por brindarme los elementos e ideas esenciales para el desarrollo de los objetivos propuestos
en esta disertación.
Al destacado grupo humano que conforma la Escuela de Estadı́stica de la Facultad de Cien-

cias por brindarme las experiencias académicas y de investigación las cuales fueron de gran
ayuda para la ejecución de este trabajo.
ix
Resumen
La modelación de datos de conteo se hace tı́picamente usando el modelo Poisson, en el
cual se asume que la media y la varianza son iguales. Cuando esta condición no es fácil de
justificar, se han propuesto diferentes alternativas, unas más flexibles que otras, en cuanto a
la captura tanto de sobredispersión como de subdispersión. Una de ellas es el modelo COM-
Poisson el cual fue recientemente propuesto y ha sido evaluado en términos inferenciales. La
propuesta de estudio que aquı́ se presenta quiere cuantificar la calidad predictiva del modelo
COM-Poisson con respecto al modelo Poisson, y ası́ establecer la pérdida en la eficiencia
que se tiene al ajustar el modelo inadecuado cuando la propiedad de equidispersión no es
satisfactoria. Los estudios de simulación efectuados determinaron que al ajustar el modelo
inadecuado, ya sea en sobre o subdispersión, no representa, en la mayorı́a de los casos, ni
una ganancia o pérdida en cuanto a la calidad predictiva. Dos estudios de caso aplicados a
la ecologı́a ilustran los resultados obtenidos.
Palabras clave: Datos de Conteo, Modelos Lineales Generalizados, Eficiencia Relativa, Re-
gresión Poisson, Regresión Conway-Maxwell-Poisson, Capacidad Predictiva, Dispersión.
Abstract
Modeling count data is typically done using the Poisson model, in which it is assumed that
the mean and variance are equal. When this condition is not easy to justify, different al-
ternatives have been proposed, some more flexible than others in terms of the capture of
both overdispersion and underdispersion. One of them is the COM-Poisson model which was
recently proposed and has been evaluated in inferential terms. The study proposal presen-
ted here wants to quantify the COM-Poisson model predictive quality with respect to the
Poisson model and establish the loss in efficiency that occurs when the inadequate model
is fitted when the property of equidispersion is not satisfactory. Simulation studies made
determined that when adjusting the inappropriate model either in over or underdispersion
doesn’t represent in most cases, a gain or loss in regard to the predictive quality. Two case
studies applied to the ecology illustrate the results obtained.
Keywords: Count Data, Generalized Linear Models, Relative Efficiency, Poisson regression,
Conway-Maxwell-Poisson regression, Predictive Power, Dispersion.
Contenido
Agradecimientos VII
Resumen IX
Contenido XII
Lista de Figuras XIII
Lista de Tablas XV
Lista de Ecuaciones XVIII
Lista de Sı́mbolos XIX
1. Introducción 1
1.1. Los datos de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Estructura de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Marco teórico 4
2.1. El Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. El Modelo COM-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3. Violación al supuesto de equidispersión (ED) . . . . . . . . . . . . . . . . . . 7
2.3.1. Sobredispersión (OD) . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.2. Subdispersión (UD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.3. Pruebas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Modelos alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.1. Modelo Binomial Negativo (BN) . . . . . . . . . . . . . . . . . . . . . 8
2.4.2. Modelo Poisson Generalizado Restringido (PGR) . . . . . . . . . . . 10
2.4.3. Modelo Poisson Doble (PD) . . . . . . . . . . . . . . . . . . . . . . . 10
2.4.4. Modelo hyper-Poisson (hP) . . . . . . . . . . . . . . . . . . . . . . . 11
2.5. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3. Metodologı́a 14
Contenido xi
3.1. Programación y análisis estadı́stico . . . . . . . . . . . . . . . . . . . . . . . 14

3.2. Simulación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1. Selección de coeficientes asumidos para el vector β . . . . . . . . . . . 15
3.2.2. Simulación de conteos . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3. Niveles de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.4. Tamaño muestral (n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3. Procedimiento de las simulaciones . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.1. Número de simulaciones (nsim) . . . . . . . . . . . . . . . . . . . . . 17
3.3.2. Algoritmo para las simulaciones . . . . . . . . . . . . . . . . . . . . . 17
3.3.3. Modelos ajustados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4. Cálculo de medidas estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.1. Sesgo de los coeficientes estimados . . . . . . . . . . . . . . . . . . . 20
3.4.2. Intervalos de confianza (IC) para los coeficientes de los modelos . . . 21
3.4.3. Raı́z Cuadrada del Error Cuadrático Medio (RECM) . . . . . . . . . 21
3.4.4. Raı́z Cuadrada del Error Cuadrático Medio de Predicción (RECMP) 22
3.5. Eficiencia Relativa (ER) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.6. Mediana del Error Porcentual Absoluto (EPAMe) . . . . . . . . . . . . . . . 23
3.7. Cálculo de medida de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . 23
4. Comparación de las funciones glm.comp y cmp 25

4.1. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.1. Descripción de la simulación . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.2. Detección de diferencias . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.1. Calidad de las estimaciones . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.2. Calidad predictiva y ER . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.3. Diferencias identificadas . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5. Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson 47

5.1. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.1. Descripción de la simulación . . . . . . . . . . . . . . . . . . . . . . . 48
5.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.1. Eficiencia Relativa en OD . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2.2. Eficiencia Relativa en ED . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.3. Eficiencia Relativa en UD . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6. Aplicación con datos reales en la ecologı́a 60

xii Contenido
6.1. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.1.1. Descripción de los datos . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2.1. Para el estudio de abundancia . . . . . . . . . . . . . . . . . . . . . . 63
6.2.2. Para el estudio del tamaño del nido en aves . . . . . . . . . . . . . . 64
6.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7. Conclusiones y recomendaciones 67
7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A. Anexo: Errores estándar inconsistentes entre las funciones glm.comp y cmp 70
B. Anexo: Distribución empı́rica de β0 en un modelo de regresión COM-Poisson 72
C. Anexo: Resumen de las simulaciones del Capı́tulo 5 74
D. Anexo: Evaluación de la bondad de ajuste 78
E. Anexo: Documentación de las funciones desarrolladas para las simulaciones 79

simCorData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
simData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
simFit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
simFitCMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Stats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Bibliografı́a 90
Lista de Figuras
4-1 Calidad del coeficiente estimado β̂0 en un escenario de OD . . . . . . . . . . 28

4-4 Calidad del coeficiente estimado ν̂ en un escenario de OD . . . . . . . . . . . 29
4-5 Calidad del coeficiente estimado βˆ0 en un escenario de ED . . . . . . . . . . 32
4-8 Calidad del coeficiente estimado ν̂ en un escenario de ED . . . . . . . . . . . 33
4-9 Calidad del coeficiente estimado βˆ0 en un escenario de UD . . . . . . . . . . 36
4-12 Calidad del coeficiente estimado ν̂ en un escenario de UD . . . . . . . . . . . 37
4-13 Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de OD . . . . . . . . . . . . . . . . . . . . 40
de RECMP y ER en un escenario de ED . . . . . . . . . . . . . . . . . . . . 41
de RECMP y ER en un escenario de UD . . . . . . . . . . . . . . . . . . . . 42
4-16 Tiempo medio de ajuste de un modelo CMP entre las funciones glm.comp y
cmp en un escenario de ED . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5-1 Desempeño predictivo en OD . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5-2 Comparación de métodos de predicción en OD . . . . . . . . . . . . . . . . . 51
5-3 Desempeño predictivo en ED . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5-4 Comparación de métodos de predicción en ED . . . . . . . . . . . . . . . . . 53
5-5 Desempeño predictivo en UD . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5-6 Comparación de métodos de predicción en UD . . . . . . . . . . . . . . . . . 55
6-1 Localización del área de muestreo del estudio de abundancia. . . . . . . . . . 61
B-1 Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-

Poisson en diferentes tamaños muestrales . . . . . . . . . . . . . . . . . . . . 72
xiv Lista de Figuras
B-2 Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-

Poisson con n = 1000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Lista de Tablas
4-1 Coeficientes asumidos para el estudio de simulación de comparación de las

funciones glm.comp y cmp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4-2 Proporción de IC al 95 % que contienen los coeficientes verdaderos en un
escenario de OD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
escenario de ED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
escenario de UD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5-1 Coeficientes asumidos para el estudio de simulación de eficiencia entre el mo-

delo CMP y el modelo Poisson en, OD . . . . . . . . . . . . . . . . . . . . . 48
delo CMP y el modelo Poisson, en ED . . . . . . . . . . . . . . . . . . . . . 49
delo CMP y el modelo Poisson, en UD . . . . . . . . . . . . . . . . . . . . . 49
5-4 Proporción de ER en un escenario de OD con n = 1000 . . . . . . . . . . . . 52
5-5 Proporción de ER en un escenario de ED con n = 1000 . . . . . . . . . . . . 54
5-6 Proporción de ER en un escenario de UD con n = 1000 . . . . . . . . . . . . 56
6-1 Resumen de las estimaciones en los modelos comparados en el estudio de

abundancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6-2 Calidad de las predicciones en los modelos comparados en el estudio de abun-
dancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6-3 Resumen de las estimaciones en los modelos comparados en el estudio del
tamaño del nido en aves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6-4 Calidad de las predicciones en los modelos comparados en el estudio del ta-
maño del nido en aves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
C-1 Resumen de las simulaciones para ν asumido de 0.25 con n = 1000 . . . . . . 74

C-4 Resumen de las simulaciones para ν asumido de 1 con n = 1000 . . . . . . . 76
xvi Lista de Tablas

C-7 Resumen de las simulaciones para ν asumido de 5 con n = 1000 . . . . . . . 77
D-1 CIA medio con n = 1000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

Lista de Ecuaciones
1–1 Propiedad de equidispersión en la distribución Poisson . . . . . . . . . . . . . . 2

2–1 fmp de la distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2–2 Modelo de regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2–3 Función de verosimilitud del modelo Poisson . . . . . . . . . . . . . . . . . . . . 5
2–4 fmp de la distribución CMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2–5 Valor esperado del modelo CMP . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2–6 Varianza del modelo COM-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 6
2–7 Función de log-verosimilitud del modelo COM-Poisson . . . . . . . . . . . . . . 6
2–8 fmp de la distribución BN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2–9 Valor esperado y varianza la distribución BN . . . . . . . . . . . . . . . . . . . 9
2–10 Valor esperado y varianza la distribución BN . . . . . . . . . . . . . . . . . . . 9
2–11 Función de log-verosimilitud en la regresión BN . . . . . . . . . . . . . . . . . . 9
2–12 fmp de la distribución PGR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2–13 fmp de la distribución PD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2–14 Valor esperado y varianza de la distribución PD . . . . . . . . . . . . . . . . . . 10
2–15 fmp de la distribución hP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2–16 Coincidencia de serie hipergeométrica en la distribución hP . . . . . . . . . . . 11
2–17 Media de la distribución hP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2–18 Varianza de la distribución hP . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2–19 Función de log-verosimilitud en la regresión hP . . . . . . . . . . . . . . . . . . 11
3–1 Función de enlace para los modelos de regresión . . . . . . . . . . . . . . . . . . 15
3–2 Constante de normalización Z(λ, ν) aproximada . . . . . . . . . . . . . . . . . . 19
3–3 Estimación de medias en la regresión CMP . . . . . . . . . . . . . . . . . . . . 19
3–4 Cálculo de probabilidades para la estimación de medianas en la regresión CMP 19
3–5 Sesgo de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3–6 IC para los coeficientes estimados . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3–7 Fórmula para el cálculo de RECM . . . . . . . . . . . . . . . . . . . . . . . . . 21
3–8 Fórmula para el cálculo de RECMP . . . . . . . . . . . . . . . . . . . . . . . . 22
3–9 Fórmula para el cálculo de la ER de estimadores . . . . . . . . . . . . . . . . . 22
3–10 Fórmula para el cálculo de la ER de las predicciones . . . . . . . . . . . . . . . 22
3–11 Fórmula para el cálculo de los EPA . . . . . . . . . . . . . . . . . . . . . . . . . 23
3–12 Fórmula para el cálculo del CIA . . . . . . . . . . . . . . . . . . . . . . . . . . 23
xviii Lista de Ecuaciones
3–13 Fórmula para el cálculo del CIAc . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Lista de Sı́mbolos
Abreviaturas
Abreviatura Término
BN Binomial Negativa
CAP Circunferencia a la Altura del Pecho
CIA Criterio de Información de Akaike
CIAc Criterio de Información de Akaike corregido
CM P Conway-Maxwell-Poisson
DE Desviación Estándar
ECM Error Cuadrático Medio
ECM P Error Cuadrático Medio de Predicción
ECV Estimación por Cuasi-Verosimilitud
EM V Estimación por Máxima Verosimilitud
ED Equidispersión (en inglés: Equidispersion)
EP A Error Porcentual Absoluto
ER Eficiencia Relativa
ES Error Estándar
f mp Función de masa de probabilidad
hP hyper-Poisson
IC Intervalo de Confianza
iid Independientes e idénticamente distribuidos
M áx Máximo
M CM C (En inglés) Simulación Monte Carlo por Cadenas de Markov
M CRI Mı́nimos Cuadrados Reponderados Iterativamente
Mı́n Mı́nimo
M LG Modelo Lineal Generalizado
nsim Número de simulaciones
OD Sobredispersión (en inglés: Overdispersion)
PD Poisson Doble
P GR Poisson Generalizada Restringida
RECM Raı́z Cuadrada del Error Cuadrático Medio
RECM P Raı́z Cuadrada del Error Cuadrático Medio de Predicción
xx Lista de Sı́mbolos
Abreviatura Término
UD Subdispersión (en inglés: Underdispersion)
Sı́mbolos con letras latinas
Sı́mbolo Término
M Media
m Modelo asumido
Me Mediana
n Tamaño muestral
Sı́mbolos con letras griegas
Sı́mbolo Término
α Parámetro de dispersión de la distribución PGR
β Vector de parámetros del modelo de regresión
γ Parámetro de dispersión de la distribución hP
θ Parámetro de dispersión de la distribución BN y PD
λ Parámetro de centralización de la distribución Poisson
µ Media Poblacional ó Parámetro de centralización de la distribución CMP MLG
ν Parámetro de dispersión de las distribuciones CMP y CMP MLG
φ Parámetro de dispersión, forma o variación generalizado
1. Introducción
Este capı́tulo tiene como objetivo presentar el contexto sobre el cual se ha desarrollado el
problema del análisis de datos de conteo (Sección 1.1) cuando no se logra justificar la propie-
dad de equidispersión, para plantear las preguntas que serán objeto de evaluación durante
la investigación (Sección 1.2). También se presenta la estructura en la que se encuentra or-
ganizado este trabajo en la Sección 1.3.
1.1. Los datos de conteo

Los datos de conteo se refieren al número de veces que se da un evento en un perı́odo de
tiempo o espacio definido como, por ejemplo, el número de accidentes aéreos, el número de
dı́as de permanencia en un hospital, la cantidad de frutos en un árbol. Este tipo de datos
toman valores enteros no negativos y se asume que los eventos en un intervalo de tiempo o
espacio determinado son independientes e idénticamente distribuidos (iid) [4].
Cameron & Trivedi [4] presentan dos formulaciones para obtener este tipo de datos. Una for-
ma es por medio de conteos directamente observables en cualquier situación, donde se asume
que hay un proceso homogéneo y estacionario en el cual el número de eventos por unidad de
tiempo o espacio son iid. Otra formulación es la que se da por medio de la discretización de
datos continuos, que consiste en aquellos conteos que se definen en una muestra de elementos
los cuales son clasificados según el tipo de evento de interés.
El problema que han tenido los modelos para datos de conteo son los niveles de dispersión
que estos pueden tomar. Según Hilbe [14], en la mayorı́a de los casos es raro que los datos
de conteo en la realidad tengan equidispersión, lo cual siempre se asume en la distribución
Poisson. Es más común encontrar datos con sobredispersión o subdispersión, aunque este
último con menos frecuencia. Cuando se habla de sobredispersión en los conteos por unidad
de tiempo o espacio, se refiere a que la varianza excede su media y se habla de subdispersión
cuando la varianza es menor que la media. Según Dobson [5], hay una forma de determinar
estos niveles de dispersión la cual consiste en hallar la constante de variación (φ) de acuerdo
a la siguiente expresión:
V ar(Y ) = φE(Y ) = φµ (1–1)

2 1 Introducción
Si φ > 1, hay sobredispersión, Si φ < 1, hay subdispersión.
1.2. Planteamiento del problema

De acuerdo con Cameron & Trivedi [4], el análisis de datos de conteo se ha venido desarro-
llando con el fin de explicar un fenómeno en donde la variable respuesta toma valores enteros
no negativos en relación al número de veces que un evento de interés es observado en un inter-
valo de tiempo, espacio, longitud, etc. El modelo tı́pico sobre el cual parte el análisis de este
tipo de datos es el modelo Poisson. Éste se caracteriza por el supuesto de equidispersión, en
donde la media y la varianza son iguales, lo cual puede ser causante de un ajuste inadecuado
cuando no se cumpla dicha condición, es decir, que este modelo no explica bien conjuntos
de datos que presentan casos de subdispersión o sobredispersión [32]. Recientemente se han
desarrollado diversas alternativas para modelar bajo la violación de este supuesto, entre las
más utilizadas están la regresión Binomial Negativa (BN) [14], la regresión Poisson Genera-
lizada Restringida (PGR) [8], la regresión Conway-Maxwell-Poisson (CMP) [32], la regresión
hyper-Poisson [30], entre otras. Según Sellers & Shmueli [32], la regresión BN, a pesar de que
explica correctamente datos con sobredispersión, no es adecuado para la modelación cuando
la varianza es inferior a la media. En cuanto a la regresión PGR, estos autores enuncian
que dicho modelo puede ajustar tanto datos con sobredispersión como subdispersión, pero
es limitante en este último caso. Recientemente ha surgido un modelo más flexible el cual se
adapta bien a los diferentes niveles de dispersión en los datos de conteo, es denominado el
modelo CMP.
El establecimiento de esta última alternativa dentro de un marco inferencial está en proceso

de estudio y evaluación. Hasta ahora se han evaluado sus propiedades inferenciales e inclu-
so se han hecho modificaciones a la propuesta original, una de ellas es el planteamiento de
Guikema & Goffelt [13] quienes reparametrizaron el modelo CMP original y lo adaptaron
dentro del marco de un Modelo Lineal Generalizado (MLG). El análisis de las estimaciones
ha sido objeto de estudio en las diversas investigaciones relacionadas con esta regresión. Se
han desarrollado estudios con el fin de establecer la calidad de las estimaciones del mode-
lo, evaluando el comportamiento de los estimadores en diversos escenarios. Los métodos de
estimación de parámetros, los niveles de dispersión, las medias y tamaños muestrales han
sido los componentes para establecer dichos escenarios y hacer la comparación y evaluación
respectiva.
En vista de que se tiene un modelo tradicional, simple o básico como lo es el Poisson, surge
la necesidad de compararlo con un modelo más flexible (Modelo CMP) que hasta ahora se
ha desarrollado para modelar datos de conteo, debido a su ajuste adecuado cuando los datos
1.3 Estructura de la investigación 3
presentan diferentes niveles de dispersión. Por lo anteriormente expuesto surgen las siguien-
tes preguntas:
¿Cuál es la eficiencia de un modelo con respecto al otro?
¿Qué tanto se pierde a nivel predictivo cuando se ajusta el modelo inadecuado?
Para responder estas inquietudes se quiere determinar vı́a simulación la eficiencia relativa
entre el modelo Poisson y el Modelo COM-Poisson y comparar estos modelos por medio de
medidas de calidad de las predicciones, en diversos escenarios que tendrán como factores a
controlar, la variación de la dispersión y del intercepto, ası́ como, los tamaños muestrales.
Con este estudio se quiere aportar información que permita determinar el comportamiento
inferencial de las estimaciones del modelo en cuanto al desempeño predictivo, y también que
el estudio permita ser contrastado con otros estudios similares lo cual permitirá establecer
una base teórica y aplicada más robusta respecto al modelo CMP.
1.3. Estructura de la investigación

El presente trabajo tiene la siguiente organización. El Capı́tulo 2 presenta una recopilación
teórica sobre los aspectos más relevantes de la investigación, además de que se describen los
conceptos relacionados con el problema planteado. En el Capı́tulo 3 se describen los diferen-
tes procedimientos que fueron considerados para los estudios de simulación y las aplicaciones
con conjuntos de datos reales. El Capı́tulo 4 se estudia mediante la comparación de dos
implementaciones en R para ajustar modelos CMP, la calidad de las estimaciones ası́ como
de la calidad de las predicciones. En el Capı́tulo 5, en un marco de normalidad asintótica
de las estimaciones, se determina la ER en cuanto a las predicciones de los modelos. En el
Capı́tulo 6 se ilustra por medio de dos estudios de caso aplicados a la ecologı́a los resultados
obtenidos vı́a simulación. Y finalmente, en Capı́tulo 7 se dan a conocer las conclusiones más
relevantes y recomendaciones en términos de los objetivos planteados. También se propone
un estudio a futuro siguiendo la misma lı́nea de investigación propuesta para esta disertación.
2. Marco teórico
En este capı́tulo se describen las propuestas planteadas dentro del contexto de los modelos
de regresión para ajustar datos de conteo. También se presentan algunos de los conceptos e
investigaciones que se relacionan con el problema que ha sido previamente planteado en el
Capı́tulo 1.
El contenido de este capı́tulo está organizado de la siguiente manera. La Sección 2.1 se

comentan las caracterı́sticas de la distribución y del modelo Poisson. En la Sección 2.2 se
presentan los atributos de la distribución CMP, ası́ como sus alcances a nivel inferencial como
modelo de regresión. La Sección 2.3 describe las causas y consecuencias de violar el supuesto
de equidispersión en un modelo Poisson. También una serie de alternativas de modelos de
regresión para datos de conteo son citadas en la Sección 2.4. Para finalizar, este capı́tulo da
a conocer en la Sección 2.5, los antecedentes y diferentes propuestas que están relacionadas
con el tema de investigación formulado para este trabajo.
2.1. El Modelo Poisson

El modelo Poisson es la base del análisis de los datos de conteo que se cuantifican en un
intervalo de tiempo o espacio determinado. En esta sección se describen algunas propiedades
de su distribución y del modelo. También se discute su debilidad a la hora de ajustar datos
con diferentes niveles de dispersión.
Según Cameron & Trivedi [4], la distribución Poisson que lleva el apellido de su formulador,
se estableció a partir de un caso lı́mite de la distribución binomial. Su propiedad fundamental
es la equidispersión donde la varianza es igual a la media (V ar(Y ) = E(Y ) = µ), y a partir
de esta relación se derivan los condicionamientos para la formulación de otros modelos para
datos de conteo.
La ecuación (2–1) muestra su función de masa de probabilidad (fmp). Donde λ = V ar(Y ) =

E(Y ).
2.1 El Modelo Poisson 5
e−λ λy
P (Y = y) = , y = 0, 1, 2, . . . (2–1)
y!
De allı́ que λ es interpretada como la media del número de eventos en un intervalo de longitud
de espacio o tiempo. Por ejemplo, el número de huracanes por año o el número de árboles
enfermos por hectárea.
El modelo de regresión Poisson pertenece a la familia de los MLG, ya que su función de

distribución pertenece a la familia exponencial, su predictor es lineal (η = Xβ) y tiene una
función de enlace g tal que E(Y ) = µ = g −1 (η) [20]. Este modelo es expresado por la función
dada en la ecuación (2–2), la cual sigue una distribución condicional de yi (variable depen-
diente) en función de un vector de covariables xi y de parámetros β [4].
E(yi |xi ) = µi = exp {x0i β} (2–2)
Esta es la forma multiplicativa del modelo y se expresa ası́ ya que de esta manera asegura
que µ tendrá valores enteros no negativos. Si se plantea una forma aditiva hay un riesgo de
que ciertas combinaciones no cumplan con esta restricción [4].
La ecuación (2–3) es la función de log-verosimilitud obtenida para esta distribución.
n
X
log L(β) = {yi x0i β − exp(x0i β) − log yi !} (2–3)
i=1
El modelo de regresión Poisson tiene diversas aplicaciones en el área de la salud, la econo-

mı́a, las ciencias sociales, la ecologı́a, entre otras. Cameron & Trivedi [4] presentan ejemplos
caracterı́sticos en este tipo de modelación, en los cuales se encuentran investigaciones en
la economı́a de la salud, el establecimiento de patentes al desarrollar nuevos productos, la
estimación de la demanda recreacional por servicios ambientales, las fallas bancarias que se
dan en los bancos, en seguros de accidentes, en las tasas de crédito, entre otras aplicaciones.
La mayor desventaja del modelo Poisson es que no explica correctamente muchos conjuntos
de datos en los que existe sobredispersión o subdispersión dada su propiedad de equidisper-
sión [32]. Por ello, se han diseñado nuevas propuestas que pretenden ser más flexibles y que
abarcan los diferentes niveles de dispersión que puede tomar este tipo de datos.
6 2 Marco teórico
2.2. El Modelo COM-Poisson

La distribición COM-Poisson fue propuesta por Conway y Maxwell en 1962, pero sus propie-
dades probabilı́sticas y de regresión fueron estudiadas por Shmueli, Minka, Kadane, Borle y
Boatwright en 2005 [34]. La fmp está dada por la ecuación (2–4).
λy
P (Y = y) = v , y = 0, 1, 2, · · · , λ > 0, ν ≥ 0 (2–4)
(y!) Z (λ, v)
s
Donde Z (λ, ν) = Σ∞ λ
s=0 (s!)ν y ν ≥ 0 es el parámetro de forma o de dispersión y λ que pro-
P (Y =y−1) yν
viene de la expresión P (Y =y)
= λ
, que indica una tasa de decrecimiento de probabilidades
sucesivas [32].
Esta distribución pertenece a la familia exponencial y contiene tres distribuciones, que son
la distribución Poisson (Cuando ν = 1), la distribución geométrica (Cuando ν = 0 y λ < 1)
λ
y la distribución Bernoulli (Cuando ν → ∞, con probabilidad 1+λ ) [34].
El valor esperado y la varianza están dados por las ecuaciones (2–5) y (2–6). Como se puede
observar estas funciones no tienen una forma cerrada y se relacionan entre sı́ mediante ex-
presiones aproximadas [32].
∂ log Z (λ, ν) ν−1

E(Y ) = ≈ λ1/ν − (2–5)
∂ log λ 2ν
∂E(Y ) 1
V ar(Y ) = ≈ λ1/ν (2–6)
∂ log λ ν
La construcción del modelo se da a partir de un caso log-lineal de la regresión Poisson. De

allı́ se deduce la función de log-verosimilitud representada en la ecuación (2–7).
n
X n
X n
X
log L(λi , ν) = yi log λi − v log yi ! − log Z(λi , v) (2–7)
i=1 i=1 i=1
Según Sellers & Shmueli [32] con una prueba de dispersión se puede considerar qué tan ra-
zonable es usar la regresión Poisson dado el caso particular cuando la dispersión es igual
a 1 (H0 : ν = 1) o la regresión COM-Poisson (H1 : ν 6= 1) (Subsección 2.3.3). Los valores
ajustados se pueden obtener por medio de medias o medianas estimadas, ya que según Minka
et al. [22] la aproximación de la ecuación (2–5) es buena cuando ν ≤ 1 o λi > 10ν [32].
2.3 Violación al supuesto de equidispersión (ED) 7
Este modelo ajusta bien datos con diferentes niveles de dispersión, pero tiene una restricción
que es de cierta forma similar al supuesto de homocedasticidad en el caso de la regresión
lineal. Esta restricción consiste en que se asume el modelo teniendo en cuenta un nivel de
dispersión constante a través de todas las observaciones [32].
2.3. Violación al supuesto de equidispersión (ED)

Cuando la media y la varianza no son iguales, la distribución Poisson es deficiente debido a
que ésta implica equidispersión (ED). Se determina que hay sobredispersión una vez la va-
rianza es mayor a la media, mientras que cuando la media supera a la varianza se considera
que hay subdispersión. Según Cameron & Trivedi [3], la violación al supuesto de equidisper-
sión en el modelo Poisson se asocia de alguna forma al supuesto de heterocedasticidad en el
modelo de regresión lineal. Estas son las caracterı́sticas de cada uno de estos escenarios de
dispersión.
2.3.1. Sobredispersión (OD)

Al modelar una variable de conteo con sobredispersión (OD) mediante un modelo Poisson
se incurre en varios problemas que pueden afectar su inferencia. Los errores estándar de
los coeficientes estimados por el modelo tienden a ser subestimados generando coeficientes
significativos cuando en realidad estos no lo son. Otro de los problemas es cuando se tienen
datos truncados y censurados, en donde se pueden obtener estimaciones inconsistentes [3].
Entre los factores que pueden generar este tipo de dispersión se encuentran la heterogeneidad
no observada, por ejemplo cuando el investigador define un λ el cual deberı́a ser aleatorio.
También son causantes de OD, los diferentes procesos de generación de eventos, cuando el
proceso que genera el primer evento no es el mismo que genera el resto de los eventos; y la
falta de independencia en los eventos, es decir, cuando la ocurrencia de un evento tiene un
patrón de generación definido [3].
2.3.2. Subdispersión (UD)

Los conjuntos de datos con este tipo de dispersión no son tan comunes como los que se pre-
sentan en OD [29]. Según Zou et al. [39], la causa de subdispersión (UD) se debe al proceso
de generación de los datos o cuando la respuesta está condicionada a la media. En conjuntos
de datos relacionados con el estudio de la accidentalidad vehicular, la UD es muy común
8 2 Marco teórico
cuando la media muestral es baja [17].
2.3.3. Pruebas de dispersión

Para diagnosticar cual es el nivel de dispersión en la variable de conteo se han propuesto
varias metodologı́as, algunas más flexibles que otras según si diagnostican alguno de los es-
cenarios de dispersión o si lo hacen para ambos.
De acuerdo con Cameron & Trivedi [3], existe una prueba de dispersión que puede ser usada
tanto para OD como para UD. Consiste en el cálculo de un estadı́stico de prueba estimando
el modelo Poisson, obteniendo sus valores ajustados y ajustando un modelo mediante mı́ni-
mos cuadrados ordinarios sin intercepto. El contraste de hipótesis planteado para la prueba
define como H0 : α = 0 y H1 : α 6= 0, (siendo α el parámetro o constante de dispersión)
indicando que puede haber OD o UD si la prueba es de dos colas, o definiendo la hipótesis
alterna en el sentido del nivel de dispersión a diagnosticar.
Sellers & Shmueli [32] proponen una prueba para determinar si es más conveniente usar un
modelo Poisson o un modelo CMP para ajustar una respuesta de conteo. El juego de hipó-
tesis está plateado en función del parámetro de dispersión ν, donde H0 : ν = 1 y H1 : ν 6= 1,
al ser una prueba bilateral ésta no indica si hay OD o UD, por lo tanto, para diagnosticar el
escenario de dispersión se recomienda hacer análisis exploratorio o ajustar el modelo CMP
para conocer el valor de ν̂.
2.4. Modelos alternativos

Éstas son las diferentes propuestas que han sido desarrolladas dentro del marco de análisis
de datos de conteo, especialmente para cuando no se logra justificar el supuesto de ED en la
variable respuesta. Algunas son más flexibles que otras en cuanto a su capacidad de capturar
mayores rangos de OD y UD.
2.4.1. Modelo Binomial Negativo (BN)

La regresión BN surgió como un método para modelar correctamente los datos con OD. En
esta sección se hace una descripción de las propiedades de su distribución y de su modelo
de regresión. A pesar de que el modelo tiene varias derivaciones descritas por Hilbe [14], se
describirá la forma tradicional de este método.
2.4 Modelos alternativos 9
La distribución es una mezcla de la distribución Poisson y la distribución gamma. Se relacio-

na también con la distribución geométrica cuando el parámetro r = α−1 (Número de éxitos
en n ensayos independientes) es igual a 1. Cuando el parámetro de forma o de dispersión es
cero (α = 0) se convierte en una distribución Poisson [14]. La ecuación (2–8) muestra su fmp.

y+r−1 r y
P (Y = y) = pq , y = 0, 1, 2, . . . (2–8)
r−1
1
Donde r = 1/θ , p = 1+θµ
y q = (1 − p)
Las expresiones para la media y la varianza están dadas en las ecuaciones (2–9) y (2–10),
respectivamente.
r(1 − p)
E(Y ) = µ = (2–9)
p
r(1 − p)
V ar(Y ) = (2–10)
p2
Según Hilbe [14], el modelo BN se puede obtener a partir de la mezcla entre las distribuciones
Poisson y la Gamma. En la ecuación (2–11) se presenta la función de log-verosimilitud para
este modelo de regresión.
n
θ exp(x0i β)

X 1
log L(β; y, θ) = yi log 0
− log (1 + θ exp(x0i β)) +
i=1
1 + θ exp(xi β) θ
(2–11)
1 1
log Γ yi + − log Γ(yi + 1) − log Γ
θ θ
Este modelo de regresión ha sido implementado como una alternativa en la modelación de

datos de conteo ya que ajusta correctamente conjuntos de datos con OD, sin embargo, su
desempeño es inadecuado especialmente para datos donde la varianza es menor que la media
(cuando hay UD). Por eso, es necesario la generación de nuevas propuestas que permitan
abarcar un rango más amplio de niveles de dispersión [32].
10 2 Marco teórico
2.4.2. Modelo Poisson Generalizado Restringido (PGR)

La regresión PGR fue propuesta por Famoye en 1993 [8], es un modelo que pertenece a la
familia exponencial, que ajusta tanto datos con OD como con UD, aunque ésta última en
un grado menor [32]. La fmp está dada por la ecuación (2–12).
yi
(1 + αyi )yi −1

µi −µi (1 + αyi )
P (Yi = yi |µi , α) = exp , y = 0, 1, 2, . . . (2–12)
1 + αµi yi ! 1 + αµi
Donde log µi = β 0 Xi , µi y α son la media y el parámetro de dispersión de la distribución.
De acuerdo con Famoye [8], se le denomina como un modelo restringido debido a que el
parámetro de dispersión α es limitado para los intervalos 1 + αµi > 0 y 1 + αyi > 0. Cuando
el parámetro α = 0, el modelo pasa a ser un modelo Poisson, cuando α > 0 indica que hay
OD y cuando esta entre −2 µi
y cero indica que hay UD.
Debido a que el modelo posee cierta limitación en el ajuste de datos con UD, no es comple-
tamente flexible y computacionalmente eficiente para ser aplicado en los datos de conteo [32].
2.4.3. Modelo Poisson Doble (PD)

La distribución Poisson Doble (PD) fue propuesta por Efron [7]. La ecuación (2–13) muestra
su fmp.
√
θy
y y eλ
f (y, λ, θ) = c(λ, θ) θ exp(−θλ) exp(−y) , y = 0, 1, 2, . . . (2–13)
y! y

1 1−θ 1
Donde ≈1+ 1+ , siendo c(λ, θ) la constante de normalización [38].
c(λ, θ) 12λθ λθ
Según Winkelmann [35], esta distribución tiene dos parámetros (λ, θ). El parámetro λ se
puede aproximar a la media de la distribución, mientras que θ define el nivel de dispersión,
cuando es menor que 1 hay OD, cuando es mayor que 1 hay UD y cuando es igual a 1 la
distribución se convierte en Poisson [38]. Su gran desventaja es que tanto la media como
la varianza no tienen formas cerradas y solo se pueden calcular por medio de las siguientes
aproximaciones:
λ
E(Y ) ≈ λ V ar(Y ) ≈ (2–14)
θ
2.4 Modelos alternativos 11
2.4.4. Modelo hyper-Poisson (hP)

La distribución propuesta por Bradwell y Crow en 1964, también es denominada como hyper-
Poisson debido a los rasgos similares con una serie hipergeométrica [30]. En la ecuación (2–15)
se define su fmp.
1 λy
f (y; γ; λ) = , y = 0, 1, 2, . . . (2–15)
1 F1 (1; γ; λ) (γ)y
Γ (a + r)
Donde γ, λ > 0, (a)r = a(a + 1) · · · (a + r − 1) = para a > 0 y r un entero positivo
Γ (a)
y la ecuación (2–16) es el rasgo de que coincide con la serie hipergeométrica.
∞
X (a)r z r
1 F1 (a; c; z) = (2–16)
r=0
(c)r r!
Las expresiones tanto de la media como de la varianza para esta distribución son dadas en
las ecuaciones (2–17) y (2–18), respectivamente [30].
1 F1 (1; γ; λ) −1
E(Y ) = λ − (γ − 1) (2–17)
1 F1 (1; γ; λ)
V ar(Y ) = λ + (λ − (γ − 1)) µ − µ2 (2–18)
El parámetro de forma para está distribución es γ, el cual define el nivel de dispersión. Si

γ = 1 la distribución se convierte en Poisson, si γ > 1 se define OD y si γ < 1 se determina
UD [30]. La estimación de los parámetros del modelo se realiza maximizando la función de
log-verosimilitud (Ecuación (2–19)).
n
X
log L (γ, λ|y) = − log Γ (γ + yi ) + log(λ)nȳ + n log(y) − log 1 F1 (1; γ; λ) (2–19)
1=1
Según Sáez y Conde [30], esta distribución es flexible a la hora de capturar OD y UD, lo que
la establece como una alternativa para modelar datos de conteo. También es de notar que las
expresiones de la media y la varianza son explı́citas y no aproximadas tal como se da en la dis-
tribución CMP. Al parecer provee estimaciones de mejor calidad que las demás alternativas
propuestas a pesar de que demanda un gran esfuerzo computacional para ajustar los modelos.
12 2 Marco teórico
2.5. Estado del arte

Winkelmann & Zimmermann [36] presentan una caracterización de los métodos más recientes
de la época para modelar datos de conteo. Luego Cameron & Trivedi [4] publican la teorı́a
de los análisis de regresión para los datos de conteo. El modelo Poisson, el BN, el modelo
cero Poisson y el Poisson truncado hacen parte de una recopilación teórica y de aplicaciones
en cuanto a los datos de conteo se refiere. Actualmente, se han generado propuestas con el
fin de obtener un modelo que explique correctamente tanto bajo OD como UD [32].
Luego Shmueli et al. [34] retomaron la distribución CMP originalmente propuesta por Con-
way & Maxwell en 1962, y determinaron sus propiedades distribucionales. Más tarde, Sellers
& Shmueli [32] dan a conocer las propiedades inferenciales como modelo de regresión. Geedi-
pally [10] y Guikema & Goffelt [13] contribuyen a la especialización del modelo, modificando
el modelo de regresión, caracterizando su desempeño a nivel predictivo y estableciéndolo
dentro del marco de los MLG y por lo tanto, es denominado como el modelo CMP MLG.
Luego han venido una serie de estudios en los cuales se han evaluado las propiedades in-
ferenciales del modelo CMP, en especial de la versión reparametrizada, teniendo en cuenta
diversos escenarios que van desde la variación de los métodos de estimación de los paráme-
tros, los diferentes niveles de dispersión, las medias y tamaños muestrales. A continuación se
presentan una serie de investigaciones que se han desarrollado a partir de este nuevo modelo.
Geedipally et al. [11] caracterizan el desempeño del MLG con respuesta CMP, en donde
se estiman los parámetros del modelo mediante el método bayesiano de simulación Monte
Carlo por cadenas de Markov (MCMC). El objetivo de este estudio fue caracterizar me-
diante simulaciones los parámetros en cuanto a su precisión en la estimación, y estimar la
carga computacional al implementar este método de estimación. Este estudio demostró que
los parámetros estimados por MCMC son precisos y que la carga computacional para su
estimación no es restrictiva.
Después Jowaheer et al. [16] estiman los efectos del modelo CMP MLG (modelo reparame-
trizado) mediante simulaciones. Ellos comparan los métodos de estimación de parámetros de
máxima verosimilitud (EMV) y de cuasiverosimilitud (ECV) en cuanto a su desempeño y
eficiencia. Determinaron que la pérdida de eficiencia en la estimación de los parámetros es
bastante insignificante y que las estimaciones de ECV son consistentes y casi tan eficientes
como los de EMV. Luego Lord et al. [18] evalúan el comportamiento del MLG con respuesta
CMP, por medio de una aplicación en donde los datos de accidentes automovilı́sticos tienen
UD. Este estudio se enfocó en evaluar el desempeño de este modelo en una caso donde hay
UD. Los resultados que se obtuvieron demostraron que el modelo CMP MLG, puede mo-
delar datos donde la varianza es menor que la media y que el desempeño es mucho mejor
comparado con el de modelos tradicionales, al menos con esa base de datos.
2.5 Estado del arte 13
Dentro del contexto de datos con censura pero aplicados a la modelación de datos de conteo,
Sellers & Shmueli [33] evalúan por medio de diferentes medidas de calidad en las predicciones
algunas distribuciones caracterı́sticas, entre ellas, la alternativa como modelo de regresión
que los mismos autores han propuesto. Se trata de la distribución CMP que ha sido adap-
tada dentro de un marco de análisis de datos con censura. También evalúan dos métodos de
predicción con datos reales y que fueron diagnosticados con censura a derecha y en UD. Los
resultados de este estudio determinaron que en un nivel alto de censura, el desempeño del
modelo Poisson estuvo por debajo de las demás alternativas comparadas, produciendo valo-
res ajustados muy altos. Mientras que las distribuciones CMP y PD obtuvieron desempeños
muy similares en términos de comportamiento predictivo [33].
Zou et al. [39] comparan las distribuciones CMP y la PD por medio de simulaciones en diver-
sos escenarios variando la media muestral y el nivel de dispersión. El objetivo principal del
estudio fue determinar el potencial de la distribución PD para explicar correctamente datos
con OD y UD. Al evaluar el desempeño entre cada modelo, se obtuvo un mejor comporta-
miento en el modelo CMP, con diferencias importantes en el ajuste estadı́stico de datos con
UD.
Y por último, Francis et al. [9] caracterizan el desempeño del MLG con respuesta CMP. Esti-
mando los párametros por EMV, y mediante simulaciones en escenarios con diferentes niveles
de dispersión y medias muestrales, se caracteriza la precisión de los parámetros estimados
y se evalúa el comportamiento en las predicciones. El estudio demostró que los parámetros
estimados por EMV son precisos y que este modelo tiene un buen desempeño a través de los
diferentes escenarios.
3. Metodologı́a
En este capı́tulo se describen los procedimientos que se realizaron durante la investigación
para responder a las preguntas planteadas en el Capı́tulo 1. Además de la información pro-
cedimental, se presenta una justificación del por qué se optó por un método o medida en
especı́fico.
3.1. Programación y análisis estadı́stico

Se usó R project [27, R Core Team 2016], un paquete computacional con enfoque estadı́stico
de carácter libre y gratuito, para implementar los códigos de las simulaciones y obtener los
resultados estadı́sticos que serán objeto de análisis dentro de la investigación. Estos fueron
los paquetes que se utilizaron dentro del entorno de programación y análisis:
COMPoissonReg [31]: Para ajustar y analizar modelos CMP.
CompGLM [26]: Para ajustar y analizar modelos CMP.
compoisson [6]: Para generar conteos a partir de una distribución CMP.
VGAM [37]: Para ajustar y analizar modelos BN.
Todas las simulaciones se realizaron en un computador con procesador Intelr CoreTM i5-
2430M con velocidad de 2.4 Ghz, con capacidad de memoria RAM de 6 GB y con el sistema
operativo Microsoftr WindowsTM 7 Ultimate de arquitectura de 64 bits.
3.2. Simulación de datos

La simulación de datos consistió en la generación de pseudovalores aleatorios a partir de una
distribución probabilı́stica especificando sus respectivos parámetros y el tamaño (n) deseado
para la muestra aleatoria.
3.2 Simulación de datos 15
Una muestra aleatoria está constituida de una variable respuesta o de conteo y dos variables
predictoras generadas a partir de una distribución uniforme. Según Mooney [23], la distri-
bución uniforme en su forma estándar (U [0, 1]) es el componente de construcción de una
simulación Monte Carlo. De acuerdo a lo anterior y teniendo en cuenta el método usado por
Francis et al. [9], las covariables fueron generadas por medio de una distribución uniforme
(x1 ∼ U [0, 1] y x2 ∼ U [0, 1]) las cuales se caracterizan por ser ortogonales.
3.2.1. Selección de coeficientes asumidos para el vector β

Antes de la simulación de las variables de conteo, se realizaron simulaciones previas con dife-
rentes combinaciones de coeficientes asumidos teniendo en cuenta información literaria sobre
trabajos de simulación previos. Por ejemplo, Francis et al. [9] hacen variar el intercepto y se
dejan constante los coeficientes asociados a las predictoras y ası́ determinar diferentes niveles
de media muestral. Winkelmann [35], en el estudio de simulación sobre la distribución de los
estimadores Poisson por MLG, define como vector coeficientes asumidos β = (−1, 1) para
generar los conteos Poisson. En resumen, para definir los coeficientes asumidos, especialmen-
te de los predictores, se tuvo en cuenta un rango entre -1 y 1, luego de evaluar los sesgos, la
significancia de los coeficientes estimados, y teniendo en cuenta la variación del intercepto,
se seleccionó una combinación de valores asumidos para el vector β.
3.2.2. Simulación de conteos

La variable respuesta fue determinada por conteos provenientes de una distribución Poisson
(Y ∼ P oisson(λ)) en el caso de ED, mientras que para OD y UD los conteos se origina-
ron mediante una distribución CMP (Y ∼ CM P (λ, ν)). Usando la ecuación (3–1) y con
coeficientes asumidos para el vector β se obtuvo el vector λ el cual es el parámetro de cen-
tralización de la distribución Poisson.
p
X
ln(λi ) = β0 + βj xij = xi β (3–1)
j=1
Para la simulación de conteos en ED, se implementó la función rpois especificando el tama-

ño muestral deseado y el vector λ obtenido mediante la ecuación (3–1). Para los escenarios
de OD y UD, se utilizó la función rcom del paquete compoisson, definiendo el nivel de
dispersión (ν) deseado y por medio de un bucle se realizó la simulación de los valores del
vector λ hasta obtener el tamaño muestral requerido (Ver detalles de la función rcom en [26]).
16 3 Metodologı́a
3.2.3. Niveles de dispersión

Basado en los trabajos de Francis et al. [9], Jowaheer et al. [16] y Zou et al. [39], se definie-
ron tres niveles de dispersión como escenarios para evaluar la calidad de las predicciones de
los modelos en estudio. En la distribución CMP, el parámetro ν define cual es el nivel de
dispersión. Si ν = 1 hay ED, si ν < 1 hay OD y si ν > 1 hay UD [32].
Dichos trabajos relacionados reportan el uso de diferentes intensidades en la dispersión en

los escenarios de OD y UD. Uno de ellos es el de Zou et al. [39], en donde se compara el
modelo CMP con el PD con una OD intermedia (ν = 0.5) y una UD con parámetro de forma
definido ν = 1.3. Jowaheer et al. [16] evalúan dos métodos de estimación para el modelo
CMP en varios niveles de dispersión. Para OD se determinaron niveles de ν entre 0.5 y 0.85
y para UD niveles de ν de 1.5 y 2. Francis et al. [9] tomaron en cuenta dos intensidades
tanto para OD como para UD; valores entre 0.27 y 0.67 fueron definidos para caracterizar
los escenarios en OD y entre 2.72 y 3.32 para los de UD.
Para abarcar más niveles de dispersión dentro de la investigación y evaluar el comportamien-

to de los modelos en casos más extremos, se configuraron para los escenarios de OD niveles
entre 0.25 y 0.75 y para los de UD niveles entre 1.5 y 5.
3.2.4. Tamaño muestral (n)

De acuerdo con Sellers & Shmueli [32] y Miller [21], la normalidad asintótica de la estimacio-
nes no se puede asegurar en pequeños tamaños muestrales. Teniendo en cuenta la anterior
afirmación, además de los problemas de convergencia en el ajuste de los modelos y la deman-
da computacional al variar n, se definió un nivel constante de este factor para diagnosticar
su influencia en el comportamiento predictivo. Sellers & Shmueli [32] proponen realizar un
bootstrap paramétrico para estimar la distribución de los coeficientes en una regresión CMP
y ası́ obtener una base inferencial más sólida cuando n es pequeño. Sin embargo, es indis-
pensable definir a partir de qué nivel de tamaño muestral se empiezan a lograr estimaciones
razonables y ası́ definir si usar el método propuesto por Sellers & Shmueli [32], que de alguna
forma es más demandante computacionalmente, o analizar el modelo ajustado directamente.
A manera de simulación previa se determinó la distribución empı́rica del coeficiente β0 en

un modelo CMP. En el Anexo B, se puede notar en la Figura B-1 que en pequeños tamaños
muestrales la distribución del coeficiente evaluado tiene una forma asimétrica y que a medi-
da que va incrementando n la asimetrı́a tiende a centralizarse, es decir, que los coeficientes
estimados son menos sesgados, en especial cuando el tamaño muestral es de 1000 (Figura B-
2). Por lo tanto, para comparar los modelos en términos de calidad de las predicciones y
la eficiencia relativa se determinó un tamaño muestral de 1000 observaciones, el cual es el
3.3 Procedimiento de las simulaciones 17
tamaño muestral usado por los trabajos de Francis et al. [9] y Winkelmann [35].
3.3. Procedimiento de las simulaciones

Luego de generar la muestra aleatoria, a ésta se le ajustaron los modelos de regresión y se
obtuvieron diferentes medidas estadı́sticas para las estimaciones logradas. Este proceso fue
replicado un número de veces determinado (nsim) según la demanda computacional y el
objeto de estudio.
3.3.1. Número de simulaciones (nsim)

Según Bonate [2], la definición del número replicaciones puede afectar la precisión de las
estimaciones o la demanda y rendimiento computacional del estudio de simulación. Mooney
[23] enuncia que definir “muchas” réplicas es la mejor práctica para definir el número de
simulaciones en un experimento, sin embargo, un número excesivo de réplicas implicarı́a una
demanda computacional muy alta.
Para evaluar la influencia del nivel de dispersión sobre la calidad de las predicciones y la
eficiencia relativa de los modelos se utilizó un nsim de 1000, ya que además de ser un número
estándar es el implementado por Jowaheer et al. [16] y Winkelmann [35] en sus simulacio-
nes. Para comparar las funciones glm.comp y cmp se utilizó un número de simulaciones de
100 ya que el proceso de optimización usado por la función cmp es considerablemente más
demandante a nivel computacional que el de la función glm.comp (Capı́tulo 4).
3.3.2. Algoritmo para las simulaciones

Para lograr las respuestas a las preguntas planteadas para la investigación se diseñó un pro-
tocolo de simulación el cual está descrito a partir de una serie de procedimientos secuenciales.
En resumen, los métodos implementados en las simulaciones se reducen en un algoritmo de
programación, el cual fue interpretado en un lenguaje de código, en este caso R [27, R Core
Team 2016]. La siguiente lista describe brevemente las diferentes operaciones desarrolladas
secuencialmente para cada uno de los escenarios configurados por la combinación de los di-
ferentes niveles de los factores involucrados en cada estudio de caso.
1. Generar covariables fijas y ortogonales x1 y x2 con un n definido a partir de una dis-

tribución uniforme de 0 a 1.
18 3 Metodologı́a
x1 ∼ U (0, 1) y x2 ∼ U (0, 1)
2. Generar variable de conteo con un tamaño n de una distribución Poisson para ED ó

de una distribución CMP para OD y UD.
Yi ∼ P oisson(λ) , para ED
Yi ∼ CM P (λ, ν) , para OD y UD
3. Ajustar modelos Poisson y CMP al conjunto de datos generado. En OD, ajustar modelo
BN; y en ED y UD, ajustar modelo PGR .
4. Almacenar coeficientes estimados y calcular medidas estadı́sticas (Sección 3.4).
5. Repetir los pasos del 1 al 4 hasta nsim.
3.3.3. Modelos ajustados

A cada conjunto de datos se le ajustaron diferentes modelos de regresión los cuales fueron
seleccionados según su capacidad para modelar datos en un nivel de dispersión dado. Por
eso en OD, además de comparar los modelos Poisson y CMP se añadió un modelo caracte-
rı́stico para ajustar este tipo de datos como lo es el modelo BN. En ED y UD los modelos
fueron contrastados con el modelo PGR. A continuación se presentan las caracterı́sticas que
se tomaron en cuenta para llevar a cabo el ajuste de cada modelo.
Modelo Poisson
El modelo Poisson fue ajustado usando la función genérica glm especificando el modelo, los
datos de la muestra aleatoria generada y la familia Poisson con función de enlace log. Esta
función utiliza el método de Mı́nimos Cuadrados Reponderados Iterativamente (MCRI) para
obtener las estimaciones de los coeficientes del modelo.
Modelo CMP
En el Capı́tulo 4 se comparan dos implementaciones en R para ajustar modelos CMP. La

función glm.comp del paquete CompGLM [26] y la función cmp del paquete COMPoisson-
Reg [31]. Con base al contraste entre estas dos funciones se definió la implementación más
adecuada para usar en los demás estudios de caso. Además de especificar el modelo y los
3.3 Procedimiento de las simulaciones 19
datos de la muestra aleatoria, se debe especificar el lı́mite de la sumatoria en la constan-

te de normalización (Ecuación (3–2)), por defecto este lı́mite es de 100 para las dos funciones.
∞ 100
X λj X λj
Z(λ, ν) = ≈ (3–2)
j=0
(j!)ν j=0
(j!)ν
Cuando Yi + 10 > 100, es necesario ajustar este lı́mite, de lo contrario el modelo no podrá ser
ajustado cuando se usa la función glm.comp. Para evitar que se termine el proceso de ajuste
del modelo, se eliminó está restricción ya que especialmente en el caso donde se especifica
un nivel de λ alto a un mayor nivel de OD, se obtienen conteos que superan ese lı́mite, aún
ajustándolo a un valor de 150.
En cuanto a los valores iniciales asignados para el proceso de optimización, estas dos imple-
mentaciones ajustan en primera instancia el modelo Poisson y luego utilizan los coeficientes
estimados de esa regresión como valores iniciales para el vector β.
Sellers & Shmueli [32] proponen dos métodos de estimación para obtener las predicciones.
El método de estimación de medias que se basa en el cálculo de la media condicional la cual
está en función de λ̂ y ν̂ (Ecuación (3–3)). El método de estimación de medianas consiste en
el cálculo de probabilidades consecutivas por medio de la ecuación (3–4) hasta que la suma
supere el valor de 0.5 [33].
1/ν̂ ν̂ − 1
ŷi |xi = λ̂i − (3–3)
2ν̂
ν
λi
P (Yi = yi ) = P (Yi = yi − 1) (3–4)
yi
Aunque Sellers & Shmueli [33] señalan que el método de predicción de medianas tiene ven-
tajas en cuanto a que predice valores enteros y que la mediana es una medida de tendencia
central más robusta en distribuciones sesgadas, no es claro si es más adecuada o no en térmi-
nos del comportamiento predictivo, especialmente en el escenario de UD donde de acuerdo
con Minka et al. [22] la aproximación a la media no es tan exacta. Para evaluar cuál de los
métodos es más adecuado se compararon las predicciones obtenidas en los diferentes escena-
rios configurados en términos de la calidad predictiva.
20 3 Metodologı́a
Modelo BN
Para el ajuste del modelo BN se utilizó la función vglm del paquete VGAM [37]. Luego de
definir la fórmula y los datos dentro de la función, se especificó la familia “negbinomial” y
como control del proceso de iteración un número máximo de 10000 para aumentar la proba-
bilidad de convergencia. También se suministraron los coeficientes estimados de la regresión
Poisson como valores iniciales para el vector β y para el parámetro de dispersión θ se asignó
un valor de 0.
Modelo PGR
Las estimaciones de este modelo fueron obtenidas utilizando las funciones definidas por Se-
llers & Shmueli [32], quienes usaron este modelo para comparar su propuesta en un escenario
de UD por medio de una aplicación con datos reales. Lastimosamente, en dichas aplicaciones
este modelo no logró convergencia en el proceso de estimación de los parámetros debido a
que este captura parcialmente algunos niveles de UD. De aquı́ surge la necesidad de evaluar
el comportamiento de este modelo, especialmente en los escenarios donde la media excede la
varianza. La definición de la función consiste en un proceso de optimización no restringida
a través de la función nlminb en la que se definió en primera instancia la función negativa
de log-verosimilitud que fue objeto de minimización. Al igual que en el modelo BN también
se asignaron los mismos valores iniciales tanto para el vector β como para el parámetro de
dispersión en este caso identificado como α.
3.4. Cálculo de medidas estadı́sticas

Luego de obtener las estimaciones para cada modelo y en cada conjunto de datos generado
se determinaron una serie de medidas estadı́sticas para caracterizar el comportamiento pre-
dictivo en los diferentes escenarios planteados anteriormente. Estas fueron las medidas que
se tomaron en cuenta:
3.4.1. Sesgo de los coeficientes estimados

El sesgo de los coeficientes estimados se calculó siguiendo la metodologı́a de Francis et al.
[9] mediante la ecuación (3–5).
Sesgoφ̂ = E(φ̂) − φ (3–5)

3.4 Cálculo de medidas estadı́sticas 21
Donde:
φ : Coeficiente verdadero o asumido.
φ̂ : Coeficiente estimado.
3.4.2. Intervalos de confianza (IC) para los coeficientes de los

modelos
Se obtuvieron los intervalos de confianza tipo Wald (que asumen normalidad asintótica) de
los coeficientes de regresión y los parámetros de dispersión que aplica para cada tipo de mo-
delo (Ecuación (3–6)), para determinar la proporción de parámetros verdaderos contenidos
dentro de ellos.
φ̂ ± z(1−α/2) ESφ̂ (3–6)
Donde:
ES es el Error Estándar asociado al coeficiente estimado (φ̂).
3.4.3. Raı́z Cuadrada del Error Cuadrático Medio (RECM)

Esta medida de calidad de los estimadores se obtuvo mediante el cálculo del Error Cuadrá-
tico Medio (ECM) por medio de la ecuación (3–7).
v
u
u1 X N
RECMφ̂ = t (φ̂i − φ)2 (3–7)
N i=1
Donde:
φ : Valor verdadero o asumido.
φ̂ : Coeficiente estimado.
N : Número de coeficientes estimados hasta nsim.

22 3 Metodologı́a
3.4.4. Raı́z Cuadrada del Error Cuadrático Medio de Predicción

(RECMP)
Esta medida de calidad predictiva se obtuvo mediante el cálculo del Error Cuadrático Medio
de Predicción (ECMP) por medio de la ecuación (3–8). Es implementada por Lord et al. [19]
y Sellers & Shmueli [33] para evaluar el comportamiento de las predicciones de los modelos
comparados.
v
u n
u1 X
RECM P = t (ŷi − yi )2 (3–8)
n i=1
Donde:
y : Respuesta observada.
ŷ : Valor ajustado o predicho.
n : Número de observaciones o tamaño muestral.
3.5. Eficiencia Relativa (ER)

Obenido el ECM y el ECMP se calculó la Eficiencia Relativa (ER) tanto de los estimadores
de parámetros de cada modelo como de sus respectivas predicciones utilizando las ecuaciones
(3–9) y (3–10).
ECMφ̂2
ER(φ̂1 ,φ̂2 ) = (3–9)
ECMφ̂1
ECM PŶ2
ER(Ŷ1 ,Ŷ2 ) = (3–10)
ECM PŶ1
A manera de interpretación, si ER > 1, entonces, φ̂1 es más eficiente que φ̂2 . La interpretación
es similar pero dentro del contexto donde se comparan las predicciones entre dos modelos.
Con esta medida se establece un criterio para evaluar si se pierde o no calidad en las predic-
ciones al ajustar un modelo equivocado respecto al modelo adecuado o alternativo.
3.6 Mediana del Error Porcentual Absoluto (EPAMe) 23
3.6. Mediana del Error Porcentual Absoluto (EPAMe)

Esta medida es aplicada en el Capı́tulo 7 como un método complementario para evaluar la
calidad de las predicciones. Además es una medida adecuada para datos de conteo ya que
evita posibles indeterminaciones en el caso de la existencia de ceros [1]. Su cálculo consiste en
obtener la mediana de los errores porcentuales absolutos (EPA) los cuales se pueden lograr
mediante la ecuación (3–11).

ŷi − yi
EP Ai = (3–11)
yi
Esta medida es implementada por Sellers & Shmueli [33] para evaluar el desempeño de las
predicciones de varias distribuciones en datos de conteo censurados.
3.7. Cálculo de medida de bondad de ajuste

Se decidió incluir una medida de bondad de ajuste ya que proporciona un criterio de com-
paración entre los modelos en términos de qué tan bueno es el ajuste del modelo al conjunto
de observaciones. La medida implementada fue el Criterio de Información de Akaike (CIA),
obtenida mediante la ecuación (3–12). También se utilizó el CIAc el cual es una corrección
del CIA cuando el tamaño muestral es pequeño [15] (Ecuación (3–13)).
CIA = 2p − 2 log Lik (3–12)
2p(p + 1)
CIAc = CIA + (3–13)
n−p−1
Donde:
p : Número de parámetros del modelo.
n : Tamaño muestral.
log Lik : Valor máximo de la función de log-verosimilitud para el modelo estimado.

24 3 Metodologı́a
A pesar de que no es una medida que evalúa el comportamiento a nivel predictivo, ésta fue
incorporada a manera de complemento en la investigación para evaluar si el modelo CMP
podrı́a tener ventajas a la hora de explicar la relación funcional entre una variable respuesta
de conteo y su(s) predictora(s).
4. Comparación de las funciones
glm.comp y cmp
En este capı́tulo se efectúa un contraste entre las caracterı́sticas, las estimaciones y las pre-
dicciones logradas entre dos implementaciones para ajustar modelos CMP en el paquete
estadı́stico R [27, R Core Team 2016]. El objetivo de esta comparación es seleccionar la
implementación más adecuada para llevar a cabo los ajustes de los modelos CMP en las
diferentes simulaciones que demande la investigación. También se describen algunas de las
diferencias encontradas en cuanto al uso y resultados logrados por dichas funciones. Además
de esta comparación, se realizó una caracterización del desempeño del modelo CMP evaluan-
do la calidad de los coeficientes estimados y la calidad predictiva.
Este capı́tulo tiene la siguiente organización. La Sección 4.1 describe como se configuraron
las simulaciones efectuadas. En la Sección 4.2 se presentan los resultados obtenidos tanto en
la caracterización del desempeño de las estimaciones como en el comportamiento predictivo.
Esos resultados son posteriormente analizados y discutidos en la Sección 4.3. Y en la Sec-
ción 4.4 se definieron los casos donde se utilizaran las implementaciones y demás conclusiones
relevantes que arrojó el estudio.
4.1. Metodologı́a
En esta sección se presenta de forma detallada los procedimientos que se realizaron para
lograr los objetivos planteados para este capı́tulo. Se describe el proceso de las simulaciones
en los diferentes escenarios configurados por el tamaño muestral y el nivel de dispersión para
diferentes modelos asumidos variando β0 y dejando constantes los coeficientes asociados a
las variables predictoras.
4.1.1. Descripción de la simulación

Un estudio de simulación fue llevado a cabo para determinar la precisión de las estimaciones
y el desempeño predictivo del modelo CMP de acuerdo a dos implementaciones en R dadas
26 4 Comparación de las funciones glm.comp y cmp
por la función glm.comp del paquete CompGLM [26] y la función cmp del paquete COM-
PoissonReg [31]. Para ello se generaron 100 conjuntos de datos (tal como se describió en la
Sección 3.2) para cada uno de los escenarios conformados por los niveles de n (25, 50, 100,
200 y 500), en diferentes categorı́as de dispersión (OD, ED y UD). En cada uno de estos
escenarios se generaron los diferentes conjuntos de datos asumiendo diferentes modelos en
donde el coeficiente verdadero β0 fue variando mientras que los coeficientes asumidos asocia-
dos a las variables predictoras se dejaron fijos. A estos conjuntos de datos se les ajustaron
los modelos CMP usando las dos funciones de R que son objeto de comparación. Luego se
almacenaron las estimaciones y se calcularon las diferentes medidas descritas en el Capı́tulo
3. La Tabla 4-1 muestra los coeficientes asumidos para generar los datos para cada uno de
los escenarios.
Tabla 4-1.: Coeficientes asumidos para el estudio de simulación de comparación de las fun-
ciones glm.comp y cmp. Fuente: Elaboración propia.
OD ED UD
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 -0.50 0.30 0.50 0.70 0.10 1.60 2.30 3.00 2.00 8.50 12.00 15.00
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 0.25 0.25 0.25 0.25 1.00 1.00 1.00 1.00 5.00 5.00 5.00 5.00
Tal como se ve en la Tabla 4-1 y de acuerdo con lo expuesto en Subsección 3.2.1, en los
diferentes modelos asumidos (m1, m2, m3, m4) el coeficiente verdadero para β0 es diferente
mientras que para β1 y β2 fueron constantes. Con el fin de evaluar las dos funciones de R
(glm.comp y cmp) en escenarios de dispersión altos, se definieron los parámetros de dispersión
asumidos; un valor de ν de 0.25 que indica una alta OD, un valor para ν de 5 para alta UD
y un valor para ν de 1 para ED.
4.1.2. Detección de diferencias

En el proceso de ajuste y análisis convencional de un modelo de regresión CMP se compa-
raron los resultados obtenidos por cada una de las dos funciones de R para examinar que
tan parecidos son los diferentes valores estadı́sticos. Además, se revisaron los códigos y la
documentación disponible para cada una de las implementaciones.
4.2 Resultados 27
4.2. Resultados
Efectuadas las simulaciones se obtuvieron las diferentes medidas estadı́sticas, las cuales se
presentan gráficamente y cuantitativamente en esta sección. Vale la pena aclarar que en OD
no se tuvieron en cuenta algunos casos en donde se presentaron subestimaciones atı́picas del
parámetro de forma ν (Sección 4.3).
4.2.1. Calidad de las estimaciones

El desempeño del modelo CMP en diferentes escenarios de dispersión presentó comporta-
mientos contrastantes entre las dos implementaciones. Estas son las diferencias más relevantes
que se presentaron para los coeficientes estimados tanto del vector β̂, como del parámetro
de dispersión.
Calidad de las estimaciones en OD
El coeficiente de β̂0 en el escenario de OD presentó comportamientos similares en los tres

primeros modelos asumidos. En el modelo m4 se detectaron las diferencias más notorias,
especialmente cuando el tamaño muestral fue mı́nimo. La Figura 4-1 muestra con más de-
talle tal diferencia al observar la ER, en donde dicha medida fluctúa entre un rango de 0.4
a 1.3 a través de tamaños muestrales menores a 200, luego de este nivel de observaciones el
comportamiento tiende a igualarse. En los demás modelos asumidos la ER es constante, lo
que indica que las estimaciones para β0 son muy similares a través de los escenarios evaluados.
Al evaluar la calidad de las estimaciones para este coeficiente se nota la tendencia a dismi-
nuir la RECM cada vez que aumenta el tamaño muestral. En todos los modelos asumidos se
presentaron las estimaciones de menor calidad en tamaños muestrales pequeños, pero carac-
terı́sticamente el modelo m1 presentó los niveles más bajos de calidad respecto a los demás
modelos, incluso cuando el tamaño muestral fue superior a 100.
Comportamientos similares se muestran al observar los desempeños de la RECM y la ER a

través de los niveles del tamaño muestral en cada uno de los modelos asumidos. De nuevo,
en el modelo m4 se presentan las diferencias, pero en contraste de las obtenidas para β̂0 ,
éstas fluctúan entre niveles de ER que favorecen las estimaciones logradas por la función
glm.comp, ya que los valores de eficiencia en la mayorı́a de los casos es menor que 1 (Figu-
ra 4-2 y Figura 4-3).
La ER en los modelos asumidos m1, m2 y m3, es muy cercana a 1, por lo tanto, en estos
escenarios las diferencias en las estimaciones de β1 y β2 entre las dos funciones comparadas
son casi imperceptibles.
1.0 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.8
β0
0.6
RECM^β^
0
RECM^β0
RECM^β0
RECM^β0
RECM
0.4
0.2
0.0
1.4 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.2
1.0
β0
0
ER^β0
ER^β0
ER^β0
ER^^β
ER
0.8
0.6
0.4
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Valores asumidos para β0 Tamaño

Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0
Figura 4-1.: Calidad del coeficiente estimado β̂0 en un escenario de OD. Fuente: Elaboración
propia.
cmp
0.8
β1
0.6
RECM^β^
1
RECM^β1
RECM^β1
RECM^β1
RECM
0.4
0.2
0.0
1.0
0.9
0.8
0.7
β1
1
ER^β1
ER^β1
ER^β1
ER^^β
0.6
ER
0.5
0.4
0.3
0.2
0.1
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

propia.
La Figura 4-4 muestra que el parámetro de dispersión ν presenta comportamientos similares

entre las dos funciones, excepto en el modelo m4 donde la ER varı́a entre 0.4 y 1.2 a través
4.2 Resultados 29
cmp
0.8
β2
0.6
RECM^β^
2
RECM^β2
RECM^β2
RECM^β2
RECM
0.4
0.2
0.0
1.0
0.9
0.8
0.7
β2
2
ER^β2
ER^β2
ER^β2
ER^^β
0.6
ER
0.5
0.4
0.3
0.2
0.1
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

propia.
cmp
0.7
0.6
0.5
ν
RECM^ν^
RECM^ν
RECM^ν
RECM^ν
RECM
0.4
0.3
0.2
0.1
0.0
1.2
1.1
1.0
0.9
ν
ER^^ν
ER^ν
ER^ν
ER^ν
0.8
ER
0.7
0.6
0.5
0.4
0.3
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-4.: Calidad del coeficiente estimado ν̂ en un escenario de OD. Fuente: Elaboración
propia.
de los niveles del tamaño muestral y cuando alcanza las 500 observaciones las diferencias
tienden a ser similares para las dos funciones. En el modelo m1 se obtuvieron los valores
Tabla 4-2.: Proporción de IC al 95 % que contienen los coeficientes verdaderos en un esce-

nario de OD. Fuente: Elaboración propia.
OD glm.comp cmp
m n β0 β1 β2 ν β0 β1 β2 ν
25 0.95 0.97 0.97 0.96 0.95 0.97 0.97 0.96
50 0.94 0.96 0.97 1.00 0.94 0.96 0.97 1.00
m1 100 0.97 0.97 0.96 0.98 0.97 0.97 0.96 0.98
200 0.93 0.98 0.93 0.99 0.93 0.97 0.93 0.99
500 0.94 0.95 0.93 0.99 0.94 0.95 0.93 0.99
25 0.96 0.98 0.98 0.97 0.96 0.98 0.98 0.97
50 0.98 0.95 0.98 0.98 0.98 0.95 0.98 0.98
m2 100 0.97 0.94 0.94 0.97 0.97 0.94 0.94 0.97
200 0.94 0.99 0.93 0.97 0.94 0.99 0.93 0.97
500 0.99 0.94 0.95 0.94 0.99 0.94 0.95 0.94
25 0.98 0.98 0.97 0.97 0.98 0.98 0.97 0.97
50 0.97 0.97 0.98 0.98 0.97 0.97 0.98 0.98
m3 100 0.96 0.95 0.96 0.95 0.96 0.95 0.96 0.95
200 0.95 0.99 0.94 0.97 0.95 0.99 0.94 0.97
500 0.96 0.95 0.94 0.91 0.96 0.95 0.94 0.91
25 0.97 0.99 0.99 0.99 0.90 0.79 0.76 0.90
50 0.98 0.98 0.99 0.98 0.98 0.98 0.99 0.98
m4 100 0.94 0.96 0.96 0.96 0.96 0.97 0.96 0.96
200 0.97 1.00 0.96 0.97 0.92 0.98 0.96 0.95
500 0.96 0.95 0.93 0.95 0.96 0.95 0.93 0.95
más bajos de calidad para este coeficiente estimado, si se comparan con los demás modelos
asumidos en cada uno de los niveles de tamaño muestral. Al igual que los coeficientes ante-
riores, el parámetro ν experimentó un comportamiento constante de la ER en cada nivel de
tamaño muestral y de los modelos asumidos.
La proporción de IC que contienen los coeficientes asumidos en cada uno de los modelos,
indica que en general las dos funciones estimaron el verdadero parámetro al evaluar los IC
al 95 % de confianza para cada uno de los coeficientes estimados y a través de los diferentes
tamaños muestrales. Sin embargo, se presentaron dos casos en donde dicha afirmación no es
tan clara. Esto sucedió en las estimaciones de la función cmp, para los coeficientes β1 y β2 ,
en el modelo m4 y cuando el tamaño muestral fue de 25, en donde se obtuvieron los niveles
4.2 Resultados 31
de cobertura de los IC más bajos, con valores menores al 80 % (Tabla 4-2).
Adicionalmente, vale la pena indicar que durante el proceso de simulación la mayorı́a de

los modelos lograron convergencia. Aún ası́, los escenarios del modelo m4 en los tamaños
muestrales de 25, 50 y 200 experimentaron entre un 70 % y 82 % de casos de convergencia,
indicando problemas durante el proceso de estimación como tal, al implementarse la función
glm.comp. Mientras que la función cmp exhibió eventos de no convergencia menores al obte-
ner un 3 % de casos donde se presentaron problemas en el proceso de estimación del modelo,
esto se dio en m4 cuando n fue mı́nimo.
Calidad de las estimaciones en ED

En ED las estimaciones para β0 presentaron diferencias que fueron incrementando a través de
los modelos asumidos. Éstas fueron más notorias en tamaños muestrales pequeños. Al mirar
la Figura 4-5 se nota que en el modelo m4 las diferencias entre las dos funciones son visibles
en los tamaños muestrales menores a 100, luego de este nivel de observaciones las diferencias
son prácticamente imperceptibles. Al examinar la ER, ésta indica que las estimaciones para
el coeficiente β0 obtenidas por la función glm.comp son de más calidad respecto a las de la
función cmp, especialmente en tamaños muestrales pequeños.
Tal como se esperaba, los comportamientos de la RECM al aumentar el tamaño muestral

tuvieron una tendencia a incrementar la calidad de las estimaciones, pero al comparar los
valores obtenidos en cada uno de los modelos asumidos, se logró determinar ligeras diferen-
cias que indican un incremento de la RECM al incrementar el β0 asumido para los modelos.
En el modelo m1 se obtuvieron los valores más altos de calidad de las estimaciones, mientras
que en los modelos m3 y m4 se exhibieron estimaciones de baja calidad, principalmente en
los tamaños muestrales pequeños.
Comportamientos similares presentan las estimaciones de β1 y β2 (Figura 4-6 y Figura 4-

7). Sin embargo, al evaluar la RECM se detectan unas diferencias leves fundamentalmente
cuando el β0 asumido fue muy bajo, es decir, en el modelo m1. La ER señala que en tamaños
muestrales pequeños, las estimaciones para estos dos coeficientes fueron de mayor calidad en
la función glm.comp y que a partir de tamaños muestrales similares o superiores a 100, no
hay diferencias bien marcadas entre estas dos funciones.
1.8 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
1.6 cmp
1.4
1.2
β0
RECM^β^
0
RECM^β0
RECM^β0
RECM^β0
1.0
RECM
0.8
0.6
0.4
0.2
0.0
1.1 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.0
0.9
0.8
β0
0
ER^β0
ER^β0
ER^β0
ER^^β
0.7
ER
0.6
0.5
0.4
0.3
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-5.: Calidad del coeficiente estimado βˆ0 en un escenario de ED. Fuente: Elaboración
propia.
cmp
0.8
β1
0.6
RECM^β^
1
RECM^β1
RECM^β1
RECM^β1
RECM
0.4
0.2
0.0
1.0
0.9
0.8
0.7
β1
1
ER^β1
ER^β1
ER^β1
ER^^β
0.6
ER
0.5
0.4
0.3
0.2
0.1
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

propia.
4.2 Resultados 33
cmp
0.8
β2
0.6
RECM^β^
2
RECM^β2
RECM^β2
RECM^β2
RECM
0.4
0.2
0.0
1.0
0.9
0.8
0.7
β2
2
ER^β2
ER^β2
ER^β2
ER^^β
0.6
ER
0.5
0.4
0.3
0.2
0.1
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

propia.
cmp
0.7
0.6
0.5
ν
RECM^ν^
RECM^ν
RECM^ν
RECM^ν
RECM
0.4
0.3
0.2
0.1
0.0
1.2
1.1
1.0
0.9
ν
ER^^ν
ER^ν
ER^ν
ER^ν
0.8
ER
0.7
0.6
0.5
0.4
0.3
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-8.: Calidad del coeficiente estimado ν̂ en un escenario de ED. Fuente: Elaboración
propia.
A diferencia de lo expuesto en las estimaciones para β0 , la calidad para estos dos coeficientes
tuvo mayores valores cada vez que fue incrementando el β0 asumido, siendo el modelo m4
el que expresa mejor calidad a través de los niveles del tamaño muestral en contraste con
los demás modelos asumidos. En el modelo m1, donde el valor verdadero de β0 fue de 0.1,
se experimentaron magnitudes de la RECM mayores en comparación con los demás modelos
asumidos en cada uno de los niveles de tamaño muestral, señalando una baja calidad en las
estimaciones de β1 y β2 .

nario de ED. Fuente: Elaboración propia.
ED glm.comp cmp
25 0.95 0.96 0.95 0.96 0.95 0.96 0.95 0.96
50 0.92 0.97 0.97 0.95 0.92 0.97 0.97 0.95
m1 100 0.95 0.94 0.97 0.95 0.95 0.94 0.97 0.95
200 0.97 0.99 0.91 0.98 0.97 0.99 0.91 0.98
500 0.98 0.98 0.96 0.95 0.98 0.98 0.96 0.95
25 0.96 0.97 0.95 0.98 0.96 0.97 0.95 0.98
50 0.97 0.98 0.97 0.97 0.97 0.98 0.97 0.98
m2 100 0.96 0.96 0.96 0.94 0.96 0.96 0.96 0.94
200 0.97 1.00 0.92 0.95 0.97 1.00 0.92 0.95
500 0.95 0.97 0.95 0.95 0.95 0.97 0.95 0.95
25 0.99 0.95 0.96 0.99 0.98 0.94 0.95 0.99
50 0.94 0.93 0.95 0.93 0.94 0.93 0.95 0.93
m3 100 0.98 0.96 0.92 0.94 0.98 0.96 0.92 0.94
200 0.94 0.98 0.97 0.95 0.94 0.98 0.97 0.95
500 0.96 0.96 0.99 0.96 0.96 0.95 0.99 0.96
25 0.99 0.99 0.98 0.99 0.95 0.96 0.95 0.95
50 0.96 0.94 0.93 0.95 0.92 0.93 0.93 0.90
m4 100 0.98 0.97 0.96 0.98 0.98 0.97 0.96 0.98
200 0.98 0.97 0.97 0.99 0.98 0.97 0.97 0.99
500 0.95 0.98 0.99 0.97 0.95 0.98 0.99 0.97
En la Figura 4-8 se observan algunas diferencias en la calidad de las estimaciones del pa-
rámetro de dispersión en particular para los modelos m2, m3 y m4, siendo este último el
más contrastante, ya que al evaluar la ER se obtuvieron estimaciones más eficientes para
la función glm.comp en los tamaños muestrales de 25 y 50, y a partir de un número de
4.2 Resultados 35
observaciones de 100 las diferencias ya no son perceptibles entre las dos implementaciones.
Al igual que para las estimaciones de β1 y β2 , las estimaciones de ν exhibieron una mayor
calidad a medida que aumentó el β0 asumido, especialmente para n mayores o iguales a 100,
por lo tanto, el modelo m4 obtuvo estimaciones de mejor calidad a través de los diferentes
niveles del tamaño muestral respecto al modelo m1.
Al evaluar la proporción de IC al 95 % que contienen el verdadero parámetro, se pudo notar

un buen desempeño generalizado a través de todos los escenarios configurados por los niveles
del tamaño muestral y los modelos asumidos. Las tasas que se muestran en la Tabla 4-3
demuestran que hubo un buen desempeño del modelo CMP a la hora de estimar los coefi-
cientes asumidos ya que dichas proporciones no fueron inferiores al 90 %, es decir, que solo
en el 10 % o menos los IC no incluyeron los coeficientes asumidos para los modelos.
Los casos convergencia total indicaron un buen desempeño durante el proceso de ajuste del
modelo CMP en las dos implementaciones. Tanto las proporciones de convergencia en la
función glm.comp como en la función cmp fueron del 100 %, es decir, que ninguna de las
funciones tuvo problemas en la estimación de los modelos.
Calidad de las estimaciones en UD

En este nivel de dispersión fue donde se presentaron las diferencias más fuertes en las esti-
maciones de los coeficientes asumidos en las dos funciones. Para el coeficiente β0 la calidad
de su estimación presentó resultados coherentes (especialmente cuando n fue grande) para la
función cmp a través de los diferentes modelos asumidos y aunque la función glm.comp pre-
sentó resultados algo similares en el modelo asumido m1, en los demás presentó una calidad
muy baja especialmente en tamaños muestrales altos. La ER muestra como incrementa la
eficiencia de las estimaciones de la función cmp a medida que aumenta n y el valor verdadero
de β0 . En los modelos asumidos m1 y m2 cuando el tamaño muestral es mı́nimo es donde la
función glm.comp tiene alguna ventaja sobre la función cmp ya que obtuvo una mayor cali-
dad, pero a partir de 50 observaciones tienden a igualarse los valores de RECM (Figura 4-9).
Basado en el comportamiento de las estimaciones de la función cmp, al evaluar el desempeño

del modelo CMP para estimar β0 , se nota la tendencia a disminuir la RECM cada vez que
aumenta el tamaño muestral, pero al mirar el comportamiento a través de los diferentes mo-
delos asumidos se percibe que hay menor calidad cada vez que aumentó el valor verdadero
para el intercepto, excepto para m1 en el tamaño muestral más pequeño.
12 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
cmp
10
8
β0
RECM^β^
0
RECM^β0
RECM^β0
RECM^β0
RECM
100 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
90
80
70
60
β0
0
ER^β0
ER^β0
ER^β0
ER^^β
50
ER
40
30
20
10
0
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-9.: Calidad del coeficiente estimado βˆ0 en un escenario de UD. Fuente: Elaboración
propia.
2.0 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
1.8 cmp
1.6
1.4
β1
1.2
RECM^β^
1
RECM^β1
RECM^β1
RECM^β1
RECM
1.0
0.8
0.6
0.4
0.2
0.0
12 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
10
8
β1
1
ER^β1
ER^β1
ER^β1
ER^^β
ER
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-10.: Calidad del coeficiente estimado βˆ1 en un escenario de UD. Fuente: Elabora-
ción propia.
4.2 Resultados 37
1.8 cmp
1.6
1.4
β2
1.2
RECM^β^
2
RECM^β2
RECM^β2
RECM^β2
RECM
1.0
0.8
0.6
0.4
0.2
0.0
8
6
β2
2
ER^β2
ER^β2
ER^β2
ER^^β
ER
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-11.: Calidad del coeficiente estimado βˆ2 en un escenario de UD. Fuente: Elabora-
ción propia.
14 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
cmp
12
10
ν
RECM^ν^
8
RECM^ν
RECM^ν
RECM^ν
RECM
90
80
70
60
ν
ER^^ν
ER^ν
ER^ν
ER^ν
50
ER
40
30
20
10
0
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-12.: Calidad del coeficiente estimado ν̂ en un escenario de UD. Fuente: Elaboración
propia.
En cuanto a la ER, las estimaciones de los coeficientes asociados a las variables predictoras
presentan comportamientos parecidos a los obtenidos para βˆ0 , lo cual no se da con los valores
de la RECM. Las diferencias se presentan fundamentalmente cuando el tamaño muestral es
pequeño donde la eficiencia favorece las estimaciones de la función glm.comp, mientras que
en tamaños muestrales altos hay mayor eficiencia de las estimaciones logradas por la función
cmp (Figura 4-10 y Figura 4-11).

nario de UD. Fuente: Elaboración propia.
UD glm.comp cmp
25 0.95 0.96 0.96 0.99 0.95 0.96 0.96 0.99
50 0.97 0.99 0.94 0.95 0.97 0.99 0.94 0.95
m1 100 0.93 0.99 0.94 0.95 0.93 0.99 0.94 0.95
200 0.92 0.97 0.93 0.93 0.92 0.97 0.93 0.93
500 0.91 0.90 0.95 0.95 0.91 0.90 0.95 0.95
25 0.98 0.97 0.98 1.00 0.99 0.97 0.94 0.98
50 0.91 0.99 0.98 0.98 0.96 0.97 0.96 0.97
m2 100 0.70 0.96 0.96 0.74 0.98 0.93 0.95 0.98
200 0.00 0.63 0.69 0.00 0.97 0.96 0.90 0.96
500 0.00 0.87 0.94 0.00 0.97 0.96 0.94 0.94
25 0.00 0.96 0.96 0.00 0.97 0.98 0.94 0.98
50 0.00 0.94 0.94 0.00 0.96 0.96 0.95 0.96
m3 100 0.00 0.84 0.84 0.00 0.96 0.94 0.97 0.97
200 0.00 0.03 0.25 0.00 0.97 0.99 0.91 0.97
500 0.00 0.25 0.26 0.00 0.95 0.95 0.93 0.96
25 0.00 0.90 0.92 0.00 0.97 0.98 0.93 0.97
50 0.00 0.66 0.81 0.00 0.99 0.97 0.96 0.99
m4 100 0.00 0.24 0.31 0.00 0.95 0.95 0.96 0.96
200 0.00 0.00 0.03 0.00 0.96 0.98 0.89 0.97
500 0.00 0.00 0.01 0.00 0.95 0.96 0.96 0.95
Según la Figura 4-12 los comportamientos de la RECM y la ER favorecen las estimaciones

producidas por la función cmp en la mayorı́a de los escenarios configurados. Los casos don-
de esto no sucede es cuando el tamaño muestral es mı́nimo particularmente en los modelos
asumidos m1 y m2, donde la función glm.comp obtuvo un mejor desempeño.
4.2 Resultados 39
Excepto en el modelo asumido m1, la función glm.comp no presenta una tendencia bien
marcada en la relación entre la calidad de las estimaciones y el tamaño muestral, ya que es
casi constante a través de los diferentes niveles de n. Por esto, si se toma como referencia los
resultados dados por la función cmp, la calidad de la estimación de ν̂ en el modelo CMP fue
deficiente particularmente cuando se asumió un valor de β0 bajo y donde el tamaño muestral
fue de 25 observaciones.
La Tabla 4-4 presenta la proporción de IC al 95 % que contienen el verdadero parámetro.

En ella se complementan los resultados obtenidos en cuanto a la calidad de las estimaciones
en el modelo CMP, ya que se presentan contrastes bien marcados entre las dos funciones.
Mientras que en general la función cmp realiza estimaciones adecuadas en los diversos es-
cenarios y para todos los parámetros, la función glm.comp no logró ese nivel de estimación
especialmente de los parámetros β0 y ν. La proporción de IC al 95 % en la función cmp no
son inferiores al 90 %, caso contrario al de la función glm.comp donde se presentan casos
donde en ningún momento el IC logró contener el verdadero parámetro siendo los casos más
llamativos, los presentados en los escenarios de los modelos asumidos m3 y m4 , en donde
tanto β̂0 y ν̂ presentaron coberturas de los IC desfavorables en todos los niveles de n.
En general las dos implementaciones obtuvieron tasas de convergencia casi absolutas lo que
indica un proceso adecuado de ajuste del modelo CMP. Solo en el escenario donde el modelo
asumido m1 y el tamaño muestral fue de 25, la función glm.comp presentó una proporción
del 98 % de convergencia, es decir, que en solo dos casos no se logró estimar el modelo.
4.2.2. Calidad predictiva y ER

A continuación se presentan los resultados obtenidos para las predicciones logradas por las
dos funciones que son objeto de comparación. Se hace una descripción de los resultados ob-
tenidos en términos de la calidad predictiva en los diferentes escenarios configurados.
Calidad predictiva en OD
La Figura 4-13 muestra que las predicciones difieren caracterı́sticamente en el modelo asu-
mido m4, es decir cuando el β0 asumido fue mayor. En este escenario se presentan eficiencias
en mayor parte a favor de la función glm.comp ya que en los tamaños muestrales con 25, 100
y 200 observaciones se presentaron valores medios de RECMP más altos para las prediccio-
nes logradas por la función cmp. En los demás modelos asumidos no se perciben diferencias
marcadas y eso lo demuestra la ER entre las dos funciones la cual es constante a través de
diferentes valores verdaderos del intercepto.
20 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
16
RECMP
12
RECM^β0
RECM^β0
RECM^β0
RECM^β0
8
1.0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
Y
0
ER^β0
ER^β0
ER^β0
^ERβ^
ER
0.7
0.6
0.5
0.4
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-13.: Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de OD. Fuente: Elaboración propia.
Al establecer las tendencias se puede notar que la RECMP es casi constante a través de
los diferentes niveles del tamaño muestral. Pero al variar el valor asumido para β0 se logró
determinar un comportamiento deficiente en cuanto a la calidad de las predicciones ya que
al aumentar dicho valor la RECMP fue aumentando, es decir, que al aumentar β0 se perdió
calidad predictiva.
Calidad predictiva en ED
En este escenario de dispersión los comportamientos fueron muy similares. Tanto la función
cmp como la glm.comp presentaron resultados muy parecidos ya que a simple vista es difı́cil
percibir diferencias. Al aumentar el número de cifras decimales para los valores de ER se al-
canza a experimentar una leve diferencia entre el desempeño predictivo de las dos funciones.
Esto se dio en el modelo asumido m4 cuando el tamaño muestral fue el más bajo.
4.2 Resultados 41
6 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
5
4
RECMP
0
RECM^β0
RECM^β0
RECM^β0
RECM^β
1.008
1.006
1.004
1.002
ERY0
ER^β0
ER^β0
ER^β0
^
^
β
1.000
ER
0.998
0.996
0.994
0.992
0.990
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

de RECMP y ER en un escenario de ED. Fuente: Elaboración propia.
Las predicciones presentan comportamientos muy similares en cuanto al desempeño predic-

tivo y la ER y sin diferencias marcadas cuando varı́a n. En la Figura 4-14 se puede observar
un comportamiento incremental de la RECMP, indicando que a un mayor de β0 asumido
menor fue la calidad predictiva de los modelos ajustados con estas dos funciones.
Calidad predictiva en UD
La calidad de las predicciones entre las dos funciones no presentan diferencias muy marcadas
pero si perceptibles, particularmente en el modelo m4. La ER muestra que en el modelo asu-
mido m1 fue donde ambas funciones presentaron resultados muy similares, excepto cuando el
tamaño muestral fue de 25, en donde la función glm.comp fue ligeramente más eficiente. En
los demás modelos asumidos, la ER experimentó ciertas fluctuaciones a través de los diversos
niveles del tamaño muestral, aún ası́, en ninguno de aquellos escenarios las predicciones de
la función glm.comp fueron más eficientes que las de la función cmp.
Cuando la media es mayor que la varianza se lograron percibir reducciones graduales en el

desempeño predictivo a medida que aumentó el valor asumido de β0 y además no se detectan
rasgos notorios que indiquen diferencias en cuanto al tamaño muestral ya que los comporta-
mientos son casi constantes a través de sus diferentes niveles (Figura 4-15).
cmp
2.0
RECMP
1.5
0
RECM^β0
RECM^β0
RECM^β0
RECM^β
1.0
0.5
0.0
1.10 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
1.08
1.06
1.04
1.02
ERY
0
ER^β0
ER^β0
ER^β0
^
^
β
1.00
ER
0.98
0.96
0.94
0.92
0.90
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

de RECMP y ER en un escenario de UD. Fuente: Elaboración propia.
4.2.3. Diferencias identificadas

En primera instancia se resalta la capacidad que tiene la función glm.comp del paquete
CompGLM [26] para obtener los resultados tal como se obtienen en la función glm genérica
para ajustar MLG, de allı́ su nombre. La función cmp del paquete COMPoissonReg [31]
aunque no tiene este marco de presentación de resultados es más completa para el análisis
inferencial y el diagnóstico del modelo. En la siguiente lista se describen algunas de las
diferencias detectadas entre estás dos funciones.
Los errores estándar asociados a los coeficientes del modelo y al parámetro de dispersión
estimados en la función glm.comp están intercalados respecto a los obtenidos con la
función cmp (Anexo A). Examinando el resumen del modelo se identificó que el error
estándar de β̂1 en glm.comp es parecido al error estándar para β̂0 en cmp, el error
estándar de β̂2 en glm.comp es similar al error estándar para β̂1 en cmp y el error
estándar de ν̂ en glm.comp es parecido al error estándar para β̂2 en cmp CMP.
La calidad predictiva en UD, cuando se asignan valores de λ muy altos, la función

glm.comp al obtener el resumen del modelo para los coeficientes estimados, muestra
valores no númericos (NaN’s), indicando problemas a la hora de calcular la matriz
de información, a pesar de que no se experimentan problemas de iteración. También
presenta coeficientes estimados muy sesgados. El comportamiento de la función cmp en
las mismas condiciones fue más favorable ya que presentó estimaciones coherentes con
4.3 Discusión 43
los valores asumidos para el modelo.
100 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
80
(segundos)
60
0
RECM^β0
RECM^β0
RECM^β0
RECM^β
Tiempo
40
20
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Figura 4-16.: Tiempo medio de ajuste de un modelo CMP entre las funciones glm.comp y
cmp en un escenario de ED. Fuente: Elaboración propia.
La Figura 4-16 muestra el tiempo medio en segundos que demandó cada una de las
funciones para ajustar modelos CMP en un escenario de ED. Es claro el efecto consi-
derable que tiene el tamaño muestral sobre el tiempo de ajuste de un modelo con la
función cmp, mientras que con la función glm.comp la influencia del número de observa-
ciones no fue tan notorio. La eficiencia computacional es mayor en la función glm.comp
ya que tiene implementado mediante el paquete Rcpp algunos códigos escritos con C++
(caracterı́sticamente las funciones para obtener la constante de normalización Z) y su
proceso de optimización se hace por medio de la función optim. En cambio, la función
cmp tiene todo su código escrito en R [27, R Core Team 2016] y utiliza la función
nlminb para optimización no restringida de la función de log-verosimilitud y si no se
logra convergencia usa como método alternativo la función optim.
4.3. Discusión
En esta sección se discuten algunas de las diferencias encontradas entre dos implementaciones
en R [27, R Core Team 2016] para ajustar modelos CMP. También se analiza el desempeño
de dicho modelo a la hora de estimar los parámetros y de obtener las predicciones por medio
de la esperanza condicional de la media propuesta para este modelo en diferentes escenarios
de dispersión.
En OD, al examinar los resultados de las dos funciones se lograron identificar ciertos casos
donde el parámetro de dispersión es poco coherente con respecto al valor asumido. Vale la
pena anotar que en este escenario de dispersión se asignó un ν de 0.25 (Tabla 4-1) y cuando
se comparó este valor con los valores estimados de ambas funciones donde el tamaño muestral
y el modelo asumido tuvo las más baja denominación (m1), en algunos casos esos valores
fueron iguales a 0 (coeficientes estimados iguales a cero) en la función cmp y muy cercanos
a 0 (con tres cifras decimales nulas) en la función glm.comp, lo que da a entender que al
parecer el modelo (no solo las funciones) tiene dificultades para lograr buenas estimaciones
en el modelo asumido m1 y en tamaños muestrales pequeños. Para efectos de análisis se
omitieron aquellos casos donde se presentaron dichas estimaciones incoherentes.
La ER en las estimaciones de los parámetros y las predicciones del modelo CMP en el esce-
nario donde la varianza fue mayor que la media estuvo en la mayorı́a de los casos alrededor
de 1, indicando que las dos implementaciones presentan estimaciones similares, excepto en el
modelo asumido m4 en donde se obtuvieron eficiencias en mayor parte a favor de la función
glm.comp, pero con una tendencia a igualarse cuando el tamaño muestral fue mayor a 200.
La presencia de diferencias en este caso pudieron darse debido a contrastes en la estimación
de la constante de normalización, ya que la función glm.comp está limitada por defecto para
ajustar conteos muy altos que superen el lı́mite descrito en la Sección 3.3.3, al eliminarse
dicha restricción se obtuvieron las diferencias respecto a la función cmp la cual no tiene tal
limitación.
En ED, los contrastes más fuertes se presentan en las estimaciones de los parámetros justo
entre los modelos asumidos m2 y m4 y cuando el tamaño muestral es menor a 50. Lo contra-
rio se experimenta cuando n es mayor, donde hay una tendencia obtener resultados similares
en ambas implementaciones ya que la ER para las estimaciones de los parámetros es muy
cercana a 1, a partir de tamaños muestrales superiores a 100; y en las predicciones la ER,
solo cuando n es igual a 25, hay una leve eficiencia a favor de la función cmp, de resto no hay
una función más eficiente que otra en los demás niveles de n.
La mayores diferencias entre las funciones en cuanto calidad de los coeficientes estimados
y el comportamiento de las predicciones, se presentaron en el escenario de UD cuando el
modelo asumido tuvo valores altos de β0 y de tamaño muestral. En el modelo asumido m1
se presentaron resultados similares excepto cuando el tamaño muestral fue muy bajo, ya que
tanto la ER de las estimaciones como de las predicciones obtuvieron eficiencias a favor de
la función glm.comp, es decir, que es el único caso donde la función cmp está en desventaja
ya que en el resto de los escenarios es claro que dicha función presenta resultados acordes
con los coeficientes asumidos y por supuesto con las predicciones. El factor principal que
influye en el resultado de la calidad predictiva es la estimación deficiente de los parámetros
del modelo en especial del parámetro de dispersión, debido a que la esperanza condicional
de la media además de estar en función de λ también depende de ν el cual actúa como un
coeficiente de escalamiento para el vector β̂ (Ecuación (2–5)).
En cuanto al desempeño del modelo a la hora de estimar los parámetros, se pudo caracterizar
4.4 Conclusiones 45
que en el escenario de OD el modelo CMP tuvo un desempeño deficiente cuando se asumió

un valor bajo para β0 ya que obtuvo los valores mas bajos de calidad de las estimaciones
respecto a los demás modelos asumidos, caracterı́sticamente en tamaños muestrales bajos.
Esto concuerda con lo obtenido por Francis et al. [9], en donde la distribución CMP MLG es
limitada para obtener estimaciones adecuadas en OD cuando se asumieron valores bajos para
el intercepto. En ED, el parámetro estimado con más bajo nivel de calidad fue el β0 , excepto
en el modelo asumido m1 en donde se presentaron comportamientos no tan contrastantes
entre los diversos coeficientes estimados. En el escenario de UD, si se toma como referencia
los resultados adecuados que arroja la función cmp, se logró determinar una calidad más baja
de las estimaciones en comparación con los escenarios de dispersión anteriores cuando n es
pequeño. También las estimaciones de β0 y de ν tuvieron comportamientos deficientes por
sus altos valores de RECM.
Al evaluar el papel del tamaño muestral se puede decir que tuvo influencia a la hora de eva-
luar la calidad de las estimaciones de los parámetros más no en el desempeño predictivo de
las dos funciones. Cuando se evaluaron las funciones en tamaños muestrales bajos fue donde
más se detectaron diferencias entre las dos funciones, especialmente en las estimaciones del
parámetro de dispersión. Esto es debido a que en el modelo de regresión CMP, según Sellers
& Shmueli [32], no se puede asegurar la normalidad asintótica de los coeficientes estimados
del modelo cuando n es muy pequeño. Cuando n fue en aumento se lograron percibir dife-
rencias un poco más leves y casi imperceptibles, más aún cuando se alcanzó el mayor nivel
de tamaño muestral, excepto en UD.
4.4. Conclusiones
Por medio de un estudio de simulación se logró determinar ciertas diferencias entre dos
implementaciones en R [27, R Core Team 2016] para ajustar modelos CMP en diferentes
variaciones del intercepto, tamaños muestrales y escenarios de dispersión. Por medio de me-
didas de calidad de las estimaciones, de desempeño predictivo y de ER se caracterizó el
comportamiento de dicho modelo y se determinaron los casos en donde según la calidad
predictiva es más conveniente usar una u otra implementación.
En términos generales las dos implementaciones para ajustar modelos CMP en R [27, R
Core Team 2016] producen predicciones similares en escenarios de ED y OD, especialmente
cuando el tamaño muestral es grande, por lo tanto, en estos escenarios serı́a conveniente usar
la función glm.comp por su ventaja en cuanto a la eficiencia computacional. En UD, será
conveniente usar la función cmp ya que sus estimaciones fueron más eficientes en tamaños
muestrales grandes y porque no presentó las inconsistencias anteriormente descritas al obte-
ner los errores estándar del modelo. El único caso donde se podrı́a usar la función glm.comp
en UD serı́a al asumir valores bajos para β0 , es decir, para el modelo asumido m1, ya que
dicha función resultó ser más eficiente en tamaños muestrales bajos; y en tamaños grandes,
a pesar de no presentar diferencias marcadas con la función cmp, tal impementación es más
eficiente a nivel computacional.
La caracterización del modelo CMP arrojó resultados contrastantes en los diferentes escena-
rios de dispersión. En OD y en ED se lograron comportamientos similares en la calidad de las
estimaciones ya que presentaron valores similares en la mayorı́a de los parámetros (Excepto
para β0 en ED). En UD, se obtuvieron estimaciones deficientes para β0 y ν en comparación
con la calidad lograda por los coeficientes estimados asociados a las variables predictoras. Y
en general, al evaluar el efecto de la variación del coeficiente asumido β0 se logró determinar
que cuando este valor es bajo, el modelo tiene un mal desempeño en la calidad de las estima-
ciones, respecto a los demás modelos asumidos en cualquiera de los escenarios de dispersión.
Se logró detectar la calidad de la estimación del parámetro de dispersión como un factor que
puede determinar el comportamiento predictivo en el modelo CMP, ya que dicha estimación
tuvo problemas en algunos escenarios de OD y UD, lo cual puede afectar los valores ajusta-
dos obtenidos por el método de predicción de medias.
5. Eficiencia Relativa de la predicciones
entre los modelos CMP y Poisson
En este capı́tulo se evaluó con más detalle la calidad predictiva dentro de un marco de nor-
malidad asintótica en los estimadores de los parámetros de las distribuciones que son objeto
de comparación en esta disertación. Por ello, se realizó un estudio de simulación con un ta-
maño muestral suficiente para lograr representar dicho marco y en donde se compararon las
medidas de desempeño predictivo de los modelos ajustados a través de su ER. A diferencia
de algunos trabajos relacionados [9, 10], en donde los escenarios de dispersión se definieron
unos cuantos valores para el parámetro de dispersión ν, en este capı́tulo se evaluó el efecto
en el comportamiento predictivo a través un rango más amplio de intensidades de OD y UD.
También se hace una comparación especı́fica entre dos métodos de predicción propuestos por
Sellers & Shmueli [32], por lo tanto, se evaluará la ER de las predicciones obtenidas por el
método de medias y medianas definidas para el modelo CMP con el fin de recomendar la
implementación más adecuada a la hora de obtener valores ajustados ya que la aproximación
a la media condicional en este modelo es acertada solo cuando ν ≤ 1 o λi > 10ν .
Este capı́tulo se compone de las siguientes secciones. La Sección 5.1 se describen los diferen-
tes escenarios configurados por los niveles de factores que son objeto de evaluación en las
simulaciones. Luego se presentan los resultados de las medidas estadı́sticas en la Sección 5.2
y posteriormente son discutidos en la Sección 5.3. Finalmente, en la Sección 5.4 se dan a
conocer las conclusiones que marcaron relevancia en el análisis de los resultados.
5.1. Metodologı́a
En esta sección se dan a conocer los diferentes procedimientos que se realizaron para efec-
tuar las simulaciones. Se describe cómo se definieron los diferentes escenarios configurados
según las combinaciones de los niveles de factores considerados para el presente trabajo. En
este estudio de simulación se consideró un número de observaciones constante y suficiente
para asegurar la normalidad asintótica de las estimaciones de las diferentes alternativas para
ajustar datos de conteo.
48 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson
5.1.1. Descripción de la simulación

Para evaluar la eficiencia entre las predicciones de los modelos que son objeto de comparación
en este estudio, se diseñó un procedimiento de simulación basado en el algoritmo descrito en la
Sección 3.3. Una de las caracterı́sticas especı́ficas de tal procedimiento es que se utilizó un ta-
maño muestral constante para todos los conjuntos de datos generados de 1000 observaciones.
En total, se generaron 1000 conjuntos de datos (nsim = 1000) para cada uno de los escena-
rios conformados por las intensidades de dispersión y los modelos asumidos. Las intensidades
de dispersión abarcan una rango amplio tanto de OD como UD. Por ello, se definieron tres
intensidades para OD (ν = 0.25, 0.5, 0.75) y tres para UD (ν = 1.5, 2.5, 5) y ν = 1 para
el caso de ED. Cuatro clases de los modelos asumidos se definieron según el valor verdadero
adoptado para el parámetro β0 dejando constantes los coeficientes asumidos asociados a las
variables predictoras, indicando que el menor valor asumido de β0 corresponde al modelo
asumido de más baja denominación y ası́ respectivamente hasta el modelo de mayor deno-
minación.
A los conjuntos de datos generados se les ajustaron los modelos CMP y Poisson, para ser
comparados en OD con el modelo BN; y en ED y UD con el modelo PGR. Luego se al-
macenaron las estimaciones y se calculó la RECMP y la ER. En la Tabla 5-1, Tabla 5-2,
Tabla 5-3, se muestran los coeficientes asumidos para generar los datos para cada uno de los
escenarios de dispersión.
Tabla 5-1.: Coeficientes asumidos para el estudio de simulación de eficiencia entre el modelo
CMP y el modelo Poisson en, OD. Fuente: Elaboración propia.
ν =0.25 ν =0.50 ν =0.75
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 -0.50 0.30 0.50 0.70 -0.30 0.70 1.10 1.50 -0.10 1.20 1.70 2.20
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 0.25 0.25 0.25 0.25 0.50 0.50 0.50 0.50 0.75 0.75 0.75 0.75
5.2 Resultados 49
CMP y el modelo Poisson, en ED. Fuente: Elaboración propia.
ν =1.00
m1 m2 m3 m4
β0 0.10 1.60 2.30 3.00
β1 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50
ν 1.00 1.00 1.00 1.00
CMP y el modelo Poisson, en UD. Fuente: Elaboración propia.
ν=1.50 ν =2.50 ν =5.00
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 0.50 2.50 3.50 4.50 1.00 4.20 6.00 7.50 2.00 8.50 12.0 15.0
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 1.50 1.50 1.50 1.50 2.50 2.50 2.50 2.50 5.00 5.00 5.00 5.00
Tal como se ve en las tablas anteriores, el rango de niveles de dispersión es amplio y en los
diferentes modelos asumidos (m1, m2, m3, m4) el coeficiente verdadero para β0 es diferente
mientras que para β1 y β2 fueron constantes.
5.2. Resultados
La presente sección da a conocer los resultados que arrojaron las simulaciones. En cada es-
cenario de dispersión se obtuvieron los comportamientos de la calidad predictiva y la ER de
los diferentes modelos que son objeto de comparación. También se presenta por medio de
tablas, información sobre la proporción de veces durante el proceso de simulación en don-
de un modelo más básico fue más eficiente respecto al modelo alternativo o propuesto para
ajustar datos de conteo. Para complementar la información presentada gráficamente se puede
consultar los resúmenes de las simulaciones en el Apéndice C; allı́ la información numérica
se encuentra distribuida por cada una de las intensidades de dispersión planteadas dando a
conocer medidas de resumen básicas del desempeño predictivo de los modelos comparados.
Por último, se comparan por medio de la ER las propuestas de [32] para obtener los valores
ajustados en un modelo CMP.
5.2.1. Eficiencia Relativa en OD

La Figura 5-1 muestra los comportamientos de la calidad predictiva de los modelos ajustados
en un escenario de OD. En ella se puede observar que en general los valores de RECMP son
muy similares entre las diferentes propuestas de análisis de datos de conteo.
10 ν = 0.25 ν = 0.5 ν = 0.75 Poisson

CMP
8
BN
RMSPE^β0
RMSPE^β0
RMSPE^β0
RECMP
1.5 ν = 0.25 ν = 0.5 ν = 0.75 CMP Poisson

CMP BN
1.4 BN Poisson
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.3
RMSPE^β0
RMSPE^β0
RMSPE^β0
ER
1.2
1.1
1.0
0.9
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
Valores asumidos para β0 Valores

Modelosasumidos para β0
asumidos Valores asumidos para β0
Figura 5-1.: Desempeño predictivo en OD. Fuente: Elaboración propia.
La evaluación de la ER muestra que la diferencias más notorias se presentan en el nivel de

OD más fuerte. En el modelo asumido m1 fue poco eficiente el modelo CMP respecto a los
modelos Poisson y BN. Lo contrario se dio en los modelos asumidos m2 y m3, en donde el
modelo CMP es más eficiente que los otros dos modelos. Y en el modelo asumido m4, el mo-
delo CMP solo es eficiente respecto al modelo BN. También se alcanza a notar que el modelo
Poisson es ligeramente más eficiente que el modelo BN. En los niveles de OD menos severos
las diferencias fueron menos perceptibles entre las diversas distribuciones contrastadas.
5.2 Resultados 51
12 ν = 0.25 ν = 0.5 ν = 0.75 CMPM

CMPMe
10
8
RMSPE^β0
RMSPE^β0
RMSPE^β0
RECMP
6
1.20 ν = 0.25 ν = 0.5 ν = 0.75 CMPMe CMPM
1.15
1.10
RMSPE^β0
RMSPE^β0
RMSPE^β0
ER
1.05
1.00
0.95
0.90
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4

Figura 5-2.: Comparación de métodos de predicción en OD. Fuente: Elaboración propia.
La comparación de las propuestas de predicción para el modelo CMP que se muestran en la

Figura 5-2, indican que los comportamientos son muy similares en cuanto a los valores de
RECMP. A pesar de esto, la ER señala que el único caso donde las predicciones de mediana
fueron más eficientes que las de la aproximación de la media condicional, fue en el modelo
asumido de menor denominación m1, en el nivel de OD más fuerte (ν verdadero de 0.25).
En el resto de modelos asumidos las predicciones de media fueron más eficientes, aunque hay
una tendencia en la ER a ser más cercana a 1 a medida que aumenta el coeficiente asumido
para β0 .
La Tabla 5-4 corrobora los resultados anteriores. Muestra que la comparación entre el modelo
CMP y Poisson, el modelo CMP obtuvo el mayor número de casos de eficiencia en los modelos
asumidos m2 y m3, especialmente en el nivel de OD más fuerte. La comparación entre el
modelo CMP y el BN indicó que el modelo CMP obtuvo mayores casos de eficiencia entre los
modelos asumidos m2 y m4, incluso en niveles de OD menos severos. Y caracterı́sticamente,
el contraste entre los modelos BN y el Poisson, arrojó una mayor tasa de casos de eficiencia
a favor del modelo Poisson a través de los diferentes niveles de OD.
Tabla 5-4.: Proporción de ER en un escenario de OD con n = 1000. Fuente: Elaboración

propia.
OD M
ν m CMP vs Poisson CMP vs BN BN vs Poisson ŶM e vs ŶM
m1 1.000 1.000 0.996 0.353
m2 0.226 0.159 0.996 1.000
ν =0.25
m3 0.173 0.095 0.995 1.000
m4 0.659 0.351 0.992 0.656
m1 0.945 0.931 0.999 1.000
m2 0.481 0.448 0.996 1.000
ν =0.50
m3 0.407 0.371 0.996 0.994
m4 0.432 0.319 0.992 0.944
m1 0.755 0.730 1.000 1.000
m2 0.494 0.471 1.000 1.000
ν =0.75
m3 0.466 0.407 0.998 0.975
m4 0.468 0.315 1.000 0.931
En cuanto a la comparación de las propuestas de predicción, se nota la ventaja en casos de

eficiencia de la predicción de medianas en el nivel de OD más fuerte y en m1, ya que en el
resto de escenarios fue predominante los casos de eficiencia de la predicción de medias.
5.2.2. Eficiencia Relativa en ED

Cuando la media y la varianza son iguales, los comportamientos en el desempeño predictivo
reflejados por los valores de la RECMP a través de los diferentes modelos asumidos son muy
similares entre los diversos modelos comparados. Incluso al evaluar la ER entre ellos, es casi
imperceptible algún rasgo que de un indicio de eficiencia en las predicciones a favor de uno
u otro modelo. La Figura 5-3 muestra que con número de tres cifras decimales ninguna de
las propuestas para análisis de datos de conteo es más eficiente una de la otra.
La comparación de los métodos de predicción a pesar de ser muy similares entre sı́ en cuan-
to a su calidad predictiva, muestra según la ER que fue más eficiente en todos los casos
la predicción de medias respecto a la de medianas (Figura 5-4). Sin embargo, se nota una
tendencia a disminuir la brecha en el desempeño predictivo a medida que aumenta el valor
asumido para β0 , es decir, la denominación del modelo asumido.
En cuanto a la proporción de casos de ER, la mayorı́a de los escenarios muestran que hubie-
ron proporciones equilibradas de eficiencia de un modelo respecto al otro. Las comparaciones
5.2 Resultados 53
6 ν=1 Poisson
CMP
5 PGR
RMSPE^β0
RECMP
3
1.010 ν=1 CMP Poisson

1.008 CMP PGR
PGR Poisson
1.006 Valores asumidos para β0
1.004
RMSPE^β0
1.002
ER
1.000
0.998
0.996
0.994
0.992
0.990
m1 m2 m3 m4
Valores
asumidos
Figura 5-3.: Desempeño predictivo en ED. Fuente: Elaboración propia.
6 ν=1 CMPM
CMPMe
5
4
RMSPE^β0
RECMP
1.10 ν=1 CMPMe CMPM
Valores asumidos para β0

1.05
RMSPE^β0
ER
1.00
0.95
0.90
m1 m2 m3 m4
Valores
asumidos
Figura 5-4.: Comparación de métodos de predicción en ED. Fuente: Elaboración propia.

Tabla 5-5.: Proporción de ER en un escenario de ED con n = 1000. Fuente: Elaboración

propia.
ED M
ν m CMP vs Poisson CMP vs PGR PGR vs Poisson ŶM e vs ŶM
m1 0.664 0.666 0.445 1.000
m2 0.519 0.521 0.447 0.996
ν =1.00
m3 0.495 0.530 0.408 0.974
m4 0.491 0.545 0.400 0.914
del modelo CMP respecto al modelo Poisson y el modelo PGR muestran que la proporción de
casos de eficiencia entre estos tres modelos fue cercana al 50 %, con una leve ventaja de estos
dos últimos en m1. En la comparación del modelo PGR y el Poisson hay una proporción de
ventaja a favor de la eficiencia del modelo PGR.
El método de predicción de medias en el modelo CMP demostró su predominante eficiencia

en ED ya que la proporción de casos de eficiencia de este método estuvo siempre por encima
del 90 % respecto a las predicciones de mediana en todos los modelos asumidos (Tabla 5-5).
5.2.3. Eficiencia Relativa en UD

En UD, la RECMP según la Figura 5-5 fue muy similar entre las propuestas contrastadas
y por ello no marcan una diferencia notoria en cuanto los comportamientos de la calidad
predictiva. Sin embargo, la ER demostró que las predicciones del modelo CMP fueron menos
eficientes respecto a los demás modelos cuando se asumió el valor más bajo de β0 . Mientras,
que en la comparación del modelo PGR y el Poisson no se logró detectar una eficiencia de
un modelo respecto al otro, dado que los valores de ER son muy cercanos 1.
La Figura 5-6 muestra los comportamientos de la calidad predictiva entre los dos métodos
de predicción planteados para obtener valores ajustados en el modelo CMP. Los valores de
la RECMP muestran curvas muy similares a través de los diversos modelos asumidos, pero
al evaluar la ER se pudo determinar que de forma generalizada el procedimiento de obtener
valores ajustados por medio de la aproximación a la media fue más eficiente que el método
de predicción de medianas.
La Tabla 5-6 complementa la información gráfica descrita anteriormente. La comparación en

el comportamiento de las predicciones entre el modelo CMP y las dos propuestas muestran
5.2 Resultados 55
4.0 ν = 1.5 ν = 2.5 ν=5 Poisson

3.5 CMP
PGR
3.0
2.5
RMSPE^β0
RMSPE^β0
RMSPE^β0
RECMP
2.0
1.5
1.0
0.5
0.0
1.010 ν = 1.5 ν = 2.5 ν=5 CMP Poisson

CMP PGR
PGR Poisson
1.005
RMSPE^β0
RMSPE^β0
RMSPE^β0
ER
1.000
0.995
0.990
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4

Figura 5-5.: Desempeño predictivo en UD. Fuente: Elaboración propia.
4.0 ν = 1.5 ν = 2.5 ν=5 CMPM

3.5
CMPMe
3.0
2.5
RMSPE^β0
RMSPE^β0
RMSPE^β0
RECMP
2.0
1.5
1.0
0.5
0.0
1.10 ν = 1.5 ν = 2.5 ν=5 CMPMe CMPM

1.05
RMSPE^β0
RMSPE^β0
RMSPE^β0
ER
1.00
0.95
0.90
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4

Figura 5-6.: Comparación de métodos de predicción en UD. Fuente: Elaboración propia.

Tabla 5-6.: Proporción de ER en un escenario de UD con n = 1000. Fuente: Elaboración

propia.
UD M
ν m CMP vs Poisson CMP vs PGR PGR vs Poisson ŶM e vs ŶM
m1 1.000 1.000 0.000 1.000
m2 0.557 0.598 0.002 0.997
ν =1.50
m3 0.528 0.584 0.001 0.978
m4 0.522 0.657 0.000 0.931
m1 1.000 1.000 0.003 1.000
m2 0.665 0.693 0.005 0.999
ν =2.50
m3 0.546 0.572 0.012 0.990
m4 0.524 0.572 0.012 0.951
m1 1.000 1.000 0.001 1.000
m2 0.957 0.955 0.616 1.000
ν =5.00
m3 0.641 0.628 0.920 0.999
m4 0.546 0.523 0.944 0.992
proporciones similares en los casos más leves de UD (ν = 1.5 y ν = 2.5); mientras que el en
el caso más fuerte de UD, además de presentar casos totales de menor eficiencia en m1, en
m2 esta proporción fue superior al 95 %, indicando que los modelos Poisson y PGR obtu-
vieron mayores casos eficiencia respecto al modelo CMP cuando se asumieron valores bajos
de β0 . La comparación entre el modelo Poisson y el PGR muestra que este último obtuvo
los mayores casos de eficiencia en ν = 1.5 y ν = 2.5 y en el caso más severo de UD, las
proporciones muestran ventajas para el modelo Poisson excepto en m1.
En cuanto a la comparación de los métodos de predicción, es claro que los valores ajustados
por medio de la media condicional propuesta para el modelo CMP superan en mayor número
de casos de eficiencia a aquellos obtenidos por predicción de medianas.
5.3. Discusión
Los resultados presentados en la sección anterior mostraron varios componentes de análisis
que son discutidos en esta sección. Aspectos tanto de la calidad predictiva como de la eva-
luación del método de predicción más adecuado para el modelo CMP, son analizados en esta
dentro del marco de la normalidad asintótica de las estimaciones.
5.3 Discusión 57
El efecto de los modelos asumidos en el desempeño predictivo indicó que a medida que se
aumentó el valor asumido para β0 , los valores de la RECMP aumentaron, es decir, que dis-
minuyó la calidad de las predicciones en las diferentes propuestas comparadas. Sin embargo,
al mirar el comportamiento de la calidad predictiva se logró percibir que hay una tendencia
a aumentar a medida que la intensidad de la dispersión se incrementa, es decir, que a mayor
nivel de ν se observaron reducciones graduales en los valores de la RECMP, por lo tanto, en
el nivel más extremo de OD se presentaron los valores más bajos y en el nivel más alto de
UD se experimentaron los valores más altos de calidad predictiva a través de los diferentes
modelos asumidos.
El contraste entre las propuestas de análisis de datos de conteo marcaron algunos resultados
relevantes. Uno de ellos, se relaciona con la comparación que es objeto de está disertación.
El desempeño predictivo entre el modelo CMP y el modelo Poisson en el marco de la norma-
lidad asintótica de las estimaciones determinó que únicamente en el caso de OD más severo
y cuando se definieron los modelos asumidos m2 y m3, las predicciones de media del modelo
CMP fueron ligeramente más eficientes que las del modelo Poisson. El modelo CMP presentó
un desempeño deficiente de sus predicciones especialmente cuando se asumió el valor más
bajo para el intercepto, siendo el nivel de OD más fuerte la evidencia más clara ya que allı́
fueron mucho más eficientes las predicciones de los modelos Poisson y BN. En UD también
se detectó un bajo desempeño de las predicciones del modelo CMP en valores bajos asumidos
para β0 pero en una escala menor a la presentada en OD. También este resultado concuerda
con lo expresado por Francis et al. [9], en donde se concluye que el modelo reparametrizado
CMP MLG tiene un desempeño deficiente o limitado en OD cuando se asumieron valores
bajos para β0 .
Respecto a la comparación del modelo BN con el modelo CMP, se destaca la eficiencia en OD

extrema que hay a favor de la calidad predictiva de este último, excepto cuando se asumió
el valor más bajo para el intercepto. En los escenarios de OD más cercanos a la ED ya no se
marcan eficiencias a favor de uno u otro modelo. Lo mismo sucedió al establecer la ER entre
los modelos BN y Poisson, donde solo en el caso más fuerte de OD las predicciones logradas
por el modelo BN obtuvieron mejor desempeño predictivo. El modelo CMP comparado con
el modelo PGR en UD, solo logró ser más eficiente justo donde las predicciones de media
tuvieron limitaciones, es decir, cuando se asumieron valores bajos para β0 . Tanto en ED como
en UD, no se logró determinar una eficiencia marcada entre los modelos PGR y Poisson, ya
que su ER fue muy cercana a 1 en todos los escenarios configurados, a pesar de que la
proporción de casos de eficiencia fue a favor del modelo PGR en los niveles de UD menos
fuertes, lo cual no se dio cuando se asumió un valor para ν de 5. Esto puede evidenciar
la limitación que señalan Sellers & Shmueli [32], respecto al modelo PGR, en donde dicha
propuesta es una alternativa para ajustar datos de conteo en UD pero en un rango no tan
flexible como lo hace el modelo CMP.
En cuanto a la comparación de los métodos de predicción propuestos para el modelo CMP,

el único caso donde las predicciones de mediana fueron más eficientes que las logradas por
la aproximación a la media, se dio en el escenario de OD más extrema en m1. En el resto de
los casos incluso en UD, los valores ajustados obtenidos por medio de la media condicional
fueron más eficientes, con una ligera tendencia a reducir la brecha en la calidad predictiva al
aumentar el valor asumido de β0 . Sellers & Shmueli [32] proponen el método de predicción
de medianas como una alternativa generalizada para obtener valores ajustados, ya que se
obtienen cifras enteras y por la naturaleza de la mediana, ésta es una medida de tendencia
central más robusta en distribuciones sesgadas [33]. Sin embargo, al parecer esta propuesta
no logra ser más eficiente incluso cuando las predicciones de media según Sellers & Shmue-
li [32] son de baja calidad, es decir, cuando ν > 1, por lo tanto, aún en UD en donde se
presumı́a que las predicciones de mediana lograrı́an cierta ventaja, éstas no obtuvieron un
desempeño predictivo suficiente para minimizar la baja calidad de la aproximación de la
media condicional en este escenario de dispersión.
5.4. Conclusiones
La comparación entre la calidad predictiva del modelo CMP y el modelo Poisson fue eva-
luada mediante un estudio de simulación en el cual se tuvieron en cuenta factores como
la intensidad de la dispersión y la variación del intercepto expresada mediante los modelos
asumidos, en un marco donde el tamaño muestral fue lo suficientemente grande para ası́
asegurar la normalidad asintótica de las estimaciones logradas por las diferentes propuestas
para ajustar datos de conteo. Los resultados que fueron objeto de análisis en la anterior
discusión arrojaron las conclusiones descritas a continuación.
Debido al desempeño limitado que tuvo el modelo CMP en cuanto a sus predicciones espe-
cialmente en el escenario más severo de OD cuando se asumió el valor más bajo de β0 , la ER
entre este modelo y el modelo Poisson fue a favor de éste último. En esa misma intensidad
de dispersión, en los únicos casos que el modelo CMP logró ser más eficiente fue en m2 y m3.
Mientras que en las intensidades más cercanas a la ED, no se logró establecer una eficiencia
marcada de un modelo respecto al otro. En UD, se detectó una eficiencia leve a favor del
modelo Poisson a través de las diferentes intensidades de dispersión y especı́ficamente en m1.
La propuesta de Sellers & Shmueli [32] logró en algunos casos ser más eficiente y en otros no
tanto, respecto a los modelos BN y PGR. El modelo CMP obtuvo una mayor eficiencia de las
predicciones sobre las del modelo BN en el caso más fuerte de OD, pero cuando la intensidad
de OD fue más cercana a 1, y en la misma ED, las diferencias en desempeño predictivo ya no
fueron tan notorias. Mientras que en UD, se lograron percibir eficiencias a favor del modelo
PGR en m1.
5.4 Conclusiones 59
La calidad predictiva fue afectada por la variación del intercepto en los diferentes modelos
asumidos logrando una menor calidad en las predicciones cada vez que aumentaba el valor
asumido para β0 . También se percibió un efecto de la intensidad de la dispersión experimen-
tando una reducción gradual de los valores de la RECMP a medida que el valor asumido
para el parámetro de dispersión fue mayor.
Incluso en UD donde se esperaba un mejor desempeño de las predicciones de mediana, éstas

no lograron la suficiente calidad predictiva para superar a la de las predicciones logradas
por la aproximación de la media condicional de la distribución CMP. Particularmente, en
el caso de OD extrema cuando se asumió el valor más bajo para el intercepto el comporta-
miento de las predicciones logrado por el método de predicción de medianas superó a la de
las predicciones de media, por lo tanto, solo serı́a recomendable utilizar esta propuesta en
este escenario.
6. Aplicación con datos reales en la
ecologı́a
El objetivo de este capı́tulo es evaluar la calidad tanto de las predicciones de media como
de mediana en las distribuciones que han sido comparadas en los capı́tulos anteriores por
medio de dos casos de estudio reales aplicados dentro del campo de la ecologı́a. El primer
caso consiste en la predicción de la abundancia de una especie de interés en términos algunas
variables ambientales, lo cual es un proceso de análisis esencial a la hora de tomar decisiones
de manejo y conservación silvestre en lugares donde no se ha hecho un muestreo previo.
El segundo caso se desarrolla dentro del contexto del estudio de fauna silvestre ya que se
trata de establecer la relación entre el tamaño del nido en aves (asociado con el número de
huevos por nido) y las caracterı́sticas morfológicas de las especies observadas y ası́ configu-
rar estrategias de producción sostenible y/o de conservación basadas en la caracterización
del potencial de crecimiento de un conjunto de aves con caracterı́sticas taxonómicas similares.
Este capı́tulo tiene la siguiente estructura. La Sección 6.1 da a conocer los diferentes proce-
dimientos que se llevaron a cabo en cada uno de los estudios de caso. En la Sección 6.2 se
presentan los resultados obtenidos luego de obtener las diferentes medidas estadı́sticas que
serán objeto de discusión en la Sección 6.3. Finalmente, en la Sección 6.4 se presentan las
conclusiones más relevantes que lograron los estudios de caso planteados para este capı́tulo.
6.1. Metodologı́a
Esta sección da a conocer los procesos que se realizaron de forma general para los estudios de
caso planteados. Las bases de datos que son descritas en la Subsección 6.1.1 fueron filtradas
de tal forma que se pudiera resumir la información que fue considerada en cada caso. A los
conjuntos de datos resultantes se les ajustaron los modelos que fueron objeto de compara-
ción en los anteriores capı́tulos utilizando la configuración presentada en la Subsección 3.3.3
y luego se calcularon las medidas estadı́sticas descritas en la Sección 3.4 con el fin de evaluar
tanto la calidad de las estimaciones ası́ como de las predicciones. También se tuvieron en
cuenta los aspectos definidos en la Sección 3.1 para realizar los análisis estadı́sticos y las
recomendaciones de uso de la implementación más adecuada en R [27, R Core Team 2016]
6.1 Metodologı́a 61
para ajustar modelos CMP del Capı́tulo 4.
6.1.1. Descripción de los datos

Los procedimientos que se realizaron para la colección de información son descritos de forma
resumida para cada uno de los estudios de caso planteados. Aún ası́, en el caso de que se
quiera profundizar sobre los aspectos metodológicos y el contenido de los conjuntos de datos
obtenidos se recomienda consultar los trabajos de Ramesh et al. [28] y Myhrvold et al. [25],
en donde se encuentra la información detallada de cada uno de los estudios efectuados res-
pectivamente. Hay que señalar que éstas dos bases de datos consultadas hacen parte de The
Ecological Society of America (ESA) la cual publica material complementario de sus artı́culos
en Ecological Archives con licencia de Creative Commons Atribución 4.0 Internacional .
Descripción del estudio de abundancia
La información tenida en cuenta para este estudio de caso está contenida en un conjunto de
datos en donde se determinó la abundancia de especies de plantas leñosas en un total de 96
parcelas de muestreo distribuidas a través de un área que tiene una superficie de unos 22,000
km2 , considerada como una región con una gran biodiversidad por Myers et al. [24] y la cual
está localizada al suroeste de la India (Figura 6-1).
Fuente: Ramesh et al. [28]
Figura 6-1.: Localización del área de muestreo del estudio de abundancia.

62 6 Aplicación con datos reales en la ecologı́a
Las parcelas de muestreo fueron establecidas entre los años 1996 y 1997 dentro el marco
de un proyecto de colaboración entre el Departamento Forestal de Karnataka y el Instituto
Francés de Pondicherry. Éstas tienen una hectárea de tamaño (100 × 100 m) y se encuentran
en diversos tipos de bosque definidos por una serie de condiciones ambientales caracterı́sticas
de cada uno. En total fueron registrados 61965 individuos de 400 especies de árboles y lianas
con una circunferencia a la altura del pecho (CAP) igual o superior a 10 cm. También se
midieron tanto parámetros estructurales de los bosques, ası́ como variables bioclimáticas [28].
Para obtener las predicciones de abundancia, se eligió una especie de interés que es nativa
y por lo tanto, se presenta de forma silvestre en la India. El árbol de mango (Mangifera
indica) además de ser conocido por su fruto que es exportado a muchos paı́ses, tiene un uso
maderable para construir mueblerı́a de bajo costo; también es muy utilizado en el campo de
la medicina por sus propiedades astringentes [12]. El estudio de caso planteado consistió en
estimar las existencias por hectárea que hay de esta especie de forma silvestre dadas unas
condiciones de ambientales definidas por el número de estratos del bosque y la duración en
meses de la época de sequı́a. Dado esto, el conjunto de datos para este análisis contiene 96
observaciones correspondientes las mediciones en cada una de las parcelas de muestreo para
cada una de las variables consideradas.
Descripción del estudio del tamaño del nido
La base de datos utilizada para este estudio de caso fue aquella que contenı́a los registros
dados únicamente para aves. En general, el conjunto de datos total es una compilación de
una serie de investigaciones y publicaciones relacionadas con el estudio de especies de aves,
reptiles y mamı́feros. Dada la carencia de estandarización en la clasificación taxonómica y la
medición de las variables en las diferentes fuentes consultadas fue necesario crear una base
de datos general que facilite los análisis comparativos de los parámetros medidos para los
tres grupos de que conforman el clado de los amniotas. Como resultado final de este proceso
de normalización se obtuvo un conjunto de datos con 29 parámetros de la historia de vida
para 21322 especies de los amniotas [25].
Para la base de datos de aves se planteó estudiar la relación del tamaño del nido que es una
medida asociada con el número de huevos por nido, respecto a la masa del huevo y al peso
de la hembra en gramos. Para ello se filtró la información respectiva para el análisis de la
base de datos general y se consideró realizar el estudio especı́ficamente en especies del orden
de los Passeriformes. Este conjunto de datos tiene un total de 2061 observaciones para cada
una de las tres variables consideradas para este estudio.
6.2 Resultados 63
6.2. Resultados
Esta sección presenta en dos partes los resultados de la calidad predictiva de las distribu-
ciones comparadas durante este trabajo. La primera parte da a conocer los contrastes de
la calidad de las predicciones para el estudio de abundancia. La segunda parte presenta las
medidas estadı́sticas que evalúan el desempeño predictivo en el estudio del tamaño del nido
en aves.
6.2.1. Para el estudio de abundancia

La información que presenta la Tabla 6-1 es el resumen de las estimaciones de los parámetros
de los diferentes modelos ajustados. En primer lugar se logró diagnosticar que la variable
de conteo tiene una varianza mayor que la media y por lo tanto el parámetro de dispersión
estimado por el modelo CMP cae en el rango de OD. Al comparar los coeficientes de estimados
se nota la gran diferencia que obtuvieron los coeficientes estimados y sus respectivos errores
estándar (ES) en el modelo CMP luego de ser escalados. También se logró identificar que los
ES obtenidos por el modelo Poisson fueron los más bajos en contraste con los de las demás
distribuciones.
Tabla 6-1.: Resumen de las estimaciones en los modelos comparados en el estudio de abun-
dancia. Fuente: Elaboración propia.
β0 β1 β2 Dispersión
Modelo
β̂0 σ̂β̂0 β̂1 σ̂β̂1 β̂2 σ̂β̂2 φ̂ σ̂φ̂
Poisson -5.9071 1.0324 0.8820 0.0735 0.7693 0.1642 – –

CMPa -13636.9261ν̂ 4178.7752ν̂ 1337.6726ν̂ 331.7317ν̂ 1283.5193ν̂ 677.7827ν̂ 0.0001 11.8296
BN -5.8599 2.1009 0.9914 0.1865 0.7069 0.3340 0.5072 0.2142
PGR -5.6810 2.0868 1.0419 0.2089 0.6540 0.3278 0.5844 0.1071
a
Los coeficientes y sus ES están divididos por ν̂ (excepto los de dispersión) ya que según Sellers & Shmueli [32] deben
ser escalados para ser comparados con los de la regresión Poisson
La Tabla 6-2 presenta las diferentes medidas que se adoptaron para evaluar la calidad de
las predicciones en el estudio de la abundancia de la especie Mangifera indica. Se nota que
el modelo Poisson fue el que obtuvo el mejor desempeño tanto en la calidad de las predic-
ciones de media como de mediana respecto a las demás distribuciones. También se resalta la
calidad deficiente de las predicciones de media del modelo CMP debido a sus valores altos
de RECMP y EPAMe, lo cual no sucede con las predicciones de mediana en donde si bien
no presentaron un buen desempeño es considerable la diferencia que marca este método res-
pecto al de los valores ajustados obtenidos mediante la aproximación a la media condicional
propuesta para esta distribución.
Tabla 6-2.: Calidad de las predicciones en los modelos comparados en el estudio de abun-
dancia. Fuente: Elaboración propia.
Poisson CMP BN PGR
Medida
M Me M Me M Me M Me
RECMP 4.227 4.180 3447.570 4.460 4.285 4.596 4.341 4.775
EPAMe 5.850 3.000 3449.608 1.000 6.808 0.955 7.465 1.000
6.2.2. Para el estudio del tamaño del nido en aves

Para este conjunto de datos se diagnosticó UD, dado que el parámetro de forma estimado
por el modelo CMP fue de 1.815. La comparación de las estimaciones y sus respectivos ES
marca una similaridad entre aquellas obtenidas por el modelo Poisson y el modelo BN.
Tabla 6-3.: Resumen de las estimaciones en los modelos comparados en el estudio del ta-
maño del nido en aves. Fuente: Elaboración propia.
β0 β1 β2 Dispersión
Modelo
β̂0 σ̂β̂0 β̂1 σ̂β̂1 β̂2 σ̂β̂2 φ̂ σ̂φ̂
Poisson 1.2283 0.0185 -0.0312 0.0067 0.0013 0.0003 – –

CMPa 1.2925ν̂ 0.0471ν̂ -0.0279ν̂ 0.0049ν̂ 0.0011ν̂ 0.0002ν̂ 1.8151 0.0020
BN 1.2283 0.0185 -0.0312 0.0067 0.0013 0.0003 13903.3396 0.0585
PGR 1.2317 0.0181 -0.0329 0.0066 0.0013 0.0003 0.9895 0.0046
a
Los coeficientes y sus ES están divididos por ν̂ (excepto los de dispersión) ya que según Sellers &
Shmueli [32] deben ser escalados para ser comparados con los de la regresión Poisson
Tabla 6-4.: Calidad de las predicciones en los modelos comparados en el estudio del tamaño
del nido en aves. Fuente: Elaboración propia.
Poisson CMP BN PGR
Medida
M Me M Me M Me M Me
RECMP 1.602 1.638 1.603 1.639 1.602 1.638 1.601 1.639
EPAMe 0.328 0.400 0.327 0.400 0.328 0.400 0.326 0.400
También se logró detectar ciertas diferencias en los ES del modelo CMP respecto a las otras
distribuciones, especialmente en las estimaciones de β0 y β1 . En la estimación del parámetro
de dispersión del modelo BN se presentó el ES más elevado, mientras que el del modelo CMP
6.3 Discusión 65
fue el más bajo.
Las predicciones de media del número de huevos de aves de la orden Passeriformes evaluadas
mediante la RECMP y el EPAMe indican que la distribución PGR obtuvo el mejor desem-
peño mientras que en las predicciones de mediana los modelos Poisson y BN obtuvieron la
mejor calidad predictiva en cuanto a la RECMP, lo que no sucedió en el EPAMe donde no se
logró diferenciar un desempeño a favor o en contra entre los modelos comparados (Tabla 6-4).
6.3. Discusión
Los resultados que se presentaron en el estudio de las predicciones de abundancia de la especie
Mangifera indica reflejan las consecuencias de un caso de OD extrema ya que el parámetro
de dispersión estimado por el modelo CMP al parecer tuvo problemas en su estimación. Este
comportamiento fue muy común en el escenario más severo de OD asumido en las simula-
ciones, en donde con tamaños muestrales pequeños y en valores muy bajos asumidos para
el intercepto dicho parámetro presentó problemas en su estimación obteniendo valores muy
cercanos a cero. Al dividir los coeficientes y sus respectivos ES por el valor de ν̂ tal como lo
proponen Sellers & Shmueli [32], se obtuvieron coeficientes sobrestimados en comparación
con los obtenidos por las demás distribuciones.
Otro aspecto que se evidencia en los resultados es la subestimación de los ES asociados a los
coeficientes del vector de β en el modelo Poisson. Tal como lo señalan Cameron & Trivedi
[3], una de las consecuencias de ajustar un modelo Poisson en OD es que los ES tienden a
ser subestimados generando coeficientes significativos cuando en realidad estos no lo son.
En cuanto a la calidad de las predicciones, es claro que el modelo Poisson es el que me-
jor desempeño logró. Debido a las estimaciones deficientes que produjo el modelo CMP,
especialmente del parámetro de dispersión, las predicciones obtenidas a través de la apro-
ximación a la media condicional presentaron valores muy bajos de desempeño predictivo,
lo que contrastó con lo obtenido por el método de estimación de medianas. Esto corrobora
los resultados de las simulaciones previas en donde definitivamente no es conveniente usar la
aproximación de la media en casos de OD extrema y con valores muy bajos para el intercepto.
El estudio del tamaño del nido en especies de aves del orden los Passeriformes, demostró ser
coherente con los resultados presentados en los estudios de simulación. En primera instancia,
el nivel de dispersión estimado por el modelo CMP indicó que los conteos del número de
huevos tuvo una media mayor que la varianza aunque no tan contrastantes ya que ν̂ fue
muy cercano a 1. Considerando el alto número de observaciones con el cual se puede asegu-
rar la normalidad asintótica de las estimaciones y que los interceptos estimados son bajos,
se puede deducir que el desempeño del modelo CMP no fue tan bueno como el del mode-
lo Poisson e incluso del modelo BN que logró una calidad en las predicciones de media similar.
A pesar del buen desempeño del modelo Poisson respecto al modelo CMP, para el conjunto
de datos considerado en el estudio de aves, la distribución PGR fue la que mejor calidad de
predicción de medias obtuvo. Lo anterior, se puede explicar ya que esta distribución captura
correctamente un rango parcial de UD [32], por lo tanto, en un nivel bajo de UD se esperarı́a
un buen desempeño en su calidad predictiva. De igual forma, vale la pena indicar que a
partir de la tercera cifra decimal se empezaron a notar las diferencias entre las distribuciones
contrastadas. Lo mismo sucedió con la estimación de medianas, pero ya las diferencias fueron
a favor de los modelos BN y Poisson.
6.4. Conclusiones
Por medio de datos reales aplicados en el campo de la ecologı́a, se trató de implementar va-
rias propuestas para el análisis de datos de conteo y por medio de la evaluación de la calidad
predictiva se definieron cuáles de ellas logran un buen desempeño para ser adoptadas dentro
del procedimiento para configurar estrategias de producción sostenible y/o de conservación
según el enfoque de cada estudio.
Un estudio de abundancia de la especie Mangifera indica la cual es nativa de la India, indicó

según la base de datos analizada, que el número de individuos por hectárea dado un número
de estratos en el bosque y una duración en meses de la época de sequı́a puede obtener me-
jores predicciones si se ajusta un modelo Poisson incluso utilizando el método de estimación
de medianas. Por lo tanto, el modelo CMP no serı́a recomendable ya que fue muy limitado
a la hora de obtener valores ajustados a través de su aproximación a la media dadas las
caracterı́sticas de OD extrema, de bajos valores estimados para el intercepto y un tamaño
muestral insuficiente.
En el estudio del tamaño del nido en especies del orden de los Passeriformes se diagnosticó
un nivel de UD no tan fuerte ya que los valores entre la media y la varianza del número de
huevos por nido fueron ligeramente similares. Para determinar el potencial de crecimiento de
este conjunto de aves mediante la predicción del número de huevos por nido en términos del
peso del huevo y el de la hembra en gramos, se recomienda utilizar el modelo PGR, aunque
las diferencias en el comportamiento predictivo con las demás distribuciones no fueron tan
marcadas. Las condiciones de un gran tamaño muestral, además de un bajo nivel de UD
y de un valor bajo para el intercepto estimado fueron propicias para que la propuesta que
pertenece a la familia de las distribuciones Poisson generalizadas tuviera tal desempeño.
7. Conclusiones y recomendaciones
Se realizaron varios estudios de simulación con el fin de caracterizar la calidad de las predic-
ciones del modelo CMP y el Poisson y ası́ determinar la pérdida en eficiencia al ajustar el
modelo inadecuado ya sea en OD o en UD. A continuación se presentan las conclusiones y
recomendaciones que arrojó esta investigación.
7.1. Conclusiones
Ya sea en OD o UD, el ajustar un modelo inadecuado, en este caso el modelo Poisson, no se
incurre en una pérdida en la calidad predictiva incluso en escenarios con OD y UD fuertes.
Por lo tanto, se concluye que en la mayorı́a de los escenarios, el modelo Poisson fue tan
eficiente como el modelo CMP en términos de calidad de las predicciones. Si bien en el nivel
de OD más fuerte, hubo dos escenarios que representaron una ligera eficiencia a favor de las
predicciones del modelo CMP, esto no justifica su uso generalizado, ya que cuando se asu-
mieron valores bajos para el intercepto fue claramente ineficiente, particularmente en el nivel
más alto de OD e incluso comparado con el modelo BN. En UD, se presentó un resultado
similar aunque no tan notorio como en OD. La ineficiencia detectada en las predicciones de
media del modelo CMP a bajos valores de β0 también es una evidencia de que el modelo
inadecuado lograra una mayor eficiencia o una ganancia en el desempeño predictivo. Pero
cuando el valor asumido por el intercepto fue en aumento es casi imperceptible la eficiencia
de una u otra distribución.
La caracterización del desempeño de las estimaciones en el modelo CMP mostró que esta
distribución es muy limitada en escenarios donde la varianza en considerablemente mayor
que la media. La calidad de las estimaciones de los parámetros del vector de β y en espe-
cial del parámetro de dispersión, se vieron afectadas por los bajos tamaños muestrales al no
asegurar la normalidad asintótica de los estimadores. Esto produjo estimaciones para ν muy
cercanas a cero y por lo tanto muy desviadas del verdadero valor asumido.
Los factores de la variación del intercepto ası́ como de la intensidad de dispersión marcaron
un efecto sobre la calidad de las predicciones. Al aumentar los valores asumidos para β0
se experimentó una menor calidad de las predicciones, mientras que al reducir el nivel de
dispersión, es decir, cuando ν fue más cercano a cero, la calidad predictiva logró igualmente
68 7 Conclusiones y recomendaciones
una pérdida. Por lo tanto, un mayor desempeño predictivo es favorecido cuando el nivel de
dispersión representado por el parámetro ν, es más lejano a cero y cuando los valores asu-
midos para el intercepto son bajos.
Complementando la comparación de las distribuciones en cuanto a su desempeño predictivo,

se evaluó la bondad de ajuste por medio del CIA. Los resultados se pueden consultar en
el Apéndice D. Allı́ se puede observar la capacidad que tiene el modelo CMP para explicar
la relación funcional entre una respuesta de conteo y las variables predictoras, respecto las
otras distribuciones contrastadas. Únicamente en el nivel de ED, el modelo Poisson presentó
ventajas en cuanto a la bondad de ajuste, de resto en OD y UD la distribución con mejor
desempeño incluso en los niveles de dispersión más fuertes fue la CMP. Por lo tanto, se
concluye que al parecer el modelo CMP no representa una mayor eficiencia a la hora de
hacer predicciones, sin embargo, éste posee ventajas en cuanto a su capacidad de explicar
una relación funcional.
7.2. Recomendaciones
Para realizar predicciones de una variable de conteo sea cual sea el nivel de dispersión diag-
nosticado, se recomienda utilizar el modelo Poisson ya que en la mayorı́a de los casos obtuvo
un desempeño similar o mejor en la calidad de las predicciones y por ende es más eficiente no
solo a nivel predictivo sino en términos de demanda computacional. A menos de que se quiera
explicar la relación funcional en OD o en UD entre una respuesta de conteo y sus variables
predictoras, se recomienda usar la distribución CMP ya que presentó un mejor desempeño
en cuanto a la bondad de ajuste.
En el caso de optar por el ajuste de un modelo CMP en R [27, R Core Team 2016], la
implementación más adecuada para OD serı́a la función glm.comp pero con el limitante de
que no se puede ajustar conjuntos de datos donde al menos un valor de la respuesta más un
umbral de 10 exceda el valor configurado para el argumento SumTo (Yi + 10 > 100). Si es
este el caso, entonces se podrı́a aumentar el valor de SumTo o usar la función cmp teniendo en
cuenta que ésta tiene una mayor demanda computacional. En UD, se recomienda de forma
generalizada usar la función cmp ya que obtuvo las estimaciones de mejor calidad, mientras
que la función glm.comp se deberı́a usar exclusivamente en valores bajos del intercepto.
Luego del ajuste del modelo CMP tomando en cuenta la anterior recomendación, se sugiere
utilizar el método de predicción de medianas únicamente para el caso que se diagnostique
una fuerte OD y en valores bajos para el intercepto. De resto, la aproximación a la media
condicional serı́a el método de predicción adecuado incluso cuando ν > 1, en donde según
Sellers & Shmueli [32] las predicciones de media serı́an de baja calidad.
7.3 Trabajo futuro 69
7.3. Trabajo futuro

Siguiendo la misma lı́nea de investigación y dados los resultados en cuanto a lo limitante
que fue la calidad predictiva del modelo CMP, se propone un estudio a futuro para evaluar
el comportamiento a nivel predictivo del modelo reparametrizado CMP MLG propuesto por
Guikema & Goffelt [13] y la nueva alternativa planteada por Sáez & Conde [30] como lo es
el caso de la regresión hP, ya que al menos en las aplicaciones con datos reales desarrolla-
das en su artı́culo, se lograron estimaciones de mejor calidad a pesar de su gran demanda
computacional, que también serı́a un aspecto interesante para estudiar.
A. Anexo: Errores estándar
inconsistentes entre las funciones
glm.comp y cmp
> library(CompGLM);library(COMPoissonReg)
> set.seed(561)
> db <- simData(100, 1.6, -0.5, 0.5, v = 1) # Generar base de datos
> CMP_glm <- glm.comp(y ~ x1 + x2, data = db) # Ajuste glm.comp
> summary(CMP_glm) # Resumen del modelo para mostrar glm.comp ES
Call:
glm.comp(lamFormula = y ~ x1 + x2, data = db)
Beta:
Estimate Std.Error t.value p.value
(Intercept) 1.69241 0.15514 10.9092 < 2.2e-16 ***
x1 -0.69876 0.30427 -2.2965 0.0238211 *
x2 0.71741 0.18654 3.8458 0.0002162 ***
Zeta:
Estimate Std.Error t.value p.value
(Intercept) 0.083821 0.192428 0.4356 0.6641
AIC: 434.8594
Log-Likelihood: -213.4297
> CMP_cmp <- cmp(y ~ x1 + x2, data = db) # Ajuste cmp
(Intercept) x1 x2
1.5470236 -0.6484555 0.6657879
71
> sdev(CMP_cmp) # cmp ES
(Intercept) x1 x2 nu
0.3042728 0.1865441 0.1924286 0.1686995
Nótese en el resumen del modelo de la función glm.comp que el error estándar de β̂1 es simi-
lar al error estándar para β̂0 de la función cmp, el error estándar de β̂2 es parecido al error
estándar para β̂1 de la función cmp y el error estándar de ζ̂ es equivalente al error estándar
para β̂2 de la función cmp.
B. Anexo: Distribución empı́rica de β0 en
un modelo de regresión COM-Poisson
5
n = 50 β0 = 0.1 n = 50 β0 = 1.6 n = 50 β0 = 2.3 n = 50 β0 = 3.0
4
Densidad
Densidad
Densidad
Densidad
3
0
5
n = 100 β0 = 0.1 n = 100 β0 = 1.6 n = 100 β0 = 2.3 n = 100 β0 = 3.0
4
Densidad
Densidad
Densidad
Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2
0
5
n = 200 β0 = 0.1 n = 200 β0 = 1.6 n = 200 β0 = 2.3 n = 200 β0 = 3.0
Densidad
4
Densidad
Densidad
Densidad
Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2
0
5
n = 500 β0 = 0.1 n = 500 β0 = 1.6 n = 500 β0 = 2.3 n = 500 β0 = 3.0
4
Densidad
Densidad
Densidad
Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2
0
5
n = 1000 β0 = 0.1 n = 1000 β0 = 1.6 n = 1000 β0 = 2.3 n = 1000 β0 = 3.0
4
Densidad
Densidad
Densidad
Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2
−2 −1 0 1 2 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 1 2 3 4 5 1 2 3 4 5 6 7
^ ^ ^ ^ ^
β0 β0 β0 β0 β0
Figura B-1.: Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-Poisson

en diferentes tamaños muestrales. Fuente: Elaboración propia.
73
20 n = 1000 β0 = 0.1 β0 = 1.6 n = 1000 β0 = 2.3 n = 1000 β0 = 3.0 n = 1000

18
16
14
Densidad
Densidad
Densidad
Densidad
Densidad
12
10
−0.5 −0.3 −0.1 0.1 0.3 0.5 1.45 1.50 1.55 1.60 1.65 1.70 1.75 2.15 2.20 2.25 2.30 2.35 2.40 2.45 2.92 2.94 2.96 2.98 3.00 3.02 3.04 3.06 3.08
^ ^ ^ ^ ^
β0 β0 β0 β0 β0
Figura B-2.: Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-Poisson

con n = 1000. Fuente: Elaboración propia.
C. Anexo: Resumen de las simulaciones
del Capı́tulo 5
Tabla C-1.: Resumen de las simulaciones para ν asumido de 0.25 con n = 1000. Fuente:
Elaboración propia.
ν = 0.25 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.2897 4.2057 6.1962 9.1915
M CMP 1.4946 4.1922 6.1722 9.2145
BN 1.2899 4.2194 6.2334 9.2493
Poisson 0.0468 0.1230 0.1724 0.2486
DE CMP 0.2968 0.1233 0.1726 0.2592
BN 0.0468 0.1246 0.1763 0.2541
Poisson 1.1618 3.8483 5.6965 8.4509
Mı́n CMP 1.1812 3.8271 5.6783 8.4653
BN 1.1620 3.8488 5.6989 8.4508
Poisson 1.4713 4.6298 6.7696 10.0835
Máx CMP 4.3653 4.6092 6.7337 10.1543
BN 1.4720 4.6662 6.8754 10.2679
75
ν = 0.5 RECM P
Poisson 1.1776 2.9142 4.3477 6.4754
M CMP 1.1806 2.9143 4.3474 6.4753
BN 1.1776 2.9147 4.3485 6.4767
Poisson 0.0372 0.0725 0.1023 0.1486
DE CMP 0.0399 0.0726 0.1023 0.1487
BN 0.0372 0.0725 0.1024 0.1488
Poisson 1.0681 2.7012 4.0566 6.0687
Mı́n CMP 1.0680 2.7005 4.0565 6.0683
BN 1.0681 2.7014 4.0566 6.0690
Poisson 1.3055 3.1924 4.7255 7.0230
Máx CMP 1.3738 3.1885 4.7214 7.0183
BN 1.3059 3.1950 4.7295 7.0291
ν = 0.75 RECM P
Poisson 1.1078 2.5869 3.6099 5.0287
M CMP 1.1079 2.5869 3.6099 5.0286
BN 1.1079 2.5870 3.6100 5.0288
Poisson 0.0319 0.0605 0.0819 0.1117
DE CMP 0.0320 0.0605 0.0819 0.1117
BN 0.0319 0.0605 0.0819 0.1118
Poisson 1.0234 2.4003 3.3634 4.7113
Mı́n CMP 1.0234 2.4003 3.3634 4.7114
BN 1.0234 2.4003 3.3634 4.7114
Poisson 1.2183 2.8093 3.9140 5.4408
Máx CMP 1.2191 2.8084 3.9131 5.4400
BN 1.2185 2.8099 3.9148 5.4418
76 C Anexo: Resumen de las simulaciones del Capı́tulo 5
Tabla C-4.: Resumen de las simulaciones para ν asumido de 1 con n = 1000. Fuente: Ela-
boración propia.
ν = 1.0 RECM P
Poisson 1.0569 2.2380 3.1738 4.5118
M CMP 1.0570 2.2380 3.1738 4.5118
PGR 1.0569 2.2380 3.1738 4.5118
Poisson 0.0288 0.0524 0.0724 0.1018
DE CMP 0.0288 0.0524 0.0724 0.1018
PGR 0.0289 0.0524 0.0725 0.1018
Poisson 0.9529 2.0788 2.9219 4.2090
Mı́n CMP 0.9533 2.0788 2.9219 4.2090
PGR 0.9529 2.0788 2.9219 4.2090
Poisson 1.1558 2.4455 3.4147 4.8152
Máx CMP 1.1556 2.4453 3.4147 4.8153
PGR 1.1558 2.4456 3.4147 4.8153
ν = 1.5 RECM P
Poisson 0.9705 1.8780 2.6168 3.6469
M CMP 0.9709 1.8780 2.6168 3.6469
PGR 0.9705 1.8779 2.6168 3.6469
Poisson 0.0236 0.0423 0.0581 0.0798
DE CMP 0.0236 0.0423 0.0581 0.0798
PGR 0.0236 0.0423 0.0581 0.0798
Poisson 0.8878 1.7468 2.4336 3.4166
Mı́n CMP 0.8886 1.7466 2.4336 3.4165
PGR 0.8878 1.7467 2.4336 3.4166
Poisson 1.0573 2.0408 2.8199 3.9358
Máx CMP 1.0574 2.0409 2.8200 3.9358
PGR 1.0573 2.0408 2.8198 3.9357
77
ν = 2.5 RECM P
Poisson 0.7875 1.4625 2.0937 2.8228
M CMP 0.7883 1.4625 2.0937 2.8228
PGR 0.7875 1.4624 2.0937 2.8228
Poisson 0.0179 0.0326 0.0459 0.0622
DE CMP 0.0180 0.0326 0.0459 0.0622
PGR 0.0179 0.0326 0.0459 0.0622
Poisson 0.7232 1.3423 1.9530 2.6228
Mı́n CMP 0.7239 1.3422 1.9529 2.6229
PGR 0.7232 1.3423 1.9529 2.6228
Poisson 0.8634 1.5822 2.2576 3.0409
Máx CMP 0.8644 1.5822 2.2577 3.0410
PGR 0.8634 1.5821 2.2575 3.0408
Tabla C-7.: Resumen de las simulaciones para ν asumido de 5 con n = 1000. Fuente: Ela-
boración propia.
ν = 5.0 RECM P
Poisson 0.5302 1.0441 1.4808 1.9978
M CMP 0.5303 1.0441 1.4808 1.9978
PGR 0.5297 1.0441 1.4808 1.9978
Poisson 0.0142 0.0229 0.0324 0.0440
DE CMP 0.0142 0.0229 0.0324 0.0440
PGR 0.0142 0.0229 0.0324 0.0440
Poisson 0.4795 0.9745 1.3842 1.8614
Mı́n CMP 0.4796 0.9745 1.3842 1.8614
PGR 0.4795 0.9745 1.3842 1.8614
Poisson 0.5796 1.1283 1.5955 2.1786
Máx CMP 0.5798 1.1283 1.5955 2.1786
PGR 0.5796 1.1283 1.5955 2.1786
D. Anexo: Evaluación de la bondad de
ajuste
Tabla D-1.: CIA medio con n = 1000. Fuente: Elaboración propia.

CIA
ν Modelo
m1 m2 m3 m4
Poisson 2862.57 5938.47 7063.43 8151.06
0.25 CMP 2754.79 5205.56 6042.69 6879.13
BN 2756.01 5239.09 6111.37 7011.29
Poisson 2780.35 4963.18 5897.52 6752.51
0.50 CMP 2741.41 4780.93 5655.68 6485.71
BN 2742.42 4791.97 5674.22 6507.11
Poisson 2742.20 4683.20 5388.81 6067.10
0.75 CMP 2734.63 4651.69 5352.39 6029.63
BN 2735.09 4654.46 5355.55 6032.63
Poisson 2722.06 4393.98 5115.94 5828.02
1.00 CMP 2723.03 4395.03 5116.97 5829.06
PGR 2723.05 4395.03 5116.98 5829.07
Poisson 2692.08 4139.74 4819.80 5492.22
1.50 CMP 2662.67 4074.89 4749.92 5419.55
PGR 2664.84 4079.37 4753.16 5421.90
Poisson 2500.21 3883.10 4621.72 5228.84
2.50 CMP 2322.12 3589.59 4314.13 4914.71
PGR 2344.98 3608.64 4325.66 4922.80
Poisson 2250.09 3694.62 4418.88 5029.17
5.00 CMP 1579.36 2924.71 3626.86 4227.10
PGR 1751.59 2969.73 3650.32 4241.97
E. Anexo: Documentación de las
funciones desarrolladas para las
simulaciones
Paquete ‘CMPvsPoissonSims’
Tipo Paquete
Tı́tulo Realiza simulaciones para comparar modelos de regresion Poisson y Conway-

Maxwell-Poisson (CMP).
Versión 0.1
Fecha 2016-06-01
Autor Alvaro Arley Castano C. <[email protected]>
Descripción Genera covariables con un nivel de correlación determinado. Genera con-

juntos de datos con dos covariables y una respuesta de conteo en un nivel de dispersión
deseado. Realiza simulaciones ajustando modelos para datos de conteo, almacena los coefi-
cientes estimados y calcula medidas de calidad predictiva y de bondad de ajuste. Obtiene
resumen estadı́stico de las medidas calculadas.
Licencia GPL-2
Depende COMPoissonReg, compoisson, CompGLM, VGAM

80 simCorData
simCorData Generar covariables
Descripción
Genera covariables ortogonales o correlacionadas con una distribución uniforme.
Uso
simCorData(n, rho = 0, met = 1, sem = 19318905)
Argumentos
n un valor entero para el tamaño muestral deseado.
rho correlación deseada. Debe estar entre [0,1). Por defecto rho = 0.
met método para obetener las covariables. Por defecto 1, que genera covaria-
bles con un nivel de correlación deseado. La opción 2 genera covariables
usando la función runif, sin una correlación fija.
sem un valor entero que define la semilla para generar las covariables. Por
defecto sem = 19318905.
Valor
Un objeto de clase data.frame con dos variables (x1, x2).
Ejemplos
simCorData(10) # Por defecto produce dos covariables con n = 10.

simCorData(10, met = 2, sem = 17) # Produce dos covariables con n = 10, sin
# una correlación fija y una semilla inicial de 17.
simData 81
simData Generar un conjunto de datos
Descripción
Genera un conjunto de datos con una respuesta de conteo y dos covariables.
Uso
simData(n, a, b, c, v, ...)
Argumentos

a, b, c valores asumidos para los parámetros del modelo (a = β0 , b = β1 , c = β2 ).
v valor asumido para el parámetro de dispersión. No debe ser igual a cero.
... argumentos de la función simCorData.
Valor
Un objeto de clase data.frame con tres variables (Respuesta y covariables).
Ejemplos
simData(10, 1, -0.5, 0.5, v=0.5) # Genera un conjunto de datos en
# OD con 10 observaciones.
simFit Realizar simulaciones y calcular medidas estadı́sticas
Descripción
Realiza simulaciones para comparar los modelos CMP y Poisson.
Uso
simFit(n, a, b, c, v, nsim, md, ...)

82 simFit
Argumentos

nsim número de simulaciones deseado.
md un valor de 1 para ajustar modelos CMP con la función glm.comp (Por
defecto) y un valor de 2 para ajustarlos con la función cmp.
... argumentos de la función simData.
Valor
Un objeto de clase data.frame con 51 variables correspondientes a las diferentes medidas

estadı́sticas calculadas.
SM valor asumido para el intercepto.
D valor asumido para el parámetro de dispersión.
N valor deseado para el tamaño muestral.
M código asignado al modelo ajustado.
B# valor asumido para el coeficiente verdadero.
b# valor del coeficiente estimado.
Sb# desviación entre B# y b#.
Db# diferencia porcentual de la desviación entre B# y b#.
SEb# error estándar estimado para b#.
Infb# lı́mite inferior del IC al 95 % para b#.
Supb# lı́mite superior del IC al 95 % para b#.
ContB# valor lógico. TRUE si el coeficiente verdadero está contenido en el IC.
Vt valor asumido para el coeficiente de dispersión verdadero.
V valor del coeficiente de dispersión estimado.
SV desviación entre Vt y V.
DV diferencia porcentual de la desviación entre Vt y V.
SEV error estándar estimado para V.
InfV lı́mite inferior del IC al 95 % para V.
SupV lı́mite superior del IC al 95 % para V.
simFit 83
ContVt valor lógico. TRUE si Vt está contenido en el IC.

MSPE ECMP para predicciones de media.
MSPEme ECMP para predicciones de mediana.
RMSPE RECMP para predicciones de media.
RMSPEme RECMP para predicciones de mediana.
MdAPE EPAMe para predicciones de media.
MdAPEme EPAMe para predicciones de mediana.
AIC CIA.
AICc CIA corregido para tamaños muestrales pequeños.
logL valor de la función de log-verosimilitud.
Conv valor lógico. TRUE si no se presentaron problemas de convergencia en el
ajuste del modelo.
tmp tiempo que requerido para ajustar el modelo en segundos.
ERba ER de b/a. a y b se definen según el orden jerárquico del código asignado
al modelo ajustado (M).
ERca ER de c/a. a y c se definen según el orden jerárquico del código asignado
al modelo ajustado (M).
ERba.me ER de b/a para las predicciones de mediana. a y b se definen según el
orden jerárquico del código asignado al modelo ajustado (M).
ERca.me ER de c/a para las predicciones de mediana. a y c se definen según el
orden jerárquico del código asignado al modelo ajustado (M).
Nota
Los valores de ER se calcularon teniendo en cuenta el criterio de un modelo más básico en

el denominador y el modelo propuesto o alternativo en el numerador. Por ello, al modelo
Poisson se le asignó un código M=1, al modelo CMP M=2, al modelo BN M=3 en OD. Y en
UD y ED, al modelo PGR se le asignó M=3.
Ejemplos
simData(10, 1, -0.5, 0.5, v=0.5, nsim=1000) # Genera un conjunto de datos en
# OD con 10 observaciones y 1000 simulaciones.
84 simFitCMP
simFitCMP Realizar simulaciones para comparar las funciones glm.comp y

cmp
Descripción
Realiza simulaciones para comparar los modelos CMP de dos impementaciones en R.
Uso
simFitCMP(n, a, b, c, v, nsim, ...)
Argumentos
nsim número de simulaciones deseado.
... argumentos de la función simData.
Valor
Un objeto de clase data.frame con 51 variables correspondientes a las diferentes medidas
estadı́sticas calculadas.
Nota
Los valores de ER se calcularon teniendo en cuenta el criterio de un modelo más básico
en el denominador y el modelo propuesto o alternativo en el numerador. Por ello, al
modelo Poisson se le asignó un código M=1, al modelo CMP de la función glm.comp M=2,
al modelo CMP de la función cmp se le asignó M=3.
Ver También
simFit.
Ejemplos
simFitCMP(10, 1, -0.5, 0.5, v=2.5, nsim=100) # Genera un conjunto de datos en
# UD con 10 observaciones y 100 simulaciones.
Stats 85
Stats Calcular medidas de resumen de las simulaciones
Descripción
Calcula medidas resumen de las simulaciones logradas por simFit.
Uso
Stats(e)
Argumentos
e un objeto de clase data.frame con los resultados de simFit en diferentes
escenarios.
Valor
Un objeto de clase list que contiene objetos de clase data.frame con medidas de resu-
men de las diferentes medidas estadı́sticas calculadas en simFit.
Coef valores medios de los coeficientes estimados.
Linf valores medios de los lı́mites inferiores de los IC al 95 %.
Linf valores medios de los lı́mites superiores de los IC al 95 %.
Cont proporciones de IC al 95 % que contienen el verdadero parámetro.
Bias sesgos de las estimaciones.
MSE ECM.
RMSE RECM.
SE valores medios de los errores estándar estimados.
GOF valores medios de las medidas de bondad de ajuste.
Mpred valores medios las medidas de calidad predictiva.
MdAPE valores medios de EPAMe en las predicciones de media y mediana.
Pred valores medios, DE, Mı́n y Máx de las medidas de calidad predictiva.
P.ER proporción de ER.
Time tiempo medio requerido para ajustar el modelo en segundos.
ER21 ER de 2/1 en las estimaciones.
86 Stats

ERpred ER en las predicciones.
Nota
Los valores de ER se calcularon teniendo en cuenta el criterio de un modelo más básico en
el denominador y el modelo propuesto o alternativo en el numerador. Por ello, al modelo
Poisson se le asignó un código M=1, al modelo CMP M=2, al modelo BN M=3 en OD. Y en
UD y ED, al modelo PGR se le asignó M=3.
Ejemplos
# Unión en un mismo data.frame de varios resultados de simFit.
v0.25a <- data.frame(rbind(v0.25m1,v0.25m2,v0.25m3,v0.25m4))
# Por ejemplo: El resumen de las simulaciones en OD con v=0.25

# y en m1, m2, m3 y m4
v0.25 <- Stats(v0.25a)

Bibliografı́a
[1] Armstrong, By J S. ; Collopy, Fred: Error Measures For Generalizing About Fore-
casting Methods: Empirical Comparisons. 8 (1992), Nr. 1, p. 69–80
[2] Bonate, P. L.: A brief introduction to Monte Carlo simulation. En: Clinical Pharma-
cokinetics 40 (1992), p. 15–22
[3] Cameron, A C. ; Trivedi, Pravin K.: Essentials of Count Data Regression. En:
Baltagi, B. H. (Ed.): A Companion to Theoretical Econometrics. Blackwell Publishing
Ltd, 2003. – ISBN 9780470996249, p. 331–348
[4] Cameron, A.C. ; Trivedi, Pravin K.: Regression Analysis of Count Data. New York
: Cambridge University Press, 1998. – 411 p.. – ISBN 0521635675
[5] Dobson, Annette J.: An introduction to generalized linear models. 2nd Ed. Chapman
& Hall/CRC, 2002. – 225 p.. – ISBN 1–58488–165–8
[6] Dunn, Jeffrey: compoisson: Conway-Maxwell-Poisson Distribution, 2012. – R package

version 0.3
[7] Efron, B: Double exponential families and their use in generalized linear Regression.
En: Journal of the American Statistical Association 81 (1986), p. 709–721
[8] Famoye, Felix: Restricted generalized poisson regression model. En: Communications
in Statistics - Theory and Methods 22 (1993), Nr. 5, p. 1335–1354
[9] Francis, Royce ; Geedipally, Srinivas R. ; Guikema, Seth D. ; Dhavala, Soma S. ;

Lord, Dominique ; Larocca, Sarah: Characterizing the Performance of the Conway-
Maxwell Poisson Generalized Linear Model. En: Risk Analysis 32 (2012), Nr. 1, p.
167–183. – ISSN 02724332
[10] Geedipally, Srinivas R.: Examining the Application of Conway-Maxwell- Poisson

Models for Analyzing Traffic Crash Data, Texas A&M University, Ph.D. Thesis, 2008.
– 129 p.
[11] Geedipally, Srinivas R. ; Guikema, Seth D. ; Dhavala, Soma S. ; Lord, Dominique:

Characterizing the Performance of the Bayesian Conway-Maxwell Poisson Generalized
Linear Model. En: Association, American S. (Ed.): Joint Statistical Meetings, 2008,
p. 22
88 Bibliografı́a
[12] Green Clean Guide ; Pranali Telang (Ed.): Economic Importance of Tree Spe-
cies. 2012. – 62 p.
[13] Guikema, Seth D. ; Goffelt, Jeremy P.: A Flexible Count Data Regression Model
for Risk Analysis. En: Risk Analysis 28 (2008), Nr. 1, p. 213–223. – ISBN 4105166042
[14] Hilbe, Joseph: Negative Binomial Regression. 2nd Ed. Cambridge University Press,
2011. – 553 p.. – ISBN 9780874216561
[15] Hurvich, C. L.: Regression and Time Series Model Selection in Small Samples. En:
Biometrika 76 (1989), p. 297–307
[16] Jowaheer, Vandna ; Mamode, Naushad: Estimating Regression Effects in Com

Poisson Generalized Linear Model. En: World Academy of Science, Engineering and
Technology 29 (2009), Nr. 1, p. 1040–1044. – ISSN 20103905
[17] Lord, D. ; Mannering, F.: The Statistical Analysis of Crash-Frequency Data: A

Review and Assessment of Methodological Alternatives. En: Transportation Research -
Part A 44(5) (2010), p. 291–305
[18] Lord, Dominique ; Geedipally, Srinivas R. ; Guikema, Seth D.: Extension of the
Application of Conway-Maxwell-Poisson Models: Analyzing Traffic Crash Data Exhi-
biting Underdispersion. En: Risk Analysis 30 (2010), Nr. 8, p. 1268–1276. – ISBN
1539–6924 (Electronic) 0272–4332 (Linking)
[19] Lord, Dominique ; Guikema, Seth D. ; Geedipally, Srinivas R.: Application of the
Conway-Maxwell-Poisson generalized linear model for analyzing motor vehicle crashes.
En: Accident Analysis and Prevention 40 (2008), Nr. 3, p. 1123–1134. – ISBN 0001–4575
[20] McCullagh, P ; Nelder, J: Generalized linear models. 2nd Ed. New York : Chapman
& Hall/CRC, 1972. – 511 p.. – ISBN 0412317605
[21] Miller, J: Comparing Poisson, Hurdle and ZIP model fit under varying degrees of
Skew and Zero-Inflation, University of Florida, Ph.D. Thesis, 2007. – 201 p.
[22] Minka, Thomas P. ; Shmueli, Galit ; Kadane, Joseph B. ; Borle, Sharad ; Boatw-
right, Peter: Computing with the COM-Poisson distribution / Carnegie Mellon Uni-
versity. Pittsburgh, PA, 2003. – Informe de Investigación. – 7 p.
[23] Mooney, C. Z.: Quantitative Applications in the Social Sciences. Vol. 116: Monte Carlo
Simulation. London : SAGE Publications, 1997. – 112 p.
[24] Myers, Norman ; Fonseca, Gustavo a B. ; Mittermeier, Russell a. ; Fonseca, G

a B. ; Kent, Jennifer: Biodiversity hotspots for conservation priorities. En: Nature 403
(2000), Nr. 6772, p. 853–858. – ISBN 0028–0836
Bibliografı́a 89
[25] Myhrvold, N. ; Baldridge, E. ; Chan, B. ; Sivam, D. ; Freeman, D. ; Morgan, E.:

An amniote life-history database to perform comparative analyses with birds, mammals,
and reptiles. En: Ecology 96 (2015), Nr. October, p. 3109
[26] Pollock, Jeffrey: CompGLM: Conway-Maxwell-Poisson GLM and distribution fun-

ctions, 2014. – R package version 1.0
[27] R Core Team: R: A Language and Environment for Statistical Computing. Vienna,
Austria: R Foundation for Statistical Computing, 2016
[28] Ramesh, B. R. ; Swaminath, M. H. ; Patil, Santoshgouda V. ; Dasappa ; Pélissier,

Raphaël ; Venugopal, P. D. ; Aravajy, S. ; Elouard, Claire ; Ramalingam, S.:
Forest stand structure and composition in 96 sites along environmental gradients in the
central Western Ghats of India. En: Ecology 91 (2010), Nr. January, p. 3118–3118. –
ISSN 0012–9658
[29] Ridout, M.S. ; Besbeas, P.: An empirical model for underdispersed count data. En:
Statistical Modelling 4 (2004), p. 77–89. – ISSN 1471–0820
[30] Sáez-Castillo, A.J. ; Conde-Sánchez, A.: A hyper-Poisson regression model for

overdispersed and underdispersed count data. En: Computational Statistics & Data
Analysis 61 (2013), p. 148–157. – ISSN 01679473
[31] Sellers, Kimberly ; Lotze, Thomas: COMPoissonReg: Conway-Maxwell Poisson

(COM-Poisson) Regression, 2015. – R package version 0.3.5
[32] Sellers, Kimberly F. ; Shmueli, Galit: A flexible regression model for count data.
En: Annals of Applied Statistics 4 (2010), Nr. 2, p. 943–961
[33] Sellers, Kimberly F. ; Shmueli, Galit: Predicting Censored Count Data with COM-
Poisson Regression. En: SSRN Electronic Journal (2010), p. 18
[34] Shmueli, G. ; Minka, T.P. ; Kadane, J.B. ; Borle, S. ; Boatwright, P.: A

Useful Distribution for Fitting Discrete Data: Revival of the Conway-Maxwell-Poisson
Distribution. En: Journal of the Royal Statistical Society. Series C (Applied Statistics)
54 (2005), Nr. 1, p. 127–142
[35] Winkelmann, Rainer: Econometric Analysis of Count Data. 5th Ed. Berlin : Springer-
Verlag, 2008. – 333 p.. – ISBN 978–3–540–78389–3
[36] Winkelmann, Rainer ; Zimmermann, Klaus F.: Recent Developments in Count Data
Modelling: Theory and Application. En: Journal of Economic Surveys 9 (1995), Nr. 1,
p. 1–24. – ISBN 1467–6419
90 Bibliografı́a
[37] Yee, Thomas W.: VGAM: Vector Generalized Linear and Additive Models, 2015. – R
package version 0.9-8
[38] Zou, Yaotian ; Geedipally, Srinivas R. ; Lord, Dominique: Evaluating the double
Poisson generalized linear model. En: Accident; analysis and prevention 59 (2013), Nr.
979, p. 497–505. – ISSN 1879–2057
[39] Zou, Yaotian ; Lord, Dominique ; Geedipally, Srinivas R. Over- and Under-
Dispersed Count Data : Comparing the Conway-Maxwell-Poisson and Double-Poisson
Distributions. 2011

Poisson Ayuda 1

Cargado por

Copyright:

Formatos disponibles

Poisson Ayuda 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Poisson Ayuda 1

Cargado por

Copyright:

Formatos disponibles

Comparación del Modelo

COM-Poisson y el Modelo Poisson

Álvaro Arley Castaño Colorado

Universidad Nacional de Colombia

Álvaro Arley Castaño Colorado

Director: Juan Carlos Correa Morales

Universidad Nacional de Colombia

A mi madre y hermano quienes me brindaron su apoyo en las etapas de estudio, pasantı́a y

A Juan Carlos Correa Morales, profesor asociado de la Universidad Nacional de Colombia,

Al destacado grupo humano que conforma la Escuela de Estadı́stica de la Facultad de Cien-

Lista de Figuras XIII

Lista de Ecuaciones XVIII

Lista de Sı́mbolos XIX

3.1. Programación y análisis estadı́stico . . . . . . . . . . . . . . . . . . . . . . . 14

4. Comparación de las funciones glm.comp y cmp 25

5. Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson 47

6. Aplicación con datos reales en la ecologı́a 60

A. Anexo: Errores estándar inconsistentes entre las funciones glm.comp y cmp 70

B. Anexo: Distribución empı́rica de β0 en un modelo de regresión COM-Poisson 72

C. Anexo: Resumen de las simulaciones del Capı́tulo 5 74

D. Anexo: Evaluación de la bondad de ajuste 78

E. Anexo: Documentación de las funciones desarrolladas para las simulaciones 79

4-1 Calidad del coeficiente estimado β̂0 en un escenario de OD . . . . . . . . . . 28

5-1 Desempeño predictivo en OD . . . . . . . . . . . . . . . . . . . . . . . . . . 50

6-1 Localización del área de muestreo del estudio de abundancia. . . . . . . . . . 61

B-1 Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-

B-2 Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-

4-1 Coeficientes asumidos para el estudio de simulación de comparación de las

5-1 Coeficientes asumidos para el estudio de simulación de eficiencia entre el mo-

6-1 Resumen de las estimaciones en los modelos comparados en el estudio de

C-1 Resumen de las simulaciones para ν asumido de 0.25 con n = 1000 . . . . . . 74

C-6 Resumen de las simulaciones para ν asumido de 2.5 con n = 1000 . . . . . . 77

D-1 CIA medio con n = 1000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

1–1 Propiedad de equidispersión en la distribución Poisson . . . . . . . . . . . . . . 2

3–13 Fórmula para el cálculo del CIAc . . . . . . . . . . . . . . . . . . . . . . . . . . 23

Sı́mbolos con letras latinas

Sı́mbolos con letras griegas

1.1. Los datos de conteo

V ar(Y ) = φE(Y ) = φµ (1–1)

Si φ > 1, hay sobredispersión, Si φ < 1, hay subdispersión.

1.2. Planteamiento del problema

El establecimiento de esta última alternativa dentro de un marco inferencial está en proceso

¿Cuál es la eficiencia de un modelo con respecto al otro?

¿Qué tanto se pierde a nivel predictivo cuando se ajusta el modelo inadecuado?

1.3. Estructura de la investigación

El contenido de este capı́tulo está organizado de la siguiente manera. La Sección 2.1 se

2.1. El Modelo Poisson

La ecuación (2–1) muestra su función de masa de probabilidad (fmp). Donde λ = V ar(Y ) =

El modelo de regresión Poisson pertenece a la familia de los MLG, ya que su función de

E(yi |xi ) = µi = exp {x0i β} (2–2)

La ecuación (2–3) es la función de log-verosimilitud obtenida para esta distribución.

El modelo de regresión Poisson tiene diversas aplicaciones en el área de la salud, la econo-

2.2. El Modelo COM-Poisson

∂ log Z (λ, ν) ν−1

La construcción del modelo se da a partir de un caso log-lineal de la regresión Poisson. De

2.3. Violación al supuesto de equidispersión (ED)

2.3.1. Sobredispersión (OD)

2.3.2. Subdispersión (UD)

cuando la media muestral es baja [17].