Poisson Ayuda 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 110

Comparación del Modelo

COM-Poisson y el Modelo Poisson

Álvaro Arley Castaño Colorado

Universidad Nacional de Colombia


Facultad de Ciencias, Escuela de Estadı́stica
Medellı́n, Colombia
2017
Comparación del Modelo
COM-Poisson y el Modelo Poisson

Álvaro Arley Castaño Colorado

Tesis o trabajo de grado presentada(o) como requisito parcial para optar al tı́tulo de:
Magı́ster en Ciencias - Estadı́stica

Director: Juan Carlos Correa Morales


Ph.D. en Estadı́stica

Lı́nea de Investigación:
Bioestadı́stica

Universidad Nacional de Colombia


Facultad de Ciencias, Escuela de Estadı́stica
Medellı́n, Colombia
2017
Nunca consideres el estudio como una obliga-
ción, sino como una oportunidad para penetrar
en el bello y maravilloso mundo del saber.

Albert Einstein
Agradecimientos

A mi madre y hermano quienes me brindaron su apoyo en las etapas de estudio, pasantı́a y


en la elaboración de esta investigación.

A Juan Carlos Correa Morales, profesor asociado de la Universidad Nacional de Colombia,


por brindarme los elementos e ideas esenciales para el desarrollo de los objetivos propuestos
en esta disertación.

Al destacado grupo humano que conforma la Escuela de Estadı́stica de la Facultad de Cien-


cias por brindarme las experiencias académicas y de investigación las cuales fueron de gran
ayuda para la ejecución de este trabajo.
ix

Resumen
La modelación de datos de conteo se hace tı́picamente usando el modelo Poisson, en el
cual se asume que la media y la varianza son iguales. Cuando esta condición no es fácil de
justificar, se han propuesto diferentes alternativas, unas más flexibles que otras, en cuanto a
la captura tanto de sobredispersión como de subdispersión. Una de ellas es el modelo COM-
Poisson el cual fue recientemente propuesto y ha sido evaluado en términos inferenciales. La
propuesta de estudio que aquı́ se presenta quiere cuantificar la calidad predictiva del modelo
COM-Poisson con respecto al modelo Poisson, y ası́ establecer la pérdida en la eficiencia
que se tiene al ajustar el modelo inadecuado cuando la propiedad de equidispersión no es
satisfactoria. Los estudios de simulación efectuados determinaron que al ajustar el modelo
inadecuado, ya sea en sobre o subdispersión, no representa, en la mayorı́a de los casos, ni
una ganancia o pérdida en cuanto a la calidad predictiva. Dos estudios de caso aplicados a
la ecologı́a ilustran los resultados obtenidos.

Palabras clave: Datos de Conteo, Modelos Lineales Generalizados, Eficiencia Relativa, Re-
gresión Poisson, Regresión Conway-Maxwell-Poisson, Capacidad Predictiva, Dispersión.

Abstract
Modeling count data is typically done using the Poisson model, in which it is assumed that
the mean and variance are equal. When this condition is not easy to justify, different al-
ternatives have been proposed, some more flexible than others in terms of the capture of
both overdispersion and underdispersion. One of them is the COM-Poisson model which was
recently proposed and has been evaluated in inferential terms. The study proposal presen-
ted here wants to quantify the COM-Poisson model predictive quality with respect to the
Poisson model and establish the loss in efficiency that occurs when the inadequate model
is fitted when the property of equidispersion is not satisfactory. Simulation studies made
determined that when adjusting the inappropriate model either in over or underdispersion
doesn’t represent in most cases, a gain or loss in regard to the predictive quality. Two case
studies applied to the ecology illustrate the results obtained.

Keywords: Count Data, Generalized Linear Models, Relative Efficiency, Poisson regression,
Conway-Maxwell-Poisson regression, Predictive Power, Dispersion.
Contenido

Agradecimientos VII

Resumen IX

Contenido XII

Lista de Figuras XIII

Lista de Tablas XV

Lista de Ecuaciones XVIII

Lista de Sı́mbolos XIX

1. Introducción 1
1.1. Los datos de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Estructura de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Marco teórico 4
2.1. El Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. El Modelo COM-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3. Violación al supuesto de equidispersión (ED) . . . . . . . . . . . . . . . . . . 7
2.3.1. Sobredispersión (OD) . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.2. Subdispersión (UD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.3. Pruebas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Modelos alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.1. Modelo Binomial Negativo (BN) . . . . . . . . . . . . . . . . . . . . . 8
2.4.2. Modelo Poisson Generalizado Restringido (PGR) . . . . . . . . . . . 10
2.4.3. Modelo Poisson Doble (PD) . . . . . . . . . . . . . . . . . . . . . . . 10
2.4.4. Modelo hyper-Poisson (hP) . . . . . . . . . . . . . . . . . . . . . . . 11
2.5. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3. Metodologı́a 14
Contenido xi

3.1. Programación y análisis estadı́stico . . . . . . . . . . . . . . . . . . . . . . . 14


3.2. Simulación de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2.1. Selección de coeficientes asumidos para el vector β . . . . . . . . . . . 15
3.2.2. Simulación de conteos . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3. Niveles de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.4. Tamaño muestral (n) . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3. Procedimiento de las simulaciones . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.1. Número de simulaciones (nsim) . . . . . . . . . . . . . . . . . . . . . 17
3.3.2. Algoritmo para las simulaciones . . . . . . . . . . . . . . . . . . . . . 17
3.3.3. Modelos ajustados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.4. Cálculo de medidas estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4.1. Sesgo de los coeficientes estimados . . . . . . . . . . . . . . . . . . . 20
3.4.2. Intervalos de confianza (IC) para los coeficientes de los modelos . . . 21
3.4.3. Raı́z Cuadrada del Error Cuadrático Medio (RECM) . . . . . . . . . 21
3.4.4. Raı́z Cuadrada del Error Cuadrático Medio de Predicción (RECMP) 22
3.5. Eficiencia Relativa (ER) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.6. Mediana del Error Porcentual Absoluto (EPAMe) . . . . . . . . . . . . . . . 23
3.7. Cálculo de medida de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . 23

4. Comparación de las funciones glm.comp y cmp 25


4.1. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.1. Descripción de la simulación . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.2. Detección de diferencias . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.1. Calidad de las estimaciones . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.2. Calidad predictiva y ER . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.3. Diferencias identificadas . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5. Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson 47


5.1. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.1. Descripción de la simulación . . . . . . . . . . . . . . . . . . . . . . . 48
5.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2.1. Eficiencia Relativa en OD . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2.2. Eficiencia Relativa en ED . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2.3. Eficiencia Relativa en UD . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6. Aplicación con datos reales en la ecologı́a 60


xii Contenido

6.1. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.1.1. Descripción de los datos . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2.1. Para el estudio de abundancia . . . . . . . . . . . . . . . . . . . . . . 63
6.2.2. Para el estudio del tamaño del nido en aves . . . . . . . . . . . . . . 64
6.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

7. Conclusiones y recomendaciones 67
7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

A. Anexo: Errores estándar inconsistentes entre las funciones glm.comp y cmp 70

B. Anexo: Distribución empı́rica de β0 en un modelo de regresión COM-Poisson 72

C. Anexo: Resumen de las simulaciones del Capı́tulo 5 74

D. Anexo: Evaluación de la bondad de ajuste 78

E. Anexo: Documentación de las funciones desarrolladas para las simulaciones 79


simCorData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
simData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
simFit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
simFitCMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
Stats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Bibliografı́a 90
Lista de Figuras

4-1 Calidad del coeficiente estimado β̂0 en un escenario de OD . . . . . . . . . . 28


4-2 Calidad del coeficiente estimado β̂1 en un escenario de OD . . . . . . . . . . 28
4-3 Calidad del coeficiente estimado β̂2 en un escenario de OD . . . . . . . . . . 29
4-4 Calidad del coeficiente estimado ν̂ en un escenario de OD . . . . . . . . . . . 29
4-5 Calidad del coeficiente estimado βˆ0 en un escenario de ED . . . . . . . . . . 32
4-6 Calidad del coeficiente estimado βˆ1 en un escenario de ED . . . . . . . . . . 32
4-7 Calidad del coeficiente estimado βˆ2 en un escenario de ED . . . . . . . . . . 33
4-8 Calidad del coeficiente estimado ν̂ en un escenario de ED . . . . . . . . . . . 33
4-9 Calidad del coeficiente estimado βˆ0 en un escenario de UD . . . . . . . . . . 36
4-10 Calidad del coeficiente estimado βˆ1 en un escenario de UD . . . . . . . . . . 36
4-11 Calidad del coeficiente estimado βˆ2 en un escenario de UD . . . . . . . . . . 37
4-12 Calidad del coeficiente estimado ν̂ en un escenario de UD . . . . . . . . . . . 37
4-13 Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de OD . . . . . . . . . . . . . . . . . . . . 40
4-14 Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de ED . . . . . . . . . . . . . . . . . . . . 41
4-15 Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de UD . . . . . . . . . . . . . . . . . . . . 42
4-16 Tiempo medio de ajuste de un modelo CMP entre las funciones glm.comp y
cmp en un escenario de ED . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5-1 Desempeño predictivo en OD . . . . . . . . . . . . . . . . . . . . . . . . . . 50


5-2 Comparación de métodos de predicción en OD . . . . . . . . . . . . . . . . . 51
5-3 Desempeño predictivo en ED . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5-4 Comparación de métodos de predicción en ED . . . . . . . . . . . . . . . . . 53
5-5 Desempeño predictivo en UD . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5-6 Comparación de métodos de predicción en UD . . . . . . . . . . . . . . . . . 55

6-1 Localización del área de muestreo del estudio de abundancia. . . . . . . . . . 61

B-1 Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-


Poisson en diferentes tamaños muestrales . . . . . . . . . . . . . . . . . . . . 72
xiv Lista de Figuras

B-2 Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-


Poisson con n = 1000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Lista de Tablas

4-1 Coeficientes asumidos para el estudio de simulación de comparación de las


funciones glm.comp y cmp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4-2 Proporción de IC al 95 % que contienen los coeficientes verdaderos en un
escenario de OD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4-3 Proporción de IC al 95 % que contienen los coeficientes verdaderos en un
escenario de ED . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4-4 Proporción de IC al 95 % que contienen los coeficientes verdaderos en un
escenario de UD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5-1 Coeficientes asumidos para el estudio de simulación de eficiencia entre el mo-


delo CMP y el modelo Poisson en, OD . . . . . . . . . . . . . . . . . . . . . 48
5-2 Coeficientes asumidos para el estudio de simulación de eficiencia entre el mo-
delo CMP y el modelo Poisson, en ED . . . . . . . . . . . . . . . . . . . . . 49
5-3 Coeficientes asumidos para el estudio de simulación de eficiencia entre el mo-
delo CMP y el modelo Poisson, en UD . . . . . . . . . . . . . . . . . . . . . 49
5-4 Proporción de ER en un escenario de OD con n = 1000 . . . . . . . . . . . . 52
5-5 Proporción de ER en un escenario de ED con n = 1000 . . . . . . . . . . . . 54
5-6 Proporción de ER en un escenario de UD con n = 1000 . . . . . . . . . . . . 56

6-1 Resumen de las estimaciones en los modelos comparados en el estudio de


abundancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6-2 Calidad de las predicciones en los modelos comparados en el estudio de abun-
dancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6-3 Resumen de las estimaciones en los modelos comparados en el estudio del
tamaño del nido en aves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6-4 Calidad de las predicciones en los modelos comparados en el estudio del ta-
maño del nido en aves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

C-1 Resumen de las simulaciones para ν asumido de 0.25 con n = 1000 . . . . . . 74


C-2 Resumen de las simulaciones para ν asumido de 0.5 con n = 1000 . . . . . . 75
C-3 Resumen de las simulaciones para ν asumido de 0.75 con n = 1000 . . . . . . 75
C-4 Resumen de las simulaciones para ν asumido de 1 con n = 1000 . . . . . . . 76
C-5 Resumen de las simulaciones para ν asumido de 1.5 con n = 1000 . . . . . . 76
xvi Lista de Tablas

C-6 Resumen de las simulaciones para ν asumido de 2.5 con n = 1000 . . . . . . 77


C-7 Resumen de las simulaciones para ν asumido de 5 con n = 1000 . . . . . . . 77

D-1 CIA medio con n = 1000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78


Lista de Ecuaciones

1–1 Propiedad de equidispersión en la distribución Poisson . . . . . . . . . . . . . . 2


2–1 fmp de la distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2–2 Modelo de regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2–3 Función de verosimilitud del modelo Poisson . . . . . . . . . . . . . . . . . . . . 5
2–4 fmp de la distribución CMP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2–5 Valor esperado del modelo CMP . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2–6 Varianza del modelo COM-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 6
2–7 Función de log-verosimilitud del modelo COM-Poisson . . . . . . . . . . . . . . 6
2–8 fmp de la distribución BN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2–9 Valor esperado y varianza la distribución BN . . . . . . . . . . . . . . . . . . . 9
2–10 Valor esperado y varianza la distribución BN . . . . . . . . . . . . . . . . . . . 9
2–11 Función de log-verosimilitud en la regresión BN . . . . . . . . . . . . . . . . . . 9
2–12 fmp de la distribución PGR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2–13 fmp de la distribución PD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2–14 Valor esperado y varianza de la distribución PD . . . . . . . . . . . . . . . . . . 10
2–15 fmp de la distribución hP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2–16 Coincidencia de serie hipergeométrica en la distribución hP . . . . . . . . . . . 11
2–17 Media de la distribución hP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2–18 Varianza de la distribución hP . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2–19 Función de log-verosimilitud en la regresión hP . . . . . . . . . . . . . . . . . . 11
3–1 Función de enlace para los modelos de regresión . . . . . . . . . . . . . . . . . . 15
3–2 Constante de normalización Z(λ, ν) aproximada . . . . . . . . . . . . . . . . . . 19
3–3 Estimación de medias en la regresión CMP . . . . . . . . . . . . . . . . . . . . 19
3–4 Cálculo de probabilidades para la estimación de medianas en la regresión CMP 19
3–5 Sesgo de un estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3–6 IC para los coeficientes estimados . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3–7 Fórmula para el cálculo de RECM . . . . . . . . . . . . . . . . . . . . . . . . . 21
3–8 Fórmula para el cálculo de RECMP . . . . . . . . . . . . . . . . . . . . . . . . 22
3–9 Fórmula para el cálculo de la ER de estimadores . . . . . . . . . . . . . . . . . 22
3–10 Fórmula para el cálculo de la ER de las predicciones . . . . . . . . . . . . . . . 22
3–11 Fórmula para el cálculo de los EPA . . . . . . . . . . . . . . . . . . . . . . . . . 23
3–12 Fórmula para el cálculo del CIA . . . . . . . . . . . . . . . . . . . . . . . . . . 23
xviii Lista de Ecuaciones

3–13 Fórmula para el cálculo del CIAc . . . . . . . . . . . . . . . . . . . . . . . . . . 23


Lista de Sı́mbolos

Abreviaturas

Abreviatura Término
BN Binomial Negativa
CAP Circunferencia a la Altura del Pecho
CIA Criterio de Información de Akaike
CIAc Criterio de Información de Akaike corregido
CM P Conway-Maxwell-Poisson
DE Desviación Estándar
ECM Error Cuadrático Medio
ECM P Error Cuadrático Medio de Predicción
ECV Estimación por Cuasi-Verosimilitud
EM V Estimación por Máxima Verosimilitud
ED Equidispersión (en inglés: Equidispersion)
EP A Error Porcentual Absoluto
ER Eficiencia Relativa
ES Error Estándar
f mp Función de masa de probabilidad
hP hyper-Poisson
IC Intervalo de Confianza
iid Independientes e idénticamente distribuidos
M áx Máximo
M CM C (En inglés) Simulación Monte Carlo por Cadenas de Markov
M CRI Mı́nimos Cuadrados Reponderados Iterativamente
Mı́n Mı́nimo
M LG Modelo Lineal Generalizado
nsim Número de simulaciones
OD Sobredispersión (en inglés: Overdispersion)
PD Poisson Doble
P GR Poisson Generalizada Restringida
RECM Raı́z Cuadrada del Error Cuadrático Medio
RECM P Raı́z Cuadrada del Error Cuadrático Medio de Predicción
xx Lista de Sı́mbolos

Abreviatura Término
UD Subdispersión (en inglés: Underdispersion)

Sı́mbolos con letras latinas

Sı́mbolo Término
M Media
m Modelo asumido
Me Mediana
n Tamaño muestral

Sı́mbolos con letras griegas

Sı́mbolo Término
α Parámetro de dispersión de la distribución PGR
β Vector de parámetros del modelo de regresión
γ Parámetro de dispersión de la distribución hP
θ Parámetro de dispersión de la distribución BN y PD
λ Parámetro de centralización de la distribución Poisson
µ Media Poblacional ó Parámetro de centralización de la distribución CMP MLG
ν Parámetro de dispersión de las distribuciones CMP y CMP MLG
φ Parámetro de dispersión, forma o variación generalizado
1. Introducción
Este capı́tulo tiene como objetivo presentar el contexto sobre el cual se ha desarrollado el
problema del análisis de datos de conteo (Sección 1.1) cuando no se logra justificar la propie-
dad de equidispersión, para plantear las preguntas que serán objeto de evaluación durante
la investigación (Sección 1.2). También se presenta la estructura en la que se encuentra or-
ganizado este trabajo en la Sección 1.3.

1.1. Los datos de conteo


Los datos de conteo se refieren al número de veces que se da un evento en un perı́odo de
tiempo o espacio definido como, por ejemplo, el número de accidentes aéreos, el número de
dı́as de permanencia en un hospital, la cantidad de frutos en un árbol. Este tipo de datos
toman valores enteros no negativos y se asume que los eventos en un intervalo de tiempo o
espacio determinado son independientes e idénticamente distribuidos (iid) [4].

Cameron & Trivedi [4] presentan dos formulaciones para obtener este tipo de datos. Una for-
ma es por medio de conteos directamente observables en cualquier situación, donde se asume
que hay un proceso homogéneo y estacionario en el cual el número de eventos por unidad de
tiempo o espacio son iid. Otra formulación es la que se da por medio de la discretización de
datos continuos, que consiste en aquellos conteos que se definen en una muestra de elementos
los cuales son clasificados según el tipo de evento de interés.

El problema que han tenido los modelos para datos de conteo son los niveles de dispersión
que estos pueden tomar. Según Hilbe [14], en la mayorı́a de los casos es raro que los datos
de conteo en la realidad tengan equidispersión, lo cual siempre se asume en la distribución
Poisson. Es más común encontrar datos con sobredispersión o subdispersión, aunque este
último con menos frecuencia. Cuando se habla de sobredispersión en los conteos por unidad
de tiempo o espacio, se refiere a que la varianza excede su media y se habla de subdispersión
cuando la varianza es menor que la media. Según Dobson [5], hay una forma de determinar
estos niveles de dispersión la cual consiste en hallar la constante de variación (φ) de acuerdo
a la siguiente expresión:

V ar(Y ) = φE(Y ) = φµ (1–1)


2 1 Introducción

Si φ > 1, hay sobredispersión, Si φ < 1, hay subdispersión.

1.2. Planteamiento del problema


De acuerdo con Cameron & Trivedi [4], el análisis de datos de conteo se ha venido desarro-
llando con el fin de explicar un fenómeno en donde la variable respuesta toma valores enteros
no negativos en relación al número de veces que un evento de interés es observado en un inter-
valo de tiempo, espacio, longitud, etc. El modelo tı́pico sobre el cual parte el análisis de este
tipo de datos es el modelo Poisson. Éste se caracteriza por el supuesto de equidispersión, en
donde la media y la varianza son iguales, lo cual puede ser causante de un ajuste inadecuado
cuando no se cumpla dicha condición, es decir, que este modelo no explica bien conjuntos
de datos que presentan casos de subdispersión o sobredispersión [32]. Recientemente se han
desarrollado diversas alternativas para modelar bajo la violación de este supuesto, entre las
más utilizadas están la regresión Binomial Negativa (BN) [14], la regresión Poisson Genera-
lizada Restringida (PGR) [8], la regresión Conway-Maxwell-Poisson (CMP) [32], la regresión
hyper-Poisson [30], entre otras. Según Sellers & Shmueli [32], la regresión BN, a pesar de que
explica correctamente datos con sobredispersión, no es adecuado para la modelación cuando
la varianza es inferior a la media. En cuanto a la regresión PGR, estos autores enuncian
que dicho modelo puede ajustar tanto datos con sobredispersión como subdispersión, pero
es limitante en este último caso. Recientemente ha surgido un modelo más flexible el cual se
adapta bien a los diferentes niveles de dispersión en los datos de conteo, es denominado el
modelo CMP.

El establecimiento de esta última alternativa dentro de un marco inferencial está en proceso


de estudio y evaluación. Hasta ahora se han evaluado sus propiedades inferenciales e inclu-
so se han hecho modificaciones a la propuesta original, una de ellas es el planteamiento de
Guikema & Goffelt [13] quienes reparametrizaron el modelo CMP original y lo adaptaron
dentro del marco de un Modelo Lineal Generalizado (MLG). El análisis de las estimaciones
ha sido objeto de estudio en las diversas investigaciones relacionadas con esta regresión. Se
han desarrollado estudios con el fin de establecer la calidad de las estimaciones del mode-
lo, evaluando el comportamiento de los estimadores en diversos escenarios. Los métodos de
estimación de parámetros, los niveles de dispersión, las medias y tamaños muestrales han
sido los componentes para establecer dichos escenarios y hacer la comparación y evaluación
respectiva.

En vista de que se tiene un modelo tradicional, simple o básico como lo es el Poisson, surge
la necesidad de compararlo con un modelo más flexible (Modelo CMP) que hasta ahora se
ha desarrollado para modelar datos de conteo, debido a su ajuste adecuado cuando los datos
1.3 Estructura de la investigación 3

presentan diferentes niveles de dispersión. Por lo anteriormente expuesto surgen las siguien-
tes preguntas:

¿Cuál es la eficiencia de un modelo con respecto al otro?

¿Qué tanto se pierde a nivel predictivo cuando se ajusta el modelo inadecuado?

Para responder estas inquietudes se quiere determinar vı́a simulación la eficiencia relativa
entre el modelo Poisson y el Modelo COM-Poisson y comparar estos modelos por medio de
medidas de calidad de las predicciones, en diversos escenarios que tendrán como factores a
controlar, la variación de la dispersión y del intercepto, ası́ como, los tamaños muestrales.
Con este estudio se quiere aportar información que permita determinar el comportamiento
inferencial de las estimaciones del modelo en cuanto al desempeño predictivo, y también que
el estudio permita ser contrastado con otros estudios similares lo cual permitirá establecer
una base teórica y aplicada más robusta respecto al modelo CMP.

1.3. Estructura de la investigación


El presente trabajo tiene la siguiente organización. El Capı́tulo 2 presenta una recopilación
teórica sobre los aspectos más relevantes de la investigación, además de que se describen los
conceptos relacionados con el problema planteado. En el Capı́tulo 3 se describen los diferen-
tes procedimientos que fueron considerados para los estudios de simulación y las aplicaciones
con conjuntos de datos reales. El Capı́tulo 4 se estudia mediante la comparación de dos
implementaciones en R para ajustar modelos CMP, la calidad de las estimaciones ası́ como
de la calidad de las predicciones. En el Capı́tulo 5, en un marco de normalidad asintótica
de las estimaciones, se determina la ER en cuanto a las predicciones de los modelos. En el
Capı́tulo 6 se ilustra por medio de dos estudios de caso aplicados a la ecologı́a los resultados
obtenidos vı́a simulación. Y finalmente, en Capı́tulo 7 se dan a conocer las conclusiones más
relevantes y recomendaciones en términos de los objetivos planteados. También se propone
un estudio a futuro siguiendo la misma lı́nea de investigación propuesta para esta disertación.
2. Marco teórico
En este capı́tulo se describen las propuestas planteadas dentro del contexto de los modelos
de regresión para ajustar datos de conteo. También se presentan algunos de los conceptos e
investigaciones que se relacionan con el problema que ha sido previamente planteado en el
Capı́tulo 1.

El contenido de este capı́tulo está organizado de la siguiente manera. La Sección 2.1 se


comentan las caracterı́sticas de la distribución y del modelo Poisson. En la Sección 2.2 se
presentan los atributos de la distribución CMP, ası́ como sus alcances a nivel inferencial como
modelo de regresión. La Sección 2.3 describe las causas y consecuencias de violar el supuesto
de equidispersión en un modelo Poisson. También una serie de alternativas de modelos de
regresión para datos de conteo son citadas en la Sección 2.4. Para finalizar, este capı́tulo da
a conocer en la Sección 2.5, los antecedentes y diferentes propuestas que están relacionadas
con el tema de investigación formulado para este trabajo.

2.1. El Modelo Poisson


El modelo Poisson es la base del análisis de los datos de conteo que se cuantifican en un
intervalo de tiempo o espacio determinado. En esta sección se describen algunas propiedades
de su distribución y del modelo. También se discute su debilidad a la hora de ajustar datos
con diferentes niveles de dispersión.

Según Cameron & Trivedi [4], la distribución Poisson que lleva el apellido de su formulador,
se estableció a partir de un caso lı́mite de la distribución binomial. Su propiedad fundamental
es la equidispersión donde la varianza es igual a la media (V ar(Y ) = E(Y ) = µ), y a partir
de esta relación se derivan los condicionamientos para la formulación de otros modelos para
datos de conteo.

La ecuación (2–1) muestra su función de masa de probabilidad (fmp). Donde λ = V ar(Y ) =


E(Y ).
2.1 El Modelo Poisson 5

e−λ λy
P (Y = y) = , y = 0, 1, 2, . . . (2–1)
y!

De allı́ que λ es interpretada como la media del número de eventos en un intervalo de longitud
de espacio o tiempo. Por ejemplo, el número de huracanes por año o el número de árboles
enfermos por hectárea.

El modelo de regresión Poisson pertenece a la familia de los MLG, ya que su función de


distribución pertenece a la familia exponencial, su predictor es lineal (η = Xβ) y tiene una
función de enlace g tal que E(Y ) = µ = g −1 (η) [20]. Este modelo es expresado por la función
dada en la ecuación (2–2), la cual sigue una distribución condicional de yi (variable depen-
diente) en función de un vector de covariables xi y de parámetros β [4].

E(yi |xi ) = µi = exp {x0i β} (2–2)

Esta es la forma multiplicativa del modelo y se expresa ası́ ya que de esta manera asegura
que µ tendrá valores enteros no negativos. Si se plantea una forma aditiva hay un riesgo de
que ciertas combinaciones no cumplan con esta restricción [4].

La ecuación (2–3) es la función de log-verosimilitud obtenida para esta distribución.

n
X
log L(β) = {yi x0i β − exp(x0i β) − log yi !} (2–3)
i=1

El modelo de regresión Poisson tiene diversas aplicaciones en el área de la salud, la econo-


mı́a, las ciencias sociales, la ecologı́a, entre otras. Cameron & Trivedi [4] presentan ejemplos
caracterı́sticos en este tipo de modelación, en los cuales se encuentran investigaciones en
la economı́a de la salud, el establecimiento de patentes al desarrollar nuevos productos, la
estimación de la demanda recreacional por servicios ambientales, las fallas bancarias que se
dan en los bancos, en seguros de accidentes, en las tasas de crédito, entre otras aplicaciones.

La mayor desventaja del modelo Poisson es que no explica correctamente muchos conjuntos
de datos en los que existe sobredispersión o subdispersión dada su propiedad de equidisper-
sión [32]. Por ello, se han diseñado nuevas propuestas que pretenden ser más flexibles y que
abarcan los diferentes niveles de dispersión que puede tomar este tipo de datos.
6 2 Marco teórico

2.2. El Modelo COM-Poisson


La distribición COM-Poisson fue propuesta por Conway y Maxwell en 1962, pero sus propie-
dades probabilı́sticas y de regresión fueron estudiadas por Shmueli, Minka, Kadane, Borle y
Boatwright en 2005 [34]. La fmp está dada por la ecuación (2–4).

λy
P (Y = y) = v , y = 0, 1, 2, · · · , λ > 0, ν ≥ 0 (2–4)
(y!) Z (λ, v)
s
Donde Z (λ, ν) = Σ∞ λ
s=0 (s!)ν y ν ≥ 0 es el parámetro de forma o de dispersión y λ que pro-
P (Y =y−1) yν
viene de la expresión P (Y =y)
= λ
, que indica una tasa de decrecimiento de probabilidades
sucesivas [32].

Esta distribución pertenece a la familia exponencial y contiene tres distribuciones, que son
la distribución Poisson (Cuando ν = 1), la distribución geométrica (Cuando ν = 0 y λ < 1)
λ
y la distribución Bernoulli (Cuando ν → ∞, con probabilidad 1+λ ) [34].

El valor esperado y la varianza están dados por las ecuaciones (2–5) y (2–6). Como se puede
observar estas funciones no tienen una forma cerrada y se relacionan entre sı́ mediante ex-
presiones aproximadas [32].

∂ log Z (λ, ν) ν−1


E(Y ) = ≈ λ1/ν − (2–5)
∂ log λ 2ν

∂E(Y ) 1
V ar(Y ) = ≈ λ1/ν (2–6)
∂ log λ ν

La construcción del modelo se da a partir de un caso log-lineal de la regresión Poisson. De


allı́ se deduce la función de log-verosimilitud representada en la ecuación (2–7).
n
X n
X n
X
log L(λi , ν) = yi log λi − v log yi ! − log Z(λi , v) (2–7)
i=1 i=1 i=1

Según Sellers & Shmueli [32] con una prueba de dispersión se puede considerar qué tan ra-
zonable es usar la regresión Poisson dado el caso particular cuando la dispersión es igual
a 1 (H0 : ν = 1) o la regresión COM-Poisson (H1 : ν 6= 1) (Subsección 2.3.3). Los valores
ajustados se pueden obtener por medio de medias o medianas estimadas, ya que según Minka
et al. [22] la aproximación de la ecuación (2–5) es buena cuando ν ≤ 1 o λi > 10ν [32].
2.3 Violación al supuesto de equidispersión (ED) 7

Este modelo ajusta bien datos con diferentes niveles de dispersión, pero tiene una restricción
que es de cierta forma similar al supuesto de homocedasticidad en el caso de la regresión
lineal. Esta restricción consiste en que se asume el modelo teniendo en cuenta un nivel de
dispersión constante a través de todas las observaciones [32].

2.3. Violación al supuesto de equidispersión (ED)


Cuando la media y la varianza no son iguales, la distribución Poisson es deficiente debido a
que ésta implica equidispersión (ED). Se determina que hay sobredispersión una vez la va-
rianza es mayor a la media, mientras que cuando la media supera a la varianza se considera
que hay subdispersión. Según Cameron & Trivedi [3], la violación al supuesto de equidisper-
sión en el modelo Poisson se asocia de alguna forma al supuesto de heterocedasticidad en el
modelo de regresión lineal. Estas son las caracterı́sticas de cada uno de estos escenarios de
dispersión.

2.3.1. Sobredispersión (OD)


Al modelar una variable de conteo con sobredispersión (OD) mediante un modelo Poisson
se incurre en varios problemas que pueden afectar su inferencia. Los errores estándar de
los coeficientes estimados por el modelo tienden a ser subestimados generando coeficientes
significativos cuando en realidad estos no lo son. Otro de los problemas es cuando se tienen
datos truncados y censurados, en donde se pueden obtener estimaciones inconsistentes [3].

Entre los factores que pueden generar este tipo de dispersión se encuentran la heterogeneidad
no observada, por ejemplo cuando el investigador define un λ el cual deberı́a ser aleatorio.
También son causantes de OD, los diferentes procesos de generación de eventos, cuando el
proceso que genera el primer evento no es el mismo que genera el resto de los eventos; y la
falta de independencia en los eventos, es decir, cuando la ocurrencia de un evento tiene un
patrón de generación definido [3].

2.3.2. Subdispersión (UD)


Los conjuntos de datos con este tipo de dispersión no son tan comunes como los que se pre-
sentan en OD [29]. Según Zou et al. [39], la causa de subdispersión (UD) se debe al proceso
de generación de los datos o cuando la respuesta está condicionada a la media. En conjuntos
de datos relacionados con el estudio de la accidentalidad vehicular, la UD es muy común
8 2 Marco teórico

cuando la media muestral es baja [17].

2.3.3. Pruebas de dispersión


Para diagnosticar cual es el nivel de dispersión en la variable de conteo se han propuesto
varias metodologı́as, algunas más flexibles que otras según si diagnostican alguno de los es-
cenarios de dispersión o si lo hacen para ambos.

De acuerdo con Cameron & Trivedi [3], existe una prueba de dispersión que puede ser usada
tanto para OD como para UD. Consiste en el cálculo de un estadı́stico de prueba estimando
el modelo Poisson, obteniendo sus valores ajustados y ajustando un modelo mediante mı́ni-
mos cuadrados ordinarios sin intercepto. El contraste de hipótesis planteado para la prueba
define como H0 : α = 0 y H1 : α 6= 0, (siendo α el parámetro o constante de dispersión)
indicando que puede haber OD o UD si la prueba es de dos colas, o definiendo la hipótesis
alterna en el sentido del nivel de dispersión a diagnosticar.

Sellers & Shmueli [32] proponen una prueba para determinar si es más conveniente usar un
modelo Poisson o un modelo CMP para ajustar una respuesta de conteo. El juego de hipó-
tesis está plateado en función del parámetro de dispersión ν, donde H0 : ν = 1 y H1 : ν 6= 1,
al ser una prueba bilateral ésta no indica si hay OD o UD, por lo tanto, para diagnosticar el
escenario de dispersión se recomienda hacer análisis exploratorio o ajustar el modelo CMP
para conocer el valor de ν̂.

2.4. Modelos alternativos


Éstas son las diferentes propuestas que han sido desarrolladas dentro del marco de análisis
de datos de conteo, especialmente para cuando no se logra justificar el supuesto de ED en la
variable respuesta. Algunas son más flexibles que otras en cuanto a su capacidad de capturar
mayores rangos de OD y UD.

2.4.1. Modelo Binomial Negativo (BN)


La regresión BN surgió como un método para modelar correctamente los datos con OD. En
esta sección se hace una descripción de las propiedades de su distribución y de su modelo
de regresión. A pesar de que el modelo tiene varias derivaciones descritas por Hilbe [14], se
describirá la forma tradicional de este método.
2.4 Modelos alternativos 9

La distribución es una mezcla de la distribución Poisson y la distribución gamma. Se relacio-


na también con la distribución geométrica cuando el parámetro r = α−1 (Número de éxitos
en n ensayos independientes) es igual a 1. Cuando el parámetro de forma o de dispersión es
cero (α = 0) se convierte en una distribución Poisson [14]. La ecuación (2–8) muestra su fmp.

 
y+r−1 r y
P (Y = y) = pq , y = 0, 1, 2, . . . (2–8)
r−1

1
Donde r = 1/θ , p = 1+θµ
y q = (1 − p)

Las expresiones para la media y la varianza están dadas en las ecuaciones (2–9) y (2–10),
respectivamente.

r(1 − p)
E(Y ) = µ = (2–9)
p

r(1 − p)
V ar(Y ) = (2–10)
p2

Según Hilbe [14], el modelo BN se puede obtener a partir de la mezcla entre las distribuciones
Poisson y la Gamma. En la ecuación (2–11) se presenta la función de log-verosimilitud para
este modelo de regresión.

n 
θ exp(x0i β)
   
X 1
log L(β; y, θ) = yi log 0
− log (1 + θ exp(x0i β)) +
i=1
1 + θ exp(xi β) θ
    (2–11)
1 1
log Γ yi + − log Γ(yi + 1) − log Γ
θ θ

Este modelo de regresión ha sido implementado como una alternativa en la modelación de


datos de conteo ya que ajusta correctamente conjuntos de datos con OD, sin embargo, su
desempeño es inadecuado especialmente para datos donde la varianza es menor que la media
(cuando hay UD). Por eso, es necesario la generación de nuevas propuestas que permitan
abarcar un rango más amplio de niveles de dispersión [32].
10 2 Marco teórico

2.4.2. Modelo Poisson Generalizado Restringido (PGR)


La regresión PGR fue propuesta por Famoye en 1993 [8], es un modelo que pertenece a la
familia exponencial, que ajusta tanto datos con OD como con UD, aunque ésta última en
un grado menor [32]. La fmp está dada por la ecuación (2–12).

 yi
(1 + αyi )yi −1
  
µi −µi (1 + αyi )
P (Yi = yi |µi , α) = exp , y = 0, 1, 2, . . . (2–12)
1 + αµi yi ! 1 + αµi

Donde log µi = β 0 Xi , µi y α son la media y el parámetro de dispersión de la distribución.

De acuerdo con Famoye [8], se le denomina como un modelo restringido debido a que el
parámetro de dispersión α es limitado para los intervalos 1 + αµi > 0 y 1 + αyi > 0. Cuando
el parámetro α = 0, el modelo pasa a ser un modelo Poisson, cuando α > 0 indica que hay
OD y cuando esta entre −2 µi
y cero indica que hay UD.

Debido a que el modelo posee cierta limitación en el ajuste de datos con UD, no es comple-
tamente flexible y computacionalmente eficiente para ser aplicado en los datos de conteo [32].

2.4.3. Modelo Poisson Doble (PD)


La distribución Poisson Doble (PD) fue propuesta por Efron [7]. La ecuación (2–13) muestra
su fmp.


 θy
y y eλ
f (y, λ, θ) = c(λ, θ) θ exp(−θλ) exp(−y) , y = 0, 1, 2, . . . (2–13)
y! y
 
1 1−θ 1
Donde ≈1+ 1+ , siendo c(λ, θ) la constante de normalización [38].
c(λ, θ) 12λθ λθ
Según Winkelmann [35], esta distribución tiene dos parámetros (λ, θ). El parámetro λ se
puede aproximar a la media de la distribución, mientras que θ define el nivel de dispersión,
cuando es menor que 1 hay OD, cuando es mayor que 1 hay UD y cuando es igual a 1 la
distribución se convierte en Poisson [38]. Su gran desventaja es que tanto la media como
la varianza no tienen formas cerradas y solo se pueden calcular por medio de las siguientes
aproximaciones:

λ
E(Y ) ≈ λ V ar(Y ) ≈ (2–14)
θ
2.4 Modelos alternativos 11

2.4.4. Modelo hyper-Poisson (hP)


La distribución propuesta por Bradwell y Crow en 1964, también es denominada como hyper-
Poisson debido a los rasgos similares con una serie hipergeométrica [30]. En la ecuación (2–15)
se define su fmp.

1 λy
f (y; γ; λ) = , y = 0, 1, 2, . . . (2–15)
1 F1 (1; γ; λ) (γ)y

Γ (a + r)
Donde γ, λ > 0, (a)r = a(a + 1) · · · (a + r − 1) = para a > 0 y r un entero positivo
Γ (a)
y la ecuación (2–16) es el rasgo de que coincide con la serie hipergeométrica.


X (a)r z r
1 F1 (a; c; z) = (2–16)
r=0
(c)r r!

Las expresiones tanto de la media como de la varianza para esta distribución son dadas en
las ecuaciones (2–17) y (2–18), respectivamente [30].

1 F1 (1; γ; λ) −1
E(Y ) = λ − (γ − 1) (2–17)
1 F1 (1; γ; λ)

V ar(Y ) = λ + (λ − (γ − 1)) µ − µ2 (2–18)

El parámetro de forma para está distribución es γ, el cual define el nivel de dispersión. Si


γ = 1 la distribución se convierte en Poisson, si γ > 1 se define OD y si γ < 1 se determina
UD [30]. La estimación de los parámetros del modelo se realiza maximizando la función de
log-verosimilitud (Ecuación (2–19)).

n 
X 
log L (γ, λ|y) = − log Γ (γ + yi ) + log(λ)nȳ + n log(y) − log 1 F1 (1; γ; λ) (2–19)
1=1

Según Sáez y Conde [30], esta distribución es flexible a la hora de capturar OD y UD, lo que
la establece como una alternativa para modelar datos de conteo. También es de notar que las
expresiones de la media y la varianza son explı́citas y no aproximadas tal como se da en la dis-
tribución CMP. Al parecer provee estimaciones de mejor calidad que las demás alternativas
propuestas a pesar de que demanda un gran esfuerzo computacional para ajustar los modelos.
12 2 Marco teórico

2.5. Estado del arte


Winkelmann & Zimmermann [36] presentan una caracterización de los métodos más recientes
de la época para modelar datos de conteo. Luego Cameron & Trivedi [4] publican la teorı́a
de los análisis de regresión para los datos de conteo. El modelo Poisson, el BN, el modelo
cero Poisson y el Poisson truncado hacen parte de una recopilación teórica y de aplicaciones
en cuanto a los datos de conteo se refiere. Actualmente, se han generado propuestas con el
fin de obtener un modelo que explique correctamente tanto bajo OD como UD [32].

Luego Shmueli et al. [34] retomaron la distribución CMP originalmente propuesta por Con-
way & Maxwell en 1962, y determinaron sus propiedades distribucionales. Más tarde, Sellers
& Shmueli [32] dan a conocer las propiedades inferenciales como modelo de regresión. Geedi-
pally [10] y Guikema & Goffelt [13] contribuyen a la especialización del modelo, modificando
el modelo de regresión, caracterizando su desempeño a nivel predictivo y estableciéndolo
dentro del marco de los MLG y por lo tanto, es denominado como el modelo CMP MLG.
Luego han venido una serie de estudios en los cuales se han evaluado las propiedades in-
ferenciales del modelo CMP, en especial de la versión reparametrizada, teniendo en cuenta
diversos escenarios que van desde la variación de los métodos de estimación de los paráme-
tros, los diferentes niveles de dispersión, las medias y tamaños muestrales. A continuación se
presentan una serie de investigaciones que se han desarrollado a partir de este nuevo modelo.

Geedipally et al. [11] caracterizan el desempeño del MLG con respuesta CMP, en donde
se estiman los parámetros del modelo mediante el método bayesiano de simulación Monte
Carlo por cadenas de Markov (MCMC). El objetivo de este estudio fue caracterizar me-
diante simulaciones los parámetros en cuanto a su precisión en la estimación, y estimar la
carga computacional al implementar este método de estimación. Este estudio demostró que
los parámetros estimados por MCMC son precisos y que la carga computacional para su
estimación no es restrictiva.

Después Jowaheer et al. [16] estiman los efectos del modelo CMP MLG (modelo reparame-
trizado) mediante simulaciones. Ellos comparan los métodos de estimación de parámetros de
máxima verosimilitud (EMV) y de cuasiverosimilitud (ECV) en cuanto a su desempeño y
eficiencia. Determinaron que la pérdida de eficiencia en la estimación de los parámetros es
bastante insignificante y que las estimaciones de ECV son consistentes y casi tan eficientes
como los de EMV. Luego Lord et al. [18] evalúan el comportamiento del MLG con respuesta
CMP, por medio de una aplicación en donde los datos de accidentes automovilı́sticos tienen
UD. Este estudio se enfocó en evaluar el desempeño de este modelo en una caso donde hay
UD. Los resultados que se obtuvieron demostraron que el modelo CMP MLG, puede mo-
delar datos donde la varianza es menor que la media y que el desempeño es mucho mejor
comparado con el de modelos tradicionales, al menos con esa base de datos.
2.5 Estado del arte 13

Dentro del contexto de datos con censura pero aplicados a la modelación de datos de conteo,
Sellers & Shmueli [33] evalúan por medio de diferentes medidas de calidad en las predicciones
algunas distribuciones caracterı́sticas, entre ellas, la alternativa como modelo de regresión
que los mismos autores han propuesto. Se trata de la distribución CMP que ha sido adap-
tada dentro de un marco de análisis de datos con censura. También evalúan dos métodos de
predicción con datos reales y que fueron diagnosticados con censura a derecha y en UD. Los
resultados de este estudio determinaron que en un nivel alto de censura, el desempeño del
modelo Poisson estuvo por debajo de las demás alternativas comparadas, produciendo valo-
res ajustados muy altos. Mientras que las distribuciones CMP y PD obtuvieron desempeños
muy similares en términos de comportamiento predictivo [33].

Zou et al. [39] comparan las distribuciones CMP y la PD por medio de simulaciones en diver-
sos escenarios variando la media muestral y el nivel de dispersión. El objetivo principal del
estudio fue determinar el potencial de la distribución PD para explicar correctamente datos
con OD y UD. Al evaluar el desempeño entre cada modelo, se obtuvo un mejor comporta-
miento en el modelo CMP, con diferencias importantes en el ajuste estadı́stico de datos con
UD.

Y por último, Francis et al. [9] caracterizan el desempeño del MLG con respuesta CMP. Esti-
mando los párametros por EMV, y mediante simulaciones en escenarios con diferentes niveles
de dispersión y medias muestrales, se caracteriza la precisión de los parámetros estimados
y se evalúa el comportamiento en las predicciones. El estudio demostró que los parámetros
estimados por EMV son precisos y que este modelo tiene un buen desempeño a través de los
diferentes escenarios.
3. Metodologı́a
En este capı́tulo se describen los procedimientos que se realizaron durante la investigación
para responder a las preguntas planteadas en el Capı́tulo 1. Además de la información pro-
cedimental, se presenta una justificación del por qué se optó por un método o medida en
especı́fico.

3.1. Programación y análisis estadı́stico


Se usó R project [27, R Core Team 2016], un paquete computacional con enfoque estadı́stico
de carácter libre y gratuito, para implementar los códigos de las simulaciones y obtener los
resultados estadı́sticos que serán objeto de análisis dentro de la investigación. Estos fueron
los paquetes que se utilizaron dentro del entorno de programación y análisis:

COMPoissonReg [31]: Para ajustar y analizar modelos CMP.

CompGLM [26]: Para ajustar y analizar modelos CMP.

compoisson [6]: Para generar conteos a partir de una distribución CMP.

VGAM [37]: Para ajustar y analizar modelos BN.

Todas las simulaciones se realizaron en un computador con procesador Intelr CoreTM i5-
2430M con velocidad de 2.4 Ghz, con capacidad de memoria RAM de 6 GB y con el sistema
operativo Microsoftr WindowsTM 7 Ultimate de arquitectura de 64 bits.

3.2. Simulación de datos


La simulación de datos consistió en la generación de pseudovalores aleatorios a partir de una
distribución probabilı́stica especificando sus respectivos parámetros y el tamaño (n) deseado
para la muestra aleatoria.
3.2 Simulación de datos 15

Una muestra aleatoria está constituida de una variable respuesta o de conteo y dos variables
predictoras generadas a partir de una distribución uniforme. Según Mooney [23], la distri-
bución uniforme en su forma estándar (U [0, 1]) es el componente de construcción de una
simulación Monte Carlo. De acuerdo a lo anterior y teniendo en cuenta el método usado por
Francis et al. [9], las covariables fueron generadas por medio de una distribución uniforme
(x1 ∼ U [0, 1] y x2 ∼ U [0, 1]) las cuales se caracterizan por ser ortogonales.

3.2.1. Selección de coeficientes asumidos para el vector β


Antes de la simulación de las variables de conteo, se realizaron simulaciones previas con dife-
rentes combinaciones de coeficientes asumidos teniendo en cuenta información literaria sobre
trabajos de simulación previos. Por ejemplo, Francis et al. [9] hacen variar el intercepto y se
dejan constante los coeficientes asociados a las predictoras y ası́ determinar diferentes niveles
de media muestral. Winkelmann [35], en el estudio de simulación sobre la distribución de los
estimadores Poisson por MLG, define como vector coeficientes asumidos β = (−1, 1) para
generar los conteos Poisson. En resumen, para definir los coeficientes asumidos, especialmen-
te de los predictores, se tuvo en cuenta un rango entre -1 y 1, luego de evaluar los sesgos, la
significancia de los coeficientes estimados, y teniendo en cuenta la variación del intercepto,
se seleccionó una combinación de valores asumidos para el vector β.

3.2.2. Simulación de conteos


La variable respuesta fue determinada por conteos provenientes de una distribución Poisson
(Y ∼ P oisson(λ)) en el caso de ED, mientras que para OD y UD los conteos se origina-
ron mediante una distribución CMP (Y ∼ CM P (λ, ν)). Usando la ecuación (3–1) y con
coeficientes asumidos para el vector β se obtuvo el vector λ el cual es el parámetro de cen-
tralización de la distribución Poisson.

p
X
ln(λi ) = β0 + βj xij = xi β (3–1)
j=1

Para la simulación de conteos en ED, se implementó la función rpois especificando el tama-


ño muestral deseado y el vector λ obtenido mediante la ecuación (3–1). Para los escenarios
de OD y UD, se utilizó la función rcom del paquete compoisson, definiendo el nivel de
dispersión (ν) deseado y por medio de un bucle se realizó la simulación de los valores del
vector λ hasta obtener el tamaño muestral requerido (Ver detalles de la función rcom en [26]).
16 3 Metodologı́a

3.2.3. Niveles de dispersión


Basado en los trabajos de Francis et al. [9], Jowaheer et al. [16] y Zou et al. [39], se definie-
ron tres niveles de dispersión como escenarios para evaluar la calidad de las predicciones de
los modelos en estudio. En la distribución CMP, el parámetro ν define cual es el nivel de
dispersión. Si ν = 1 hay ED, si ν < 1 hay OD y si ν > 1 hay UD [32].

Dichos trabajos relacionados reportan el uso de diferentes intensidades en la dispersión en


los escenarios de OD y UD. Uno de ellos es el de Zou et al. [39], en donde se compara el
modelo CMP con el PD con una OD intermedia (ν = 0.5) y una UD con parámetro de forma
definido ν = 1.3. Jowaheer et al. [16] evalúan dos métodos de estimación para el modelo
CMP en varios niveles de dispersión. Para OD se determinaron niveles de ν entre 0.5 y 0.85
y para UD niveles de ν de 1.5 y 2. Francis et al. [9] tomaron en cuenta dos intensidades
tanto para OD como para UD; valores entre 0.27 y 0.67 fueron definidos para caracterizar
los escenarios en OD y entre 2.72 y 3.32 para los de UD.

Para abarcar más niveles de dispersión dentro de la investigación y evaluar el comportamien-


to de los modelos en casos más extremos, se configuraron para los escenarios de OD niveles
entre 0.25 y 0.75 y para los de UD niveles entre 1.5 y 5.

3.2.4. Tamaño muestral (n)


De acuerdo con Sellers & Shmueli [32] y Miller [21], la normalidad asintótica de la estimacio-
nes no se puede asegurar en pequeños tamaños muestrales. Teniendo en cuenta la anterior
afirmación, además de los problemas de convergencia en el ajuste de los modelos y la deman-
da computacional al variar n, se definió un nivel constante de este factor para diagnosticar
su influencia en el comportamiento predictivo. Sellers & Shmueli [32] proponen realizar un
bootstrap paramétrico para estimar la distribución de los coeficientes en una regresión CMP
y ası́ obtener una base inferencial más sólida cuando n es pequeño. Sin embargo, es indis-
pensable definir a partir de qué nivel de tamaño muestral se empiezan a lograr estimaciones
razonables y ası́ definir si usar el método propuesto por Sellers & Shmueli [32], que de alguna
forma es más demandante computacionalmente, o analizar el modelo ajustado directamente.

A manera de simulación previa se determinó la distribución empı́rica del coeficiente β0 en


un modelo CMP. En el Anexo B, se puede notar en la Figura B-1 que en pequeños tamaños
muestrales la distribución del coeficiente evaluado tiene una forma asimétrica y que a medi-
da que va incrementando n la asimetrı́a tiende a centralizarse, es decir, que los coeficientes
estimados son menos sesgados, en especial cuando el tamaño muestral es de 1000 (Figura B-
2). Por lo tanto, para comparar los modelos en términos de calidad de las predicciones y
la eficiencia relativa se determinó un tamaño muestral de 1000 observaciones, el cual es el
3.3 Procedimiento de las simulaciones 17

tamaño muestral usado por los trabajos de Francis et al. [9] y Winkelmann [35].

3.3. Procedimiento de las simulaciones


Luego de generar la muestra aleatoria, a ésta se le ajustaron los modelos de regresión y se
obtuvieron diferentes medidas estadı́sticas para las estimaciones logradas. Este proceso fue
replicado un número de veces determinado (nsim) según la demanda computacional y el
objeto de estudio.

3.3.1. Número de simulaciones (nsim)


Según Bonate [2], la definición del número replicaciones puede afectar la precisión de las
estimaciones o la demanda y rendimiento computacional del estudio de simulación. Mooney
[23] enuncia que definir “muchas” réplicas es la mejor práctica para definir el número de
simulaciones en un experimento, sin embargo, un número excesivo de réplicas implicarı́a una
demanda computacional muy alta.

Para evaluar la influencia del nivel de dispersión sobre la calidad de las predicciones y la
eficiencia relativa de los modelos se utilizó un nsim de 1000, ya que además de ser un número
estándar es el implementado por Jowaheer et al. [16] y Winkelmann [35] en sus simulacio-
nes. Para comparar las funciones glm.comp y cmp se utilizó un número de simulaciones de
100 ya que el proceso de optimización usado por la función cmp es considerablemente más
demandante a nivel computacional que el de la función glm.comp (Capı́tulo 4).

3.3.2. Algoritmo para las simulaciones


Para lograr las respuestas a las preguntas planteadas para la investigación se diseñó un pro-
tocolo de simulación el cual está descrito a partir de una serie de procedimientos secuenciales.
En resumen, los métodos implementados en las simulaciones se reducen en un algoritmo de
programación, el cual fue interpretado en un lenguaje de código, en este caso R [27, R Core
Team 2016]. La siguiente lista describe brevemente las diferentes operaciones desarrolladas
secuencialmente para cada uno de los escenarios configurados por la combinación de los di-
ferentes niveles de los factores involucrados en cada estudio de caso.

1. Generar covariables fijas y ortogonales x1 y x2 con un n definido a partir de una dis-


tribución uniforme de 0 a 1.
18 3 Metodologı́a

x1 ∼ U (0, 1) y x2 ∼ U (0, 1)

2. Generar variable de conteo con un tamaño n de una distribución Poisson para ED ó


de una distribución CMP para OD y UD.

Yi ∼ P oisson(λ) , para ED
Yi ∼ CM P (λ, ν) , para OD y UD

3. Ajustar modelos Poisson y CMP al conjunto de datos generado. En OD, ajustar modelo
BN; y en ED y UD, ajustar modelo PGR .

4. Almacenar coeficientes estimados y calcular medidas estadı́sticas (Sección 3.4).

5. Repetir los pasos del 1 al 4 hasta nsim.

3.3.3. Modelos ajustados


A cada conjunto de datos se le ajustaron diferentes modelos de regresión los cuales fueron
seleccionados según su capacidad para modelar datos en un nivel de dispersión dado. Por
eso en OD, además de comparar los modelos Poisson y CMP se añadió un modelo caracte-
rı́stico para ajustar este tipo de datos como lo es el modelo BN. En ED y UD los modelos
fueron contrastados con el modelo PGR. A continuación se presentan las caracterı́sticas que
se tomaron en cuenta para llevar a cabo el ajuste de cada modelo.

Modelo Poisson

El modelo Poisson fue ajustado usando la función genérica glm especificando el modelo, los
datos de la muestra aleatoria generada y la familia Poisson con función de enlace log. Esta
función utiliza el método de Mı́nimos Cuadrados Reponderados Iterativamente (MCRI) para
obtener las estimaciones de los coeficientes del modelo.

Modelo CMP

En el Capı́tulo 4 se comparan dos implementaciones en R para ajustar modelos CMP. La


función glm.comp del paquete CompGLM [26] y la función cmp del paquete COMPoisson-
Reg [31]. Con base al contraste entre estas dos funciones se definió la implementación más
adecuada para usar en los demás estudios de caso. Además de especificar el modelo y los
3.3 Procedimiento de las simulaciones 19

datos de la muestra aleatoria, se debe especificar el lı́mite de la sumatoria en la constan-


te de normalización (Ecuación (3–2)), por defecto este lı́mite es de 100 para las dos funciones.

∞ 100
X λj X λj
Z(λ, ν) = ≈ (3–2)
j=0
(j!)ν j=0
(j!)ν

Cuando Yi + 10 > 100, es necesario ajustar este lı́mite, de lo contrario el modelo no podrá ser
ajustado cuando se usa la función glm.comp. Para evitar que se termine el proceso de ajuste
del modelo, se eliminó está restricción ya que especialmente en el caso donde se especifica
un nivel de λ alto a un mayor nivel de OD, se obtienen conteos que superan ese lı́mite, aún
ajustándolo a un valor de 150.

En cuanto a los valores iniciales asignados para el proceso de optimización, estas dos imple-
mentaciones ajustan en primera instancia el modelo Poisson y luego utilizan los coeficientes
estimados de esa regresión como valores iniciales para el vector β.

Sellers & Shmueli [32] proponen dos métodos de estimación para obtener las predicciones.
El método de estimación de medias que se basa en el cálculo de la media condicional la cual
está en función de λ̂ y ν̂ (Ecuación (3–3)). El método de estimación de medianas consiste en
el cálculo de probabilidades consecutivas por medio de la ecuación (3–4) hasta que la suma
supere el valor de 0.5 [33].

1/ν̂ ν̂ − 1
ŷi |xi = λ̂i − (3–3)
2ν̂

 ν
λi
P (Yi = yi ) = P (Yi = yi − 1) (3–4)
yi

Aunque Sellers & Shmueli [33] señalan que el método de predicción de medianas tiene ven-
tajas en cuanto a que predice valores enteros y que la mediana es una medida de tendencia
central más robusta en distribuciones sesgadas, no es claro si es más adecuada o no en térmi-
nos del comportamiento predictivo, especialmente en el escenario de UD donde de acuerdo
con Minka et al. [22] la aproximación a la media no es tan exacta. Para evaluar cuál de los
métodos es más adecuado se compararon las predicciones obtenidas en los diferentes escena-
rios configurados en términos de la calidad predictiva.
20 3 Metodologı́a

Modelo BN
Para el ajuste del modelo BN se utilizó la función vglm del paquete VGAM [37]. Luego de
definir la fórmula y los datos dentro de la función, se especificó la familia “negbinomial” y
como control del proceso de iteración un número máximo de 10000 para aumentar la proba-
bilidad de convergencia. También se suministraron los coeficientes estimados de la regresión
Poisson como valores iniciales para el vector β y para el parámetro de dispersión θ se asignó
un valor de 0.

Modelo PGR
Las estimaciones de este modelo fueron obtenidas utilizando las funciones definidas por Se-
llers & Shmueli [32], quienes usaron este modelo para comparar su propuesta en un escenario
de UD por medio de una aplicación con datos reales. Lastimosamente, en dichas aplicaciones
este modelo no logró convergencia en el proceso de estimación de los parámetros debido a
que este captura parcialmente algunos niveles de UD. De aquı́ surge la necesidad de evaluar
el comportamiento de este modelo, especialmente en los escenarios donde la media excede la
varianza. La definición de la función consiste en un proceso de optimización no restringida
a través de la función nlminb en la que se definió en primera instancia la función negativa
de log-verosimilitud que fue objeto de minimización. Al igual que en el modelo BN también
se asignaron los mismos valores iniciales tanto para el vector β como para el parámetro de
dispersión en este caso identificado como α.

3.4. Cálculo de medidas estadı́sticas


Luego de obtener las estimaciones para cada modelo y en cada conjunto de datos generado
se determinaron una serie de medidas estadı́sticas para caracterizar el comportamiento pre-
dictivo en los diferentes escenarios planteados anteriormente. Estas fueron las medidas que
se tomaron en cuenta:

3.4.1. Sesgo de los coeficientes estimados


El sesgo de los coeficientes estimados se calculó siguiendo la metodologı́a de Francis et al.
[9] mediante la ecuación (3–5).

Sesgoφ̂ = E(φ̂) − φ (3–5)


3.4 Cálculo de medidas estadı́sticas 21

Donde:

φ : Coeficiente verdadero o asumido.

φ̂ : Coeficiente estimado.

3.4.2. Intervalos de confianza (IC) para los coeficientes de los


modelos
Se obtuvieron los intervalos de confianza tipo Wald (que asumen normalidad asintótica) de
los coeficientes de regresión y los parámetros de dispersión que aplica para cada tipo de mo-
delo (Ecuación (3–6)), para determinar la proporción de parámetros verdaderos contenidos
dentro de ellos.

φ̂ ± z(1−α/2) ESφ̂ (3–6)

Donde:

ES es el Error Estándar asociado al coeficiente estimado (φ̂).

3.4.3. Raı́z Cuadrada del Error Cuadrático Medio (RECM)


Esta medida de calidad de los estimadores se obtuvo mediante el cálculo del Error Cuadrá-
tico Medio (ECM) por medio de la ecuación (3–7).

v
u
u1 X N
RECMφ̂ = t (φ̂i − φ)2 (3–7)
N i=1

Donde:

φ : Valor verdadero o asumido.

φ̂ : Coeficiente estimado.

N : Número de coeficientes estimados hasta nsim.


22 3 Metodologı́a

3.4.4. Raı́z Cuadrada del Error Cuadrático Medio de Predicción


(RECMP)
Esta medida de calidad predictiva se obtuvo mediante el cálculo del Error Cuadrático Medio
de Predicción (ECMP) por medio de la ecuación (3–8). Es implementada por Lord et al. [19]
y Sellers & Shmueli [33] para evaluar el comportamiento de las predicciones de los modelos
comparados.

v
u n
u1 X
RECM P = t (ŷi − yi )2 (3–8)
n i=1

Donde:

y : Respuesta observada.

ŷ : Valor ajustado o predicho.

n : Número de observaciones o tamaño muestral.

3.5. Eficiencia Relativa (ER)


Obenido el ECM y el ECMP se calculó la Eficiencia Relativa (ER) tanto de los estimadores
de parámetros de cada modelo como de sus respectivas predicciones utilizando las ecuaciones
(3–9) y (3–10).

ECMφ̂2
ER(φ̂1 ,φ̂2 ) = (3–9)
ECMφ̂1

ECM PŶ2
ER(Ŷ1 ,Ŷ2 ) = (3–10)
ECM PŶ1

A manera de interpretación, si ER > 1, entonces, φ̂1 es más eficiente que φ̂2 . La interpretación
es similar pero dentro del contexto donde se comparan las predicciones entre dos modelos.

Con esta medida se establece un criterio para evaluar si se pierde o no calidad en las predic-
ciones al ajustar un modelo equivocado respecto al modelo adecuado o alternativo.
3.6 Mediana del Error Porcentual Absoluto (EPAMe) 23

3.6. Mediana del Error Porcentual Absoluto (EPAMe)


Esta medida es aplicada en el Capı́tulo 7 como un método complementario para evaluar la
calidad de las predicciones. Además es una medida adecuada para datos de conteo ya que
evita posibles indeterminaciones en el caso de la existencia de ceros [1]. Su cálculo consiste en
obtener la mediana de los errores porcentuales absolutos (EPA) los cuales se pueden lograr
mediante la ecuación (3–11).


ŷi − yi
EP Ai = (3–11)
yi

Esta medida es implementada por Sellers & Shmueli [33] para evaluar el desempeño de las
predicciones de varias distribuciones en datos de conteo censurados.

3.7. Cálculo de medida de bondad de ajuste


Se decidió incluir una medida de bondad de ajuste ya que proporciona un criterio de com-
paración entre los modelos en términos de qué tan bueno es el ajuste del modelo al conjunto
de observaciones. La medida implementada fue el Criterio de Información de Akaike (CIA),
obtenida mediante la ecuación (3–12). También se utilizó el CIAc el cual es una corrección
del CIA cuando el tamaño muestral es pequeño [15] (Ecuación (3–13)).

CIA = 2p − 2 log Lik (3–12)

2p(p + 1)
CIAc = CIA + (3–13)
n−p−1

Donde:

p : Número de parámetros del modelo.

n : Tamaño muestral.

log Lik : Valor máximo de la función de log-verosimilitud para el modelo estimado.


24 3 Metodologı́a

A pesar de que no es una medida que evalúa el comportamiento a nivel predictivo, ésta fue
incorporada a manera de complemento en la investigación para evaluar si el modelo CMP
podrı́a tener ventajas a la hora de explicar la relación funcional entre una variable respuesta
de conteo y su(s) predictora(s).
4. Comparación de las funciones
glm.comp y cmp
En este capı́tulo se efectúa un contraste entre las caracterı́sticas, las estimaciones y las pre-
dicciones logradas entre dos implementaciones para ajustar modelos CMP en el paquete
estadı́stico R [27, R Core Team 2016]. El objetivo de esta comparación es seleccionar la
implementación más adecuada para llevar a cabo los ajustes de los modelos CMP en las
diferentes simulaciones que demande la investigación. También se describen algunas de las
diferencias encontradas en cuanto al uso y resultados logrados por dichas funciones. Además
de esta comparación, se realizó una caracterización del desempeño del modelo CMP evaluan-
do la calidad de los coeficientes estimados y la calidad predictiva.

Este capı́tulo tiene la siguiente organización. La Sección 4.1 describe como se configuraron
las simulaciones efectuadas. En la Sección 4.2 se presentan los resultados obtenidos tanto en
la caracterización del desempeño de las estimaciones como en el comportamiento predictivo.
Esos resultados son posteriormente analizados y discutidos en la Sección 4.3. Y en la Sec-
ción 4.4 se definieron los casos donde se utilizaran las implementaciones y demás conclusiones
relevantes que arrojó el estudio.

4.1. Metodologı́a
En esta sección se presenta de forma detallada los procedimientos que se realizaron para
lograr los objetivos planteados para este capı́tulo. Se describe el proceso de las simulaciones
en los diferentes escenarios configurados por el tamaño muestral y el nivel de dispersión para
diferentes modelos asumidos variando β0 y dejando constantes los coeficientes asociados a
las variables predictoras.

4.1.1. Descripción de la simulación


Un estudio de simulación fue llevado a cabo para determinar la precisión de las estimaciones
y el desempeño predictivo del modelo CMP de acuerdo a dos implementaciones en R dadas
26 4 Comparación de las funciones glm.comp y cmp

por la función glm.comp del paquete CompGLM [26] y la función cmp del paquete COM-
PoissonReg [31]. Para ello se generaron 100 conjuntos de datos (tal como se describió en la
Sección 3.2) para cada uno de los escenarios conformados por los niveles de n (25, 50, 100,
200 y 500), en diferentes categorı́as de dispersión (OD, ED y UD). En cada uno de estos
escenarios se generaron los diferentes conjuntos de datos asumiendo diferentes modelos en
donde el coeficiente verdadero β0 fue variando mientras que los coeficientes asumidos asocia-
dos a las variables predictoras se dejaron fijos. A estos conjuntos de datos se les ajustaron
los modelos CMP usando las dos funciones de R que son objeto de comparación. Luego se
almacenaron las estimaciones y se calcularon las diferentes medidas descritas en el Capı́tulo
3. La Tabla 4-1 muestra los coeficientes asumidos para generar los datos para cada uno de
los escenarios.

Tabla 4-1.: Coeficientes asumidos para el estudio de simulación de comparación de las fun-
ciones glm.comp y cmp. Fuente: Elaboración propia.
OD ED UD
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 -0.50 0.30 0.50 0.70 0.10 1.60 2.30 3.00 2.00 8.50 12.00 15.00
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 0.25 0.25 0.25 0.25 1.00 1.00 1.00 1.00 5.00 5.00 5.00 5.00

Tal como se ve en la Tabla 4-1 y de acuerdo con lo expuesto en Subsección 3.2.1, en los
diferentes modelos asumidos (m1, m2, m3, m4) el coeficiente verdadero para β0 es diferente
mientras que para β1 y β2 fueron constantes. Con el fin de evaluar las dos funciones de R
(glm.comp y cmp) en escenarios de dispersión altos, se definieron los parámetros de dispersión
asumidos; un valor de ν de 0.25 que indica una alta OD, un valor para ν de 5 para alta UD
y un valor para ν de 1 para ED.

4.1.2. Detección de diferencias


En el proceso de ajuste y análisis convencional de un modelo de regresión CMP se compa-
raron los resultados obtenidos por cada una de las dos funciones de R para examinar que
tan parecidos son los diferentes valores estadı́sticos. Además, se revisaron los códigos y la
documentación disponible para cada una de las implementaciones.
4.2 Resultados 27

4.2. Resultados
Efectuadas las simulaciones se obtuvieron las diferentes medidas estadı́sticas, las cuales se
presentan gráficamente y cuantitativamente en esta sección. Vale la pena aclarar que en OD
no se tuvieron en cuenta algunos casos en donde se presentaron subestimaciones atı́picas del
parámetro de forma ν (Sección 4.3).

4.2.1. Calidad de las estimaciones


El desempeño del modelo CMP en diferentes escenarios de dispersión presentó comporta-
mientos contrastantes entre las dos implementaciones. Estas son las diferencias más relevantes
que se presentaron para los coeficientes estimados tanto del vector β̂, como del parámetro
de dispersión.

Calidad de las estimaciones en OD

El coeficiente de β̂0 en el escenario de OD presentó comportamientos similares en los tres


primeros modelos asumidos. En el modelo m4 se detectaron las diferencias más notorias,
especialmente cuando el tamaño muestral fue mı́nimo. La Figura 4-1 muestra con más de-
talle tal diferencia al observar la ER, en donde dicha medida fluctúa entre un rango de 0.4
a 1.3 a través de tamaños muestrales menores a 200, luego de este nivel de observaciones el
comportamiento tiende a igualarse. En los demás modelos asumidos la ER es constante, lo
que indica que las estimaciones para β0 son muy similares a través de los escenarios evaluados.

Al evaluar la calidad de las estimaciones para este coeficiente se nota la tendencia a dismi-
nuir la RECM cada vez que aumenta el tamaño muestral. En todos los modelos asumidos se
presentaron las estimaciones de menor calidad en tamaños muestrales pequeños, pero carac-
terı́sticamente el modelo m1 presentó los niveles más bajos de calidad respecto a los demás
modelos, incluso cuando el tamaño muestral fue superior a 100.

Comportamientos similares se muestran al observar los desempeños de la RECM y la ER a


través de los niveles del tamaño muestral en cada uno de los modelos asumidos. De nuevo,
en el modelo m4 se presentan las diferencias, pero en contraste de las obtenidas para β̂0 ,
éstas fluctúan entre niveles de ER que favorecen las estimaciones logradas por la función
glm.comp, ya que los valores de eficiencia en la mayorı́a de los casos es menor que 1 (Figu-
ra 4-2 y Figura 4-3).

La ER en los modelos asumidos m1, m2 y m3, es muy cercana a 1, por lo tanto, en estos
escenarios las diferencias en las estimaciones de β1 y β2 entre las dos funciones comparadas
son casi imperceptibles.
28 4 Comparación de las funciones glm.comp y cmp

1.0 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.8
β0

0.6
RECM^β^
0

RECM^β0

RECM^β0

RECM^β0
RECM

0.4

0.2

0.0

1.4 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp

Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.2

1.0
β0
0

ER^β0

ER^β0

ER^β0
ER^^β
ER

0.8

0.6

0.4

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-1.: Calidad del coeficiente estimado β̂0 en un escenario de OD. Fuente: Elaboración
propia.

1.0 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.8
β1

0.6
RECM^β^
1

RECM^β1

RECM^β1

RECM^β1
RECM

0.4

0.2

0.0

1.1 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
0.7
β1
1

ER^β1

ER^β1

ER^β1
ER^^β

0.6
ER

0.5
0.4
0.3
0.2
0.1

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-2.: Calidad del coeficiente estimado β̂1 en un escenario de OD. Fuente: Elaboración
propia.

La Figura 4-4 muestra que el parámetro de dispersión ν presenta comportamientos similares


entre las dos funciones, excepto en el modelo m4 donde la ER varı́a entre 0.4 y 1.2 a través
4.2 Resultados 29

1.0 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.8
β2

0.6
RECM^β^
2

RECM^β2

RECM^β2

RECM^β2
RECM

0.4

0.2

0.0

1.1 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
0.7
β2
2

ER^β2

ER^β2

ER^β2
ER^^β

0.6
ER

0.5
0.4
0.3
0.2
0.1

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-3.: Calidad del coeficiente estimado β̂2 en un escenario de OD. Fuente: Elaboración
propia.

0.8 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.7

0.6

0.5
ν
RECM^ν^

RECM^ν

RECM^ν

RECM^ν
RECM

0.4

0.3

0.2

0.1

0.0

1.3 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
1.2
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.1
1.0
0.9
ν
ER^^ν

ER^ν

ER^ν

ER^ν

0.8
ER

0.7
0.6
0.5
0.4
0.3

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-4.: Calidad del coeficiente estimado ν̂ en un escenario de OD. Fuente: Elaboración
propia.

de los niveles del tamaño muestral y cuando alcanza las 500 observaciones las diferencias
tienden a ser similares para las dos funciones. En el modelo m1 se obtuvieron los valores
30 4 Comparación de las funciones glm.comp y cmp

Tabla 4-2.: Proporción de IC al 95 % que contienen los coeficientes verdaderos en un esce-


nario de OD. Fuente: Elaboración propia.
OD glm.comp cmp
m n β0 β1 β2 ν β0 β1 β2 ν
25 0.95 0.97 0.97 0.96 0.95 0.97 0.97 0.96
50 0.94 0.96 0.97 1.00 0.94 0.96 0.97 1.00
m1 100 0.97 0.97 0.96 0.98 0.97 0.97 0.96 0.98
200 0.93 0.98 0.93 0.99 0.93 0.97 0.93 0.99
500 0.94 0.95 0.93 0.99 0.94 0.95 0.93 0.99
25 0.96 0.98 0.98 0.97 0.96 0.98 0.98 0.97
50 0.98 0.95 0.98 0.98 0.98 0.95 0.98 0.98
m2 100 0.97 0.94 0.94 0.97 0.97 0.94 0.94 0.97
200 0.94 0.99 0.93 0.97 0.94 0.99 0.93 0.97
500 0.99 0.94 0.95 0.94 0.99 0.94 0.95 0.94
25 0.98 0.98 0.97 0.97 0.98 0.98 0.97 0.97
50 0.97 0.97 0.98 0.98 0.97 0.97 0.98 0.98
m3 100 0.96 0.95 0.96 0.95 0.96 0.95 0.96 0.95
200 0.95 0.99 0.94 0.97 0.95 0.99 0.94 0.97
500 0.96 0.95 0.94 0.91 0.96 0.95 0.94 0.91
25 0.97 0.99 0.99 0.99 0.90 0.79 0.76 0.90
50 0.98 0.98 0.99 0.98 0.98 0.98 0.99 0.98
m4 100 0.94 0.96 0.96 0.96 0.96 0.97 0.96 0.96
200 0.97 1.00 0.96 0.97 0.92 0.98 0.96 0.95
500 0.96 0.95 0.93 0.95 0.96 0.95 0.93 0.95

más bajos de calidad para este coeficiente estimado, si se comparan con los demás modelos
asumidos en cada uno de los niveles de tamaño muestral. Al igual que los coeficientes ante-
riores, el parámetro ν experimentó un comportamiento constante de la ER en cada nivel de
tamaño muestral y de los modelos asumidos.

La proporción de IC que contienen los coeficientes asumidos en cada uno de los modelos,
indica que en general las dos funciones estimaron el verdadero parámetro al evaluar los IC
al 95 % de confianza para cada uno de los coeficientes estimados y a través de los diferentes
tamaños muestrales. Sin embargo, se presentaron dos casos en donde dicha afirmación no es
tan clara. Esto sucedió en las estimaciones de la función cmp, para los coeficientes β1 y β2 ,
en el modelo m4 y cuando el tamaño muestral fue de 25, en donde se obtuvieron los niveles
4.2 Resultados 31

de cobertura de los IC más bajos, con valores menores al 80 % (Tabla 4-2).

Adicionalmente, vale la pena indicar que durante el proceso de simulación la mayorı́a de


los modelos lograron convergencia. Aún ası́, los escenarios del modelo m4 en los tamaños
muestrales de 25, 50 y 200 experimentaron entre un 70 % y 82 % de casos de convergencia,
indicando problemas durante el proceso de estimación como tal, al implementarse la función
glm.comp. Mientras que la función cmp exhibió eventos de no convergencia menores al obte-
ner un 3 % de casos donde se presentaron problemas en el proceso de estimación del modelo,
esto se dio en m4 cuando n fue mı́nimo.

Calidad de las estimaciones en ED


En ED las estimaciones para β0 presentaron diferencias que fueron incrementando a través de
los modelos asumidos. Éstas fueron más notorias en tamaños muestrales pequeños. Al mirar
la Figura 4-5 se nota que en el modelo m4 las diferencias entre las dos funciones son visibles
en los tamaños muestrales menores a 100, luego de este nivel de observaciones las diferencias
son prácticamente imperceptibles. Al examinar la ER, ésta indica que las estimaciones para
el coeficiente β0 obtenidas por la función glm.comp son de más calidad respecto a las de la
función cmp, especialmente en tamaños muestrales pequeños.

Tal como se esperaba, los comportamientos de la RECM al aumentar el tamaño muestral


tuvieron una tendencia a incrementar la calidad de las estimaciones, pero al comparar los
valores obtenidos en cada uno de los modelos asumidos, se logró determinar ligeras diferen-
cias que indican un incremento de la RECM al incrementar el β0 asumido para los modelos.
En el modelo m1 se obtuvieron los valores más altos de calidad de las estimaciones, mientras
que en los modelos m3 y m4 se exhibieron estimaciones de baja calidad, principalmente en
los tamaños muestrales pequeños.

Comportamientos similares presentan las estimaciones de β1 y β2 (Figura 4-6 y Figura 4-


7). Sin embargo, al evaluar la RECM se detectan unas diferencias leves fundamentalmente
cuando el β0 asumido fue muy bajo, es decir, en el modelo m1. La ER señala que en tamaños
muestrales pequeños, las estimaciones para estos dos coeficientes fueron de mayor calidad en
la función glm.comp y que a partir de tamaños muestrales similares o superiores a 100, no
hay diferencias bien marcadas entre estas dos funciones.
32 4 Comparación de las funciones glm.comp y cmp

1.8 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
1.6 cmp

1.4

1.2
β0
RECM^β^
0

RECM^β0

RECM^β0

RECM^β0
1.0
RECM

0.8

0.6

0.4

0.2

0.0

1.1 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9

0.8
β0
0

ER^β0

ER^β0

ER^β0
ER^^β

0.7
ER

0.6

0.5

0.4

0.3

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-5.: Calidad del coeficiente estimado βˆ0 en un escenario de ED. Fuente: Elaboración
propia.

1.0 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
0.8
β1

0.6
RECM^β^
1

RECM^β1

RECM^β1

RECM^β1
RECM

0.4

0.2

0.0

1.1 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
0.7
β1
1

ER^β1

ER^β1

ER^β1
ER^^β

0.6
ER

0.5
0.4
0.3
0.2
0.1

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-6.: Calidad del coeficiente estimado βˆ1 en un escenario de ED. Fuente: Elaboración
propia.
4.2 Resultados 33

1.0 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
0.8
β2

0.6
RECM^β^
2

RECM^β2

RECM^β2

RECM^β2
RECM

0.4

0.2

0.0

1.1 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
0.7
β2
2

ER^β2

ER^β2

ER^β2
ER^^β

0.6
ER

0.5
0.4
0.3
0.2
0.1

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-7.: Calidad del coeficiente estimado βˆ2 en un escenario de ED. Fuente: Elaboración
propia.

0.8 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
0.7

0.6

0.5
ν
RECM^ν^

RECM^ν

RECM^ν

RECM^ν
RECM

0.4

0.3

0.2

0.1

0.0

1.3 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.2
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.1
1.0
0.9
ν
ER^^ν

ER^ν

ER^ν

ER^ν

0.8
ER

0.7
0.6
0.5
0.4
0.3

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-8.: Calidad del coeficiente estimado ν̂ en un escenario de ED. Fuente: Elaboración
propia.
34 4 Comparación de las funciones glm.comp y cmp

A diferencia de lo expuesto en las estimaciones para β0 , la calidad para estos dos coeficientes
tuvo mayores valores cada vez que fue incrementando el β0 asumido, siendo el modelo m4
el que expresa mejor calidad a través de los niveles del tamaño muestral en contraste con
los demás modelos asumidos. En el modelo m1, donde el valor verdadero de β0 fue de 0.1,
se experimentaron magnitudes de la RECM mayores en comparación con los demás modelos
asumidos en cada uno de los niveles de tamaño muestral, señalando una baja calidad en las
estimaciones de β1 y β2 .

Tabla 4-3.: Proporción de IC al 95 % que contienen los coeficientes verdaderos en un esce-


nario de ED. Fuente: Elaboración propia.
ED glm.comp cmp
m n β0 β1 β2 ν β0 β1 β2 ν
25 0.95 0.96 0.95 0.96 0.95 0.96 0.95 0.96
50 0.92 0.97 0.97 0.95 0.92 0.97 0.97 0.95
m1 100 0.95 0.94 0.97 0.95 0.95 0.94 0.97 0.95
200 0.97 0.99 0.91 0.98 0.97 0.99 0.91 0.98
500 0.98 0.98 0.96 0.95 0.98 0.98 0.96 0.95
25 0.96 0.97 0.95 0.98 0.96 0.97 0.95 0.98
50 0.97 0.98 0.97 0.97 0.97 0.98 0.97 0.98
m2 100 0.96 0.96 0.96 0.94 0.96 0.96 0.96 0.94
200 0.97 1.00 0.92 0.95 0.97 1.00 0.92 0.95
500 0.95 0.97 0.95 0.95 0.95 0.97 0.95 0.95
25 0.99 0.95 0.96 0.99 0.98 0.94 0.95 0.99
50 0.94 0.93 0.95 0.93 0.94 0.93 0.95 0.93
m3 100 0.98 0.96 0.92 0.94 0.98 0.96 0.92 0.94
200 0.94 0.98 0.97 0.95 0.94 0.98 0.97 0.95
500 0.96 0.96 0.99 0.96 0.96 0.95 0.99 0.96
25 0.99 0.99 0.98 0.99 0.95 0.96 0.95 0.95
50 0.96 0.94 0.93 0.95 0.92 0.93 0.93 0.90
m4 100 0.98 0.97 0.96 0.98 0.98 0.97 0.96 0.98
200 0.98 0.97 0.97 0.99 0.98 0.97 0.97 0.99
500 0.95 0.98 0.99 0.97 0.95 0.98 0.99 0.97

En la Figura 4-8 se observan algunas diferencias en la calidad de las estimaciones del pa-
rámetro de dispersión en particular para los modelos m2, m3 y m4, siendo este último el
más contrastante, ya que al evaluar la ER se obtuvieron estimaciones más eficientes para
la función glm.comp en los tamaños muestrales de 25 y 50, y a partir de un número de
4.2 Resultados 35

observaciones de 100 las diferencias ya no son perceptibles entre las dos implementaciones.
Al igual que para las estimaciones de β1 y β2 , las estimaciones de ν exhibieron una mayor
calidad a medida que aumentó el β0 asumido, especialmente para n mayores o iguales a 100,
por lo tanto, el modelo m4 obtuvo estimaciones de mejor calidad a través de los diferentes
niveles del tamaño muestral respecto al modelo m1.

Al evaluar la proporción de IC al 95 % que contienen el verdadero parámetro, se pudo notar


un buen desempeño generalizado a través de todos los escenarios configurados por los niveles
del tamaño muestral y los modelos asumidos. Las tasas que se muestran en la Tabla 4-3
demuestran que hubo un buen desempeño del modelo CMP a la hora de estimar los coefi-
cientes asumidos ya que dichas proporciones no fueron inferiores al 90 %, es decir, que solo
en el 10 % o menos los IC no incluyeron los coeficientes asumidos para los modelos.

Los casos convergencia total indicaron un buen desempeño durante el proceso de ajuste del
modelo CMP en las dos implementaciones. Tanto las proporciones de convergencia en la
función glm.comp como en la función cmp fueron del 100 %, es decir, que ninguna de las
funciones tuvo problemas en la estimación de los modelos.

Calidad de las estimaciones en UD


En este nivel de dispersión fue donde se presentaron las diferencias más fuertes en las esti-
maciones de los coeficientes asumidos en las dos funciones. Para el coeficiente β0 la calidad
de su estimación presentó resultados coherentes (especialmente cuando n fue grande) para la
función cmp a través de los diferentes modelos asumidos y aunque la función glm.comp pre-
sentó resultados algo similares en el modelo asumido m1, en los demás presentó una calidad
muy baja especialmente en tamaños muestrales altos. La ER muestra como incrementa la
eficiencia de las estimaciones de la función cmp a medida que aumenta n y el valor verdadero
de β0 . En los modelos asumidos m1 y m2 cuando el tamaño muestral es mı́nimo es donde la
función glm.comp tiene alguna ventaja sobre la función cmp ya que obtuvo una mayor cali-
dad, pero a partir de 50 observaciones tienden a igualarse los valores de RECM (Figura 4-9).

Basado en el comportamiento de las estimaciones de la función cmp, al evaluar el desempeño


del modelo CMP para estimar β0 , se nota la tendencia a disminuir la RECM cada vez que
aumenta el tamaño muestral, pero al mirar el comportamiento a través de los diferentes mo-
delos asumidos se percibe que hay menor calidad cada vez que aumentó el valor verdadero
para el intercepto, excepto para m1 en el tamaño muestral más pequeño.
36 4 Comparación de las funciones glm.comp y cmp

12 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
cmp
10

8
β0
RECM^β^
0

RECM^β0

RECM^β0

RECM^β0
RECM

100 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
90
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
80
70
60
β0
0

ER^β0

ER^β0

ER^β0
ER^^β

50
ER

40
30
20
10
0

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-9.: Calidad del coeficiente estimado βˆ0 en un escenario de UD. Fuente: Elaboración
propia.

2.0 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
1.8 cmp
1.6
1.4
β1

1.2
RECM^β^
1

RECM^β1

RECM^β1

RECM^β1
RECM

1.0
0.8
0.6
0.4
0.2
0.0

14 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
12 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0

10

8
β1
1

ER^β1

ER^β1

ER^β1
ER^^β
ER

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-10.: Calidad del coeficiente estimado βˆ1 en un escenario de UD. Fuente: Elabora-
ción propia.
4.2 Resultados 37

2.0 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
1.8 cmp
1.6
1.4
β2

1.2
RECM^β^
2

RECM^β2

RECM^β2

RECM^β2
RECM

1.0
0.8
0.6
0.4
0.2
0.0

10 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp

Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
8

6
β2
2

ER^β2

ER^β2

ER^β2
ER^^β
ER

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-11.: Calidad del coeficiente estimado βˆ2 en un escenario de UD. Fuente: Elabora-
ción propia.

14 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
cmp
12

10
ν
RECM^ν^

8
RECM^ν

RECM^ν

RECM^ν
RECM

100 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
90
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
80
70
60
ν
ER^^ν

ER^ν

ER^ν

ER^ν

50
ER

40
30
20
10
0

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-12.: Calidad del coeficiente estimado ν̂ en un escenario de UD. Fuente: Elaboración
propia.
38 4 Comparación de las funciones glm.comp y cmp

En cuanto a la ER, las estimaciones de los coeficientes asociados a las variables predictoras
presentan comportamientos parecidos a los obtenidos para βˆ0 , lo cual no se da con los valores
de la RECM. Las diferencias se presentan fundamentalmente cuando el tamaño muestral es
pequeño donde la eficiencia favorece las estimaciones de la función glm.comp, mientras que
en tamaños muestrales altos hay mayor eficiencia de las estimaciones logradas por la función
cmp (Figura 4-10 y Figura 4-11).

Tabla 4-4.: Proporción de IC al 95 % que contienen los coeficientes verdaderos en un esce-


nario de UD. Fuente: Elaboración propia.
UD glm.comp cmp
m n β0 β1 β2 ν β0 β1 β2 ν
25 0.95 0.96 0.96 0.99 0.95 0.96 0.96 0.99
50 0.97 0.99 0.94 0.95 0.97 0.99 0.94 0.95
m1 100 0.93 0.99 0.94 0.95 0.93 0.99 0.94 0.95
200 0.92 0.97 0.93 0.93 0.92 0.97 0.93 0.93
500 0.91 0.90 0.95 0.95 0.91 0.90 0.95 0.95
25 0.98 0.97 0.98 1.00 0.99 0.97 0.94 0.98
50 0.91 0.99 0.98 0.98 0.96 0.97 0.96 0.97
m2 100 0.70 0.96 0.96 0.74 0.98 0.93 0.95 0.98
200 0.00 0.63 0.69 0.00 0.97 0.96 0.90 0.96
500 0.00 0.87 0.94 0.00 0.97 0.96 0.94 0.94
25 0.00 0.96 0.96 0.00 0.97 0.98 0.94 0.98
50 0.00 0.94 0.94 0.00 0.96 0.96 0.95 0.96
m3 100 0.00 0.84 0.84 0.00 0.96 0.94 0.97 0.97
200 0.00 0.03 0.25 0.00 0.97 0.99 0.91 0.97
500 0.00 0.25 0.26 0.00 0.95 0.95 0.93 0.96
25 0.00 0.90 0.92 0.00 0.97 0.98 0.93 0.97
50 0.00 0.66 0.81 0.00 0.99 0.97 0.96 0.99
m4 100 0.00 0.24 0.31 0.00 0.95 0.95 0.96 0.96
200 0.00 0.00 0.03 0.00 0.96 0.98 0.89 0.97
500 0.00 0.00 0.01 0.00 0.95 0.96 0.96 0.95

Según la Figura 4-12 los comportamientos de la RECM y la ER favorecen las estimaciones


producidas por la función cmp en la mayorı́a de los escenarios configurados. Los casos don-
de esto no sucede es cuando el tamaño muestral es mı́nimo particularmente en los modelos
asumidos m1 y m2, donde la función glm.comp obtuvo un mejor desempeño.
4.2 Resultados 39

Excepto en el modelo asumido m1, la función glm.comp no presenta una tendencia bien
marcada en la relación entre la calidad de las estimaciones y el tamaño muestral, ya que es
casi constante a través de los diferentes niveles de n. Por esto, si se toma como referencia los
resultados dados por la función cmp, la calidad de la estimación de ν̂ en el modelo CMP fue
deficiente particularmente cuando se asumió un valor de β0 bajo y donde el tamaño muestral
fue de 25 observaciones.

La Tabla 4-4 presenta la proporción de IC al 95 % que contienen el verdadero parámetro.


En ella se complementan los resultados obtenidos en cuanto a la calidad de las estimaciones
en el modelo CMP, ya que se presentan contrastes bien marcados entre las dos funciones.
Mientras que en general la función cmp realiza estimaciones adecuadas en los diversos es-
cenarios y para todos los parámetros, la función glm.comp no logró ese nivel de estimación
especialmente de los parámetros β0 y ν. La proporción de IC al 95 % en la función cmp no
son inferiores al 90 %, caso contrario al de la función glm.comp donde se presentan casos
donde en ningún momento el IC logró contener el verdadero parámetro siendo los casos más
llamativos, los presentados en los escenarios de los modelos asumidos m3 y m4 , en donde
tanto β̂0 y ν̂ presentaron coberturas de los IC desfavorables en todos los niveles de n.

En general las dos implementaciones obtuvieron tasas de convergencia casi absolutas lo que
indica un proceso adecuado de ajuste del modelo CMP. Solo en el escenario donde el modelo
asumido m1 y el tamaño muestral fue de 25, la función glm.comp presentó una proporción
del 98 % de convergencia, es decir, que en solo dos casos no se logró estimar el modelo.

4.2.2. Calidad predictiva y ER


A continuación se presentan los resultados obtenidos para las predicciones logradas por las
dos funciones que son objeto de comparación. Se hace una descripción de los resultados ob-
tenidos en términos de la calidad predictiva en los diferentes escenarios configurados.

Calidad predictiva en OD
La Figura 4-13 muestra que las predicciones difieren caracterı́sticamente en el modelo asu-
mido m4, es decir cuando el β0 asumido fue mayor. En este escenario se presentan eficiencias
en mayor parte a favor de la función glm.comp ya que en los tamaños muestrales con 25, 100
y 200 observaciones se presentaron valores medios de RECMP más altos para las prediccio-
nes logradas por la función cmp. En los demás modelos asumidos no se perciben diferencias
marcadas y eso lo demuestra la ER entre las dos funciones la cual es constante a través de
diferentes valores verdaderos del intercepto.
40 4 Comparación de las funciones glm.comp y cmp

20 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
16
RECMP

12
RECM^β0

RECM^β0

RECM^β0

RECM^β0
8

1.1 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
1.0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0

0.9

0.8
Y
0

ER^β0

ER^β0

ER^β0
^ERβ^
ER

0.7

0.6

0.5

0.4

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-13.: Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de OD. Fuente: Elaboración propia.

Al establecer las tendencias se puede notar que la RECMP es casi constante a través de
los diferentes niveles del tamaño muestral. Pero al variar el valor asumido para β0 se logró
determinar un comportamiento deficiente en cuanto a la calidad de las predicciones ya que
al aumentar dicho valor la RECMP fue aumentando, es decir, que al aumentar β0 se perdió
calidad predictiva.

Calidad predictiva en ED
En este escenario de dispersión los comportamientos fueron muy similares. Tanto la función
cmp como la glm.comp presentaron resultados muy parecidos ya que a simple vista es difı́cil
percibir diferencias. Al aumentar el número de cifras decimales para los valores de ER se al-
canza a experimentar una leve diferencia entre el desempeño predictivo de las dos funciones.
Esto se dio en el modelo asumido m4 cuando el tamaño muestral fue el más bajo.
4.2 Resultados 41

6 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
5

4
RECMP
0

RECM^β0

RECM^β0

RECM^β0
RECM^β

1.010 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.008
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.006
1.004
1.002
ERY0

ER^β0

ER^β0

ER^β0
^
^
β

1.000
ER

0.998
0.996
0.994
0.992
0.990

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-14.: Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de ED. Fuente: Elaboración propia.

Las predicciones presentan comportamientos muy similares en cuanto al desempeño predic-


tivo y la ER y sin diferencias marcadas cuando varı́a n. En la Figura 4-14 se puede observar
un comportamiento incremental de la RECMP, indicando que a un mayor de β0 asumido
menor fue la calidad predictiva de los modelos ajustados con estas dos funciones.

Calidad predictiva en UD
La calidad de las predicciones entre las dos funciones no presentan diferencias muy marcadas
pero si perceptibles, particularmente en el modelo m4. La ER muestra que en el modelo asu-
mido m1 fue donde ambas funciones presentaron resultados muy similares, excepto cuando el
tamaño muestral fue de 25, en donde la función glm.comp fue ligeramente más eficiente. En
los demás modelos asumidos, la ER experimentó ciertas fluctuaciones a través de los diversos
niveles del tamaño muestral, aún ası́, en ninguno de aquellos escenarios las predicciones de
la función glm.comp fueron más eficientes que las de la función cmp.

Cuando la media es mayor que la varianza se lograron percibir reducciones graduales en el


desempeño predictivo a medida que aumentó el valor asumido de β0 y además no se detectan
rasgos notorios que indiquen diferencias en cuanto al tamaño muestral ya que los comporta-
mientos son casi constantes a través de sus diferentes niveles (Figura 4-15).
42 4 Comparación de las funciones glm.comp y cmp

2.5 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
cmp
2.0
RECMP

1.5
0

RECM^β0

RECM^β0

RECM^β0
RECM^β

1.0

0.5

0.0

1.10 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
1.08
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.06
1.04
1.02
ERY
0

ER^β0

ER^β0

ER^β0
^
^
β

1.00
ER

0.98
0.96
0.94
0.92
0.90

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-15.: Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de UD. Fuente: Elaboración propia.

4.2.3. Diferencias identificadas


En primera instancia se resalta la capacidad que tiene la función glm.comp del paquete
CompGLM [26] para obtener los resultados tal como se obtienen en la función glm genérica
para ajustar MLG, de allı́ su nombre. La función cmp del paquete COMPoissonReg [31]
aunque no tiene este marco de presentación de resultados es más completa para el análisis
inferencial y el diagnóstico del modelo. En la siguiente lista se describen algunas de las
diferencias detectadas entre estás dos funciones.

Los errores estándar asociados a los coeficientes del modelo y al parámetro de dispersión
estimados en la función glm.comp están intercalados respecto a los obtenidos con la
función cmp (Anexo A). Examinando el resumen del modelo se identificó que el error
estándar de β̂1 en glm.comp es parecido al error estándar para β̂0 en cmp, el error
estándar de β̂2 en glm.comp es similar al error estándar para β̂1 en cmp y el error
estándar de ν̂ en glm.comp es parecido al error estándar para β̂2 en cmp CMP.

La calidad predictiva en UD, cuando se asignan valores de λ muy altos, la función


glm.comp al obtener el resumen del modelo para los coeficientes estimados, muestra
valores no númericos (NaN’s), indicando problemas a la hora de calcular la matriz
de información, a pesar de que no se experimentan problemas de iteración. También
presenta coeficientes estimados muy sesgados. El comportamiento de la función cmp en
las mismas condiciones fue más favorable ya que presentó estimaciones coherentes con
4.3 Discusión 43

los valores asumidos para el modelo.

100 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
80
(segundos)

60
0

RECM^β0

RECM^β0

RECM^β0
RECM^β
Tiempo

40

20

25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500

Valores asumidos para β0 Tamaño


Valores asumidos para β0 muestral (n)
Valores asumidos para β0 Valores asumidos para β0

Figura 4-16.: Tiempo medio de ajuste de un modelo CMP entre las funciones glm.comp y
cmp en un escenario de ED. Fuente: Elaboración propia.

La Figura 4-16 muestra el tiempo medio en segundos que demandó cada una de las
funciones para ajustar modelos CMP en un escenario de ED. Es claro el efecto consi-
derable que tiene el tamaño muestral sobre el tiempo de ajuste de un modelo con la
función cmp, mientras que con la función glm.comp la influencia del número de observa-
ciones no fue tan notorio. La eficiencia computacional es mayor en la función glm.comp
ya que tiene implementado mediante el paquete Rcpp algunos códigos escritos con C++
(caracterı́sticamente las funciones para obtener la constante de normalización Z) y su
proceso de optimización se hace por medio de la función optim. En cambio, la función
cmp tiene todo su código escrito en R [27, R Core Team 2016] y utiliza la función
nlminb para optimización no restringida de la función de log-verosimilitud y si no se
logra convergencia usa como método alternativo la función optim.

4.3. Discusión
En esta sección se discuten algunas de las diferencias encontradas entre dos implementaciones
en R [27, R Core Team 2016] para ajustar modelos CMP. También se analiza el desempeño
de dicho modelo a la hora de estimar los parámetros y de obtener las predicciones por medio
de la esperanza condicional de la media propuesta para este modelo en diferentes escenarios
de dispersión.

En OD, al examinar los resultados de las dos funciones se lograron identificar ciertos casos
donde el parámetro de dispersión es poco coherente con respecto al valor asumido. Vale la
pena anotar que en este escenario de dispersión se asignó un ν de 0.25 (Tabla 4-1) y cuando
se comparó este valor con los valores estimados de ambas funciones donde el tamaño muestral
44 4 Comparación de las funciones glm.comp y cmp

y el modelo asumido tuvo las más baja denominación (m1), en algunos casos esos valores
fueron iguales a 0 (coeficientes estimados iguales a cero) en la función cmp y muy cercanos
a 0 (con tres cifras decimales nulas) en la función glm.comp, lo que da a entender que al
parecer el modelo (no solo las funciones) tiene dificultades para lograr buenas estimaciones
en el modelo asumido m1 y en tamaños muestrales pequeños. Para efectos de análisis se
omitieron aquellos casos donde se presentaron dichas estimaciones incoherentes.

La ER en las estimaciones de los parámetros y las predicciones del modelo CMP en el esce-
nario donde la varianza fue mayor que la media estuvo en la mayorı́a de los casos alrededor
de 1, indicando que las dos implementaciones presentan estimaciones similares, excepto en el
modelo asumido m4 en donde se obtuvieron eficiencias en mayor parte a favor de la función
glm.comp, pero con una tendencia a igualarse cuando el tamaño muestral fue mayor a 200.
La presencia de diferencias en este caso pudieron darse debido a contrastes en la estimación
de la constante de normalización, ya que la función glm.comp está limitada por defecto para
ajustar conteos muy altos que superen el lı́mite descrito en la Sección 3.3.3, al eliminarse
dicha restricción se obtuvieron las diferencias respecto a la función cmp la cual no tiene tal
limitación.

En ED, los contrastes más fuertes se presentan en las estimaciones de los parámetros justo
entre los modelos asumidos m2 y m4 y cuando el tamaño muestral es menor a 50. Lo contra-
rio se experimenta cuando n es mayor, donde hay una tendencia obtener resultados similares
en ambas implementaciones ya que la ER para las estimaciones de los parámetros es muy
cercana a 1, a partir de tamaños muestrales superiores a 100; y en las predicciones la ER,
solo cuando n es igual a 25, hay una leve eficiencia a favor de la función cmp, de resto no hay
una función más eficiente que otra en los demás niveles de n.

La mayores diferencias entre las funciones en cuanto calidad de los coeficientes estimados
y el comportamiento de las predicciones, se presentaron en el escenario de UD cuando el
modelo asumido tuvo valores altos de β0 y de tamaño muestral. En el modelo asumido m1
se presentaron resultados similares excepto cuando el tamaño muestral fue muy bajo, ya que
tanto la ER de las estimaciones como de las predicciones obtuvieron eficiencias a favor de
la función glm.comp, es decir, que es el único caso donde la función cmp está en desventaja
ya que en el resto de los escenarios es claro que dicha función presenta resultados acordes
con los coeficientes asumidos y por supuesto con las predicciones. El factor principal que
influye en el resultado de la calidad predictiva es la estimación deficiente de los parámetros
del modelo en especial del parámetro de dispersión, debido a que la esperanza condicional
de la media además de estar en función de λ también depende de ν el cual actúa como un
coeficiente de escalamiento para el vector β̂ (Ecuación (2–5)).

En cuanto al desempeño del modelo a la hora de estimar los parámetros, se pudo caracterizar
4.4 Conclusiones 45

que en el escenario de OD el modelo CMP tuvo un desempeño deficiente cuando se asumió


un valor bajo para β0 ya que obtuvo los valores mas bajos de calidad de las estimaciones
respecto a los demás modelos asumidos, caracterı́sticamente en tamaños muestrales bajos.
Esto concuerda con lo obtenido por Francis et al. [9], en donde la distribución CMP MLG es
limitada para obtener estimaciones adecuadas en OD cuando se asumieron valores bajos para
el intercepto. En ED, el parámetro estimado con más bajo nivel de calidad fue el β0 , excepto
en el modelo asumido m1 en donde se presentaron comportamientos no tan contrastantes
entre los diversos coeficientes estimados. En el escenario de UD, si se toma como referencia
los resultados adecuados que arroja la función cmp, se logró determinar una calidad más baja
de las estimaciones en comparación con los escenarios de dispersión anteriores cuando n es
pequeño. También las estimaciones de β0 y de ν tuvieron comportamientos deficientes por
sus altos valores de RECM.

Al evaluar el papel del tamaño muestral se puede decir que tuvo influencia a la hora de eva-
luar la calidad de las estimaciones de los parámetros más no en el desempeño predictivo de
las dos funciones. Cuando se evaluaron las funciones en tamaños muestrales bajos fue donde
más se detectaron diferencias entre las dos funciones, especialmente en las estimaciones del
parámetro de dispersión. Esto es debido a que en el modelo de regresión CMP, según Sellers
& Shmueli [32], no se puede asegurar la normalidad asintótica de los coeficientes estimados
del modelo cuando n es muy pequeño. Cuando n fue en aumento se lograron percibir dife-
rencias un poco más leves y casi imperceptibles, más aún cuando se alcanzó el mayor nivel
de tamaño muestral, excepto en UD.

4.4. Conclusiones
Por medio de un estudio de simulación se logró determinar ciertas diferencias entre dos
implementaciones en R [27, R Core Team 2016] para ajustar modelos CMP en diferentes
variaciones del intercepto, tamaños muestrales y escenarios de dispersión. Por medio de me-
didas de calidad de las estimaciones, de desempeño predictivo y de ER se caracterizó el
comportamiento de dicho modelo y se determinaron los casos en donde según la calidad
predictiva es más conveniente usar una u otra implementación.

En términos generales las dos implementaciones para ajustar modelos CMP en R [27, R
Core Team 2016] producen predicciones similares en escenarios de ED y OD, especialmente
cuando el tamaño muestral es grande, por lo tanto, en estos escenarios serı́a conveniente usar
la función glm.comp por su ventaja en cuanto a la eficiencia computacional. En UD, será
conveniente usar la función cmp ya que sus estimaciones fueron más eficientes en tamaños
muestrales grandes y porque no presentó las inconsistencias anteriormente descritas al obte-
ner los errores estándar del modelo. El único caso donde se podrı́a usar la función glm.comp
46 4 Comparación de las funciones glm.comp y cmp

en UD serı́a al asumir valores bajos para β0 , es decir, para el modelo asumido m1, ya que
dicha función resultó ser más eficiente en tamaños muestrales bajos; y en tamaños grandes,
a pesar de no presentar diferencias marcadas con la función cmp, tal impementación es más
eficiente a nivel computacional.

La caracterización del modelo CMP arrojó resultados contrastantes en los diferentes escena-
rios de dispersión. En OD y en ED se lograron comportamientos similares en la calidad de las
estimaciones ya que presentaron valores similares en la mayorı́a de los parámetros (Excepto
para β0 en ED). En UD, se obtuvieron estimaciones deficientes para β0 y ν en comparación
con la calidad lograda por los coeficientes estimados asociados a las variables predictoras. Y
en general, al evaluar el efecto de la variación del coeficiente asumido β0 se logró determinar
que cuando este valor es bajo, el modelo tiene un mal desempeño en la calidad de las estima-
ciones, respecto a los demás modelos asumidos en cualquiera de los escenarios de dispersión.

Se logró detectar la calidad de la estimación del parámetro de dispersión como un factor que
puede determinar el comportamiento predictivo en el modelo CMP, ya que dicha estimación
tuvo problemas en algunos escenarios de OD y UD, lo cual puede afectar los valores ajusta-
dos obtenidos por el método de predicción de medias.
5. Eficiencia Relativa de la predicciones
entre los modelos CMP y Poisson
En este capı́tulo se evaluó con más detalle la calidad predictiva dentro de un marco de nor-
malidad asintótica en los estimadores de los parámetros de las distribuciones que son objeto
de comparación en esta disertación. Por ello, se realizó un estudio de simulación con un ta-
maño muestral suficiente para lograr representar dicho marco y en donde se compararon las
medidas de desempeño predictivo de los modelos ajustados a través de su ER. A diferencia
de algunos trabajos relacionados [9, 10], en donde los escenarios de dispersión se definieron
unos cuantos valores para el parámetro de dispersión ν, en este capı́tulo se evaluó el efecto
en el comportamiento predictivo a través un rango más amplio de intensidades de OD y UD.

También se hace una comparación especı́fica entre dos métodos de predicción propuestos por
Sellers & Shmueli [32], por lo tanto, se evaluará la ER de las predicciones obtenidas por el
método de medias y medianas definidas para el modelo CMP con el fin de recomendar la
implementación más adecuada a la hora de obtener valores ajustados ya que la aproximación
a la media condicional en este modelo es acertada solo cuando ν ≤ 1 o λi > 10ν .

Este capı́tulo se compone de las siguientes secciones. La Sección 5.1 se describen los diferen-
tes escenarios configurados por los niveles de factores que son objeto de evaluación en las
simulaciones. Luego se presentan los resultados de las medidas estadı́sticas en la Sección 5.2
y posteriormente son discutidos en la Sección 5.3. Finalmente, en la Sección 5.4 se dan a
conocer las conclusiones que marcaron relevancia en el análisis de los resultados.

5.1. Metodologı́a
En esta sección se dan a conocer los diferentes procedimientos que se realizaron para efec-
tuar las simulaciones. Se describe cómo se definieron los diferentes escenarios configurados
según las combinaciones de los niveles de factores considerados para el presente trabajo. En
este estudio de simulación se consideró un número de observaciones constante y suficiente
para asegurar la normalidad asintótica de las estimaciones de las diferentes alternativas para
ajustar datos de conteo.
48 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson

5.1.1. Descripción de la simulación


Para evaluar la eficiencia entre las predicciones de los modelos que son objeto de comparación
en este estudio, se diseñó un procedimiento de simulación basado en el algoritmo descrito en la
Sección 3.3. Una de las caracterı́sticas especı́ficas de tal procedimiento es que se utilizó un ta-
maño muestral constante para todos los conjuntos de datos generados de 1000 observaciones.

En total, se generaron 1000 conjuntos de datos (nsim = 1000) para cada uno de los escena-
rios conformados por las intensidades de dispersión y los modelos asumidos. Las intensidades
de dispersión abarcan una rango amplio tanto de OD como UD. Por ello, se definieron tres
intensidades para OD (ν = 0.25, 0.5, 0.75) y tres para UD (ν = 1.5, 2.5, 5) y ν = 1 para
el caso de ED. Cuatro clases de los modelos asumidos se definieron según el valor verdadero
adoptado para el parámetro β0 dejando constantes los coeficientes asumidos asociados a las
variables predictoras, indicando que el menor valor asumido de β0 corresponde al modelo
asumido de más baja denominación y ası́ respectivamente hasta el modelo de mayor deno-
minación.

A los conjuntos de datos generados se les ajustaron los modelos CMP y Poisson, para ser
comparados en OD con el modelo BN; y en ED y UD con el modelo PGR. Luego se al-
macenaron las estimaciones y se calculó la RECMP y la ER. En la Tabla 5-1, Tabla 5-2,
Tabla 5-3, se muestran los coeficientes asumidos para generar los datos para cada uno de los
escenarios de dispersión.

Tabla 5-1.: Coeficientes asumidos para el estudio de simulación de eficiencia entre el modelo
CMP y el modelo Poisson en, OD. Fuente: Elaboración propia.
ν =0.25 ν =0.50 ν =0.75
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 -0.50 0.30 0.50 0.70 -0.30 0.70 1.10 1.50 -0.10 1.20 1.70 2.20
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 0.25 0.25 0.25 0.25 0.50 0.50 0.50 0.50 0.75 0.75 0.75 0.75
5.2 Resultados 49

Tabla 5-2.: Coeficientes asumidos para el estudio de simulación de eficiencia entre el modelo
CMP y el modelo Poisson, en ED. Fuente: Elaboración propia.
ν =1.00
m1 m2 m3 m4
β0 0.10 1.60 2.30 3.00
β1 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50
ν 1.00 1.00 1.00 1.00

Tabla 5-3.: Coeficientes asumidos para el estudio de simulación de eficiencia entre el modelo
CMP y el modelo Poisson, en UD. Fuente: Elaboración propia.
ν=1.50 ν =2.50 ν =5.00
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 0.50 2.50 3.50 4.50 1.00 4.20 6.00 7.50 2.00 8.50 12.0 15.0
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 1.50 1.50 1.50 1.50 2.50 2.50 2.50 2.50 5.00 5.00 5.00 5.00

Tal como se ve en las tablas anteriores, el rango de niveles de dispersión es amplio y en los
diferentes modelos asumidos (m1, m2, m3, m4) el coeficiente verdadero para β0 es diferente
mientras que para β1 y β2 fueron constantes.

5.2. Resultados
La presente sección da a conocer los resultados que arrojaron las simulaciones. En cada es-
cenario de dispersión se obtuvieron los comportamientos de la calidad predictiva y la ER de
los diferentes modelos que son objeto de comparación. También se presenta por medio de
tablas, información sobre la proporción de veces durante el proceso de simulación en don-
de un modelo más básico fue más eficiente respecto al modelo alternativo o propuesto para
ajustar datos de conteo. Para complementar la información presentada gráficamente se puede
consultar los resúmenes de las simulaciones en el Apéndice C; allı́ la información numérica
se encuentra distribuida por cada una de las intensidades de dispersión planteadas dando a
conocer medidas de resumen básicas del desempeño predictivo de los modelos comparados.
50 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson

Por último, se comparan por medio de la ER las propuestas de [32] para obtener los valores
ajustados en un modelo CMP.

5.2.1. Eficiencia Relativa en OD


La Figura 5-1 muestra los comportamientos de la calidad predictiva de los modelos ajustados
en un escenario de OD. En ella se puede observar que en general los valores de RECMP son
muy similares entre las diferentes propuestas de análisis de datos de conteo.

10 ν = 0.25 ν = 0.5 ν = 0.75 Poisson


CMP
8
BN
RMSPE^β0

RMSPE^β0

RMSPE^β0
RECMP

1.5 ν = 0.25 ν = 0.5 ν = 0.75 CMP Poisson


CMP BN
1.4 BN Poisson
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.3
RMSPE^β0

RMSPE^β0

RMSPE^β0
ER

1.2

1.1

1.0

0.9

m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4

Valores asumidos para β0 Valores


Modelosasumidos para β0
asumidos Valores asumidos para β0

Figura 5-1.: Desempeño predictivo en OD. Fuente: Elaboración propia.

La evaluación de la ER muestra que la diferencias más notorias se presentan en el nivel de


OD más fuerte. En el modelo asumido m1 fue poco eficiente el modelo CMP respecto a los
modelos Poisson y BN. Lo contrario se dio en los modelos asumidos m2 y m3, en donde el
modelo CMP es más eficiente que los otros dos modelos. Y en el modelo asumido m4, el mo-
delo CMP solo es eficiente respecto al modelo BN. También se alcanza a notar que el modelo
Poisson es ligeramente más eficiente que el modelo BN. En los niveles de OD menos severos
las diferencias fueron menos perceptibles entre las diversas distribuciones contrastadas.
5.2 Resultados 51

12 ν = 0.25 ν = 0.5 ν = 0.75 CMPM


CMPMe
10

8
RMSPE^β0

RMSPE^β0

RMSPE^β0
RECMP
6

1.20 ν = 0.25 ν = 0.5 ν = 0.75 CMPMe CMPM

1.15
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.10
RMSPE^β0

RMSPE^β0

RMSPE^β0
ER

1.05

1.00

0.95

0.90

m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4

Valores asumidos para β0 Valores


Modelosasumidos para β0
asumidos Valores asumidos para β0

Figura 5-2.: Comparación de métodos de predicción en OD. Fuente: Elaboración propia.

La comparación de las propuestas de predicción para el modelo CMP que se muestran en la


Figura 5-2, indican que los comportamientos son muy similares en cuanto a los valores de
RECMP. A pesar de esto, la ER señala que el único caso donde las predicciones de mediana
fueron más eficientes que las de la aproximación de la media condicional, fue en el modelo
asumido de menor denominación m1, en el nivel de OD más fuerte (ν verdadero de 0.25).
En el resto de modelos asumidos las predicciones de media fueron más eficientes, aunque hay
una tendencia en la ER a ser más cercana a 1 a medida que aumenta el coeficiente asumido
para β0 .

La Tabla 5-4 corrobora los resultados anteriores. Muestra que la comparación entre el modelo
CMP y Poisson, el modelo CMP obtuvo el mayor número de casos de eficiencia en los modelos
asumidos m2 y m3, especialmente en el nivel de OD más fuerte. La comparación entre el
modelo CMP y el BN indicó que el modelo CMP obtuvo mayores casos de eficiencia entre los
modelos asumidos m2 y m4, incluso en niveles de OD menos severos. Y caracterı́sticamente,
el contraste entre los modelos BN y el Poisson, arrojó una mayor tasa de casos de eficiencia
a favor del modelo Poisson a través de los diferentes niveles de OD.
52 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson

Tabla 5-4.: Proporción de ER en un escenario de OD con n = 1000. Fuente: Elaboración


propia.
OD M
ν m CMP vs Poisson CMP vs BN BN vs Poisson ŶM e vs ŶM
m1 1.000 1.000 0.996 0.353
m2 0.226 0.159 0.996 1.000
ν =0.25
m3 0.173 0.095 0.995 1.000
m4 0.659 0.351 0.992 0.656
m1 0.945 0.931 0.999 1.000
m2 0.481 0.448 0.996 1.000
ν =0.50
m3 0.407 0.371 0.996 0.994
m4 0.432 0.319 0.992 0.944
m1 0.755 0.730 1.000 1.000
m2 0.494 0.471 1.000 1.000
ν =0.75
m3 0.466 0.407 0.998 0.975
m4 0.468 0.315 1.000 0.931

En cuanto a la comparación de las propuestas de predicción, se nota la ventaja en casos de


eficiencia de la predicción de medianas en el nivel de OD más fuerte y en m1, ya que en el
resto de escenarios fue predominante los casos de eficiencia de la predicción de medias.

5.2.2. Eficiencia Relativa en ED


Cuando la media y la varianza son iguales, los comportamientos en el desempeño predictivo
reflejados por los valores de la RECMP a través de los diferentes modelos asumidos son muy
similares entre los diversos modelos comparados. Incluso al evaluar la ER entre ellos, es casi
imperceptible algún rasgo que de un indicio de eficiencia en las predicciones a favor de uno
u otro modelo. La Figura 5-3 muestra que con número de tres cifras decimales ninguna de
las propuestas para análisis de datos de conteo es más eficiente una de la otra.

La comparación de los métodos de predicción a pesar de ser muy similares entre sı́ en cuan-
to a su calidad predictiva, muestra según la ER que fue más eficiente en todos los casos
la predicción de medias respecto a la de medianas (Figura 5-4). Sin embargo, se nota una
tendencia a disminuir la brecha en el desempeño predictivo a medida que aumenta el valor
asumido para β0 , es decir, la denominación del modelo asumido.

En cuanto a la proporción de casos de ER, la mayorı́a de los escenarios muestran que hubie-
ron proporciones equilibradas de eficiencia de un modelo respecto al otro. Las comparaciones
5.2 Resultados 53

6 ν=1 Poisson
CMP
5 PGR

RMSPE^β0
RECMP
3

1.010 ν=1 CMP Poisson


1.008 CMP PGR
PGR Poisson
1.006 Valores asumidos para β0
1.004
RMSPE^β0

1.002
ER

1.000

0.998

0.996

0.994

0.992

0.990

m1 m2 m3 m4

Valores
Modelosasumidos para β0
asumidos

Figura 5-3.: Desempeño predictivo en ED. Fuente: Elaboración propia.

6 ν=1 CMPM
CMPMe
5

4
RMSPE^β0
RECMP

1.10 ν=1 CMPMe CMPM

Valores asumidos para β0


1.05
RMSPE^β0
ER

1.00

0.95

0.90

m1 m2 m3 m4

Valores
Modelosasumidos para β0
asumidos

Figura 5-4.: Comparación de métodos de predicción en ED. Fuente: Elaboración propia.


54 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson

Tabla 5-5.: Proporción de ER en un escenario de ED con n = 1000. Fuente: Elaboración


propia.
ED M
ν m CMP vs Poisson CMP vs PGR PGR vs Poisson ŶM e vs ŶM
m1 0.664 0.666 0.445 1.000
m2 0.519 0.521 0.447 0.996
ν =1.00
m3 0.495 0.530 0.408 0.974
m4 0.491 0.545 0.400 0.914

del modelo CMP respecto al modelo Poisson y el modelo PGR muestran que la proporción de
casos de eficiencia entre estos tres modelos fue cercana al 50 %, con una leve ventaja de estos
dos últimos en m1. En la comparación del modelo PGR y el Poisson hay una proporción de
ventaja a favor de la eficiencia del modelo PGR.

El método de predicción de medias en el modelo CMP demostró su predominante eficiencia


en ED ya que la proporción de casos de eficiencia de este método estuvo siempre por encima
del 90 % respecto a las predicciones de mediana en todos los modelos asumidos (Tabla 5-5).

5.2.3. Eficiencia Relativa en UD


En UD, la RECMP según la Figura 5-5 fue muy similar entre las propuestas contrastadas
y por ello no marcan una diferencia notoria en cuanto los comportamientos de la calidad
predictiva. Sin embargo, la ER demostró que las predicciones del modelo CMP fueron menos
eficientes respecto a los demás modelos cuando se asumió el valor más bajo de β0 . Mientras,
que en la comparación del modelo PGR y el Poisson no se logró detectar una eficiencia de
un modelo respecto al otro, dado que los valores de ER son muy cercanos 1.

La Figura 5-6 muestra los comportamientos de la calidad predictiva entre los dos métodos
de predicción planteados para obtener valores ajustados en el modelo CMP. Los valores de
la RECMP muestran curvas muy similares a través de los diversos modelos asumidos, pero
al evaluar la ER se pudo determinar que de forma generalizada el procedimiento de obtener
valores ajustados por medio de la aproximación a la media fue más eficiente que el método
de predicción de medianas.

La Tabla 5-6 complementa la información gráfica descrita anteriormente. La comparación en


el comportamiento de las predicciones entre el modelo CMP y las dos propuestas muestran
5.2 Resultados 55

4.0 ν = 1.5 ν = 2.5 ν=5 Poisson


3.5 CMP
PGR
3.0

2.5
RMSPE^β0

RMSPE^β0

RMSPE^β0
RECMP

2.0

1.5

1.0

0.5

0.0

1.010 ν = 1.5 ν = 2.5 ν=5 CMP Poisson


CMP PGR
PGR Poisson
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.005
RMSPE^β0

RMSPE^β0

RMSPE^β0
ER

1.000

0.995

0.990

m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4

Valores asumidos para β0 Valores


Modelosasumidos para β0
asumidos Valores asumidos para β0

Figura 5-5.: Desempeño predictivo en UD. Fuente: Elaboración propia.

4.0 ν = 1.5 ν = 2.5 ν=5 CMPM


3.5
CMPMe

3.0

2.5
RMSPE^β0

RMSPE^β0

RMSPE^β0
RECMP

2.0

1.5

1.0

0.5

0.0

1.10 ν = 1.5 ν = 2.5 ν=5 CMPMe CMPM

Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0


1.05
RMSPE^β0

RMSPE^β0

RMSPE^β0
ER

1.00

0.95

0.90

m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4

Valores asumidos para β0 Valores


Modelosasumidos para β0
asumidos Valores asumidos para β0

Figura 5-6.: Comparación de métodos de predicción en UD. Fuente: Elaboración propia.


56 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson

Tabla 5-6.: Proporción de ER en un escenario de UD con n = 1000. Fuente: Elaboración


propia.
UD M
ν m CMP vs Poisson CMP vs PGR PGR vs Poisson ŶM e vs ŶM
m1 1.000 1.000 0.000 1.000
m2 0.557 0.598 0.002 0.997
ν =1.50
m3 0.528 0.584 0.001 0.978
m4 0.522 0.657 0.000 0.931
m1 1.000 1.000 0.003 1.000
m2 0.665 0.693 0.005 0.999
ν =2.50
m3 0.546 0.572 0.012 0.990
m4 0.524 0.572 0.012 0.951
m1 1.000 1.000 0.001 1.000
m2 0.957 0.955 0.616 1.000
ν =5.00
m3 0.641 0.628 0.920 0.999
m4 0.546 0.523 0.944 0.992

proporciones similares en los casos más leves de UD (ν = 1.5 y ν = 2.5); mientras que el en
el caso más fuerte de UD, además de presentar casos totales de menor eficiencia en m1, en
m2 esta proporción fue superior al 95 %, indicando que los modelos Poisson y PGR obtu-
vieron mayores casos eficiencia respecto al modelo CMP cuando se asumieron valores bajos
de β0 . La comparación entre el modelo Poisson y el PGR muestra que este último obtuvo
los mayores casos de eficiencia en ν = 1.5 y ν = 2.5 y en el caso más severo de UD, las
proporciones muestran ventajas para el modelo Poisson excepto en m1.

En cuanto a la comparación de los métodos de predicción, es claro que los valores ajustados
por medio de la media condicional propuesta para el modelo CMP superan en mayor número
de casos de eficiencia a aquellos obtenidos por predicción de medianas.

5.3. Discusión
Los resultados presentados en la sección anterior mostraron varios componentes de análisis
que son discutidos en esta sección. Aspectos tanto de la calidad predictiva como de la eva-
luación del método de predicción más adecuado para el modelo CMP, son analizados en esta
dentro del marco de la normalidad asintótica de las estimaciones.
5.3 Discusión 57

El efecto de los modelos asumidos en el desempeño predictivo indicó que a medida que se
aumentó el valor asumido para β0 , los valores de la RECMP aumentaron, es decir, que dis-
minuyó la calidad de las predicciones en las diferentes propuestas comparadas. Sin embargo,
al mirar el comportamiento de la calidad predictiva se logró percibir que hay una tendencia
a aumentar a medida que la intensidad de la dispersión se incrementa, es decir, que a mayor
nivel de ν se observaron reducciones graduales en los valores de la RECMP, por lo tanto, en
el nivel más extremo de OD se presentaron los valores más bajos y en el nivel más alto de
UD se experimentaron los valores más altos de calidad predictiva a través de los diferentes
modelos asumidos.

El contraste entre las propuestas de análisis de datos de conteo marcaron algunos resultados
relevantes. Uno de ellos, se relaciona con la comparación que es objeto de está disertación.
El desempeño predictivo entre el modelo CMP y el modelo Poisson en el marco de la norma-
lidad asintótica de las estimaciones determinó que únicamente en el caso de OD más severo
y cuando se definieron los modelos asumidos m2 y m3, las predicciones de media del modelo
CMP fueron ligeramente más eficientes que las del modelo Poisson. El modelo CMP presentó
un desempeño deficiente de sus predicciones especialmente cuando se asumió el valor más
bajo para el intercepto, siendo el nivel de OD más fuerte la evidencia más clara ya que allı́
fueron mucho más eficientes las predicciones de los modelos Poisson y BN. En UD también
se detectó un bajo desempeño de las predicciones del modelo CMP en valores bajos asumidos
para β0 pero en una escala menor a la presentada en OD. También este resultado concuerda
con lo expresado por Francis et al. [9], en donde se concluye que el modelo reparametrizado
CMP MLG tiene un desempeño deficiente o limitado en OD cuando se asumieron valores
bajos para β0 .

Respecto a la comparación del modelo BN con el modelo CMP, se destaca la eficiencia en OD


extrema que hay a favor de la calidad predictiva de este último, excepto cuando se asumió
el valor más bajo para el intercepto. En los escenarios de OD más cercanos a la ED ya no se
marcan eficiencias a favor de uno u otro modelo. Lo mismo sucedió al establecer la ER entre
los modelos BN y Poisson, donde solo en el caso más fuerte de OD las predicciones logradas
por el modelo BN obtuvieron mejor desempeño predictivo. El modelo CMP comparado con
el modelo PGR en UD, solo logró ser más eficiente justo donde las predicciones de media
tuvieron limitaciones, es decir, cuando se asumieron valores bajos para β0 . Tanto en ED como
en UD, no se logró determinar una eficiencia marcada entre los modelos PGR y Poisson, ya
que su ER fue muy cercana a 1 en todos los escenarios configurados, a pesar de que la
proporción de casos de eficiencia fue a favor del modelo PGR en los niveles de UD menos
fuertes, lo cual no se dio cuando se asumió un valor para ν de 5. Esto puede evidenciar
la limitación que señalan Sellers & Shmueli [32], respecto al modelo PGR, en donde dicha
propuesta es una alternativa para ajustar datos de conteo en UD pero en un rango no tan
flexible como lo hace el modelo CMP.
58 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson

En cuanto a la comparación de los métodos de predicción propuestos para el modelo CMP,


el único caso donde las predicciones de mediana fueron más eficientes que las logradas por
la aproximación a la media, se dio en el escenario de OD más extrema en m1. En el resto de
los casos incluso en UD, los valores ajustados obtenidos por medio de la media condicional
fueron más eficientes, con una ligera tendencia a reducir la brecha en la calidad predictiva al
aumentar el valor asumido de β0 . Sellers & Shmueli [32] proponen el método de predicción
de medianas como una alternativa generalizada para obtener valores ajustados, ya que se
obtienen cifras enteras y por la naturaleza de la mediana, ésta es una medida de tendencia
central más robusta en distribuciones sesgadas [33]. Sin embargo, al parecer esta propuesta
no logra ser más eficiente incluso cuando las predicciones de media según Sellers & Shmue-
li [32] son de baja calidad, es decir, cuando ν > 1, por lo tanto, aún en UD en donde se
presumı́a que las predicciones de mediana lograrı́an cierta ventaja, éstas no obtuvieron un
desempeño predictivo suficiente para minimizar la baja calidad de la aproximación de la
media condicional en este escenario de dispersión.

5.4. Conclusiones
La comparación entre la calidad predictiva del modelo CMP y el modelo Poisson fue eva-
luada mediante un estudio de simulación en el cual se tuvieron en cuenta factores como
la intensidad de la dispersión y la variación del intercepto expresada mediante los modelos
asumidos, en un marco donde el tamaño muestral fue lo suficientemente grande para ası́
asegurar la normalidad asintótica de las estimaciones logradas por las diferentes propuestas
para ajustar datos de conteo. Los resultados que fueron objeto de análisis en la anterior
discusión arrojaron las conclusiones descritas a continuación.

Debido al desempeño limitado que tuvo el modelo CMP en cuanto a sus predicciones espe-
cialmente en el escenario más severo de OD cuando se asumió el valor más bajo de β0 , la ER
entre este modelo y el modelo Poisson fue a favor de éste último. En esa misma intensidad
de dispersión, en los únicos casos que el modelo CMP logró ser más eficiente fue en m2 y m3.
Mientras que en las intensidades más cercanas a la ED, no se logró establecer una eficiencia
marcada de un modelo respecto al otro. En UD, se detectó una eficiencia leve a favor del
modelo Poisson a través de las diferentes intensidades de dispersión y especı́ficamente en m1.

La propuesta de Sellers & Shmueli [32] logró en algunos casos ser más eficiente y en otros no
tanto, respecto a los modelos BN y PGR. El modelo CMP obtuvo una mayor eficiencia de las
predicciones sobre las del modelo BN en el caso más fuerte de OD, pero cuando la intensidad
de OD fue más cercana a 1, y en la misma ED, las diferencias en desempeño predictivo ya no
fueron tan notorias. Mientras que en UD, se lograron percibir eficiencias a favor del modelo
PGR en m1.
5.4 Conclusiones 59

La calidad predictiva fue afectada por la variación del intercepto en los diferentes modelos
asumidos logrando una menor calidad en las predicciones cada vez que aumentaba el valor
asumido para β0 . También se percibió un efecto de la intensidad de la dispersión experimen-
tando una reducción gradual de los valores de la RECMP a medida que el valor asumido
para el parámetro de dispersión fue mayor.

Incluso en UD donde se esperaba un mejor desempeño de las predicciones de mediana, éstas


no lograron la suficiente calidad predictiva para superar a la de las predicciones logradas
por la aproximación de la media condicional de la distribución CMP. Particularmente, en
el caso de OD extrema cuando se asumió el valor más bajo para el intercepto el comporta-
miento de las predicciones logrado por el método de predicción de medianas superó a la de
las predicciones de media, por lo tanto, solo serı́a recomendable utilizar esta propuesta en
este escenario.
6. Aplicación con datos reales en la
ecologı́a
El objetivo de este capı́tulo es evaluar la calidad tanto de las predicciones de media como
de mediana en las distribuciones que han sido comparadas en los capı́tulos anteriores por
medio de dos casos de estudio reales aplicados dentro del campo de la ecologı́a. El primer
caso consiste en la predicción de la abundancia de una especie de interés en términos algunas
variables ambientales, lo cual es un proceso de análisis esencial a la hora de tomar decisiones
de manejo y conservación silvestre en lugares donde no se ha hecho un muestreo previo.
El segundo caso se desarrolla dentro del contexto del estudio de fauna silvestre ya que se
trata de establecer la relación entre el tamaño del nido en aves (asociado con el número de
huevos por nido) y las caracterı́sticas morfológicas de las especies observadas y ası́ configu-
rar estrategias de producción sostenible y/o de conservación basadas en la caracterización
del potencial de crecimiento de un conjunto de aves con caracterı́sticas taxonómicas similares.

Este capı́tulo tiene la siguiente estructura. La Sección 6.1 da a conocer los diferentes proce-
dimientos que se llevaron a cabo en cada uno de los estudios de caso. En la Sección 6.2 se
presentan los resultados obtenidos luego de obtener las diferentes medidas estadı́sticas que
serán objeto de discusión en la Sección 6.3. Finalmente, en la Sección 6.4 se presentan las
conclusiones más relevantes que lograron los estudios de caso planteados para este capı́tulo.

6.1. Metodologı́a
Esta sección da a conocer los procesos que se realizaron de forma general para los estudios de
caso planteados. Las bases de datos que son descritas en la Subsección 6.1.1 fueron filtradas
de tal forma que se pudiera resumir la información que fue considerada en cada caso. A los
conjuntos de datos resultantes se les ajustaron los modelos que fueron objeto de compara-
ción en los anteriores capı́tulos utilizando la configuración presentada en la Subsección 3.3.3
y luego se calcularon las medidas estadı́sticas descritas en la Sección 3.4 con el fin de evaluar
tanto la calidad de las estimaciones ası́ como de las predicciones. También se tuvieron en
cuenta los aspectos definidos en la Sección 3.1 para realizar los análisis estadı́sticos y las
recomendaciones de uso de la implementación más adecuada en R [27, R Core Team 2016]
6.1 Metodologı́a 61

para ajustar modelos CMP del Capı́tulo 4.

6.1.1. Descripción de los datos


Los procedimientos que se realizaron para la colección de información son descritos de forma
resumida para cada uno de los estudios de caso planteados. Aún ası́, en el caso de que se
quiera profundizar sobre los aspectos metodológicos y el contenido de los conjuntos de datos
obtenidos se recomienda consultar los trabajos de Ramesh et al. [28] y Myhrvold et al. [25],
en donde se encuentra la información detallada de cada uno de los estudios efectuados res-
pectivamente. Hay que señalar que éstas dos bases de datos consultadas hacen parte de The
Ecological Society of America (ESA) la cual publica material complementario de sus artı́culos
en Ecological Archives con licencia de Creative Commons Atribución 4.0 Internacional .

Descripción del estudio de abundancia

La información tenida en cuenta para este estudio de caso está contenida en un conjunto de
datos en donde se determinó la abundancia de especies de plantas leñosas en un total de 96
parcelas de muestreo distribuidas a través de un área que tiene una superficie de unos 22,000
km2 , considerada como una región con una gran biodiversidad por Myers et al. [24] y la cual
está localizada al suroeste de la India (Figura 6-1).

Fuente: Ramesh et al. [28]

Figura 6-1.: Localización del área de muestreo del estudio de abundancia.


62 6 Aplicación con datos reales en la ecologı́a

Las parcelas de muestreo fueron establecidas entre los años 1996 y 1997 dentro el marco
de un proyecto de colaboración entre el Departamento Forestal de Karnataka y el Instituto
Francés de Pondicherry. Éstas tienen una hectárea de tamaño (100 × 100 m) y se encuentran
en diversos tipos de bosque definidos por una serie de condiciones ambientales caracterı́sticas
de cada uno. En total fueron registrados 61965 individuos de 400 especies de árboles y lianas
con una circunferencia a la altura del pecho (CAP) igual o superior a 10 cm. También se
midieron tanto parámetros estructurales de los bosques, ası́ como variables bioclimáticas [28].

Para obtener las predicciones de abundancia, se eligió una especie de interés que es nativa
y por lo tanto, se presenta de forma silvestre en la India. El árbol de mango (Mangifera
indica) además de ser conocido por su fruto que es exportado a muchos paı́ses, tiene un uso
maderable para construir mueblerı́a de bajo costo; también es muy utilizado en el campo de
la medicina por sus propiedades astringentes [12]. El estudio de caso planteado consistió en
estimar las existencias por hectárea que hay de esta especie de forma silvestre dadas unas
condiciones de ambientales definidas por el número de estratos del bosque y la duración en
meses de la época de sequı́a. Dado esto, el conjunto de datos para este análisis contiene 96
observaciones correspondientes las mediciones en cada una de las parcelas de muestreo para
cada una de las variables consideradas.

Descripción del estudio del tamaño del nido

La base de datos utilizada para este estudio de caso fue aquella que contenı́a los registros
dados únicamente para aves. En general, el conjunto de datos total es una compilación de
una serie de investigaciones y publicaciones relacionadas con el estudio de especies de aves,
reptiles y mamı́feros. Dada la carencia de estandarización en la clasificación taxonómica y la
medición de las variables en las diferentes fuentes consultadas fue necesario crear una base
de datos general que facilite los análisis comparativos de los parámetros medidos para los
tres grupos de que conforman el clado de los amniotas. Como resultado final de este proceso
de normalización se obtuvo un conjunto de datos con 29 parámetros de la historia de vida
para 21322 especies de los amniotas [25].

Para la base de datos de aves se planteó estudiar la relación del tamaño del nido que es una
medida asociada con el número de huevos por nido, respecto a la masa del huevo y al peso
de la hembra en gramos. Para ello se filtró la información respectiva para el análisis de la
base de datos general y se consideró realizar el estudio especı́ficamente en especies del orden
de los Passeriformes. Este conjunto de datos tiene un total de 2061 observaciones para cada
una de las tres variables consideradas para este estudio.
6.2 Resultados 63

6.2. Resultados
Esta sección presenta en dos partes los resultados de la calidad predictiva de las distribu-
ciones comparadas durante este trabajo. La primera parte da a conocer los contrastes de
la calidad de las predicciones para el estudio de abundancia. La segunda parte presenta las
medidas estadı́sticas que evalúan el desempeño predictivo en el estudio del tamaño del nido
en aves.

6.2.1. Para el estudio de abundancia


La información que presenta la Tabla 6-1 es el resumen de las estimaciones de los parámetros
de los diferentes modelos ajustados. En primer lugar se logró diagnosticar que la variable
de conteo tiene una varianza mayor que la media y por lo tanto el parámetro de dispersión
estimado por el modelo CMP cae en el rango de OD. Al comparar los coeficientes de estimados
se nota la gran diferencia que obtuvieron los coeficientes estimados y sus respectivos errores
estándar (ES) en el modelo CMP luego de ser escalados. También se logró identificar que los
ES obtenidos por el modelo Poisson fueron los más bajos en contraste con los de las demás
distribuciones.

Tabla 6-1.: Resumen de las estimaciones en los modelos comparados en el estudio de abun-
dancia. Fuente: Elaboración propia.
β0 β1 β2 Dispersión
Modelo
β̂0 σ̂β̂0 β̂1 σ̂β̂1 β̂2 σ̂β̂2 φ̂ σ̂φ̂

Poisson -5.9071 1.0324 0.8820 0.0735 0.7693 0.1642 – –


CMPa -13636.9261ν̂ 4178.7752ν̂ 1337.6726ν̂ 331.7317ν̂ 1283.5193ν̂ 677.7827ν̂ 0.0001 11.8296
BN -5.8599 2.1009 0.9914 0.1865 0.7069 0.3340 0.5072 0.2142
PGR -5.6810 2.0868 1.0419 0.2089 0.6540 0.3278 0.5844 0.1071

a
Los coeficientes y sus ES están divididos por ν̂ (excepto los de dispersión) ya que según Sellers & Shmueli [32] deben
ser escalados para ser comparados con los de la regresión Poisson

La Tabla 6-2 presenta las diferentes medidas que se adoptaron para evaluar la calidad de
las predicciones en el estudio de la abundancia de la especie Mangifera indica. Se nota que
el modelo Poisson fue el que obtuvo el mejor desempeño tanto en la calidad de las predic-
ciones de media como de mediana respecto a las demás distribuciones. También se resalta la
calidad deficiente de las predicciones de media del modelo CMP debido a sus valores altos
de RECMP y EPAMe, lo cual no sucede con las predicciones de mediana en donde si bien
no presentaron un buen desempeño es considerable la diferencia que marca este método res-
pecto al de los valores ajustados obtenidos mediante la aproximación a la media condicional
propuesta para esta distribución.
64 6 Aplicación con datos reales en la ecologı́a

Tabla 6-2.: Calidad de las predicciones en los modelos comparados en el estudio de abun-
dancia. Fuente: Elaboración propia.
Poisson CMP BN PGR
Medida
M Me M Me M Me M Me
RECMP 4.227 4.180 3447.570 4.460 4.285 4.596 4.341 4.775
EPAMe 5.850 3.000 3449.608 1.000 6.808 0.955 7.465 1.000

6.2.2. Para el estudio del tamaño del nido en aves


Para este conjunto de datos se diagnosticó UD, dado que el parámetro de forma estimado
por el modelo CMP fue de 1.815. La comparación de las estimaciones y sus respectivos ES
marca una similaridad entre aquellas obtenidas por el modelo Poisson y el modelo BN.

Tabla 6-3.: Resumen de las estimaciones en los modelos comparados en el estudio del ta-
maño del nido en aves. Fuente: Elaboración propia.
β0 β1 β2 Dispersión
Modelo
β̂0 σ̂β̂0 β̂1 σ̂β̂1 β̂2 σ̂β̂2 φ̂ σ̂φ̂

Poisson 1.2283 0.0185 -0.0312 0.0067 0.0013 0.0003 – –


CMPa 1.2925ν̂ 0.0471ν̂ -0.0279ν̂ 0.0049ν̂ 0.0011ν̂ 0.0002ν̂ 1.8151 0.0020
BN 1.2283 0.0185 -0.0312 0.0067 0.0013 0.0003 13903.3396 0.0585
PGR 1.2317 0.0181 -0.0329 0.0066 0.0013 0.0003 0.9895 0.0046

a
Los coeficientes y sus ES están divididos por ν̂ (excepto los de dispersión) ya que según Sellers &
Shmueli [32] deben ser escalados para ser comparados con los de la regresión Poisson

Tabla 6-4.: Calidad de las predicciones en los modelos comparados en el estudio del tamaño
del nido en aves. Fuente: Elaboración propia.
Poisson CMP BN PGR
Medida
M Me M Me M Me M Me
RECMP 1.602 1.638 1.603 1.639 1.602 1.638 1.601 1.639
EPAMe 0.328 0.400 0.327 0.400 0.328 0.400 0.326 0.400

También se logró detectar ciertas diferencias en los ES del modelo CMP respecto a las otras
distribuciones, especialmente en las estimaciones de β0 y β1 . En la estimación del parámetro
de dispersión del modelo BN se presentó el ES más elevado, mientras que el del modelo CMP
6.3 Discusión 65

fue el más bajo.

Las predicciones de media del número de huevos de aves de la orden Passeriformes evaluadas
mediante la RECMP y el EPAMe indican que la distribución PGR obtuvo el mejor desem-
peño mientras que en las predicciones de mediana los modelos Poisson y BN obtuvieron la
mejor calidad predictiva en cuanto a la RECMP, lo que no sucedió en el EPAMe donde no se
logró diferenciar un desempeño a favor o en contra entre los modelos comparados (Tabla 6-4).

6.3. Discusión
Los resultados que se presentaron en el estudio de las predicciones de abundancia de la especie
Mangifera indica reflejan las consecuencias de un caso de OD extrema ya que el parámetro
de dispersión estimado por el modelo CMP al parecer tuvo problemas en su estimación. Este
comportamiento fue muy común en el escenario más severo de OD asumido en las simula-
ciones, en donde con tamaños muestrales pequeños y en valores muy bajos asumidos para
el intercepto dicho parámetro presentó problemas en su estimación obteniendo valores muy
cercanos a cero. Al dividir los coeficientes y sus respectivos ES por el valor de ν̂ tal como lo
proponen Sellers & Shmueli [32], se obtuvieron coeficientes sobrestimados en comparación
con los obtenidos por las demás distribuciones.

Otro aspecto que se evidencia en los resultados es la subestimación de los ES asociados a los
coeficientes del vector de β en el modelo Poisson. Tal como lo señalan Cameron & Trivedi
[3], una de las consecuencias de ajustar un modelo Poisson en OD es que los ES tienden a
ser subestimados generando coeficientes significativos cuando en realidad estos no lo son.

En cuanto a la calidad de las predicciones, es claro que el modelo Poisson es el que me-
jor desempeño logró. Debido a las estimaciones deficientes que produjo el modelo CMP,
especialmente del parámetro de dispersión, las predicciones obtenidas a través de la apro-
ximación a la media condicional presentaron valores muy bajos de desempeño predictivo,
lo que contrastó con lo obtenido por el método de estimación de medianas. Esto corrobora
los resultados de las simulaciones previas en donde definitivamente no es conveniente usar la
aproximación de la media en casos de OD extrema y con valores muy bajos para el intercepto.

El estudio del tamaño del nido en especies de aves del orden los Passeriformes, demostró ser
coherente con los resultados presentados en los estudios de simulación. En primera instancia,
el nivel de dispersión estimado por el modelo CMP indicó que los conteos del número de
huevos tuvo una media mayor que la varianza aunque no tan contrastantes ya que ν̂ fue
muy cercano a 1. Considerando el alto número de observaciones con el cual se puede asegu-
rar la normalidad asintótica de las estimaciones y que los interceptos estimados son bajos,
66 6 Aplicación con datos reales en la ecologı́a

se puede deducir que el desempeño del modelo CMP no fue tan bueno como el del mode-
lo Poisson e incluso del modelo BN que logró una calidad en las predicciones de media similar.

A pesar del buen desempeño del modelo Poisson respecto al modelo CMP, para el conjunto
de datos considerado en el estudio de aves, la distribución PGR fue la que mejor calidad de
predicción de medias obtuvo. Lo anterior, se puede explicar ya que esta distribución captura
correctamente un rango parcial de UD [32], por lo tanto, en un nivel bajo de UD se esperarı́a
un buen desempeño en su calidad predictiva. De igual forma, vale la pena indicar que a
partir de la tercera cifra decimal se empezaron a notar las diferencias entre las distribuciones
contrastadas. Lo mismo sucedió con la estimación de medianas, pero ya las diferencias fueron
a favor de los modelos BN y Poisson.

6.4. Conclusiones
Por medio de datos reales aplicados en el campo de la ecologı́a, se trató de implementar va-
rias propuestas para el análisis de datos de conteo y por medio de la evaluación de la calidad
predictiva se definieron cuáles de ellas logran un buen desempeño para ser adoptadas dentro
del procedimiento para configurar estrategias de producción sostenible y/o de conservación
según el enfoque de cada estudio.

Un estudio de abundancia de la especie Mangifera indica la cual es nativa de la India, indicó


según la base de datos analizada, que el número de individuos por hectárea dado un número
de estratos en el bosque y una duración en meses de la época de sequı́a puede obtener me-
jores predicciones si se ajusta un modelo Poisson incluso utilizando el método de estimación
de medianas. Por lo tanto, el modelo CMP no serı́a recomendable ya que fue muy limitado
a la hora de obtener valores ajustados a través de su aproximación a la media dadas las
caracterı́sticas de OD extrema, de bajos valores estimados para el intercepto y un tamaño
muestral insuficiente.

En el estudio del tamaño del nido en especies del orden de los Passeriformes se diagnosticó
un nivel de UD no tan fuerte ya que los valores entre la media y la varianza del número de
huevos por nido fueron ligeramente similares. Para determinar el potencial de crecimiento de
este conjunto de aves mediante la predicción del número de huevos por nido en términos del
peso del huevo y el de la hembra en gramos, se recomienda utilizar el modelo PGR, aunque
las diferencias en el comportamiento predictivo con las demás distribuciones no fueron tan
marcadas. Las condiciones de un gran tamaño muestral, además de un bajo nivel de UD
y de un valor bajo para el intercepto estimado fueron propicias para que la propuesta que
pertenece a la familia de las distribuciones Poisson generalizadas tuviera tal desempeño.
7. Conclusiones y recomendaciones
Se realizaron varios estudios de simulación con el fin de caracterizar la calidad de las predic-
ciones del modelo CMP y el Poisson y ası́ determinar la pérdida en eficiencia al ajustar el
modelo inadecuado ya sea en OD o en UD. A continuación se presentan las conclusiones y
recomendaciones que arrojó esta investigación.

7.1. Conclusiones
Ya sea en OD o UD, el ajustar un modelo inadecuado, en este caso el modelo Poisson, no se
incurre en una pérdida en la calidad predictiva incluso en escenarios con OD y UD fuertes.
Por lo tanto, se concluye que en la mayorı́a de los escenarios, el modelo Poisson fue tan
eficiente como el modelo CMP en términos de calidad de las predicciones. Si bien en el nivel
de OD más fuerte, hubo dos escenarios que representaron una ligera eficiencia a favor de las
predicciones del modelo CMP, esto no justifica su uso generalizado, ya que cuando se asu-
mieron valores bajos para el intercepto fue claramente ineficiente, particularmente en el nivel
más alto de OD e incluso comparado con el modelo BN. En UD, se presentó un resultado
similar aunque no tan notorio como en OD. La ineficiencia detectada en las predicciones de
media del modelo CMP a bajos valores de β0 también es una evidencia de que el modelo
inadecuado lograra una mayor eficiencia o una ganancia en el desempeño predictivo. Pero
cuando el valor asumido por el intercepto fue en aumento es casi imperceptible la eficiencia
de una u otra distribución.

La caracterización del desempeño de las estimaciones en el modelo CMP mostró que esta
distribución es muy limitada en escenarios donde la varianza en considerablemente mayor
que la media. La calidad de las estimaciones de los parámetros del vector de β y en espe-
cial del parámetro de dispersión, se vieron afectadas por los bajos tamaños muestrales al no
asegurar la normalidad asintótica de los estimadores. Esto produjo estimaciones para ν muy
cercanas a cero y por lo tanto muy desviadas del verdadero valor asumido.

Los factores de la variación del intercepto ası́ como de la intensidad de dispersión marcaron
un efecto sobre la calidad de las predicciones. Al aumentar los valores asumidos para β0
se experimentó una menor calidad de las predicciones, mientras que al reducir el nivel de
dispersión, es decir, cuando ν fue más cercano a cero, la calidad predictiva logró igualmente
68 7 Conclusiones y recomendaciones

una pérdida. Por lo tanto, un mayor desempeño predictivo es favorecido cuando el nivel de
dispersión representado por el parámetro ν, es más lejano a cero y cuando los valores asu-
midos para el intercepto son bajos.

Complementando la comparación de las distribuciones en cuanto a su desempeño predictivo,


se evaluó la bondad de ajuste por medio del CIA. Los resultados se pueden consultar en
el Apéndice D. Allı́ se puede observar la capacidad que tiene el modelo CMP para explicar
la relación funcional entre una respuesta de conteo y las variables predictoras, respecto las
otras distribuciones contrastadas. Únicamente en el nivel de ED, el modelo Poisson presentó
ventajas en cuanto a la bondad de ajuste, de resto en OD y UD la distribución con mejor
desempeño incluso en los niveles de dispersión más fuertes fue la CMP. Por lo tanto, se
concluye que al parecer el modelo CMP no representa una mayor eficiencia a la hora de
hacer predicciones, sin embargo, éste posee ventajas en cuanto a su capacidad de explicar
una relación funcional.

7.2. Recomendaciones
Para realizar predicciones de una variable de conteo sea cual sea el nivel de dispersión diag-
nosticado, se recomienda utilizar el modelo Poisson ya que en la mayorı́a de los casos obtuvo
un desempeño similar o mejor en la calidad de las predicciones y por ende es más eficiente no
solo a nivel predictivo sino en términos de demanda computacional. A menos de que se quiera
explicar la relación funcional en OD o en UD entre una respuesta de conteo y sus variables
predictoras, se recomienda usar la distribución CMP ya que presentó un mejor desempeño
en cuanto a la bondad de ajuste.

En el caso de optar por el ajuste de un modelo CMP en R [27, R Core Team 2016], la
implementación más adecuada para OD serı́a la función glm.comp pero con el limitante de
que no se puede ajustar conjuntos de datos donde al menos un valor de la respuesta más un
umbral de 10 exceda el valor configurado para el argumento SumTo (Yi + 10 > 100). Si es
este el caso, entonces se podrı́a aumentar el valor de SumTo o usar la función cmp teniendo en
cuenta que ésta tiene una mayor demanda computacional. En UD, se recomienda de forma
generalizada usar la función cmp ya que obtuvo las estimaciones de mejor calidad, mientras
que la función glm.comp se deberı́a usar exclusivamente en valores bajos del intercepto.

Luego del ajuste del modelo CMP tomando en cuenta la anterior recomendación, se sugiere
utilizar el método de predicción de medianas únicamente para el caso que se diagnostique
una fuerte OD y en valores bajos para el intercepto. De resto, la aproximación a la media
condicional serı́a el método de predicción adecuado incluso cuando ν > 1, en donde según
Sellers & Shmueli [32] las predicciones de media serı́an de baja calidad.
7.3 Trabajo futuro 69

7.3. Trabajo futuro


Siguiendo la misma lı́nea de investigación y dados los resultados en cuanto a lo limitante
que fue la calidad predictiva del modelo CMP, se propone un estudio a futuro para evaluar
el comportamiento a nivel predictivo del modelo reparametrizado CMP MLG propuesto por
Guikema & Goffelt [13] y la nueva alternativa planteada por Sáez & Conde [30] como lo es
el caso de la regresión hP, ya que al menos en las aplicaciones con datos reales desarrolla-
das en su artı́culo, se lograron estimaciones de mejor calidad a pesar de su gran demanda
computacional, que también serı́a un aspecto interesante para estudiar.
A. Anexo: Errores estándar
inconsistentes entre las funciones
glm.comp y cmp
> library(CompGLM);library(COMPoissonReg)

> set.seed(561)
> db <- simData(100, 1.6, -0.5, 0.5, v = 1) # Generar base de datos

> CMP_glm <- glm.comp(y ~ x1 + x2, data = db) # Ajuste glm.comp

> summary(CMP_glm) # Resumen del modelo para mostrar glm.comp ES

Call:
glm.comp(lamFormula = y ~ x1 + x2, data = db)

Beta:
Estimate Std.Error t.value p.value
(Intercept) 1.69241 0.15514 10.9092 < 2.2e-16 ***
x1 -0.69876 0.30427 -2.2965 0.0238211 *
x2 0.71741 0.18654 3.8458 0.0002162 ***

Zeta:
Estimate Std.Error t.value p.value
(Intercept) 0.083821 0.192428 0.4356 0.6641

AIC: 434.8594
Log-Likelihood: -213.4297

> CMP_cmp <- cmp(y ~ x1 + x2, data = db) # Ajuste cmp

(Intercept) x1 x2
1.5470236 -0.6484555 0.6657879
71

> sdev(CMP_cmp) # cmp ES

(Intercept) x1 x2 nu
0.3042728 0.1865441 0.1924286 0.1686995

Nótese en el resumen del modelo de la función glm.comp que el error estándar de β̂1 es simi-
lar al error estándar para β̂0 de la función cmp, el error estándar de β̂2 es parecido al error
estándar para β̂1 de la función cmp y el error estándar de ζ̂ es equivalente al error estándar
para β̂2 de la función cmp.
B. Anexo: Distribución empı́rica de β0 en
un modelo de regresión COM-Poisson

5
n = 50 β0 = 0.1 n = 50 β0 = 1.6 n = 50 β0 = 2.3 n = 50 β0 = 3.0
4
Densidad

Densidad

Densidad

Densidad
3

0
5
n = 100 β0 = 0.1 n = 100 β0 = 1.6 n = 100 β0 = 2.3 n = 100 β0 = 3.0
4
Densidad

Densidad

Densidad

Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2

0
5
n = 200 β0 = 0.1 n = 200 β0 = 1.6 n = 200 β0 = 2.3 n = 200 β0 = 3.0
Densidad

4
Densidad

Densidad

Densidad

Densidad

^ ^ ^ ^
3 β0 β0 β0 β0
2

0
5
n = 500 β0 = 0.1 n = 500 β0 = 1.6 n = 500 β0 = 2.3 n = 500 β0 = 3.0
4
Densidad

Densidad

Densidad

Densidad

^ ^ ^ ^
3 β0 β0 β0 β0
2

0
5
n = 1000 β0 = 0.1 n = 1000 β0 = 1.6 n = 1000 β0 = 2.3 n = 1000 β0 = 3.0
4
Densidad

Densidad

Densidad

Densidad

^ ^ ^ ^
3 β0 β0 β0 β0
2

−2 −1 0 1 2 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 1 2 3 4 5 1 2 3 4 5 6 7

^ ^ ^ ^ ^
β0 β0 β0 β0 β0

Figura B-1.: Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-Poisson


en diferentes tamaños muestrales. Fuente: Elaboración propia.
73

20 n = 1000 β0 = 0.1 β0 = 1.6 n = 1000 β0 = 2.3 n = 1000 β0 = 3.0 n = 1000


18

16

14

Densidad
Densidad

Densidad

Densidad

Densidad
12

10

−0.5 −0.3 −0.1 0.1 0.3 0.5 1.45 1.50 1.55 1.60 1.65 1.70 1.75 2.15 2.20 2.25 2.30 2.35 2.40 2.45 2.92 2.94 2.96 2.98 3.00 3.02 3.04 3.06 3.08

^ ^ ^ ^ ^
β0 β0 β0 β0 β0

Figura B-2.: Gráfico de distribución empı́rica de β0 en un modelo de regresión COM-Poisson


con n = 1000. Fuente: Elaboración propia.
C. Anexo: Resumen de las simulaciones
del Capı́tulo 5

Tabla C-1.: Resumen de las simulaciones para ν asumido de 0.25 con n = 1000. Fuente:
Elaboración propia.
ν = 0.25 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.2897 4.2057 6.1962 9.1915
M CMP 1.4946 4.1922 6.1722 9.2145
BN 1.2899 4.2194 6.2334 9.2493
Poisson 0.0468 0.1230 0.1724 0.2486
DE CMP 0.2968 0.1233 0.1726 0.2592
BN 0.0468 0.1246 0.1763 0.2541
Poisson 1.1618 3.8483 5.6965 8.4509
Mı́n CMP 1.1812 3.8271 5.6783 8.4653
BN 1.1620 3.8488 5.6989 8.4508
Poisson 1.4713 4.6298 6.7696 10.0835
Máx CMP 4.3653 4.6092 6.7337 10.1543
BN 1.4720 4.6662 6.8754 10.2679
75

Tabla C-2.: Resumen de las simulaciones para ν asumido de 0.5 con n = 1000. Fuente:
Elaboración propia.
ν = 0.5 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.1776 2.9142 4.3477 6.4754
M CMP 1.1806 2.9143 4.3474 6.4753
BN 1.1776 2.9147 4.3485 6.4767
Poisson 0.0372 0.0725 0.1023 0.1486
DE CMP 0.0399 0.0726 0.1023 0.1487
BN 0.0372 0.0725 0.1024 0.1488
Poisson 1.0681 2.7012 4.0566 6.0687
Mı́n CMP 1.0680 2.7005 4.0565 6.0683
BN 1.0681 2.7014 4.0566 6.0690
Poisson 1.3055 3.1924 4.7255 7.0230
Máx CMP 1.3738 3.1885 4.7214 7.0183
BN 1.3059 3.1950 4.7295 7.0291

Tabla C-3.: Resumen de las simulaciones para ν asumido de 0.75 con n = 1000. Fuente:
Elaboración propia.
ν = 0.75 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.1078 2.5869 3.6099 5.0287
M CMP 1.1079 2.5869 3.6099 5.0286
BN 1.1079 2.5870 3.6100 5.0288
Poisson 0.0319 0.0605 0.0819 0.1117
DE CMP 0.0320 0.0605 0.0819 0.1117
BN 0.0319 0.0605 0.0819 0.1118
Poisson 1.0234 2.4003 3.3634 4.7113
Mı́n CMP 1.0234 2.4003 3.3634 4.7114
BN 1.0234 2.4003 3.3634 4.7114
Poisson 1.2183 2.8093 3.9140 5.4408
Máx CMP 1.2191 2.8084 3.9131 5.4400
BN 1.2185 2.8099 3.9148 5.4418
76 C Anexo: Resumen de las simulaciones del Capı́tulo 5

Tabla C-4.: Resumen de las simulaciones para ν asumido de 1 con n = 1000. Fuente: Ela-
boración propia.
ν = 1.0 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.0569 2.2380 3.1738 4.5118
M CMP 1.0570 2.2380 3.1738 4.5118
PGR 1.0569 2.2380 3.1738 4.5118
Poisson 0.0288 0.0524 0.0724 0.1018
DE CMP 0.0288 0.0524 0.0724 0.1018
PGR 0.0289 0.0524 0.0725 0.1018
Poisson 0.9529 2.0788 2.9219 4.2090
Mı́n CMP 0.9533 2.0788 2.9219 4.2090
PGR 0.9529 2.0788 2.9219 4.2090
Poisson 1.1558 2.4455 3.4147 4.8152
Máx CMP 1.1556 2.4453 3.4147 4.8153
PGR 1.1558 2.4456 3.4147 4.8153

Tabla C-5.: Resumen de las simulaciones para ν asumido de 1.5 con n = 1000. Fuente:
Elaboración propia.
ν = 1.5 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 0.9705 1.8780 2.6168 3.6469
M CMP 0.9709 1.8780 2.6168 3.6469
PGR 0.9705 1.8779 2.6168 3.6469
Poisson 0.0236 0.0423 0.0581 0.0798
DE CMP 0.0236 0.0423 0.0581 0.0798
PGR 0.0236 0.0423 0.0581 0.0798
Poisson 0.8878 1.7468 2.4336 3.4166
Mı́n CMP 0.8886 1.7466 2.4336 3.4165
PGR 0.8878 1.7467 2.4336 3.4166
Poisson 1.0573 2.0408 2.8199 3.9358
Máx CMP 1.0574 2.0409 2.8200 3.9358
PGR 1.0573 2.0408 2.8198 3.9357
77

Tabla C-6.: Resumen de las simulaciones para ν asumido de 2.5 con n = 1000. Fuente:
Elaboración propia.
ν = 2.5 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 0.7875 1.4625 2.0937 2.8228
M CMP 0.7883 1.4625 2.0937 2.8228
PGR 0.7875 1.4624 2.0937 2.8228
Poisson 0.0179 0.0326 0.0459 0.0622
DE CMP 0.0180 0.0326 0.0459 0.0622
PGR 0.0179 0.0326 0.0459 0.0622
Poisson 0.7232 1.3423 1.9530 2.6228
Mı́n CMP 0.7239 1.3422 1.9529 2.6229
PGR 0.7232 1.3423 1.9529 2.6228
Poisson 0.8634 1.5822 2.2576 3.0409
Máx CMP 0.8644 1.5822 2.2577 3.0410
PGR 0.8634 1.5821 2.2575 3.0408

Tabla C-7.: Resumen de las simulaciones para ν asumido de 5 con n = 1000. Fuente: Ela-
boración propia.
ν = 5.0 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 0.5302 1.0441 1.4808 1.9978
M CMP 0.5303 1.0441 1.4808 1.9978
PGR 0.5297 1.0441 1.4808 1.9978
Poisson 0.0142 0.0229 0.0324 0.0440
DE CMP 0.0142 0.0229 0.0324 0.0440
PGR 0.0142 0.0229 0.0324 0.0440
Poisson 0.4795 0.9745 1.3842 1.8614
Mı́n CMP 0.4796 0.9745 1.3842 1.8614
PGR 0.4795 0.9745 1.3842 1.8614
Poisson 0.5796 1.1283 1.5955 2.1786
Máx CMP 0.5798 1.1283 1.5955 2.1786
PGR 0.5796 1.1283 1.5955 2.1786
D. Anexo: Evaluación de la bondad de
ajuste

Tabla D-1.: CIA medio con n = 1000. Fuente: Elaboración propia.


CIA
ν Modelo
m1 m2 m3 m4
Poisson 2862.57 5938.47 7063.43 8151.06
0.25 CMP 2754.79 5205.56 6042.69 6879.13
BN 2756.01 5239.09 6111.37 7011.29
Poisson 2780.35 4963.18 5897.52 6752.51
0.50 CMP 2741.41 4780.93 5655.68 6485.71
BN 2742.42 4791.97 5674.22 6507.11
Poisson 2742.20 4683.20 5388.81 6067.10
0.75 CMP 2734.63 4651.69 5352.39 6029.63
BN 2735.09 4654.46 5355.55 6032.63
Poisson 2722.06 4393.98 5115.94 5828.02
1.00 CMP 2723.03 4395.03 5116.97 5829.06
PGR 2723.05 4395.03 5116.98 5829.07
Poisson 2692.08 4139.74 4819.80 5492.22
1.50 CMP 2662.67 4074.89 4749.92 5419.55
PGR 2664.84 4079.37 4753.16 5421.90
Poisson 2500.21 3883.10 4621.72 5228.84
2.50 CMP 2322.12 3589.59 4314.13 4914.71
PGR 2344.98 3608.64 4325.66 4922.80
Poisson 2250.09 3694.62 4418.88 5029.17
5.00 CMP 1579.36 2924.71 3626.86 4227.10
PGR 1751.59 2969.73 3650.32 4241.97
E. Anexo: Documentación de las
funciones desarrolladas para las
simulaciones

Paquete ‘CMPvsPoissonSims’

Tipo Paquete

Tı́tulo Realiza simulaciones para comparar modelos de regresion Poisson y Conway-


Maxwell-Poisson (CMP).

Versión 0.1

Fecha 2016-06-01

Autor Alvaro Arley Castano C. <[email protected]>

Descripción Genera covariables con un nivel de correlación determinado. Genera con-


juntos de datos con dos covariables y una respuesta de conteo en un nivel de dispersión
deseado. Realiza simulaciones ajustando modelos para datos de conteo, almacena los coefi-
cientes estimados y calcula medidas de calidad predictiva y de bondad de ajuste. Obtiene
resumen estadı́stico de las medidas calculadas.

Licencia GPL-2

Depende COMPoissonReg, compoisson, CompGLM, VGAM


80 simCorData

simCorData Generar covariables

Descripción

Genera covariables ortogonales o correlacionadas con una distribución uniforme.

Uso

simCorData(n, rho = 0, met = 1, sem = 19318905)

Argumentos

n un valor entero para el tamaño muestral deseado.

rho correlación deseada. Debe estar entre [0,1). Por defecto rho = 0.

met método para obetener las covariables. Por defecto 1, que genera covaria-
bles con un nivel de correlación deseado. La opción 2 genera covariables
usando la función runif, sin una correlación fija.

sem un valor entero que define la semilla para generar las covariables. Por
defecto sem = 19318905.

Valor

Un objeto de clase data.frame con dos variables (x1, x2).

Ejemplos

simCorData(10) # Por defecto produce dos covariables con n = 10.


simCorData(10, met = 2, sem = 17) # Produce dos covariables con n = 10, sin
# una correlación fija y una semilla inicial de 17.
simData 81

simData Generar un conjunto de datos

Descripción

Genera un conjunto de datos con una respuesta de conteo y dos covariables.

Uso

simData(n, a, b, c, v, ...)

Argumentos

n un valor entero para el tamaño muestral deseado.


a, b, c valores asumidos para los parámetros del modelo (a = β0 , b = β1 , c = β2 ).
v valor asumido para el parámetro de dispersión. No debe ser igual a cero.
... argumentos de la función simCorData.

Valor

Un objeto de clase data.frame con tres variables (Respuesta y covariables).

Ejemplos
simData(10, 1, -0.5, 0.5, v=0.5) # Genera un conjunto de datos en
# OD con 10 observaciones.

simFit Realizar simulaciones y calcular medidas estadı́sticas

Descripción

Realiza simulaciones para comparar los modelos CMP y Poisson.

Uso

simFit(n, a, b, c, v, nsim, md, ...)


82 simFit

Argumentos

n un valor entero para el tamaño muestral deseado.


a, b, c valores asumidos para los parámetros del modelo (a = β0 , b = β1 , c = β2 ).
v valor asumido para el parámetro de dispersión. No debe ser igual a cero.
nsim número de simulaciones deseado.
md un valor de 1 para ajustar modelos CMP con la función glm.comp (Por
defecto) y un valor de 2 para ajustarlos con la función cmp.
... argumentos de la función simData.

Valor

Un objeto de clase data.frame con 51 variables correspondientes a las diferentes medidas


estadı́sticas calculadas.
SM valor asumido para el intercepto.
D valor asumido para el parámetro de dispersión.
N valor deseado para el tamaño muestral.
M código asignado al modelo ajustado.
B# valor asumido para el coeficiente verdadero.
b# valor del coeficiente estimado.
Sb# desviación entre B# y b#.
Db# diferencia porcentual de la desviación entre B# y b#.
SEb# error estándar estimado para b#.
Infb# lı́mite inferior del IC al 95 % para b#.
Supb# lı́mite superior del IC al 95 % para b#.
ContB# valor lógico. TRUE si el coeficiente verdadero está contenido en el IC.
Vt valor asumido para el coeficiente de dispersión verdadero.
V valor del coeficiente de dispersión estimado.
SV desviación entre Vt y V.
DV diferencia porcentual de la desviación entre Vt y V.
SEV error estándar estimado para V.
InfV lı́mite inferior del IC al 95 % para V.
SupV lı́mite superior del IC al 95 % para V.
simFit 83

ContVt valor lógico. TRUE si Vt está contenido en el IC.


MSPE ECMP para predicciones de media.
MSPEme ECMP para predicciones de mediana.
RMSPE RECMP para predicciones de media.
RMSPEme RECMP para predicciones de mediana.
MdAPE EPAMe para predicciones de media.
MdAPEme EPAMe para predicciones de mediana.
AIC CIA.
AICc CIA corregido para tamaños muestrales pequeños.
logL valor de la función de log-verosimilitud.
Conv valor lógico. TRUE si no se presentaron problemas de convergencia en el
ajuste del modelo.
tmp tiempo que requerido para ajustar el modelo en segundos.
ERba ER de b/a. a y b se definen según el orden jerárquico del código asignado
al modelo ajustado (M).
ERca ER de c/a. a y c se definen según el orden jerárquico del código asignado
al modelo ajustado (M).
ERba.me ER de b/a para las predicciones de mediana. a y b se definen según el
orden jerárquico del código asignado al modelo ajustado (M).
ERca.me ER de c/a para las predicciones de mediana. a y c se definen según el
orden jerárquico del código asignado al modelo ajustado (M).

Nota

Los valores de ER se calcularon teniendo en cuenta el criterio de un modelo más básico en


el denominador y el modelo propuesto o alternativo en el numerador. Por ello, al modelo
Poisson se le asignó un código M=1, al modelo CMP M=2, al modelo BN M=3 en OD. Y en
UD y ED, al modelo PGR se le asignó M=3.

Ejemplos
simData(10, 1, -0.5, 0.5, v=0.5, nsim=1000) # Genera un conjunto de datos en
# OD con 10 observaciones y 1000 simulaciones.
84 simFitCMP

simFitCMP Realizar simulaciones para comparar las funciones glm.comp y


cmp

Descripción
Realiza simulaciones para comparar los modelos CMP de dos impementaciones en R.

Uso
simFitCMP(n, a, b, c, v, nsim, ...)

Argumentos
n un valor entero para el tamaño muestral deseado.
a, b, c valores asumidos para los parámetros del modelo (a = β0 , b = β1 , c = β2 ).
v valor asumido para el parámetro de dispersión. No debe ser igual a cero.
nsim número de simulaciones deseado.
... argumentos de la función simData.

Valor
Un objeto de clase data.frame con 51 variables correspondientes a las diferentes medidas
estadı́sticas calculadas.

Nota
Los valores de ER se calcularon teniendo en cuenta el criterio de un modelo más básico
en el denominador y el modelo propuesto o alternativo en el numerador. Por ello, al
modelo Poisson se le asignó un código M=1, al modelo CMP de la función glm.comp M=2,
al modelo CMP de la función cmp se le asignó M=3.

Ver También
simFit.

Ejemplos
simFitCMP(10, 1, -0.5, 0.5, v=2.5, nsim=100) # Genera un conjunto de datos en
# UD con 10 observaciones y 100 simulaciones.
Stats 85

Stats Calcular medidas de resumen de las simulaciones

Descripción
Calcula medidas resumen de las simulaciones logradas por simFit.

Uso
Stats(e)

Argumentos
e un objeto de clase data.frame con los resultados de simFit en diferentes
escenarios.

Valor
Un objeto de clase list que contiene objetos de clase data.frame con medidas de resu-
men de las diferentes medidas estadı́sticas calculadas en simFit.
Coef valores medios de los coeficientes estimados.
Linf valores medios de los lı́mites inferiores de los IC al 95 %.
Linf valores medios de los lı́mites superiores de los IC al 95 %.
Cont proporciones de IC al 95 % que contienen el verdadero parámetro.
Bias sesgos de las estimaciones.
MSE ECM.
RMSE RECM.
SE valores medios de los errores estándar estimados.
GOF valores medios de las medidas de bondad de ajuste.
Mpred valores medios las medidas de calidad predictiva.
MdAPE valores medios de EPAMe en las predicciones de media y mediana.
Pred valores medios, DE, Mı́n y Máx de las medidas de calidad predictiva.
P.ER proporción de ER.
Time tiempo medio requerido para ajustar el modelo en segundos.
ER21 ER de 2/1 en las estimaciones.
86 Stats

ER23 ER de 2/3 en las estimaciones.


ER31 ER de 3/1 en las estimaciones.
ERpred ER en las predicciones.

Nota
Los valores de ER se calcularon teniendo en cuenta el criterio de un modelo más básico en
el denominador y el modelo propuesto o alternativo en el numerador. Por ello, al modelo
Poisson se le asignó un código M=1, al modelo CMP M=2, al modelo BN M=3 en OD. Y en
UD y ED, al modelo PGR se le asignó M=3.

Ejemplos

# Unión en un mismo data.frame de varios resultados de simFit.

v0.25a <- data.frame(rbind(v0.25m1,v0.25m2,v0.25m3,v0.25m4))

# Por ejemplo: El resumen de las simulaciones en OD con v=0.25


# y en m1, m2, m3 y m4

v0.25 <- Stats(v0.25a)


Bibliografı́a
[1] Armstrong, By J S. ; Collopy, Fred: Error Measures For Generalizing About Fore-
casting Methods: Empirical Comparisons. 8 (1992), Nr. 1, p. 69–80

[2] Bonate, P. L.: A brief introduction to Monte Carlo simulation. En: Clinical Pharma-
cokinetics 40 (1992), p. 15–22

[3] Cameron, A C. ; Trivedi, Pravin K.: Essentials of Count Data Regression. En:
Baltagi, B. H. (Ed.): A Companion to Theoretical Econometrics. Blackwell Publishing
Ltd, 2003. – ISBN 9780470996249, p. 331–348

[4] Cameron, A.C. ; Trivedi, Pravin K.: Regression Analysis of Count Data. New York
: Cambridge University Press, 1998. – 411 p.. – ISBN 0521635675

[5] Dobson, Annette J.: An introduction to generalized linear models. 2nd Ed. Chapman
& Hall/CRC, 2002. – 225 p.. – ISBN 1–58488–165–8

[6] Dunn, Jeffrey: compoisson: Conway-Maxwell-Poisson Distribution, 2012. – R package


version 0.3

[7] Efron, B: Double exponential families and their use in generalized linear Regression.
En: Journal of the American Statistical Association 81 (1986), p. 709–721

[8] Famoye, Felix: Restricted generalized poisson regression model. En: Communications
in Statistics - Theory and Methods 22 (1993), Nr. 5, p. 1335–1354

[9] Francis, Royce ; Geedipally, Srinivas R. ; Guikema, Seth D. ; Dhavala, Soma S. ;


Lord, Dominique ; Larocca, Sarah: Characterizing the Performance of the Conway-
Maxwell Poisson Generalized Linear Model. En: Risk Analysis 32 (2012), Nr. 1, p.
167–183. – ISSN 02724332

[10] Geedipally, Srinivas R.: Examining the Application of Conway-Maxwell- Poisson


Models for Analyzing Traffic Crash Data, Texas A&M University, Ph.D. Thesis, 2008.
– 129 p.

[11] Geedipally, Srinivas R. ; Guikema, Seth D. ; Dhavala, Soma S. ; Lord, Dominique:


Characterizing the Performance of the Bayesian Conway-Maxwell Poisson Generalized
Linear Model. En: Association, American S. (Ed.): Joint Statistical Meetings, 2008,
p. 22
88 Bibliografı́a

[12] Green Clean Guide ; Pranali Telang (Ed.): Economic Importance of Tree Spe-
cies. 2012. – 62 p.

[13] Guikema, Seth D. ; Goffelt, Jeremy P.: A Flexible Count Data Regression Model
for Risk Analysis. En: Risk Analysis 28 (2008), Nr. 1, p. 213–223. – ISBN 4105166042

[14] Hilbe, Joseph: Negative Binomial Regression. 2nd Ed. Cambridge University Press,
2011. – 553 p.. – ISBN 9780874216561

[15] Hurvich, C. L.: Regression and Time Series Model Selection in Small Samples. En:
Biometrika 76 (1989), p. 297–307

[16] Jowaheer, Vandna ; Mamode, Naushad: Estimating Regression Effects in Com


Poisson Generalized Linear Model. En: World Academy of Science, Engineering and
Technology 29 (2009), Nr. 1, p. 1040–1044. – ISSN 20103905

[17] Lord, D. ; Mannering, F.: The Statistical Analysis of Crash-Frequency Data: A


Review and Assessment of Methodological Alternatives. En: Transportation Research -
Part A 44(5) (2010), p. 291–305

[18] Lord, Dominique ; Geedipally, Srinivas R. ; Guikema, Seth D.: Extension of the
Application of Conway-Maxwell-Poisson Models: Analyzing Traffic Crash Data Exhi-
biting Underdispersion. En: Risk Analysis 30 (2010), Nr. 8, p. 1268–1276. – ISBN
1539–6924 (Electronic) 0272–4332 (Linking)

[19] Lord, Dominique ; Guikema, Seth D. ; Geedipally, Srinivas R.: Application of the
Conway-Maxwell-Poisson generalized linear model for analyzing motor vehicle crashes.
En: Accident Analysis and Prevention 40 (2008), Nr. 3, p. 1123–1134. – ISBN 0001–4575

[20] McCullagh, P ; Nelder, J: Generalized linear models. 2nd Ed. New York : Chapman
& Hall/CRC, 1972. – 511 p.. – ISBN 0412317605

[21] Miller, J: Comparing Poisson, Hurdle and ZIP model fit under varying degrees of
Skew and Zero-Inflation, University of Florida, Ph.D. Thesis, 2007. – 201 p.

[22] Minka, Thomas P. ; Shmueli, Galit ; Kadane, Joseph B. ; Borle, Sharad ; Boatw-
right, Peter: Computing with the COM-Poisson distribution / Carnegie Mellon Uni-
versity. Pittsburgh, PA, 2003. – Informe de Investigación. – 7 p.

[23] Mooney, C. Z.: Quantitative Applications in the Social Sciences. Vol. 116: Monte Carlo
Simulation. London : SAGE Publications, 1997. – 112 p.

[24] Myers, Norman ; Fonseca, Gustavo a B. ; Mittermeier, Russell a. ; Fonseca, G


a B. ; Kent, Jennifer: Biodiversity hotspots for conservation priorities. En: Nature 403
(2000), Nr. 6772, p. 853–858. – ISBN 0028–0836
Bibliografı́a 89

[25] Myhrvold, N. ; Baldridge, E. ; Chan, B. ; Sivam, D. ; Freeman, D. ; Morgan, E.:


An amniote life-history database to perform comparative analyses with birds, mammals,
and reptiles. En: Ecology 96 (2015), Nr. October, p. 3109

[26] Pollock, Jeffrey: CompGLM: Conway-Maxwell-Poisson GLM and distribution fun-


ctions, 2014. – R package version 1.0

[27] R Core Team: R: A Language and Environment for Statistical Computing. Vienna,
Austria: R Foundation for Statistical Computing, 2016

[28] Ramesh, B. R. ; Swaminath, M. H. ; Patil, Santoshgouda V. ; Dasappa ; Pélissier,


Raphaël ; Venugopal, P. D. ; Aravajy, S. ; Elouard, Claire ; Ramalingam, S.:
Forest stand structure and composition in 96 sites along environmental gradients in the
central Western Ghats of India. En: Ecology 91 (2010), Nr. January, p. 3118–3118. –
ISSN 0012–9658

[29] Ridout, M.S. ; Besbeas, P.: An empirical model for underdispersed count data. En:
Statistical Modelling 4 (2004), p. 77–89. – ISSN 1471–0820

[30] Sáez-Castillo, A.J. ; Conde-Sánchez, A.: A hyper-Poisson regression model for


overdispersed and underdispersed count data. En: Computational Statistics & Data
Analysis 61 (2013), p. 148–157. – ISSN 01679473

[31] Sellers, Kimberly ; Lotze, Thomas: COMPoissonReg: Conway-Maxwell Poisson


(COM-Poisson) Regression, 2015. – R package version 0.3.5

[32] Sellers, Kimberly F. ; Shmueli, Galit: A flexible regression model for count data.
En: Annals of Applied Statistics 4 (2010), Nr. 2, p. 943–961

[33] Sellers, Kimberly F. ; Shmueli, Galit: Predicting Censored Count Data with COM-
Poisson Regression. En: SSRN Electronic Journal (2010), p. 18

[34] Shmueli, G. ; Minka, T.P. ; Kadane, J.B. ; Borle, S. ; Boatwright, P.: A


Useful Distribution for Fitting Discrete Data: Revival of the Conway-Maxwell-Poisson
Distribution. En: Journal of the Royal Statistical Society. Series C (Applied Statistics)
54 (2005), Nr. 1, p. 127–142

[35] Winkelmann, Rainer: Econometric Analysis of Count Data. 5th Ed. Berlin : Springer-
Verlag, 2008. – 333 p.. – ISBN 978–3–540–78389–3

[36] Winkelmann, Rainer ; Zimmermann, Klaus F.: Recent Developments in Count Data
Modelling: Theory and Application. En: Journal of Economic Surveys 9 (1995), Nr. 1,
p. 1–24. – ISBN 1467–6419
90 Bibliografı́a

[37] Yee, Thomas W.: VGAM: Vector Generalized Linear and Additive Models, 2015. – R
package version 0.9-8

[38] Zou, Yaotian ; Geedipally, Srinivas R. ; Lord, Dominique: Evaluating the double
Poisson generalized linear model. En: Accident; analysis and prevention 59 (2013), Nr.
979, p. 497–505. – ISSN 1879–2057

[39] Zou, Yaotian ; Lord, Dominique ; Geedipally, Srinivas R. Over- and Under-
Dispersed Count Data : Comparing the Conway-Maxwell-Poisson and Double-Poisson
Distributions. 2011

También podría gustarte