Poisson Ayuda 1
Poisson Ayuda 1
Poisson Ayuda 1
Tesis o trabajo de grado presentada(o) como requisito parcial para optar al tı́tulo de:
Magı́ster en Ciencias - Estadı́stica
Lı́nea de Investigación:
Bioestadı́stica
Albert Einstein
Agradecimientos
Resumen
La modelación de datos de conteo se hace tı́picamente usando el modelo Poisson, en el
cual se asume que la media y la varianza son iguales. Cuando esta condición no es fácil de
justificar, se han propuesto diferentes alternativas, unas más flexibles que otras, en cuanto a
la captura tanto de sobredispersión como de subdispersión. Una de ellas es el modelo COM-
Poisson el cual fue recientemente propuesto y ha sido evaluado en términos inferenciales. La
propuesta de estudio que aquı́ se presenta quiere cuantificar la calidad predictiva del modelo
COM-Poisson con respecto al modelo Poisson, y ası́ establecer la pérdida en la eficiencia
que se tiene al ajustar el modelo inadecuado cuando la propiedad de equidispersión no es
satisfactoria. Los estudios de simulación efectuados determinaron que al ajustar el modelo
inadecuado, ya sea en sobre o subdispersión, no representa, en la mayorı́a de los casos, ni
una ganancia o pérdida en cuanto a la calidad predictiva. Dos estudios de caso aplicados a
la ecologı́a ilustran los resultados obtenidos.
Palabras clave: Datos de Conteo, Modelos Lineales Generalizados, Eficiencia Relativa, Re-
gresión Poisson, Regresión Conway-Maxwell-Poisson, Capacidad Predictiva, Dispersión.
Abstract
Modeling count data is typically done using the Poisson model, in which it is assumed that
the mean and variance are equal. When this condition is not easy to justify, different al-
ternatives have been proposed, some more flexible than others in terms of the capture of
both overdispersion and underdispersion. One of them is the COM-Poisson model which was
recently proposed and has been evaluated in inferential terms. The study proposal presen-
ted here wants to quantify the COM-Poisson model predictive quality with respect to the
Poisson model and establish the loss in efficiency that occurs when the inadequate model
is fitted when the property of equidispersion is not satisfactory. Simulation studies made
determined that when adjusting the inappropriate model either in over or underdispersion
doesn’t represent in most cases, a gain or loss in regard to the predictive quality. Two case
studies applied to the ecology illustrate the results obtained.
Keywords: Count Data, Generalized Linear Models, Relative Efficiency, Poisson regression,
Conway-Maxwell-Poisson regression, Predictive Power, Dispersion.
Contenido
Agradecimientos VII
Resumen IX
Contenido XII
Lista de Tablas XV
1. Introducción 1
1.1. Los datos de conteo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Estructura de la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Marco teórico 4
2.1. El Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2. El Modelo COM-Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3. Violación al supuesto de equidispersión (ED) . . . . . . . . . . . . . . . . . . 7
2.3.1. Sobredispersión (OD) . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.2. Subdispersión (UD) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3.3. Pruebas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4. Modelos alternativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.4.1. Modelo Binomial Negativo (BN) . . . . . . . . . . . . . . . . . . . . . 8
2.4.2. Modelo Poisson Generalizado Restringido (PGR) . . . . . . . . . . . 10
2.4.3. Modelo Poisson Doble (PD) . . . . . . . . . . . . . . . . . . . . . . . 10
2.4.4. Modelo hyper-Poisson (hP) . . . . . . . . . . . . . . . . . . . . . . . 11
2.5. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3. Metodologı́a 14
Contenido xi
6.1. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.1.1. Descripción de los datos . . . . . . . . . . . . . . . . . . . . . . . . . 61
6.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2.1. Para el estudio de abundancia . . . . . . . . . . . . . . . . . . . . . . 63
6.2.2. Para el estudio del tamaño del nido en aves . . . . . . . . . . . . . . 64
6.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7. Conclusiones y recomendaciones 67
7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Bibliografı́a 90
Lista de Figuras
Abreviaturas
Abreviatura Término
BN Binomial Negativa
CAP Circunferencia a la Altura del Pecho
CIA Criterio de Información de Akaike
CIAc Criterio de Información de Akaike corregido
CM P Conway-Maxwell-Poisson
DE Desviación Estándar
ECM Error Cuadrático Medio
ECM P Error Cuadrático Medio de Predicción
ECV Estimación por Cuasi-Verosimilitud
EM V Estimación por Máxima Verosimilitud
ED Equidispersión (en inglés: Equidispersion)
EP A Error Porcentual Absoluto
ER Eficiencia Relativa
ES Error Estándar
f mp Función de masa de probabilidad
hP hyper-Poisson
IC Intervalo de Confianza
iid Independientes e idénticamente distribuidos
M áx Máximo
M CM C (En inglés) Simulación Monte Carlo por Cadenas de Markov
M CRI Mı́nimos Cuadrados Reponderados Iterativamente
Mı́n Mı́nimo
M LG Modelo Lineal Generalizado
nsim Número de simulaciones
OD Sobredispersión (en inglés: Overdispersion)
PD Poisson Doble
P GR Poisson Generalizada Restringida
RECM Raı́z Cuadrada del Error Cuadrático Medio
RECM P Raı́z Cuadrada del Error Cuadrático Medio de Predicción
xx Lista de Sı́mbolos
Abreviatura Término
UD Subdispersión (en inglés: Underdispersion)
Sı́mbolo Término
M Media
m Modelo asumido
Me Mediana
n Tamaño muestral
Sı́mbolo Término
α Parámetro de dispersión de la distribución PGR
β Vector de parámetros del modelo de regresión
γ Parámetro de dispersión de la distribución hP
θ Parámetro de dispersión de la distribución BN y PD
λ Parámetro de centralización de la distribución Poisson
µ Media Poblacional ó Parámetro de centralización de la distribución CMP MLG
ν Parámetro de dispersión de las distribuciones CMP y CMP MLG
φ Parámetro de dispersión, forma o variación generalizado
1. Introducción
Este capı́tulo tiene como objetivo presentar el contexto sobre el cual se ha desarrollado el
problema del análisis de datos de conteo (Sección 1.1) cuando no se logra justificar la propie-
dad de equidispersión, para plantear las preguntas que serán objeto de evaluación durante
la investigación (Sección 1.2). También se presenta la estructura en la que se encuentra or-
ganizado este trabajo en la Sección 1.3.
Cameron & Trivedi [4] presentan dos formulaciones para obtener este tipo de datos. Una for-
ma es por medio de conteos directamente observables en cualquier situación, donde se asume
que hay un proceso homogéneo y estacionario en el cual el número de eventos por unidad de
tiempo o espacio son iid. Otra formulación es la que se da por medio de la discretización de
datos continuos, que consiste en aquellos conteos que se definen en una muestra de elementos
los cuales son clasificados según el tipo de evento de interés.
El problema que han tenido los modelos para datos de conteo son los niveles de dispersión
que estos pueden tomar. Según Hilbe [14], en la mayorı́a de los casos es raro que los datos
de conteo en la realidad tengan equidispersión, lo cual siempre se asume en la distribución
Poisson. Es más común encontrar datos con sobredispersión o subdispersión, aunque este
último con menos frecuencia. Cuando se habla de sobredispersión en los conteos por unidad
de tiempo o espacio, se refiere a que la varianza excede su media y se habla de subdispersión
cuando la varianza es menor que la media. Según Dobson [5], hay una forma de determinar
estos niveles de dispersión la cual consiste en hallar la constante de variación (φ) de acuerdo
a la siguiente expresión:
En vista de que se tiene un modelo tradicional, simple o básico como lo es el Poisson, surge
la necesidad de compararlo con un modelo más flexible (Modelo CMP) que hasta ahora se
ha desarrollado para modelar datos de conteo, debido a su ajuste adecuado cuando los datos
1.3 Estructura de la investigación 3
presentan diferentes niveles de dispersión. Por lo anteriormente expuesto surgen las siguien-
tes preguntas:
Para responder estas inquietudes se quiere determinar vı́a simulación la eficiencia relativa
entre el modelo Poisson y el Modelo COM-Poisson y comparar estos modelos por medio de
medidas de calidad de las predicciones, en diversos escenarios que tendrán como factores a
controlar, la variación de la dispersión y del intercepto, ası́ como, los tamaños muestrales.
Con este estudio se quiere aportar información que permita determinar el comportamiento
inferencial de las estimaciones del modelo en cuanto al desempeño predictivo, y también que
el estudio permita ser contrastado con otros estudios similares lo cual permitirá establecer
una base teórica y aplicada más robusta respecto al modelo CMP.
Según Cameron & Trivedi [4], la distribución Poisson que lleva el apellido de su formulador,
se estableció a partir de un caso lı́mite de la distribución binomial. Su propiedad fundamental
es la equidispersión donde la varianza es igual a la media (V ar(Y ) = E(Y ) = µ), y a partir
de esta relación se derivan los condicionamientos para la formulación de otros modelos para
datos de conteo.
e−λ λy
P (Y = y) = , y = 0, 1, 2, . . . (2–1)
y!
De allı́ que λ es interpretada como la media del número de eventos en un intervalo de longitud
de espacio o tiempo. Por ejemplo, el número de huracanes por año o el número de árboles
enfermos por hectárea.
Esta es la forma multiplicativa del modelo y se expresa ası́ ya que de esta manera asegura
que µ tendrá valores enteros no negativos. Si se plantea una forma aditiva hay un riesgo de
que ciertas combinaciones no cumplan con esta restricción [4].
n
X
log L(β) = {yi x0i β − exp(x0i β) − log yi !} (2–3)
i=1
La mayor desventaja del modelo Poisson es que no explica correctamente muchos conjuntos
de datos en los que existe sobredispersión o subdispersión dada su propiedad de equidisper-
sión [32]. Por ello, se han diseñado nuevas propuestas que pretenden ser más flexibles y que
abarcan los diferentes niveles de dispersión que puede tomar este tipo de datos.
6 2 Marco teórico
λy
P (Y = y) = v , y = 0, 1, 2, · · · , λ > 0, ν ≥ 0 (2–4)
(y!) Z (λ, v)
s
Donde Z (λ, ν) = Σ∞ λ
s=0 (s!)ν y ν ≥ 0 es el parámetro de forma o de dispersión y λ que pro-
P (Y =y−1) yν
viene de la expresión P (Y =y)
= λ
, que indica una tasa de decrecimiento de probabilidades
sucesivas [32].
Esta distribución pertenece a la familia exponencial y contiene tres distribuciones, que son
la distribución Poisson (Cuando ν = 1), la distribución geométrica (Cuando ν = 0 y λ < 1)
λ
y la distribución Bernoulli (Cuando ν → ∞, con probabilidad 1+λ ) [34].
El valor esperado y la varianza están dados por las ecuaciones (2–5) y (2–6). Como se puede
observar estas funciones no tienen una forma cerrada y se relacionan entre sı́ mediante ex-
presiones aproximadas [32].
∂E(Y ) 1
V ar(Y ) = ≈ λ1/ν (2–6)
∂ log λ ν
Según Sellers & Shmueli [32] con una prueba de dispersión se puede considerar qué tan ra-
zonable es usar la regresión Poisson dado el caso particular cuando la dispersión es igual
a 1 (H0 : ν = 1) o la regresión COM-Poisson (H1 : ν 6= 1) (Subsección 2.3.3). Los valores
ajustados se pueden obtener por medio de medias o medianas estimadas, ya que según Minka
et al. [22] la aproximación de la ecuación (2–5) es buena cuando ν ≤ 1 o λi > 10ν [32].
2.3 Violación al supuesto de equidispersión (ED) 7
Este modelo ajusta bien datos con diferentes niveles de dispersión, pero tiene una restricción
que es de cierta forma similar al supuesto de homocedasticidad en el caso de la regresión
lineal. Esta restricción consiste en que se asume el modelo teniendo en cuenta un nivel de
dispersión constante a través de todas las observaciones [32].
Entre los factores que pueden generar este tipo de dispersión se encuentran la heterogeneidad
no observada, por ejemplo cuando el investigador define un λ el cual deberı́a ser aleatorio.
También son causantes de OD, los diferentes procesos de generación de eventos, cuando el
proceso que genera el primer evento no es el mismo que genera el resto de los eventos; y la
falta de independencia en los eventos, es decir, cuando la ocurrencia de un evento tiene un
patrón de generación definido [3].
De acuerdo con Cameron & Trivedi [3], existe una prueba de dispersión que puede ser usada
tanto para OD como para UD. Consiste en el cálculo de un estadı́stico de prueba estimando
el modelo Poisson, obteniendo sus valores ajustados y ajustando un modelo mediante mı́ni-
mos cuadrados ordinarios sin intercepto. El contraste de hipótesis planteado para la prueba
define como H0 : α = 0 y H1 : α 6= 0, (siendo α el parámetro o constante de dispersión)
indicando que puede haber OD o UD si la prueba es de dos colas, o definiendo la hipótesis
alterna en el sentido del nivel de dispersión a diagnosticar.
Sellers & Shmueli [32] proponen una prueba para determinar si es más conveniente usar un
modelo Poisson o un modelo CMP para ajustar una respuesta de conteo. El juego de hipó-
tesis está plateado en función del parámetro de dispersión ν, donde H0 : ν = 1 y H1 : ν 6= 1,
al ser una prueba bilateral ésta no indica si hay OD o UD, por lo tanto, para diagnosticar el
escenario de dispersión se recomienda hacer análisis exploratorio o ajustar el modelo CMP
para conocer el valor de ν̂.
y+r−1 r y
P (Y = y) = pq , y = 0, 1, 2, . . . (2–8)
r−1
1
Donde r = 1/θ , p = 1+θµ
y q = (1 − p)
Las expresiones para la media y la varianza están dadas en las ecuaciones (2–9) y (2–10),
respectivamente.
r(1 − p)
E(Y ) = µ = (2–9)
p
r(1 − p)
V ar(Y ) = (2–10)
p2
Según Hilbe [14], el modelo BN se puede obtener a partir de la mezcla entre las distribuciones
Poisson y la Gamma. En la ecuación (2–11) se presenta la función de log-verosimilitud para
este modelo de regresión.
n
θ exp(x0i β)
X 1
log L(β; y, θ) = yi log 0
− log (1 + θ exp(x0i β)) +
i=1
1 + θ exp(xi β) θ
(2–11)
1 1
log Γ yi + − log Γ(yi + 1) − log Γ
θ θ
yi
(1 + αyi )yi −1
µi −µi (1 + αyi )
P (Yi = yi |µi , α) = exp , y = 0, 1, 2, . . . (2–12)
1 + αµi yi ! 1 + αµi
De acuerdo con Famoye [8], se le denomina como un modelo restringido debido a que el
parámetro de dispersión α es limitado para los intervalos 1 + αµi > 0 y 1 + αyi > 0. Cuando
el parámetro α = 0, el modelo pasa a ser un modelo Poisson, cuando α > 0 indica que hay
OD y cuando esta entre −2 µi
y cero indica que hay UD.
Debido a que el modelo posee cierta limitación en el ajuste de datos con UD, no es comple-
tamente flexible y computacionalmente eficiente para ser aplicado en los datos de conteo [32].
√
θy
y y eλ
f (y, λ, θ) = c(λ, θ) θ exp(−θλ) exp(−y) , y = 0, 1, 2, . . . (2–13)
y! y
1 1−θ 1
Donde ≈1+ 1+ , siendo c(λ, θ) la constante de normalización [38].
c(λ, θ) 12λθ λθ
Según Winkelmann [35], esta distribución tiene dos parámetros (λ, θ). El parámetro λ se
puede aproximar a la media de la distribución, mientras que θ define el nivel de dispersión,
cuando es menor que 1 hay OD, cuando es mayor que 1 hay UD y cuando es igual a 1 la
distribución se convierte en Poisson [38]. Su gran desventaja es que tanto la media como
la varianza no tienen formas cerradas y solo se pueden calcular por medio de las siguientes
aproximaciones:
λ
E(Y ) ≈ λ V ar(Y ) ≈ (2–14)
θ
2.4 Modelos alternativos 11
1 λy
f (y; γ; λ) = , y = 0, 1, 2, . . . (2–15)
1 F1 (1; γ; λ) (γ)y
Γ (a + r)
Donde γ, λ > 0, (a)r = a(a + 1) · · · (a + r − 1) = para a > 0 y r un entero positivo
Γ (a)
y la ecuación (2–16) es el rasgo de que coincide con la serie hipergeométrica.
∞
X (a)r z r
1 F1 (a; c; z) = (2–16)
r=0
(c)r r!
Las expresiones tanto de la media como de la varianza para esta distribución son dadas en
las ecuaciones (2–17) y (2–18), respectivamente [30].
1 F1 (1; γ; λ) −1
E(Y ) = λ − (γ − 1) (2–17)
1 F1 (1; γ; λ)
n
X
log L (γ, λ|y) = − log Γ (γ + yi ) + log(λ)nȳ + n log(y) − log 1 F1 (1; γ; λ) (2–19)
1=1
Según Sáez y Conde [30], esta distribución es flexible a la hora de capturar OD y UD, lo que
la establece como una alternativa para modelar datos de conteo. También es de notar que las
expresiones de la media y la varianza son explı́citas y no aproximadas tal como se da en la dis-
tribución CMP. Al parecer provee estimaciones de mejor calidad que las demás alternativas
propuestas a pesar de que demanda un gran esfuerzo computacional para ajustar los modelos.
12 2 Marco teórico
Luego Shmueli et al. [34] retomaron la distribución CMP originalmente propuesta por Con-
way & Maxwell en 1962, y determinaron sus propiedades distribucionales. Más tarde, Sellers
& Shmueli [32] dan a conocer las propiedades inferenciales como modelo de regresión. Geedi-
pally [10] y Guikema & Goffelt [13] contribuyen a la especialización del modelo, modificando
el modelo de regresión, caracterizando su desempeño a nivel predictivo y estableciéndolo
dentro del marco de los MLG y por lo tanto, es denominado como el modelo CMP MLG.
Luego han venido una serie de estudios en los cuales se han evaluado las propiedades in-
ferenciales del modelo CMP, en especial de la versión reparametrizada, teniendo en cuenta
diversos escenarios que van desde la variación de los métodos de estimación de los paráme-
tros, los diferentes niveles de dispersión, las medias y tamaños muestrales. A continuación se
presentan una serie de investigaciones que se han desarrollado a partir de este nuevo modelo.
Geedipally et al. [11] caracterizan el desempeño del MLG con respuesta CMP, en donde
se estiman los parámetros del modelo mediante el método bayesiano de simulación Monte
Carlo por cadenas de Markov (MCMC). El objetivo de este estudio fue caracterizar me-
diante simulaciones los parámetros en cuanto a su precisión en la estimación, y estimar la
carga computacional al implementar este método de estimación. Este estudio demostró que
los parámetros estimados por MCMC son precisos y que la carga computacional para su
estimación no es restrictiva.
Después Jowaheer et al. [16] estiman los efectos del modelo CMP MLG (modelo reparame-
trizado) mediante simulaciones. Ellos comparan los métodos de estimación de parámetros de
máxima verosimilitud (EMV) y de cuasiverosimilitud (ECV) en cuanto a su desempeño y
eficiencia. Determinaron que la pérdida de eficiencia en la estimación de los parámetros es
bastante insignificante y que las estimaciones de ECV son consistentes y casi tan eficientes
como los de EMV. Luego Lord et al. [18] evalúan el comportamiento del MLG con respuesta
CMP, por medio de una aplicación en donde los datos de accidentes automovilı́sticos tienen
UD. Este estudio se enfocó en evaluar el desempeño de este modelo en una caso donde hay
UD. Los resultados que se obtuvieron demostraron que el modelo CMP MLG, puede mo-
delar datos donde la varianza es menor que la media y que el desempeño es mucho mejor
comparado con el de modelos tradicionales, al menos con esa base de datos.
2.5 Estado del arte 13
Dentro del contexto de datos con censura pero aplicados a la modelación de datos de conteo,
Sellers & Shmueli [33] evalúan por medio de diferentes medidas de calidad en las predicciones
algunas distribuciones caracterı́sticas, entre ellas, la alternativa como modelo de regresión
que los mismos autores han propuesto. Se trata de la distribución CMP que ha sido adap-
tada dentro de un marco de análisis de datos con censura. También evalúan dos métodos de
predicción con datos reales y que fueron diagnosticados con censura a derecha y en UD. Los
resultados de este estudio determinaron que en un nivel alto de censura, el desempeño del
modelo Poisson estuvo por debajo de las demás alternativas comparadas, produciendo valo-
res ajustados muy altos. Mientras que las distribuciones CMP y PD obtuvieron desempeños
muy similares en términos de comportamiento predictivo [33].
Zou et al. [39] comparan las distribuciones CMP y la PD por medio de simulaciones en diver-
sos escenarios variando la media muestral y el nivel de dispersión. El objetivo principal del
estudio fue determinar el potencial de la distribución PD para explicar correctamente datos
con OD y UD. Al evaluar el desempeño entre cada modelo, se obtuvo un mejor comporta-
miento en el modelo CMP, con diferencias importantes en el ajuste estadı́stico de datos con
UD.
Y por último, Francis et al. [9] caracterizan el desempeño del MLG con respuesta CMP. Esti-
mando los párametros por EMV, y mediante simulaciones en escenarios con diferentes niveles
de dispersión y medias muestrales, se caracteriza la precisión de los parámetros estimados
y se evalúa el comportamiento en las predicciones. El estudio demostró que los parámetros
estimados por EMV son precisos y que este modelo tiene un buen desempeño a través de los
diferentes escenarios.
3. Metodologı́a
En este capı́tulo se describen los procedimientos que se realizaron durante la investigación
para responder a las preguntas planteadas en el Capı́tulo 1. Además de la información pro-
cedimental, se presenta una justificación del por qué se optó por un método o medida en
especı́fico.
Todas las simulaciones se realizaron en un computador con procesador Intelr CoreTM i5-
2430M con velocidad de 2.4 Ghz, con capacidad de memoria RAM de 6 GB y con el sistema
operativo Microsoftr WindowsTM 7 Ultimate de arquitectura de 64 bits.
Una muestra aleatoria está constituida de una variable respuesta o de conteo y dos variables
predictoras generadas a partir de una distribución uniforme. Según Mooney [23], la distri-
bución uniforme en su forma estándar (U [0, 1]) es el componente de construcción de una
simulación Monte Carlo. De acuerdo a lo anterior y teniendo en cuenta el método usado por
Francis et al. [9], las covariables fueron generadas por medio de una distribución uniforme
(x1 ∼ U [0, 1] y x2 ∼ U [0, 1]) las cuales se caracterizan por ser ortogonales.
p
X
ln(λi ) = β0 + βj xij = xi β (3–1)
j=1
tamaño muestral usado por los trabajos de Francis et al. [9] y Winkelmann [35].
Para evaluar la influencia del nivel de dispersión sobre la calidad de las predicciones y la
eficiencia relativa de los modelos se utilizó un nsim de 1000, ya que además de ser un número
estándar es el implementado por Jowaheer et al. [16] y Winkelmann [35] en sus simulacio-
nes. Para comparar las funciones glm.comp y cmp se utilizó un número de simulaciones de
100 ya que el proceso de optimización usado por la función cmp es considerablemente más
demandante a nivel computacional que el de la función glm.comp (Capı́tulo 4).
x1 ∼ U (0, 1) y x2 ∼ U (0, 1)
Yi ∼ P oisson(λ) , para ED
Yi ∼ CM P (λ, ν) , para OD y UD
3. Ajustar modelos Poisson y CMP al conjunto de datos generado. En OD, ajustar modelo
BN; y en ED y UD, ajustar modelo PGR .
Modelo Poisson
El modelo Poisson fue ajustado usando la función genérica glm especificando el modelo, los
datos de la muestra aleatoria generada y la familia Poisson con función de enlace log. Esta
función utiliza el método de Mı́nimos Cuadrados Reponderados Iterativamente (MCRI) para
obtener las estimaciones de los coeficientes del modelo.
Modelo CMP
∞ 100
X λj X λj
Z(λ, ν) = ≈ (3–2)
j=0
(j!)ν j=0
(j!)ν
Cuando Yi + 10 > 100, es necesario ajustar este lı́mite, de lo contrario el modelo no podrá ser
ajustado cuando se usa la función glm.comp. Para evitar que se termine el proceso de ajuste
del modelo, se eliminó está restricción ya que especialmente en el caso donde se especifica
un nivel de λ alto a un mayor nivel de OD, se obtienen conteos que superan ese lı́mite, aún
ajustándolo a un valor de 150.
En cuanto a los valores iniciales asignados para el proceso de optimización, estas dos imple-
mentaciones ajustan en primera instancia el modelo Poisson y luego utilizan los coeficientes
estimados de esa regresión como valores iniciales para el vector β.
Sellers & Shmueli [32] proponen dos métodos de estimación para obtener las predicciones.
El método de estimación de medias que se basa en el cálculo de la media condicional la cual
está en función de λ̂ y ν̂ (Ecuación (3–3)). El método de estimación de medianas consiste en
el cálculo de probabilidades consecutivas por medio de la ecuación (3–4) hasta que la suma
supere el valor de 0.5 [33].
1/ν̂ ν̂ − 1
ŷi |xi = λ̂i − (3–3)
2ν̂
ν
λi
P (Yi = yi ) = P (Yi = yi − 1) (3–4)
yi
Aunque Sellers & Shmueli [33] señalan que el método de predicción de medianas tiene ven-
tajas en cuanto a que predice valores enteros y que la mediana es una medida de tendencia
central más robusta en distribuciones sesgadas, no es claro si es más adecuada o no en térmi-
nos del comportamiento predictivo, especialmente en el escenario de UD donde de acuerdo
con Minka et al. [22] la aproximación a la media no es tan exacta. Para evaluar cuál de los
métodos es más adecuado se compararon las predicciones obtenidas en los diferentes escena-
rios configurados en términos de la calidad predictiva.
20 3 Metodologı́a
Modelo BN
Para el ajuste del modelo BN se utilizó la función vglm del paquete VGAM [37]. Luego de
definir la fórmula y los datos dentro de la función, se especificó la familia “negbinomial” y
como control del proceso de iteración un número máximo de 10000 para aumentar la proba-
bilidad de convergencia. También se suministraron los coeficientes estimados de la regresión
Poisson como valores iniciales para el vector β y para el parámetro de dispersión θ se asignó
un valor de 0.
Modelo PGR
Las estimaciones de este modelo fueron obtenidas utilizando las funciones definidas por Se-
llers & Shmueli [32], quienes usaron este modelo para comparar su propuesta en un escenario
de UD por medio de una aplicación con datos reales. Lastimosamente, en dichas aplicaciones
este modelo no logró convergencia en el proceso de estimación de los parámetros debido a
que este captura parcialmente algunos niveles de UD. De aquı́ surge la necesidad de evaluar
el comportamiento de este modelo, especialmente en los escenarios donde la media excede la
varianza. La definición de la función consiste en un proceso de optimización no restringida
a través de la función nlminb en la que se definió en primera instancia la función negativa
de log-verosimilitud que fue objeto de minimización. Al igual que en el modelo BN también
se asignaron los mismos valores iniciales tanto para el vector β como para el parámetro de
dispersión en este caso identificado como α.
Donde:
φ̂ : Coeficiente estimado.
Donde:
v
u
u1 X N
RECMφ̂ = t (φ̂i − φ)2 (3–7)
N i=1
Donde:
φ̂ : Coeficiente estimado.
v
u n
u1 X
RECM P = t (ŷi − yi )2 (3–8)
n i=1
Donde:
y : Respuesta observada.
ECMφ̂2
ER(φ̂1 ,φ̂2 ) = (3–9)
ECMφ̂1
ECM PŶ2
ER(Ŷ1 ,Ŷ2 ) = (3–10)
ECM PŶ1
A manera de interpretación, si ER > 1, entonces, φ̂1 es más eficiente que φ̂2 . La interpretación
es similar pero dentro del contexto donde se comparan las predicciones entre dos modelos.
Con esta medida se establece un criterio para evaluar si se pierde o no calidad en las predic-
ciones al ajustar un modelo equivocado respecto al modelo adecuado o alternativo.
3.6 Mediana del Error Porcentual Absoluto (EPAMe) 23
ŷi − yi
EP Ai = (3–11)
yi
Esta medida es implementada por Sellers & Shmueli [33] para evaluar el desempeño de las
predicciones de varias distribuciones en datos de conteo censurados.
2p(p + 1)
CIAc = CIA + (3–13)
n−p−1
Donde:
n : Tamaño muestral.
A pesar de que no es una medida que evalúa el comportamiento a nivel predictivo, ésta fue
incorporada a manera de complemento en la investigación para evaluar si el modelo CMP
podrı́a tener ventajas a la hora de explicar la relación funcional entre una variable respuesta
de conteo y su(s) predictora(s).
4. Comparación de las funciones
glm.comp y cmp
En este capı́tulo se efectúa un contraste entre las caracterı́sticas, las estimaciones y las pre-
dicciones logradas entre dos implementaciones para ajustar modelos CMP en el paquete
estadı́stico R [27, R Core Team 2016]. El objetivo de esta comparación es seleccionar la
implementación más adecuada para llevar a cabo los ajustes de los modelos CMP en las
diferentes simulaciones que demande la investigación. También se describen algunas de las
diferencias encontradas en cuanto al uso y resultados logrados por dichas funciones. Además
de esta comparación, se realizó una caracterización del desempeño del modelo CMP evaluan-
do la calidad de los coeficientes estimados y la calidad predictiva.
Este capı́tulo tiene la siguiente organización. La Sección 4.1 describe como se configuraron
las simulaciones efectuadas. En la Sección 4.2 se presentan los resultados obtenidos tanto en
la caracterización del desempeño de las estimaciones como en el comportamiento predictivo.
Esos resultados son posteriormente analizados y discutidos en la Sección 4.3. Y en la Sec-
ción 4.4 se definieron los casos donde se utilizaran las implementaciones y demás conclusiones
relevantes que arrojó el estudio.
4.1. Metodologı́a
En esta sección se presenta de forma detallada los procedimientos que se realizaron para
lograr los objetivos planteados para este capı́tulo. Se describe el proceso de las simulaciones
en los diferentes escenarios configurados por el tamaño muestral y el nivel de dispersión para
diferentes modelos asumidos variando β0 y dejando constantes los coeficientes asociados a
las variables predictoras.
por la función glm.comp del paquete CompGLM [26] y la función cmp del paquete COM-
PoissonReg [31]. Para ello se generaron 100 conjuntos de datos (tal como se describió en la
Sección 3.2) para cada uno de los escenarios conformados por los niveles de n (25, 50, 100,
200 y 500), en diferentes categorı́as de dispersión (OD, ED y UD). En cada uno de estos
escenarios se generaron los diferentes conjuntos de datos asumiendo diferentes modelos en
donde el coeficiente verdadero β0 fue variando mientras que los coeficientes asumidos asocia-
dos a las variables predictoras se dejaron fijos. A estos conjuntos de datos se les ajustaron
los modelos CMP usando las dos funciones de R que son objeto de comparación. Luego se
almacenaron las estimaciones y se calcularon las diferentes medidas descritas en el Capı́tulo
3. La Tabla 4-1 muestra los coeficientes asumidos para generar los datos para cada uno de
los escenarios.
Tabla 4-1.: Coeficientes asumidos para el estudio de simulación de comparación de las fun-
ciones glm.comp y cmp. Fuente: Elaboración propia.
OD ED UD
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 -0.50 0.30 0.50 0.70 0.10 1.60 2.30 3.00 2.00 8.50 12.00 15.00
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 0.25 0.25 0.25 0.25 1.00 1.00 1.00 1.00 5.00 5.00 5.00 5.00
Tal como se ve en la Tabla 4-1 y de acuerdo con lo expuesto en Subsección 3.2.1, en los
diferentes modelos asumidos (m1, m2, m3, m4) el coeficiente verdadero para β0 es diferente
mientras que para β1 y β2 fueron constantes. Con el fin de evaluar las dos funciones de R
(glm.comp y cmp) en escenarios de dispersión altos, se definieron los parámetros de dispersión
asumidos; un valor de ν de 0.25 que indica una alta OD, un valor para ν de 5 para alta UD
y un valor para ν de 1 para ED.
4.2. Resultados
Efectuadas las simulaciones se obtuvieron las diferentes medidas estadı́sticas, las cuales se
presentan gráficamente y cuantitativamente en esta sección. Vale la pena aclarar que en OD
no se tuvieron en cuenta algunos casos en donde se presentaron subestimaciones atı́picas del
parámetro de forma ν (Sección 4.3).
Al evaluar la calidad de las estimaciones para este coeficiente se nota la tendencia a dismi-
nuir la RECM cada vez que aumenta el tamaño muestral. En todos los modelos asumidos se
presentaron las estimaciones de menor calidad en tamaños muestrales pequeños, pero carac-
terı́sticamente el modelo m1 presentó los niveles más bajos de calidad respecto a los demás
modelos, incluso cuando el tamaño muestral fue superior a 100.
La ER en los modelos asumidos m1, m2 y m3, es muy cercana a 1, por lo tanto, en estos
escenarios las diferencias en las estimaciones de β1 y β2 entre las dos funciones comparadas
son casi imperceptibles.
28 4 Comparación de las funciones glm.comp y cmp
1.0 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.8
β0
0.6
RECM^β^
0
RECM^β0
RECM^β0
RECM^β0
RECM
0.4
0.2
0.0
1.4 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.2
1.0
β0
0
ER^β0
ER^β0
ER^β0
ER^^β
ER
0.8
0.6
0.4
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-1.: Calidad del coeficiente estimado β̂0 en un escenario de OD. Fuente: Elaboración
propia.
1.0 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.8
β1
0.6
RECM^β^
1
RECM^β1
RECM^β1
RECM^β1
RECM
0.4
0.2
0.0
1.1 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
0.7
β1
1
ER^β1
ER^β1
ER^β1
ER^^β
0.6
ER
0.5
0.4
0.3
0.2
0.1
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-2.: Calidad del coeficiente estimado β̂1 en un escenario de OD. Fuente: Elaboración
propia.
1.0 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.8
β2
0.6
RECM^β^
2
RECM^β2
RECM^β2
RECM^β2
RECM
0.4
0.2
0.0
1.1 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
0.7
β2
2
ER^β2
ER^β2
ER^β2
ER^^β
0.6
ER
0.5
0.4
0.3
0.2
0.1
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-3.: Calidad del coeficiente estimado β̂2 en un escenario de OD. Fuente: Elaboración
propia.
0.8 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
0.7
0.6
0.5
ν
RECM^ν^
RECM^ν
RECM^ν
RECM^ν
RECM
0.4
0.3
0.2
0.1
0.0
1.3 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
1.2
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.1
1.0
0.9
ν
ER^^ν
ER^ν
ER^ν
ER^ν
0.8
ER
0.7
0.6
0.5
0.4
0.3
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-4.: Calidad del coeficiente estimado ν̂ en un escenario de OD. Fuente: Elaboración
propia.
de los niveles del tamaño muestral y cuando alcanza las 500 observaciones las diferencias
tienden a ser similares para las dos funciones. En el modelo m1 se obtuvieron los valores
30 4 Comparación de las funciones glm.comp y cmp
más bajos de calidad para este coeficiente estimado, si se comparan con los demás modelos
asumidos en cada uno de los niveles de tamaño muestral. Al igual que los coeficientes ante-
riores, el parámetro ν experimentó un comportamiento constante de la ER en cada nivel de
tamaño muestral y de los modelos asumidos.
La proporción de IC que contienen los coeficientes asumidos en cada uno de los modelos,
indica que en general las dos funciones estimaron el verdadero parámetro al evaluar los IC
al 95 % de confianza para cada uno de los coeficientes estimados y a través de los diferentes
tamaños muestrales. Sin embargo, se presentaron dos casos en donde dicha afirmación no es
tan clara. Esto sucedió en las estimaciones de la función cmp, para los coeficientes β1 y β2 ,
en el modelo m4 y cuando el tamaño muestral fue de 25, en donde se obtuvieron los niveles
4.2 Resultados 31
1.8 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
1.6 cmp
1.4
1.2
β0
RECM^β^
0
RECM^β0
RECM^β0
RECM^β0
1.0
RECM
0.8
0.6
0.4
0.2
0.0
1.1 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
β0
0
ER^β0
ER^β0
ER^β0
ER^^β
0.7
ER
0.6
0.5
0.4
0.3
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-5.: Calidad del coeficiente estimado βˆ0 en un escenario de ED. Fuente: Elaboración
propia.
1.0 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
0.8
β1
0.6
RECM^β^
1
RECM^β1
RECM^β1
RECM^β1
RECM
0.4
0.2
0.0
1.1 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
0.7
β1
1
ER^β1
ER^β1
ER^β1
ER^^β
0.6
ER
0.5
0.4
0.3
0.2
0.1
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-6.: Calidad del coeficiente estimado βˆ1 en un escenario de ED. Fuente: Elaboración
propia.
4.2 Resultados 33
1.0 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
0.8
β2
0.6
RECM^β^
2
RECM^β2
RECM^β2
RECM^β2
RECM
0.4
0.2
0.0
1.1 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.0
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
0.7
β2
2
ER^β2
ER^β2
ER^β2
ER^^β
0.6
ER
0.5
0.4
0.3
0.2
0.1
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-7.: Calidad del coeficiente estimado βˆ2 en un escenario de ED. Fuente: Elaboración
propia.
0.8 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
0.7
0.6
0.5
ν
RECM^ν^
RECM^ν
RECM^ν
RECM^ν
RECM
0.4
0.3
0.2
0.1
0.0
1.3 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.2
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.1
1.0
0.9
ν
ER^^ν
ER^ν
ER^ν
ER^ν
0.8
ER
0.7
0.6
0.5
0.4
0.3
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-8.: Calidad del coeficiente estimado ν̂ en un escenario de ED. Fuente: Elaboración
propia.
34 4 Comparación de las funciones glm.comp y cmp
A diferencia de lo expuesto en las estimaciones para β0 , la calidad para estos dos coeficientes
tuvo mayores valores cada vez que fue incrementando el β0 asumido, siendo el modelo m4
el que expresa mejor calidad a través de los niveles del tamaño muestral en contraste con
los demás modelos asumidos. En el modelo m1, donde el valor verdadero de β0 fue de 0.1,
se experimentaron magnitudes de la RECM mayores en comparación con los demás modelos
asumidos en cada uno de los niveles de tamaño muestral, señalando una baja calidad en las
estimaciones de β1 y β2 .
En la Figura 4-8 se observan algunas diferencias en la calidad de las estimaciones del pa-
rámetro de dispersión en particular para los modelos m2, m3 y m4, siendo este último el
más contrastante, ya que al evaluar la ER se obtuvieron estimaciones más eficientes para
la función glm.comp en los tamaños muestrales de 25 y 50, y a partir de un número de
4.2 Resultados 35
observaciones de 100 las diferencias ya no son perceptibles entre las dos implementaciones.
Al igual que para las estimaciones de β1 y β2 , las estimaciones de ν exhibieron una mayor
calidad a medida que aumentó el β0 asumido, especialmente para n mayores o iguales a 100,
por lo tanto, el modelo m4 obtuvo estimaciones de mejor calidad a través de los diferentes
niveles del tamaño muestral respecto al modelo m1.
Los casos convergencia total indicaron un buen desempeño durante el proceso de ajuste del
modelo CMP en las dos implementaciones. Tanto las proporciones de convergencia en la
función glm.comp como en la función cmp fueron del 100 %, es decir, que ninguna de las
funciones tuvo problemas en la estimación de los modelos.
12 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
cmp
10
8
β0
RECM^β^
0
RECM^β0
RECM^β0
RECM^β0
RECM
100 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
90
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
80
70
60
β0
0
ER^β0
ER^β0
ER^β0
ER^^β
50
ER
40
30
20
10
0
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-9.: Calidad del coeficiente estimado βˆ0 en un escenario de UD. Fuente: Elaboración
propia.
2.0 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
1.8 cmp
1.6
1.4
β1
1.2
RECM^β^
1
RECM^β1
RECM^β1
RECM^β1
RECM
1.0
0.8
0.6
0.4
0.2
0.0
14 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
12 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
10
8
β1
1
ER^β1
ER^β1
ER^β1
ER^^β
ER
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-10.: Calidad del coeficiente estimado βˆ1 en un escenario de UD. Fuente: Elabora-
ción propia.
4.2 Resultados 37
2.0 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
1.8 cmp
1.6
1.4
β2
1.2
RECM^β^
2
RECM^β2
RECM^β2
RECM^β2
RECM
1.0
0.8
0.6
0.4
0.2
0.0
10 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
8
6
β2
2
ER^β2
ER^β2
ER^β2
ER^^β
ER
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-11.: Calidad del coeficiente estimado βˆ2 en un escenario de UD. Fuente: Elabora-
ción propia.
14 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
cmp
12
10
ν
RECM^ν^
8
RECM^ν
RECM^ν
RECM^ν
RECM
100 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
90
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
80
70
60
ν
ER^^ν
ER^ν
ER^ν
ER^ν
50
ER
40
30
20
10
0
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-12.: Calidad del coeficiente estimado ν̂ en un escenario de UD. Fuente: Elaboración
propia.
38 4 Comparación de las funciones glm.comp y cmp
En cuanto a la ER, las estimaciones de los coeficientes asociados a las variables predictoras
presentan comportamientos parecidos a los obtenidos para βˆ0 , lo cual no se da con los valores
de la RECM. Las diferencias se presentan fundamentalmente cuando el tamaño muestral es
pequeño donde la eficiencia favorece las estimaciones de la función glm.comp, mientras que
en tamaños muestrales altos hay mayor eficiencia de las estimaciones logradas por la función
cmp (Figura 4-10 y Figura 4-11).
Excepto en el modelo asumido m1, la función glm.comp no presenta una tendencia bien
marcada en la relación entre la calidad de las estimaciones y el tamaño muestral, ya que es
casi constante a través de los diferentes niveles de n. Por esto, si se toma como referencia los
resultados dados por la función cmp, la calidad de la estimación de ν̂ en el modelo CMP fue
deficiente particularmente cuando se asumió un valor de β0 bajo y donde el tamaño muestral
fue de 25 observaciones.
En general las dos implementaciones obtuvieron tasas de convergencia casi absolutas lo que
indica un proceso adecuado de ajuste del modelo CMP. Solo en el escenario donde el modelo
asumido m1 y el tamaño muestral fue de 25, la función glm.comp presentó una proporción
del 98 % de convergencia, es decir, que en solo dos casos no se logró estimar el modelo.
Calidad predictiva en OD
La Figura 4-13 muestra que las predicciones difieren caracterı́sticamente en el modelo asu-
mido m4, es decir cuando el β0 asumido fue mayor. En este escenario se presentan eficiencias
en mayor parte a favor de la función glm.comp ya que en los tamaños muestrales con 25, 100
y 200 observaciones se presentaron valores medios de RECMP más altos para las prediccio-
nes logradas por la función cmp. En los demás modelos asumidos no se perciben diferencias
marcadas y eso lo demuestra la ER entre las dos funciones la cual es constante a través de
diferentes valores verdaderos del intercepto.
40 4 Comparación de las funciones glm.comp y cmp
20 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp
cmp
16
RECMP
12
RECM^β0
RECM^β0
RECM^β0
RECM^β0
8
1.1 OD − m1 OD − m2 OD − m3 OD − m4 glm.comp/cmp
1.0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
0.9
0.8
Y
0
ER^β0
ER^β0
ER^β0
^ERβ^
ER
0.7
0.6
0.5
0.4
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-13.: Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de OD. Fuente: Elaboración propia.
Al establecer las tendencias se puede notar que la RECMP es casi constante a través de
los diferentes niveles del tamaño muestral. Pero al variar el valor asumido para β0 se logró
determinar un comportamiento deficiente en cuanto a la calidad de las predicciones ya que
al aumentar dicho valor la RECMP fue aumentando, es decir, que al aumentar β0 se perdió
calidad predictiva.
Calidad predictiva en ED
En este escenario de dispersión los comportamientos fueron muy similares. Tanto la función
cmp como la glm.comp presentaron resultados muy parecidos ya que a simple vista es difı́cil
percibir diferencias. Al aumentar el número de cifras decimales para los valores de ER se al-
canza a experimentar una leve diferencia entre el desempeño predictivo de las dos funciones.
Esto se dio en el modelo asumido m4 cuando el tamaño muestral fue el más bajo.
4.2 Resultados 41
6 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
5
4
RECMP
0
RECM^β0
RECM^β0
RECM^β0
RECM^β
1.010 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp/cmp
1.008
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.006
1.004
1.002
ERY0
ER^β0
ER^β0
ER^β0
^
^
β
1.000
ER
0.998
0.996
0.994
0.992
0.990
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-14.: Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de ED. Fuente: Elaboración propia.
Calidad predictiva en UD
La calidad de las predicciones entre las dos funciones no presentan diferencias muy marcadas
pero si perceptibles, particularmente en el modelo m4. La ER muestra que en el modelo asu-
mido m1 fue donde ambas funciones presentaron resultados muy similares, excepto cuando el
tamaño muestral fue de 25, en donde la función glm.comp fue ligeramente más eficiente. En
los demás modelos asumidos, la ER experimentó ciertas fluctuaciones a través de los diversos
niveles del tamaño muestral, aún ası́, en ninguno de aquellos escenarios las predicciones de
la función glm.comp fueron más eficientes que las de la función cmp.
2.5 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp
cmp
2.0
RECMP
1.5
0
RECM^β0
RECM^β0
RECM^β0
RECM^β
1.0
0.5
0.0
1.10 UD − m1 UD − m2 UD − m3 UD − m4 glm.comp/cmp
1.08
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.06
1.04
1.02
ERY
0
ER^β0
ER^β0
ER^β0
^
^
β
1.00
ER
0.98
0.96
0.94
0.92
0.90
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-15.: Contraste entre las estimaciones de las funciones glm.comp y cmp en términos
de RECMP y ER en un escenario de UD. Fuente: Elaboración propia.
Los errores estándar asociados a los coeficientes del modelo y al parámetro de dispersión
estimados en la función glm.comp están intercalados respecto a los obtenidos con la
función cmp (Anexo A). Examinando el resumen del modelo se identificó que el error
estándar de β̂1 en glm.comp es parecido al error estándar para β̂0 en cmp, el error
estándar de β̂2 en glm.comp es similar al error estándar para β̂1 en cmp y el error
estándar de ν̂ en glm.comp es parecido al error estándar para β̂2 en cmp CMP.
100 ED − m1 ED − m2 ED − m3 ED − m4 glm.comp
cmp
80
(segundos)
60
0
RECM^β0
RECM^β0
RECM^β0
RECM^β
Tiempo
40
20
25 50 100 200 500 25 50 100 200 500 25 50 100 200 500 25 50 100 200 500
Figura 4-16.: Tiempo medio de ajuste de un modelo CMP entre las funciones glm.comp y
cmp en un escenario de ED. Fuente: Elaboración propia.
La Figura 4-16 muestra el tiempo medio en segundos que demandó cada una de las
funciones para ajustar modelos CMP en un escenario de ED. Es claro el efecto consi-
derable que tiene el tamaño muestral sobre el tiempo de ajuste de un modelo con la
función cmp, mientras que con la función glm.comp la influencia del número de observa-
ciones no fue tan notorio. La eficiencia computacional es mayor en la función glm.comp
ya que tiene implementado mediante el paquete Rcpp algunos códigos escritos con C++
(caracterı́sticamente las funciones para obtener la constante de normalización Z) y su
proceso de optimización se hace por medio de la función optim. En cambio, la función
cmp tiene todo su código escrito en R [27, R Core Team 2016] y utiliza la función
nlminb para optimización no restringida de la función de log-verosimilitud y si no se
logra convergencia usa como método alternativo la función optim.
4.3. Discusión
En esta sección se discuten algunas de las diferencias encontradas entre dos implementaciones
en R [27, R Core Team 2016] para ajustar modelos CMP. También se analiza el desempeño
de dicho modelo a la hora de estimar los parámetros y de obtener las predicciones por medio
de la esperanza condicional de la media propuesta para este modelo en diferentes escenarios
de dispersión.
En OD, al examinar los resultados de las dos funciones se lograron identificar ciertos casos
donde el parámetro de dispersión es poco coherente con respecto al valor asumido. Vale la
pena anotar que en este escenario de dispersión se asignó un ν de 0.25 (Tabla 4-1) y cuando
se comparó este valor con los valores estimados de ambas funciones donde el tamaño muestral
44 4 Comparación de las funciones glm.comp y cmp
y el modelo asumido tuvo las más baja denominación (m1), en algunos casos esos valores
fueron iguales a 0 (coeficientes estimados iguales a cero) en la función cmp y muy cercanos
a 0 (con tres cifras decimales nulas) en la función glm.comp, lo que da a entender que al
parecer el modelo (no solo las funciones) tiene dificultades para lograr buenas estimaciones
en el modelo asumido m1 y en tamaños muestrales pequeños. Para efectos de análisis se
omitieron aquellos casos donde se presentaron dichas estimaciones incoherentes.
La ER en las estimaciones de los parámetros y las predicciones del modelo CMP en el esce-
nario donde la varianza fue mayor que la media estuvo en la mayorı́a de los casos alrededor
de 1, indicando que las dos implementaciones presentan estimaciones similares, excepto en el
modelo asumido m4 en donde se obtuvieron eficiencias en mayor parte a favor de la función
glm.comp, pero con una tendencia a igualarse cuando el tamaño muestral fue mayor a 200.
La presencia de diferencias en este caso pudieron darse debido a contrastes en la estimación
de la constante de normalización, ya que la función glm.comp está limitada por defecto para
ajustar conteos muy altos que superen el lı́mite descrito en la Sección 3.3.3, al eliminarse
dicha restricción se obtuvieron las diferencias respecto a la función cmp la cual no tiene tal
limitación.
En ED, los contrastes más fuertes se presentan en las estimaciones de los parámetros justo
entre los modelos asumidos m2 y m4 y cuando el tamaño muestral es menor a 50. Lo contra-
rio se experimenta cuando n es mayor, donde hay una tendencia obtener resultados similares
en ambas implementaciones ya que la ER para las estimaciones de los parámetros es muy
cercana a 1, a partir de tamaños muestrales superiores a 100; y en las predicciones la ER,
solo cuando n es igual a 25, hay una leve eficiencia a favor de la función cmp, de resto no hay
una función más eficiente que otra en los demás niveles de n.
La mayores diferencias entre las funciones en cuanto calidad de los coeficientes estimados
y el comportamiento de las predicciones, se presentaron en el escenario de UD cuando el
modelo asumido tuvo valores altos de β0 y de tamaño muestral. En el modelo asumido m1
se presentaron resultados similares excepto cuando el tamaño muestral fue muy bajo, ya que
tanto la ER de las estimaciones como de las predicciones obtuvieron eficiencias a favor de
la función glm.comp, es decir, que es el único caso donde la función cmp está en desventaja
ya que en el resto de los escenarios es claro que dicha función presenta resultados acordes
con los coeficientes asumidos y por supuesto con las predicciones. El factor principal que
influye en el resultado de la calidad predictiva es la estimación deficiente de los parámetros
del modelo en especial del parámetro de dispersión, debido a que la esperanza condicional
de la media además de estar en función de λ también depende de ν el cual actúa como un
coeficiente de escalamiento para el vector β̂ (Ecuación (2–5)).
En cuanto al desempeño del modelo a la hora de estimar los parámetros, se pudo caracterizar
4.4 Conclusiones 45
Al evaluar el papel del tamaño muestral se puede decir que tuvo influencia a la hora de eva-
luar la calidad de las estimaciones de los parámetros más no en el desempeño predictivo de
las dos funciones. Cuando se evaluaron las funciones en tamaños muestrales bajos fue donde
más se detectaron diferencias entre las dos funciones, especialmente en las estimaciones del
parámetro de dispersión. Esto es debido a que en el modelo de regresión CMP, según Sellers
& Shmueli [32], no se puede asegurar la normalidad asintótica de los coeficientes estimados
del modelo cuando n es muy pequeño. Cuando n fue en aumento se lograron percibir dife-
rencias un poco más leves y casi imperceptibles, más aún cuando se alcanzó el mayor nivel
de tamaño muestral, excepto en UD.
4.4. Conclusiones
Por medio de un estudio de simulación se logró determinar ciertas diferencias entre dos
implementaciones en R [27, R Core Team 2016] para ajustar modelos CMP en diferentes
variaciones del intercepto, tamaños muestrales y escenarios de dispersión. Por medio de me-
didas de calidad de las estimaciones, de desempeño predictivo y de ER se caracterizó el
comportamiento de dicho modelo y se determinaron los casos en donde según la calidad
predictiva es más conveniente usar una u otra implementación.
En términos generales las dos implementaciones para ajustar modelos CMP en R [27, R
Core Team 2016] producen predicciones similares en escenarios de ED y OD, especialmente
cuando el tamaño muestral es grande, por lo tanto, en estos escenarios serı́a conveniente usar
la función glm.comp por su ventaja en cuanto a la eficiencia computacional. En UD, será
conveniente usar la función cmp ya que sus estimaciones fueron más eficientes en tamaños
muestrales grandes y porque no presentó las inconsistencias anteriormente descritas al obte-
ner los errores estándar del modelo. El único caso donde se podrı́a usar la función glm.comp
46 4 Comparación de las funciones glm.comp y cmp
en UD serı́a al asumir valores bajos para β0 , es decir, para el modelo asumido m1, ya que
dicha función resultó ser más eficiente en tamaños muestrales bajos; y en tamaños grandes,
a pesar de no presentar diferencias marcadas con la función cmp, tal impementación es más
eficiente a nivel computacional.
La caracterización del modelo CMP arrojó resultados contrastantes en los diferentes escena-
rios de dispersión. En OD y en ED se lograron comportamientos similares en la calidad de las
estimaciones ya que presentaron valores similares en la mayorı́a de los parámetros (Excepto
para β0 en ED). En UD, se obtuvieron estimaciones deficientes para β0 y ν en comparación
con la calidad lograda por los coeficientes estimados asociados a las variables predictoras. Y
en general, al evaluar el efecto de la variación del coeficiente asumido β0 se logró determinar
que cuando este valor es bajo, el modelo tiene un mal desempeño en la calidad de las estima-
ciones, respecto a los demás modelos asumidos en cualquiera de los escenarios de dispersión.
Se logró detectar la calidad de la estimación del parámetro de dispersión como un factor que
puede determinar el comportamiento predictivo en el modelo CMP, ya que dicha estimación
tuvo problemas en algunos escenarios de OD y UD, lo cual puede afectar los valores ajusta-
dos obtenidos por el método de predicción de medias.
5. Eficiencia Relativa de la predicciones
entre los modelos CMP y Poisson
En este capı́tulo se evaluó con más detalle la calidad predictiva dentro de un marco de nor-
malidad asintótica en los estimadores de los parámetros de las distribuciones que son objeto
de comparación en esta disertación. Por ello, se realizó un estudio de simulación con un ta-
maño muestral suficiente para lograr representar dicho marco y en donde se compararon las
medidas de desempeño predictivo de los modelos ajustados a través de su ER. A diferencia
de algunos trabajos relacionados [9, 10], en donde los escenarios de dispersión se definieron
unos cuantos valores para el parámetro de dispersión ν, en este capı́tulo se evaluó el efecto
en el comportamiento predictivo a través un rango más amplio de intensidades de OD y UD.
También se hace una comparación especı́fica entre dos métodos de predicción propuestos por
Sellers & Shmueli [32], por lo tanto, se evaluará la ER de las predicciones obtenidas por el
método de medias y medianas definidas para el modelo CMP con el fin de recomendar la
implementación más adecuada a la hora de obtener valores ajustados ya que la aproximación
a la media condicional en este modelo es acertada solo cuando ν ≤ 1 o λi > 10ν .
Este capı́tulo se compone de las siguientes secciones. La Sección 5.1 se describen los diferen-
tes escenarios configurados por los niveles de factores que son objeto de evaluación en las
simulaciones. Luego se presentan los resultados de las medidas estadı́sticas en la Sección 5.2
y posteriormente son discutidos en la Sección 5.3. Finalmente, en la Sección 5.4 se dan a
conocer las conclusiones que marcaron relevancia en el análisis de los resultados.
5.1. Metodologı́a
En esta sección se dan a conocer los diferentes procedimientos que se realizaron para efec-
tuar las simulaciones. Se describe cómo se definieron los diferentes escenarios configurados
según las combinaciones de los niveles de factores considerados para el presente trabajo. En
este estudio de simulación se consideró un número de observaciones constante y suficiente
para asegurar la normalidad asintótica de las estimaciones de las diferentes alternativas para
ajustar datos de conteo.
48 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson
En total, se generaron 1000 conjuntos de datos (nsim = 1000) para cada uno de los escena-
rios conformados por las intensidades de dispersión y los modelos asumidos. Las intensidades
de dispersión abarcan una rango amplio tanto de OD como UD. Por ello, se definieron tres
intensidades para OD (ν = 0.25, 0.5, 0.75) y tres para UD (ν = 1.5, 2.5, 5) y ν = 1 para
el caso de ED. Cuatro clases de los modelos asumidos se definieron según el valor verdadero
adoptado para el parámetro β0 dejando constantes los coeficientes asumidos asociados a las
variables predictoras, indicando que el menor valor asumido de β0 corresponde al modelo
asumido de más baja denominación y ası́ respectivamente hasta el modelo de mayor deno-
minación.
A los conjuntos de datos generados se les ajustaron los modelos CMP y Poisson, para ser
comparados en OD con el modelo BN; y en ED y UD con el modelo PGR. Luego se al-
macenaron las estimaciones y se calculó la RECMP y la ER. En la Tabla 5-1, Tabla 5-2,
Tabla 5-3, se muestran los coeficientes asumidos para generar los datos para cada uno de los
escenarios de dispersión.
Tabla 5-1.: Coeficientes asumidos para el estudio de simulación de eficiencia entre el modelo
CMP y el modelo Poisson en, OD. Fuente: Elaboración propia.
ν =0.25 ν =0.50 ν =0.75
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 -0.50 0.30 0.50 0.70 -0.30 0.70 1.10 1.50 -0.10 1.20 1.70 2.20
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 0.25 0.25 0.25 0.25 0.50 0.50 0.50 0.50 0.75 0.75 0.75 0.75
5.2 Resultados 49
Tabla 5-2.: Coeficientes asumidos para el estudio de simulación de eficiencia entre el modelo
CMP y el modelo Poisson, en ED. Fuente: Elaboración propia.
ν =1.00
m1 m2 m3 m4
β0 0.10 1.60 2.30 3.00
β1 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50
ν 1.00 1.00 1.00 1.00
Tabla 5-3.: Coeficientes asumidos para el estudio de simulación de eficiencia entre el modelo
CMP y el modelo Poisson, en UD. Fuente: Elaboración propia.
ν=1.50 ν =2.50 ν =5.00
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
β0 0.50 2.50 3.50 4.50 1.00 4.20 6.00 7.50 2.00 8.50 12.0 15.0
β1 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50 -0.50
β2 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
ν 1.50 1.50 1.50 1.50 2.50 2.50 2.50 2.50 5.00 5.00 5.00 5.00
Tal como se ve en las tablas anteriores, el rango de niveles de dispersión es amplio y en los
diferentes modelos asumidos (m1, m2, m3, m4) el coeficiente verdadero para β0 es diferente
mientras que para β1 y β2 fueron constantes.
5.2. Resultados
La presente sección da a conocer los resultados que arrojaron las simulaciones. En cada es-
cenario de dispersión se obtuvieron los comportamientos de la calidad predictiva y la ER de
los diferentes modelos que son objeto de comparación. También se presenta por medio de
tablas, información sobre la proporción de veces durante el proceso de simulación en don-
de un modelo más básico fue más eficiente respecto al modelo alternativo o propuesto para
ajustar datos de conteo. Para complementar la información presentada gráficamente se puede
consultar los resúmenes de las simulaciones en el Apéndice C; allı́ la información numérica
se encuentra distribuida por cada una de las intensidades de dispersión planteadas dando a
conocer medidas de resumen básicas del desempeño predictivo de los modelos comparados.
50 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson
Por último, se comparan por medio de la ER las propuestas de [32] para obtener los valores
ajustados en un modelo CMP.
RMSPE^β0
RMSPE^β0
RECMP
RMSPE^β0
RMSPE^β0
ER
1.2
1.1
1.0
0.9
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
8
RMSPE^β0
RMSPE^β0
RMSPE^β0
RECMP
6
1.15
Valores asumidos para β0 Valores asumidos para β0 Valores asumidos para β0
1.10
RMSPE^β0
RMSPE^β0
RMSPE^β0
ER
1.05
1.00
0.95
0.90
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
La Tabla 5-4 corrobora los resultados anteriores. Muestra que la comparación entre el modelo
CMP y Poisson, el modelo CMP obtuvo el mayor número de casos de eficiencia en los modelos
asumidos m2 y m3, especialmente en el nivel de OD más fuerte. La comparación entre el
modelo CMP y el BN indicó que el modelo CMP obtuvo mayores casos de eficiencia entre los
modelos asumidos m2 y m4, incluso en niveles de OD menos severos. Y caracterı́sticamente,
el contraste entre los modelos BN y el Poisson, arrojó una mayor tasa de casos de eficiencia
a favor del modelo Poisson a través de los diferentes niveles de OD.
52 5 Eficiencia Relativa de la predicciones entre los modelos CMP y Poisson
La comparación de los métodos de predicción a pesar de ser muy similares entre sı́ en cuan-
to a su calidad predictiva, muestra según la ER que fue más eficiente en todos los casos
la predicción de medias respecto a la de medianas (Figura 5-4). Sin embargo, se nota una
tendencia a disminuir la brecha en el desempeño predictivo a medida que aumenta el valor
asumido para β0 , es decir, la denominación del modelo asumido.
En cuanto a la proporción de casos de ER, la mayorı́a de los escenarios muestran que hubie-
ron proporciones equilibradas de eficiencia de un modelo respecto al otro. Las comparaciones
5.2 Resultados 53
6 ν=1 Poisson
CMP
5 PGR
RMSPE^β0
RECMP
3
1.002
ER
1.000
0.998
0.996
0.994
0.992
0.990
m1 m2 m3 m4
Valores
Modelosasumidos para β0
asumidos
6 ν=1 CMPM
CMPMe
5
4
RMSPE^β0
RECMP
1.00
0.95
0.90
m1 m2 m3 m4
Valores
Modelosasumidos para β0
asumidos
del modelo CMP respecto al modelo Poisson y el modelo PGR muestran que la proporción de
casos de eficiencia entre estos tres modelos fue cercana al 50 %, con una leve ventaja de estos
dos últimos en m1. En la comparación del modelo PGR y el Poisson hay una proporción de
ventaja a favor de la eficiencia del modelo PGR.
La Figura 5-6 muestra los comportamientos de la calidad predictiva entre los dos métodos
de predicción planteados para obtener valores ajustados en el modelo CMP. Los valores de
la RECMP muestran curvas muy similares a través de los diversos modelos asumidos, pero
al evaluar la ER se pudo determinar que de forma generalizada el procedimiento de obtener
valores ajustados por medio de la aproximación a la media fue más eficiente que el método
de predicción de medianas.
2.5
RMSPE^β0
RMSPE^β0
RMSPE^β0
RECMP
2.0
1.5
1.0
0.5
0.0
RMSPE^β0
RMSPE^β0
ER
1.000
0.995
0.990
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
3.0
2.5
RMSPE^β0
RMSPE^β0
RMSPE^β0
RECMP
2.0
1.5
1.0
0.5
0.0
RMSPE^β0
RMSPE^β0
ER
1.00
0.95
0.90
m1 m2 m3 m4 m1 m2 m3 m4 m1 m2 m3 m4
proporciones similares en los casos más leves de UD (ν = 1.5 y ν = 2.5); mientras que el en
el caso más fuerte de UD, además de presentar casos totales de menor eficiencia en m1, en
m2 esta proporción fue superior al 95 %, indicando que los modelos Poisson y PGR obtu-
vieron mayores casos eficiencia respecto al modelo CMP cuando se asumieron valores bajos
de β0 . La comparación entre el modelo Poisson y el PGR muestra que este último obtuvo
los mayores casos de eficiencia en ν = 1.5 y ν = 2.5 y en el caso más severo de UD, las
proporciones muestran ventajas para el modelo Poisson excepto en m1.
En cuanto a la comparación de los métodos de predicción, es claro que los valores ajustados
por medio de la media condicional propuesta para el modelo CMP superan en mayor número
de casos de eficiencia a aquellos obtenidos por predicción de medianas.
5.3. Discusión
Los resultados presentados en la sección anterior mostraron varios componentes de análisis
que son discutidos en esta sección. Aspectos tanto de la calidad predictiva como de la eva-
luación del método de predicción más adecuado para el modelo CMP, son analizados en esta
dentro del marco de la normalidad asintótica de las estimaciones.
5.3 Discusión 57
El efecto de los modelos asumidos en el desempeño predictivo indicó que a medida que se
aumentó el valor asumido para β0 , los valores de la RECMP aumentaron, es decir, que dis-
minuyó la calidad de las predicciones en las diferentes propuestas comparadas. Sin embargo,
al mirar el comportamiento de la calidad predictiva se logró percibir que hay una tendencia
a aumentar a medida que la intensidad de la dispersión se incrementa, es decir, que a mayor
nivel de ν se observaron reducciones graduales en los valores de la RECMP, por lo tanto, en
el nivel más extremo de OD se presentaron los valores más bajos y en el nivel más alto de
UD se experimentaron los valores más altos de calidad predictiva a través de los diferentes
modelos asumidos.
El contraste entre las propuestas de análisis de datos de conteo marcaron algunos resultados
relevantes. Uno de ellos, se relaciona con la comparación que es objeto de está disertación.
El desempeño predictivo entre el modelo CMP y el modelo Poisson en el marco de la norma-
lidad asintótica de las estimaciones determinó que únicamente en el caso de OD más severo
y cuando se definieron los modelos asumidos m2 y m3, las predicciones de media del modelo
CMP fueron ligeramente más eficientes que las del modelo Poisson. El modelo CMP presentó
un desempeño deficiente de sus predicciones especialmente cuando se asumió el valor más
bajo para el intercepto, siendo el nivel de OD más fuerte la evidencia más clara ya que allı́
fueron mucho más eficientes las predicciones de los modelos Poisson y BN. En UD también
se detectó un bajo desempeño de las predicciones del modelo CMP en valores bajos asumidos
para β0 pero en una escala menor a la presentada en OD. También este resultado concuerda
con lo expresado por Francis et al. [9], en donde se concluye que el modelo reparametrizado
CMP MLG tiene un desempeño deficiente o limitado en OD cuando se asumieron valores
bajos para β0 .
5.4. Conclusiones
La comparación entre la calidad predictiva del modelo CMP y el modelo Poisson fue eva-
luada mediante un estudio de simulación en el cual se tuvieron en cuenta factores como
la intensidad de la dispersión y la variación del intercepto expresada mediante los modelos
asumidos, en un marco donde el tamaño muestral fue lo suficientemente grande para ası́
asegurar la normalidad asintótica de las estimaciones logradas por las diferentes propuestas
para ajustar datos de conteo. Los resultados que fueron objeto de análisis en la anterior
discusión arrojaron las conclusiones descritas a continuación.
Debido al desempeño limitado que tuvo el modelo CMP en cuanto a sus predicciones espe-
cialmente en el escenario más severo de OD cuando se asumió el valor más bajo de β0 , la ER
entre este modelo y el modelo Poisson fue a favor de éste último. En esa misma intensidad
de dispersión, en los únicos casos que el modelo CMP logró ser más eficiente fue en m2 y m3.
Mientras que en las intensidades más cercanas a la ED, no se logró establecer una eficiencia
marcada de un modelo respecto al otro. En UD, se detectó una eficiencia leve a favor del
modelo Poisson a través de las diferentes intensidades de dispersión y especı́ficamente en m1.
La propuesta de Sellers & Shmueli [32] logró en algunos casos ser más eficiente y en otros no
tanto, respecto a los modelos BN y PGR. El modelo CMP obtuvo una mayor eficiencia de las
predicciones sobre las del modelo BN en el caso más fuerte de OD, pero cuando la intensidad
de OD fue más cercana a 1, y en la misma ED, las diferencias en desempeño predictivo ya no
fueron tan notorias. Mientras que en UD, se lograron percibir eficiencias a favor del modelo
PGR en m1.
5.4 Conclusiones 59
La calidad predictiva fue afectada por la variación del intercepto en los diferentes modelos
asumidos logrando una menor calidad en las predicciones cada vez que aumentaba el valor
asumido para β0 . También se percibió un efecto de la intensidad de la dispersión experimen-
tando una reducción gradual de los valores de la RECMP a medida que el valor asumido
para el parámetro de dispersión fue mayor.
Este capı́tulo tiene la siguiente estructura. La Sección 6.1 da a conocer los diferentes proce-
dimientos que se llevaron a cabo en cada uno de los estudios de caso. En la Sección 6.2 se
presentan los resultados obtenidos luego de obtener las diferentes medidas estadı́sticas que
serán objeto de discusión en la Sección 6.3. Finalmente, en la Sección 6.4 se presentan las
conclusiones más relevantes que lograron los estudios de caso planteados para este capı́tulo.
6.1. Metodologı́a
Esta sección da a conocer los procesos que se realizaron de forma general para los estudios de
caso planteados. Las bases de datos que son descritas en la Subsección 6.1.1 fueron filtradas
de tal forma que se pudiera resumir la información que fue considerada en cada caso. A los
conjuntos de datos resultantes se les ajustaron los modelos que fueron objeto de compara-
ción en los anteriores capı́tulos utilizando la configuración presentada en la Subsección 3.3.3
y luego se calcularon las medidas estadı́sticas descritas en la Sección 3.4 con el fin de evaluar
tanto la calidad de las estimaciones ası́ como de las predicciones. También se tuvieron en
cuenta los aspectos definidos en la Sección 3.1 para realizar los análisis estadı́sticos y las
recomendaciones de uso de la implementación más adecuada en R [27, R Core Team 2016]
6.1 Metodologı́a 61
La información tenida en cuenta para este estudio de caso está contenida en un conjunto de
datos en donde se determinó la abundancia de especies de plantas leñosas en un total de 96
parcelas de muestreo distribuidas a través de un área que tiene una superficie de unos 22,000
km2 , considerada como una región con una gran biodiversidad por Myers et al. [24] y la cual
está localizada al suroeste de la India (Figura 6-1).
Las parcelas de muestreo fueron establecidas entre los años 1996 y 1997 dentro el marco
de un proyecto de colaboración entre el Departamento Forestal de Karnataka y el Instituto
Francés de Pondicherry. Éstas tienen una hectárea de tamaño (100 × 100 m) y se encuentran
en diversos tipos de bosque definidos por una serie de condiciones ambientales caracterı́sticas
de cada uno. En total fueron registrados 61965 individuos de 400 especies de árboles y lianas
con una circunferencia a la altura del pecho (CAP) igual o superior a 10 cm. También se
midieron tanto parámetros estructurales de los bosques, ası́ como variables bioclimáticas [28].
Para obtener las predicciones de abundancia, se eligió una especie de interés que es nativa
y por lo tanto, se presenta de forma silvestre en la India. El árbol de mango (Mangifera
indica) además de ser conocido por su fruto que es exportado a muchos paı́ses, tiene un uso
maderable para construir mueblerı́a de bajo costo; también es muy utilizado en el campo de
la medicina por sus propiedades astringentes [12]. El estudio de caso planteado consistió en
estimar las existencias por hectárea que hay de esta especie de forma silvestre dadas unas
condiciones de ambientales definidas por el número de estratos del bosque y la duración en
meses de la época de sequı́a. Dado esto, el conjunto de datos para este análisis contiene 96
observaciones correspondientes las mediciones en cada una de las parcelas de muestreo para
cada una de las variables consideradas.
La base de datos utilizada para este estudio de caso fue aquella que contenı́a los registros
dados únicamente para aves. En general, el conjunto de datos total es una compilación de
una serie de investigaciones y publicaciones relacionadas con el estudio de especies de aves,
reptiles y mamı́feros. Dada la carencia de estandarización en la clasificación taxonómica y la
medición de las variables en las diferentes fuentes consultadas fue necesario crear una base
de datos general que facilite los análisis comparativos de los parámetros medidos para los
tres grupos de que conforman el clado de los amniotas. Como resultado final de este proceso
de normalización se obtuvo un conjunto de datos con 29 parámetros de la historia de vida
para 21322 especies de los amniotas [25].
Para la base de datos de aves se planteó estudiar la relación del tamaño del nido que es una
medida asociada con el número de huevos por nido, respecto a la masa del huevo y al peso
de la hembra en gramos. Para ello se filtró la información respectiva para el análisis de la
base de datos general y se consideró realizar el estudio especı́ficamente en especies del orden
de los Passeriformes. Este conjunto de datos tiene un total de 2061 observaciones para cada
una de las tres variables consideradas para este estudio.
6.2 Resultados 63
6.2. Resultados
Esta sección presenta en dos partes los resultados de la calidad predictiva de las distribu-
ciones comparadas durante este trabajo. La primera parte da a conocer los contrastes de
la calidad de las predicciones para el estudio de abundancia. La segunda parte presenta las
medidas estadı́sticas que evalúan el desempeño predictivo en el estudio del tamaño del nido
en aves.
Tabla 6-1.: Resumen de las estimaciones en los modelos comparados en el estudio de abun-
dancia. Fuente: Elaboración propia.
β0 β1 β2 Dispersión
Modelo
β̂0 σ̂β̂0 β̂1 σ̂β̂1 β̂2 σ̂β̂2 φ̂ σ̂φ̂
a
Los coeficientes y sus ES están divididos por ν̂ (excepto los de dispersión) ya que según Sellers & Shmueli [32] deben
ser escalados para ser comparados con los de la regresión Poisson
La Tabla 6-2 presenta las diferentes medidas que se adoptaron para evaluar la calidad de
las predicciones en el estudio de la abundancia de la especie Mangifera indica. Se nota que
el modelo Poisson fue el que obtuvo el mejor desempeño tanto en la calidad de las predic-
ciones de media como de mediana respecto a las demás distribuciones. También se resalta la
calidad deficiente de las predicciones de media del modelo CMP debido a sus valores altos
de RECMP y EPAMe, lo cual no sucede con las predicciones de mediana en donde si bien
no presentaron un buen desempeño es considerable la diferencia que marca este método res-
pecto al de los valores ajustados obtenidos mediante la aproximación a la media condicional
propuesta para esta distribución.
64 6 Aplicación con datos reales en la ecologı́a
Tabla 6-2.: Calidad de las predicciones en los modelos comparados en el estudio de abun-
dancia. Fuente: Elaboración propia.
Poisson CMP BN PGR
Medida
M Me M Me M Me M Me
RECMP 4.227 4.180 3447.570 4.460 4.285 4.596 4.341 4.775
EPAMe 5.850 3.000 3449.608 1.000 6.808 0.955 7.465 1.000
Tabla 6-3.: Resumen de las estimaciones en los modelos comparados en el estudio del ta-
maño del nido en aves. Fuente: Elaboración propia.
β0 β1 β2 Dispersión
Modelo
β̂0 σ̂β̂0 β̂1 σ̂β̂1 β̂2 σ̂β̂2 φ̂ σ̂φ̂
a
Los coeficientes y sus ES están divididos por ν̂ (excepto los de dispersión) ya que según Sellers &
Shmueli [32] deben ser escalados para ser comparados con los de la regresión Poisson
Tabla 6-4.: Calidad de las predicciones en los modelos comparados en el estudio del tamaño
del nido en aves. Fuente: Elaboración propia.
Poisson CMP BN PGR
Medida
M Me M Me M Me M Me
RECMP 1.602 1.638 1.603 1.639 1.602 1.638 1.601 1.639
EPAMe 0.328 0.400 0.327 0.400 0.328 0.400 0.326 0.400
También se logró detectar ciertas diferencias en los ES del modelo CMP respecto a las otras
distribuciones, especialmente en las estimaciones de β0 y β1 . En la estimación del parámetro
de dispersión del modelo BN se presentó el ES más elevado, mientras que el del modelo CMP
6.3 Discusión 65
Las predicciones de media del número de huevos de aves de la orden Passeriformes evaluadas
mediante la RECMP y el EPAMe indican que la distribución PGR obtuvo el mejor desem-
peño mientras que en las predicciones de mediana los modelos Poisson y BN obtuvieron la
mejor calidad predictiva en cuanto a la RECMP, lo que no sucedió en el EPAMe donde no se
logró diferenciar un desempeño a favor o en contra entre los modelos comparados (Tabla 6-4).
6.3. Discusión
Los resultados que se presentaron en el estudio de las predicciones de abundancia de la especie
Mangifera indica reflejan las consecuencias de un caso de OD extrema ya que el parámetro
de dispersión estimado por el modelo CMP al parecer tuvo problemas en su estimación. Este
comportamiento fue muy común en el escenario más severo de OD asumido en las simula-
ciones, en donde con tamaños muestrales pequeños y en valores muy bajos asumidos para
el intercepto dicho parámetro presentó problemas en su estimación obteniendo valores muy
cercanos a cero. Al dividir los coeficientes y sus respectivos ES por el valor de ν̂ tal como lo
proponen Sellers & Shmueli [32], se obtuvieron coeficientes sobrestimados en comparación
con los obtenidos por las demás distribuciones.
Otro aspecto que se evidencia en los resultados es la subestimación de los ES asociados a los
coeficientes del vector de β en el modelo Poisson. Tal como lo señalan Cameron & Trivedi
[3], una de las consecuencias de ajustar un modelo Poisson en OD es que los ES tienden a
ser subestimados generando coeficientes significativos cuando en realidad estos no lo son.
En cuanto a la calidad de las predicciones, es claro que el modelo Poisson es el que me-
jor desempeño logró. Debido a las estimaciones deficientes que produjo el modelo CMP,
especialmente del parámetro de dispersión, las predicciones obtenidas a través de la apro-
ximación a la media condicional presentaron valores muy bajos de desempeño predictivo,
lo que contrastó con lo obtenido por el método de estimación de medianas. Esto corrobora
los resultados de las simulaciones previas en donde definitivamente no es conveniente usar la
aproximación de la media en casos de OD extrema y con valores muy bajos para el intercepto.
El estudio del tamaño del nido en especies de aves del orden los Passeriformes, demostró ser
coherente con los resultados presentados en los estudios de simulación. En primera instancia,
el nivel de dispersión estimado por el modelo CMP indicó que los conteos del número de
huevos tuvo una media mayor que la varianza aunque no tan contrastantes ya que ν̂ fue
muy cercano a 1. Considerando el alto número de observaciones con el cual se puede asegu-
rar la normalidad asintótica de las estimaciones y que los interceptos estimados son bajos,
66 6 Aplicación con datos reales en la ecologı́a
se puede deducir que el desempeño del modelo CMP no fue tan bueno como el del mode-
lo Poisson e incluso del modelo BN que logró una calidad en las predicciones de media similar.
A pesar del buen desempeño del modelo Poisson respecto al modelo CMP, para el conjunto
de datos considerado en el estudio de aves, la distribución PGR fue la que mejor calidad de
predicción de medias obtuvo. Lo anterior, se puede explicar ya que esta distribución captura
correctamente un rango parcial de UD [32], por lo tanto, en un nivel bajo de UD se esperarı́a
un buen desempeño en su calidad predictiva. De igual forma, vale la pena indicar que a
partir de la tercera cifra decimal se empezaron a notar las diferencias entre las distribuciones
contrastadas. Lo mismo sucedió con la estimación de medianas, pero ya las diferencias fueron
a favor de los modelos BN y Poisson.
6.4. Conclusiones
Por medio de datos reales aplicados en el campo de la ecologı́a, se trató de implementar va-
rias propuestas para el análisis de datos de conteo y por medio de la evaluación de la calidad
predictiva se definieron cuáles de ellas logran un buen desempeño para ser adoptadas dentro
del procedimiento para configurar estrategias de producción sostenible y/o de conservación
según el enfoque de cada estudio.
En el estudio del tamaño del nido en especies del orden de los Passeriformes se diagnosticó
un nivel de UD no tan fuerte ya que los valores entre la media y la varianza del número de
huevos por nido fueron ligeramente similares. Para determinar el potencial de crecimiento de
este conjunto de aves mediante la predicción del número de huevos por nido en términos del
peso del huevo y el de la hembra en gramos, se recomienda utilizar el modelo PGR, aunque
las diferencias en el comportamiento predictivo con las demás distribuciones no fueron tan
marcadas. Las condiciones de un gran tamaño muestral, además de un bajo nivel de UD
y de un valor bajo para el intercepto estimado fueron propicias para que la propuesta que
pertenece a la familia de las distribuciones Poisson generalizadas tuviera tal desempeño.
7. Conclusiones y recomendaciones
Se realizaron varios estudios de simulación con el fin de caracterizar la calidad de las predic-
ciones del modelo CMP y el Poisson y ası́ determinar la pérdida en eficiencia al ajustar el
modelo inadecuado ya sea en OD o en UD. A continuación se presentan las conclusiones y
recomendaciones que arrojó esta investigación.
7.1. Conclusiones
Ya sea en OD o UD, el ajustar un modelo inadecuado, en este caso el modelo Poisson, no se
incurre en una pérdida en la calidad predictiva incluso en escenarios con OD y UD fuertes.
Por lo tanto, se concluye que en la mayorı́a de los escenarios, el modelo Poisson fue tan
eficiente como el modelo CMP en términos de calidad de las predicciones. Si bien en el nivel
de OD más fuerte, hubo dos escenarios que representaron una ligera eficiencia a favor de las
predicciones del modelo CMP, esto no justifica su uso generalizado, ya que cuando se asu-
mieron valores bajos para el intercepto fue claramente ineficiente, particularmente en el nivel
más alto de OD e incluso comparado con el modelo BN. En UD, se presentó un resultado
similar aunque no tan notorio como en OD. La ineficiencia detectada en las predicciones de
media del modelo CMP a bajos valores de β0 también es una evidencia de que el modelo
inadecuado lograra una mayor eficiencia o una ganancia en el desempeño predictivo. Pero
cuando el valor asumido por el intercepto fue en aumento es casi imperceptible la eficiencia
de una u otra distribución.
La caracterización del desempeño de las estimaciones en el modelo CMP mostró que esta
distribución es muy limitada en escenarios donde la varianza en considerablemente mayor
que la media. La calidad de las estimaciones de los parámetros del vector de β y en espe-
cial del parámetro de dispersión, se vieron afectadas por los bajos tamaños muestrales al no
asegurar la normalidad asintótica de los estimadores. Esto produjo estimaciones para ν muy
cercanas a cero y por lo tanto muy desviadas del verdadero valor asumido.
Los factores de la variación del intercepto ası́ como de la intensidad de dispersión marcaron
un efecto sobre la calidad de las predicciones. Al aumentar los valores asumidos para β0
se experimentó una menor calidad de las predicciones, mientras que al reducir el nivel de
dispersión, es decir, cuando ν fue más cercano a cero, la calidad predictiva logró igualmente
68 7 Conclusiones y recomendaciones
una pérdida. Por lo tanto, un mayor desempeño predictivo es favorecido cuando el nivel de
dispersión representado por el parámetro ν, es más lejano a cero y cuando los valores asu-
midos para el intercepto son bajos.
7.2. Recomendaciones
Para realizar predicciones de una variable de conteo sea cual sea el nivel de dispersión diag-
nosticado, se recomienda utilizar el modelo Poisson ya que en la mayorı́a de los casos obtuvo
un desempeño similar o mejor en la calidad de las predicciones y por ende es más eficiente no
solo a nivel predictivo sino en términos de demanda computacional. A menos de que se quiera
explicar la relación funcional en OD o en UD entre una respuesta de conteo y sus variables
predictoras, se recomienda usar la distribución CMP ya que presentó un mejor desempeño
en cuanto a la bondad de ajuste.
En el caso de optar por el ajuste de un modelo CMP en R [27, R Core Team 2016], la
implementación más adecuada para OD serı́a la función glm.comp pero con el limitante de
que no se puede ajustar conjuntos de datos donde al menos un valor de la respuesta más un
umbral de 10 exceda el valor configurado para el argumento SumTo (Yi + 10 > 100). Si es
este el caso, entonces se podrı́a aumentar el valor de SumTo o usar la función cmp teniendo en
cuenta que ésta tiene una mayor demanda computacional. En UD, se recomienda de forma
generalizada usar la función cmp ya que obtuvo las estimaciones de mejor calidad, mientras
que la función glm.comp se deberı́a usar exclusivamente en valores bajos del intercepto.
Luego del ajuste del modelo CMP tomando en cuenta la anterior recomendación, se sugiere
utilizar el método de predicción de medianas únicamente para el caso que se diagnostique
una fuerte OD y en valores bajos para el intercepto. De resto, la aproximación a la media
condicional serı́a el método de predicción adecuado incluso cuando ν > 1, en donde según
Sellers & Shmueli [32] las predicciones de media serı́an de baja calidad.
7.3 Trabajo futuro 69
> set.seed(561)
> db <- simData(100, 1.6, -0.5, 0.5, v = 1) # Generar base de datos
Call:
glm.comp(lamFormula = y ~ x1 + x2, data = db)
Beta:
Estimate Std.Error t.value p.value
(Intercept) 1.69241 0.15514 10.9092 < 2.2e-16 ***
x1 -0.69876 0.30427 -2.2965 0.0238211 *
x2 0.71741 0.18654 3.8458 0.0002162 ***
Zeta:
Estimate Std.Error t.value p.value
(Intercept) 0.083821 0.192428 0.4356 0.6641
AIC: 434.8594
Log-Likelihood: -213.4297
(Intercept) x1 x2
1.5470236 -0.6484555 0.6657879
71
(Intercept) x1 x2 nu
0.3042728 0.1865441 0.1924286 0.1686995
Nótese en el resumen del modelo de la función glm.comp que el error estándar de β̂1 es simi-
lar al error estándar para β̂0 de la función cmp, el error estándar de β̂2 es parecido al error
estándar para β̂1 de la función cmp y el error estándar de ζ̂ es equivalente al error estándar
para β̂2 de la función cmp.
B. Anexo: Distribución empı́rica de β0 en
un modelo de regresión COM-Poisson
5
n = 50 β0 = 0.1 n = 50 β0 = 1.6 n = 50 β0 = 2.3 n = 50 β0 = 3.0
4
Densidad
Densidad
Densidad
Densidad
3
0
5
n = 100 β0 = 0.1 n = 100 β0 = 1.6 n = 100 β0 = 2.3 n = 100 β0 = 3.0
4
Densidad
Densidad
Densidad
Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2
0
5
n = 200 β0 = 0.1 n = 200 β0 = 1.6 n = 200 β0 = 2.3 n = 200 β0 = 3.0
Densidad
4
Densidad
Densidad
Densidad
Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2
0
5
n = 500 β0 = 0.1 n = 500 β0 = 1.6 n = 500 β0 = 2.3 n = 500 β0 = 3.0
4
Densidad
Densidad
Densidad
Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2
0
5
n = 1000 β0 = 0.1 n = 1000 β0 = 1.6 n = 1000 β0 = 2.3 n = 1000 β0 = 3.0
4
Densidad
Densidad
Densidad
Densidad
^ ^ ^ ^
3 β0 β0 β0 β0
2
^ ^ ^ ^ ^
β0 β0 β0 β0 β0
16
14
Densidad
Densidad
Densidad
Densidad
Densidad
12
10
−0.5 −0.3 −0.1 0.1 0.3 0.5 1.45 1.50 1.55 1.60 1.65 1.70 1.75 2.15 2.20 2.25 2.30 2.35 2.40 2.45 2.92 2.94 2.96 2.98 3.00 3.02 3.04 3.06 3.08
^ ^ ^ ^ ^
β0 β0 β0 β0 β0
Tabla C-1.: Resumen de las simulaciones para ν asumido de 0.25 con n = 1000. Fuente:
Elaboración propia.
ν = 0.25 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.2897 4.2057 6.1962 9.1915
M CMP 1.4946 4.1922 6.1722 9.2145
BN 1.2899 4.2194 6.2334 9.2493
Poisson 0.0468 0.1230 0.1724 0.2486
DE CMP 0.2968 0.1233 0.1726 0.2592
BN 0.0468 0.1246 0.1763 0.2541
Poisson 1.1618 3.8483 5.6965 8.4509
Mı́n CMP 1.1812 3.8271 5.6783 8.4653
BN 1.1620 3.8488 5.6989 8.4508
Poisson 1.4713 4.6298 6.7696 10.0835
Máx CMP 4.3653 4.6092 6.7337 10.1543
BN 1.4720 4.6662 6.8754 10.2679
75
Tabla C-2.: Resumen de las simulaciones para ν asumido de 0.5 con n = 1000. Fuente:
Elaboración propia.
ν = 0.5 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.1776 2.9142 4.3477 6.4754
M CMP 1.1806 2.9143 4.3474 6.4753
BN 1.1776 2.9147 4.3485 6.4767
Poisson 0.0372 0.0725 0.1023 0.1486
DE CMP 0.0399 0.0726 0.1023 0.1487
BN 0.0372 0.0725 0.1024 0.1488
Poisson 1.0681 2.7012 4.0566 6.0687
Mı́n CMP 1.0680 2.7005 4.0565 6.0683
BN 1.0681 2.7014 4.0566 6.0690
Poisson 1.3055 3.1924 4.7255 7.0230
Máx CMP 1.3738 3.1885 4.7214 7.0183
BN 1.3059 3.1950 4.7295 7.0291
Tabla C-3.: Resumen de las simulaciones para ν asumido de 0.75 con n = 1000. Fuente:
Elaboración propia.
ν = 0.75 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.1078 2.5869 3.6099 5.0287
M CMP 1.1079 2.5869 3.6099 5.0286
BN 1.1079 2.5870 3.6100 5.0288
Poisson 0.0319 0.0605 0.0819 0.1117
DE CMP 0.0320 0.0605 0.0819 0.1117
BN 0.0319 0.0605 0.0819 0.1118
Poisson 1.0234 2.4003 3.3634 4.7113
Mı́n CMP 1.0234 2.4003 3.3634 4.7114
BN 1.0234 2.4003 3.3634 4.7114
Poisson 1.2183 2.8093 3.9140 5.4408
Máx CMP 1.2191 2.8084 3.9131 5.4400
BN 1.2185 2.8099 3.9148 5.4418
76 C Anexo: Resumen de las simulaciones del Capı́tulo 5
Tabla C-4.: Resumen de las simulaciones para ν asumido de 1 con n = 1000. Fuente: Ela-
boración propia.
ν = 1.0 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 1.0569 2.2380 3.1738 4.5118
M CMP 1.0570 2.2380 3.1738 4.5118
PGR 1.0569 2.2380 3.1738 4.5118
Poisson 0.0288 0.0524 0.0724 0.1018
DE CMP 0.0288 0.0524 0.0724 0.1018
PGR 0.0289 0.0524 0.0725 0.1018
Poisson 0.9529 2.0788 2.9219 4.2090
Mı́n CMP 0.9533 2.0788 2.9219 4.2090
PGR 0.9529 2.0788 2.9219 4.2090
Poisson 1.1558 2.4455 3.4147 4.8152
Máx CMP 1.1556 2.4453 3.4147 4.8153
PGR 1.1558 2.4456 3.4147 4.8153
Tabla C-5.: Resumen de las simulaciones para ν asumido de 1.5 con n = 1000. Fuente:
Elaboración propia.
ν = 1.5 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 0.9705 1.8780 2.6168 3.6469
M CMP 0.9709 1.8780 2.6168 3.6469
PGR 0.9705 1.8779 2.6168 3.6469
Poisson 0.0236 0.0423 0.0581 0.0798
DE CMP 0.0236 0.0423 0.0581 0.0798
PGR 0.0236 0.0423 0.0581 0.0798
Poisson 0.8878 1.7468 2.4336 3.4166
Mı́n CMP 0.8886 1.7466 2.4336 3.4165
PGR 0.8878 1.7467 2.4336 3.4166
Poisson 1.0573 2.0408 2.8199 3.9358
Máx CMP 1.0574 2.0409 2.8200 3.9358
PGR 1.0573 2.0408 2.8198 3.9357
77
Tabla C-6.: Resumen de las simulaciones para ν asumido de 2.5 con n = 1000. Fuente:
Elaboración propia.
ν = 2.5 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 0.7875 1.4625 2.0937 2.8228
M CMP 0.7883 1.4625 2.0937 2.8228
PGR 0.7875 1.4624 2.0937 2.8228
Poisson 0.0179 0.0326 0.0459 0.0622
DE CMP 0.0180 0.0326 0.0459 0.0622
PGR 0.0179 0.0326 0.0459 0.0622
Poisson 0.7232 1.3423 1.9530 2.6228
Mı́n CMP 0.7239 1.3422 1.9529 2.6229
PGR 0.7232 1.3423 1.9529 2.6228
Poisson 0.8634 1.5822 2.2576 3.0409
Máx CMP 0.8644 1.5822 2.2577 3.0410
PGR 0.8634 1.5821 2.2575 3.0408
Tabla C-7.: Resumen de las simulaciones para ν asumido de 5 con n = 1000. Fuente: Ela-
boración propia.
ν = 5.0 RECM P
Medida Modelo m1 m2 m3 m4
Poisson 0.5302 1.0441 1.4808 1.9978
M CMP 0.5303 1.0441 1.4808 1.9978
PGR 0.5297 1.0441 1.4808 1.9978
Poisson 0.0142 0.0229 0.0324 0.0440
DE CMP 0.0142 0.0229 0.0324 0.0440
PGR 0.0142 0.0229 0.0324 0.0440
Poisson 0.4795 0.9745 1.3842 1.8614
Mı́n CMP 0.4796 0.9745 1.3842 1.8614
PGR 0.4795 0.9745 1.3842 1.8614
Poisson 0.5796 1.1283 1.5955 2.1786
Máx CMP 0.5798 1.1283 1.5955 2.1786
PGR 0.5796 1.1283 1.5955 2.1786
D. Anexo: Evaluación de la bondad de
ajuste
Paquete ‘CMPvsPoissonSims’
Tipo Paquete
Versión 0.1
Fecha 2016-06-01
Licencia GPL-2
Descripción
Uso
Argumentos
rho correlación deseada. Debe estar entre [0,1). Por defecto rho = 0.
met método para obetener las covariables. Por defecto 1, que genera covaria-
bles con un nivel de correlación deseado. La opción 2 genera covariables
usando la función runif, sin una correlación fija.
sem un valor entero que define la semilla para generar las covariables. Por
defecto sem = 19318905.
Valor
Ejemplos
Descripción
Uso
simData(n, a, b, c, v, ...)
Argumentos
Valor
Ejemplos
simData(10, 1, -0.5, 0.5, v=0.5) # Genera un conjunto de datos en
# OD con 10 observaciones.
Descripción
Uso
Argumentos
Valor
Nota
Ejemplos
simData(10, 1, -0.5, 0.5, v=0.5, nsim=1000) # Genera un conjunto de datos en
# OD con 10 observaciones y 1000 simulaciones.
84 simFitCMP
Descripción
Realiza simulaciones para comparar los modelos CMP de dos impementaciones en R.
Uso
simFitCMP(n, a, b, c, v, nsim, ...)
Argumentos
n un valor entero para el tamaño muestral deseado.
a, b, c valores asumidos para los parámetros del modelo (a = β0 , b = β1 , c = β2 ).
v valor asumido para el parámetro de dispersión. No debe ser igual a cero.
nsim número de simulaciones deseado.
... argumentos de la función simData.
Valor
Un objeto de clase data.frame con 51 variables correspondientes a las diferentes medidas
estadı́sticas calculadas.
Nota
Los valores de ER se calcularon teniendo en cuenta el criterio de un modelo más básico
en el denominador y el modelo propuesto o alternativo en el numerador. Por ello, al
modelo Poisson se le asignó un código M=1, al modelo CMP de la función glm.comp M=2,
al modelo CMP de la función cmp se le asignó M=3.
Ver También
simFit.
Ejemplos
simFitCMP(10, 1, -0.5, 0.5, v=2.5, nsim=100) # Genera un conjunto de datos en
# UD con 10 observaciones y 100 simulaciones.
Stats 85
Descripción
Calcula medidas resumen de las simulaciones logradas por simFit.
Uso
Stats(e)
Argumentos
e un objeto de clase data.frame con los resultados de simFit en diferentes
escenarios.
Valor
Un objeto de clase list que contiene objetos de clase data.frame con medidas de resu-
men de las diferentes medidas estadı́sticas calculadas en simFit.
Coef valores medios de los coeficientes estimados.
Linf valores medios de los lı́mites inferiores de los IC al 95 %.
Linf valores medios de los lı́mites superiores de los IC al 95 %.
Cont proporciones de IC al 95 % que contienen el verdadero parámetro.
Bias sesgos de las estimaciones.
MSE ECM.
RMSE RECM.
SE valores medios de los errores estándar estimados.
GOF valores medios de las medidas de bondad de ajuste.
Mpred valores medios las medidas de calidad predictiva.
MdAPE valores medios de EPAMe en las predicciones de media y mediana.
Pred valores medios, DE, Mı́n y Máx de las medidas de calidad predictiva.
P.ER proporción de ER.
Time tiempo medio requerido para ajustar el modelo en segundos.
ER21 ER de 2/1 en las estimaciones.
86 Stats
Nota
Los valores de ER se calcularon teniendo en cuenta el criterio de un modelo más básico en
el denominador y el modelo propuesto o alternativo en el numerador. Por ello, al modelo
Poisson se le asignó un código M=1, al modelo CMP M=2, al modelo BN M=3 en OD. Y en
UD y ED, al modelo PGR se le asignó M=3.
Ejemplos
[2] Bonate, P. L.: A brief introduction to Monte Carlo simulation. En: Clinical Pharma-
cokinetics 40 (1992), p. 15–22
[3] Cameron, A C. ; Trivedi, Pravin K.: Essentials of Count Data Regression. En:
Baltagi, B. H. (Ed.): A Companion to Theoretical Econometrics. Blackwell Publishing
Ltd, 2003. – ISBN 9780470996249, p. 331–348
[4] Cameron, A.C. ; Trivedi, Pravin K.: Regression Analysis of Count Data. New York
: Cambridge University Press, 1998. – 411 p.. – ISBN 0521635675
[5] Dobson, Annette J.: An introduction to generalized linear models. 2nd Ed. Chapman
& Hall/CRC, 2002. – 225 p.. – ISBN 1–58488–165–8
[7] Efron, B: Double exponential families and their use in generalized linear Regression.
En: Journal of the American Statistical Association 81 (1986), p. 709–721
[8] Famoye, Felix: Restricted generalized poisson regression model. En: Communications
in Statistics - Theory and Methods 22 (1993), Nr. 5, p. 1335–1354
[12] Green Clean Guide ; Pranali Telang (Ed.): Economic Importance of Tree Spe-
cies. 2012. – 62 p.
[13] Guikema, Seth D. ; Goffelt, Jeremy P.: A Flexible Count Data Regression Model
for Risk Analysis. En: Risk Analysis 28 (2008), Nr. 1, p. 213–223. – ISBN 4105166042
[14] Hilbe, Joseph: Negative Binomial Regression. 2nd Ed. Cambridge University Press,
2011. – 553 p.. – ISBN 9780874216561
[15] Hurvich, C. L.: Regression and Time Series Model Selection in Small Samples. En:
Biometrika 76 (1989), p. 297–307
[18] Lord, Dominique ; Geedipally, Srinivas R. ; Guikema, Seth D.: Extension of the
Application of Conway-Maxwell-Poisson Models: Analyzing Traffic Crash Data Exhi-
biting Underdispersion. En: Risk Analysis 30 (2010), Nr. 8, p. 1268–1276. – ISBN
1539–6924 (Electronic) 0272–4332 (Linking)
[19] Lord, Dominique ; Guikema, Seth D. ; Geedipally, Srinivas R.: Application of the
Conway-Maxwell-Poisson generalized linear model for analyzing motor vehicle crashes.
En: Accident Analysis and Prevention 40 (2008), Nr. 3, p. 1123–1134. – ISBN 0001–4575
[20] McCullagh, P ; Nelder, J: Generalized linear models. 2nd Ed. New York : Chapman
& Hall/CRC, 1972. – 511 p.. – ISBN 0412317605
[21] Miller, J: Comparing Poisson, Hurdle and ZIP model fit under varying degrees of
Skew and Zero-Inflation, University of Florida, Ph.D. Thesis, 2007. – 201 p.
[22] Minka, Thomas P. ; Shmueli, Galit ; Kadane, Joseph B. ; Borle, Sharad ; Boatw-
right, Peter: Computing with the COM-Poisson distribution / Carnegie Mellon Uni-
versity. Pittsburgh, PA, 2003. – Informe de Investigación. – 7 p.
[23] Mooney, C. Z.: Quantitative Applications in the Social Sciences. Vol. 116: Monte Carlo
Simulation. London : SAGE Publications, 1997. – 112 p.
[27] R Core Team: R: A Language and Environment for Statistical Computing. Vienna,
Austria: R Foundation for Statistical Computing, 2016
[29] Ridout, M.S. ; Besbeas, P.: An empirical model for underdispersed count data. En:
Statistical Modelling 4 (2004), p. 77–89. – ISSN 1471–0820
[32] Sellers, Kimberly F. ; Shmueli, Galit: A flexible regression model for count data.
En: Annals of Applied Statistics 4 (2010), Nr. 2, p. 943–961
[33] Sellers, Kimberly F. ; Shmueli, Galit: Predicting Censored Count Data with COM-
Poisson Regression. En: SSRN Electronic Journal (2010), p. 18
[35] Winkelmann, Rainer: Econometric Analysis of Count Data. 5th Ed. Berlin : Springer-
Verlag, 2008. – 333 p.. – ISBN 978–3–540–78389–3
[36] Winkelmann, Rainer ; Zimmermann, Klaus F.: Recent Developments in Count Data
Modelling: Theory and Application. En: Journal of Economic Surveys 9 (1995), Nr. 1,
p. 1–24. – ISBN 1467–6419
90 Bibliografı́a
[37] Yee, Thomas W.: VGAM: Vector Generalized Linear and Additive Models, 2015. – R
package version 0.9-8
[38] Zou, Yaotian ; Geedipally, Srinivas R. ; Lord, Dominique: Evaluating the double
Poisson generalized linear model. En: Accident; analysis and prevention 59 (2013), Nr.
979, p. 497–505. – ISSN 1879–2057
[39] Zou, Yaotian ; Lord, Dominique ; Geedipally, Srinivas R. Over- and Under-
Dispersed Count Data : Comparing the Conway-Maxwell-Poisson and Double-Poisson
Distributions. 2011