Pasantia Martinez Voucher

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 121

UNIVERSIDAD DE LA REPÚBLICA

Facultad de Ciencias Económicas y de Administración

Licenciatura en Estadı́stica

Informe de Pasantı́a

Una revisión de los modelos de conteo con excesos de ceros.

Eloı́sa Martı́nez Calcaterra

Pamela Vaucher Silva

Tutores:
Ramón Alvarez
Ana Coimbra

Montevideo, Diciembre 2017.


UNIVERSIDAD DE LA REPÚBLICA
FACULTAD DE CIENCIAS ECONÓMICAS Y DE ADMINISTRACIÓN

El tribunal docente integrado por los abajo firmantes aprueba el trabajo de


Pasantı́a:

Una revisión de los modelos de conteo con excesos de ceros.

Pamela Vaucher Silva - Eloı́sa Martı́nez Calcaterra

Tutores:
Ramón Alvarez
Ana Coı́mbra
Licenciatura en Estadı́stica

Puntaje ................................................................................
Tribunal
Profesor...............................................................(nombre y firma).
Profesor...............................................................(nombre y firma).
Profesor...............................................................(nombre y firma).
Profesor...............................................................(nombre y firma).
Fecha.............................................................................
Resumen

El objetivo de este trabajo es encontrar modelos predictivos que describan el conteo


de C, P, O y CPO que son indicadores de patologı́a bucal. El indicador CPO señala
la experiencia de caries tanto presentes como pasadas, ya que es la suma del número
de dientes cariados (C), número de dientes perdidos por la enfermedad (P) y número
de dientes obturados(O) para cada individuo.

Los datos con los que se trabaja provienen del primer relevamiento en salud oral
llevado a cabo por el Servicio de Epidemiologı́a y Estadı́stica de Facultad de Odon-
tologı́a, coordinado conjuntamente con docentes del Instituto de Estadı́stica de Fa-
cultad de Ciencias Económicas. Es un estudio realizado en el perı́odo 2010-2011 con
un diseño de muestreo probabilı́stico complejo (el cual no será considerado en este
trabajo) a la población joven y adulta urbana en sus domicilios, tanto en Montevideo
como en el Interior del paı́s. Se relevó información de variables sociodemográficas
ası́ como variables clı́nicas.

Los datos de conteo muestran, además de sobredispersión, una gran cantidad de


ceros, por lo que se trabaja con Modelos Lineales Generalizados con excesos de
ceros. Estos son modelos de conteo mixtos ya que combinan variables truncadas.

Se modelan los componentes del ı́ndice CPO por separado ası́ como el propio CPO,
llegando a verificar que presentan distintos comportamientos en cuanto a su distri-
bución y a las variables explicativas que inciden en su conteo.

Palabras clave: CPO, exceso de ceros, modelos de conteo, modelos lineales genera-
lizados, sobredispersión.

iii
iv iv
Índice general

Índice general V

Índice de figuras IX

Índice de tablas XI

1. Introducción 3

2. Metodologı́a 7
2.1. Determinación de la distribución de los datos . . . . . . . . . . . . . . 7
2.1.1. Elección de las posibles familias de distribuciones que ajusten
a los datos bajo estudio . . . . . . . . . . . . . . . . . . . . . 8
2.1.2. Estimación de parámetros de la función de distribución . . . . 8
2.1.3. Calidad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Análisis de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Modelos lineales generalizados . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Componentes del modelo . . . . . . . . . . . . . . . . . . . . . 12
2.3.2. Estimación de los parámetros . . . . . . . . . . . . . . . . . . 13
2.4. Modelos de regresión para datos de conteo . . . . . . . . . . . . . . . 15
2.4.1. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2. Regresión Binomial Negativa (6) . . . . . . . . . . . . . . . . . 21
2.4.3. Otras formas de tratar la sobredispersión: Regresión Poisson
Inversa Gaussiana (PIG) . . . . . . . . . . . . . . . . . . . . . 25

v
ÍNDICE GENERAL

2.5. Exceso de ceros en datos de conteo . . . . . . . . . . . . . . . . . . . 25


2.5.1. Modelos truncados en cero . . . . . . . . . . . . . . . . . . . . 26
2.5.2. Modelos de regresión Hurdle . . . . . . . . . . . . . . . . . . . 27
2.5.3. Modelos de regresión Cero Inflado . . . . . . . . . . . . . . . . 28
2.6. Evaluación del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6.1. Análisis de los residuos (2) . . . . . . . . . . . . . . . . . . . . 30
2.6.2. Test pseudo R2 . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6.3. Test de bondad de ajuste del desvı́o . . . . . . . . . . . . . . . 31
2.6.4. Test razón de verosimilitud. . . . . . . . . . . . . . . . . . . . 31
2.6.5. Criterios de selección del modelo . . . . . . . . . . . . . . . . 32

3. Datos de la aplicación 33
3.1. Variables relevadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1. Variables a explicar: CPO, C, P y O . . . . . . . . . . . . . . 35
3.1.2. Caracterı́sticas demográficas y socioeconómicas utilizadas en
este trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.3. Factores de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.4. Atención a la salud . . . . . . . . . . . . . . . . . . . . . . . . 38

4. Resultados 39
4.1. Variable Ccorona (Caries de corona) . . . . . . . . . . . . . . . . . . 39
4.1.1. Distribución de Probabilidad para Ccorona . . . . . . . . . . . 40
4.1.2. Modelos de Regresión para Ccorona . . . . . . . . . . . . . . . 42
4.2. Variable Pcorona (Corona perdida) . . . . . . . . . . . . . . . . . . . 49
4.2.1. Distribución de Probabilidad para Pcorona . . . . . . . . . . . 51
4.2.2. Modelos de Regresión para Pcorona . . . . . . . . . . . . . . . 52
4.3. Variable Ocorona (Corona obturada) . . . . . . . . . . . . . . . . . . 59
4.3.1. Distribución de Probabilidad para Ocorona . . . . . . . . . . . 60
4.3.2. Modelos de Regresión para Ocorona . . . . . . . . . . . . . . . 62
4.4. CPOcorona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

vi vi
Índice general

4.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5. Conclusiones 73
5.1. Conclusiones para Ccorona . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2. Conclusiones para Pcorona . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3. Conclusiones para Ocorona . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . 74

Bibliografı́a 77

A. Script de variable Ccorona 83

B. Script de variable Pcorona 89

C. Script de variable Ocorona 95

D. Script de variable CPOcorona 101

E. Diseño y selección de la muestra 103

F. Anexo de resultados 105

vii
ÍNDICE GENERAL

viii viii
Índice de figuras

2.1. Distribución Poisson según λ . . . . . . . . . . . . . . . . . . . . . . . 18


2.2. Distribución Binomial Negativa con un parámetro fijo . . . . . . . . . 23
2.3. Distribución Binomial Negativa según distintos parámetros . . . . . . 23

4.1. Gráfico de Frecuencias de la variable Ccorona . . . . . . . . . . . . . 40


4.2. Ajuste Poisson a la Variable Ccorona . . . . . . . . . . . . . . . . . . 41
4.3. Ajuste Binomial Negativa a la Variable Ccorona . . . . . . . . . . . . 42
4.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.5. Valores Observados vs. Valores Estimados con Modelos Binomial Ne-
gativa y Hurdle Binomial Negativa . . . . . . . . . . . . . . . . . . . 48
4.6. Gráfico de frecuencias absolutas de Pcorona . . . . . . . . . . . . . . 50
4.7. Gráfico de frecuencias de Pcorona . . . . . . . . . . . . . . . . . . . . 50
4.8. Primeros ajustes a la variable Pcorona . . . . . . . . . . . . . . . . . 51
4.9. Ajuste Hurdle Binomial Negativo a la variable Pcorona . . . . . . . . 52
4.10. Ajuste Cero Inflado Binomial Negativo a la variable Pcorona . . . . . 52
4.11. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.12. Valores Observados vs. Valores Estimados Cero Inflado y Valores Es-
timados Hurdle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.13. Gráfico de frecuencias de Ocorona . . . . . . . . . . . . . . . . . . . . 59
4.14. Primeros Ajustes a la variable Ocorona . . . . . . . . . . . . . . . . . 60
4.15. Ajuste Cero Inflado Binomial Negativo a la variable Ocorona . . . . . 60
4.16. Ajuste Hurdle Binomial Negativo a la variable Ocorona . . . . . . . . 61

ix
ÍNDICE DE FIGURAS

4.17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.18. Valores Observados vs. Valores Estimados Cero Inflado y Valores Es-
timados Hurdle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.19. Histograma de CPOcorona . . . . . . . . . . . . . . . . . . . . . . . . 69

x x
Índice de tablas

2.1. Media y Varianza de los distintos tipos de distribución Binomial Ne-


gativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.1. Proporción de personas relevadas por Región según Tramo Etario . . 35


3.2. Cantidad de personas por variable según tramo de prevalencia . . . . 36
3.3. Proporción de personas por tramo etario, sexo, región, estudio uni-
versitario e INSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4. Proporción de personas en la muestra según consuma o no mate o
tabaco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.5. Proporción de personas en la muestra según tenga o no institución
medica colectiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1. Medidas de resumen de Ccorona según Región . . . . . . . . . . . . . 45


4.2. Medidas de resumen de Ccorona según Tramo Etario . . . . . . . . . 45
4.3. Medidas de resumen de Ccorona según Sexo . . . . . . . . . . . . . . 45
4.4. Medidas de resumen de Ccorona según Estudio Universitario . . . . . 45
4.5. Medidas de resumen de Ccorona según Institución Médica . . . . . . 45
4.6. Medidas de resumen de Ccorona según Consume Mate . . . . . . . . 45
4.7. Medidas de resumen de Ccorona según Fuma . . . . . . . . . . . . . . 45
4.8. Modelo Estimado usando Binomial Negativo . . . . . . . . . . . . . . 46
4.9. Modelo Estimado Hurdle Binomial Negativa . . . . . . . . . . . . . . 47
4.10. Medidas de resumen de Pcorona según Región . . . . . . . . . . . . . 55

xi
Índice de tablas

4.11. Medidas de resumen de Pcorona según Tramo Etario . . . . . . . . . 55


4.12. Medidas de resumen de Pcorona según Sexo . . . . . . . . . . . . . . 55
4.13. Medidas de resumen de Pcorona según Estudio Universitario . . . . . 55
4.14. Medidas de resumen de Pcorona según Institución Médica . . . . . . 55
4.15. Medidas de resumen de Pcorona según Consume Mate . . . . . . . . 55
4.16. Medidas de resumen de Pcorona según Fuma . . . . . . . . . . . . . . 55
4.17. Modelo Estimado Cero Inflado Binomial Negativa Pcorona . . . . . . 56
4.18. Modelo Estimado Hurdle Binomial Negativa Pcorona . . . . . . . . . 57
4.19. Medidas de resumen de Ocorona según Región . . . . . . . . . . . . . 64
4.20. Medidas de resumen de Ocorona según Tramo Etario . . . . . . . . . 64
4.21. Medidas de resumen de Ocorona según Sexo . . . . . . . . . . . . . . 64
4.22. Medidas de resumen de Ocorona según Estudio Universitario . . . . . 64
4.23. Medidas de resumen de Ocorona según Institución Médica . . . . . . 64
4.24. Medidas de resumen de Ocorona según Consume Mate . . . . . . . . 64
4.25. Medidas de resumen de Ocorona según Fuma . . . . . . . . . . . . . . 64
4.26. Modelo Estimado Cero Inflado Binomial Negativa . . . . . . . . . . . 65
4.27. Modelo Estimado Hurdle Binomial Negativa . . . . . . . . . . . . . . 66

F.1. Primera Estimación Binomial Negativa . . . . . . . . . . . . . . . . . 105


F.2. Primera Estimación Hurdle Binomial Negativa . . . . . . . . . . . . . 106
F.3. Primera Estimación Cero Inflado Binomial Negativa Pcorona . . . . . 107
F.4. Primera Estimación Hurdle Binomial Negativa Pcorona . . . . . . . . 108
F.5. Primera Estimación Cero Inflado Binomial Negativa . . . . . . . . . . 109
F.6. Primera Estimación Hurdle Binomial Negativa . . . . . . . . . . . . . 110

1
ÍNDICE DE TABLAS

2 2
Capı́tulo 1

Introducción

Es de interés para los profesionales de la odontologı́a, medir el grado de salud bucal


relacionada con la enfermedad de caries dental de los individuos y considerando un
grupo de variables de tipo sociales, económicas, demográficas y clı́nicas estudiar si
existe relación entre ellas y la enfermedad caries.

El ı́ndice más utilizado para medir la prevalencia de dicha enfermedad es el Índice


CPO, que debe su nombre a las primeras letras de Cariado, Perdido y Obturado. El
mismo fue propuesto por Klein, Palmer y Knutson (9) en el año 1935, durante un
estudio del estado dental y la necesidad de tratamiento de niños asistentes a escuelas
primarias en Hagerstown, Maryland, EUA. Este ı́ndice es un indicador que cuantifica
la experiencia de la enfermedad Caries Dental tanto presente como pasada, debido
a que toma en cuenta los dientes con la enfermedad presente, los que tuvieron un
tratamiento previo e incluso los que han sido extraı́dos a causa de la misma.

De éste modo, el ı́ndice CPO del individuo j se obtiene sumando la cantidad de


dientes permanentes Cariados (C), Perdidos (P) y Obturados (O) de cada individuo.

32
X 32
X 32
X
CP Oj = Ci + Pi + Oi (1.1)
i=1 i=1 i=1

3
CAPÍTULO 1. INTRODUCCIÓN

donde

C: Cariado - La enfermedad está presente y la lesión activa

P: Perdido - La pieza fue perdida por caries dental

O: Obturado - La pieza recibió tratamiento y la enfermedad ha sido curada.

De esta forma, Ci vale 1 si la pieza i presenta caries y cero si no, Pi vale 1 si ha sido
perdida por la enfermedad y cero si no, y Oi vale 1 si ha sido curada y cero si no, de
modo que el ı́ndice CPO puede tomar valores de 0 a 32, ya que se contabilizan 32
piezas dentales en el caso de que se tengan los terceros molares, a los que se llama
“muelas de juicio”.

A partir de éste ı́ndice y realizando algunas modificaciones al mismo se propusieron


luego una variedad de indicadores con el mismo propósito. En 1944 Gruebbel (5)
propone el CPO-d que se obtiene de igual manera que el CPO pero toma en cuenta
sólo los dientes temporales, por lo que se consideran 20 piezas e individuos menores
de 12 años. Se puede encontrar otras variaciones en textos de Odontologı́a y de Salud
Bucal.

Debido a la variabilidad oculta que presenta el indicador, ya que un valor de CPO=10


puede referirse tanto a 10 piezas perdidas como a 5 cariadas y 5 obturadas, en el
presente trabajo se analiza cada componente individualmente.

Los datos utilizados para el estudio son los correspondientes al primer relevamiento
epidemiológico llevado a cabo en Uruguay durante los años 2010-2011(12) por parte
de la Facultad de Odontologı́a de la Universidad de la República, auspiciado por el
Ministerio de Salud Pública y coordinado conjuntamente con docentes del Instituto
de Estadı́stica de Facultad de Ciencias Económicas y de Administración, y basado
en la metodologı́a propuesta por la Organización Mundial de la Salud (OMS)1 .
1
http://www.who.int/about/es/

4 4
La muestra consta de 1485 individuos relevados, de los cuales 922 pertenecen a
Montevideo y el resto a 14 ciudades del interior que tienen más de 20.000 habitantes.
Los tramos etarios en los que se divide la población de estudio son de 15 a 24, 35 a
44 y 65 a 74.

Objetivos

El objetivo general es encontrar una forma de explicar las variables C, P, y O ası́ como
también del indicador CPO a partir de un conjunto de variables socioeconómicas que
se consideran importantes en el resultado de los mismos y ası́ encontrar un modelo
adecuado para estudiar el comportamiento de C, P, O y CPO.

Como objetivos especı́ficos se plantea:

Encontrar las distribuciones que mejor se adapten a las variables C, P, O y


CPO.

Ver si las variables económicas, sociales y demográficas que son significati-


vas para explicar una variable son las mismas o no para las otras variables
odontológicas.

Estructura del Trabajo

El presente trabajo consta de 5 capı́tulos. En el primer capı́tulo se realiza una intro-


ducción a lo que será el mismo, ası́ como también una breve explicación de lo que
es y cómo surge el ı́ndice CPO y una introducción de los datos empleados. En el se-
gundo capı́tulo, se presenta la metodologı́a estadı́stica utilizada. Al inicio del mismo
se muestran los procedimientos básicos para el análisis de regresión, mostrándose
métodos más complejos sobre el final. Se hace especial énfasis a los modelos de con-
teo con exceso de ceros y al final del capı́tulo se muestran los procedimientos para
evaluar el ajuste del modelo de regresión. En el tercer capı́tulo se presentan los datos
de la aplicación y se realiza una descripción de los mismos. También se realiza un

5
CAPÍTULO 1. INTRODUCCIÓN

análisis de las variables que serán utilizadas para explicar el comportamiento de las
variables C, P y O. En el capı́tulo 4 se muestran los resultados de la aplicación, y en
el capı́tulo 5 se exponen las principales conclusiones y los pasos a seguir en futuros
trabajos.

6 6
Capı́tulo 2

Metodologı́a

En este capı́tulo se describen los aspectos metodológicos estadı́sticos necesarios para


el análisis de las variables C, P, O y CPO. En primer lugar se exponen los pasos a
seguir para determinar las familias de distribuciones más apropiadas para representar
la variable a explicar. Luego, se hace un recorrido por los diferentes tipos de Modelos
pasando por Modelos de Regresión, Modelos Lineales Generalizados, y finalmente
Modelos de Regresión con excesos de ceros. Sobre el final del capı́tulo se expone la
metodologı́a empleada para evaluar el modelo de regresión construı́do y la calidad
del ajuste del mismo.

2.1. Determinación de la distribución de los datos

Para encontrar el modelo de conteo apropiado a fin de explicar el comportamiento


de la variable C, P, O o CPO, es necesario determinar la distribución de la misma.
Los pasos a seguir para estimar la distribución son (20):

1. Elegir las posibles familias de distribuciones de probabilidad que mejor ajuste


a los datos.

7
CAPÍTULO 2. METODOLOGÍA

2. Estimar los parámetros de la distribución de probabilidad seleccionada.

3. Evaluar la calidad del ajuste de la distribución.

2.1.1. Elección de las posibles familias de distribuciones que

ajusten a los datos bajo estudio

Una forma de elegir las posibles familias de distribuciones que se supone que mejor
representan a los datos, es por medio de análisis exploratorio de los datos a través
de medidas de resumen univariadas o por medio de gráficos. El histograma, por
ejemplo, permite comparar gráficamente las funciones de densidad teóricas con las
empı́ricas. Pero esto puede ser muy subjetivo, por lo que se deben buscar métodos
analı́ticos que sean más objetivos.

2.1.2. Estimación de parámetros de la función de distribu-


ción

La estimación de los parámetros de la función de distribución, θ ∈ Θ asociados a


una distribución de probabilidad se puede hacer por distintos métodos: Método de
los Momentos (M M ) o Máxima Verosimilitud (M V ).

Método de Momentos: Se igualan momentos poblacionales con momentos mues-


trales para hallar los parámetros. Sea Y una variable aleatoria con función de
densidad o cuantı́a fy (y), el momento muestral de orden t para t ∈ N es:

P
t
y y fy (y; θ) en el caso discreto

t
E(Y ) = R
 y t f (y; θ)dy en el caso continuo
y y

8 8
2.1. Determinación de la distribución de los datos

Método Máxima Verosimilitud: La función de verosimilitud es una función de


los parámetros donde las yi son dadas. Un estimador M V de un parámetro
es aquel valor que maximiza la probabilidad de observar una determinada
muestra.

Qn
Función de Verosimilitud: L(θ) = i=1 f (yi ; θ)

Maximizar el logaritmo de esta función equivale a maximizar la función, lo


cual resulta más simple. Se deriva respecto a θ el logaritmo de la verosimilitud
y se iguala a cero para encontrar el máximo de la función. De esa ecuación se
despejan los valores que serán las estimaciones de los parámetros.

2.1.3. Calidad del ajuste

Para estudiar el ajuste de una distribución de probabilidad a los datos se estudian los
errores que resultan de aplicar la distribución de probabilidad elegida a la muestra,
y además se emplean una serie de tests, conocidos como Tests de Bondad de Ajuste.

Las medidas de Bondad de Ajuste describen el ajuste de un conjunto de observacio-


nes a una distribución de probabilidad. Se usan para comparar frecuencias empı́ricas
con frecuencias teóricas; es decir, resumir la discrepancia entre los valores observados
y los valores esperados. Existen medidas absolutas y relativas. Las medidas absolu-
tas son las que consideran las diferencias entre el valor observado y el valor estimado
y las medidas relativas son el cociente entre el error absoluto y el valor observado.
Como medida absoluta se presenta por ejemplo:

Pn
i=1 |yi − ŷi |
ξ= (2.1)
n

donde yi es la frecuencia empı́rica y ŷi es el valor ajustado. Y como medida relativa:

9
CAPÍTULO 2. METODOLOGÍA

Pn
ξ |y − ŷi |
δ = Pn Pn i
= i=1 (2.2)
i=1 yi /n i=1 yi

Estas medidas muestran la diferencia que existe entre el valor observado y el valor
esperado que resulta al aplicar la distribución de probabilidad que se desea probar.
De este modo, cuanto más chica esta medida, más acertada la elección de la distri-
bución. Se elige la función de distribución de probabilidades que presente el menor
valor de medida absoluta o relativa.

Es posible evaluar la bondad de ajuste gráficamente representando la densidad teóri-


ca y el histograma juntos: cuanto más se asemeja el histograma de los datos obser-
vados al gráfico de la función de densidad o función de cuantı́a, mejor el ajuste.

Los tests de bondad de ajuste son una herramienta utilizada para probar si los datos
que se estudian provienen de una distribución de probabilidad dada. Se realizan
mediante pruebas de hipótesis de la forma:

H0 ) La muestra proviene de la distribución indicada.

H1 ) La muestra no proviene de dicha distribución.

Estas pruebas no dependen de la función de distribución.

La prueba Chi-cuadrado es un test de bondad de ajuste basado en una comparación


de los valores observados y los valores esperados bajo H0 cierta. Se trabaja con
datos agrupados y se considera el ajuste de la frecuencia observada con la frecuencia
esperada según la función de distribución de la hipótesis en cada grupo. Esta prueba
se puede usar con cualquier función de distribución, tanto discreta como continua.
Una desventaja de este test es que dado que se aplica con los datos agrupados el
resultado de la prueba dependerá de cómo se agrupen los mismos. Otra desventaja
es que para su implementación es necesario un tamaño de muestra suficientemente
grande (por ejemplo > 50).

10 10
2.2. Análisis de regresión

Para la prueba se dividen los datos en l grupos y el estadı́stico de prueba es el


siguiente:

l
X (Oi − Ei )2
χ2 = (2.3)
i=1
Ei

donde Oi es la frecuencia observada del grupo i y Ei el número esperado para el


grupo i calculado por la función de distribución propuesta. Este estadı́stico tiene
distribución χ2 con l − k − 1 grados de libertad, donde k es el número de parámetros
estimados.

2.2. Análisis de regresión

El análisis de regresión es un proceso utilizado para conocer el efecto que una o


varias variables independientes o predictoras causan sobre una variable dependiente
o variable de respuesta. De esta manera, es de interés en el análisis de regresión ex-
plorar el cambio en el valor esperado de la variable dependiente Y cuando el valor de
una de las variables predictoras X varı́a manteniendo las otras constantes. Se estima
la función de regresión, que es la función del conjunto de variables independientes.

La relación entre la variable dependiente y la función de regresión puede ser lineal,


dando paso a los Modelos de Regresión Lineal (MRL), o no lineales, dónde la técnica
usada es Modelos Lineales Generalizados (MLG).

El modelo de regresión tiene la forma

E(Y /X) = f (x) +  (2.4)

Donde  es la diferencia entre el valor ajustado y el valor real y se conoce como “error

11
CAPÍTULO 2. METODOLOGÍA

aleatorio”. Cuando Y depende de una única variable regresora X y la relación es


lineal, es clasificada como Regresión Lineal Simple. Cuando depende de más de una
variable, es llamada Regresión Lineal Múltiple. En cambio, si f (x) no es una función
lineal, se dice que la regresión es no lineal.

2.3. Modelos lineales generalizados

Los MLG son una generalización de los modelos de regresión. Permiten relacionar
la variable de respuesta Y que puede no seguir una distribución Normal con los
predictores lineales X 0 s por medio de una función de enlace.

2.3.1. Componentes del modelo

La variable de respuesta Y en un MLG es explicada por una fuente de variabilidad


de tipo aleatoria y otra de tipo determinista, relacionadas a través de una función
de enlace.

1. Componente aleatoria: Una función de densidad o cuantı́a f perteneciente a


la familia exponencial.

 
yθ − b(θ)
f (y) = exp c(y, φ) (2.5)
a(φ)

Donde θ es el parámetro canónico o parámetro de la familia, que depende de


los regresores a través de la función link, la que linealiza la relación entre la
variable de respuesta Y y las variables explicativas X 0 s, y φ es un parámetro de
dispersión por lo general conocido. Las funciones a(.), b(.) y c(.) son conocidas.

12 12
2.3. Modelos lineales generalizados

El hecho de que f (y) pertenezca a la familia exponencial le otorga ciertas


propiedades muy convenientes, como que se pueda encontrar fácilmente un es-
timador suficiente (que contiene toda la información de la muestra) e insesgado
(E(θ̂) = θ) para el parámetro poblacional (23). Además, la primer y segunda
derivada con respecto a θ representan la media y la varianza de la variable
respectivamente.

2. Componente sistemático - Predictor lineal : Especifica las variables explicativas


y las relaciona al modelo por Xβ. β es el vector de parámetros de regresión y
es estimado por Máxima Verosimilitud

3. Función link : Relaciona la distribución de la variable dependiente con las va-


riables explicativas.
g(Y ) = Xβ +  (2.6)

De este modo, la función de enlace relaciona el Componente Aleatorio con el


Componente Sistemático del modelo.

En ocasiones las observaciones de Y indican éxito o fracaso (binaria), o categorı́as,


y se lleva a cabo una regresión Logı́stica para el estudio de la población. En otros
casos, como el del presente trabajo, cada observación es un conteo, por lo que se
puede asignar a Y una distribución Poisson, Binomial Negativa, Poisson Inversa
Gaussiana, Binomial Negativa-ρ.

2.3.2. Estimación de los parámetros

La estimación de los parámetros en el MLG se realiza por Máxima Verosimilitud.

Y
L(θ/y) = f (yi ) (2.7)

13
CAPÍTULO 2. METODOLOGÍA

Maximizar el logaritmo de esta función es equivalente a maximizar dicha función.

X X  yi θ − b(θ) 
log(L(θ/y)) = log(f (yi )) = + log(c(yi , φ)) (2.8)
a(φ)

El estimador máximo verosı́mil de θ anula la derivada de la función anterior.

δlogL X yi − b0 (θ)
= (2.9)
δθ a(φ)

Como estas ecuaciones de estimación no se pueden resolver directamente, su solución


se aproxima por métodos iterativos, como el algoritmo de Newton-Raphson (N-R).

Algoritmo de Newton-Raphson. (26)

Dado un parámetro inicial estimado θb0 que puede ser estimado por el Método de los
Momentos, podemos obtener una aproximación de L alrededor de θb0

L∗ (θ) = L(θb0 ) + L0 (θb0 )(θ − θb0 ) + 21 (θ − θb0 )2 Hn (θb0 ) ≈ L(θ)

Entonces podemos maximizar L∗ alrededor de θ produciendo un nuevo valor del


parámetro que llamaremos θb1 . La condición para resolver este problema es:

L0 (θb0 ) + Hn (θb0 )(θb1 − θb0 ) = 0

que es lo mismo que:

θb1 = θb0 − [Hn (θb0 )]−1 L0 (θb0 )

La regla general de iteración de N-R es:

θbt+1 = θbt − [Hn (θbt )]−1 L0 (θbt )

donde Hn (.) es la matriz Hessiana.

14 14
2.4. Modelos de regresión para datos de conteo

El procedimiento iterativo termina cuando se satisface un criterio de convergencia


predefinido que puede ser: el cambio en θbt+1 − θbt , o el valor de L0 (θbt ). La convergencia
ocurre cuando alguno de esos valores es cercano a cero.

2.4. Modelos de regresión para datos de conteo

Los datos de conteo son observaciones de valores enteros no negativos que comienzan
en cero. Una variable de conteo es una lista especı́fica de datos de conteo que toma
valores no negativos y donde cada valor es independiente a otro. Una variable de
conteo es aquella que determina el número de eventos que ocurren en un determinado
espacio o tiempo. En este caso el modelo de regresión relaciona la variable de conteo
a explicar Y , con una o más variables predictoras X que pueden ser categóricas o
cuantitativas. La variable de respuesta Y no tiene lı́mite superior y toma el valor
cero en muchos casos.

El objetivo principal al modelar datos de conteo es explicar el número de ocurrencias


de un evento en un momento o espacio determinado. Ası́, la variable a explicar Y
toma valores enteros no negativos. Se estiman los parámetros de una distribución
de probabilidad que se considera apropiada para representar los datos a modelar.
Las distribuciones más utilizadas para representar datos de este tipo son: Poisson,
Binomial Negativa (BN), Poisson Inversa Gaussiana (PIG) y Binomial Negativa-ρ
(BN-ρ).

La distribución Poisson tiene un solo parámetro, µ, que es su media y varianza.


La condición que deben cumplir los datos es que la media y la varianza deben ser
iguales, por lo que a medida que aumenta el valor esperado de la variable Y , mayor
variabilidad. Cuando se cumple la igualdad de media y varianza en la variable a
explicar, se conoce como criterio de equidispersión, y no suele cumplirse al trabajar
con datos reales. El método más usado para hacer frente a la sobredispersión de

15
CAPÍTULO 2. METODOLOGÍA

Poisson es modelar los datos usando una Binomial Negativa. La distribución Bi-
nomial Negativa tiene un parámetro adicional llamado parámetro de dispersión; es
una medida de ajuste para acomodar el exceso de variabilidad en los datos. Esta
distribución permite mayor flexibilidad al modelar datos sobredispersos. Cuando los
datos presentan gran concentración en los primeros valores del recorrido, es útil usar
la distribución Poisson Inversa Gaussiana, que es una mezcla de una variable aleato-
ria Poisson donde su parámetro se distribuye de acuerdo a una distribución Inversa
Gaussiana. El modelo BN-ρ, es un modelo de conteo de tres parámetros, donde ρ es
el exponente del segundo término de la varianza, lo que da una mayor flexibilidad
en la misma.

Estructura del modelo:

Dado que la función link es el logaritmo, el modelo tiene la forma

yb = exp {β0 + β1 x1 + ... + βk xk } ⇒ log(b


y ) = β0 + β1 x1 + ... + βk xk

La función logaritmo garantiza que los valores predichos serán siempre positi-
vos.

Tipos de Modelos de Conteo:

Al elegir el modelo más apropiado para los datos, se está seleccionando una
distribución de probabilidad o mezcla de distribuciones que mejor describen los
datos de la población de los cuales se extrajo la muestra a ser modelada. Los
datos no siempre se asocian a una distribución Poisson o Binomial Negativa.
Puede suceder que no asuman valores cero o que tengan gran cantidad de
ceros, por lo que es necesario un ajuste a la función de probabilidad. Con
este propósito se usan Modelos Cero Truncados (MCT), Hurdle (MH) y Cero
Inflados (MCI). Pertenecen a los Modelos en dos Partes ya que presentan
un componente Logit o Probit para determinar los conteos cero frente a los
conteos positivos, y un modelo Poisson, PIG o Binomial Negativo para los

16 16
2.4. Modelos de regresión para datos de conteo

conteos positivos.

Estimación de los parámetros del modelo:

Se estiman por Mı́nimos Cuadrados Generalizados o Máxima Verosimilitud


Iterativos (Algoritmo de Newton-Raphson (26))

2.4.1. Regresión Poisson

El modelo regresión Poisson permite relacionar la variable aleatoria Y con distribu-


ción Poisson con variables explicativas X por medio de la función de enlace logaritmo.

Entonces el modelo de regresión Poisson es de la forma:

log(Y ) = Xβ + 

La variable aleatoria Y con distribución Poisson es una variable discreta y es la


más simple usada para modelar datos de conteo. Es unimodal y se destaca por la
propiedad de igualdad de media y varianza, lo que lleva a que cuando el valor de los
conteos aumenta en media, también aumenta en variabilidad.

Se aplica a los casos en que se busca modelar un número de ocurrencias de un evento


o fenómeno de cierto tipo que se producen en un intervalo de tiempo o espacio de
observación (7).

Su función de cuantı́a está dada por:


 e−λ λy y = 0, 1, 2, ...
y!
f (y; λ) = (2.10)
 0 otro caso

Donde y es el número de ocurrencias del evento o fenómeno y λ el número medio

17
CAPÍTULO 2. METODOLOGÍA

de veces que se espera que ocurra el mismo en el intervalo de tiempo o el espacio de


observación y coincide con la varianza.

Supuestos de la distribución Poisson:

1. Distribución discreta con un solo parámetro: λ = media

2. Y toma valores enteros no negativos

3. Las observaciones son independientes entre sı́

4. La Media y la Varianza son iguales. A mayor media, más variabilidad

En la figura 2.1 se muestra cómo varı́a la distribución de Poisson a través de su


función de cuantı́a según el valor que toma λ.

Figura 2.1: Distribución Poisson según λ

e−λ λy
Esta v.a. pertenece a la familia exponencial: Su cuantı́a f (y; λ) = y!
se puede

18 18
2.4. Modelos de regresión para datos de conteo

expresar:

1
f (y; λ) = exp {−λ + ylogλ} (2.11)
y!

Donde:

θ = logλ

b(θ) = e−θ

1
c(y, φ) = y!

φ=1

La esperanza y la varianza están dadas por:

E(yi ) = µi = b0 (θ)

V (yi ) = φb”(θ)

La función de enlace en este caso es g(y) = log(y). E(y) = V (y) = λ y el parámetro


de dispersión φ = 1.

La interpretación de los coeficientes estimados βj , dada la forma del modelo log(ŷ) =


β0 + β1 x1 + ... + βk xk , debe verse como el cambio en el logaritmo del valor esperado
de la variable de respuesta y cuando cambia en una unidad la variable predictora xj
manteniendo las otras constantes.

La propiedad de equidispersión muy frecuentemente no se cumple al trabajar con da-


tos reales; la hipótesis de igualdad de media y varianza no suele ser cierta, dado que
la varianza observada por lo general es mayor que la media observada (sobredisper-
sión). Una forma de hacer frente a este problema es dejar el parámetro de dispersión
φ libre. Este es el caso de la distribución Quasi-Poisson, que usa la función de me-

19
CAPÍTULO 2. METODOLOGÍA

dia y varianza de la Poisson pero deja irrestricto el parámetro de dispersión. Otro


problema que suele surgir al modelar datos reales es el exceso de ceros, para lo que
se presentan distintas soluciones más adelante.

Sobredispersión en modelos de regresión Poisson

Cuando se trabaja con una base de datos de conteo puede ocurrir que el modelo
Poisson puede parecer sobredisperso y en realidad no lo es, o puede efectivamente
presentar sobredispersión.

En el primer caso, una simple corrección al modelo puede hacer desaparecer la


variabilidad no deseada. Si luego de los ajustes el problema de sobredispersión no
desaparece, se presenta el segundo caso, donde se deben buscar modelos alternativos,
que puede ser el modelado a partir de la distribución Binomial Negativa (no tiene
restricción de igualdad en media y varianza), o el uso de modelos más complejos
como son los modelos compuestos y modelos en 2 partes.

Si existe evidencia suficiente para probar que los datos no siguen una distribución
Poisson, entonces será necesario emplear un modelo de conteo alternativo que se
ajuste al tipo de supuesto violado en la distribución de los datos; por ejemplo:

MCT Poisson para el caso en que los datos no admiten el conteo cero

MCI Poisson si hay más valores ceros de los esperados para una distribución
de Poisson para una media dada o los conteos cero provienen de una fuente
diferente que los conteos mayores que cero. Los conteos cero se admiten en
ambos componentes del modelo.

MH si hay más valores cero o menos valores cero basados en la distribución


Poisson para una media dada o los conteos cero provienen de una fuente di-
ferente que los conteos mayores que cero. En este modelo, los conteos cero se
admiten sólo en el componente binario, mientras que el componente truncado

20 20
2.4. Modelos de regresión para datos de conteo

en cero no presenta ese valor en el recorrido.

versiones con la Binomial Negativa de los puntos anteriores.

2.4.2. Regresión Binomial Negativa (6)

EL modelo regresión Binomial Negativa permite relacionar la variable aleatoria Y


con distribución Binomial Negativa con variables explicativas X por medio de la
función de enlace logaritmo.

Entonces el modelo de regresión Binomial Negativa tiene la forma:

log(Y ) = Xβ + 

La variable aletoria Y Binomial Negativa es una variable discreta perteneciente a


la familia exponencial que cuenta el número de fracasos antes del r-ésimo éxito en
Y +r experimentos independientes Bernoulli, siendo la probabilidad de éxito en cada
prueba p. Un experimento de Bernoulli es tal que sólo admite dos posibles resultados:
éxito o fracaso. La cantidad de pruebas es indefinida y sólo concluirá cuando se
obtengan r resultados favorables.

Su función de cuantı́a está dada por:


y+r−1
 r

y
(p) (1 − p)y y = 0, 1, 2, ...
P (Y = y; p, r) = (2.12)
 0 otro caso

r(1−p)
Con E(Y ) = p
y V (Y ) = r (1−p)
p2

Supuestos del modelo Binomial Negativo:

21
CAPÍTULO 2. METODOLOGÍA

1. La variable de respuesta es discreta y toma valores enteros no negativos.

2. A medida que la media µ aumenta, la probabilidad de un conteo=0 decrece.

3. El valor 0 se encuentra en el recorrido de Y .

4. La V (Y ) es mayor que la E(Y ).

La distribución Binomial Negativa se puede ver como una mezcla de distribuciones


Poisson-Gamma: es una v.a. con distribución Poisson en la cual su parámetro es una
variable aleatoria que se distribuye Gamma.

Sea la función de cuantı́a de la distribución Poisson

e−λ λy
P (Y = y/λ) = I{y=0,1,...,n} (2.13)
y!

y la función de densidad de la v.a. Gamma

αβ
g(λ) = Γ(β)
λβ−1 e−αλ λ ≥ 0, α > 0, β > 0 (2.14)

e−λ λy αβ β−1 −αλ


⇒ P (Y = y, Λ = λ) = P (Y /λ)g(λ) = λ e (2.15)
y! Γ(β)

  β  y
y+β−1
Z
α 1
⇒ P (Y = y) = P (Y ; λ)g(λ)dλ = (2.16)
y α+1 α+1

para valores de y ≥ 0

Donde α = p
1−p
y β = r, por lo que E(Y ) = β
α
y V (Y ) = β (α+1)
α2

Al ser V (Y ) > E(Y ) esta distribución permite, a diferencia de la distribución Pois-

22 22
2.4. Modelos de regresión para datos de conteo

son, modelar datos sobredispersos, y suele ser la primera alternativa para hacer
frente a la restricción de igualdad de media y varianza de dicha distribución.

Figura 2.2: Distribución Binomial Negativa con un parámetro fijo

Figura 2.3: Distribución Binomial Negativa según distintos parámetros

En la figura 2.2 se muestra la forma que toma la cuantı́a de la distribución Binomial


Negativa por un lado variando el parámetro p y dejando µ fijo (izquierda) y por el
otro variando el parámetro µ y dejando p fijo (derecha). En la figura 2.3 se muestra
la forma que toma la distribución Binomial Negativa también a través de su cuantı́a

23
CAPÍTULO 2. METODOLOGÍA

variando ambos parámetros.

Parametrizaciones de la Varianza

Se puede distinguir hasta 13 formas de modelos Binomial Negativo, debido a las


formas en que la varianza varı́a. Aquı́ se hará referencia a la forma lineal (BN1),
la que puede ser vista como un modelo Quasi Poisson con φ = (1 + α), la forma
cuadrática y más tradicional (BN2) y la BN-ρ, donde la varianza varı́a en cada
observación. La principal diferencia entre estos modelos radica en el valor que toma
el exponente en la función de varianza, lo que se muestra en la tabla 2.1.

Tabla 2.1: Media y Varianza de los distintos tipos de distribución Binomial Negativa

Modelo Media Varianza


BN1 µ µ(1 + α) = µ + α
BN2 µ µ(1 + αµ) = µ + αµ2
BN-ρ µ µ(1 + αµρ−1 ) = µ + αµρ

BINOMIAL NEGATIVA-ρ: Este modelo tiene un parámetro adicional en el segundo


término en la varianza.

V (Y ) = µ + αµρ

1
Siendo α = r

La estimación de ρ nos indica si es conveniente modelar los datos a partir de una


BN1 o con BN2, y la elección de la distribución se realiza mediante el Test de Razón
de Verosimilitud.

24 24
2.5. Exceso de ceros en datos de conteo

2.4.3. Otras formas de tratar la sobredispersión: Regresión


Poisson Inversa Gaussiana (PIG)

Al igual que la distribución Binomial Negativa, la distribución Poisson Inversa Gaus-


siana es una mezcla de distribuciones. La variable aleatoria Y sigue una función de
cuantı́a Poisson (2.10) donde su parámetro λ es también una variable aleatoria con
distribución IG.

Debido a la flexibilidad de esta distribución, la distribución Poisson Inversa Gaus-


siana tiene la capacidad de modelar datos de conteo con alta sobredispersión.

Es una alternativa al modelo Binomial Negativo cuando se trata de ajustar datos


sobredispersos. Además, es útil para modelar datos que tienen gran concentración
en los primeros valores, y esto es una ventaja sobre la BN.

2.5. Exceso de ceros en datos de conteo

Las distribuciones que fueron tratadas anteriormente asumen que pueden existir da-
tos iguales a cero. Algunas variables de conteo que describen datos reales muestran
un porcentaje de ceros muy alto. Esa cantidad de ceros no es compatible con las dis-
tribuciones Poisson o BN. La gran diferencia entre el número esperado y el número
observado de ceros es un problema en el análisis: puede ser causa de sobredispersión
y la estimación de los coeficientes puede no ser fiable. Subestima la varianza con
intervalos de confianza más chicos de lo que corresponde, obteniendo como conse-
cuencia variables significativas que no lo son. Además, la precisión en las inferencias
se verán altamente afectadas. Para corregir este problema se debe hacer un ajuste
a la función o usar otro modelo diferente.

25
CAPÍTULO 2. METODOLOGÍA

2.5.1. Modelos truncados en cero

Los modelos truncados implican que en algún punto del recorrido de la variable, un
determinado valor está totalmente ausente.

Si el valor que no se observa es el cero entonces se dice que es un modelo “Truncado


en Cero”. Este tipo de modelos no admite conteos ceros, por lo que la distribución no
debe tener este valor en su recorrido para poder modelar los datos adecuadamente.
Es necesario modificar la función para que la suma de las probabilidades de los
valores sea 1.

Las distribuciones presentadas anteriormente pueden ser modificadas para llegar a


sus versiones truncadas.

Poisson Cero Truncado: Como en una distribución Poisson la P (Y = 0) = e−λ


y para valores de la media cada vez más grandes la P (Y = 0) es cada vez más
chica (dado que a mayores valores de λ, e−λ es cada vez más chico), usar este
modelo no es necesario si la media es alta (por ejemplo mayor que 5) En este
caso la distribución observada es de la forma

f (y, y > 0/x) exp(−λ)λy


f (y/x, y > 0) = = (2.17)
f (y > 0/x) y!(1 − exp(−λ))

Para y > 0, donde y son los valores observados (en este caso mayores que 0) y
x son las variables explicativas.

Binomial Negativa Cero Truncado: La lógica es la misma que para la distri-


bución Poisson, se trunca la distribución en y = 0 y la distribución observada
es:  
y+β−1 α
β 1
y
 
α+1 α+1
y
f (y/x, y > 0) = β (2.18)
α
1− α−1

26 26
2.5. Exceso de ceros en datos de conteo

Poisson Inversa Gaussiana Cero Truncado: Como se mencionó, el modelo PIG


permite trabajar con datos sobredispersos. Es ideal para trabajar con datos
asimétricos y que no permiten conteo cero, aunque no ajusta tan bien como la
Binomial Negativa.

Binomial Negativa-ρ Cero Truncado: Es el mejor modelo ajustado si hay he-


terogeneidad en la dispersión.

2.5.2. Modelos de regresión Hurdle

El Modelo de Regresión Hurdle, también conocido como “Modelo con Obstáculo”,


es un modelo de dos componentes o “modelo en dos partes”que combina:

1. Un proceso binario para los valores que están por encima o por debajo del
valor de selección, modelado por medio de un proceso logit, para describir la
probabilidad de que se cruce el “obstáculo”. Dicho proceso modela datos que
toman dos valores: éxito o fracaso. Este componente del modelo sólo genera
conteos cero.

Sea yi la observación i

yi ∼ Ber(pi ) siendo pi = E(yi /xi ) la probabilidad de éxito.

El modelo logı́stico es (16)

eXβ
E(Y /X) = πi = (2.19)
1 + eXβ

1
πi = (2.20)
1 + e−Xβ

Haciendo cálculos se llega a

27
CAPÍTULO 2. METODOLOGÍA

πi 1 + eXβ
= −Xβ
= eXβ (2.21)
1 − πi 1+e

Aplicando logaritmo en ambos lados de la ecuación se obtiene:

 
πi
log = Xβ (2.22)
1 − πi

lo que se conoce como transformación logit de πi .

πi
1−πi
es conocido como odds, que es una razón de probabilidades: es el cociente
entre la probabilidad de que ocurra el evento y que no ocurra el evento, por
lo que cuanto más alto el odds, más alta será la probabilidad de que el suceso
ocurra.

2. Un proceso que genera sólo los conteos mayores que cero mediante un mode-
lo Cero Truncado. Este componente se puede modelar mediante un modelo
Poisson, Binomial Negativo o PIG.

El modelo Hurdle tiene la forma



 fcero (0; z, γ) si y = 0
fhurdle (y; x, z, β, γ) = (2.23)
(1 − f − fcont (0; x, β))
cero (0; z, γ))fcont (y; x, β)/(1 si y > 0

En este modelo, se considera que los datos son generados de tal forma que un proceso
genera conteos positivos luego de cruzar un obstáculo. Hasta que dicha barrera es
cruzada, el proceso genera conteos cero. El vector de parámetros β y γ del modelo
se estiman por máxima verosimilitud y pueden ser maximizados por separado.

2.5.3. Modelos de regresión Cero Inflado

El modelo de regresión cero inflado fue propuesto por Lambert (10) con el fin de,
como en los modelos Hurdle, tratar el problema en los datos que muestran una

28 28
2.6. Evaluación del ajuste

cantidad de ceros mucho más alta que la que es compatible con las distribuciones
usualmente utilizadas, es decir, los datos a ser estudiados presentan más ceros que
los esperados. Al igual que los modelos de regresión Hurdle, este modelo combina
una variable binaria con un modelo de conteo Poisson, PIG o Binomial Negativo. Es
un modelo mixto de dos componentes que da mayor peso a la probabilidad de que
la variable sea igual a cero, por lo que la función de probabilidad para un modelo
de regresión Cero Inflado es una mezcla de una función de masa concentrada en
cero y un modelo perteneciente a la familia exponencial. A diferencia de los Modelos
Hurdle, el primer componente genera sólo conteos cero, pero el segundo genera el
rango completo de conteos, incluyendo los ceros.

El MCI tiene la forma:


fcero (0; z, γ) + (1 − fcero (0; z, γ))fcont (0; x, β) si y = 0
fceroinf (y; x, z, β, γ) = (2.24)
 (1 − fcero (0; z, γ))fcont (y; x, β) si y > 0

De esta forma, se generan dos modelos y luego se combinan.

Un signo positivo en la estimación del coeficiente del componente binario indica


que, si la variable toma el valor de referencia, la probabilidad de un conteo mayor
que cero aumenta. En cambio para el componente de conteos, la interpretación de
los parámetros debe hacerse de igual forma que en modelos Poisson y Binomial
Negativo.

2.6. Evaluación del ajuste

Una vez elegido el modelo de regresión es necesario evaluar si el mismo tiene un buen
ajuste y si es el indicado para los mismos. Eso implica analizar errores y realizar

29
CAPÍTULO 2. METODOLOGÍA

tests para corroborar la bondad del ajuste y la elección del modelo. Además, citando
a Joseph M. Hilbe (6) en su libro Negative Binomial Regression, “Un modelo sólo
es tan bueno como los resultados de sus ajustes estadı́sticos”.

2.6.1. Análisis de los residuos (2)

Los residuos son definidos como ri = yi − ybi , i = 1, ..., n.

Esta medida parte de la diferencia entre el valor ajustado y el valor observado de la


variable dependiente.

2.6.2. Test pseudo R2

El estadı́stico R2 es una herramienta para analizar los modelos de regresión ordi-


narios, y es conocido como Coeficiente de Determinación, indicando el mismo el
porcentaje de variación en los datos que es explicado por el modelo. El estadı́stico
toma valores de 0 a 1, siendo 1 el mejor ajuste del modelo. Este estadı́stico no es
apropiado para evaluar modelos de regresión no lineales, como es el caso de los MLG.
En este caso, el estadı́stico usado es Pseudo R2 , que también varı́a entre 0 y 1 y es
definido como:

RP2 = 1 − LF /LI (2.25)

donde LF es la log-verosimilitud del modelo ajustado con las variables explicati-


vas y LI es la log-verosimilitud del modelo sólo con la intercepción y sin variables
explicativas.

Al comparar modelos, los modelos con valores de RP2 más bajos, indican un ajuste
más “pobre”, ya que tienen una menor verosimilitud, la cual lleva a un menor RP2 .

30 30
2.6. Evaluación del ajuste

2.6.3. Test de bondad de ajuste del desvı́o

El Desvı́o es expresado como

n
X
D=2 {L(yi ; yi ) − L(βi ; yi )} (2.26)
i=1

donde L(yi ; yi ) es la log-verosimilitud del modelo saturado, donde cada valor de µ


es reemplazado por el valor de cada yi dado, y L(µi ; yi ) es la log-verosimilitud del
modelo a ser estimado. Es un test cuyo estadı́stico tiene distribución Chi2, donde los
grados de libertad es el número de predictores del modelo incluı́da la intercepción.
Si el p − valor resultante del valor del Chi2 es menor que el nivel de significación,
entonces se rechaza la hipótesis nula.

H0 )D = 0

H1 )D > 0

2.6.4. Test razón de verosimilitud.

Este test compara modelos con algunos predictores contra el mismo modelo con más
predictores. Evalúa si las variables explicativas deben mantenerse en el modelo, es
decir, si tienen información para explicar el comportamiento de la variable y.

LR = −2(LR − LF ) (2.27)

Donde LR es la verosimilitud del modelo reducido y LF la del modelo más completo.

31
CAPÍTULO 2. METODOLOGÍA

2.6.5. Criterios de selección del modelo

Los tests de criterios de selección del modelo son tests comparativos, siendo los que
presentan valores menores los que indican un mejor ajuste. Los principales tests de
Criterio de la Información son Akaike Information Criterion (AIC) y Bayesian Infor-
mation Criterion (BIC). Estos criterios consisten en una serie de parametrizaciones
alternativas, cada una de las cuales tiene como objetivo determinar un método para
evaluar mejor el ajuste del modelo.

Criterio de Información de Akaike (AIC): el estadı́stico AIC tiene la forma:

−2(L − k)
AIC = (2.28)
n

donde L representa la verosimilitud del modelo, k el número de predictores y


n el número de observaciones.

2k penaliza la cantidad de predictores, dado que al aumentar la cantidad de


los mismos el modelo es más verosı́mil entonces −2L se vuelve más chico. Por
el principio de parsimonia, en igualdad de condiciones, el modelo más sencillo,
suele ser el mejor.

Criterio de Información Bayesiana (BIC): el estadı́stico BIC tiene la forma:

BIC = −2L + klog(n) (2.29)

donde L representa la verosimilitud del modelo, k el número de predictores y


n el número de observaciones.

Este estadı́stico da un mayor peso al término de ajuste klog(n) que el AIC.

32 32
Capı́tulo 3

Datos de la aplicación

En el año 1935 H. Klein, C. E. Palmer, y J. W. Knutson desarrollaron el llamado


ı́ndice CPO (9) (por la primer letra de las palabras Cariado-Perdido-Obturado), con
el fin de estudiar el estado dental de niños de algunas ciudades norteamericanas.
El mismo se ha convertido en el ı́ndice fundamental para los estudios odontológicos
al momento de cuantificar la existencia de caries dental, ya que tiene en cuenta la
existencia de caries tanto presente como pasada. Ası́ el ı́ndice considera:

C: Cariado - Enfermedad presente: la lesión está activa

P: Perdido - Enfermedad pasada: la pieza fue perdida por caries dental

O: Obturado - Enfermedad curada: la pieza recibió tratamiento.

Según la Revista de Salud “Índices Epidemiológicos Para Medir La Caries Dental”


(M. Fernández PratTs) el Índice CPO es un “Índice fundamental de los estudios
odontológicos que se realizan para cuantificar la prevalencia de la caries dental.
Señala la experiencia de caries tanto presente como pasada, pues toma en cuenta los
dientes con lesiones de caries y con tratamientos previamente realizados. Se obtiene
de la sumatoria de los dientes permanentes cariados, perdidos y obturados, incluidas
las extracciones indicadas, entre el total de individuos examinados.”

33
CAPÍTULO 3. DATOS DE LA APLICACIÓN

En Uruguay existe el llamado Programa Nacional de Salud Bucal que propone “Con-
tribuir al logro del más alto grado posible de salud bucal de la población uruguaya,
impulsando, promoviendo y articulando las adecuadas acciones promocionales, pre-
ventivas y asistenciales integradas en un Sistema de Salud y que correspondan a las
necesidades de cada individuo” (1) y que forma parte del Sistema Nacional Integra-
do de Salud (SN IS), donde los grupos prioritarios son las mujeres embarazadas,
los niños y los adolescentes, no existiendo cobertura para la población adulta. Al no
contar con información de dicha población se realiza un relevamiento epidemiológico
durante los años 2010-2011. Es el primer estudio de este tipo realizado en el paı́s,
basado en la metodologı́a propuesta por la OMS que fue llevado a cabo por la Facul-
tad de Odontologı́a de la Universidad de la República (UDELAR), auspiciado por
el Ministerio de Salud Pública (MSP).

Para el relevamiento de datos se consideraron 2 caracterı́sticas principales de Uru-


guay: la concentración de la población en Montevideo y la distribución de las rutas
nacionales en abanico desde Montevideo hacia el interior del paı́s. Es un estudio
realizado a la población joven y adulta urbana en sus domicilios, cuyo muestreo fue
en 2 fases, en la primer fase de el conjunto de personas de los tres tramos etarios
pertenecientes a localidades de 20.0000 o más habitantes de la Encuesta Contı́nua de
Hogares (ECH) y en la segunda fase se seleccionan personas de la primera fase hasta
llegar al tamaño de muestreo previamente calculado (tabla 3.1). El diseño muestral
no fue tomado en cuenta en este trabajo.

Se aplicó un cuestionario a una muestra representativa de la población joven y


adulta de todo el paı́s, sobre la condición socio-económica, hábitos y factores de
riesgo, utilización de servicios de salud y autopercepción de salud. Debido a que es
el primer estudio de este tipo a nivel nacional, los examinadores fueron mayormente
docentes de la Facultad de Odontologı́a.

La información recogida refleja los principales problemas de salud bucal y las nece-

34 34
3.1. Variables relevadas

sidades de tratamiento en los grupos de edades de 15 a 24, 35 a 44 y 65 a 74 años,


por medio de un examen bucal a partir de los criterios de la OMS

Tabla 3.1: Proporción de personas relevadas por Región según Tramo Etario

Tramo Etario Montevideo Interior Total


15-24 0,50 0,45 0,47
35-44 0,23 0,25 0,24
65-74 0,27 0,30 0,29

3.1. Variables relevadas

Se aplica un cuestionario a las personas de la muestra seleccionadas referente a


datos personales y demográficos, caracterı́sticas socioeconómicas, acceso a servicios
de salud, hábitos de riesgo y enfermedades generales. Luego de la aplicación del
cuestionario se realiza un examen bucal por parte del examinador, donde se observan:
lesiones de mucosa y pérdida dentaria, condición periodontal y pérdida de inserción
en los tramos etarios de 35-44 y 65-74 años, caries dental en corona y raı́z (este
último en los tramos etarios de 35-44 y 65-74 años) y maloclusiones (en el grupo de
edad de 15-24 años).

En esta sección se realiza un primer análisis a los datos obtenidos a partir de la


aplicación de dicho cuestionario.

3.1.1. Variables a explicar: CPO, C, P y O

Para recoger la información necesaria sobre las enfermedades bucales consideradas,


el examinador realizó un examen bucal en el domicilio a cada individuo.

El Índice CPO se calculó de acuerdo a lo recomendado por la OMS de la siguiente

35
CAPÍTULO 3. DATOS DE LA APLICACIÓN

Tabla 3.2: Cantidad de personas por variable según tramo de prevalencia

Valor Ccorona Pcorona Ocorona CPOcorona


0-5 1381 860 1239 548
6-10 75 152 182 225
11-15 16 91 50 174
16-20 7 85 9 122
21-25 0 98 1 150
26-32 0 196 1 260
NA’s 6 3 3 6
Total 1485 1485 1485 1485

forma: se considera C como lesión de caries y diente obturado y cariado, P es el


diente perdido por caries para todas las edades y para las personas mayores de
35 se consideran los dientes perdidos por otra razón, y para el componente O se
consideran los dientes obturados sanos. En el presente trabajo sólo se tuvo en cuenta
el componente “Corona”de cada diente, esto significa evaluar la parte visible de la
pieza a diferencia de la raı́z, por lo que las variables a estudiar serán: “Ccorona”,
“Pcorona”, “Ocorona” y “CPOcorona”. Los valores que presentan esas variables
fueron separados en tramos de a 5 y se presenta en la tabla 3.2

Se calculó el ı́ndice de Knutson para la proporción de individuos libres de caries,


individualizándose la proporción de sujetos con ı́ndice CPO igual a cero. El ı́ndice
de Knutson discrimina entre el porcentaje de personas que presentan caries y las
que no(18).

Se recogió información sobre otras enfermedades como paradenciopatı́as, lesiones de


mucosa y maloclusiones, pero no se tomarán en cuenta en el presente estudio.

3.1.2. Caracterı́sticas demográficas y socioeconómicas utili-

zadas en este trabajo

Los datos personales permiten ubicar al individuo en tramo etario, sexo, región y si
tienen estudios universitarios o no. Para la clasificación socioeconómica se utiliza el

36 36
3.1. Variables relevadas

Índice de Nivel Socio Económico (INSE) elaborado por los economistas Fernández
y Perera en el año 2003: Indice de Niveles Socieoconómicos (INSE) (4) y que fue
validado por la Facultad de Ciencias Sociales de la Universidad de la República a
través del Departamento de Sociologı́a, y actualizado por las economistas Llambı́ y
Piñeyro en el año 2012. El mismo toma valores de 0 a 100.

El INSE en su versión reducida, que se utilizó para el cuestionario, considera 9


variables referidas a caracterı́sticas de la vivienda, servicios y tenencia de bienes
(servicio doméstico en el hogar, heladera con freezer, TV color, automóvil, tarjetas
de crédito internacional, número de baños en la vivienda), caracterı́sticas de los
miembros del hogar (ocupación del jefe del hogar, nivel educativo) y caracterı́sticas
de los ingresos del hogar (número de preceptores de ingreso).

Los valores que toman las variables del tipo socioeconómico y demográfico se mues-
tran en la tabla 3.3

Tabla 3.3: Proporción de personas por tramo etario, sexo, región, estudio universitario e
INSE

Tramo Etario Sexo Región Estudio Universitario INSE


15 a 24 0,48 F 0,57 Interior 0,62 Si 0,27 Mı́nimo 0
35 a 44 0,24 M 0,43 Montevideo 0,38 No 0,72 Media 36,42
65 a 74 0,28 NA’s 0,01 Máximo 89

3.1.3. Factores de riesgo

En la tabla 3.4 se muestran los valores que toman los factores de riesgo tomados en
cuenta en el presente estudio, es decir, el consumo de mate y de tabaco del individuo
encuestado. Se incluyen en el cuestionario el consumo de alcohol y consumo de frutas
y verduras pero no fueron tomadas en cuenta en el presente trabajo.

37
CAPÍTULO 3. DATOS DE LA APLICACIÓN

Tabla 3.4: Proporción de personas en la muestra según consuma o no mate o tabaco

Consume Mate Fuma


Si 0,75 0,25
No 0,24 0,74
NA’s 0,01 0,01

3.1.4. Atención a la salud

Con referencia al acceso del encuestado a los servicios de salud, se toma en cuenta si
el individuo cuenta con Institución Médica Colectiva, lo que se refleja en la siguiente
tabla.

Tabla 3.5: Proporción de personas en la muestra según tenga o no institución medica


colectiva

Institución Médica Colectiva


Si 0,56
No 0,44
NA’s ≈0

38 38
Capı́tulo 4

Resultados

El análisis computacional de este trabajo se realizó mediante el software libre R


(19). Las librerı́as usadas fueron pscl (8), sandwich (28), lmtest (30), MASS (25),
gamlss (21), vcd (15), VGAM (27) y rcompanion (14).

La variable CPO fue analizada en primer lugar a través de cada uno de sus compo-
nentes, C, P y O. Luego se analiza la variable CPO propiamente dicha, seleccionando
las posibles familias de distribuciones que se ajusten a las mismas para luego estimar
un modelo de regresión que describa cada una de éstas.

4.1. Variable Ccorona (Caries de corona)

Esta variable representa el número de dientes cariados en su corona, o sea el núme-


ro de dientes con enfermedad presente. Luego de un análisis descriptivo donde se
evalúan distribuciones candidatas a la variable para encontrar las que mejor se adap-
ten a los datos, se ajustan, con éstas, modelos de regresión.

Se trabaja con datos sin valores faltantes, por lo que para la variable Ccorona se
tiene un total de 1466 individuos. Esta variable toma valores de 0 a 18, su media es

39
CAPÍTULO 4. RESULTADOS

1.45 y su varianza 6.39, o sea que su varianza es 4.41 veces su media. En la figura 4.1
se puede ver que los datos se encuentran concentrados en el valor cero decreciendo
hacia el valor máximo de la variable.

Figura 4.1: Gráfico de Frecuencias de la variable Ccorona

4.1.1. Distribución de Probabilidad para Ccorona

Para decidir cuales son las distribuciones que mejor se adaptan a la variable de
interés se prueba el ajuste de las diferentes distribuciones que podrı́an adecuarse a
los datos dadas sus caracterı́sticas básicas.

Al tratarse de una variable cuantitativa discreta con recorrido no negativo, ya que es


una variable de conteo, se intentarán ajustar las distribuciones Poisson y Binomial
Negativa en primera instancia. Para una primera elección de candidata a distribu-
ción se compara gráficamente la distribución empı́rica con la distribución teórica
estimada.

40 40
4.1. Variable Ccorona (Caries de corona)

Figura 4.2: Ajuste Poisson a la Variable Ccorona

En la figura 4.2 se puede ver representada la función de distribución Poisson que


mejor se ajusta a los datos a través de lı́neas rojas y la distribución empı́rica de
Ccorona en barras azules. La distribución Poisson subestima la probabilidad del
primer valor del recorrido de la variable ası́ como sobreestima los 3 valores siguientes.

El número de conteos 0 estimado es considerablemente menor que el número real de


conteo de ceros.

Por lo expuesto se prueba el ajuste de la distribución Binomial Negativa, que permite


una varianza mayor a la media.

En la figura 4.3 se puede ver que esta distribución se ajusta mejor a la variable
Ccorona, por lo que se podrı́a preferir ésta a la distribución Poisson.

En este caso la estimación es muy similar a los valores reales para todos los valores
que tomó la variable. Los parámetros de la distribución Binomial Negativa estimados
según la notación de la ecuación (2.32) son E(Ccorona) = µ = 1,45 y r = 0,44 que
representa la cantidad de éxitos en y + β experimentos, por lo que la varianza
estimada es V (Ccorona) = 6,24 muy próxima a la varianza muestral.

41
CAPÍTULO 4. RESULTADOS

Figura 4.3: Ajuste Binomial Negativa a la Variable Ccorona

De las dos distribuciones de conteo analizadas la distribución Binomial Negativa


es la que mejor se ajusta a los valores observados de la variable Ccorona, por lo
que se estimarán modelos de regresión donde se asumirá que la variable Ccorona se
distribuye Binomial Negativo.

4.1.2. Modelos de Regresión para Ccorona

Se quiere modelar la variable a explicar Ccorona con las variables explicativas región,
tramo etario, sexo, estudio universitario, institución médica colectiva, consume mate,
fuma, INSE.

A través de la figura 4.4 y de las tablas de relaciones bivariadas se muestra una


visión general de la relación bivariada de cada una de las variables explicativas con
la variable Ccorona viendo ası́ las relaciones parciales.

Se puede notar que el número de personas que no tienen caries es mayor si tienen
estudios universitarios que si no lo tienen, ası́ como el 75 % de las personas que
tienen estudios universitarios tienen 1 o menos caries, y el 75 % de las que no tienen
estudio universitario tienen 2 o menos caries, esto es las personas que no tienen
estudios universitarios tienen un número mayor de caries. Lo mismo sucede con las

42 42
4.1. Variable Ccorona (Caries de corona)

personas según si tienen institución médica colectiva, el 75 % de las personas que


tienen institución médica colectiva tienen 1 o menos caries, y el 75 % de las que no
tienen institución médica colectiva tienen 3 o menos caries. El número de personas
que no tienen caries es mayor en el grupo de las que no fuman que dentro de las que
sı́ fuman, el 75 % de las personas que fuman tienen 3 o menos caries y el 75 % de las
personas que no fuman tienen 1 o menos caries, o sea que las personas que fuman
tienen más caries. Lo mismo sucede con la variable consume mate, el 75 % de las
personas que consumen mate tienen 2 o menos caries y el 75 % de las personas que
no consumen mate tienen 1 o menos caries. Para valores de INSE mayores a 20, a
medida que aumenta el valor de esta variable, disminuye la cantidad de coronas con
caries.

La cantidad de personas con caries o sin éstas no parece diferenciarse según si es


hombre o mujer. Ası́ como tampoco en los tramos de edad de 15 a 24 y de 35 a
44, aunque si pertenecen al tramo de 65 a 74 se puede ver una mayor cantidad de
individuos sin caries y con hasta una caries lo cual es el 75 % de los individuos del
grupo. La cantidad de personas sin caries es mayor dentro del grupo perteneciente
a Montevideo que dentro del grupo del interior del paı́s, aunque el 75 % de los
individuos, tanto de Montevideo como del interior, tienen menos de 2 caries.

43
CAPÍTULO 4. RESULTADOS

Figura 4.4

44 44
4.1. Variable Ccorona (Caries de corona)

Tabla 4.1: Medidas de resumen de Ccorona según Región

Región Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.


Interior 0 0 1 1,57 2 18
Montevideo 0 0 0 1,24 2 18

Tabla 4.2: Medidas de resumen de Ccorona según Tramo Etario

Tramo Etario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
15-24 0 0 1 1,68 2 18
35-44 0 0 1 1,89 2 18
65-74 0 0 0 0,65 1 11

Tabla 4.3: Medidas de resumen de Ccorona según Sexo

Sexo Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.


Femenino 0 0 0 1,36 2 18
Masculino 0 0 0 1,56 2 18

Tabla 4.4: Medidas de resumen de Ccorona según Estudio Universitario

Estudio Universitario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 0 0,73 1 10
No 0 0 1 1,72 2 18

Tabla 4.5: Medidas de resumen de Ccorona según Institución Médica

Institución Médica Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 0 0,97 1 18
No 0 0 1 2,06 3 18

Tabla 4.6: Medidas de resumen de Ccorona según Consume Mate

Consume Mate Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 1 1,62 2 18
No 0 0 0 0,9 1 11

Tabla 4.7: Medidas de resumen de Ccorona según Fuma

Fuma Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.


Si 0 0 1 2,31 3 18
No 0 0 0 1,16 1 17

Se ajusta un modelo de regresión Binomial Negativo donde las variables significa-


tivas al 10 % para modelar Ccorona son Estudio Universitario, Institución Médica

45
CAPÍTULO 4. RESULTADOS

Colectiva, Consume Mate, Fuma e INSE, por lo que se ajusta el modelo nuevamente
con estas variables (tabla 4.8).

El modelo ajustado resultante usando la distribución BN es:

log(Ccorona) = 1,019 + 0,301 ∗ EstU niv(N o) + 0,418 ∗ InstM ed(N o) − 0,316 ∗


ConsM ate(N o) − 0,543 ∗ F uma(N o) − 0,020 ∗ IN SE

Tabla 4.8: Modelo Estimado usando Binomial Negativo

Coeficiente Estimado Error Estándar Valor z P-Valor


(Intercepto) 1.019 0.229 4.455 8.37e-06
Estudio Universitario-No 0.301 0.124 2.427 0.015
Institución Médica-No 0.418 0.091 4.611 4.01e-06
Consume Mate-No -0.316 0.106 -2.997 0.003
Fuma-No -0.543 0.095 -5.740 9.68e-09
INSE -0.020 0.004 -5.238 1.62e-07

La estimación de este modelo es similar a los datos reales aunque subestima la


cantidad de ceros como se muestra en la figura 4.5.

Por lo expuesto se intentan ajustar modelos para exceso de ceros para mejorar el
número estimado de ceros.

En el modelo Cero Inflado Binomial Negativo no existen variables significativas para


el componente de cero-inflado, por lo cual se ajusta un modelo Hurdle Binomial
Negativo. Se puede ver que las variables significativas al 10 % en el componente de
conteo difieren de las significativas para el componente cero.

El modelo ajustado resultante es: Para el componente binario

π
log( 1−π ) = 1,092+0,563∗InstM ed(N o)−0,317∗ConsM at(N o)−0,735∗F uma(N o)−
0,022 ∗ IN SE,

para el componente de conteo truncado

log(Ccoronat ) = 0,890 + 0,317 ∗ EstU ni(N o) + 0,249 ∗ InstM ed(N o) − 0,399 ∗

46 46
4.1. Variable Ccorona (Caries de corona)

F uma(N o) − 0,018 ∗ IN SE

Tabla 4.9: Modelo Estimado Hurdle Binomial Negativa

Componente Hurdle
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.092 0.211 5.171 2.33e-07
Institución Médica-No 0.563 0.118 4.778 1.77e-06
Consume Mate-No -0.317 0.132 -2.405 0.016
Fuma-No -0.735 0.130 -5.645 1.66e-08
INSE -0.022 0.004 -5.369 7.90e-08
Componente Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.890 0.322 2.763 0.006
Estudio Universitario-No 0.317 0.176 1.801 0.072
Institución Médica-No 0.249 0.118 2.103 0.035
Fuma-No -0.399 0.115 -3.450 0.001
INSE -0.018 0.006 -3.321 0.001

Comparamos la estimación del Modelo Binomial Negativo con el Modelo Hurdle


Binomial Negativa a través de la figura 4.5.

47
CAPÍTULO 4. RESULTADOS

Figura 4.5: Valores Observados vs. Valores Estimados con Modelos Binomial Negativa y
Hurdle Binomial Negativa

48 48
4.2. Variable Pcorona (Corona perdida)

4.1.2.1. Evaluación y Validación de los modelos.

Para analizar la validez de los modelos se analizan los residuos hallándose su pro-
˜ ) = −0,0009391
medio y su covarianza con los valores ajustados las cuales son eBN
y Cov(e, ŷ) = −0,004331 para el modelo Binomial Negativo y eHBN
˜ ) = −0,0009362
y Cov(e, ŷ) = −0,004615 para el modelo Hurdle Binomial Negativo, esto es, muy
cercanos a cero.

Para evaluar el ajuste de estos modelos se calculan los errores absolutos con la
ecuación (2.1), el cual da un valor de 1.546 para el modelo Binomial Negativo y
1.556 para el modelo Hurdle Binomial Negativo, indicando que serı́a mejor el ajuste
Binomial Negativo; en cambio el test pseudo−R2 da un valor de 0.040 para Binomial
Negativo y 0.043 para el modelo Hurdle, y el AIC da 4517 para el modelo Binomial
Negativo y 4511 para el modelo Hurdle, sugiriendo lo opuesto, aunque los indicadores
para ambos modelos son muy próximos.

4.2. Variable Pcorona (Corona perdida)

Pcorona representa el número de dientes perdidos, o sea el número de piezas denta-


rias extraı́das. Al igual que en la sección anterior se realiza un análisis descriptivo,
luego se seleccionan distribuciones que se ajusten a la variable, para posteriormente
ajustar modelos de regresión.

Al trabajar con datos sin valores faltantes, para el análisis de la variable Pcorona, se
tiene un total de 1350 individuos. Esta variable toma valores de 0 a 32, presentando
una distribución bimodal como se muestra en la figura 4.6. Por no ser el objetivo
del trabajo analizar el problema de las distribuciones bimodales se elimina el valor
32 de los datos, lo cual desde el punto de vista epidemiológico tiene sentido ya que
representa a los individuos edéntulos, por lo cual se trabaja de aquı́ en adelante con
personas que tienen por lo menos una pieza dental.

49
CAPÍTULO 4. RESULTADOS

Figura 4.6: Gráfico de frecuencias absolutas de Pcorona

Pcorona tiene media 6.74 y varianza 77.28, es decir que su varianza es 11.47 ve-
ces su media. Los datos de esta variable se encuentran concentrados en el valor 0
decreciendo hacia el valor 31 como se muestra en la figura 4.7.

Figura 4.7: Gráfico de frecuencias de Pcorona

50 50
4.2. Variable Pcorona (Corona perdida)

4.2.1. Distribución de Probabilidad para Pcorona

Al tratarse de una variable de conteo, al igual que Ccorona, se comienza ajustando


las distribuciones Poisson y Binomial Negativa, cuyos gráficos de ajuste se muestran
en la figura 4.8. Como estas tres distribuciones parecen no ajustarse a los datos
empı́ricos y, en particular, subestiman la cantidad de conteos 0, se prueba el ajuste
con modelos para exceso de 0’s con la distribución de conteo que mejor se ajustó a
los datos, Binomial Negativa.

Figura 4.8: Primeros ajustes a la variable Pcorona

Ası́ se muestra en las figuras 4.9 y 4.10 el ajuste de los modelos Hurdle Binomial
Negativo y Cero Inflado Binomial Negativo.

51
CAPÍTULO 4. RESULTADOS

Figura 4.9: Ajuste Hurdle Binomial Negativo a la variable Pcorona

Figura 4.10: Ajuste Cero Inflado Binomial Negativo a la variable Pcorona

4.2.2. Modelos de Regresión para Pcorona

Al igual que para Ccorona, se quiere modelar la variable Pcorona a través de modelos
de regresión. Se muestra en la figura 4.11 y en las tablas bivariadas las relaciones
parciales con las variables explicativas.

52 52
4.2. Variable Pcorona (Corona perdida)

Se puede ver que la cantidad de personas sin dientes perdidos disminuye a medida
que aumenta la edad, ya que la mitad de los individuos con edades de 15 a 24 años
no tienen dientes perdidos, la mitad de los individuos con edades de 35 a 44 años
tiene 7 o menos dientes perdidos y la mitad de los individuos con edades de 65 a 74
años tiene 19 o menos dientes perdidos.

El número de personas que no tienen dientes perdidos es mayor si tienen estudios


universitarios que si no lo tienen, ası́ como el 75 % de las personas que tienen estudios
universitarios tienen 7 o menos dientes perdidos, y el 75 % de las que no tienen
estudio universitario tienen 12 o menos dientes perdidos, esto es las personas que no
tienen estudios universitarios tienen un número mayor de dientes perdidos.

La cantidad de personas con 2 o menos dientes perdidos no parece diferenciarse


según si fuma o no, pero el 75 % de las personas que fuman tienen 9 o menos dientes
perdidos y el 75 % de las personas que no fuman tienen 12 o menos dientes perdidos.
De igual forma, la cantidad de personas con 2 o menos dientes perdidos no parece
diferenciarse según el sexo, aunque el 75 % de las personas del sexo femenino tienen
13 o menos dientes perdidos y el 75 % de las personas de sexo maculino tienen 9 o
menos dientes perdidos. También sigue este comportamiento la variable institución
médica colectiva, ya que la cantidad de personas con 2 o menos dientes perdidos
representa el 50 % de las personas tanto con institución médica colectiva como sin la
misma, y el 75 % de las personas con institución médica colectiva tienen 10 o menos
dientes perdidos y el 75 % de las personas que no tienen institución médica colectiva
tienen 12 o menos dientes perdidos.

El 50 % de las personas de Montevideo tienen 2 o menos dientes perdidos y el 50 % de


las personas del interior tienen 3 o menos dientes perdidos. El 50 % de las personas
que consumen mate tienen 3 o menos dientes perdidos y el 50 % de las personas que
no consumen mate no tienen dientes perdidos, o sea que las personas que consumen
mate tienen más dientes perdidos.

53
CAPÍTULO 4. RESULTADOS

Figura 4.11

54 54
4.2. Variable Pcorona (Corona perdida)

Tabla 4.10: Medidas de resumen de Pcorona según Región

Región Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.


Montevideo 0 0 2 6,21 10 31
Interior 0 0 3 7,07 11 31

Tabla 4.11: Medidas de resumen de Pcorona según Tramo Etario

Tramo Etario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
15-24 0 0 0 1,17 2 20
35-44 0 2 7 9,28 15 31
65-74 0 11 19 17,33 25 31

Tabla 4.12: Medidas de resumen de Pcorona según Sexo

Sexo Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.


Femenino 0 0 2 7,46 13 31
Masculino 0 0 2 5,80 9 31

Tabla 4.13: Medidas de resumen de Pcorona según Estudio Universitario

Estudio Universitario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 1 5,22 7 29
No 0 0 3 7,35 12 31

Tabla 4.14: Medidas de resumen de Pcorona según Institución Médica

Institución Médica Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 2 6,37 10 31
No 0 0 2 7,23 12 31

Tabla 4.15: Medidas de resumen de Pcorona según Consume Mate

Consume Mate Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 3 7,40 12 31
No 0 0 0 4,72 5,75 31

Tabla 4.16: Medidas de resumen de Pcorona según Fuma

Fuma Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.


Si 0 0 2 5,96 9 31
No 0 0 2 7,01 12 31

Tomando en cuenta los ajustes de las distribuciones seleccionadas anteriormente


por su ajuste a Pcorona, se ajustan los modelos de regresión Cero Inflado Binomial
Negativo y Hurdle Binomial Negativo.

55
CAPÍTULO 4. RESULTADOS

Tabla 4.17: Modelo Estimado Cero Inflado Binomial Negativa Pcorona

Componente Cero Inflado


Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) -0.933 0.427 -2.184 0.029
Región-Montevideo 0.396 0.177 2.241 0.025
Tramo Etario-de 35 a 44 -2.234 0.220 -10.16 < 2e-16
Tramo Etario-de 65 a 74 -3.821 0.374 -10.21 < 2e-16
Estudio Universitario-No -0.787 0.231 -3.410 0.001
Consume Mate-No 0.684 0.189 3.612 3.04e-4
Fuma-No 0.619 0.208 2.978 0.003
INSE 0.021 0.007 2.777 0.005
Componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.350 0.110 12.29 < 2e-16
Tramo Etario-de 35 a 44 1.520 0.068 22.40 < 2e-16
Tramo Etario-de 65 a 74 2.133 0.071 29.87 < 2e-16
Sexo-M -0.165 0.050 -3.327 0.001
Institución Médica-No 0.175 0.053 3.299 0.001
Fuma-No -0.148 0.059 -2.487 0.013
INSE -0.013 0.002 -6.349 2.16e-10

Las variables significativas al 10 % para el modelo Cero Inflado Binomial Negativo


son tramo etario, sexo, institución médica colectiva, fuma e INSE para el componente
de conteo, y región, tramo etario, estudio universitario, consume mate, fuma e INSE
para el componente binario.

Se observa que las variables significativas no son las mismas para el componente de
conteo que para el componente cero inflado. Se realiza una nueva estimación con las
variables significativas (tabla 4.17).

Con este último modelo se predicen los valores de Pcorona los cuales se muestran
en la figura 4.12.

Luego se ajusta un modelo Hurdle Binomial Negativo, siendo las variable significa-
tivas al 10 % tramo etario, sexo, institución médica colectiva, fuma e INSE para el
componente de conteo y región, tramo etario, estudio universitario, consume mate,
fuma e INSE para el componente cero inflado.

Las variables significativas son las mismas que en el modelo Cero Inflado Binomial
Negativo en ambos componentes. Se estima un modelo Hurdle con estas variables que

56 56
4.2. Variable Pcorona (Corona perdida)

se muestra en la tabla 4.18, luego se predicen los valores para Pcorona y se comparan
en la tabla 4.12. Los dos modelos predicen valores muy similares y cercanos a los
empı́ricos.

Tabla 4.18: Modelo Estimado Hurdle Binomial Negativa Pcorona

Componente Hurdle
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.632 0.360 1.756 0.079
Región-Montevideo -0.340 0.151 -2.257 0.024
Tramo Etario-de 35 a 44 2.526 0.194 13.02 < 2e-16
Tramo Etario-de 65 a 74 4.083 0.333 12.24 < 2e-16
Estudio Universitario-No 0.679 0.203 3.343 0.001
Consume Mate-No -0.604 0.165 -3.652 2.60e-04
Fuma-No -0.575 0.164 -3.502 4.61e-04
INSE -0.024 0.006 -3.825 1.31e-04
Componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.363 0.110 12.44 < 2e-16
Tramo Etario-de 35 a 44 1.518 0.068 22.39 < 2e-16
Tramo Etario-de 65 a 74 2.132 0.071 29.88 < 2e-16
Sexo-M -0.173 0.050 -3.433 0.001
Institución Médica-No 0.175 0.054 3.256 0.001
Fuma-No -0.149 0.059 -2.510 0.012
INSE -0.013 0.002 -6.496 8.26e-11

57
CAPÍTULO 4. RESULTADOS

Figura 4.12: Valores Observados vs. Valores Estimados Cero Inflado y Valores Estimados
Hurdle

4.2.2.1. Evaluación y Validación del modelo

Se analiza la validez del modelo a través de los promedios y varianzas de sus erro-
res, las cuales son para el modelo Cero Inflado Binomial Negativo e˜ZI = 0,036
y Cov(e, ŷ) = −2,29 y para el modelo Hurdle Binomial Negativo e˜H = 0,037 y
Cov(eH , ŷH ) = −2,45.

Luego, para evaluar la calidad del ajuste de estos modelos se calculan los errores con
la ecuación (2.1), el cual es 3.613 para el modelo Cero Inflado Binomial Negativo y
3.634 para el modelo Hurdle Binomial Negativo, y se realiza el test pseudo − R2 que
da un valor de 0.16736 para el modelo Cero Inflado Binomial Negativo y 0.16733
para el modelo Hurdle Binomial Negativo, ası́ como el AIC es 6258.69 para el modelo
Cero Inflado y 6258.86 para el modelo Hurdle. En los tres casos el modelo Cero
Inflado Binomial Negativo muestra mejores resultados, aunque los indicadores son
muy similares para ambos modelos.

58 58
4.3. Variable Ocorona (Corona obturada)

4.3. Variable Ocorona (Corona obturada)

Ocorona representa el número de dientes obturados, es decir, el número de dientes


que fueron tratados por caries dental. Luego de un análisis descriptivo se seleccionan
las distribuciones que mejor se ajusten a la variable para, con éstas, ajustar modelos
de regresión.

Se trabaja con datos sin valores faltantes, por lo que para la variable Ocorona se
tiene un total de 1469 individuos. Esta variable toma valores de 0 a 31, tiene media
2.39 y varianza 12.63, por lo que su varianza es 5.28 veces su media. Los datos se
encuentran concentrados en el valor cero, decreciendo hacia el valor máximo, 31,
como se puede ver en la figura 4.13.

Figura 4.13: Gráfico de frecuencias de Ocorona

59
CAPÍTULO 4. RESULTADOS

4.3.1. Distribución de Probabilidad para Ocorona

Figura 4.14: Primeros Ajustes a la variable Ocorona

Al igual que las variables a explicar anteriores, ésta también es una variable de
conteo por lo que se intentan ajustar las distribuciones Poisson y Binomial Negativa,
como se muestra en el gráfico 4.14. Se puede ver que estas dos distribuciones no se
ajustan correctamente a la variable Ocorona, por lo que se ajustan modelos de dos
componentes.

Figura 4.15: Ajuste Cero Inflado Binomial Negativo a la variable Ocorona

60 60
4.3. Variable Ocorona (Corona obturada)

En las figuras 4.15 y 4.16 se muestran los ajustes de los modelos Cero Inflado Bino-
mial Negativo y Hurdle Binomial Negativo.

Figura 4.16: Ajuste Hurdle Binomial Negativo a la variable Ocorona

61
CAPÍTULO 4. RESULTADOS

4.3.2. Modelos de Regresión para Ocorona

Para modelar la variable Ocorona a través de modelos de regresión se trabaja con


los modelos Hurdle Binomial Negativo y Cero Inflado Binomial Negativo que fueron
los que mejor se ajustaron a los datos empı́ricos.

En la figura 4.17 y en las tablas bivariadas se muestran las relaciones parciales de


la variable Ocorona con las variables explicativas.

Se puede notar que el número de personas que no tienen dientes obturados es mayor
si no tienen estudios universitarios que si lo tienen, ası́ como el 75 % de las personas
que no tienen estudios universitarios tienen 3 o menos dientes obturados, y el 75 % de
las que tienen estudios universitarios tienen 6 o menos dientes obturados, esto es las
personas que no tienen estudios universitarios tienen un número menor de dientes
obturados. Lo mismo sucede con las personas según si tienen institución médica
colectiva, el 75 % de las personas que tienen institución médica colectiva tienen 5 o
menos dientes obturados, y el 75 % de las que no tienen institución médica colectiva
tienen 2 o menos dientes obturados.

El número de personas que no tienen dientes obturados es mayor en el grupo de


las que fuman que dentro de las que no fuman, el 75 % de las personas que fuman
tienen 2 o menos dientes obturados y el 75 % de las personas que no fuman tienen 4
o menos dientes obturados, o sea que las personas que no fuman tienen más dientes
obturados. El 75 % de las personas de sexo masculino tienen 3 o menos dientes
obturados y el 75 % de las personas de sexo femenino tienen 4 o menos dientes
obturados. La cantidad de personas con dientes obturados o sin éstos no parece
diferenciarse según los tramos de edad de 15 a 24 y de 65 a 74, aunque si pertenecen
al tramo de 35 a 44 se puede ver una menor cantidad de individuos sin dientes
obturados.

La cantidad de personas con dientes obturados o sin éstos no parece diferenciarse


según si consume mate o no, ya que tanto el primer cuartil, la mediana y el tercer
cuartil de ambos grupos coinciden.

62 62
4.3. Variable Ocorona (Corona obturada)

Figura 4.17

63
CAPÍTULO 4. RESULTADOS

Tabla 4.19: Medidas de resumen de Ocorona según Región


Región Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Montevideo 0 0 1 2,61 4 18
Interior 0 0 1 2,26 3 31

Tabla 4.20: Medidas de resumen de Ocorona según Tramo Etario


Tramo Etario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
15-24 0 0 0 1,48 2 13
35-44 0 0 3 4,35 7 21
65-74 0 0 0 2,26 3 31

Tabla 4.21: Medidas de resumen de Ocorona según Sexo


Sexo Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Femenino 0 0 1 2,69 4 21
Masculino 0 0 0 1,99 3 31

Tabla 4.22: Medidas de resumen de Ocorona según Estudio Universitario


Estudio Universitario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 2 3,70 6 31
No 0 0 0 1,90 3 17

Tabla 4.23: Medidas de resumen de Ocorona según Institución Médica


Institución Médica Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 1 3,18 5 31
No 0 0 0 1,38 2 13

Tabla 4.24: Medidas de resumen de Ocorona según Consume Mate


Consume Mate Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 1 2,31 4 21
No 0 0 1 2,65 4 31

Tabla 4.25: Medidas de resumen de Ocorona según Fuma

Fuma Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.


Si 0 0 0 1,75 2 18
No 0 0 1 2,61 4 31

Al ajustar el modelo Cero Inflado Binomial Negativo las variables significativas al


10 % fueron Tramo Etario, Sexo, Estudio Universitario, Institución Médica Colecti-
va, Fuma e INSE para el componente cero inflado y Tramo Etario, Sexo, Institución
Médica Colectiva e INSE para el componente de conteo.

64 64
4.3. Variable Ocorona (Corona obturada)

Se observa que las variables significativas para el componente binario no son las
mismas que para el componente de conteo. Con estas variables se realiza una nueva
estimación que se puede ver en la tabla 4.26.

Con esta estimación se predicen los valores de Ocorona cuyo resultado se muestra
en la figura 4.18.

Tabla 4.26: Modelo Estimado Cero Inflado Binomial Negativa

Componente Cero Inflado


Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.037 0.430 0.088 0.929
Tramo Etario-de 35 a 44 -0.869 0.205 -4.238 2.26e-05
Tramo Etario-de 65 a 74 0.687 0.192 3.573 3.54e-04
Sexo-M 0.278 0.154 1.798 0.072
Estudio Universitario-No 0.646 0.217 2.968 0.002
Institución Médica-No 0.583 0.163 3.568 3.60e-04
Fuma-No -0.541 0.173 -3.121 0.001
INSE -0.028 0.007 -3.711 2.07e-04
Componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.641 0.128 4.973 6.59e-07
Tramo Etario-de 35 a 44 0.758 0.081 9.309 < 2e-16
Tramo Etario-de 65 a 74 0.594 0.091 6.501 8.00e-11
Sexo-M -0.179 0.068 -2.610 0.009
Institución Médica-No -0.236 0.080 -2.943 0.003
INSE 0.010 0.002 4.565 5.01e-06

Luego se ajusta un modelo Hurdle Binomial Negativo, en el cual las variables signi-
ficativas al 10 % son: para el componente binario tramo etario, sexo, estudio univer-
sitario, institución médica colectiva, fuma e INSE, y para el componente de conteo
tramo etario, sexo, institución médica colectiva e INSE.

Las variables significativas no son las mismas para el componente binario que para
el componente de conteo, pero son las mismas que en el modelo Cero Inflado. Con
estas variables se realiza una nueva estimación (tabla 4.27) con la cual se predicen
los valores de Ocorona y se comparan con los empı́ricos.

65
CAPÍTULO 4. RESULTADOS

Tabla 4.27: Modelo Estimado Hurdle Binomial Negativa

Componente Hurdle
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) -0.467 0.328 -1.424 0.154
Tramo Etario-de 35 a 44 1.133 0.149 7.625 2.44e-14
Tramo Etario-de 65 a 74 -0.253 0.137 -1.842 0.065
Sexo-M -0.334 0.117 -2.857 0.004
Estudio Universitario-No -0.512 0.161 -3.187 0.001
Institución Médica-No -0.570 0.123 -4.622 3.80e-06
Fuma-No 0.405 0.136 2.974 0.002
INSE 0.023 0.005 4.276 1.90e-05
Componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.628 0.128 4.894 9.88e-07
Tramo Etario-de 35 a 44 0.716 0.077 9.257 < 2e-16
Tramo Etario-de 65 a 74 0.560 0.088 6.370 1.88e-10
Sexo-M -0.164 0.069 -2.385 0.017
Institución Médica-No -0.254 0.079 -3.219 0.001
INSE 0.012 0.002 5.090 3.59e-07

Los dos modelos predicen valores muy similares y cercanos a los empı́ricos como se
puede ver en la figura 4.18.

66 66
4.3. Variable Ocorona (Corona obturada)

Figura 4.18: Valores Observados vs. Valores Estimados Cero Inflado y Valores Estimados
Hurdle

Las diferencias en las cantidades totales estimadas con las reales se debe a que son
la suma de probabilidades de cada individuo de tener cierta cantidad de dientes
obturados.

4.3.2.1. Evaluación y Validación del modelo

A través de los residuos se analiza la validez del modelo, viendo sus medidas de
resumen. Estos son e˜ZI = 0,0206 y Cov(e, ŷ) = 0,31 y para el modelo Hurdle
Binomial Negativo e˜H = 0,0210 y Cov(eH , ŷH ) = 0,28.

Para evaluar la calidad de ajuste de los modelos se calculan los errores a través de
la ecuación (2.1), el cual da un valor de 2.20 para el modelo Cero Inflado Binomial
Negativo y 2.21 para el modelo Hurdle Binomial Negativo, el test pseudo − R2 da un
valor de 0.0691 para el modelo Cero Inflado y 0.0687 para el modelo Hurdle y el AIC
da un valor de 5340 para el modelo Cero Inflado y 5342 para el modelo Hurdle. En

67
CAPÍTULO 4. RESULTADOS

los tres casos el modelo Cero Inflado Binomial Negativo muestra mejores resultados,
aunque los indicadores son muy similares para ambos modelos.

68 68
4.4. CPOcorona

4.4. CPOcorona

La variable CPOcorona es el resultado de la suma de las tres variables vistas an-


teriormente. Como se puede ver en su histograma en la figura 4.19, esta variable
es bimodal y no tiene un comportamiento que se asemeje a ninguna distribución
conocida con las cuales se trabaja en este informe. Por este motivo no se analiza
esta variable en este trabajo, sólo se presenta a efectos informativos.

Figura 4.19: Histograma de CPOcorona

69
CAPÍTULO 4. RESULTADOS

4.5. Resumen

Para la variable Ccorona se selecciona el modelo de regresión Binomial Ne-


gativo por el principio de parsimonia ya que los indicadores de bondad de
ajuste entre éste y el MH Binomial Negativo son muy similares al igual que
las estimaciones con ambos modelos.

El modelo seleccionado es:

log(Ccorona) = 1,019 + 0,301 ∗ EstU niv(N o) + 0,418 ∗ InstM ed(N o) − 0,316 ∗


ConsM ate(N o) − 0,543 ∗ F uma(N o) − 0,020 ∗ IN SE

donde Ccorona tiene distribución Binomial Negativa.

Para este modelo, el logaritmo del número de caries aumenta si el encuestado


no tiene estudios universitarios, manteniendo las demás variables constantes.
Lo mismo sucede cuando no cuenta con institución médica. Por el contrario, el
logaritmo del valor esperado del número de caries disminuye a mayores valores
de INSE, manteniendo las demás variables constantes, lo mismo sucede cuando
el individuo no fuma o no consume mate.

Para la variable Pcorona se seleccionan los modelos de regresión Hurdle Bino-


mial Negativo y Cero Inflado Binomial Negativo. Dado que los indicadores de
bondad de ajuste de éstos son muy similares, al igual que las estimaciones, no
es posible seleccionar entre uno de ellos. Además para ambos modelos las va-
riables significativas son las mismas tanto para el componente de conteo como
para el componente binario.

Para estos modelos se concluye que a mayor tramo etario, el peso del compo-
nente binario para los dos modelos disminuye. Lo mismo ocurre si el individuo
no tiene estudios universitarios, fuma o toma mate. Por el contrario esta pro-
babilidad aumenta a mayores valores de INSE y si el encuestado pertenece a
Montevideo.

Por medio del componente de conteo se observa también que a medida que
cambia el tramo etario, el logaritmo del valor esperado de dientes perdidos
aumenta, de la misma manera que se concluyó para el componente binario.
Este valor también aumenta si el encuestado es de sexo femenino, o no cuenta
con institución médica o fuma, ası́ como disminuye a mayores valores de INSE.

Con respecto a la variable Ocorona, ocurre lo mismo que con la variable Pco-
rona: no es posible seleccionar entre los modelos Hurdle Binomial Negativo y
Cero Inflado Binomial Negativo dada la similitud en los indicadores de bondad

70 70
4.5. Resumen

de ajuste y en las variables que resultaron significativas.

En el componente binario, a diferencia de la variable anterior, si el individuo


se encuentra en el tramo etario medio (35 a 44), la probabilidad de ningún
diente obturado disminuye, pero aumenta si se encuentra en el tramo etario de
65 a 74. Esto se puede deber a que el componente perdido para ese sector de la
población es muy alto. Lo mismo sucede con los individuos de sexo masculino,
o con los que no cuentan con estudios universitarios o institución médica, a
la vez que aumenta para aquellos que fuman y aumenta a mayores valores de
INSE.

Por el contrario, el logaritmo del valor esperado de dientes obturados aumenta


para los individuos de sexo femenino y para los que cuentan con institución
médica, y aumenta también para mayores valores de INSE.

71
CAPÍTULO 4. RESULTADOS

72 72
Capı́tulo 5

Conclusiones

En la realización de este trabajo se lograron construir modelos para explicar los


componentes del Índice CPO a partir de una muestra que consta de 1485 datos
relevados, y tomados de 15 ciudades: Montevideo y 14 ciudades del interior que
tienen más de 20.000 habitantes. Se intentó que dichos modelos, para cada uno
de los componentes, fuese el que mejor se adaptase a los datos y mejor predijese
futuras observaciones, a la vez de cumplir con el principio de parsimonia. Los tres
modelos ajustados son del tipo mixto, lo que es de gran ayuda para hacer frente a
la sobredispersión que se presenta por lo general al trabajar con datos reales.

5.1. Conclusiones para Ccorona

Se encontró que con un modelo de regresión Binomial Negativo se puede explicar la


variable Ccorona a través de las variables explicatvas Estudio Universitario, Insti-
tución Médica, Consume Mate, Fuma e INSE, las que son significativas al 10 %.

Para este modelo, un coeficiente positivo aumenta el logaritmo del número de caries,
por lo que si el encuestado no tiene estudios universitarios, no cuenta con institución
médica, fuma o consume mate, este logaritmo aumenta. Por el contrario, a mayores
valores de INSE, este logaritmo disminuye.

5.2. Conclusiones para Pcorona

Para esta variable se encontró que con modelos Cero Inflado Binomial Negativo y
Hurdle Binomial Negativo se logra el mejor ajuste de la distribución a los datos,

73
CAPÍTULO 5. CONCLUSIONES

siendo ambos ajustes muy similares. Además también se observa que las variables
que explican los 2 modelos en sus 2 componentes son las mismas.

Las variables que resultaron significativas para el componente binario para esta
variable son tramo etario, estudios universitarios, fuma, toma mate, región e INSE.

Además, para el componente de conteo las variables signifiativas son tramo etario,
sexo, institución médica, fuma e INSE.

5.3. Conclusiones para Ocorona

Al igual que para la variable Pcorona, para Ocorona se considera el ajuste con las
distribuciones Hurdle BN y Cero Inflado BN. Ambos modelos producen ajustes muy
similares. Además las variables que explican los 2 modelos en sus 2 componentes son
las mismas.

En el componente binario las variables significativas son tramo etario, sexo, estudios
universitarios, institución médica, fuma e INSE.

Para el componente binario las variables significativas son tramo etario, sexo, insti-
tución médica e INSE.

5.4. Conclusiones generales

Se encontró que las variables que explican el comportamiento de uno de los compo-
nentes del ı́ndice CPO no son las mismas que las que explican el comportamiento
de los otros.

Consideraciones a Futuro
Como futuros pasos se propone:

analizar si existe sobredispersión en los datos trabajados o hay lo que se conoce


como “sobredispersión aparente”(Hilbe, 2014).

evaluar si existen otras distribuciones de tipo discretas que puedan ajustar


adecuadamente estas variables de conteo, en especial la variable CPO, la que
no presenta un patrón de que se asemeje a alguna distribución conocida; y P,
que presenta comportamiento bimodal.

evaluar la calidad de predicción de futuros por medio de muestras de validación.

74 74
5.4. Conclusiones generales

considerar el diseño muestral como parte del análisis.

75
CAPÍTULO 5. CONCLUSIONES

76 76
Bibliografı́a

[1] (2008). Programa Nacional de Salud Bucal.

[2] A. Colin Cameron, P. K. T. (2013). Regression Analysis of Count Data. Cam-


bridge University Press.

[3] Chaves, M. M. (1962). Odontologı́a sanitaria. Publicaciones Cientı́ficas, (63).

[4] Fernández, A. & Perera, M. (2003). Indice de niveles socieoconómicos (inse).


Technical report, CPA/FERRERE.

[5] GRUEBBEL, A. O. (1944). A measurement of dental caries prevalence and


treatment service for deciduous teeth. Journal of Dental Research, Vol.23:pp.163–
168.

[6] Hilbe, J. (2011). Negative binomial regression. Cambridge University Press,


Cambridge, UK New York.

[7] Hilbe, J. M. (2014). Modeling Count Data. Cambridge University Press.

[8] Jackman, S. (2015). pscl: Classes and Methods for R Developed in the Political
Science Computational Laboratory, Stanford University. Department of Political
Science, Stanford University, Stanford, California. R package version 1.4.9.

[9] Klein, H., Palmer, C. E., and Knutson, J. W. (1938). Studies on dental caries:
I. dental status and dental needs of elementary school children. Public Health
Reports (1896-1970), 53(19):751.

[10] Lambert, D. (1992). Zero-inflated poisson regression, with an application to


defects in manufacturing. Technometrics, 34(1):1.

[11] Leiva, V., Hernández, H., and Sanhueza, A. (2008). An R Package for a general
class of inverse gaussian distributions. Journal of Statistical Software, 26(4).

[12] Lorenzo, S., Álvarez Vaz, R., and Blanco, S. amd Pérez, M. (2013). Primer re-

77
BIBLIOGRAFÍA

levamiento nacional de salud bucal en población joven y adulta uruguaya. Odon-


toestomatologı́a, 15.

[M. Fernández PratTs] M. Fernández PratTs, M. Barciela González-Longoria, e. a.


Indices epidemiológicos para medir la caries dental. Technical report, Benemérita
Universidad Autónoma de Puebla, Facultad de Estomatologı́a.

[14] Mangiafico, S. (2017). rcompanion: Functions to Support Extension Education


Program Evaluation. R package version 1.10.1.

[15] Meyer, D., Zeileis, A., and Hornik, K. (2016). vcd: Visualizing Categorical Data.
R package version 1.4-3.

[16] Moscote, O. y Arley, W. (2012). Modelo logit y probit: un caso de aplicación.


Comunicaciones en Estadı́stica, 5(2):123–134.

[17] Organización Mundial de la Salud, G. ., editor (1997). Encuestas de Salud


Bucal.

[18] P. Olmos, S. Piovesan, e. a. (2013). Caries dental. la enfermedad oral más


prevalente: Primer estudio poblacional en jóvenes y adultos uruguayos del interior
del paı́s. Odontoestomatologı́a, 15.

[19] R Core Team (2016). R: A Language and Environment for Statistical Compu-
ting. R Foundation for Statistical Computing, Vienna, Austria.

[20] Ricci, V. (2005). Fitting distributions with r. R Project.

[21] Rigby, R. A. and Stasinopoulos, D. M. (2005). Generalized additive models for


location, scale and shape,(with discussion). Applied Statistics, 54:507–554.

[22] Shaban, S. A. (1981). On the discrete poisson-inverse gaussian distribution.


Biometrical Journal, 23(3):297–303.

[23] Tusell, F. (2007). estadı́stica matemática. Technical report, Universidad del


Paı́s Vasco.

[24] Velasco Vázquez, M. (2008). Un Modelo de Regresió Poisson Inflado con Ceros
para Analizar datos de un Experimento de Fungicidas en Jitomate. PhD thesis,
Universidad Veracruzana, Facultad de Estadı́stica e Informática.

[25] Venables, W. N. and Ripley, B. D. (2002). Modern Applied Statistics with S.


Springer, New York, fourth edition. ISBN 0-387-95457-0.

78 78
Bibliografı́a

[26] Winkelmann, R. (2008). Econometric Analysis of Count Data. Springer Berlin


Heidelberg.

[27] Yee, T. W. (2015). Vector Generalized Linear and Additive Models: With an
Implementation in R. Springer, New York, USA.

[28] Zeileis, A. (2004a). Econometric computing with hc and hac covariance matrix
estimators. Journal of Statistical Software, 11(10):1–17.

[29] Zeileis, A. (2004b). Econometric computing with hc and hac covariance matrix
estimators. Journal of Statistical Software, 11(1):1–17.

[30] Zeileis, A. and Hothorn, T. (2002). Diagnostic checking in regression relations-


hips. R News, 2(3):7–10.

[31] Zeileis, A., Kleiber, C., and Jackman, S. (2008). Regression models for count
data in r. Journal of Statistical Software, 27(1):1–25.

[32] Zha, L. (2014). The poisson inverse gaussian (pig) generalized linear regres-
sion model for analyzing motor vehicle crash data. Zachry Department of Civil
Engineering, Texas A&M University.

79
BIBLIOGRAFÍA

80 80
Lista de Abreviaturas

(AIC) Akaike Information Criterion

(BIC) Bayesian Information Criterion

(BN) Binomial Negativo

(CPO) Cariado, Perdido, Obturado

(ECH) Encuesta Contı́nua de Hogares

(EMC) Estimador Mı́nimo Cuadrático

(EUA) Estados Unidos de América

(IESTA) Instituto de Estadı́stica

(IG) Inversa Gaussiana

(INSE) Índice de Nivel Socio Económico

(MCI) Modelo Cero Inflado

(MCT) Modelo Cero Truncado

(MH) Modelo Hurdle

(MLG) Modelos Lineales Generalizados

(MRL) Modelos de Regresión Lineal

(MSP) Ministerio de Salud Pública

(MV) Máxima Verosimilitud

(N-R) Newton-Rapson

81
BIBLIOGRAFÍA

(OMS) Organización Mundial de la Salud

(PIG) Poisson Inversa Gaussiana

(Q-P) Quasi-Poisson

(SCE) Suma de Cuadrados Explicados

(SCR) Suma de Cuadrados de los Residuos

(SNIS) Sistema Nacional Integrado de Salud

(VA) Variable Aleatoria

82 82
Apéndice A

Script de variable Ccorona

l o a d ( ’ d a t o s o d o n t o . RData ’ )

# CARGAMOS LIBRERIAS #

library ( pscl )
l i b r a r y ( sandwich )
library ( lmtest )
l i b r a r y (MASS)
l i b r a r y ( gamlss )
l i b r a r y ( boot )
l i b r a r y (VGAM)
l i b r a r y ( vcd )
library ( xtable )
l i b r a r y ( rcompanion )

#################################################
## CREAMOS MATRIZ DE DATOS SIN DATOS FALTANTES ##

# SELECCIONAMOS LAS VARIABLES A USAR Y CONVERTIMOS EN NIVELES LAS QUE SON


FACTORIALES #

d a t o s=d a t o s . odonto [ , c ( 8 , 1 3 , 1 4 , 1 6 , 3 1 , 5 3 , 5 6 , 2 2 1 , 2 2 4 , 2 2 6 , 2 2 8 , 2 3 8 , 2 3 9 ) ]
l e v e l s ( d a t o s $ e s t u n i v e r s )=c ( ” s i ” , ” no ” ,NA)
l e v e l s ( datos$fuma )=c ( ” s i ” , ” no ” ,NA)
datos$n5consumem=a s . f a c t o r ( datos$n5consumem )
l e v e l s ( datos$n5consumem )=c ( ” s i ” , ” no ” ,NA)

################## CCORONA ####################

# SELECCIONAMOS LOS DATOS SIN FALTANTES #

a=c o m p l e t e . c a s e s ( d a t o s [ , c ( 1 : 8 , 1 3 ) ] )
regionCSF=d a t o s $ r e g i o n [ a ]
tramo etaCSF=d a t o s $ t r a m o e t a [ a ]
sexoCSF=d a t o s $ s e x o [ a ]
e s t u n i v e r s C S F=d a t o s $ e s t u n i v e r s [ a ]
i n s t i t u c i n C S F=a s . f a c t o r ( d a t o s $ i n s t i t u c i n [ a ] )
n5consumemCSF=a s . f a c t o r ( datos$n5consumem [ a ] )
fumaCSF=datos$fuma [ a ]
ccoronaCSF=d a t o s $ c c o r o n a [ a ]
inseCSF=d a t o s $ i n s e [ a ]

# CREAMOS MATRIZ DE DATOS #

83
APÉNDICE A. SCRIPT DE VARIABLE CCORONA

datosCSF=data . frame ( ccoronaCSF , regionCSF , tramo etaCSF , sexoCSF , e s t u n i v e r s C S F ,


i n s t i t u c i n C S F , n5consumemCSF , fumaCSF , inseCSF )

# COMPROBAMOS QUE TODAS LAS VARIABLES TIENEN IGUAL DIMENSION #

summary ( datosCSF )
l e n g t h ( datosCSF$regionCSF )
l e n g t h ( datosCSF$tramo etaCSF )
l e n g t h ( datosCSF$sexoCSF )
length ( datosCSF$est universCSF )
length ( datosCSF$institucinCSF )
l e n g t h ( datosCSF$n5consumemCSF )
l e n g t h ( datosCSF$fumaCSF )
l e n g t h ( datosCSF$ccoronaCSF )
l e n g t h ( datosCSF$inseCSF )

################################################
## VEO S I CPOCORONA = CCORONA+PCORONA+OCORONA ##

CPOc=d a t o s $ c p o c o r o n a [ a ]
Pc=d a t o s $ p c o r o n a [ a ]
Oc=d a t o s $ o c o r o n a [ a ]
sum (CPOc)
sum ( ccoronaCSF )+sum ( Pc )+sum ( Oc )
#################################################

#############################
## ESTADISTICA DESCRIPTIVA ##
#############################

# RESUMEN DE LAS VARIABLES #

summary ( datosCSF )
summary ( datosCSF$ccoronaCSF )
t a b l e ( datosCSF$ccoronaCSF )

par ( mfrow=c ( 1 , 2 ) )
p l o t ( t a b l e ( datosCSF$ccoronaCSF ) , , y l a b=”F r e c u e n c i a ” , x l a b=”Ccorona ” , c o l =”r e d ” )
b o x p l o t ( datosCSF$ccoronaCSF , x l a b=”Ccorona ” , y l a b =””)

# MEDIA Y VARIANZA #
mean ( datosCSF$ccoronaCSF )
v a r ( datosCSF$ccoronaCSF )

# HISTOGRAMA DE CCORONA CON SU DENSIDAD #


h i s t ( datosCSF$ccoronaCSF , f r e q=F , y l i m=c ( 0 , 0 . 7 ) , y l a b=”f Y ( y ) ” , x l a b=”Y” , main =””)
l i n e s ( d e n s i t y ( datosCSF$ccoronaCSF ) , c o l =’ red ’ )

#######################################################
## AJUSTE DE DISTRIBUCIONES A LA VARIABLE A EXPLICAR ##
#######################################################

## Ajustamos p o s i b l e s d i s t r i b u c i o n e s a l a v a r i a b l e a e x p l i c a r dada l a n a t u r a l e z a de
l o s d a t o s ##

# POISSON #
ycp= f i t d i s t r ( datosCSF$ccoronaCSF , ” p o i s s o n ” )
lambda=y c p $ e s t i m a t e [ 1 ] ) , t y p e=” l ” , c o l =”r e d ” , x l a b=”Y” , y l a b=”f Y ( y ) ” )
h i s t D i s t ( datosCSF$ccoronaCSF , ”PO” , d e n s i t y=TRUE, main=””)

# BINOMIAL NEGATIVA #
ycbn= f i t d i s t r ( datosCSF$ccoronaCSF , ” n e g a t i v e b i n o m i a l ” )
h i s t D i s t ( datosCSF$ccoronaCSF , ” NBII ” , d e n s i t y=TRUE, main=””)

84 84
# PIG #
y c p i g=g a m l s s ( datosCSF$ccoronaCSF ˜ 1 , f a m i l y=PIG )
h i s t D i s t ( datosCSF$ccoronaCSF , ” PIG ” , d e n s i t y=TRUE, main=””)

# CERO INFL POISSON #


h i s t D i s t ( datosCSF$ccoronaCSF , ” ZIP ” , d e n s i t y=TRUE, main=””)

# CERO INFL BINOMIAL NEGATIVA #


h i s t D i s t ( datosCSF$ccoronaCSF , ” ZINBI ” , d e n s i t y=TRUE, main=””)

# CERO INFL PIG #


h i s t D i s t ( datosCSF$ccoronaCSF , ” ZIPIG ” , d e n s i t y=TRUE, main=””)

# HURDLE POISSON #
h i s t D i s t ( datosCSF$ccoronaCSF , ”ZAP” , d e n s i t y=TRUE, main=””)

# HURDLE BINOMIAL NEGATIVA #


h i s t D i s t ( datosCSF$ccoronaCSF , ” ZANBI” , d e n s i t y=TRUE, main=””)

# HURDLE PIG #
h i s t D i s t ( datosCSF$ccoronaCSF , ” ZAPIG” , d e n s i t y=TRUE, main =””)

## ERRORES ##
## Calculamos e r r o r e s a b s o l u t o s y r e l a t i v o s de l a d i s t r i b u c i o n

tablaCC=m a t r i x ( c ( 7 7 1 , 2 7 0 , 1 4 1 , 8 7 , 6 4 , 3 5 , 3 0 , 1 3 , 1 2 , 7 , 1 3 , 4 , 5 , 6 , 0 , 1 , 2 , 2 , 3 ) , n c o l =19 , nrow


=1 , byrow=TRUE)

## E r r o r a b s o l u t o
#suma de v a l o r a b s o l u t o ( y − y g o r r o ) /n

#POIS#
nC=l e n g t h ( datosCSF$ccoronaCSF )

# Se c a l c u l a y g o r r o
p r o b p o i s C=d p o i s ( min ( datosCSF$ccoronaCSF ) : max( datosCSF$ccoronaCSF ) , lambda=
ycp$estimate [ 1 ] )
y g o r p o i s C=round (nC∗ p r o b p o i s C )

tablaCCP=c ( tablaCC , y g o r p o i s C )

# BINOMIAL NEGATIVA
# y gorro
probbnC=dnbinom ( min ( datosCSF$ccoronaCSF ) : max( datosCSF$ccoronaCSF ) , s i z e=
y c b n $ e s t i m a t e [ 1 ] , mu=y c b n $ e s t i m a t e [ 2 ] )
ygorbnC=round (nC∗ probbnC )

tablaCCBN=c ( tablaCC , ygorbnC )

### TEST DE BONDAD DE AJUSTE ###


# Pruebo que d i s t r i b u c i o n a j u s t a mejor #

## TEST CHI CUADRADO ##

# Poisson #
c h i C p o i s=g o o d f i t ( datosCSF$ccoronaCSF , t y p e=” p o i s s o n ” , method=”MinChisq ” )
summary ( c h i C p o i s )

# Binomial Negativo #
chiCbn=g o o d f i t ( datosCSF$ccoronaCSF , t y p e=”n b i n o m i a l ” , method=”MinChisq ” )
summary ( chiCbn )

##AIC##

85
APÉNDICE A. SCRIPT DE VARIABLE CCORONA

AIC ( ycp )
AIC ( ycbn )

##BIC##
BIC ( ycp )
BIC ( ycbn )

#####################################################################

#################################
##### PROBAMOS MODELOS ####
#################################

# b o x p l o t de c c o r o n a y de c c o r o n a con l a s v a r i a b l e s e x p l i c a t i v a s #
par ( mfrow=c ( 3 , 3 ) )
b o x p l o t ( datosCSF$ccoronaCSF , x l a b=”Ccorona ” , b o r d e r=”dark r e d ” )
b o x p l o t ( datosCSF$ccoronaCSF ˜ datosCSF$regionCSF , x l a b=”Region ” , b o r d e r=c ( ” dark b l u e
” , ” dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜ datosCSF$tramo etaCSF , x l a b=”Tramo e t a r i o ” , b o r d e r=c ( ”
dark b l u e ” , ” dark g r e e n ” , ” p u r p l e ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜ datosCSF$sexoCSF , x l a b=”Sexo ” , b o r d e r=c ( ” dark b l u e ” , ”
dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜ d a t o s C S F $ e s t u n i v e r s C S F , x l a b=”E s t u d i o U n i v e r s i t a r i o ” ,
b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜ d a t o s C S F $ i n s t i t u c i n C S F , x l a b=” I n s t i t u c i o n Medica ” ,
b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜datosCSF$n5consumemCSF , x l a b=”Consume mate ” , b o r d e r=c ( ”
dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜datosCSF$fumaCSF , x l a b=”Fuma” , b o r d e r=c ( ” dark b l u e ” , ” dark
green ”) )
p l o t ( datosCSF$inseCSF , datosCSF$ccoronaCSF , x l a b=”INSE ” , c e x = 0 . 8 , c o l =”dark b l u e ” )

## Primer a j u s t e : BINOMIAL NEGATIVA ##

bnC=glm . nb ( datosCSF$ccoronaCSF ˜ . , data=datosCSF )


summary ( bnC )

# Sacamos v a r i a b l e s no s i g n i f i c a t i v a s #
bnC2=glm . nb ( datosCSF$ccoronaCSF ˜ d a t o s C S F $ e s t u n i v e r s C S F+d a t o s C S F $ i n s t i t u c i n C S F+
datosCSF$n5consumemCSF+datosCSF$fumaCSF+
datosCSF$inseCSF , data=datosCSF )
summary ( bnC2 )

## Segundo a j u s t e : CERO INFLADO BINOMIAL NEGATIVA ##

ZIBNC=z e r o i n f l ( datosCSF$ccoronaCSF ˜ datosCSF$regionCSF+datosCSF$tramo etaCSF+


datosCSF$sexoCSF+d a t o s C S F $ e s t u n i v e r s C S F+
d a t o s C S F $ i n s t i t u c i n C S F+datosCSF$n5consumemCSF+datosCSF$fumaCSF+datosCSF$inseCSF |
datosCSF$regionCSF+datosCSF$tramo etaCSF+datosCSF$sexoCSF+
d a t o s C S F $ e s t u n i v e r s C S F+
d a t o s C S F $ i n s t i t u c i n C S F+datosCSF$n5consumemCSF+datosCSF$fumaCSF+datosCSF$inseCSF ,
data=datosCSF , d i s t =”n e g b i n ” )
summary (ZIBNC)

## T e r c e r a j u s t e : HURDLE (CERO ALTERADO) BINOMIAL NEGATIVA ##

HURBNC=h u r d l e ( datosCSF$ccoronaCSF ˜ datosCSF$regionCSF+datosCSF$tramo etaCSF+


datosCSF$sexoCSF+d a t o s C S F $ e s t u n i v e r s C S F+
d a t o s C S F $ i n s t i t u c i n C S F+datosCSF$n5consumemCSF+datosCSF$fumaCSF+datosCSF$inseCSF |
datosCSF$regionCSF+datosCSF$tramo etaCSF+datosCSF$sexoCSF+
d a t o s C S F $ e s t u n i v e r s C S F+
d a t o s C S F $ i n s t i t u c i n C S F+datosCSF$n5consumemCSF+datosCSF$fumaCSF+datosCSF$inseCSF ,
data=datosCSF , d i s t =”n e g b i n ” )
summary (HURBNC)

86 86
HURBNC2=h u r d l e ( datosCSF$ccoronaCSF ˜ d a t o s C S F $ e s t u n i v e r s C S F+d a t o s C S F $ i n s t i t u c i n C S F+
datosCSF$fumaCSF+datosCSF$inseCSF | d a t o s C S F $ i n s t i t u c i n C S F+datosCSF$n5consumemCSF
+datosCSF$fumaCSF+datosCSF$inseCSF , data=datosCSF , d i s t =”n e g b i n ” )
summary (HURBNC2)

# Comparamos v a l o r e s o b s e r v a d o s con v a l o r e s e s p e r a d o s de B i n o m i a l N e g a t i v a y Hurdle


Bin Neg

MATCH=m a t r i x ( c ( 0 : 1 8 ) , n c o l =3 , nrow =19 , dimnames= l i s t ( c ( 0 : 1 8 ) , c ( ” Observados ” , ” B i n o m i a l


N e g a t i v a ” , ” Hurdle ” ) ) )
for ( i in 1:19) {
A=round ( c ( ” Observados ” = sum ( datosCSF [ , 1 ] == i −1) , ” B i n o m i a l N e g a t i v a”=sum ( dnbinom (
i −1 , mu = f i t t e d ( bnC2 ) , s i z e = bnC2$theta ) ) , ” Hurdle”=sum ( p r e d i c t (HURBNC2, t y p e=”
prob ” ) [ , i ] ) ) )
MATCH[ i , 1 : 3 ] =A
}
MATCH

##############################
## VALIDACION Y DIAGNOSTICO ##
##############################

par ( mfrow=c ( 2 , 1 ) )

# V a l i d a c i o n d e l modelo B i n o m i a l N e g a t i v o #

cov ( b n C 2 $ f i t t e d , b n C 2 $ r e s i d u a l s )
mean ( b n C 2 $ r e s i d u a l s )
p l o t ( b n C 2 $ r e s i d u a l s , y l i m=c ( −2 ,15) , c e x = 0 . 5 , c o l =”dark b l u e ” )
p l o t ( r e s i d u a l s ( bnC2 )− f i t t e d ( bnC2 ) , c o l =”dark g r e e n ” )

# V a l i d a c i o n d e l modelo Hurdle B i n o m i a l N e g a t i v o #

cov ( HURBNC2$fitted , b n C 2 $ r e s i d u a l s )
mean ( HURBNC2$residuals )
p l o t ( HURBNC2$residuals , y l i m=c ( −2 ,15) , c e x = 0 . 5 , c o l =”dark b l u e ” )
p l o t ( r e s i d u a l s (HURBNC2)− f i t t e d (HURBNC2) , c o l =”dark g r e e n ” )

#####E r r o r a b s o l u t o#####
#Suma de ( v a l o r a b s o l u t o de y − y e s t i m a d o ) s o b r e n

#B i n o m i a l N e g a t i v a#

ajusteBNC=f i t t e d ( bnC2 )
ygormbnC=round ( ajusteBNC )

errBNajusC=s e q ( 1 , 1 4 6 6 )
for ( i in 1:1466) {
errBNajusC [ i ]= abs ( datosCSF$ccoronaCSF [ i ]−ygormbnC [ i ] )
}
ErrorBinomNegatC=sum ( errBNajusC ) / l e n g t h ( ygormbnC )

#pseudo−R2#
n a g e l k e r k e ( bnC2 )

AIC ( bnC2 )

#Hurdle BN#

ajusteHURC=f i t t e d (HURBNC2)
ygormHC=round ( ajusteHURC )

errHURajusC=s e q ( 1 , 1 4 6 6 )

87
APÉNDICE A. SCRIPT DE VARIABLE CCORONA

for ( i in 1:1466) {
errHURajusC [ i ]= abs ( datosCSF$ccoronaCSF [ i ]−ygormHC [ i ] )
}
ErrorHurdleC=sum ( errHURajusC ) / l e n g t h ( ygormHC )

#psudoR2#
ModC1=update (HURBNC2, . ˜ 1 )
LIC=l o g L i k (ModC1)
LFC=l o g L i k (HURBNC2)
pR2C=1−(LFC/LIC )
pR2C

AIC (HURBNC2)

#V a l i d a c i o n c r u z a d a
#BN#
#muestra
set . seed (71)
muestraC=sample ( 1 : 1 4 6 6 , 1 0 0 0 , r e p l a c e=FALSE)
muestrapruebaC=datosCSF [ muestraC , ]

#B i n o m i a l N e g a t i v a#

BNCvalid=glm . nb ( muestrapruebaC$ccoronaCSF ˜ m u e s t r a p r u e b a C $ e s t u n i v e r s C S F+
m u e s t r a p r u e b a C $ i n s t i t u c i n C S F+muestrapruebaC$n5consumemCSF+
muestrapruebaC$fumaCSF+
muestrapruebaC$inseCSF , data=muestrapruebaC )
summary ( BNCvalid )
summary ( bnC2 )
#Cp=sum ( round ( p r e d i c t ( BNCvalid , newdata=muestrapruebaC , t y p e=” r e s p o n s e ” ) ) ==1)

#Hurdle B i n o m i a l N e g a t i v a#

HBNCvalid=h u r d l e ( muestrapruebaC$ccoronaCSF ˜ m u e s t r a p r u e b a C $ e s t u n i v e r s C S F+
m u e s t r a p r u e b a C $ i n s t i t u c i n C S F+muestrapruebaC$fumaCSF+muestrapruebaC$inseCSF |
m u e s t r a p r u e b a C $ i n s t i t u c i n C S F+muestrapruebaC$n5consumemCSF+
muestrapruebaC$fumaCSF+muestrapruebaC$inseCSF , d i s t =”n e g b i n ” , data=muestrapruebaC
)
summary ( HBNCvalid )
summary (HURBNC2)

MATCval=m a t r i x ( c ( 0 : 1 8 ) , n c o l =3 , nrow =19 , dimnames= l i s t ( c ( 0 : 1 8 ) , c ( ” Observados ” , ”


B i n o m i a l N e g a t i v a V a l i d a c i o n ” , ” Hurdle V a l i d a c i o n ” ) ) )
for ( i in 1:19) {
Aval=round ( c ( ” Observados ” = sum ( datosCSF [ muestraC , 1 ] == i −1) , ” B i n o m i a l N e g a t i v a V”=
sum ( dnbinom ( i −1 , mu = f i t t e d ( BNCvalid ) , s i z e = BNCvalid$theta ) ) , ” Hurdle V”=sum (
p r e d i c t ( HBNCvalid , t y p e=”prob ” ) [ , i ] ) ) )
MATCval [ i , 1 : 3 ] = Aval
}
MATCval

#P r e d i c c i o n

muestrapruebaC=datosCSF [− c ( muestraC ) , ]

MATCpred=m a t r i x ( c ( 0 : 1 8 ) , n c o l =3 , nrow =19 , dimnames= l i s t ( c ( 0 : 1 8 ) , c ( ” Observados ” , ”


B i n o m i a l N e g a t i v a P r e d i c c i o n ” , ” Hurdle P r e d i c c i o n ” ) ) )
for ( i in 1:19) {
Apred=round ( c ( ” Observados ” = sum ( datosCSF [− c ( muestraC ) , 1 ] == i −1) , ” Binom Neg P”=sum
( round ( p r e d i c t ( BNCvalid , newdata=muestrapruebaC , t y p e=” r e s p o n s e ” ) )==i −1) , ”HURDLE
P”=sum ( p r e d i c t ( HBNCvalid , newdata=muestrapruebaC , t y p e=”prob ” ) [ , i ] ) ) )
MATCpred [ i , 1 : 3 ] = Apred
}
MATCpred

88 88
Apéndice B

Script de variable Pcorona

l o a d ( ’ d a t o s o d o n t o . RData ’ )

# CARGAMOS LIBRERIAS #

library ( pscl )
l i b r a r y ( sandwich )
library ( lmtest )
l i b r a r y (MASS)
l i b r a r y ( gamlss )
l i b r a r y ( boot )
l i b r a r y (VGAM)
l i b r a r y ( vcd )
library ( xtable )
l i b r a r y ( rcompanion )

#################################################
## CREAMOS MATRIZ DE DATOS SIN DATOS FALTANTES ##

# SELECCIONAMOS LAS VARIABLES A USAR Y CONVERTIMOS EN NIVELES LAS QUE SON


FACTORIALES #

d a t o s=d a t o s . odonto [ , c ( 8 , 1 3 , 1 4 , 1 6 , 3 1 , 5 3 , 5 6 , 2 2 1 , 2 2 4 , 2 2 6 , 2 2 8 , 2 3 8 , 2 3 9 ) ]
l e v e l s ( d a t o s $ e s t u n i v e r s )=c ( ” s i ” , ” no ” ,NA)
l e v e l s ( datos$fuma )=c ( ” s i ” , ” no ” ,NA)
datos$n5consumem=a s . f a c t o r ( datos$n5consumem )
l e v e l s ( datos$n5consumem )=c ( ” s i ” , ” no ” ,NA)

################## PCORONA ####################

# SELECCIONAMOS LOS DATOS SIN FALTANTES #

b=c o m p l e t e . c a s e s ( d a t o s [ , c ( 1 : 7 , 9 , 1 3 ) ] )
regionPSF=d a t o s $ r e g i o n [ b ]
tramo etaPSF=d a t o s $ t r a m o e t a [ b ]
sexoPSF=d a t o s $ s e x o [ b ]
e s t u n i v e r s P S F=d a t o s $ e s t u n i v e r s [ b ]
i n s t i t u c i n P S F=a s . f a c t o r ( d a t o s $ i n s t i t u c i n [ b ] )
n5consumemPSF=a s . f a c t o r ( datos$n5consumem [ b ] )
fumaPSF=datos$fuma [ b ]
pcoronaPSF=d a t o s $ p c o r o n a [ b ]
insePSF=d a t o s $ i n s e [ b ]

# CREAMOS MATRIZ DE DATOS #

89
APÉNDICE B. SCRIPT DE VARIABLE PCORONA

datosPSF=data . frame ( pcoronaPSF , regionPSF , tramo etaPSF , sexoPSF , e s t u n i v e r s P S F ,


i n s t i t u c i n P S F , n5consumemPSF , fumaPSF , insePSF )

#El 32 e s un problema , s e e l i m i n a n de l a m a t r i z de d a t o s#
datosPSF=datosPSF [− which(32==datosPSF$pcorona ) , ]

# COMPROBAMOS QUE TODAS LAS VARIABLES TIENEN IGUAL DIMENSION #

summary ( datosPSF )
l e n g t h ( datosPSF$regionPSF )
l e n g t h ( datosPSF$tramo etaPSF )
l e n g t h ( datosPSF$sexoPSF )
length ( datosPSF$est universPSF )
length ( datosPSF$institucinPSF )
l e n g t h ( datosPSF$n5consumemPSF )
l e n g t h ( datosPSF$fumaPSF )
l e n g t h ( datosPSF$pcoronaPSF )
l e n g t h ( datosPSF$insePSF )

#############################
## ESTADISTICA DESCRIPTIVA ##
#############################

# RESUMEN DE LAS VARIABLES #


par ( mfrow=c ( 1 , 2 ) )
summary ( datosPSF )
summary ( datosPSF$pcoronaPSF )
t a b l e ( datosPSF$pcoronaPSF )
p l o t ( t a b l e ( datosPSF$pcoronaPSF ) , c o l =”dark r e d ” , y l a b=”F r e c u e n c i a ” , x l a b=”Pcorona ” )
b o x p l o t ( datosPSF$pcoronaPSF , x l a b=”Pcorona ” , y l a b=” ” )

# MEDIA Y VARIANZA #
mean ( datosPSF$pcoronaPSF )
v a r ( datosPSF$pcoronaPSF )

# HISTOGRAMA DE CCORONA CON SU DENSIDAD #


h i s t ( datosPSF$pcoronaPSF , f r e q=F , y l i m=c ( 0 , 0 . 3 ) )
l i n e s ( d e n s i t y ( datosPSF$pcoronaPSF ) , c o l =’ red ’ )

#######################################################
## AJUSTE DE DISTRIBUCIONES A LA VARIABLE A EXPLICAR ##
#######################################################

## Ajustamos p o s i b l e s d i s t r i b u c i o n e s a l a v a r i a b l e a e x p l i c a r dada l a n a t u r a l e z a de
l o s d a t o s ##
par ( mfrow=c ( 1 , 3 ) )

#POISSON#
ypp= f i t d i s t r ( datosPSF$pcoronaPSF , ” p o i s s o n ” )
h i s t D i s t ( datosPSF$pcoronaPSF , ”PO” , d e n s i t y=TRUE, main=”A j u s t e P o i s s o n ” )

# BINOMIAL NEGATIVA #
ypbn= f i t d i s t r ( datosPSF$pcoronaPSF , ” n e g a t i v e b i n o m i a l ” )
h i s t D i s t ( datosPSF$pcoronaPSF , ” NBII ” , d e n s i t y=TRUE, main=”A j u s t e B i n o m i a l N e g a t i v o ” )

# PIG #
y p p i g=g a m l s s ( datosPSF$pcoronaPSF ˜ 1 , f a m i l y=PIG )
h i s t D i s t ( datosPSF$pcoronaPSF , ” PIG ” , d e n s i t y=TRUE, main=”A j u s t e PIG ” )

#CERO INFL POISSON#


h i s t D i s t ( datosPSF$pcoronaPSF , ” ZIP ” , d e n s i t y=TRUE)

#CERO INFL BINOMIAL NEGATIVA#

90 90
h i s t D i s t ( datosPSF$pcoronaPSF , ” ZINBI ” , d e n s i t y=TRUE, main=””)

#CERO INFL PIG#


h i s t D i s t ( datosPSF$pcoronaPSF , ” ZIPIG ” , d e n s i t y=TRUE)

#HURDLE POISSON#
h i s t D i s t ( datosPSF$pcoronaPSF , ”ZAP” , d e n s i t y=TRUE)

#HURDLE BINOMIAL NEGATIVA#


h i s t D i s t ( datosPSF$pcoronaPSF , ” ZANBI” , d e n s i t y=TRUE, main=””)

# HURDLE PIG #
h i s t D i s t ( datosPSF$pcoronaPSF , ” ZAPIG” , d e n s i t y=TRUE, main=””)

#####################################################################

#################################
##### PROBAMOS MODELOS ####
#################################

# b o x p l o t de c c o r o n a y de c c o r o n a con l a s v a r i a b l e s e x p l i c a t i v a s #
par ( mfrow=c ( 3 , 3 ) )
b o x p l o t ( datosPSF$pcoronaPSF , x l a b=”Pcorona ” , b o r d e r=”dark r e d ” )
b o x p l o t ( datosPSF$pcoronaPSF ˜ datosPSF$regionPSF , x l a b=”Region ” , b o r d e r=c ( ” dark b l u e
” , ” dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ datosPSF$tramo etaPSF , x l a b=”Tramo e t a r i o ” , b o r d e r=c ( ”
dark b l u e ” , ” dark g r e e n ” , ” p u r p l e ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ datosPSF$sexoPSF , x l a b=”Sexo ” , b o r d e r=c ( ” dark b l u e ” , ”
dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ d a t o s P S F $ e s t u n i v e r s P S F , x l a b=”E s t u d i o U n i v e r s i t a r i o ” ,
b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ d a t o s P S F $ i n s t i t u c i n P S F , x l a b=” I n s t i t u c i o n Medica ” ,
b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜datosPSF$n5consumemPSF , x l a b=”Consume mate ” , b o r d e r=c ( ”
dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ datosPSF$fumaPSF , x l a b=”Fuma” , b o r d e r=c ( ” dark b l u e ” , ” dark
green ”) )
p l o t ( datosPSF$insePSF , datosPSF$pcoronaPSF , x l a b=”INSE ” , y l a b =”” , c e x = 0 . 7 , c o l =”dark
blue ”)

## Primer a j u s t e : CERO INFLADO BINOMIAL NEGATIVA ##

ZIBNP=z e r o i n f l ( datosPSF$pcoronaPSF ˜ datosPSF$regionPSF+datosPSF$tramo etaPSF+


datosPSF$sexoPSF+d a t o s P S F $ e s t u n i v e r s P S F+
d a t o s P S F $ i n s t i t u c i n P S F+datosPSF$n5consumemPSF+datosPSF$fumaPSF+datosPSF$insePSF |
datosPSF$regionPSF+datosPSF$tramo etaPSF+datosPSF$sexoPSF+
d a t o s P S F $ e s t u n i v e r s P S F+
d a t o s P S F $ i n s t i t u c i n P S F+datosPSF$n5consumemPSF+datosPSF$fumaPSF+datosPSF$insePSF ,
data=datosPSF , d i s t =”n e g b i n ” )
summary (ZIBNP)

# Sacamos v a r i a b l e s no s i g n i f i c a t i v a s #
ZIBNP2=z e r o i n f l ( datosPSF$pcoronaPSF ˜ datosPSF$tramo etaPSF+datosPSF$sexoPSF+
d a t o s P S F $ i n s t i t u c i n P S F+datosPSF$fumaPSF+datosPSF$insePSF | datosPSF$regionPSF+
datosPSF$tramo etaPSF+d a t o s P S F $ e s t u n i v e r s P S F+
datosPSF$n5consumemPSF+datosPSF$fumaPSF+datosPSF$insePSF , data=datosPSF , d i s t =”n e g b i n
”)
summary ( ZIBNP2 )

## Segundo a j u s t e : HURDLE (CERO ALTERADO) BINOMIAL NEGATIVA ##

HURBNP=h u r d l e ( datosPSF$pcoronaPSF ˜ datosPSF$regionPSF+datosPSF$tramo etaPSF+


datosPSF$sexoPSF+d a t o s P S F $ e s t u n i v e r s P S F+
d a t o s P S F $ i n s t i t u c i n P S F+datosPSF$n5consumemPSF+datosPSF$fumaPSF+datosPSF$insePSF |

91
APÉNDICE B. SCRIPT DE VARIABLE PCORONA

datosPSF$regionPSF+datosPSF$tramo etaPSF+datosPSF$sexoPSF+
d a t o s P S F $ e s t u n i v e r s P S F+
d a t o s P S F $ i n s t i t u c i n P S F+datosPSF$n5consumemPSF+datosPSF$fumaPSF+datosPSF$insePSF ,
data=datosPSF , d i s t =”n e g b i n ” )
summary (HURBNP)

#Sacamos v a r i a b l e no s i g n i f i c a t i v a s#

HURBNP2=h u r d l e ( datosPSF$pcoronaPSF ˜ datosPSF$tramo etaPSF+datosPSF$sexoPSF+


d a t o s P S F $ i n s t i t u c i n P S F+datosPSF$fumaPSF+datosPSF$insePSF | datosPSF$regionPSF+
datosPSF$tramo etaPSF+d a t o s P S F $ e s t u n i v e r s P S F+
datosPSF$n5consumemPSF+datosPSF$fumaPSF+datosPSF$insePSF , data=datosPSF , d i s t =”n e g b i n
”)
summary (HURBNP2)

# Comparamos v a l o r e s o b s e r v a d o s con v a l o r e s e s p e r a d o s de Cero I n f l a d o B i n o m i a l


N e g a t i v a y Hurdle B i n o m i a l N e g a t i v a

MATPE=m a t r i x ( c ( 0 : 3 1 ) , n c o l =3 , nrow =32 , dimnames= l i s t ( c ( 0 : 3 1 ) , c ( ” Observados ” , ” Zero


I n f l a d o ” , ” Hurdle ” ) ) )
for ( i in 1:32) {
A=round ( c ( ” Observados ” = sum ( datosPSF [ , 1 ] == i −1) , ”ZIBN”=sum ( p r e d i c t ( ZIBNP2 , t y p e=”
prob ” ) [ , i ] ) , ”HURDLE”=sum ( p r e d i c t (HURBNP2, t y p e=”prob ” ) [ , i ] ) ) )
MATPE[ i , 1 : 3 ] =A
}
MATPE

##############################
## VALIDACION Y DIAGNOSTICO ##
##############################

par ( mfrow=c ( 2 , 1 ) )

# V a l i d a c i o n d e l modelo Cero I n f l a d o B i n o m i a l N e g a t i v o #

cov ( ZIBNP2$fitted , Z I B N P 2 $ r e s i d u a l s )
mean ( Z I B N P 2 $ r e s i d u a l s )
p l o t ( Z I B N P 2 $ r e s i d u a l s , c e x = 0 . 5 , c o l =”dark b l u e ” , y l a b=”R e s i d u o s ” , x l a b =””)
p l o t ( r e s i d u a l s ( ZIBNP2 )− f i t t e d ( ZIBNP2 ) , c o l =”dark g r e e n ” , y l a b=”R e s i d u o s vs . A j u s t a d o s
” , x l a b =””)

# V a l i d a c i o n d e l modelo Hurdle B i n o m i a l N e g a t i v o #

cov ( HURBNP2$fitted , HURBNP2$residuals )


mean ( HURBNP2$residuals )
p l o t ( HURBNP2$residuals , c e x = 0 . 5 , c o l =”dark b l u e ” , y l a b=”R e s i d u o s ” , x l a b =””)
p l o t ( r e s i d u a l s (HURBNP2)− f i t t e d (HURBNP2) , c o l =”dark g r e e n ” , y l a b=”R e s i d u o s vs .
A j u s t a d o s ” , x l a b =””)

#####E r r o r a b s o l u t o#####
#Suma de ( v a l o r a b s o l u t o de y − y e s t i m a d o ) s o b r e n

#Cero I n f l a d o#

ygorZIBNP2=round ( p r e d i c t ( ZIBNP2 ) )
nP=l e n g t h ( datosPSF$pcoronaPSF )

errZIBN2=s e q ( 1 : 1 3 5 0 )
f o r ( i i n 1 : nP ) {
errZIBN2 [ i ]= abs ( datosPSF$pcoronaPSF [ i ]−ygorZIBNP2 [ i ] )
}
ErrorZIBinNegP=sum ( errZIBN2 ) /nP

#psudoR2#

92 92
ModP1ZI=update ( ZIBNP2 , . ˜ 1 )
LIPZI=l o g L i k ( ModP1ZI )
LFPZI=l o g L i k ( ZIBNP2 )
pR2PZI=1−(LFPZI/ LIPZI )
pR2PZI

AIC ( ZIBNP2 )

#Hurdle#

ygorHURBNP2=round ( p r e d i c t (HURBNP2) )
nP=l e n g t h ( datosPSF$pcoronaPSF )

errHURBN2=s e q ( 1 : 1 3 5 0 )
f o r ( i i n 1 : nP ) {
errHURBN2 [ i ]= abs ( datosPSF$pcoronaPSF [ i ]−ygorHURBNP2 [ i ] )
}
ErrorHBinNegP=sum ( errHURBN2 ) /nP

#psudoR2#
ModP1H=update (HURBNP2, . ˜ 1 )
LIPH=l o g L i k (ModP1H)
LFPH=l o g L i k (HURBNP2)
pR2PH=1−(LFPH/LIPH )
pR2PH

AIC (HURBNP2)

##V a l i d a c i o n c r u z a d a##

#muestra
set . seed (21)
muestraP=sample ( 1 : 1 3 5 0 , 1 0 0 0 , r e p l a c e=FALSE)
muestrapruebaP=datosPSF [ muestraP , ]

#Cero I n f l a d o B i n o m i a l N e g a t i v a#

ZIBNPvalid=z e r o i n f l ( muestrapruebaP$pcoronaPSF ˜ muestrapruebaP$tramo etaPSF+


muestrapruebaP$sexoPSF+
m u e s t r a p r u e b a P $ i n s t i t u c i n P S F+muestrapruebaP$fumaPSF+muestrapruebaP$insePSF |
muestrapruebaP$regionPSF+muestrapruebaP$tramo etaPSF+
m u e s t r a p r u e b a P $ e s t u n i v e r s P S F+muestrapruebaP$n5consumemPSF+muestrapruebaP$fumaPSF+
muestrapruebaP$insePSF , data=muestrapruebaP , d i s t =”n e g b i n ” )
summary ( ZIBNPvalid )
summary ( ZIBNP2 )

#Hurdle B i n o m i a l N e g a t i v a#

HURBNPvalid=h u r d l e ( muestrapruebaP$pcoronaPSF ˜ muestrapruebaP$tramo etaPSF+


muestrapruebaP$sexoPSF+m u e s t r a p r u e b a P $ i n s t i t u c i n P S F+muestrapruebaP$fumaPSF+
muestrapruebaP$insePSF | muestrapruebaP$regionPSF+muestrapruebaP$tramo etaPSF+
m u e s t r a p r u e b a P $ e s t u n i v e r s P S F+muestrapruebaP$n5consumemPSF+
muestrapruebaP$fumaPSF+muestrapruebaP$insePSF , data=muestrapruebaP , d i s t =”n e g b i n
”)
summary ( HURBNPvalid )
summary (HURBNP2)

MATPval=m a t r i x ( c ( 0 : 3 1 ) , n c o l =3 , nrow =32 , dimnames= l i s t ( c ( 0 : 3 1 ) , c ( ” Observados ” , ” Hurdle


V a l i d a c i o n ” , ” Cero I n f l a d o V a l i d a c i o n ” ) ) )
for ( i in 1:32) {
Aval=round ( c ( ” Observados ” = sum ( datosPSF [ muestraP , 1 ] == i −1) , ”HURDLE V”=sum ( p r e d i c t
( HURBNPvalid , t y p e=”prob ” ) [ , i ] ) , ”CERO INFLADO V”=sum ( p r e d i c t ( ZIBNPvalid , t y p e=”
prob ” ) [ , i ] ) ) )
MATPval [ i , 1 : 3 ] = Aval

93
APÉNDICE B. SCRIPT DE VARIABLE PCORONA

}
MATPval

#P r e d i c c i o n

muestrapruebaP=datosPSF [− c ( muestraP ) , ]

MATPpred=m a t r i x ( c ( 0 : 3 1 ) , n c o l =3 , nrow =32 , dimnames= l i s t ( c ( 0 : 3 1 ) , c ( ” Observados ” , ” Cero


I n f l a d o P r e d i c c i o n ” , ” Hurdle P r e d i c c i o n ” ) ) )
for ( i in 1:32) {
Apred=round ( c ( ” Observados ” = sum ( datosPSF [− c ( muestraP ) , 1 ] == i −1) , ”CERO INFL P”=sum
( p r e d i c t ( ZIBNPvalid , newdata=muestrapruebaP , t y p e=”prob ” ) [ , i ] ) , ”HURDLE P”=sum (
p r e d i c t ( HURBNPvalid , newdata=muestrapruebaP , t y p e=”prob ” ) [ , i ] ) ) )
MATPpred [ i , 1 : 3 ] = Apred
}
MATPpred

94 94
Apéndice C

Script de variable Ocorona

l o a d ( ’ d a t o s o d o n t o . RData ’ )

library ( pscl )
l i b r a r y ( sandwich )
library ( lmtest )
l i b r a r y (MASS)
l i b r a r y ( gamlss )
l i b r a r y ( x t a b l e ) #para l a s t a b l a s en chrome
l i b r a r y ( rcompanion ) #para e l pseudo R2

#################################################
## CREAMOS MATRIZ DE DATOS SIN DATOS FALTANTES ##

# SELECCIONAMOS LAS VARIABLES A USAR Y CONVERTIMOS EN NIVELES LAS QUE SON


FACTORIALES #

d a t o s=d a t o s . odonto [ , c ( 8 , 1 3 , 1 4 , 1 6 , 3 1 , 5 3 , 5 6 , 2 2 1 , 2 2 4 , 2 2 6 , 2 2 8 , 2 3 8 , 2 3 9 ) ]
l e v e l s ( d a t o s $ e s t u n i v e r s )=c ( ” s i ” , ” no ” ,NA)
l e v e l s ( datos$fuma )=c ( ” s i ” , ” no ” ,NA)
datos$n5consumem=a s . f a c t o r ( datos$n5consumem )
l e v e l s ( datos$n5consumem )=c ( ” s i ” , ” no ” ,NA)

################## OCORONA ####################

# SELECCIONAMOS LOS DATOS SIN FALTANTES #

c=c o m p l e t e . c a s e s ( d a t o s [ , c ( 1 : 7 , 1 0 , 1 2 ) ] )
regionOSF=d a t o s $ r e g i o n [ c ]
tramo etaOSF=d a t o s $ t r a m o e t a [ c ]
sexoOSF=d a t o s $ s e x o [ c ]
e s t u n i v e r s O S F=d a t o s $ e s t u n i v e r s [ c ]
i n s t i t u c i n O S F=a s . f a c t o r ( d a t o s $ i n s t i t u c i n [ c ] )
n5consumemOSF=a s . f a c t o r ( datos$n5consumem [ c ] )
fumaOSF=datos$fuma [ c ]
ocoronaOSF=a s . numeric ( d a t o s $ o c o r o n a [ c ] )
inseOSF=a s . numeric ( d a t o s $ i n s e [ c ] )

# CREAMOS MATRIZ DEDATOS #

datosOSF=data . frame ( ocoronaOSF , regionOSF , tramo etaOSF , sexoOSF , e s t u n i v e r s O S F ,


i n s t i t u c i n O S F , n5consumemOSF , fumaOSF , inseOSF )

# COMPROBAMOS QUE TODAS LAS VARIABLES TIENEN IGUAL DIMENSION #

95
APÉNDICE C. SCRIPT DE VARIABLE OCORONA

summary ( datosOSF )
l e n g t h ( datosOSF$regionOSF )
l e n g t h ( datosOSF$tramo etaOSF )
l e n g t h ( datosOSF$sexoOSF )
l e n g t h ( d at o s O S F $ e s t u n i v e r sO S F )
length ( datosOSF$institucinOSF )
l e n g t h ( datosOSF$n5consumemOSF )
l e n g t h ( datosOSF$fumaOSF )
l e n g t h ( datosOSF$ocoronaOSF )
l e n g t h ( datosOSF$inseOSF )

#############################
## ESTADISTICA DESCRIPTIVA ##
#############################

# RESUMEN DE LAS VARIABLES #


par ( mfrow=c ( 1 , 2 ) )
summary ( datosOSF )
summary ( datosOSF$ocoronaOSF )
t a b l e ( datosOSF$ocoronaOSF )
p l o t ( t a b l e ( datosOSF$ocoronaOSF ) , c o l =”r e d ” , x l a b=”Ocorona ” , y l a b=”F r e c u e n c i a ” )
b o x p l o t ( datosOSF$ocoronaOSF , x l a b=”Ocorona ” , y l a b =””)

# MEDIA Y VARIANZA #
mean ( datosOSF$ocoronaOSF )

v a r ( datosOSF$ocoronaOSF )

# HISTOGRAMA DE OCORONA CON SU DENSIDAD #


h i s t ( datosOSF$ocoronaOSF , f r e q=F , y l i m=c ( 0 , 0 . 4 ) , y l a b=”f Y ( y ) ” , x l a b=”Y” , main =””)
l i n e s ( d e n s i t y ( datosOSF$ocoronaOSF ) , c o l =’ red ’ )

#######################################################
## AJUSTE DE DISTRIBUCIONES A LA VARIABLE A EXPLICAR ##
#######################################################

## Ajustamos p o s i b l e s d i s t r i b u c i o n e s a l a v a r i a b l e a e x p l i c a r dada l a n a t u r a l e z a de
l o s d a t o s ##

# POISSON #
yop= f i t d i s t r ( datosOSF$ocoronaOSF , ” p o i s s o n ” )
h i s t D i s t ( datosOSF$ocoronaOSF , ”PO” , d e n s i t y=TRUE, , y l a b =”” , main=”A j u s t e P o i s s o n ” )

# BINOMIAL NEGATIVA #
yobn= f i t d i s t r ( datosOSF$pcoronaOSF , ” n e g a t i v e b i n o m i a l ” )
h i s t D i s t ( datosOSF$ocoronaOSF , ” NBII ” , d e n s i t y=TRUE, , y l a b =”” , main=”A j u s t e B i n o m i a l
Negativo ”)

# PIG #
h i s t D i s t ( datosOSF$ocoronaOSF , ” PIG ” , d e n s i t y=TRUE, , y l a b =”” , main=”A j u s t e PIG ” )

# CERO INFL POISSON #


h i s t D i s t ( datosOSF$ocoronaOSF , ” ZIP ” , d e n s i t y=TRUE)

# CERO INFL BINOMIAL NEGATIVA #


h i s t D i s t ( datosOSF$ocoronaOSF , ” ZINBI ” , d e n s i t y=TRUE, main=””)

# CERO INFLADO PIG #


h i s t D i s t ( datosOSF$ocoronaOSF , ” ZIPIG ” , d e n s i t y=TRUE)

# HURDLE POISSON #
h i s t D i s t ( datosOSF$ocoronaOSF , ”ZAP” , d e n s i t y=TRUE)

96 96
# HURDLE BINOMIAL NEGATIVA #
h i s t D i s t ( datosOSF$ocoronaOSF , ” ZANBI” , d e n s i t y=TRUE, main=””)

#####################################################################

#################################
##### PROBAMOS MODELOS ####
#################################

# b o x p l o t de o c o r o n a y de o c o r o n a con l a s v a r i a b l e s e x p l i c a t i v a s #
par ( mfrow=c ( 3 , 3 ) )
b o x p l o t ( datosOSF$ocoronaOSF , b o r d e r=”dark r e d ” , x l a b=”Ocorona ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$regionOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) ,
x l a b=”Region ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$tramo etaOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n
” , ” p u r p l e ” ) , x l a b=”Tramo E t a r i o ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$sexoOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) ,
x l a b=”Sexo ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$est universOSF , b o r d e r=c ( ” dark b l u e ” , ” dark
g r e e n ” ) , x l a b=”E s t u d i o U n i v e r s i t a r i o ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ d a t o s O S F $ i n s t i t u c i n O S F , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n
” ) , x l a b=” I n s t i t u c i o n Medica ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜datosOSF$n5consumemOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n
” ) , x l a b=”Consume Mate ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜datosOSF$fumaOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) ,
x l a b=”Fuma” )
p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$inseOSF , c e x = 0 . 6 , c o l =”dark b l u e ” , x l a b=”INSE ” )

## Primer a j u s t e : BINOMIAL NEGATIVA CERO INFLADO ##

ZIBNO=z e r o i n f l ( datosOSF$ocoronaOSF ˜ datosOSF$regionOSF+datosOSF$tramo etaOSF+


datosOSF$sexoOSF+d a t o s O SF $ e s t u n i v e r sO S F+
d a t o s O S F $ i n s t i t u c i n O S F+datosOSF$n5consumemOSF+datosOSF$fumaOSF+datosOSF$inseOSF |
datosOSF$regionOSF+datosOSF$tramo etaOSF+datosOSF$sexoOSF+
d a t o sO S F $ e s t u n i v e r sO S F+
d a t o s O S F $ i n s t i t u c i n O S F+datosOSF$n5consumemOSF+datosOSF$fumaOSF+datosOSF$inseOSF ,
data=datosOSF , d i s t =”n e g b i n ” )
summary (ZIBNO)

# Sacamos v a r i a b l e s no s i g n i f i c a t i v a s #

ZIBNO2=z e r o i n f l ( datosOSF$ocoronaOSF ˜ datosOSF$tramo etaOSF+datosOSF$sexoOSF+


d a t o s O S F $ i n s t i t u c i n O S F+
datosOSF$inseOSF | datosOSF$tramo etaOSF+datosOSF$sexoOSF+d a t o s O SF $ e s t u n i v e r sO S F+
d a t o s O S F $ i n s t i t u c i n O S F+
datosOSF$fumaOSF+datosOSF$inseOSF , data=datosOSF , d i s t =”n e g b i n ” )
summary (ZIBNO2)

## Segundo a j u s t e : BINOMIAL NEGATIVA HURDLE (CERO ALTERADO) ##

HURBNO=h u r d l e ( datosOSF$ocoronaOSF ˜ datosOSF$regionOSF+datosOSF$tramo etaOSF+


datosOSF$sexoOSF+d a t o s OS F $ e s t u n i v e rs O S F+d a t o s O S F $ i n s t i t u c i n O S F+
datosOSF$n5consumemOSF+datosOSF$fumaOSF+datosOSF$inseOSF | datosOSF$regionOSF+
datosOSF$tramo etaOSF+datosOSF$sexoOSF+d a t o s O SF $ e s t u n i v e r sO S F+
d a t o s O S F $ i n s t i t u c i n O S F+
datosOSF$n5consumemOSF+datosOSF$fumaOSF+datosOSF$inseOSF , data=datosOSF , d i s t =”n e g b i n
”)
summary (HURBNO)

HURBNO2=h u r d l e ( datosOSF$ocoronaOSF ˜ datosOSF$tramo etaOSF+datosOSF$sexoOSF+


d a t o s O S F $ i n s t i t u c i n O S F+
datosOSF$inseOSF | datosOSF$tramo etaOSF+datosOSF$sexoOSF+d a t o s O SF $ e s t u n i v e r sO S F+
d a t o s O S F $ i n s t i t u c i n O S F+datosOSF$fumaOSF+datosOSF$inseOSF , data=datosOSF , d i s t =”n e g b i n
”)

97
APÉNDICE C. SCRIPT DE VARIABLE OCORONA

summary (HURBNO2)

# Comparamos v a l o r e s o b s e r v a d o s con v a l o r e s e s p e r a d o s de Cero I n f l a d o B i n o m i a l


N e g a t i v a y Hurdle B i n o m i a l N e g a t i v a

MATO=m a t r i x ( c ( 0 : 3 1 ) , n c o l =3 , nrow =32 , dimnames= l i s t ( c ( 0 : 3 1 ) , c ( ” Observados ” , ” Zero


I n f l a d o ” , ” Hurdle ” ) ) )
for ( i in 1:32) {
A=round ( c ( ” Observados ” = sum ( datosOSF [ , 1 ] == i −1) , ”ZIBN”=sum ( p r e d i c t (ZIBNO2 , t y p e=”
prob ” ) [ , i ] ) , ”HURDLE”=sum ( p r e d i c t (HURBNO2, t y p e=”prob ” ) [ , i ] ) ) )
MATO[ i , 1 : 3 ] =A
}
MATO

##############################
## VALIDACION Y DIAGNOSTICO ##
##############################

par ( mfrow=c ( 2 , 1 ) )

# V a l i d a c i o n d e l modelo Cero I n f l a d o B i n o m i a l N e g a t i v o #

cov ( ZIBNO2$fitted , Z I B N O 2 $ r e s i d u a l s )
mean ( Z I B N O 2 $ r e s i d u a l s )
p l o t ( ZIBNO2$residuals , c e x = 0 . 5 , c o l =”dark b l u e ” , x l a b =”” , y l a b=”R e s i d u o s ” )
p l o t ( r e s i d u a l s (ZIBNO2)− f i t t e d (ZIBNO2) , c o l =”dark g r e e n ” , x l a b =”” , y l a b=”R e s i d u o s vs
Ajustados ”)

par ( mfrow=c ( 2 , 1 ) )

# V a l i d a c i o n d e l modelo Hurdle B i n o m i a l N e g a t i v o #

cov ( HURBNO2$fitted , HURBNO2$residuals )


mean ( HURBNO2$residuals )
p l o t ( HURBNO2$residuals , c e x = 0 . 5 , c o l =”dark b l u e ” , x l a b =”” , y l a b=”R e s i d u o s ” )
p l o t ( r e s i d u a l s (HURBNO2)− f i t t e d (HURBNO2) , c o l =”dark g r e e n ” , x l a b =”” , y l a b=”R e s i d u o s vs
Ajustados ”)

# E r r o r e s de p r e d i c c i o n #
# Error absoluto
# Suma de ( v a l o r a b s o l u t o de y − y e s t i m a d o ) s o b r e n

# Cero I n f l a d o #
ygorZIBNO2=round ( p r e d i c t (ZIBNO2) )
nO=l e n g t h ( datosOSF$ocoronaOSF )

errZIBNO2=s e q ( 0 , 1 4 6 8 )
f o r ( i i n 1 : nO) {
errZIBNO2 [ i ]= abs ( datosOSF$ocoronaOSF [ i ]−ygorZIBNO2 [ i ] )
}
sum ( errZIBNO2 ) /nO

#psudoR2#
ModO1ZI=update (ZIBNO2 , . ˜ 1 )
LIOZI=l o g L i k ( ModO1ZI )
LFOZI=l o g L i k (ZIBNO2)
pR2OZI=1−(LFOZI/ LIOZI )
pR2OZI

AIC ( LFOZI )

# Hurdle #

ygorHURBNO2=round ( p r e d i c t (HURBNO2) )

98 98
nO=l e n g t h ( datosOSF$ocoronaOSF )

errHURBNO2=s e q ( 0 , 1 4 6 8 )
for ( i in 1:1469) {
errHURBNO2 [ i ]= abs ( datosOSF$ocoronaOSF [ i ]−ygorHURBNO2 [ i ] )
}
sum (errHURBNO2) /nO

# Pseudo R2 para Cero I n f l a d o


n a g e l k e r k e (ZIBNO2)

#psudoR2#
ModO1H=update (HURBNO2, . ˜ 1 )
LIOH=l o g L i k (ModO1H)
LFOH=l o g L i k (HURBNO2)
pR2OH=1−(LFOH/LIOH)
pR2OH

AIC (HURBNO2)

## V a l i d a c i o n c r u z a d a ##

#muestra
set . seed (512)
muestraO=sample ( 1 : 1 3 5 0 , 1 0 0 0 , r e p l a c e=FALSE)
muestrapruebaO=datosOSF [ muestraO , ]

# Hurdle #
BNHUROvalid=h u r d l e ( muestrapruebaO$ocoronaOSF ˜ muestrapruebaO$tramo etaOSF+
muestrapruebaO$sexoOSF+m u e s t r a p r u e b a O $ i n s t i t u c i n O S F+
muestrapruebaO$inseOSF | muestrapruebaO$tramo etaOSF+muestrapruebaO$sexoOSF+
m u e s t r a p r u e b a O $ e s t u n i v e r s O S F+
m u e s t r a p r u e b a O $ i n s t i t u c i n O S F+muestrapruebaO$fumaOSF+muestrapruebaO$inseOSF , data=
muestrapruebaO , d i s t =”n e g b i n ” )
summary ( BNHUROvalid )

# Cero I n f l a d o #
BNZIOvalid=z e r o i n f l ( muestrapruebaO$ocoronaOSF ˜ muestrapruebaO$tramo etaOSF+
muestrapruebaO$sexoOSF+m u e s t r a p r u e b a O $ i n s t i t u c i n O S F+
muestrapruebaO$inseOSF | muestrapruebaO$tramo etaOSF+muestrapruebaO$sexoOSF+
m u e s t r a p r u e b a O $ e s t u n i v e r s O S F+
m u e s t r a p r u e b a O $ i n s t i t u c i n O S F+muestrapruebaO$fumaOSF+muestrapruebaO$inseOSF , data=
muestrapruebaO , d i s t =”n e g b i n ” )
summary ( BNZIOvalid )

# Observados vs . P r e d i c h o s #

MATOval=m a t r i x ( c ( 0 : 3 1 ) , n c o l =3 , nrow =32 , dimnames= l i s t ( c ( 0 : 3 1 ) , c ( ” Observados ” , ” Hurdle


V a l i d a c i o n ” , ” Cero I n f l a d o V a l i d a c i o n ” ) ) )
for ( i in 1:32) {
Aval=round ( c ( ” Observados ” = sum ( datosOSF [ muestraO , 1 ] == i −1) , ”HURDLE V”=sum ( p r e d i c t
( BNHUROvalid , t y p e=”prob ” ) [ , i ] ) , ”ZERO INF V”=sum ( p r e d i c t ( BNZIOvalid , t y p e=”prob ” )
[ , i ]) ))
MATOval [ i , 1 : 3 ] = Aval
}
MATOval

# Prediccion #

muestrapruebaO=datosOSF[− c ( muestraO ) , ]

MATOpred=m a t r i x ( c ( 0 : 3 1 ) , n c o l =3 , nrow =32 , dimnames= l i s t ( c ( 0 : 3 1 ) , c ( ” Observados ” , ” Cero


I n f l a d o P r e d i c c i o n ” , ” Hurdle P r e d i c c i o n ” ) ) )
for ( i in 1:32) {

99
APÉNDICE C. SCRIPT DE VARIABLE OCORONA

Apred=round ( c ( ” Observados ” = sum ( datosOSF[− c ( muestraO ) , 1 ] == i −1) , ”CERO INF P”=sum (


p r e d i c t ( BNZIOvalid , newdata=muestrapruebaO , t y p e=”prob ” ) [ , i ] ) , ” Hurdle P”=sum (
p r e d i c t ( BNHUROvalid , newdata=muestrapruebaO , t y p e=”prob ” ) [ , i ] ) ) )
MATOpred [ i , 1 : 3 ] = Apred
}
MATOpred

100 100
Apéndice D

Script de variable CPOcorona

l o a d ( ’ d a t o s o d o n t o . RData ’ )

library ( pscl )
l i b r a r y ( sandwich )
library ( lmtest )
l i b r a r y (MASS)
l i b r a r y ( gamlss )

#################################################
## CREAMOS MATRIZ DE DATOS SIN DATOS FALTANTES ##

d a t o s=d a t o s . odonto [ , c ( 8 , 1 3 , 1 4 , 1 6 , 3 1 , 5 3 , 5 6 , 2 2 1 , 2 2 4 , 2 2 6 , 2 2 8 , 2 3 8 , 2 3 9 ) ]
l e v e l s ( d a t o s $ e s t u n i v e r s )=c ( ” s i ” , ” no ” ,NA)
l e v e l s ( datos$fuma )=c ( ” s i ” , ” no ” ,NA)

################## CPOCORONA ####################

## S e l e c c i o n a m o s l o s d a t o s s i n f a l t a n t e s
a=c o m p l e t e . c a s e s ( d a t o s [ , c ( 1 : 7 , 1 1 , 1 2 ) ] )
r e g i o n S F=d a t o s $ r e g i o n [ a ]
tramo etaSF=d a t o s $ t r a m o e t a [ a ]
sexoSF=d a t o s $ s e x o [ a ]
e s t u n i v e r s S F=d a t o s $ e s t u n i v e r s [ a ]
i n s t i t u c i n S F=a s . f a c t o r ( d a t o s $ i n s t i t u c i n [ a ] )
n5consumemSF=a s . f a c t o r ( datos$n5consumem [ a ] )
fumaSF=datos$fuma [ a ]
cpocoronaSF=a s . numeric ( d a t o s $ c p o c o r o n a [ a ] )
i n s e S F=a s . numeric ( d a t o s $ i n s e [ a ] )

## Creamos m a t r i z de d a t o s
datosSF=data . frame ( cpocoronaSF , regionSF , tramo etaSF , sexoSF , e s t u n i v e r s S F ,
i n s t i t u c i n S F , n5consumemSF , fumaSF , i n s e S F )

#El 32 e s un problema#
datosSF=datosSF [− which(32== d a t o s S F $ c p o c o r o n a ) , ]

## Comprobamos que t o d a s l a s v a r i a b l e s t i e n e n i g u a l d i m e n s i o n
summary ( datosSF )
length ( datosSF$regionSF )
l e n g t h ( datosSF$tramo etaSF )
l e n g t h ( datosSF$sexoSF )
length ( datosSF$est universSF )
length ( datosSF$institucinSF )

101
APÉNDICE D. SCRIPT DE VARIABLE CPOCORONA

l e n g t h ( datosSF$n5consumemSF )
l e n g t h ( datosSF$fumaSF )
l e n g t h ( datosSF$cpocoronaSF )
length ( datosSF$inseSF )

#############################
## ESTADISTICA DESCRIPTIVA ##
#############################

summary ( datosSF )
summary ( datosSF$cpocoronaSF )
t a b l e ( datosSF$cpocoronaSF )
p l o t ( t a b l e ( datosSF$cpocoronaSF ) )

mean ( datosSF$cpocoronaSF )
v a r ( datosSF$cpocoronaSF )

h i s t ( datosSF$cpocoronaSF , f r e q=F , b r e a k s =31 , b o r d e r=”dark b l u e ” , c o l =” l i g h t g r e e n ” , main


=”” , x l a b =”” , y l a b =””)
l i n e s ( d e n s i t y ( datosSF$cpocoronaSF ) , c o l =’ red ’ )

################################
##DISTRIBUCIONES : POI , BN, PIG##
################################

## Ajustamos d i s t r i b u c i o n e s a l a v a r i a b l e a e x p l i c a r

#POIS#
ycpop= f i t d i s t r ( datosSF$cpocoronaSF , ” p o i s s o n ” )
h i s t D i s t ( datosSF$cpocoronaSF , ”PO” , d e n s i t y=TRUE)

#BN#
ycpobn= f i t d i s t r ( datosSF$cpocoronaSF , ” n e g a t i v e b i n o m i a l ” )
h i s t D i s t ( datosSF$cpocoronaSF , ” NBII ” , d e n s i t y=TRUE)

#PIG##
y c p o p i g=g a m l s s ( datosSF$cpocoronaSF ˜ 1 , f a m i l y=PIG )
h i s t D i s t ( datosSF$cpocoronaSF , ” PIG ” , d e n s i t y=TRUE)

#CERO INFL POISSON#


h i s t D i s t ( datosSF$cpocoronaSF , ” ZIP ” , d e n s i t y=TRUE)

#CERO INFL NB#


h i s t D i s t ( datosSF$cpocoronaSF , ” ZINBI ” , d e n s i t y=TRUE)

#CERO INFL PIG#


h i s t D i s t ( datosSF$cpocoronaSF , ” ZIPIG ” , d e n s i t y=TRUE)

#HURDLE POISSON#
h i s t D i s t ( datosSF$cpocoronaSF , ”ZAP” , d e n s i t y=TRUE)

#HURDLE NB#
h i s t D i s t ( datosSF$cpocoronaSF , ” ZANBI” , d e n s i t y=TRUE)

#HURDLE PIG#
h i s t D i s t ( datosSF$cpocoronaSF , ” ZAPIG” , d e n s i t y=TRUE)

102 102
Apéndice E

Diseño y selección de la muestra

El diseño de la muestra fue realizado por el Servicio de Epidemiologı́a de la Cátedra


de Odontologı́a Social en colaboración con el Instituto de Estadı́stica (IESTA) de
la Facultad de Ciencias Económicas y de Administración. Los tramos etarios fueron
seleccionados de acuerdo al siguiente criterio:

15 a 24 años: es la edad que la OMS recomienda para relevar la situación


epidemiológica en la salud bucal de los jóvenes.

35 a 44 años: permite conocer tanto el estado de salud bucal de los adultos co-
mo los efectos de los tratamientos que han recibido hasta el momento, además
de que es la edad recomendada por la OMS para realizar comparaciones inter-
nacionales.

65 a 74 años: permite conocer los efectos de los tratamientos recibidos por


los adultos mayores, además de la importancia que cobra al ser la población
uruguaya una de las que presenta mayor proporción de población adulta en
Latinoamérica (4, 5 %)

Se trabajó con 2 muestras independientes: por un lado se consideraron los departa-


mentos del interior del paı́s y por el otro Montevideo.

El diseño muestral se realizó en 2 fases:

En la primera fase el marco muestral fue el conjunto de personas de los 3


tramos etarios pertenecientes a localidades de 20.000 o más habitantes que
fueron visitadas en la Encuesta Continua de Hogares (ECH) desde febrero a
abril de 2010 1 (ECH http://ine.gub.uy/encuesta-continua-de-hogares1)
1
Instituto Nacional de Estadı́stica, División Estadı́sticas Sociodemográficas, Departamento En-
cuesta de Hogares; Inicio: 1968 - Actualmente en ejecución.

103
APÉNDICE E. DISEÑO Y SELECCIÓN DE LA MUESTRA

En la segunda etapa se realiza una muestra del total de personas de la primera


etapa y se llega ası́ al total requerido.

El tamaño muestral fue calculado de la siguiente forma:

(φ1−α/2 )2 ∗ π ∗ (1 − π)
   
1
n= ∗ Def f ∗ (E.1)
(M oe)2 1 − T NR
Donde M oe es el margen de error deseado, Def f es el efecto diseño (inflación de
varianza por muestreo complejo), T N R es la tasa de no respuesta, π es la prevalencia
a ser estimada y φ es el cuantil (1 − α/2) de una curva normal2 .

El sorteo de la muestra estuvo a cargo del Instituto Nacional de Estadı́stica. Las


personas relevadas pertenecen a las ciudades de Artigas, Canelones, Ciudad de la
Costa, La Paz, Las Piedras, Colonia, Florida, Maldonado, San Carlos, Montevideo,
Paysandú, San José, Salto y Tacuarembó. En los casos que no se encontró a la
persona se realizó un algoritmo de sustitución de la siguiente manera: “pararse en el
punto más noroeste de la manzana y caminar en sentido horario contando el número
de casas desde ese punto (casa 1) hasta encontrar una casa con una persona de la
edad y sexo requerido” 3 (12). La taza de respuesta fue en promedio de 61 %.

2
Se realizó una muestra probabilı́stica con diseño complejo, el que no será considerado en este
enfoque de análisis
3
Primer Relevamiento Nacional de Salud Bucal en población joven y adulta uruguaya, Lorenzo,
S., Álvarez, R., Blanco, S., Peres, M., junio 2013

104 104
Apéndice F

Anexo de resultados

Ccorona

Tabla F.1: Primera Estimación Binomial Negativa

Coeficiente Estimado Error Estándar Valor z P-Valor


(Intercepto) 1.189 0.238 5.001 5.70e-07
Región-Montevideo -0.056 0.088 -0.643 0.520
Tramo Etario-de 35 a 44 0.123 0.099 1.240 0.215
Tramo Etario-de 65 a 74 -0.794 0.109 -7.301 2.86e-13
Sexo-M 0.098 0.084 1.162 0.245
Estudio Universitario-No 0.232 0.121 1.910 0.056
Institución Médica-No 0.348 0.090 3.882 1.04e-4
Consume Mate-No -0.318 0.104 -3.041 0.002
Fuma-No -0.386 0.095 -4.080 4.51e-05
INSE -0.023 0.004 -5.945 2.77e-09

105
APÉNDICE F. ANEXO DE RESULTADOS

Tabla F.2: Primera Estimación Hurdle Binomial Negativa

Componente Hurdle
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.289 0.330 3.910 9.23e-05
Región-Montevideo -0.100 0.120 -0.837 0.402
Tramo Etario-de 35 a 44 0.093 0.141 0.658 0.510
Tramo Etario-de 65 a 74 -1.104 0.145 -7.632 2.31e-14
Sexo-M 0.113 0.116 0.968 0.333
Estudio Universitario-No 0.130 0.159 0.816 0.414
Institución Médica-No 0.484 0.123 3.940 8.07e-05
Consume Mate-No -0.379 0.138 -2.750 0.006
Fuma-No -0.527 0.137 -3.851 1.17e-04
INSE -0.026 0.005 -4.980 6.41e-07
Componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.919 0.331 2.780 0.005
Región-Montevideo -0.003 0.115 -0.023 0.982
Tramo Etario-de 35 a 44 0.125 0.123 1.020 0.308
Tramo Etario-de 65 a 74 -0.354 0.164 -2.163 0.030
Sexo-M 0.039 0.112 0.350 0.726
Estudio Universitario-No 0.296 0.173 1.707 0.088
Institución Médica-No 0.217 0.147 -1.637 0.102
Consume Mate-No -0.241 0.121 -2.390 0.017
Fuma-No -0.289 0.005 -3.269 0.001
INSE -0.018 0.225 -2.057 0.040

106 106
Pcorona

Tabla F.3: Primera Estimación Cero Inflado Binomial Negativa Pcorona

Coeficientes del componente Cero Inflado


Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) -0.753 0.487 -1.547 0.122
Región-Montevideo 0.373 0.180 2.072 0.038
Tramo Etario-de 35 a 44 -2.251 0.221 -10.18 < 2e-16
Tramo Etario-de 65 a 74 -3.837 0.377 -10.17 < 2e-16
Sexo-M -0.189 0.181 -1.043 0.297
Estudio Universitario-No -0.784 0.233 -3.364 0.001
Institución Médica-No -0.079 0.196 -0.404 0.686
Consume Mate-No 0.643 0.195 3.296 0.001
Fuma-No 0.594 0.212 2.808 0.005
INSE 0.020 0.008 2.561 0.010
Coeficientes del componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.374 0.145 9.465 < 2e-16
Región-Montevideo -0.037 0.051 -0.741 0.459
Tramo Etario-de 35 a 44 1.516 0.068 22.20 < 2e-16
Tramo Etario-de 65 a 74 2.134 0.072 29.64 < 2e-16
Sexo-M -0.176 0.050 -3.491 4.82e-04
Estudio Universitario-No 0.002 0.068 0.035 0.972
Institución Médica-No 0.162 0.054 3.002 0.003
Consume Mate-No -0.091 0.065 -1.417 0.156
Fuma-No -0.136 0.061 -2.249 0.024
INSE -0.013 0.002 -5.382 7.36e-08

107
APÉNDICE F. ANEXO DE RESULTADOS

Tabla F.4: Primera Estimación Hurdle Binomial Negativa Pcorona

Coeficientes del componente Hurdle


Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.464 0.407 1.142 0.254
Región-Montevideo -0.328 0.152 -2.161 0.031
Tramo Etario-de 35 a 44 2.542 0.195 13.02 < 2e-16
Tramo Etario-de 65 a 74 4.105 0.334 12.27 < 2e-16
Sexo-M 0.066 0.147 0.451 0.652
Estudio Universitario-No 0.673 0.203 3.308 0.001
Institución Médica-No 0.132 0.162 0.814 0.416
Consume Mate-No -0.599 0.166 -3.613 3.03e-04
Fuma-No -0.555 0.166 -3.333 0.001
INSE -0.022 0.006 -3.430 0.001
Coeficientes del componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.372 0.145 9.455 < 2e-16
Región-Montevideo -0.039 0.051 -0.770 0.441
Tramo Etario-de 35 a 44 1.512 0.068 22.20 < 2e-16
Tramo Etario-de 65 a 74 2.133 0.072 29.69 < 2e-16
Sexo-M -0.174 0.050 -3.458 5.43e-04
Estudio Universitario-No 0.008 0.068 0.118 0.906
Institución Médica-No 0.167 0.054 3.090 0.002
Consume Mate-No -0.087 0.064 -1.349 0.177
Fuma-No -0.136 0.060 -2.255 0.024
INSE -0.013 0.002 -5.455 4.89e-08

108 108
Ocorona

Tabla F.5: Primera Estimación Cero Inflado Binomial Negativa

Coeficientes del componente Cero Inflado


Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) -0.005 0.437 -0.013 0.989
Región-Montevideo 0.204 0.157 1.297 0.194
Tramo Etario-de 35 a 44 -0.918 0.205 -4.460 8.20e-06
Tramo Etario-de 65 a 74 0.637 0.190 3.346 8.12e-04
Sexo-M 0.284 0.154 1.841 0.065
Estudio Universitario-No 0.646 0.222 2.913 0.003
Institución Médica-No 0.578 0.162 3.548 3.80e-04
Consume Mate-No -0.220 0.189 -1.168 0.242
Fuma-No -0.441 0.182 -2.417 0.015
INSE -0.028 0.007 -3.750 1.71e-04
Coeficientes del componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.599 0.182 3.289 0.001
Región-Montevideo 0.040 0.069 0.578 0.563
Tramo Etario-de 35 a 44 0.759 0.082 9.196 < 2e-16
Tramo Etario-de 65 a 74 0.570 0.093 6.100 1.06e-09
Sexo-M -0.173 0.069 -2.497 0.012
Estudio Universitario-No -0.025 0.082 -0.312 0.754
Institución Médica-No -0.230 0.080 -2.868 0.004
Consume Mate-No 0.039 0.078 0.500 0.616
Fuma-No 0.077 0.086 0.887 0.375
INSE 0.009 0.002 3.617 2.90e-04

109
APÉNDICE F. ANEXO DE RESULTADOS

Tabla F.6: Primera Estimación Hurdle Binomial Negativa

Coeficientes del componente Hurdle


Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) -0.442 0.330 -1.339 0.180
Región-Montevideo -0.166 0.120 -1.381 0.167
Tramo Etario-de 35 a 44 1.157 0.150 7.675 1.65e-14
Tramo Etario-de 65 a 74 -0.237 0.138 -1.714 0.086
Sexo-M -0.335 0.116 -2.868 0.004
Estudio Universitario-No -0.519 0.161 -3.228 0.001
Institución Médica-No -0.574 0.124 -4.622 3.81e-06
Consume Mate-No 0.150 0.137 1.094 0.274
Fuma-No 0.368 0.139 2.655 0.007
INSE 0.024 0.005 4.380 1.19e-05
Coeficientes del componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.539 0.183 2.938 0.003
Región-Montevideo 0.054 0.069 0.781 0.434
Tramo Etario-de 35 a 44 0.722 0.078 9.197 < 2e-16
Tramo Etario-de 65 a 74 0.536 0.089 6.004 1.93e-09
Sexo-M -0.154 0.068 -2.249 0.024
Estudio Universitario-No -0.006 0.082 -0.078 0.937
Institución Médica-No -0.244 0.079 -3.090 0.002
Consume Mate-No 0.056 0.078 0.722 0.470
Fuma-No 0.092 0.086 1.073 0.283
INSE 0.011 0.002 4.102 4.10e-05

110 110

También podría gustarte