Pasantia Martinez Voucher
Pasantia Martinez Voucher
Pasantia Martinez Voucher
Licenciatura en Estadı́stica
Informe de Pasantı́a
Tutores:
Ramón Alvarez
Ana Coimbra
Tutores:
Ramón Alvarez
Ana Coı́mbra
Licenciatura en Estadı́stica
Puntaje ................................................................................
Tribunal
Profesor...............................................................(nombre y firma).
Profesor...............................................................(nombre y firma).
Profesor...............................................................(nombre y firma).
Profesor...............................................................(nombre y firma).
Fecha.............................................................................
Resumen
Los datos con los que se trabaja provienen del primer relevamiento en salud oral
llevado a cabo por el Servicio de Epidemiologı́a y Estadı́stica de Facultad de Odon-
tologı́a, coordinado conjuntamente con docentes del Instituto de Estadı́stica de Fa-
cultad de Ciencias Económicas. Es un estudio realizado en el perı́odo 2010-2011 con
un diseño de muestreo probabilı́stico complejo (el cual no será considerado en este
trabajo) a la población joven y adulta urbana en sus domicilios, tanto en Montevideo
como en el Interior del paı́s. Se relevó información de variables sociodemográficas
ası́ como variables clı́nicas.
Se modelan los componentes del ı́ndice CPO por separado ası́ como el propio CPO,
llegando a verificar que presentan distintos comportamientos en cuanto a su distri-
bución y a las variables explicativas que inciden en su conteo.
Palabras clave: CPO, exceso de ceros, modelos de conteo, modelos lineales genera-
lizados, sobredispersión.
iii
iv iv
Índice general
Índice general V
Índice de figuras IX
Índice de tablas XI
1. Introducción 3
2. Metodologı́a 7
2.1. Determinación de la distribución de los datos . . . . . . . . . . . . . . 7
2.1.1. Elección de las posibles familias de distribuciones que ajusten
a los datos bajo estudio . . . . . . . . . . . . . . . . . . . . . 8
2.1.2. Estimación de parámetros de la función de distribución . . . . 8
2.1.3. Calidad del ajuste . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Análisis de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3. Modelos lineales generalizados . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Componentes del modelo . . . . . . . . . . . . . . . . . . . . . 12
2.3.2. Estimación de los parámetros . . . . . . . . . . . . . . . . . . 13
2.4. Modelos de regresión para datos de conteo . . . . . . . . . . . . . . . 15
2.4.1. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2. Regresión Binomial Negativa (6) . . . . . . . . . . . . . . . . . 21
2.4.3. Otras formas de tratar la sobredispersión: Regresión Poisson
Inversa Gaussiana (PIG) . . . . . . . . . . . . . . . . . . . . . 25
v
ÍNDICE GENERAL
3. Datos de la aplicación 33
3.1. Variables relevadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1. Variables a explicar: CPO, C, P y O . . . . . . . . . . . . . . 35
3.1.2. Caracterı́sticas demográficas y socioeconómicas utilizadas en
este trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.3. Factores de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.4. Atención a la salud . . . . . . . . . . . . . . . . . . . . . . . . 38
4. Resultados 39
4.1. Variable Ccorona (Caries de corona) . . . . . . . . . . . . . . . . . . 39
4.1.1. Distribución de Probabilidad para Ccorona . . . . . . . . . . . 40
4.1.2. Modelos de Regresión para Ccorona . . . . . . . . . . . . . . . 42
4.2. Variable Pcorona (Corona perdida) . . . . . . . . . . . . . . . . . . . 49
4.2.1. Distribución de Probabilidad para Pcorona . . . . . . . . . . . 51
4.2.2. Modelos de Regresión para Pcorona . . . . . . . . . . . . . . . 52
4.3. Variable Ocorona (Corona obturada) . . . . . . . . . . . . . . . . . . 59
4.3.1. Distribución de Probabilidad para Ocorona . . . . . . . . . . . 60
4.3.2. Modelos de Regresión para Ocorona . . . . . . . . . . . . . . . 62
4.4. CPOcorona . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
vi vi
Índice general
4.5. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5. Conclusiones 73
5.1. Conclusiones para Ccorona . . . . . . . . . . . . . . . . . . . . . . . . 73
5.2. Conclusiones para Pcorona . . . . . . . . . . . . . . . . . . . . . . . . 73
5.3. Conclusiones para Ocorona . . . . . . . . . . . . . . . . . . . . . . . . 74
5.4. Conclusiones generales . . . . . . . . . . . . . . . . . . . . . . . . . . 74
Bibliografı́a 77
vii
ÍNDICE GENERAL
viii viii
Índice de figuras
ix
ÍNDICE DE FIGURAS
4.17. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.18. Valores Observados vs. Valores Estimados Cero Inflado y Valores Es-
timados Hurdle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.19. Histograma de CPOcorona . . . . . . . . . . . . . . . . . . . . . . . . 69
x x
Índice de tablas
xi
Índice de tablas
1
ÍNDICE DE TABLAS
2 2
Capı́tulo 1
Introducción
32
X 32
X 32
X
CP Oj = Ci + Pi + Oi (1.1)
i=1 i=1 i=1
3
CAPÍTULO 1. INTRODUCCIÓN
donde
De esta forma, Ci vale 1 si la pieza i presenta caries y cero si no, Pi vale 1 si ha sido
perdida por la enfermedad y cero si no, y Oi vale 1 si ha sido curada y cero si no, de
modo que el ı́ndice CPO puede tomar valores de 0 a 32, ya que se contabilizan 32
piezas dentales en el caso de que se tengan los terceros molares, a los que se llama
“muelas de juicio”.
Los datos utilizados para el estudio son los correspondientes al primer relevamiento
epidemiológico llevado a cabo en Uruguay durante los años 2010-2011(12) por parte
de la Facultad de Odontologı́a de la Universidad de la República, auspiciado por el
Ministerio de Salud Pública y coordinado conjuntamente con docentes del Instituto
de Estadı́stica de Facultad de Ciencias Económicas y de Administración, y basado
en la metodologı́a propuesta por la Organización Mundial de la Salud (OMS)1 .
1
http://www.who.int/about/es/
4 4
La muestra consta de 1485 individuos relevados, de los cuales 922 pertenecen a
Montevideo y el resto a 14 ciudades del interior que tienen más de 20.000 habitantes.
Los tramos etarios en los que se divide la población de estudio son de 15 a 24, 35 a
44 y 65 a 74.
Objetivos
El objetivo general es encontrar una forma de explicar las variables C, P, y O ası́ como
también del indicador CPO a partir de un conjunto de variables socioeconómicas que
se consideran importantes en el resultado de los mismos y ası́ encontrar un modelo
adecuado para estudiar el comportamiento de C, P, O y CPO.
5
CAPÍTULO 1. INTRODUCCIÓN
análisis de las variables que serán utilizadas para explicar el comportamiento de las
variables C, P y O. En el capı́tulo 4 se muestran los resultados de la aplicación, y en
el capı́tulo 5 se exponen las principales conclusiones y los pasos a seguir en futuros
trabajos.
6 6
Capı́tulo 2
Metodologı́a
7
CAPÍTULO 2. METODOLOGÍA
Una forma de elegir las posibles familias de distribuciones que se supone que mejor
representan a los datos, es por medio de análisis exploratorio de los datos a través
de medidas de resumen univariadas o por medio de gráficos. El histograma, por
ejemplo, permite comparar gráficamente las funciones de densidad teóricas con las
empı́ricas. Pero esto puede ser muy subjetivo, por lo que se deben buscar métodos
analı́ticos que sean más objetivos.
P
t
y y fy (y; θ) en el caso discreto
t
E(Y ) = R
y t f (y; θ)dy en el caso continuo
y y
8 8
2.1. Determinación de la distribución de los datos
Qn
Función de Verosimilitud: L(θ) = i=1 f (yi ; θ)
Para estudiar el ajuste de una distribución de probabilidad a los datos se estudian los
errores que resultan de aplicar la distribución de probabilidad elegida a la muestra,
y además se emplean una serie de tests, conocidos como Tests de Bondad de Ajuste.
Pn
i=1 |yi − ŷi |
ξ= (2.1)
n
9
CAPÍTULO 2. METODOLOGÍA
Pn
ξ |y − ŷi |
δ = Pn Pn i
= i=1 (2.2)
i=1 yi /n i=1 yi
Estas medidas muestran la diferencia que existe entre el valor observado y el valor
esperado que resulta al aplicar la distribución de probabilidad que se desea probar.
De este modo, cuanto más chica esta medida, más acertada la elección de la distri-
bución. Se elige la función de distribución de probabilidades que presente el menor
valor de medida absoluta o relativa.
Los tests de bondad de ajuste son una herramienta utilizada para probar si los datos
que se estudian provienen de una distribución de probabilidad dada. Se realizan
mediante pruebas de hipótesis de la forma:
10 10
2.2. Análisis de regresión
l
X (Oi − Ei )2
χ2 = (2.3)
i=1
Ei
Donde es la diferencia entre el valor ajustado y el valor real y se conoce como “error
11
CAPÍTULO 2. METODOLOGÍA
Los MLG son una generalización de los modelos de regresión. Permiten relacionar
la variable de respuesta Y que puede no seguir una distribución Normal con los
predictores lineales X 0 s por medio de una función de enlace.
yθ − b(θ)
f (y) = exp c(y, φ) (2.5)
a(φ)
12 12
2.3. Modelos lineales generalizados
Y
L(θ/y) = f (yi ) (2.7)
13
CAPÍTULO 2. METODOLOGÍA
X X yi θ − b(θ)
log(L(θ/y)) = log(f (yi )) = + log(c(yi , φ)) (2.8)
a(φ)
δlogL X yi − b0 (θ)
= (2.9)
δθ a(φ)
Dado un parámetro inicial estimado θb0 que puede ser estimado por el Método de los
Momentos, podemos obtener una aproximación de L alrededor de θb0
14 14
2.4. Modelos de regresión para datos de conteo
Los datos de conteo son observaciones de valores enteros no negativos que comienzan
en cero. Una variable de conteo es una lista especı́fica de datos de conteo que toma
valores no negativos y donde cada valor es independiente a otro. Una variable de
conteo es aquella que determina el número de eventos que ocurren en un determinado
espacio o tiempo. En este caso el modelo de regresión relaciona la variable de conteo
a explicar Y , con una o más variables predictoras X que pueden ser categóricas o
cuantitativas. La variable de respuesta Y no tiene lı́mite superior y toma el valor
cero en muchos casos.
15
CAPÍTULO 2. METODOLOGÍA
Poisson es modelar los datos usando una Binomial Negativa. La distribución Bi-
nomial Negativa tiene un parámetro adicional llamado parámetro de dispersión; es
una medida de ajuste para acomodar el exceso de variabilidad en los datos. Esta
distribución permite mayor flexibilidad al modelar datos sobredispersos. Cuando los
datos presentan gran concentración en los primeros valores del recorrido, es útil usar
la distribución Poisson Inversa Gaussiana, que es una mezcla de una variable aleato-
ria Poisson donde su parámetro se distribuye de acuerdo a una distribución Inversa
Gaussiana. El modelo BN-ρ, es un modelo de conteo de tres parámetros, donde ρ es
el exponente del segundo término de la varianza, lo que da una mayor flexibilidad
en la misma.
La función logaritmo garantiza que los valores predichos serán siempre positi-
vos.
Al elegir el modelo más apropiado para los datos, se está seleccionando una
distribución de probabilidad o mezcla de distribuciones que mejor describen los
datos de la población de los cuales se extrajo la muestra a ser modelada. Los
datos no siempre se asocian a una distribución Poisson o Binomial Negativa.
Puede suceder que no asuman valores cero o que tengan gran cantidad de
ceros, por lo que es necesario un ajuste a la función de probabilidad. Con
este propósito se usan Modelos Cero Truncados (MCT), Hurdle (MH) y Cero
Inflados (MCI). Pertenecen a los Modelos en dos Partes ya que presentan
un componente Logit o Probit para determinar los conteos cero frente a los
conteos positivos, y un modelo Poisson, PIG o Binomial Negativo para los
16 16
2.4. Modelos de regresión para datos de conteo
conteos positivos.
log(Y ) = Xβ +
e−λ λy y = 0, 1, 2, ...
y!
f (y; λ) = (2.10)
0 otro caso
17
CAPÍTULO 2. METODOLOGÍA
e−λ λy
Esta v.a. pertenece a la familia exponencial: Su cuantı́a f (y; λ) = y!
se puede
18 18
2.4. Modelos de regresión para datos de conteo
expresar:
1
f (y; λ) = exp {−λ + ylogλ} (2.11)
y!
Donde:
θ = logλ
b(θ) = e−θ
1
c(y, φ) = y!
φ=1
E(yi ) = µi = b0 (θ)
V (yi ) = φb”(θ)
19
CAPÍTULO 2. METODOLOGÍA
Cuando se trabaja con una base de datos de conteo puede ocurrir que el modelo
Poisson puede parecer sobredisperso y en realidad no lo es, o puede efectivamente
presentar sobredispersión.
Si existe evidencia suficiente para probar que los datos no siguen una distribución
Poisson, entonces será necesario emplear un modelo de conteo alternativo que se
ajuste al tipo de supuesto violado en la distribución de los datos; por ejemplo:
MCT Poisson para el caso en que los datos no admiten el conteo cero
MCI Poisson si hay más valores ceros de los esperados para una distribución
de Poisson para una media dada o los conteos cero provienen de una fuente
diferente que los conteos mayores que cero. Los conteos cero se admiten en
ambos componentes del modelo.
20 20
2.4. Modelos de regresión para datos de conteo
log(Y ) = Xβ +
y+r−1
r
y
(p) (1 − p)y y = 0, 1, 2, ...
P (Y = y; p, r) = (2.12)
0 otro caso
r(1−p)
Con E(Y ) = p
y V (Y ) = r (1−p)
p2
21
CAPÍTULO 2. METODOLOGÍA
e−λ λy
P (Y = y/λ) = I{y=0,1,...,n} (2.13)
y!
αβ
g(λ) = Γ(β)
λβ−1 e−αλ λ ≥ 0, α > 0, β > 0 (2.14)
β y
y+β−1
Z
α 1
⇒ P (Y = y) = P (Y ; λ)g(λ)dλ = (2.16)
y α+1 α+1
para valores de y ≥ 0
Donde α = p
1−p
y β = r, por lo que E(Y ) = β
α
y V (Y ) = β (α+1)
α2
22 22
2.4. Modelos de regresión para datos de conteo
son, modelar datos sobredispersos, y suele ser la primera alternativa para hacer
frente a la restricción de igualdad de media y varianza de dicha distribución.
23
CAPÍTULO 2. METODOLOGÍA
Parametrizaciones de la Varianza
Tabla 2.1: Media y Varianza de los distintos tipos de distribución Binomial Negativa
V (Y ) = µ + αµρ
1
Siendo α = r
24 24
2.5. Exceso de ceros en datos de conteo
Las distribuciones que fueron tratadas anteriormente asumen que pueden existir da-
tos iguales a cero. Algunas variables de conteo que describen datos reales muestran
un porcentaje de ceros muy alto. Esa cantidad de ceros no es compatible con las dis-
tribuciones Poisson o BN. La gran diferencia entre el número esperado y el número
observado de ceros es un problema en el análisis: puede ser causa de sobredispersión
y la estimación de los coeficientes puede no ser fiable. Subestima la varianza con
intervalos de confianza más chicos de lo que corresponde, obteniendo como conse-
cuencia variables significativas que no lo son. Además, la precisión en las inferencias
se verán altamente afectadas. Para corregir este problema se debe hacer un ajuste
a la función o usar otro modelo diferente.
25
CAPÍTULO 2. METODOLOGÍA
Los modelos truncados implican que en algún punto del recorrido de la variable, un
determinado valor está totalmente ausente.
Para y > 0, donde y son los valores observados (en este caso mayores que 0) y
x son las variables explicativas.
26 26
2.5. Exceso de ceros en datos de conteo
1. Un proceso binario para los valores que están por encima o por debajo del
valor de selección, modelado por medio de un proceso logit, para describir la
probabilidad de que se cruce el “obstáculo”. Dicho proceso modela datos que
toman dos valores: éxito o fracaso. Este componente del modelo sólo genera
conteos cero.
Sea yi la observación i
eXβ
E(Y /X) = πi = (2.19)
1 + eXβ
1
πi = (2.20)
1 + e−Xβ
27
CAPÍTULO 2. METODOLOGÍA
πi 1 + eXβ
= −Xβ
= eXβ (2.21)
1 − πi 1+e
πi
log = Xβ (2.22)
1 − πi
πi
1−πi
es conocido como odds, que es una razón de probabilidades: es el cociente
entre la probabilidad de que ocurra el evento y que no ocurra el evento, por
lo que cuanto más alto el odds, más alta será la probabilidad de que el suceso
ocurra.
2. Un proceso que genera sólo los conteos mayores que cero mediante un mode-
lo Cero Truncado. Este componente se puede modelar mediante un modelo
Poisson, Binomial Negativo o PIG.
En este modelo, se considera que los datos son generados de tal forma que un proceso
genera conteos positivos luego de cruzar un obstáculo. Hasta que dicha barrera es
cruzada, el proceso genera conteos cero. El vector de parámetros β y γ del modelo
se estiman por máxima verosimilitud y pueden ser maximizados por separado.
El modelo de regresión cero inflado fue propuesto por Lambert (10) con el fin de,
como en los modelos Hurdle, tratar el problema en los datos que muestran una
28 28
2.6. Evaluación del ajuste
cantidad de ceros mucho más alta que la que es compatible con las distribuciones
usualmente utilizadas, es decir, los datos a ser estudiados presentan más ceros que
los esperados. Al igual que los modelos de regresión Hurdle, este modelo combina
una variable binaria con un modelo de conteo Poisson, PIG o Binomial Negativo. Es
un modelo mixto de dos componentes que da mayor peso a la probabilidad de que
la variable sea igual a cero, por lo que la función de probabilidad para un modelo
de regresión Cero Inflado es una mezcla de una función de masa concentrada en
cero y un modelo perteneciente a la familia exponencial. A diferencia de los Modelos
Hurdle, el primer componente genera sólo conteos cero, pero el segundo genera el
rango completo de conteos, incluyendo los ceros.
fcero (0; z, γ) + (1 − fcero (0; z, γ))fcont (0; x, β) si y = 0
fceroinf (y; x, z, β, γ) = (2.24)
(1 − fcero (0; z, γ))fcont (y; x, β) si y > 0
Una vez elegido el modelo de regresión es necesario evaluar si el mismo tiene un buen
ajuste y si es el indicado para los mismos. Eso implica analizar errores y realizar
29
CAPÍTULO 2. METODOLOGÍA
tests para corroborar la bondad del ajuste y la elección del modelo. Además, citando
a Joseph M. Hilbe (6) en su libro Negative Binomial Regression, “Un modelo sólo
es tan bueno como los resultados de sus ajustes estadı́sticos”.
Al comparar modelos, los modelos con valores de RP2 más bajos, indican un ajuste
más “pobre”, ya que tienen una menor verosimilitud, la cual lleva a un menor RP2 .
30 30
2.6. Evaluación del ajuste
n
X
D=2 {L(yi ; yi ) − L(βi ; yi )} (2.26)
i=1
H0 )D = 0
H1 )D > 0
Este test compara modelos con algunos predictores contra el mismo modelo con más
predictores. Evalúa si las variables explicativas deben mantenerse en el modelo, es
decir, si tienen información para explicar el comportamiento de la variable y.
LR = −2(LR − LF ) (2.27)
31
CAPÍTULO 2. METODOLOGÍA
Los tests de criterios de selección del modelo son tests comparativos, siendo los que
presentan valores menores los que indican un mejor ajuste. Los principales tests de
Criterio de la Información son Akaike Information Criterion (AIC) y Bayesian Infor-
mation Criterion (BIC). Estos criterios consisten en una serie de parametrizaciones
alternativas, cada una de las cuales tiene como objetivo determinar un método para
evaluar mejor el ajuste del modelo.
−2(L − k)
AIC = (2.28)
n
32 32
Capı́tulo 3
Datos de la aplicación
33
CAPÍTULO 3. DATOS DE LA APLICACIÓN
En Uruguay existe el llamado Programa Nacional de Salud Bucal que propone “Con-
tribuir al logro del más alto grado posible de salud bucal de la población uruguaya,
impulsando, promoviendo y articulando las adecuadas acciones promocionales, pre-
ventivas y asistenciales integradas en un Sistema de Salud y que correspondan a las
necesidades de cada individuo” (1) y que forma parte del Sistema Nacional Integra-
do de Salud (SN IS), donde los grupos prioritarios son las mujeres embarazadas,
los niños y los adolescentes, no existiendo cobertura para la población adulta. Al no
contar con información de dicha población se realiza un relevamiento epidemiológico
durante los años 2010-2011. Es el primer estudio de este tipo realizado en el paı́s,
basado en la metodologı́a propuesta por la OMS que fue llevado a cabo por la Facul-
tad de Odontologı́a de la Universidad de la República (UDELAR), auspiciado por
el Ministerio de Salud Pública (MSP).
La información recogida refleja los principales problemas de salud bucal y las nece-
34 34
3.1. Variables relevadas
Tabla 3.1: Proporción de personas relevadas por Región según Tramo Etario
35
CAPÍTULO 3. DATOS DE LA APLICACIÓN
Los datos personales permiten ubicar al individuo en tramo etario, sexo, región y si
tienen estudios universitarios o no. Para la clasificación socioeconómica se utiliza el
36 36
3.1. Variables relevadas
Índice de Nivel Socio Económico (INSE) elaborado por los economistas Fernández
y Perera en el año 2003: Indice de Niveles Socieoconómicos (INSE) (4) y que fue
validado por la Facultad de Ciencias Sociales de la Universidad de la República a
través del Departamento de Sociologı́a, y actualizado por las economistas Llambı́ y
Piñeyro en el año 2012. El mismo toma valores de 0 a 100.
Los valores que toman las variables del tipo socioeconómico y demográfico se mues-
tran en la tabla 3.3
Tabla 3.3: Proporción de personas por tramo etario, sexo, región, estudio universitario e
INSE
En la tabla 3.4 se muestran los valores que toman los factores de riesgo tomados en
cuenta en el presente estudio, es decir, el consumo de mate y de tabaco del individuo
encuestado. Se incluyen en el cuestionario el consumo de alcohol y consumo de frutas
y verduras pero no fueron tomadas en cuenta en el presente trabajo.
37
CAPÍTULO 3. DATOS DE LA APLICACIÓN
Con referencia al acceso del encuestado a los servicios de salud, se toma en cuenta si
el individuo cuenta con Institución Médica Colectiva, lo que se refleja en la siguiente
tabla.
38 38
Capı́tulo 4
Resultados
La variable CPO fue analizada en primer lugar a través de cada uno de sus compo-
nentes, C, P y O. Luego se analiza la variable CPO propiamente dicha, seleccionando
las posibles familias de distribuciones que se ajusten a las mismas para luego estimar
un modelo de regresión que describa cada una de éstas.
Se trabaja con datos sin valores faltantes, por lo que para la variable Ccorona se
tiene un total de 1466 individuos. Esta variable toma valores de 0 a 18, su media es
39
CAPÍTULO 4. RESULTADOS
1.45 y su varianza 6.39, o sea que su varianza es 4.41 veces su media. En la figura 4.1
se puede ver que los datos se encuentran concentrados en el valor cero decreciendo
hacia el valor máximo de la variable.
Para decidir cuales son las distribuciones que mejor se adaptan a la variable de
interés se prueba el ajuste de las diferentes distribuciones que podrı́an adecuarse a
los datos dadas sus caracterı́sticas básicas.
40 40
4.1. Variable Ccorona (Caries de corona)
En la figura 4.3 se puede ver que esta distribución se ajusta mejor a la variable
Ccorona, por lo que se podrı́a preferir ésta a la distribución Poisson.
En este caso la estimación es muy similar a los valores reales para todos los valores
que tomó la variable. Los parámetros de la distribución Binomial Negativa estimados
según la notación de la ecuación (2.32) son E(Ccorona) = µ = 1,45 y r = 0,44 que
representa la cantidad de éxitos en y + β experimentos, por lo que la varianza
estimada es V (Ccorona) = 6,24 muy próxima a la varianza muestral.
41
CAPÍTULO 4. RESULTADOS
Se quiere modelar la variable a explicar Ccorona con las variables explicativas región,
tramo etario, sexo, estudio universitario, institución médica colectiva, consume mate,
fuma, INSE.
Se puede notar que el número de personas que no tienen caries es mayor si tienen
estudios universitarios que si no lo tienen, ası́ como el 75 % de las personas que
tienen estudios universitarios tienen 1 o menos caries, y el 75 % de las que no tienen
estudio universitario tienen 2 o menos caries, esto es las personas que no tienen
estudios universitarios tienen un número mayor de caries. Lo mismo sucede con las
42 42
4.1. Variable Ccorona (Caries de corona)
43
CAPÍTULO 4. RESULTADOS
Figura 4.4
44 44
4.1. Variable Ccorona (Caries de corona)
Tramo Etario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
15-24 0 0 1 1,68 2 18
35-44 0 0 1 1,89 2 18
65-74 0 0 0 0,65 1 11
Estudio Universitario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 0 0,73 1 10
No 0 0 1 1,72 2 18
Institución Médica Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 0 0,97 1 18
No 0 0 1 2,06 3 18
Consume Mate Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 1 1,62 2 18
No 0 0 0 0,9 1 11
45
CAPÍTULO 4. RESULTADOS
Colectiva, Consume Mate, Fuma e INSE, por lo que se ajusta el modelo nuevamente
con estas variables (tabla 4.8).
Por lo expuesto se intentan ajustar modelos para exceso de ceros para mejorar el
número estimado de ceros.
π
log( 1−π ) = 1,092+0,563∗InstM ed(N o)−0,317∗ConsM at(N o)−0,735∗F uma(N o)−
0,022 ∗ IN SE,
46 46
4.1. Variable Ccorona (Caries de corona)
F uma(N o) − 0,018 ∗ IN SE
Componente Hurdle
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.092 0.211 5.171 2.33e-07
Institución Médica-No 0.563 0.118 4.778 1.77e-06
Consume Mate-No -0.317 0.132 -2.405 0.016
Fuma-No -0.735 0.130 -5.645 1.66e-08
INSE -0.022 0.004 -5.369 7.90e-08
Componente Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.890 0.322 2.763 0.006
Estudio Universitario-No 0.317 0.176 1.801 0.072
Institución Médica-No 0.249 0.118 2.103 0.035
Fuma-No -0.399 0.115 -3.450 0.001
INSE -0.018 0.006 -3.321 0.001
47
CAPÍTULO 4. RESULTADOS
Figura 4.5: Valores Observados vs. Valores Estimados con Modelos Binomial Negativa y
Hurdle Binomial Negativa
48 48
4.2. Variable Pcorona (Corona perdida)
Para analizar la validez de los modelos se analizan los residuos hallándose su pro-
˜ ) = −0,0009391
medio y su covarianza con los valores ajustados las cuales son eBN
y Cov(e, ŷ) = −0,004331 para el modelo Binomial Negativo y eHBN
˜ ) = −0,0009362
y Cov(e, ŷ) = −0,004615 para el modelo Hurdle Binomial Negativo, esto es, muy
cercanos a cero.
Para evaluar el ajuste de estos modelos se calculan los errores absolutos con la
ecuación (2.1), el cual da un valor de 1.546 para el modelo Binomial Negativo y
1.556 para el modelo Hurdle Binomial Negativo, indicando que serı́a mejor el ajuste
Binomial Negativo; en cambio el test pseudo−R2 da un valor de 0.040 para Binomial
Negativo y 0.043 para el modelo Hurdle, y el AIC da 4517 para el modelo Binomial
Negativo y 4511 para el modelo Hurdle, sugiriendo lo opuesto, aunque los indicadores
para ambos modelos son muy próximos.
Al trabajar con datos sin valores faltantes, para el análisis de la variable Pcorona, se
tiene un total de 1350 individuos. Esta variable toma valores de 0 a 32, presentando
una distribución bimodal como se muestra en la figura 4.6. Por no ser el objetivo
del trabajo analizar el problema de las distribuciones bimodales se elimina el valor
32 de los datos, lo cual desde el punto de vista epidemiológico tiene sentido ya que
representa a los individuos edéntulos, por lo cual se trabaja de aquı́ en adelante con
personas que tienen por lo menos una pieza dental.
49
CAPÍTULO 4. RESULTADOS
Pcorona tiene media 6.74 y varianza 77.28, es decir que su varianza es 11.47 ve-
ces su media. Los datos de esta variable se encuentran concentrados en el valor 0
decreciendo hacia el valor 31 como se muestra en la figura 4.7.
50 50
4.2. Variable Pcorona (Corona perdida)
Ası́ se muestra en las figuras 4.9 y 4.10 el ajuste de los modelos Hurdle Binomial
Negativo y Cero Inflado Binomial Negativo.
51
CAPÍTULO 4. RESULTADOS
Al igual que para Ccorona, se quiere modelar la variable Pcorona a través de modelos
de regresión. Se muestra en la figura 4.11 y en las tablas bivariadas las relaciones
parciales con las variables explicativas.
52 52
4.2. Variable Pcorona (Corona perdida)
Se puede ver que la cantidad de personas sin dientes perdidos disminuye a medida
que aumenta la edad, ya que la mitad de los individuos con edades de 15 a 24 años
no tienen dientes perdidos, la mitad de los individuos con edades de 35 a 44 años
tiene 7 o menos dientes perdidos y la mitad de los individuos con edades de 65 a 74
años tiene 19 o menos dientes perdidos.
53
CAPÍTULO 4. RESULTADOS
Figura 4.11
54 54
4.2. Variable Pcorona (Corona perdida)
Tramo Etario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
15-24 0 0 0 1,17 2 20
35-44 0 2 7 9,28 15 31
65-74 0 11 19 17,33 25 31
Estudio Universitario Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 1 5,22 7 29
No 0 0 3 7,35 12 31
Institución Médica Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 2 6,37 10 31
No 0 0 2 7,23 12 31
Consume Mate Mı́n. Pr. Cuart. Mediana Media Ter. Cuart. Máx.
Si 0 0 3 7,40 12 31
No 0 0 0 4,72 5,75 31
55
CAPÍTULO 4. RESULTADOS
Se observa que las variables significativas no son las mismas para el componente de
conteo que para el componente cero inflado. Se realiza una nueva estimación con las
variables significativas (tabla 4.17).
Con este último modelo se predicen los valores de Pcorona los cuales se muestran
en la figura 4.12.
Luego se ajusta un modelo Hurdle Binomial Negativo, siendo las variable significa-
tivas al 10 % tramo etario, sexo, institución médica colectiva, fuma e INSE para el
componente de conteo y región, tramo etario, estudio universitario, consume mate,
fuma e INSE para el componente cero inflado.
Las variables significativas son las mismas que en el modelo Cero Inflado Binomial
Negativo en ambos componentes. Se estima un modelo Hurdle con estas variables que
56 56
4.2. Variable Pcorona (Corona perdida)
se muestra en la tabla 4.18, luego se predicen los valores para Pcorona y se comparan
en la tabla 4.12. Los dos modelos predicen valores muy similares y cercanos a los
empı́ricos.
Componente Hurdle
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.632 0.360 1.756 0.079
Región-Montevideo -0.340 0.151 -2.257 0.024
Tramo Etario-de 35 a 44 2.526 0.194 13.02 < 2e-16
Tramo Etario-de 65 a 74 4.083 0.333 12.24 < 2e-16
Estudio Universitario-No 0.679 0.203 3.343 0.001
Consume Mate-No -0.604 0.165 -3.652 2.60e-04
Fuma-No -0.575 0.164 -3.502 4.61e-04
INSE -0.024 0.006 -3.825 1.31e-04
Componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.363 0.110 12.44 < 2e-16
Tramo Etario-de 35 a 44 1.518 0.068 22.39 < 2e-16
Tramo Etario-de 65 a 74 2.132 0.071 29.88 < 2e-16
Sexo-M -0.173 0.050 -3.433 0.001
Institución Médica-No 0.175 0.054 3.256 0.001
Fuma-No -0.149 0.059 -2.510 0.012
INSE -0.013 0.002 -6.496 8.26e-11
57
CAPÍTULO 4. RESULTADOS
Figura 4.12: Valores Observados vs. Valores Estimados Cero Inflado y Valores Estimados
Hurdle
Se analiza la validez del modelo a través de los promedios y varianzas de sus erro-
res, las cuales son para el modelo Cero Inflado Binomial Negativo e˜ZI = 0,036
y Cov(e, ŷ) = −2,29 y para el modelo Hurdle Binomial Negativo e˜H = 0,037 y
Cov(eH , ŷH ) = −2,45.
Luego, para evaluar la calidad del ajuste de estos modelos se calculan los errores con
la ecuación (2.1), el cual es 3.613 para el modelo Cero Inflado Binomial Negativo y
3.634 para el modelo Hurdle Binomial Negativo, y se realiza el test pseudo − R2 que
da un valor de 0.16736 para el modelo Cero Inflado Binomial Negativo y 0.16733
para el modelo Hurdle Binomial Negativo, ası́ como el AIC es 6258.69 para el modelo
Cero Inflado y 6258.86 para el modelo Hurdle. En los tres casos el modelo Cero
Inflado Binomial Negativo muestra mejores resultados, aunque los indicadores son
muy similares para ambos modelos.
58 58
4.3. Variable Ocorona (Corona obturada)
Se trabaja con datos sin valores faltantes, por lo que para la variable Ocorona se
tiene un total de 1469 individuos. Esta variable toma valores de 0 a 31, tiene media
2.39 y varianza 12.63, por lo que su varianza es 5.28 veces su media. Los datos se
encuentran concentrados en el valor cero, decreciendo hacia el valor máximo, 31,
como se puede ver en la figura 4.13.
59
CAPÍTULO 4. RESULTADOS
Al igual que las variables a explicar anteriores, ésta también es una variable de
conteo por lo que se intentan ajustar las distribuciones Poisson y Binomial Negativa,
como se muestra en el gráfico 4.14. Se puede ver que estas dos distribuciones no se
ajustan correctamente a la variable Ocorona, por lo que se ajustan modelos de dos
componentes.
60 60
4.3. Variable Ocorona (Corona obturada)
En las figuras 4.15 y 4.16 se muestran los ajustes de los modelos Cero Inflado Bino-
mial Negativo y Hurdle Binomial Negativo.
61
CAPÍTULO 4. RESULTADOS
Se puede notar que el número de personas que no tienen dientes obturados es mayor
si no tienen estudios universitarios que si lo tienen, ası́ como el 75 % de las personas
que no tienen estudios universitarios tienen 3 o menos dientes obturados, y el 75 % de
las que tienen estudios universitarios tienen 6 o menos dientes obturados, esto es las
personas que no tienen estudios universitarios tienen un número menor de dientes
obturados. Lo mismo sucede con las personas según si tienen institución médica
colectiva, el 75 % de las personas que tienen institución médica colectiva tienen 5 o
menos dientes obturados, y el 75 % de las que no tienen institución médica colectiva
tienen 2 o menos dientes obturados.
62 62
4.3. Variable Ocorona (Corona obturada)
Figura 4.17
63
CAPÍTULO 4. RESULTADOS
64 64
4.3. Variable Ocorona (Corona obturada)
Se observa que las variables significativas para el componente binario no son las
mismas que para el componente de conteo. Con estas variables se realiza una nueva
estimación que se puede ver en la tabla 4.26.
Con esta estimación se predicen los valores de Ocorona cuyo resultado se muestra
en la figura 4.18.
Luego se ajusta un modelo Hurdle Binomial Negativo, en el cual las variables signi-
ficativas al 10 % son: para el componente binario tramo etario, sexo, estudio univer-
sitario, institución médica colectiva, fuma e INSE, y para el componente de conteo
tramo etario, sexo, institución médica colectiva e INSE.
Las variables significativas no son las mismas para el componente binario que para
el componente de conteo, pero son las mismas que en el modelo Cero Inflado. Con
estas variables se realiza una nueva estimación (tabla 4.27) con la cual se predicen
los valores de Ocorona y se comparan con los empı́ricos.
65
CAPÍTULO 4. RESULTADOS
Componente Hurdle
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) -0.467 0.328 -1.424 0.154
Tramo Etario-de 35 a 44 1.133 0.149 7.625 2.44e-14
Tramo Etario-de 65 a 74 -0.253 0.137 -1.842 0.065
Sexo-M -0.334 0.117 -2.857 0.004
Estudio Universitario-No -0.512 0.161 -3.187 0.001
Institución Médica-No -0.570 0.123 -4.622 3.80e-06
Fuma-No 0.405 0.136 2.974 0.002
INSE 0.023 0.005 4.276 1.90e-05
Componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.628 0.128 4.894 9.88e-07
Tramo Etario-de 35 a 44 0.716 0.077 9.257 < 2e-16
Tramo Etario-de 65 a 74 0.560 0.088 6.370 1.88e-10
Sexo-M -0.164 0.069 -2.385 0.017
Institución Médica-No -0.254 0.079 -3.219 0.001
INSE 0.012 0.002 5.090 3.59e-07
Los dos modelos predicen valores muy similares y cercanos a los empı́ricos como se
puede ver en la figura 4.18.
66 66
4.3. Variable Ocorona (Corona obturada)
Figura 4.18: Valores Observados vs. Valores Estimados Cero Inflado y Valores Estimados
Hurdle
Las diferencias en las cantidades totales estimadas con las reales se debe a que son
la suma de probabilidades de cada individuo de tener cierta cantidad de dientes
obturados.
A través de los residuos se analiza la validez del modelo, viendo sus medidas de
resumen. Estos son e˜ZI = 0,0206 y Cov(e, ŷ) = 0,31 y para el modelo Hurdle
Binomial Negativo e˜H = 0,0210 y Cov(eH , ŷH ) = 0,28.
Para evaluar la calidad de ajuste de los modelos se calculan los errores a través de
la ecuación (2.1), el cual da un valor de 2.20 para el modelo Cero Inflado Binomial
Negativo y 2.21 para el modelo Hurdle Binomial Negativo, el test pseudo − R2 da un
valor de 0.0691 para el modelo Cero Inflado y 0.0687 para el modelo Hurdle y el AIC
da un valor de 5340 para el modelo Cero Inflado y 5342 para el modelo Hurdle. En
67
CAPÍTULO 4. RESULTADOS
los tres casos el modelo Cero Inflado Binomial Negativo muestra mejores resultados,
aunque los indicadores son muy similares para ambos modelos.
68 68
4.4. CPOcorona
4.4. CPOcorona
69
CAPÍTULO 4. RESULTADOS
4.5. Resumen
Para estos modelos se concluye que a mayor tramo etario, el peso del compo-
nente binario para los dos modelos disminuye. Lo mismo ocurre si el individuo
no tiene estudios universitarios, fuma o toma mate. Por el contrario esta pro-
babilidad aumenta a mayores valores de INSE y si el encuestado pertenece a
Montevideo.
Por medio del componente de conteo se observa también que a medida que
cambia el tramo etario, el logaritmo del valor esperado de dientes perdidos
aumenta, de la misma manera que se concluyó para el componente binario.
Este valor también aumenta si el encuestado es de sexo femenino, o no cuenta
con institución médica o fuma, ası́ como disminuye a mayores valores de INSE.
Con respecto a la variable Ocorona, ocurre lo mismo que con la variable Pco-
rona: no es posible seleccionar entre los modelos Hurdle Binomial Negativo y
Cero Inflado Binomial Negativo dada la similitud en los indicadores de bondad
70 70
4.5. Resumen
71
CAPÍTULO 4. RESULTADOS
72 72
Capı́tulo 5
Conclusiones
Para este modelo, un coeficiente positivo aumenta el logaritmo del número de caries,
por lo que si el encuestado no tiene estudios universitarios, no cuenta con institución
médica, fuma o consume mate, este logaritmo aumenta. Por el contrario, a mayores
valores de INSE, este logaritmo disminuye.
Para esta variable se encontró que con modelos Cero Inflado Binomial Negativo y
Hurdle Binomial Negativo se logra el mejor ajuste de la distribución a los datos,
73
CAPÍTULO 5. CONCLUSIONES
siendo ambos ajustes muy similares. Además también se observa que las variables
que explican los 2 modelos en sus 2 componentes son las mismas.
Las variables que resultaron significativas para el componente binario para esta
variable son tramo etario, estudios universitarios, fuma, toma mate, región e INSE.
Además, para el componente de conteo las variables signifiativas son tramo etario,
sexo, institución médica, fuma e INSE.
Al igual que para la variable Pcorona, para Ocorona se considera el ajuste con las
distribuciones Hurdle BN y Cero Inflado BN. Ambos modelos producen ajustes muy
similares. Además las variables que explican los 2 modelos en sus 2 componentes son
las mismas.
En el componente binario las variables significativas son tramo etario, sexo, estudios
universitarios, institución médica, fuma e INSE.
Para el componente binario las variables significativas son tramo etario, sexo, insti-
tución médica e INSE.
Se encontró que las variables que explican el comportamiento de uno de los compo-
nentes del ı́ndice CPO no son las mismas que las que explican el comportamiento
de los otros.
Consideraciones a Futuro
Como futuros pasos se propone:
74 74
5.4. Conclusiones generales
75
CAPÍTULO 5. CONCLUSIONES
76 76
Bibliografı́a
[8] Jackman, S. (2015). pscl: Classes and Methods for R Developed in the Political
Science Computational Laboratory, Stanford University. Department of Political
Science, Stanford University, Stanford, California. R package version 1.4.9.
[9] Klein, H., Palmer, C. E., and Knutson, J. W. (1938). Studies on dental caries:
I. dental status and dental needs of elementary school children. Public Health
Reports (1896-1970), 53(19):751.
[11] Leiva, V., Hernández, H., and Sanhueza, A. (2008). An R Package for a general
class of inverse gaussian distributions. Journal of Statistical Software, 26(4).
[12] Lorenzo, S., Álvarez Vaz, R., and Blanco, S. amd Pérez, M. (2013). Primer re-
77
BIBLIOGRAFÍA
[15] Meyer, D., Zeileis, A., and Hornik, K. (2016). vcd: Visualizing Categorical Data.
R package version 1.4-3.
[19] R Core Team (2016). R: A Language and Environment for Statistical Compu-
ting. R Foundation for Statistical Computing, Vienna, Austria.
[24] Velasco Vázquez, M. (2008). Un Modelo de Regresió Poisson Inflado con Ceros
para Analizar datos de un Experimento de Fungicidas en Jitomate. PhD thesis,
Universidad Veracruzana, Facultad de Estadı́stica e Informática.
78 78
Bibliografı́a
[27] Yee, T. W. (2015). Vector Generalized Linear and Additive Models: With an
Implementation in R. Springer, New York, USA.
[28] Zeileis, A. (2004a). Econometric computing with hc and hac covariance matrix
estimators. Journal of Statistical Software, 11(10):1–17.
[29] Zeileis, A. (2004b). Econometric computing with hc and hac covariance matrix
estimators. Journal of Statistical Software, 11(1):1–17.
[31] Zeileis, A., Kleiber, C., and Jackman, S. (2008). Regression models for count
data in r. Journal of Statistical Software, 27(1):1–25.
[32] Zha, L. (2014). The poisson inverse gaussian (pig) generalized linear regres-
sion model for analyzing motor vehicle crash data. Zachry Department of Civil
Engineering, Texas A&M University.
79
BIBLIOGRAFÍA
80 80
Lista de Abreviaturas
(N-R) Newton-Rapson
81
BIBLIOGRAFÍA
(Q-P) Quasi-Poisson
82 82
Apéndice A
l o a d ( ’ d a t o s o d o n t o . RData ’ )
# CARGAMOS LIBRERIAS #
library ( pscl )
l i b r a r y ( sandwich )
library ( lmtest )
l i b r a r y (MASS)
l i b r a r y ( gamlss )
l i b r a r y ( boot )
l i b r a r y (VGAM)
l i b r a r y ( vcd )
library ( xtable )
l i b r a r y ( rcompanion )
#################################################
## CREAMOS MATRIZ DE DATOS SIN DATOS FALTANTES ##
d a t o s=d a t o s . odonto [ , c ( 8 , 1 3 , 1 4 , 1 6 , 3 1 , 5 3 , 5 6 , 2 2 1 , 2 2 4 , 2 2 6 , 2 2 8 , 2 3 8 , 2 3 9 ) ]
l e v e l s ( d a t o s $ e s t u n i v e r s )=c ( ” s i ” , ” no ” ,NA)
l e v e l s ( datos$fuma )=c ( ” s i ” , ” no ” ,NA)
datos$n5consumem=a s . f a c t o r ( datos$n5consumem )
l e v e l s ( datos$n5consumem )=c ( ” s i ” , ” no ” ,NA)
a=c o m p l e t e . c a s e s ( d a t o s [ , c ( 1 : 8 , 1 3 ) ] )
regionCSF=d a t o s $ r e g i o n [ a ]
tramo etaCSF=d a t o s $ t r a m o e t a [ a ]
sexoCSF=d a t o s $ s e x o [ a ]
e s t u n i v e r s C S F=d a t o s $ e s t u n i v e r s [ a ]
i n s t i t u c i n C S F=a s . f a c t o r ( d a t o s $ i n s t i t u c i n [ a ] )
n5consumemCSF=a s . f a c t o r ( datos$n5consumem [ a ] )
fumaCSF=datos$fuma [ a ]
ccoronaCSF=d a t o s $ c c o r o n a [ a ]
inseCSF=d a t o s $ i n s e [ a ]
83
APÉNDICE A. SCRIPT DE VARIABLE CCORONA
summary ( datosCSF )
l e n g t h ( datosCSF$regionCSF )
l e n g t h ( datosCSF$tramo etaCSF )
l e n g t h ( datosCSF$sexoCSF )
length ( datosCSF$est universCSF )
length ( datosCSF$institucinCSF )
l e n g t h ( datosCSF$n5consumemCSF )
l e n g t h ( datosCSF$fumaCSF )
l e n g t h ( datosCSF$ccoronaCSF )
l e n g t h ( datosCSF$inseCSF )
################################################
## VEO S I CPOCORONA = CCORONA+PCORONA+OCORONA ##
CPOc=d a t o s $ c p o c o r o n a [ a ]
Pc=d a t o s $ p c o r o n a [ a ]
Oc=d a t o s $ o c o r o n a [ a ]
sum (CPOc)
sum ( ccoronaCSF )+sum ( Pc )+sum ( Oc )
#################################################
#############################
## ESTADISTICA DESCRIPTIVA ##
#############################
summary ( datosCSF )
summary ( datosCSF$ccoronaCSF )
t a b l e ( datosCSF$ccoronaCSF )
par ( mfrow=c ( 1 , 2 ) )
p l o t ( t a b l e ( datosCSF$ccoronaCSF ) , , y l a b=”F r e c u e n c i a ” , x l a b=”Ccorona ” , c o l =”r e d ” )
b o x p l o t ( datosCSF$ccoronaCSF , x l a b=”Ccorona ” , y l a b =””)
# MEDIA Y VARIANZA #
mean ( datosCSF$ccoronaCSF )
v a r ( datosCSF$ccoronaCSF )
#######################################################
## AJUSTE DE DISTRIBUCIONES A LA VARIABLE A EXPLICAR ##
#######################################################
## Ajustamos p o s i b l e s d i s t r i b u c i o n e s a l a v a r i a b l e a e x p l i c a r dada l a n a t u r a l e z a de
l o s d a t o s ##
# POISSON #
ycp= f i t d i s t r ( datosCSF$ccoronaCSF , ” p o i s s o n ” )
lambda=y c p $ e s t i m a t e [ 1 ] ) , t y p e=” l ” , c o l =”r e d ” , x l a b=”Y” , y l a b=”f Y ( y ) ” )
h i s t D i s t ( datosCSF$ccoronaCSF , ”PO” , d e n s i t y=TRUE, main=””)
# BINOMIAL NEGATIVA #
ycbn= f i t d i s t r ( datosCSF$ccoronaCSF , ” n e g a t i v e b i n o m i a l ” )
h i s t D i s t ( datosCSF$ccoronaCSF , ” NBII ” , d e n s i t y=TRUE, main=””)
84 84
# PIG #
y c p i g=g a m l s s ( datosCSF$ccoronaCSF ˜ 1 , f a m i l y=PIG )
h i s t D i s t ( datosCSF$ccoronaCSF , ” PIG ” , d e n s i t y=TRUE, main=””)
# HURDLE POISSON #
h i s t D i s t ( datosCSF$ccoronaCSF , ”ZAP” , d e n s i t y=TRUE, main=””)
# HURDLE PIG #
h i s t D i s t ( datosCSF$ccoronaCSF , ” ZAPIG” , d e n s i t y=TRUE, main =””)
## ERRORES ##
## Calculamos e r r o r e s a b s o l u t o s y r e l a t i v o s de l a d i s t r i b u c i o n
## E r r o r a b s o l u t o
#suma de v a l o r a b s o l u t o ( y − y g o r r o ) /n
#POIS#
nC=l e n g t h ( datosCSF$ccoronaCSF )
# Se c a l c u l a y g o r r o
p r o b p o i s C=d p o i s ( min ( datosCSF$ccoronaCSF ) : max( datosCSF$ccoronaCSF ) , lambda=
ycp$estimate [ 1 ] )
y g o r p o i s C=round (nC∗ p r o b p o i s C )
tablaCCP=c ( tablaCC , y g o r p o i s C )
# BINOMIAL NEGATIVA
# y gorro
probbnC=dnbinom ( min ( datosCSF$ccoronaCSF ) : max( datosCSF$ccoronaCSF ) , s i z e=
y c b n $ e s t i m a t e [ 1 ] , mu=y c b n $ e s t i m a t e [ 2 ] )
ygorbnC=round (nC∗ probbnC )
# Poisson #
c h i C p o i s=g o o d f i t ( datosCSF$ccoronaCSF , t y p e=” p o i s s o n ” , method=”MinChisq ” )
summary ( c h i C p o i s )
# Binomial Negativo #
chiCbn=g o o d f i t ( datosCSF$ccoronaCSF , t y p e=”n b i n o m i a l ” , method=”MinChisq ” )
summary ( chiCbn )
##AIC##
85
APÉNDICE A. SCRIPT DE VARIABLE CCORONA
AIC ( ycp )
AIC ( ycbn )
##BIC##
BIC ( ycp )
BIC ( ycbn )
#####################################################################
#################################
##### PROBAMOS MODELOS ####
#################################
# b o x p l o t de c c o r o n a y de c c o r o n a con l a s v a r i a b l e s e x p l i c a t i v a s #
par ( mfrow=c ( 3 , 3 ) )
b o x p l o t ( datosCSF$ccoronaCSF , x l a b=”Ccorona ” , b o r d e r=”dark r e d ” )
b o x p l o t ( datosCSF$ccoronaCSF ˜ datosCSF$regionCSF , x l a b=”Region ” , b o r d e r=c ( ” dark b l u e
” , ” dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜ datosCSF$tramo etaCSF , x l a b=”Tramo e t a r i o ” , b o r d e r=c ( ”
dark b l u e ” , ” dark g r e e n ” , ” p u r p l e ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜ datosCSF$sexoCSF , x l a b=”Sexo ” , b o r d e r=c ( ” dark b l u e ” , ”
dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜ d a t o s C S F $ e s t u n i v e r s C S F , x l a b=”E s t u d i o U n i v e r s i t a r i o ” ,
b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜ d a t o s C S F $ i n s t i t u c i n C S F , x l a b=” I n s t i t u c i o n Medica ” ,
b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜datosCSF$n5consumemCSF , x l a b=”Consume mate ” , b o r d e r=c ( ”
dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosCSF$ccoronaCSF ˜datosCSF$fumaCSF , x l a b=”Fuma” , b o r d e r=c ( ” dark b l u e ” , ” dark
green ”) )
p l o t ( datosCSF$inseCSF , datosCSF$ccoronaCSF , x l a b=”INSE ” , c e x = 0 . 8 , c o l =”dark b l u e ” )
# Sacamos v a r i a b l e s no s i g n i f i c a t i v a s #
bnC2=glm . nb ( datosCSF$ccoronaCSF ˜ d a t o s C S F $ e s t u n i v e r s C S F+d a t o s C S F $ i n s t i t u c i n C S F+
datosCSF$n5consumemCSF+datosCSF$fumaCSF+
datosCSF$inseCSF , data=datosCSF )
summary ( bnC2 )
86 86
HURBNC2=h u r d l e ( datosCSF$ccoronaCSF ˜ d a t o s C S F $ e s t u n i v e r s C S F+d a t o s C S F $ i n s t i t u c i n C S F+
datosCSF$fumaCSF+datosCSF$inseCSF | d a t o s C S F $ i n s t i t u c i n C S F+datosCSF$n5consumemCSF
+datosCSF$fumaCSF+datosCSF$inseCSF , data=datosCSF , d i s t =”n e g b i n ” )
summary (HURBNC2)
##############################
## VALIDACION Y DIAGNOSTICO ##
##############################
par ( mfrow=c ( 2 , 1 ) )
# V a l i d a c i o n d e l modelo B i n o m i a l N e g a t i v o #
cov ( b n C 2 $ f i t t e d , b n C 2 $ r e s i d u a l s )
mean ( b n C 2 $ r e s i d u a l s )
p l o t ( b n C 2 $ r e s i d u a l s , y l i m=c ( −2 ,15) , c e x = 0 . 5 , c o l =”dark b l u e ” )
p l o t ( r e s i d u a l s ( bnC2 )− f i t t e d ( bnC2 ) , c o l =”dark g r e e n ” )
# V a l i d a c i o n d e l modelo Hurdle B i n o m i a l N e g a t i v o #
cov ( HURBNC2$fitted , b n C 2 $ r e s i d u a l s )
mean ( HURBNC2$residuals )
p l o t ( HURBNC2$residuals , y l i m=c ( −2 ,15) , c e x = 0 . 5 , c o l =”dark b l u e ” )
p l o t ( r e s i d u a l s (HURBNC2)− f i t t e d (HURBNC2) , c o l =”dark g r e e n ” )
#####E r r o r a b s o l u t o#####
#Suma de ( v a l o r a b s o l u t o de y − y e s t i m a d o ) s o b r e n
#B i n o m i a l N e g a t i v a#
ajusteBNC=f i t t e d ( bnC2 )
ygormbnC=round ( ajusteBNC )
errBNajusC=s e q ( 1 , 1 4 6 6 )
for ( i in 1:1466) {
errBNajusC [ i ]= abs ( datosCSF$ccoronaCSF [ i ]−ygormbnC [ i ] )
}
ErrorBinomNegatC=sum ( errBNajusC ) / l e n g t h ( ygormbnC )
#pseudo−R2#
n a g e l k e r k e ( bnC2 )
AIC ( bnC2 )
#Hurdle BN#
ajusteHURC=f i t t e d (HURBNC2)
ygormHC=round ( ajusteHURC )
errHURajusC=s e q ( 1 , 1 4 6 6 )
87
APÉNDICE A. SCRIPT DE VARIABLE CCORONA
for ( i in 1:1466) {
errHURajusC [ i ]= abs ( datosCSF$ccoronaCSF [ i ]−ygormHC [ i ] )
}
ErrorHurdleC=sum ( errHURajusC ) / l e n g t h ( ygormHC )
#psudoR2#
ModC1=update (HURBNC2, . ˜ 1 )
LIC=l o g L i k (ModC1)
LFC=l o g L i k (HURBNC2)
pR2C=1−(LFC/LIC )
pR2C
AIC (HURBNC2)
#V a l i d a c i o n c r u z a d a
#BN#
#muestra
set . seed (71)
muestraC=sample ( 1 : 1 4 6 6 , 1 0 0 0 , r e p l a c e=FALSE)
muestrapruebaC=datosCSF [ muestraC , ]
#B i n o m i a l N e g a t i v a#
BNCvalid=glm . nb ( muestrapruebaC$ccoronaCSF ˜ m u e s t r a p r u e b a C $ e s t u n i v e r s C S F+
m u e s t r a p r u e b a C $ i n s t i t u c i n C S F+muestrapruebaC$n5consumemCSF+
muestrapruebaC$fumaCSF+
muestrapruebaC$inseCSF , data=muestrapruebaC )
summary ( BNCvalid )
summary ( bnC2 )
#Cp=sum ( round ( p r e d i c t ( BNCvalid , newdata=muestrapruebaC , t y p e=” r e s p o n s e ” ) ) ==1)
#Hurdle B i n o m i a l N e g a t i v a#
HBNCvalid=h u r d l e ( muestrapruebaC$ccoronaCSF ˜ m u e s t r a p r u e b a C $ e s t u n i v e r s C S F+
m u e s t r a p r u e b a C $ i n s t i t u c i n C S F+muestrapruebaC$fumaCSF+muestrapruebaC$inseCSF |
m u e s t r a p r u e b a C $ i n s t i t u c i n C S F+muestrapruebaC$n5consumemCSF+
muestrapruebaC$fumaCSF+muestrapruebaC$inseCSF , d i s t =”n e g b i n ” , data=muestrapruebaC
)
summary ( HBNCvalid )
summary (HURBNC2)
#P r e d i c c i o n
muestrapruebaC=datosCSF [− c ( muestraC ) , ]
88 88
Apéndice B
l o a d ( ’ d a t o s o d o n t o . RData ’ )
# CARGAMOS LIBRERIAS #
library ( pscl )
l i b r a r y ( sandwich )
library ( lmtest )
l i b r a r y (MASS)
l i b r a r y ( gamlss )
l i b r a r y ( boot )
l i b r a r y (VGAM)
l i b r a r y ( vcd )
library ( xtable )
l i b r a r y ( rcompanion )
#################################################
## CREAMOS MATRIZ DE DATOS SIN DATOS FALTANTES ##
d a t o s=d a t o s . odonto [ , c ( 8 , 1 3 , 1 4 , 1 6 , 3 1 , 5 3 , 5 6 , 2 2 1 , 2 2 4 , 2 2 6 , 2 2 8 , 2 3 8 , 2 3 9 ) ]
l e v e l s ( d a t o s $ e s t u n i v e r s )=c ( ” s i ” , ” no ” ,NA)
l e v e l s ( datos$fuma )=c ( ” s i ” , ” no ” ,NA)
datos$n5consumem=a s . f a c t o r ( datos$n5consumem )
l e v e l s ( datos$n5consumem )=c ( ” s i ” , ” no ” ,NA)
b=c o m p l e t e . c a s e s ( d a t o s [ , c ( 1 : 7 , 9 , 1 3 ) ] )
regionPSF=d a t o s $ r e g i o n [ b ]
tramo etaPSF=d a t o s $ t r a m o e t a [ b ]
sexoPSF=d a t o s $ s e x o [ b ]
e s t u n i v e r s P S F=d a t o s $ e s t u n i v e r s [ b ]
i n s t i t u c i n P S F=a s . f a c t o r ( d a t o s $ i n s t i t u c i n [ b ] )
n5consumemPSF=a s . f a c t o r ( datos$n5consumem [ b ] )
fumaPSF=datos$fuma [ b ]
pcoronaPSF=d a t o s $ p c o r o n a [ b ]
insePSF=d a t o s $ i n s e [ b ]
89
APÉNDICE B. SCRIPT DE VARIABLE PCORONA
#El 32 e s un problema , s e e l i m i n a n de l a m a t r i z de d a t o s#
datosPSF=datosPSF [− which(32==datosPSF$pcorona ) , ]
summary ( datosPSF )
l e n g t h ( datosPSF$regionPSF )
l e n g t h ( datosPSF$tramo etaPSF )
l e n g t h ( datosPSF$sexoPSF )
length ( datosPSF$est universPSF )
length ( datosPSF$institucinPSF )
l e n g t h ( datosPSF$n5consumemPSF )
l e n g t h ( datosPSF$fumaPSF )
l e n g t h ( datosPSF$pcoronaPSF )
l e n g t h ( datosPSF$insePSF )
#############################
## ESTADISTICA DESCRIPTIVA ##
#############################
# MEDIA Y VARIANZA #
mean ( datosPSF$pcoronaPSF )
v a r ( datosPSF$pcoronaPSF )
#######################################################
## AJUSTE DE DISTRIBUCIONES A LA VARIABLE A EXPLICAR ##
#######################################################
## Ajustamos p o s i b l e s d i s t r i b u c i o n e s a l a v a r i a b l e a e x p l i c a r dada l a n a t u r a l e z a de
l o s d a t o s ##
par ( mfrow=c ( 1 , 3 ) )
#POISSON#
ypp= f i t d i s t r ( datosPSF$pcoronaPSF , ” p o i s s o n ” )
h i s t D i s t ( datosPSF$pcoronaPSF , ”PO” , d e n s i t y=TRUE, main=”A j u s t e P o i s s o n ” )
# BINOMIAL NEGATIVA #
ypbn= f i t d i s t r ( datosPSF$pcoronaPSF , ” n e g a t i v e b i n o m i a l ” )
h i s t D i s t ( datosPSF$pcoronaPSF , ” NBII ” , d e n s i t y=TRUE, main=”A j u s t e B i n o m i a l N e g a t i v o ” )
# PIG #
y p p i g=g a m l s s ( datosPSF$pcoronaPSF ˜ 1 , f a m i l y=PIG )
h i s t D i s t ( datosPSF$pcoronaPSF , ” PIG ” , d e n s i t y=TRUE, main=”A j u s t e PIG ” )
90 90
h i s t D i s t ( datosPSF$pcoronaPSF , ” ZINBI ” , d e n s i t y=TRUE, main=””)
#HURDLE POISSON#
h i s t D i s t ( datosPSF$pcoronaPSF , ”ZAP” , d e n s i t y=TRUE)
# HURDLE PIG #
h i s t D i s t ( datosPSF$pcoronaPSF , ” ZAPIG” , d e n s i t y=TRUE, main=””)
#####################################################################
#################################
##### PROBAMOS MODELOS ####
#################################
# b o x p l o t de c c o r o n a y de c c o r o n a con l a s v a r i a b l e s e x p l i c a t i v a s #
par ( mfrow=c ( 3 , 3 ) )
b o x p l o t ( datosPSF$pcoronaPSF , x l a b=”Pcorona ” , b o r d e r=”dark r e d ” )
b o x p l o t ( datosPSF$pcoronaPSF ˜ datosPSF$regionPSF , x l a b=”Region ” , b o r d e r=c ( ” dark b l u e
” , ” dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ datosPSF$tramo etaPSF , x l a b=”Tramo e t a r i o ” , b o r d e r=c ( ”
dark b l u e ” , ” dark g r e e n ” , ” p u r p l e ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ datosPSF$sexoPSF , x l a b=”Sexo ” , b o r d e r=c ( ” dark b l u e ” , ”
dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ d a t o s P S F $ e s t u n i v e r s P S F , x l a b=”E s t u d i o U n i v e r s i t a r i o ” ,
b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ d a t o s P S F $ i n s t i t u c i n P S F , x l a b=” I n s t i t u c i o n Medica ” ,
b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜datosPSF$n5consumemPSF , x l a b=”Consume mate ” , b o r d e r=c ( ”
dark b l u e ” , ” dark g r e e n ” ) )
b o x p l o t ( datosPSF$pcoronaPSF ˜ datosPSF$fumaPSF , x l a b=”Fuma” , b o r d e r=c ( ” dark b l u e ” , ” dark
green ”) )
p l o t ( datosPSF$insePSF , datosPSF$pcoronaPSF , x l a b=”INSE ” , y l a b =”” , c e x = 0 . 7 , c o l =”dark
blue ”)
# Sacamos v a r i a b l e s no s i g n i f i c a t i v a s #
ZIBNP2=z e r o i n f l ( datosPSF$pcoronaPSF ˜ datosPSF$tramo etaPSF+datosPSF$sexoPSF+
d a t o s P S F $ i n s t i t u c i n P S F+datosPSF$fumaPSF+datosPSF$insePSF | datosPSF$regionPSF+
datosPSF$tramo etaPSF+d a t o s P S F $ e s t u n i v e r s P S F+
datosPSF$n5consumemPSF+datosPSF$fumaPSF+datosPSF$insePSF , data=datosPSF , d i s t =”n e g b i n
”)
summary ( ZIBNP2 )
91
APÉNDICE B. SCRIPT DE VARIABLE PCORONA
datosPSF$regionPSF+datosPSF$tramo etaPSF+datosPSF$sexoPSF+
d a t o s P S F $ e s t u n i v e r s P S F+
d a t o s P S F $ i n s t i t u c i n P S F+datosPSF$n5consumemPSF+datosPSF$fumaPSF+datosPSF$insePSF ,
data=datosPSF , d i s t =”n e g b i n ” )
summary (HURBNP)
#Sacamos v a r i a b l e no s i g n i f i c a t i v a s#
##############################
## VALIDACION Y DIAGNOSTICO ##
##############################
par ( mfrow=c ( 2 , 1 ) )
# V a l i d a c i o n d e l modelo Cero I n f l a d o B i n o m i a l N e g a t i v o #
cov ( ZIBNP2$fitted , Z I B N P 2 $ r e s i d u a l s )
mean ( Z I B N P 2 $ r e s i d u a l s )
p l o t ( Z I B N P 2 $ r e s i d u a l s , c e x = 0 . 5 , c o l =”dark b l u e ” , y l a b=”R e s i d u o s ” , x l a b =””)
p l o t ( r e s i d u a l s ( ZIBNP2 )− f i t t e d ( ZIBNP2 ) , c o l =”dark g r e e n ” , y l a b=”R e s i d u o s vs . A j u s t a d o s
” , x l a b =””)
# V a l i d a c i o n d e l modelo Hurdle B i n o m i a l N e g a t i v o #
#####E r r o r a b s o l u t o#####
#Suma de ( v a l o r a b s o l u t o de y − y e s t i m a d o ) s o b r e n
#Cero I n f l a d o#
ygorZIBNP2=round ( p r e d i c t ( ZIBNP2 ) )
nP=l e n g t h ( datosPSF$pcoronaPSF )
errZIBN2=s e q ( 1 : 1 3 5 0 )
f o r ( i i n 1 : nP ) {
errZIBN2 [ i ]= abs ( datosPSF$pcoronaPSF [ i ]−ygorZIBNP2 [ i ] )
}
ErrorZIBinNegP=sum ( errZIBN2 ) /nP
#psudoR2#
92 92
ModP1ZI=update ( ZIBNP2 , . ˜ 1 )
LIPZI=l o g L i k ( ModP1ZI )
LFPZI=l o g L i k ( ZIBNP2 )
pR2PZI=1−(LFPZI/ LIPZI )
pR2PZI
AIC ( ZIBNP2 )
#Hurdle#
ygorHURBNP2=round ( p r e d i c t (HURBNP2) )
nP=l e n g t h ( datosPSF$pcoronaPSF )
errHURBN2=s e q ( 1 : 1 3 5 0 )
f o r ( i i n 1 : nP ) {
errHURBN2 [ i ]= abs ( datosPSF$pcoronaPSF [ i ]−ygorHURBNP2 [ i ] )
}
ErrorHBinNegP=sum ( errHURBN2 ) /nP
#psudoR2#
ModP1H=update (HURBNP2, . ˜ 1 )
LIPH=l o g L i k (ModP1H)
LFPH=l o g L i k (HURBNP2)
pR2PH=1−(LFPH/LIPH )
pR2PH
AIC (HURBNP2)
##V a l i d a c i o n c r u z a d a##
#muestra
set . seed (21)
muestraP=sample ( 1 : 1 3 5 0 , 1 0 0 0 , r e p l a c e=FALSE)
muestrapruebaP=datosPSF [ muestraP , ]
#Cero I n f l a d o B i n o m i a l N e g a t i v a#
#Hurdle B i n o m i a l N e g a t i v a#
93
APÉNDICE B. SCRIPT DE VARIABLE PCORONA
}
MATPval
#P r e d i c c i o n
muestrapruebaP=datosPSF [− c ( muestraP ) , ]
94 94
Apéndice C
l o a d ( ’ d a t o s o d o n t o . RData ’ )
library ( pscl )
l i b r a r y ( sandwich )
library ( lmtest )
l i b r a r y (MASS)
l i b r a r y ( gamlss )
l i b r a r y ( x t a b l e ) #para l a s t a b l a s en chrome
l i b r a r y ( rcompanion ) #para e l pseudo R2
#################################################
## CREAMOS MATRIZ DE DATOS SIN DATOS FALTANTES ##
d a t o s=d a t o s . odonto [ , c ( 8 , 1 3 , 1 4 , 1 6 , 3 1 , 5 3 , 5 6 , 2 2 1 , 2 2 4 , 2 2 6 , 2 2 8 , 2 3 8 , 2 3 9 ) ]
l e v e l s ( d a t o s $ e s t u n i v e r s )=c ( ” s i ” , ” no ” ,NA)
l e v e l s ( datos$fuma )=c ( ” s i ” , ” no ” ,NA)
datos$n5consumem=a s . f a c t o r ( datos$n5consumem )
l e v e l s ( datos$n5consumem )=c ( ” s i ” , ” no ” ,NA)
c=c o m p l e t e . c a s e s ( d a t o s [ , c ( 1 : 7 , 1 0 , 1 2 ) ] )
regionOSF=d a t o s $ r e g i o n [ c ]
tramo etaOSF=d a t o s $ t r a m o e t a [ c ]
sexoOSF=d a t o s $ s e x o [ c ]
e s t u n i v e r s O S F=d a t o s $ e s t u n i v e r s [ c ]
i n s t i t u c i n O S F=a s . f a c t o r ( d a t o s $ i n s t i t u c i n [ c ] )
n5consumemOSF=a s . f a c t o r ( datos$n5consumem [ c ] )
fumaOSF=datos$fuma [ c ]
ocoronaOSF=a s . numeric ( d a t o s $ o c o r o n a [ c ] )
inseOSF=a s . numeric ( d a t o s $ i n s e [ c ] )
95
APÉNDICE C. SCRIPT DE VARIABLE OCORONA
summary ( datosOSF )
l e n g t h ( datosOSF$regionOSF )
l e n g t h ( datosOSF$tramo etaOSF )
l e n g t h ( datosOSF$sexoOSF )
l e n g t h ( d at o s O S F $ e s t u n i v e r sO S F )
length ( datosOSF$institucinOSF )
l e n g t h ( datosOSF$n5consumemOSF )
l e n g t h ( datosOSF$fumaOSF )
l e n g t h ( datosOSF$ocoronaOSF )
l e n g t h ( datosOSF$inseOSF )
#############################
## ESTADISTICA DESCRIPTIVA ##
#############################
# MEDIA Y VARIANZA #
mean ( datosOSF$ocoronaOSF )
v a r ( datosOSF$ocoronaOSF )
#######################################################
## AJUSTE DE DISTRIBUCIONES A LA VARIABLE A EXPLICAR ##
#######################################################
## Ajustamos p o s i b l e s d i s t r i b u c i o n e s a l a v a r i a b l e a e x p l i c a r dada l a n a t u r a l e z a de
l o s d a t o s ##
# POISSON #
yop= f i t d i s t r ( datosOSF$ocoronaOSF , ” p o i s s o n ” )
h i s t D i s t ( datosOSF$ocoronaOSF , ”PO” , d e n s i t y=TRUE, , y l a b =”” , main=”A j u s t e P o i s s o n ” )
# BINOMIAL NEGATIVA #
yobn= f i t d i s t r ( datosOSF$pcoronaOSF , ” n e g a t i v e b i n o m i a l ” )
h i s t D i s t ( datosOSF$ocoronaOSF , ” NBII ” , d e n s i t y=TRUE, , y l a b =”” , main=”A j u s t e B i n o m i a l
Negativo ”)
# PIG #
h i s t D i s t ( datosOSF$ocoronaOSF , ” PIG ” , d e n s i t y=TRUE, , y l a b =”” , main=”A j u s t e PIG ” )
# HURDLE POISSON #
h i s t D i s t ( datosOSF$ocoronaOSF , ”ZAP” , d e n s i t y=TRUE)
96 96
# HURDLE BINOMIAL NEGATIVA #
h i s t D i s t ( datosOSF$ocoronaOSF , ” ZANBI” , d e n s i t y=TRUE, main=””)
#####################################################################
#################################
##### PROBAMOS MODELOS ####
#################################
# b o x p l o t de o c o r o n a y de o c o r o n a con l a s v a r i a b l e s e x p l i c a t i v a s #
par ( mfrow=c ( 3 , 3 ) )
b o x p l o t ( datosOSF$ocoronaOSF , b o r d e r=”dark r e d ” , x l a b=”Ocorona ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$regionOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) ,
x l a b=”Region ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$tramo etaOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n
” , ” p u r p l e ” ) , x l a b=”Tramo E t a r i o ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$sexoOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) ,
x l a b=”Sexo ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$est universOSF , b o r d e r=c ( ” dark b l u e ” , ” dark
g r e e n ” ) , x l a b=”E s t u d i o U n i v e r s i t a r i o ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜ d a t o s O S F $ i n s t i t u c i n O S F , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n
” ) , x l a b=” I n s t i t u c i o n Medica ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜datosOSF$n5consumemOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n
” ) , x l a b=”Consume Mate ” )
b o x p l o t ( datosOSF$ocoronaOSF ˜datosOSF$fumaOSF , b o r d e r=c ( ” dark b l u e ” , ” dark g r e e n ” ) ,
x l a b=”Fuma” )
p l o t ( datosOSF$ocoronaOSF ˜ datosOSF$inseOSF , c e x = 0 . 6 , c o l =”dark b l u e ” , x l a b=”INSE ” )
# Sacamos v a r i a b l e s no s i g n i f i c a t i v a s #
97
APÉNDICE C. SCRIPT DE VARIABLE OCORONA
summary (HURBNO2)
##############################
## VALIDACION Y DIAGNOSTICO ##
##############################
par ( mfrow=c ( 2 , 1 ) )
# V a l i d a c i o n d e l modelo Cero I n f l a d o B i n o m i a l N e g a t i v o #
cov ( ZIBNO2$fitted , Z I B N O 2 $ r e s i d u a l s )
mean ( Z I B N O 2 $ r e s i d u a l s )
p l o t ( ZIBNO2$residuals , c e x = 0 . 5 , c o l =”dark b l u e ” , x l a b =”” , y l a b=”R e s i d u o s ” )
p l o t ( r e s i d u a l s (ZIBNO2)− f i t t e d (ZIBNO2) , c o l =”dark g r e e n ” , x l a b =”” , y l a b=”R e s i d u o s vs
Ajustados ”)
par ( mfrow=c ( 2 , 1 ) )
# V a l i d a c i o n d e l modelo Hurdle B i n o m i a l N e g a t i v o #
# E r r o r e s de p r e d i c c i o n #
# Error absoluto
# Suma de ( v a l o r a b s o l u t o de y − y e s t i m a d o ) s o b r e n
# Cero I n f l a d o #
ygorZIBNO2=round ( p r e d i c t (ZIBNO2) )
nO=l e n g t h ( datosOSF$ocoronaOSF )
errZIBNO2=s e q ( 0 , 1 4 6 8 )
f o r ( i i n 1 : nO) {
errZIBNO2 [ i ]= abs ( datosOSF$ocoronaOSF [ i ]−ygorZIBNO2 [ i ] )
}
sum ( errZIBNO2 ) /nO
#psudoR2#
ModO1ZI=update (ZIBNO2 , . ˜ 1 )
LIOZI=l o g L i k ( ModO1ZI )
LFOZI=l o g L i k (ZIBNO2)
pR2OZI=1−(LFOZI/ LIOZI )
pR2OZI
AIC ( LFOZI )
# Hurdle #
ygorHURBNO2=round ( p r e d i c t (HURBNO2) )
98 98
nO=l e n g t h ( datosOSF$ocoronaOSF )
errHURBNO2=s e q ( 0 , 1 4 6 8 )
for ( i in 1:1469) {
errHURBNO2 [ i ]= abs ( datosOSF$ocoronaOSF [ i ]−ygorHURBNO2 [ i ] )
}
sum (errHURBNO2) /nO
#psudoR2#
ModO1H=update (HURBNO2, . ˜ 1 )
LIOH=l o g L i k (ModO1H)
LFOH=l o g L i k (HURBNO2)
pR2OH=1−(LFOH/LIOH)
pR2OH
AIC (HURBNO2)
## V a l i d a c i o n c r u z a d a ##
#muestra
set . seed (512)
muestraO=sample ( 1 : 1 3 5 0 , 1 0 0 0 , r e p l a c e=FALSE)
muestrapruebaO=datosOSF [ muestraO , ]
# Hurdle #
BNHUROvalid=h u r d l e ( muestrapruebaO$ocoronaOSF ˜ muestrapruebaO$tramo etaOSF+
muestrapruebaO$sexoOSF+m u e s t r a p r u e b a O $ i n s t i t u c i n O S F+
muestrapruebaO$inseOSF | muestrapruebaO$tramo etaOSF+muestrapruebaO$sexoOSF+
m u e s t r a p r u e b a O $ e s t u n i v e r s O S F+
m u e s t r a p r u e b a O $ i n s t i t u c i n O S F+muestrapruebaO$fumaOSF+muestrapruebaO$inseOSF , data=
muestrapruebaO , d i s t =”n e g b i n ” )
summary ( BNHUROvalid )
# Cero I n f l a d o #
BNZIOvalid=z e r o i n f l ( muestrapruebaO$ocoronaOSF ˜ muestrapruebaO$tramo etaOSF+
muestrapruebaO$sexoOSF+m u e s t r a p r u e b a O $ i n s t i t u c i n O S F+
muestrapruebaO$inseOSF | muestrapruebaO$tramo etaOSF+muestrapruebaO$sexoOSF+
m u e s t r a p r u e b a O $ e s t u n i v e r s O S F+
m u e s t r a p r u e b a O $ i n s t i t u c i n O S F+muestrapruebaO$fumaOSF+muestrapruebaO$inseOSF , data=
muestrapruebaO , d i s t =”n e g b i n ” )
summary ( BNZIOvalid )
# Observados vs . P r e d i c h o s #
# Prediccion #
muestrapruebaO=datosOSF[− c ( muestraO ) , ]
99
APÉNDICE C. SCRIPT DE VARIABLE OCORONA
100 100
Apéndice D
l o a d ( ’ d a t o s o d o n t o . RData ’ )
library ( pscl )
l i b r a r y ( sandwich )
library ( lmtest )
l i b r a r y (MASS)
l i b r a r y ( gamlss )
#################################################
## CREAMOS MATRIZ DE DATOS SIN DATOS FALTANTES ##
d a t o s=d a t o s . odonto [ , c ( 8 , 1 3 , 1 4 , 1 6 , 3 1 , 5 3 , 5 6 , 2 2 1 , 2 2 4 , 2 2 6 , 2 2 8 , 2 3 8 , 2 3 9 ) ]
l e v e l s ( d a t o s $ e s t u n i v e r s )=c ( ” s i ” , ” no ” ,NA)
l e v e l s ( datos$fuma )=c ( ” s i ” , ” no ” ,NA)
## S e l e c c i o n a m o s l o s d a t o s s i n f a l t a n t e s
a=c o m p l e t e . c a s e s ( d a t o s [ , c ( 1 : 7 , 1 1 , 1 2 ) ] )
r e g i o n S F=d a t o s $ r e g i o n [ a ]
tramo etaSF=d a t o s $ t r a m o e t a [ a ]
sexoSF=d a t o s $ s e x o [ a ]
e s t u n i v e r s S F=d a t o s $ e s t u n i v e r s [ a ]
i n s t i t u c i n S F=a s . f a c t o r ( d a t o s $ i n s t i t u c i n [ a ] )
n5consumemSF=a s . f a c t o r ( datos$n5consumem [ a ] )
fumaSF=datos$fuma [ a ]
cpocoronaSF=a s . numeric ( d a t o s $ c p o c o r o n a [ a ] )
i n s e S F=a s . numeric ( d a t o s $ i n s e [ a ] )
## Creamos m a t r i z de d a t o s
datosSF=data . frame ( cpocoronaSF , regionSF , tramo etaSF , sexoSF , e s t u n i v e r s S F ,
i n s t i t u c i n S F , n5consumemSF , fumaSF , i n s e S F )
#El 32 e s un problema#
datosSF=datosSF [− which(32== d a t o s S F $ c p o c o r o n a ) , ]
## Comprobamos que t o d a s l a s v a r i a b l e s t i e n e n i g u a l d i m e n s i o n
summary ( datosSF )
length ( datosSF$regionSF )
l e n g t h ( datosSF$tramo etaSF )
l e n g t h ( datosSF$sexoSF )
length ( datosSF$est universSF )
length ( datosSF$institucinSF )
101
APÉNDICE D. SCRIPT DE VARIABLE CPOCORONA
l e n g t h ( datosSF$n5consumemSF )
l e n g t h ( datosSF$fumaSF )
l e n g t h ( datosSF$cpocoronaSF )
length ( datosSF$inseSF )
#############################
## ESTADISTICA DESCRIPTIVA ##
#############################
summary ( datosSF )
summary ( datosSF$cpocoronaSF )
t a b l e ( datosSF$cpocoronaSF )
p l o t ( t a b l e ( datosSF$cpocoronaSF ) )
mean ( datosSF$cpocoronaSF )
v a r ( datosSF$cpocoronaSF )
################################
##DISTRIBUCIONES : POI , BN, PIG##
################################
## Ajustamos d i s t r i b u c i o n e s a l a v a r i a b l e a e x p l i c a r
#POIS#
ycpop= f i t d i s t r ( datosSF$cpocoronaSF , ” p o i s s o n ” )
h i s t D i s t ( datosSF$cpocoronaSF , ”PO” , d e n s i t y=TRUE)
#BN#
ycpobn= f i t d i s t r ( datosSF$cpocoronaSF , ” n e g a t i v e b i n o m i a l ” )
h i s t D i s t ( datosSF$cpocoronaSF , ” NBII ” , d e n s i t y=TRUE)
#PIG##
y c p o p i g=g a m l s s ( datosSF$cpocoronaSF ˜ 1 , f a m i l y=PIG )
h i s t D i s t ( datosSF$cpocoronaSF , ” PIG ” , d e n s i t y=TRUE)
#HURDLE POISSON#
h i s t D i s t ( datosSF$cpocoronaSF , ”ZAP” , d e n s i t y=TRUE)
#HURDLE NB#
h i s t D i s t ( datosSF$cpocoronaSF , ” ZANBI” , d e n s i t y=TRUE)
#HURDLE PIG#
h i s t D i s t ( datosSF$cpocoronaSF , ” ZAPIG” , d e n s i t y=TRUE)
102 102
Apéndice E
35 a 44 años: permite conocer tanto el estado de salud bucal de los adultos co-
mo los efectos de los tratamientos que han recibido hasta el momento, además
de que es la edad recomendada por la OMS para realizar comparaciones inter-
nacionales.
103
APÉNDICE E. DISEÑO Y SELECCIÓN DE LA MUESTRA
(φ1−α/2 )2 ∗ π ∗ (1 − π)
1
n= ∗ Def f ∗ (E.1)
(M oe)2 1 − T NR
Donde M oe es el margen de error deseado, Def f es el efecto diseño (inflación de
varianza por muestreo complejo), T N R es la tasa de no respuesta, π es la prevalencia
a ser estimada y φ es el cuantil (1 − α/2) de una curva normal2 .
2
Se realizó una muestra probabilı́stica con diseño complejo, el que no será considerado en este
enfoque de análisis
3
Primer Relevamiento Nacional de Salud Bucal en población joven y adulta uruguaya, Lorenzo,
S., Álvarez, R., Blanco, S., Peres, M., junio 2013
104 104
Apéndice F
Anexo de resultados
Ccorona
105
APÉNDICE F. ANEXO DE RESULTADOS
Componente Hurdle
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 1.289 0.330 3.910 9.23e-05
Región-Montevideo -0.100 0.120 -0.837 0.402
Tramo Etario-de 35 a 44 0.093 0.141 0.658 0.510
Tramo Etario-de 65 a 74 -1.104 0.145 -7.632 2.31e-14
Sexo-M 0.113 0.116 0.968 0.333
Estudio Universitario-No 0.130 0.159 0.816 0.414
Institución Médica-No 0.484 0.123 3.940 8.07e-05
Consume Mate-No -0.379 0.138 -2.750 0.006
Fuma-No -0.527 0.137 -3.851 1.17e-04
INSE -0.026 0.005 -4.980 6.41e-07
Componente de Conteo
Coeficiente Estimado Error Estándar Valor z P-Valor
(Intercepto) 0.919 0.331 2.780 0.005
Región-Montevideo -0.003 0.115 -0.023 0.982
Tramo Etario-de 35 a 44 0.125 0.123 1.020 0.308
Tramo Etario-de 65 a 74 -0.354 0.164 -2.163 0.030
Sexo-M 0.039 0.112 0.350 0.726
Estudio Universitario-No 0.296 0.173 1.707 0.088
Institución Médica-No 0.217 0.147 -1.637 0.102
Consume Mate-No -0.241 0.121 -2.390 0.017
Fuma-No -0.289 0.005 -3.269 0.001
INSE -0.018 0.225 -2.057 0.040
106 106
Pcorona
107
APÉNDICE F. ANEXO DE RESULTADOS
108 108
Ocorona
109
APÉNDICE F. ANEXO DE RESULTADOS
110 110