Tesis EspinozaHurtado
Tesis EspinozaHurtado
Tesis EspinozaHurtado
TESIS
ESTIMACIÓN DE LA PREVALENCIA DE HIDATIDOSIS HUMANA
CONSIDERANDO LA DISTRIBUCIÓN ESPACIAL EN DOS
CENTROS POBLADOS DE JUNÍN - PERÚ
PARA OBTENER EL TÍTULO PROFESIONAL DE INGENIERO ESTADÍSTICO
Elaborado por:
BACH. OSWALDO GABRIEL ERNESTO ESPINOZA HURTADO
Asesor:
MAG. CHRISTIAN AMAO SUXO
1
ABSTRACT
2
ÍNDICE
INTRODUCCIÓN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3
2.3.3. Factor de corrección en estudios de casos y controles . . . . . . . . . . 30
2.3.4. Consideraciones para la simulación . . . . . . . . . . . . . . . . . . . 32
2.4. Marco legal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.1. Hipótesis General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.2. Hipótesis Específicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
III.MARCO METODOLÓGICO 35
3.1. Tipo, nivel y diseño de la investigación . . . . . . . . . . . . . . . . . . . . . . 35
3.2. Población, muestra y tamaño de muestra . . . . . . . . . . . . . . . . . . . . . 35
3.3. Técnicas de análisis e instrumentos . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.1. Análisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3.2. Instrumentos de medición . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4. Cuadro de operacionalización de variables . . . . . . . . . . . . . . . . . . . . 40
3.5. Matriz de consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4
V. CONCLUSIONES Y RECOMENDACIONES 66
5.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2. Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
REFERENCIA BIBLIOGRÁFICA 68
Anexos 72
A. Aspectos legales 73
5
Índice de tablas
2.1. Funciones para estimar una proporción considerando densidad poblacional, ries-
go espacial y el tipo de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2. Estudio Caso-control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3. Caso-control con ser seleccionado en la muestra como exposición . . . . . . . 30
6
Índice de figuras
7
4.16. Riesgo corregido de tener la enfermedad . . . . . . . . . . . . . . . . . . . . . 61
4.17. Riesgo de participar en la muestra en Canchayllo . . . . . . . . . . . . . . . . 63
4.18. Riesgo de la enfermedad en la muestra en Canchayllo . . . . . . . . . . . . . . 64
4.19. Riesgo de la enfermedad en la muestra en Canchayllo . . . . . . . . . . . . . . 65
8
INTRODUCCIÓN
9
Capítulo I
10
y cols., 2010), convirtiendo a este departamento en una zona altamente endémica para esta zoo-
nosis. Pese a esto, el efecto causado por esta enfermerdad se encuentra infravalorado por la
misma población (P. L. Moro y cols., 2011), lo cual complica al desarrollo de las investigacio-
nes relacionadas a esta durante la recolección datos.
La Organización Panamemericana de la Salud (OPS), respecto a la recolección de datos de la
Hidatidosis en humanos, menciona dentro de las fuentes oficiales de información a las encuestas
poblacionales que utilizan ultrasonido (PAHO/WHO, 2017). De acuerdo a diferentes autores,
estas suelen darse a modo de un muestreo por conveniencia mediante una campaña de despitaje
gratuita en el centro de salud del centro poblado que se está estudiando. Esto implica un sesgo
de selección debido a que la información recopilada suele encontrarse acumulada en quienes vi-
ven en las zonas aledañas a los centros de salud o en ciertas zonas específicas de la comunidad.
Asimismo, esto permite la presencia de un potencial error en la estimación de la prevalencia de
hidatidosis que podría estar subestimando o sobreestimando su valor real.
La presente investigación se centró en plantear una metología que considere la distribución es-
pacial de los individuos en el centro poblado respecto al centro de salud (o lugar en donde se
haya realizado la campaña) en la estimación de la prevalencia buscando así corregir el proble-
ma del sesgo por medio de un factor de corrección. Para ello, se partió del supuesto de que la
probabilidad de que un individuo de la población pertenezca a la muestra (esto es, haya sido
enrolado en el estudio) siendo esta heterogénea y dependa de la ubicación de su vivienda.
11
1.2. Formulación del problema
¿Se puede aplicar una reponderación considerando la distribución espacial para reducir el
sesgo de selección en la estimación de la prevalencia?
¿Los resultados de las campañas en las que se recolectaron los datos estarán sobreestima-
dos?
12
1.3. Objetivos de la investigación
Determinar sí los resultados de las campañas en las que se recolectaron los datos estarán
sobreestimados.
13
1.4. Justificación, alcances y limitaciones de la investigación
14
Capítulo II
2.1. Antecedentes
En la actualidad existe una amplia investigación relacionada a la corrección del sesgo (Lash,
Fox, y Fink, 2009) (Huang, Gretton, Borgwardt, Schölkopf, y Smola, 2006) (Cortes, Mohri, Ri-
ley, y Rostamizadeh, 2008); pero también se presenta una controversia en torno a ella (Bushway,
Johnson, y Slocum, 2007). Como resultado, sigue presente el debate en torno a la pregunta ¿Es
la çura estadística"peor que el sesgo? (Hanley, 2017). Este tipo correcciones pueden ser repli-
cadas no solo en el campo de las ciencias epidemiológicas (Braeye y cols., 2016) (Lash y cols.,
2009) (Qian y Chang, 2021), sino también en otras disciplinas con diferentes indicadores. Pese
a esto, la literatura sigue manteniendose escasa en cuanto a uso de metodos espaciales. Inclu-
so, aspectos del análisis espacial, como el problema de la autocorrelación espacial (McMillen,
1995), han sido comunmente ingorados.
Estudios realizados en China han considerado la heterogeneidad de la probabilidad que tiene
cada individuo en ser seleccionado para una muestra al momento de la estimación del número
de pacientes que padecen cierta enfermedad, tratando la información obtenida bajo un enfoque
bayesiano (Bailly, Daurès, Dunais, y Pradier, 2015). De igual forma, el considerar la distribu-
15
ción espacial en el sesgo de selección de los individuos capturados en una determinada muestra
se ha visto empleado en el campo de la ecología (Royle, Chandler, Sollmann, y Gardner, 2014).
(Iacus, Porro, Salini, y Siletti, 2020) (Malakar y cols., 2012) (Thorson y Kristensen, 2016).
Finalmente, es necesario mencionar que investigaciones previas elaboradas en la zona de es-
tudio solo han empleado métodos tradicionales para la estimación de la prevalencia y factores
asociados (Santivañez y cols., 2010) (Gomez Huaman, 2021), más no han tomado en cuenta
correcciones en el sesgo de selección.
Hidatidosis Humana
16
en el hogar, en otras variables, son factores de riesgo para la enfermedad (Santivañez y cols.,
2010). Una de las formas en las que se diagnostica esta enfermedad es por medio de la prue-
ba serológica de Western blot. Dicha prueba cuenta con una sensibilidad y especificidad para
Hidatidosis del 94 % y 100 %, respectivamente (Davelois, Escalante, y Jara, 2016).
n+
p̂ = (2.1)
n
Donde:
n+ : Número de casos positivos en la muestra
n : Tamaño de la muestra
Si a los valores de la muestra se les asigna un valor numérico (Positivo: X = 1, Negativo:
X = 0), entonces la estimación de p̂ puede ser expresada de la siguiente manera:
Pn
i=1 xi
p̂ = (2.2)
n
s
p̂(1 − p̂) N −n
p̂ ± Z1−α/2
n−1 N
17
Donde:
N : Tamaño poblacional
n : Tamaño de la muestra
Z1−α/2 : Valor de 1 − α/2 en la distribución normal
Potencia estadística
Sesgo
Efectuando y ordenando:
ECM (θ̂) = V (θ̂) + [θ − E(θ̂)]2
En donde la expresión θ − E(θ̂) será denominada como sesgo (Ruiz-Maya y Pliego, 2004).
Adicionalmente, es necesario hacer mención que desde un punto de vista epidemiológico, el
18
sesgo puede ser entendido como un error sistemático en el diseño de un estudio que resulta en
un error en la estimación. Cuando el error es producido durante el proceso de selección de los
individuos de la muestra, recibe el nombre de sesgo de selección (Celentano, Mhs, y Szklo,
2019).
Procesos de Poisson
Entre los procesos puntuales espaciales, los más empleados son los procesos de Poisson.
Estos son agrupados de acuerdo a la naturaleza de su función de intesidad λ(X) (Baddeley y
cols., 2015).
i) N (A) tiene una distribución de Poisson con media λ|A|, donde |A| representa el
area de la región A (λ|A|, función de intesidad, constante)
ii) N (A1 ), . . . , N (Ak ) son variables aleatoreas independiente para todo k y Ai , lo que
es conocido como Aleatoriedad Espacial Completa (CSR)
19
x.
R
i) N (A) tiene una distribución de Poisson con media A
λ(x)dx
P (Yi = 1) = θ
P (Yi = 0) = 1 − θ
20
Suponiendo que la intensidad no depende de su ubicación en el espacio, entonces el valor de
λ(x, y) será una constante (λ). Considerando en base a este un proceso de Poisson marcado en
el que θ varia espacialmente, entonces el número esperado de puntos marcados con el valor 1
(Yi = 1) en el espacio X = (x, y) está definido como el valor obtenido por medio de la integral
de la función de intensidad de los puntos marcados λθ (X) en todo su dominio. Esta función de
intensidad λθ (X) es el producto de λ(X) con la función espacial de θ (fθ (x, y)).
Z Z Z Z
λθ (x, y)dxdy = λ(x, y)fθ (x, y)dxdy
X X
21
de λ(X) con la función espacial de π (fπ (x, y)).
Z Z Z Z
λπ (x, y)dxdy = λ(x, y)fπ (x, y)dxdy
X X
Consecuentemente, en base a la Ecuación 2.1, para estimar una proporción considerando den-
sidad poblacional, riesgo espacial y el tipo de muestreo se emplearía el siguiente cálculo:
RR RR
λθπ (x, y)dxdy λ(x, y)f (x, y)f (x, y)dxdy
θ π
X X
p̂ = R R = R R (2.4)
λπ (x, y)dxdy λ(x, y)fπ (x, y)dxdy
X X
Si bien la Ecuación 2.4 vendría a ser considerada como una generalización, en la Tabla 2.1 se
puede ver el comportamiento de esta ecuación para cada uno de los escenarios.
22
Tabla 2.1: Funciones para estimar una proporción considerando densidad poblacional, riesgo
espacial y el tipo de muestreo
23
Estudios de casos y controles
Enfermedad
Positivo Negativo Total
Exposición Presente a b a+b
Ausente c d c+d
Población a+c b+d a+b+c+d
El valor del OR entre un grupo con otro se determina por medio del cociente entre los odds
en el primer grupo y los odds en el segundo grupo. Por ejemplo, en la Tabla 2.3, el cálculo para
el OR entre el grupo con la exposición presente y el grupo con la exposición ausente sería:
a/c ad
OR = =
b/d cb
p
X
Y =α+ fj (Xj ) + (2.5)
j=1
24
Un ejemplo de estos vendría a ser el modelo de regresión aditivo logístico (Friedman, Hastie, y
Tibshirani, 2001):
P (Y = 1|X)
log = α + f1 (X1 ) + f2 (X2 ) + · · · + fp (Xp ) (2.7)
P (Y = 0|X)
La función de verosimilitud mide la probabilidad de que los valores sean observados bajo
cierto valor del parámetro, el cual puede variar. Para un conjunto de observaciones indepen-
dientes x1 , x2 , . . . , xn , la función de verosimilitud es matemáticamente igual a su función de
probabilidad conjunta.
L(θ; x) = fθ (x1 )fθ (x2 ) . . . fθ (xn ) (2.9)
ni
m Y
Y
WL(θ; X, w) = fθ (xij ; θ)wi (2.10)
i=1 j=1
ni
m X
X
log WL(θ; X, w) = wi fθ (yij ; θ) (2.11)
i=1 j=1
25
Un caso particular se encuentra en un modelo de proceso de Poisson no homogéneo regido
por un parámetro θ (Baddeley y cols., 2015).
Z
L(θ; X) ∝ λθ (x1 )λθ (x2 ) . . . λθ (xn ) exp − λθ (u) du (2.12)
W
En donde λθ (x1 )λθ (x2 ) . . . λθ (xn ) explica la contribución por los puntos en las ubicaciones;
R
mientras que exp − W λθ (u) du explica la contribución por el número de puntos observados.
Sea:
1 : Positivo
Yi ∼ Bernoulli(θi ) , Yi =
0 : Negativo
1 : Seleccionado
Zi ∼ Bernoulli(πi ) , Zi =
0 : No seleccionado
f (Zi = zi | πi ) = π zi (1 − πi )1−zi
Además, cada individuo fue considerado con una realización de un proceso no homogéneo
de Poisson; con su respectiva función de intensidad, tanto para la población en general, como
aquellos que pertenecen a la muestra.
26
2.3.1. Determinación del vector de pesos
Sea una muestra que se comporta como un proceso de Poisson no homogéneo con función de
densidad λ(xi ), donde xi = (xi1 , xi2 ), la cual proviene de una población cuyo comportamiento
es el de un proceso de Poisson no homogéneo con función de densidad λp (xi ),
donde log λp (xi ) es un offset, β0 se encuentra asociado a la proporción de muestreo y β0 +h0 (xi )
es el efecto del muestreo en cada ubicación i. En caso de que no hubiese un sesgo a nivel
espacial, h0 (xi ) sería 0 y log β0 sería la proporción del muestreo.
El cociente obtenido entre la función de intensidad muestral y la función de intensidad
poblacional para una realización i (λ(xi )/λp (xi )) es entendido como el riesgo de participar
en la muestra para un individuo i. Partiendo de que el riesgo de participar en la muestra no
es constante a nivel espacial, el peso asignado para corregir el sesgo sería el valor inverso del
riesgo que tuvo el individuo i de participar en la muestra.
λp (xi )
wi = (2.13)
λ(xi )
27
número de puntos observados y esperados en la región B:
Z
R(B) = n(x ∩ B) − λ̂(u)du (2.14)
B
Cuando el riesgo de ser seleccionado en la muestra es constante, y que por ende no existe
sesgo de selección, entonces la intensidad muestral es proporcional a la intensidad poblacional.
H0 : λ(x)/λp (x) = k
H1 : λ(x)/λp (x) 6= k
La prueba para la validación de la hipótesis nula se detalla en el Algoritmo 1, el cual está basado
en simulaciones de Monte-Carlo.
28
Algoritmo 1: Validación de Hipótesis
i i
9 Obtener los percentiles P2,5 y P97,5 para cada ki. ;
i i
10 si ∀i ∈ 1 : n, P2,5 < λ(xi )/λp (xi ) < P97,5 entonces
11 No se rechaza H0
12 en otro caso
13 Se rechaza H0
29
2.3.2. Estimación de la prevalencia
Dado que el fin es estimar la prevalencia de la enfermedad en el centro poblado, fue nece-
sario ajustar un GAM ponderado, con w = {w1 , w2 , . . . , wn } como vector de pesos, en cada
individuo participante de la muestra. Posterior a ello, el modelo se emplearía para estimar la
prevalencia de la enfermedad en cada individuo de la población que no pertenece a la muestra
(n∗1 y n∗0 para el número estimado de casos y controles, respectivamente). Con estos valores, se
estimó una prevalencia corregida.
n1 + n∗1
p̃ = (2.15)
n1 + n∗1 + n0 + n∗0
Enfermedad
Positivo Negativo Total
Muestra Seleccionado n1 n0 n
No seleccionado a b N −n
Población N1 N0 N
30
n1 N1
θ = =
n1 + n0 N1 + N0
No obstante, la proporción entre casos y controles no suele mantenerse constante entre la pobla-
ción y la muestra por las caracteristicas propias del estudio durante su etapa de recolección de
información. Esto causa que el valor de θ sea obtenido mediante un estimador de máxima vero-
similitud ponderado θ̃ con w = (w1 , w2 )t como vector de pesos para los casos y los controles.
Partiendo de Yi ∼ Bernoulli(θ),
ni
2 Y
Y yj w
WL(θ; Y, w) = θ (1 − θ)1−yj i
i=1 j=1
ni
2 X
X
wi log θyj (1 − θ)1−yj
log WL(θ; Y, w) =
i=1 j=1
ni
2 X
X
log WL(θ; Y, w) = wi [yj log(θ) + (1 − yj ) log(1 − θ)]
i=1 j=1
∂
log WL(θ; Y, w) = 0
∂θ
∂ n1 ρ n0
log WL(θ; Y, w) = − =0
∂θ θ 1−θ
31
Entonces una estimación correcta de θ̃ se da cuando matemáticamente el valor de ρ es equiva-
lente al Odds Ratio (OR) entre la muestra y la población.
n1 N0
ρ = (2.17)
n0 N1
λ̂1 (x, y)
p̂(x, y) = (2.18)
λ̂1 (x, y) + ρλ̂0 (x, y)
Donde
λ̂1 : Función de intensidad de los casos en la muestra
λ̂0 : Función de intensidad de los controles en la muestra
Dado que π y θ son probabilidades, entonces sus valores deben estar entre 0 y 1. Para esto,
la formula espacial para cada una de estas ha de ser de la siguiente manera:
1
fθ (x, y) =
1 + e−µθ (x,y)
1
fπ (x, y) =
1 + e−µπ (x,y)
Donde:
µ(x, y) = α + g1 (x) + g2 (y)
32
Además, se definió a la función de intensidad λ como:
v
u
u a (x − h )2 + b (y − k )2
t λ λ λ λ
λ(x, y) = cλ 1 −
aλ h2λ + bλ kλ2
v
u
cλ u a (x − h )2 + b (y − k )2
t λ λ λ λ
λπ (x, y) = 1 −
(1 + exp [−µπ (x, y)]) aλ h2λ + bλ kλ2
v
u
2 2
cλ t aλ (x − hλ ) + bλ (y − kλ )
u
λθπ (x, y) = 1 −
(1 + exp [−µθ (x, y)])(1 + exp [−µπ (x, y)]) aλ h2λ + bλ kλ2
Delimitando que:
µθ (x, y) = cθ + aθ (x − hθ )2 + bθ (y − kθ )2
µπ (x, y) = cπ + aπ (x − hπ )2 + bπ (y − kπ )2
33
2.4. Marco legal
La presente investigación se realizó gracias al apoyo del fondo EULAC por medio de FON-
DECYT. En relación a la parte ética de esto, el estudio madre cuenta con la aprobación ética de
la Universidad Peruana Cayetano Heredia, tanto en la recolección de datos como en el manejo
de la información (ver Anexo A.1). Al ser un estudio secundario, la integridad de los partici-
pantes no se ha visto comprometida más allá de su privacidad. Por lo cual, con el fin de proteger
la dicha privacidad se está trabajando con los código autogenerados de cada uno.
2.5. Hipótesis
34
Capítulo III
MARCO METODOLÓGICO
La población del presente estudio comprende a los habitantes del centro poblado de Corpa-
cancha, Junín-Perú. La información recolectada (muestra) respecto a la tenencia de la enferme-
dad proviene de dos intervenciones realizadas con anterioridad en la comunidad:
1. VIRSEL: Primera intervención realizado en Octubre del 2017. La información fue reco-
lectada por medio de una campaña de despistaje gratuita en el centro de salud del lugar.
2. HYCOM: Segunda intervención realizada en Junio del 2018. La información fue recolec-
tada por medio de una campaña de despistaje gratuita en la que se visitaron las casas de
los habitantes.
35
Por otro lado, la información referente al otro centro poblado sobre el que se implementará
la metodología (Canchayllo, Junín-Perú) proviene de tres intervenciones realizadas en los años
2019 (Septiembre) y 2020 (Diciembre). Esta recolección de información se llevó a cabo gracias
al fondo EULAC, a través de CONCYTEC (PRO CIENCIA), quienes también apoyaron esta
investigación.
El poder trabajar con información en relación a la tenencia de hidatidosis humana prove-
niente de dos intervenciones diferentes realizadas con varios meses de diferencias es posible
dado al periodo de incubación de la enfermedad (Ver Sección 2.2.1). Por otro lado, en lo que
respecta a la información sobre la distribución espacial de los habitantes, esta proviene de un
censo realizado en la comunidad en simultáneo a los estudios VIRSEL y HYCOM. De este se
tienen las coordenadas geográficas de cada casa de la comunidad.
36
3.3. Técnicas de análisis e instrumentos
Se inició con una limpieza de la base de datos a fin de contar solo con la información con la
que se trabajó, creando las variables necesarias para su procesamiento. Después, se consolidó
en una sola base de datos con las coordenadas de cada casa y sus distancias al centro de salud.
Posterior a esto, se procedió a realizar un análisis exploratorio de las variables y los resultados
fueron reportados por medio de tablas.
Previo al procesamiento de la información real por medio del método planteado, fue necesario
estudiarlo. Por ello, su eficacia se evaluó dentro de los siguientes escenarios:
Para cada uno de estos 2 escenarios, las simulaciones se realizaron tomando en consideración
diferentes niveles de prevalencia de hidatidosis humana. De igual forma, en cada uno se si-
mularon dos tipos de muestreos: uno totalemten aleatorio y el otro con un sesgo de selección
hacia los más próximos al punto en que se recolectó la información por medio de la campaña.
Esto fue considerando diferentes niveles de cobertura (porcentaje de individuos de la población
que participaron en la campaña de despitaje). Estos escenarios han sido simulados como pro-
cesos puntuales. Estos han sido procesos de Poisson homogéneos y no-homogeneos, según sea
el caso constante o variable. Con cada uno de los escenarios simulados, se procedió a estimar
la prevalencia por medio del método planteado (ver Sección 2.3). Se comparó el valor de esta
estimación con el resultado obtenido por el método tradicional (ver Ecuación 2.2) y el nivel de
prevalencia establecido en cada simulación. Con esto se determinó bajo qué condiciones el mé-
todo propuesto resulta eficiente en comparación al método tradicional tomando como criterio al
ECM de las estimaciones (ver Ecuación 2.3).
37
Al pasar a la data real, además de utilizar la información obtenida en la intervención VIRSEL
por medio de la campaña de salud realizada en el Centro Poblado de Corpacancha (Junín, Perú),
se usó la información proveniente del censo realizado a la comunidad para la distribución espa-
cial de los pobladores. A continuación, para determinar la probabilidad de que cada individuo
de la comunidad haya participado en la intervención VIRSEL se ajustó un GAM (ver Ecuación
2.7) con las coordenadas del habitante, considerando también como covariables al sexo y al
rango de edad. Después, a fin de tener un control en las estimaciones por ambos métodos, cada
una de estas fue comparada con el valor de la prevalencia observada en la intervención HY-
COM. Finalmente se implementó el método sobre la población de un centro poblado diferente
(Canchayllo) y se obtuvo una prevalencia corregida.
El código de lo trabajado en esta sección en R, tanto el análisis como las simulaciones, se
encuentra en el QR presentado en el Anexo B.
Prueba diagnóstica
38
Geolocalización
Durante el censo realizado en paralelo se determinó la casa correspondiente para cada indi-
viduo de la comunidad. De igual forma, por medio de un equipo de GPS se determinaron las
coordenadas para cada casa de la comunidad. Esta información fue almacenada digitalmente en
formato KML.
Figura 3.1: Mapa urbano del centro poblado de Corpacancha (Junín, Perú)
39
3.4. Cuadro de operacionalización de variables
40
Tabla 3.2: Matriz de consistencia
resultados obtenidos de las obtenidos de las estima- hidatidosis tras realizar la de cada individuo muestreo a nivel espacial,
estimaciones de la preva- ciones de la prevalencia corrección espacial es me- lo cual es empleado como
lencia mediante el método mediante el método clá- nor al valor inicial. pesos al momento de esti-
clásico de proporciones y sico de proporciones y mar la prevalencia corregi-
de la aplicación de la repon- de la aplicación de la da.
deración? reponderación.
¿El riesgo de muestreo será Determinar si el riesgo de El riesgo de muestreo es ho- Edad del individuo, sexo
homogéneo? muestreo es homogéneo. mogéneo a nivel espacial. del individuo, tenencia de
perros del individuo
¿Los resultados de las cam- Determinar sí los resultados
pañas en las que se recolec- de las campañas en las que
taron los datos estarán so- se recolectaron los datos es-
breestimados? tarán sobreestimados.
Capítulo IV
ANÁLISIS Y RESULTADOS
El centro poblado de Corpacancha cuenta con 177 casas, de las cuales 105 (59.3 %) están
habitadas. Del censo realizado en 2018, se conoce que la población es de un total de 309 ha-
bitantes; de los cuales 141 (45.6 %) participaron en la campaña de salud. Tras haber realizado
la limpieza correspondiente a los datos de la muestra proveniente del estudio VIRSEL, se co-
noce que la Hidatidosis Humana en el Centro poblado de Corpacancha tiene una prevalencia
del 0.241 (± 0.054 IC95 % ). Este estudio contó con una potencia estadística del 22.1 por ciento.
La segunda campaña realizada junto al censo permitió aumentar la cobertura a un total de 196
participantes (63.4 %). Como resultado, la prevalencia disminuyó a 0.235 (± 0.036 IC95 % ); in-
dicando que la prevalencia del primer estudio se encontraba sobreestimada. Este estudio contó
con una potencia estadística del 28.8 por ciento.
42
8743800
8743700
8743600
Casa habitada
8743500
Casa deshabitada
43
8743500 8743550 8743600 8743650 8743700 8743750 8743800
Figura 4.2: Distribución en el espacio de las casas habitadas en el centro poblado de Corpacan-
cha.
44
8743800
8743750
8743700
8743650
8743600
8743550
Figura 4.3: Distribución de las casas con al menos un habitante que haya participado en la
campaña realizada en el centro poblado de Corpacancha.
45
Variación de la prevalencia segun el tamño de muestra
Intervalo de confianza (95%) de la variación
Prevalencia segundo estudio
0.4
0.3
0.2
0.1
Tamaño muestral
46
4.1.1. Análisis de los factores de riesgo
Características n %
Sexo
Femenino 83 58.9
Masculino 58 41.1
Edad * 33.27 (± 3.19)
Nùmero de perros
0 95 67.4
1 15 10.6
2 17 12.1
3 11 7.8
4 3 2.1
Prevalencia** 0.241 (± 0.054)
* Promedio (IC 95 %)
** Proporción (IC 95 %)
47
Tabla 4.2: Factores de riesgo por resultado de la campaña (n=141).
Sexo
En la tabla 4.2, se observó que hay una diferencia en la prevalencia por sexo de la perso-
na. Pese a esto, la diferencia encontrada no era significativa debido a la superposición de los
invervalos de confianza de cada una (Fig. 4.5).
48
Ajustando un modelo lineal generalizado entre el sexo y la prevalencia de hidatidosis, se ob-
servó que la posibilidad de tener hidatidosis siendo hombre es 1.38 veces la posibilidad siendo
mujer (Tabla 4.3). Pese a que los resultados no son significativos, esto no descarta que se con-
sidere como factor de riesgo debido a que el p-valor se encuentra relacionado con la potencia
estadística que tuvo la muestra (Ellis, 2010).
OR* IC 95 % p-valor
Sexo = Masculino 1.38 [0.63; 3.00] 0.421
*obtenido al ajustar un modelo lineal generalizado
Edad
En la tabla 4.2, se observó que hay una diferencia en la edad promedio entre el grupo positivo
a la enfermedad y el grupo negativo a la enfermedad. No obstante, esta diferencia resultó ser
no significativa pues sus intervalor de confianza se superponen. Ajustando un modelo lineal
generalizado entre el edad y la prevalencia de hidatidosis, se observó que la posibilidad de
tener hidatidosis se incrementaba 1.01 veces con cada año de edad (Tabla 4.4). Pese a que
los resultados no son significativos, esto no descarta que se considere como factor de riesgo.
Esto debido a que el p-valor se encuentra relacionado con la potencia estadística que tuvo la
muestra (Ellis, 2010).
OR* IC 95 % p-valor
Edad 1.01 [0.99; 1.03] 0.334
*obtenido al ajustar un modelo lineal generalizado
49
Número de perros
En la tabla 4.2, se observó que hay una diferencia en la prevalencia por el número de perros
que se tienen. La diferencia encontrada era significativa cuando se dicotomizaba la variable del
número de perros. Esto debido a la no superposición de los invervalos de confianza de cada una
(Fig. 4.6). Ajustando un modelo lineal generalizado entre el número de perros y la prevalencia
de hidatidosis, se observó que la posibilidad de tener hidatidosis teniendo menos de tres perros
es 0.19 veces la posibilidad teniendo al menos tres perros (Tabla 4.3). Esto determinó que en
adeltante, la variable número de perros sea tomada como cualitativa con dos categoría: menos
de tres perros y al menos tres perros.
OR* IC 95 % p-valor
Perros = 1 0.54 [0.08; 2.17] 0.443
Perros = 2 0.76 [0.16; 2.59] 0.681
Perros = 3 6.17 [1.70; 25.49] 0.007
Perros = 4 1.76 [0.08; 19.28] 0.650
Perros = Menos de 3 perros 0.19 [0.06; 0.60] 0.005
*obtenido al ajustar un modelo lineal generalizado
50
4.1.2. Análisis de la intensidad
Se observó que la población se concentra al sureste del centro de salud en el que se hizo la
campaña (Fig. 4.7). Se encontró un comportamiento similar en los habitantes que participaron
en la campaña (Fig. 4.8). No obstante, era necesario observar si la razón de las intensidades se
mantiene constante en el espacio. En la figura 4.12 se observó que el riesgo de participar en la
muestra no es constante en el área; especialmente en la zona noroeste. Esto planteó la existencia
de un posible sesgo espacial.
0.012
0.01
0.004 0.006 0.008
51
0.005
0.003
0.001
52
Lo visto en la Figura 4.12 indicó la necesidad de corregir el riesgo de tener la enfermedad a
nivel espacial (Fig. 4.9).
0.35
0.3
0.25
0.2
0.15
0.1
53
4.2. Simulaciones
Cada una de las simulaciones y sus resultados fueron evaluados por escenario (Tabla 4.6,
Figura 4.10 y Figura 4.11). Si bien el ECM(θ̃) resultó ser mayor al ECM(θ̂) en cada escenario,
también se observó que en su mayoría estos superaron el 15 % de éxito; o sea, que en 13 de
18 escenarios, al menos el 15 % de las simulaciones, la estimación de la prevalencia por medio
del método presentado tenía un valor más cercano al real que la estimación por el método
convencional. Este comportamiento también se observó en los escenarios con las caraterísticas
más similares a la data real, a nivel de cobertura y tamaño poblacional. Pese a esto, las curvas
de densidad en cada escenario presentaron notorias diferencias entre si.
54
Escenario 01 Escenario 02 Escenario 03
20
20
20
Prevalencia Prevalencia Prevalencia
Prevalencia estimada Prevalencia estimada Prevalencia estimada
Prevalencia corregida Prevalencia corregida Prevalencia corregida
15
15
15
Densidad
Densidad
Densidad
10
10
10
5
5
0
0
0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5
20
20
Prevalencia Prevalencia Prevalencia
Prevalencia estimada Prevalencia estimada Prevalencia estimada
Prevalencia corregida Prevalencia corregida Prevalencia corregida
15
15
15
Densidad
Densidad
Densidad
10
10
10
5
5
0
20
20
15
15
Densidad
Densidad
Densidad
10
10
10
5
5
0
55
Escenario 10 Escenario 11 Escenario 12
20
20
20
Prevalencia Prevalencia Prevalencia
Prevalencia estimada Prevalencia estimada Prevalencia estimada
Prevalencia corregida Prevalencia corregida Prevalencia corregida
15
15
15
Densidad
Densidad
Densidad
10
10
10
5
5
0
0
0.1 0.3 0.5 0.1 0.3 0.5 0.1 0.3 0.5
20
20
Prevalencia Prevalencia Prevalencia
Prevalencia estimada Prevalencia estimada Prevalencia estimada
Prevalencia corregida Prevalencia corregida Prevalencia corregida
15
15
15
Densidad
Densidad
Densidad
10
10
10
5
5
0
20
20
15
15
Densidad
Densidad
Densidad
10
10
10
5
5
0
56
4.3. Modelamiento
4.3.1. Intensidad
Homogeneidad de riesgo
0.7
0.6
0.5
0.4
0.3
57
200
Entrenamiento
150 Prueba
Residuales
100
50
0
10 20 30 40 50
N° de funciones base
Entrenamiento
Prueba
40
30
Residuales
20
10
0
10 20 30 40 50
N° de funciones base
58
4.3.2. Riesgo
Comparando las métricas de ajuste del grupo de entrenamiento y del grupo de prueba de ca-
da modelo ajustado (Tabla 4.7), se encontró una mejora en los modelos al introduccir el factor
de corrección w, salvo aquel modelo que solo consideró el efecto espacial de las observaciones
(Modelo espacial). Este mismo comportamiento se observó cuando a las covariables compren-
didas como factores de riesgo (edad, sexo, tener al menos 3 perros) se les añadió la variable del
efecto espacial. En base a estos resultados, se seleccionó al Modelo completo (w), compuesto
por los factores de riesgo, el efecto espacial y el factor de correción w, como el modelo más
adecuado para la inferencia y estimación del valor de la prevalencia corregida.
Entrenamiento Prueba
Modelo
Esp. Sens. AUC Esp. Sens. AUC
Modelo espacial 1 0 0.5381 - - 0.6766
Modelo espacial (w) 0.96 0.125 0.5864 - - 0.5453
Modelo edad 1 0.0833 0.5578 0.03125 1 0.5672
Modelo edad (w) 0.9333 0.2917 0.6122 0.59375 0.6 0.6453
Modelo sexo 1 0 0.5358 1 0 0.5469
Modelo sexo (w) 1 0 0.4642 1 0 0.5469
Modelo perros 0.9333 0.3333 0.6333 0.9688 0 0.149
Modelo perros (w) 0.9333 0.3333 0.6333 0.9688 0 0.149
Modelo sexo edad 1 0.0833 0.6369 0.03125 1 0.5406
Modelo sexo edad (w) 0.9467 0.4583 0.8708 0.5625 0.8 0.7562
Modelo s. e. p. 0.96 0.375 0.74 0.0938 0.9 0.5141
Modeso s. e. p. (w) 0.9467 0.4583 0.7144 0.625 0.5 0.5328
Modelo completo 0.96 0.333 0.7403 0.53125 0.5 0.6
Modelo completo (w) 0.9733 0.375 0.7503 0.5625 0.8 0.7438
59
4.4. Infererencia
El modelo final, modelo completo (w), fue utilizado para inferir la presencia de la enferme-
dad en los datos no muestreados. Con esto se pudo estimar una prevalencia corregida del 0.22.
Este valor, si bien se encontraba dentro del intervalo de confianza para el primer estudio, estaba
pro debajo de su valor puntual (0.241), comportamiento que se ha visto repetido en el segundo
estudio (0.235). Esto indicó la presencia de una sobrestimación en la prevalencia del primer
estudio.
0.2
0.1
Tamaño muestral
60
Esto permitió estimar un factor de corrección para la intesidad de ρ = 1.126 (Véase 2.17).
Empleando esto en 2.18, se observó el cambio en el riesgo corregido de tener la enfermedad a
nivel espacial en la población (Figura 4.16).
0.35
0.3
0.25
0.2
0.15
0.1
61
4.5. Implementación
Con el fin de analizar la utilidad del método propuesto pero en otros contextos, se aplicó en
el centro poblado de Canchayllo y se tuvo como resultado una prevalencia del 0,150 ( ±0,049
IC95 % ).
Ajuste de intensidad
62
0.6
0.5
0.4
0.3
0.2
0.1
Se seleccionó un modelo GAM usando los pesos obtenidos según la metodología propuesta.
Se tomó como covariable a la tenencia de perros (Tener o no tener más de 3 perros). Este modelo
tuvo un AUC de 0.664 y 0.763 para los datos de entrenamiento y prueba, respectivamente
Inferencia
Tras haber hecho el ajuste correspondiente, se obtuvo una prevalencia corregida, la cual
ascendió a 0.245. Asimismo, el riesgo espacial fue corregido, lo cual muestra una observable
diferencia con el el riesgo antes de realiza la corrección. Además, se puede observar la zona en
la que el riesgo se concentra.
63
0.7
0.6
0.5
0.4
0.3
0.2
0.1
64
0.8
0.7
0.6
0.5
0.4
0.3
0.2
65
Capítulo V
CONCLUSIONES Y
RECOMENDACIONES
5.1. Conclusiones
Acorde a los resultados obtenidos en la prueba de Monte Carlo para las muestras correspon-
dientes a la primera intervención en Corpacancha y a la intervanción de Canchayllo, se concluyó
no sé si te
que ambas no provienen de un muestreo totalmente aleatorio a nivel especial. Esto indicaría que refieres a
especial o a
el riesgo de muestreo es no homogéneo a nivel espacial. Debido a esto, fue necesario emplear un espacial?
método que integre el factor espacial en el proceso de estimación de la prevalencia por medio
de una reponderación. Tras estudiar la aplicación de una reponderación a través de las simu-
creo que sería mejor
"esta se aplicó laciones, se aplicó con los datos reales. Así, para el caso de Corpacancha, este método generó
con los datos reales"
resultados coherentes en relación a lo que la segunda intervanción en la población pudo obtener.
En base a esto, se concluyó que la prevalencia en la primera intervanción estuvo sobreestimada.
Con respecto a Canchayllo, se concluyó que la prevalencia observada se encontrada norotia-
mente subestimada. Por lo tanto, aplicar una reponderación en la estimación de la prevalencia
en esta investigación permitió corregir el sesgo de selección espacial.
66
De forma adicional, al comparar los modelos se pudo observar que añadir el factor de pondera-
ción w por sí solo no obtenía una mejora en las métricas de ajuste. Por lo que fue necesario que
este sea empleado en conjunto con los factores de riesgo. Esto evidenciaría la necesidad de no
depender solo del análisis espacial al momento de buscar explicar la variabilidad de la informa-
ción; sino también de la información sociodemográfica epidemiológica de los participantes del
estudio. es un tipo de información, solo uno? porq sino agrega guion. Si son dos tipos de info
unelos con y "socio... y epi..."
5.2. Recomendaciones
67
REFERENCIA BIBLIOGRÁFICA
Baddeley, A., Rubak, E., y Turner, R. (2015). Spatial point patterns: methodology and appli-
cations with r. CRC press.
Bailly, L., Daurès, J. P., Dunais, B., y Pradier, C. (2015). Bayesian estimation of a cancer
population by capture-recapture with individual capture heterogeneity and small sample.
BMC medical research methodology, 15, 39.
Braeye, T., Verheagen, J., Mignon, A., Flipse, W., Pierard, D., Huygen, K., . . . Hens, N. (2016).
Capture-recapture estimators in epidemiology with applications to pertussis and pneumo-
coccal invasive disease surveillance. PloS one, 11(8), e0159832.
Bushway, S., Johnson, B. D., y Slocum, L. A. (2007). Is the magic still there? the use of the
heckman two-step correction for selection bias in criminology. Journal of quantitative
criminology, 23(2), 151–178.
Celentano, D. D., Mhs, S., y Szklo, M. (2019). Gordis. epidemiología. Elsevier.
Cortes, C., Mohri, M., Riley, M., y Rostamizadeh, A. (2008). Sample selection bias correction
theory. En Y. Freund, L. Györfi, G. Turán, y T. Zeugmann (Eds.), Algorithmic learning
theory (pp. 38–53). Berlin, Heidelberg: Springer Berlin Heidelberg.
Davelois, K., Escalante, H., y Jara, C. (2016). Rendimiento diagnóstico del western blot para
detectar simultáneamente anticuerpos en pacientes con cisticercosis, hidatidosis y fascio-
liasis humana. Revista peruana de medicina experimental y salud publica, 33, 616–624.
Ellis, P. D. (2010). The essential guide to effect sizes: Statistical power, meta-analysis, and the
68
interpretation of research results. Cambridge university press.
Friedman, J., Hastie, T., y Tibshirani, R. (2001). The elements of statistical learning (Vol. 1)
(n.o 10). Springer series in statistics New York.
general assembly of the world medical association, y cols. (2014). World medical association
declaration of helsinki: ethical principles for medical research involving human subjects.
The Journal of the American College of Dentists, 81(3), 14.
Giri, S., y Parija, S. C. (2012). A review on diagnostic and preventive aspects of cystic echino-
coccosis and human cysticercosis. Tropical parasitology, 2(2), 99.
Gomez Huaman, A. F. (2021). Situación epidemiológica de la equinococosis humana en las
diferentes instituciones prestadoras de servicios de salud de las regiones del perú. 2017.
Hanley, J. A. (2017). Correction of selection bias in survey data: is the statistical cure worse
than the bias? American Journal of Epidemiology, 185(6), 409–411.
Huang, J., Gretton, A., Borgwardt, K., Schölkopf, B., y Smola, A. (2006). Correc-
ting sample selection bias by unlabeled data. En B. Schölkopf, J. Platt, y T. Hoff-
man (Eds.), Advances in neural information processing systems (Vol. 19). MIT
Press. Descargado de https://proceedings.neurips.cc/paper/2006/
file/a2186aa7c086b46ad4e8bf81e2a3a19b-Paper.pdf
Iacus, S. M., Porro, G., Salini, S., y Siletti, E. (2020, Jun). Controlling for selection bias in
social media indicators through official statistics: A proposal. Sciendo. Descargado de
http://hdl.handle.net/2434/742200
Kebede, W., Hagos, A., Girma, Z., y Lobago, F. (2009). Echinococcosis/hydatidosis: its preva-
lence, economic and public health significance in tigray region, north ethiopia. Tropical
Animal Health and Production, 41(6), 865–871.
Larrieu, E., Belloto, A., ARAMBULO III, P., y Tamayo, H. (2004). Echinococcosis quística:
epidemiología y control en américa del sur. Parasitología latinoamericana, 59(1-2), 82–
89.
69
Lash, T. L., Fox, M. P., y Fink, A. K. (2009). Applying quantitative bias analysis to epide-
miologic data. Springer.
Malakar, N. K., Lary, D. J., Moore, A., Gencaga, D., Roscoe, B., Albayrak, A., y Wei, J. (2012).
Estimation and bias correction of aerosol abundance using data-driven machine learning
and remote sensing. En 2012 conference on intelligent data understanding (pp. 24–30).
McMillen, D. P. (1995). Selection bias in spatial econometric models. Journal of Regional
Science, 35(3), 417–436.
Moro, P., y Schantz, P. M. (2009). Echinococcosis: a review. International journal of Infectious
diseases, 13(2), 125–133.
Moro, P. L., Budke, C. M., Schantz, P. M., Vasquez, J., Santivañez, S. J., y Villavicencio, J.
(2011, 05). Economic impact of cystic echinococcosis in peru. PLOS Neglected Tropical
Diseases, 5, 1-6.
PAHO/WHO. (2017). Prevention and control of hydatidosis at local level: South american
initiative for the control and surveillance of cystic echinococcosis/hydatidosis. PANAF-
TOSA.
Pinsky, M., y Karlin, S. (2010). An introduction to stochastic modeling. Academic press.
Qian, W., y Chang, H. H. (2021). Projecting health impacts of future temperature: A compari-
son of quantile-mapping bias-correction methods. International journal of environmental
research and public health, 18(4), 1992.
Royle, J., Chandler, R., Sollmann, R., y Gardner, B. (2014). Spatial capture-recapture. Acade-
mic Press.
Ruiz-Maya, L., y Pliego, F. J. M. (2004). Fundamentos de inferencia estadística. AC.
Santivañez, S. J., Naquira, C., Gavidia, C. M., Tello, L., Hernandez, E., Brunetti, E., . . . Garcia,
H. H. (2010). Factores domiciliarios asociados con la presencia de hidatidosis humana
en tres comunidades rurales de junín, perú. Revista Peruana de Medicina Experimental y
Salud Pública, 27, 498–505.
70
Sarkar, S., Roy, H., Saha, P., Sengupta, M., Sarder, K., y Sengupta, M. (2017). Cystic echino-
coccosis: a neglected disease at usual and unusual locations. Tropical parasitology, 7(1),
51.
Scheaffer, R., Mendenhall, W., Ott, L., y Gerow, K. G. (2011). Elementary survey sampling.
Cengage Learning.
Shaw, A., Rushton, J., Roth, F., y Torgerson, P. R. (2017). Dalys, dollars and dogs: how
best to analyse the economics of controlling zoonoses. Revue scientifique et technique
(International Office of Epizootics), 36(1), 147–161.
Thorson, J. T., y Kristensen, K. (2016). Implementing a generic method for bias correction in
statistical models using random effects, with spatial and population dynamics examples.
Fisheries Research, 175, 66-74. Descargado de https://www.sciencedirect
.com/science/article/pii/S0165783615301399 doi: https://doi.org/10
.1016/j.fishres.2015.11.016
Wang, S. X. (2001). Maximum weighted likelihood estimation (Tesis Doctoral no publicada).
University of British Columbia.
WHO. (2019). Equinococosis. https://www.who.int/es/news-room/fact-
sheets/detail/echinococcosis.
Wood, S. (2020). Mixed gam computation vehicle with automatic smoothness estimation
[Manual de software informático]. (R package version 1.8-33)
71
Anexos
72
Anexo A
Aspectos legales
73
Anexo B
Figura B.1: QR enlazado al repositorio en GITHUB que contiene los códigos trabajados
74