Guia 1 Categóricos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

Pontificia Universidad Católica de Chile

Instituto de Sociología
Magíster en Sociología
Análisis de Datos Categóricos – SOL3070
Profesor: Matías Bargsted | Ayudante: Julio Iturra
Alumna: Carolina Cornejo

Guía 1
1. En Chile, de todos los trabajadores y trabajadoras remunerados, un 69,7 % gana menos o
igual a $500.000, 20,6 % gana entre $500.001 y $1.000.000 y 9,7 % gana más de
$1.000.0011.
a. Si eligiéramos al azar 50 personas, cuál sería la probabilidad de que 35, 10 y 5 tengan un
sueldo de menos o igual a $500.000, entre $500.001 y $1.000.000 y más de $1.000.001
respectivamente.

# PREGUNTA 1 - MULTINOMIAL
dmultinom(x=c(35,10,5), size=50, prob=c(.697,.206,.097)) # 0.02603611

La probabilidad de que al elegir 50 personas al azar y que resultaran 35 personas que


obtengan un sueldo menor o igual a $500.000, 15 personas que obtengan entre $500.001 y
$1.000.000 y 5 que obtengan más de $1.000.000 es de 0.0260.

2. En Chile, según datos del Informe de Huelgas Laborales (COES, 2017), entre el año 2015
y 2016 han ocurrido, en promedio, 24 huelgas mensuales. Teniendo presente esta
información, determine cuál es la probabilidad de que:
a. Ocurran entre 12 y 15 huelgas laborales durante el periodo de tiempo señalado.

# PREGUNTA 2 - POISSON
#2A)
sum(dpois(x=c(12,13,14,15),lambda=24)) # 0.03187596

La probabilidad de que ocurran entre 12 y 15 huelgas laborales mensuales entre el año 2015
y 2016 es de 0.0319.

b. Ocurran exactamente 20 huelgas laborales durante el periodo de tiempo señalado.

#2B)
dpois(x=20,lambda=24) # 0.06237817


1
Fuente: www.fundacionsol.cl
La probabilidad de que ocurran 20 huelgas laborales mensuales entre el año 2015 y 2016 es
de 0.0624

3. En el contexto del análisis estadístico variables dependientes categóricas, se requiere de


determinadas suposiciones respecto a la distribución de nuestros datos. Para el caso de las
respuestas categóricas existen tres tipos de distribuciones clave (binomial, multinomial y
Poisson). En este contexto, suponga usted que le encargan analizar datos del Observatorio de
Seguridad Vial, donde su variable de interés son las muertes fatales por accidentes de tránsito
ocurridos durante la primera semana del mes de marzo para el año 2018.
a. Respecto de los tipos de distribución señalados. Indique cuál es el tipo de distribución que
emplearía para analizar su variable dependiente. Justifique su respuesta.

Para el análisis de nuestra variable dependiente, que en este caso son las muertes fatales por
accidentes de tránsito, es conveniente utilizar una distribución de Poisson ya que de acuerdo
a lo revisado en clases esta nos permite ver la probabilidad de que ocurra un número dado
de eventos en un periodo determinado de tiempo2. Puesto que nuestra variable dependiente
se debe analizar entre la primera semana del mes de marzo del año 2018, este tipo de
distribución nos permite asumir que la probabilidad durante este transcurso de tiempo es
constante, hay independencia entre cada evento de accidente de tránsito, y que la ocurrencia
de los accidentes con resultado de muerte fatal puede ser tantos como se puedan (sin un límite
superior). Lo relevante de esta distribución es que no se centra solo en la observación de
ocurrencia o no ocurrencia del accidente con muerte fatal, sino que en el número de estos
eventos.

b. Suponiendo que le indican que realice un análisis posterior, pero ahora con los datos de la
primera semana del mes de abril. Considerando que la media para el mes de marzo eran 10
accidentes fatales diarios, pero luego en abril esta aumentó a 50. ¿Qué implicancias tendría
este cambio con respecto a la dispersión de sus datos?

Como se puede observar en los gráficos que se presentan a continuación, cuando


representamos una distribución de Poisson, al aumentar el valor de lambda de 10 a 50 la
dispersión de los datos aumenta. Esto se debe a que lambda lo que representa es la media, lo
que es equivalente a la varianza en este tipo de distribución, según vimos en clases3. En
términos de Agresti4 (2007), se determina que la distribución de Poisson es unimodal y está
sesgada a la derecha sobre los posibles valores 0, 1, 2, … Tiene un único parámetro µ> 0,
que es tanto su media como su varianza. Por lo tanto, cuando los recuentos son más grandes,
en promedio, también tienden a ser más variables, si tenemos que µ=20 hay mayor
variabilidad que cuando se tiene µ=2. A medida que la media aumenta, el sesgo disminuye y
la distribución se vuelve más acampanada (ver figura 1).


2
Clase 1: Conceptos matemáticos claves y distribución de probabilidad (SOL3070). Revisado el 5 de agosto de 2018
3
Clase 1: Conceptos matemáticos claves y distribución de probabilidad (SOL3070). Revisado el 5 de agosto de 2018
4
Página 74
Figura 1: Distribución de Poisson teniendo media 6 y 2

Esto mismo se puede ver reflejado en una gráfica de distribución de Poisson si tuviéramos
una media igual a 10 y una media igual a 50 (ver figura 2 y 3). Lo que demuestran los gráficos
es que a medida que la media de muertes fatales por accidentes aumentó, la dispersión de los
datos también lo hizo, lo que provocó que el sesgo se fuese moviendo hacia la izquierda y
comienza a parecer una distribución normal.

Figura 2: Muertes fatales por accidente de tránsito con media=10


Figura 3: Muertes fatales por accidente de tránsito con media=50

4. La Encuesta Nacional COES 2014 tiene por objetivo el mapear los conflictos y la cohesión
social en Chile. La encuesta es representativa a nivel nacional y fue aplicada a chilenos y
chilenas mayores de 18 años. Dentro de las preguntas realizadas, se consultó sobre el nivel
de acuerdo con respecto a la justificación de la pena de muerte. En este contexto, la Tabla 1
muestra la distribución de las respuestas respecto si perciben violencia en Chile.

Tabla 1: justificación pena de muerte


No justifica (0) Justifica (1)
Percibe violencia (1) 799 879
No percibe violencia (0) 85 82

a. Calcule e interprete la diferencia de proporciones y evalúe si la diferencia es


estadísticamente significativa (muestre sus cálculos y/o código).

# PREGUNTA 4
# A)
979/1778 # 0.5506187
82/167 # 0.491018
P1=0.5506187 # Probabilidad de justificar la pena de muerte si percibe
violencia Pr(justifica | percibe)
P2=0.491018 # Probabilidad de justificar la pena de muerte si no percibe
violencia Pr(justifica | no percibe)
P3=1-P1 # Probabilidad de fallo
P4=1-P2 # Probabilidad de fallo

dif <-P1-P2
dif # 0.0596007 diferencia simple, ver si es estadísticamente
significativa

#Aplicando la diferencia de proporciones de Agresti en intervalo de
confianza
(P1*P3)/1778 # 0.0001391663
(P2*P4)/167 # 0.001496523
0.0001391663 + 0.001496523 # 0.001635689
sqrt(0.001635689)
SE <- 0.04044365

dif-1.96*SE # -0.01966885 # límite inferior
dif+1.96*SE # 0.1388703 # límite superior

La diferencia entre las proporciones de la probabilidad de justificar la pena de muerte y


percibir violencia y la probabilidad de justificar la muerte y no percibir violencia es de
0.0596. Para ver si es estadísticamente significativa, se aplican intervalos de confianza lo que
concluye que dado que se contiene el 0 entre el límite inferior y el límite superior, a un 95%
de nivel de confianza la diferencia no es estadísticamente significativa.

b. Estime el riesgo relativo para los individuos que justifican la pena de muerte respecto a su
percepción de violencia en Chile (muestre sus cálculos y/o código).

#B) RIESGO RELATIVO


RR <- (P1/P2)
RR # 1.121382

El riesgo relativo indica hay asociación positiva –aunque es débil– de justificar la pena de
muerte y la percepción de violencia. En este sentido, la exposición a la percepción de
violencia incita una mayor frecuencia en la justificación del aborto. Se concluye que la
proporción de personas que justifican la pena de muerte es 12% más alto entre quienes
perciben violencia que entre quienes no la perciben.

c. Respecto del punto (a) y (b), argumente cuál es el criterio que usted emplearía para elegir
uno de los dos estadísticos.

En este caso conviene más emplear el riesgo relativo para entender la asociación entre la
probabilidad de justificar la pena de muerte y percibir violencia y justificar la pena de muerte
y no percibir violencia dado que este estadístico estima la razón de probabilidad de éxito
entre ambos grupos y su resultado es más descriptivo a primera vista. Esto se justifica porque
tal como indica Agresti (2007)5, una diferencia entre dos proporciones es más importante


5
Página 27
cuando ambas proporciones están cercanas a 0 o a 1 que cuando están cerca del medio del
rango. Así, la diferencia entre 0.010 y 0.001 es la misma que entre 0.410 y 0.401, es decir,
0.009, no obstante, la primera diferencia es la más relevante porque significa que hubo 10
veces más de probabilidad de éxito en un grupo que el otro. Con estas mismas cifras el riesgo
relativo del primer ejemplo sería de 0.010 / 0.001 = 10.0, mientras que las proporciones 0.410
y 0.401 tienen un riesgo relativo de 0.410 / 0.401 = 1.02.

En nuestro caso, las probabilidades están muy cercanas a la mitad del rango –0.55 y 0.49 en
cada grupo de comparación– por lo que la diferencia de proporciones no dice mucho por sí
misma –sin aplicar intervalos de confianza para establecer su significancia estadística–. Por
lo mismo, poder estimar el riesgo relativo nos da una ventaja en el análisis ya que podrá dar
más detalles respecto a la asociación entre las variables en nuestros grupos de comparación.
En primer lugar, podremos saber que el valor será muy cercano a uno –dado que las
probabilidades son muy similares– y que por lo mismo, esto equivale a ver una cierta
independencia en el grupo. Y si bien es mayor a 1, no es en una magnitud tan alejada, por lo
que puede indicar una asociación leve entre la justificación de la pena de muerte y percibir
violencia y la justificación de la pena de muerte y no percibir violencia. Así, la respuesta es
casi independiente al grupo al que se pertenezca.

Finalmente, hay que destacar que ambas estimaciones tienen sus consideraciones. Usar la
diferencia de proporciones solo para comparar dos grupos puede ser engañoso cuando las
proporciones son ambas cercanas a cero (Agresti, 2007). Y también, la distribución muestral
del riesgo relativo es muy sesgada a menos que los tamaños muestrales sean suficientemente
grandes (Agresti, 2007).

d. Calcule e interprete la razón de Odds para la asociación señalada (muestre sus cálculos y/o
código). 


#D) RAZÓN DE ODDS


odds1 = P1/(1-P1) # calculo las odds para cada probabilidad
odds2 = P2/(1-P2)

rodds = odds1/odds2 # calculo la razón de odds
rodds # 1.270109

Los odds de justificar la pena de muerte en las personas que perciben violencia es 1.27 veces
más alta que las personas que no perciben violencia.

e. Calcule e interprete el Intervalo de Confianza a un 95 % de confianza para la razón de odds


del punto (d).


#E)
ASE <- sqrt((1/799) + (1/979) + (1/85) + (1/82)) # calculo el error
estándar asintótico
ASE # 0.1619656
logodr <- log(rodds) # calculo el logaritmo de odds
logodr # 0.2391027 logaritmo de odds para intervalos

# calculo el intervalo de confianza para 95%
exp(logodr-1.96*ASE) # 0.9246409 límite inferior
exp(logodr+1.96*ASE) # 1.744652 límite superior

Al calcular el intervalo de confianza para la razón de odds, se obtiene que el límite inferior
es de 0.925 y el límite superior es de 1.745, por lo que se concluye que al contener el 1, no
hay diferencias estadísticamente significativas a un 95% de nivel de confianza. Esto se
explica hay una igualdad en los logaritmos de odds ratio de justificar la pena de muerte
percibiendo violencia y los odds ratio de justificar la pena de muerte y no percibir violencia.
En suma, esto equivale a decir que la exposición a la violencia no incide en la pena de muerte.

f. Posteriormente, señale bajo qué contexto el riesgo relativo y la razón de odds tenderían a
converger en sus valores.

Según Agresti (2007)6, cuando el valor de la probabilidad de éxito del primer grupo (P1) y
la probabilidad de éxito del segundo grupo (P2) son ambos cercanos a cero, la fracción de
esta expresión es igual a 1, aproximadamente. Por lo mismo, como se puede ver en la fórmula
a continuación, si el riesgo relativo se multiplica por la probabilidad de fallo de ambos grupos
de forma invertida, esta será semejante a los odds ratio.

𝑃1/(1 − 𝑃1) 1 − 𝑃2
𝑂𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 = = 𝑅𝑖𝑒𝑠𝑔𝑜 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑜 ×
𝑃2/(1 − 𝑃2) 1 − 𝑃1

5. En la Encuesta CEP para el periodo de abril-mayo de 2017, se realizó una pregunta que
busca conocer la actitud de las personas respecto a la discusión sobre el aborto en Chile. Así
también, se les consultó por sus preferencias ideológicas, las cuales fueron clasificadas en
tres categorías.

Tabla 2: Actitud hacia el aborto


Izquierda Centro Derecha Total
Aborto prohibido 41 130 48 219
Aborto en causales 103 236 91 430
Aborto libre 70 76 36 182
214 442 175 831

a. En este sentido, ¿Es posible afirmar que la actitud hacia el aborto es independiente respecto
a las preferencias ideológicas de las personas? Realice un test estadístico que nos permita
responder con certeza esta interrogante.


6
Página 32
# comprobamos en terminos de probabilidad conjunta y probabilidades
marginales
41/831 # 0.04933815 probabildiad de estar a favor de la prohibicion del
aborto y ser de izquierda
219*831 # 181989
214*831 # 177834
181989/177834 # 1.023364 distinto a 0.04933815, por lo tanto, podemos
tener una primera idea de que tener una posición respecto al aborto no
es independiente de las preferencias políticas

# comprobamos esto ahora con chi cuadrado
aprohib=c(41,130,48)
aencaus=c(103,236,91)
alibr=c(70,76,36)
tabla2=as.table(rbind(aprohib, aencaus, alibr))
tabla2
chi2 <- chisq.test(tabla2)
chi2 # X-squared = 22.651, df = 4, p-value = 0.0001486

Con los resultados obtenidos por chi cuadrado, es posible determinar que obteniendo un valor
p de 0.0001, a un 95% de nivel de confianza las diferencias son estadísticamente
significativas, por lo que no se rechaza la hipótesis nula, la cual indica independencia entre
las variables. De esta forma, se concluye que la actitud hacia el aborto no es independiente
respecto a las preferencias ideológicas de las personas.

b. En base al cálculo de los residuos estandarizados de la tabla, identifiquen cuales son los
tres residuos estandarizados más grande (en valor absoluto)? ¿Dada su magnitud, pueden
considerarse problemáticos?

# como sacar residuos estandarizados:


# obtenemos los valores esperados
(214*219)/831 # 56.39711
(442*219)/831 # 116.4838
(175*219)/831 # 46.11913

(214*430)/831 # 110.7341
(442*430)/831 # 228.7124
(175*430)/831 # 90.55355

(214*182)/831 # 46.86883
(442*182)/831 # 96.80385
(175*182)/831 # 38.32732

# los pasamos a tabla para observar ambas frecuencias (comparadas con la
tabla de frecuencias observadas)
a1=c(56,116,46)
a2=c(111,229,91)
a3=c(47,97,38)
tabla3=as.table(rbind(a1,a2,a3))
tabla3 # muestra la tabla de frecuencias esperadas
tabla2 # muestra la tabla de frecuencias observadas

#diferencia absoluta de frecuencias esperados y observadas, que nos
arrojan residuos estandarizados de poisson
56-41 # 15
116-130 # 14
46-48 # 2
111-103 # 8
229-236 # 7
91-91 # 0
47-70 # 23
97-76 # 21
38-36 # 2

#estimación de residuos estandarizados formula Agresti (2.4.5)
res1 <- (41-56)/sqrt(56*(1-0.263)*(1-0.257)) # -2.708
res2 <- (130-116)/sqrt(116*(1-0.263)*(1-0.531)) # 2.2109
res3 <- (48-46)/sqrt(46*(1-0.263)*(1-0.210)) # 0.386

res4 <- (103-111)/sqrt(111*(1-0.517)*(1-0.257)) # -1.267
res5 <- (236-229)/sqrt(229*(1-0.517)*(1-0.531)) # 0.9718
res6 <- 0 # 0

res7 <- (70-47)/sqrt(47*(1-0.219)*(1-0.257)) # 4.404
res8 <- (76-97)/sqrt(97*(1-0.219)*(1-0.531)) # -3.523
res9 <- (36-38)/sqrt(38*(1-0.219)*(1-0.210)) # -0.413

Los residuos estandarizados no es más que la diferencia entre la frecuencia esperada y la


observada. De acuerdo a lo revisado en Agresti (2007), los residuos estandarizados pueden
estimarse considerando:

𝑛9: − 𝜇9:
𝜇9: (1 − 𝑝9= )(1 − 𝑝=: )
De lo anterior, obtenemos la siguiente tabla:

Tabla 3: Actitud hacia el aborto, con residuos estandarizados


Izquierda Centro Derecha Total
Aborto prohibido 41 130 48 219
(-2.708) (2.211) (0.386)
Aborto en causales 103 236 91 430
(-1.267) (0.972) (0.0)
Aborto libre 70 76 36 182
(4.404) (-3.523) (-0.413)
Total 214 442 175 831

En este caso, los tres valores de residuos estandarizados más grandes en términos absolutos
son para quienes están a favor del aborto libre y son de izquierda (4.404), quienes están a
favor del aborto libre y son de centro (-3.523) y quienes están a favor de la prohibición del
aborto y son de izquierda (-2.708). Dada la magnitud, estos valores podrían considerarse
problemáticos si es que supusiéramos independencia de las variables, porque lo que indican
es que habrían más personas en estas casillas cuyos residuos son positivos, y menos personas
cuyos residuos son negativos, de lo que la hipótesis de independencia predice. No obstante,
en este caso sabemos mediante los otros test que la actitud hacia el aborto no es independiente
a la ideología, por lo que, especialmente estos casos de alto valor, confirman la dependencia
de las variables.

Pese a todo lo anterior, Agresti (2002) precisa en decir que la naturaleza de las dependencias
puede también verse reflejada en los residuos estandarizados, y que por esto se hacen análisis
celdas a celdas, pues hay que analizar si la frecuencia de una casilla es simplemente al azar
o corresponde a la realidad. Por lo mismo, al ser los residuos estandarizados mayores a 2 en
términos absolutos, esta podría estar reflejando un desajuste con la hipótesis nula (de
independencia) porque en términos de desviaciones estándar podrían estar mostrando casos
sumamente dispersos, lo que podría estar dando a entender dependencias que no se dan en la
realidad, y por lo mismo, conducir a conclusiones erróneas. Estas aclaraciones son más
relevantes cuando se tienen mayores grados de libertad, por lo mismo no queda claro si en
este caso habría que dudar de la naturaleza de la dependencia, porque dentro de todo, la suma
de nuestros residuos es sumamente cercano a 0 y nuestros grados de libertad son pequeños.

c. Provea una (breve) interpretación sociológica al resultado descrito en la pregunta anterior.

La actitud hacia el aborto no es independiente de la ideología que posean las personas, es


decir, estas variables están asociadas y por eso se puede interpretar que entre las personas de
izquierda lo que mayormente se da es que hay una inclinación hacia la realización del aborto;
mientras que en las personas de centro, a diferencia de las personas de izquierda, tienen un
mayor énfasis en la prohibición del aborto; y finalmente, las personas de derecha dan un
menor apoyo, de forma significativa, al aborto libre, respecto a los otros dos grupos. Dados
los antecedentes, hay un patrón de actitud dependiendo de la ideología.
Bibliografía
Agresti, A. (2007). An introduction to categorical data analysis (Second Edition). Wiley
Intersciencie.

También podría gustarte