Análisis de Modelos de Regresion Logistica

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 26

SEMINARIO DE POSGRADO

ANÁLISIS DE MODELOS DE
REGRESION LOGISTICA
La regresión logística

El objetivo primordial que resuelve


la regresión logística es modelar
cómo influye en la probabilidad de
aparición de un suceso, por lo
general dicotómico, la presencia o
no de diversos factores y el valor o
nivel de los mismos.
La regresión logística

Los modelos de regresión logística son


modelos de regresión que permiten estudiar si
una variable binomial depende, o no, de otra u
otras variables (no necesariamente
binomiales): Si una variable binomial de
parámetro p es independiente de otra variable
X, se cumple p=p|X, por consiguiente, un
modelo de regresión es una función de p en X
que a través del coeficiente de X permite
investigar la relación anterior.
La regresión logística
Nota Metodológica 1

Se dice que un proceso es binomial cuando sólo


tiene dos posibles resultados: "éxito" y "fracaso“.
Un proceso binomial está caracterizado por la
probabilidad de éxito, representada por p, la
probabilidad de fracaso se representa por q y,
evidentemente, ambas probabilidades están
relacionadas por p+q=1. En ocasiones, se usa el
cociente p/q, denominado "odds“ (RIESGO
RELATIVO) y que indica cuánto más probable es
el éxito que el fracaso, como parámetro
característico de la distribución binomial.
La regresión logística

El odds asociado a un suceso es el cociente entre la


probabilidad de que ocurra frente a la probabilidad
de que no ocurra:

Una de las características que hace tan interesante


la regresión logística es la relación que este modelo
guarda con un parámetro de cuantificación de
riesgo conocido como "odds ratio" (razón de
momios).
La regresión logística

Si utilizamos cómo variable dependiente la


probabilidad p de que ocurra un determinado suceso y
construimos la siguiente función:

tenemos una variable que puede tomar cualquier


valor a través de una ecuación bajo la forma:

donde ln significa logaritmo neperiano, a0 y a1 son


constantes y X es una variable que puede ser aleatoria
o no, continua o discreta.
La regresión logística
Nota Metodológica 2

Si clasificamos el valor de la variable respuesta como 0


cuando no se presenta un suceso y con 1 cuando sí está
presente, y buscamos cuantificar la posible relación entre
ese suceso y alguna variable independiente, podríamos
caer en error de utilizar una regresión lineal: y = a + bx, y
estimar, a partir de nuestros datos y por el procedimiento
de mínimos cuadrados, los coeficientes a y b de la
ecuación. Sin embargo, y aunque esto es posible
matemáticamente, nos conduce a la obtención de
resultados absurdos, ya que cuando se calcule la función
obtenida para diferentes valores de la variable X se
obtendrá resultados que, en general, serán diferentes de 0
y 1, ya que esa restricción no se impone en la regresión
lineal, en la que la respuesta puede tomar cualquier valor.
Función logística

El modelo de regresión logística modeliza la


probabilidad de un proceso binomial como la
función logística de una combinación lineal
de la(s) variable(s) independiente(s).
La regresión logística

Hay otras formas equivalentes de poner el modelo,


que para ciertas aplicaciones son más cómodas de
usar:

Estas dos últimas expresiones permiten calcular


directamente la probabilidad del proceso binomial
para los distintos valores de la variable X.
Análisis de regresión logística

❑ La regresión logística es un caso particular de


regresión en donde la variable dependiente es
categórica. La técnica no impone restricciones tan
fuertes sobre la distribución de los errores.
❑ La estimación de los coeficientes de regresión se
hace a partir de los datos, pero no se aplica el método
de mínimos cuadrados sino de máxima verosimilitud.
❑ A igual que la regresión lineal, la regresión logística
a) Evalúa Modelos Explicativos; b) Estima fuerza y
sentido de factores; y c) Predice probabilidades de
que un determinado evento ocurra.
Análisis de regresión logística

❑ Permite generar y evaluar un MODELO


EXPLICATIVO a partir de una o varias variables
independientes y una variable dicotómica o
categórica ordinal o no ordinal con más de dos
categorías.

❑ Ejemplos: En qué medida ciertas características


socio-demográficas influyen en que una población
vote a determinado partido, o venda su fuerza de
trabajo en el mercado, o no sienta depresión
psicológica?
Análisis de regresión logística
REQUISITOS Y ETAPAS

❑ Recodificación de las variables independientes


categóricas u ordinales en variables “dummy” y
de la variable dependientes en 0 y 1.
❑ Evaluar efectos de confusión y de interacción del
modelo explicativo.
❑ Evaluación de la bondad de ajuste de los modelos
a través de los Seudo R2 y la tabla de
clasificación de casos.
❑ Análisis de la fuerza, sentido y significancia de los
coeficientes, sus exponenciales y estadísticos de
prueba (Wald).
Análisis de regresión logística

La interacción y la confusión son dos conceptos


importantes cuando se usa la técnica de regresión
con el objetivo de generar modelos explicativos,
que tienen que ver con la interferencia que una o
varias variables pueden realizar en la asociación
entre otras.

Existe confusión cuando la asociación entre dos


variables difiere significativamente según que se
considere, o no, otra variable. Existe interacción
cuando la asociación entre dos variables varía
según los diferentes niveles de otra u otras
variables.
Análisis de regresión logística

El modelo más sencillo que hace explícita la


interacción entre dos variables X1 y X2 es:

ln(p/q) = a0 + a1 X1 + a2 X2 + a3 X1 X2

Contrastar la existencia de interacción entre X1 y


X2 es contrastar si el coeficiente a3 es cero (no
hay interacción), o distinto de cero (existe
interacción). Nótese que para poder interpretar
así este contraste es necesario que en el modelo
figuren las variables X1, X2 y X1X2.
Análisis de regresión logística

Contrastar la existencia de confusión requiere


comparar los coeficientes de regresión obtenidos
en dos modelos diferentes y si hay diferencia,
existe la confusión. Para dicha comparación no se
precisa realizar un contraste de hipótesis
estadístico ya que aunque la diferencia encontrada
sea debida al azar, representa una distorsión que la
estimación ajustada corrige. Será el investigador
quién establezca el criterio para decidir cuando hay
diferencia. Lo habitual es considerar que existe
confusión cuando la exponencial del coeficiente
(Exp (B)) cambia en más del 10%.
Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO

◼ “La participación en el mercado de trabajo


está condicionada por diversos factores
económicos, sociales y culturales. […] La
definición de los roles masculinos y femeninos
ubica a los varones como principales
responsables del sostén económico de los
hogares y […] directamente asociados al
mundo laboral […] Las mujeres […] como
principales responsables de las tareas de
reproducción social en el ámbito doméstico”.
Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO

◼ Total number of cases: 16814 (Unweighted)


◼ Number of selected cases: 16814
◼ Number of unselected cases: 0

◼ Number of selected cases: 16814


◼ Number rejected because of missing data: 1467
◼ Number of cases included in the analysis: 15347
Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO

Dependent Variable Encoding:


◼ Original Internal
◼ Value Value
◼ 0,00 0 (ACTIVOS)
◼ 1,00 1 (INACTIVOS)
Parameter
Value Freq Coding
(1)
◼ H13
◼ Varón 1 7232 ,000
◼ Mujer 2 8115 1,000
◼ XMEN5
◼ Sin menores de 5 años ,00 9487 ,000
◼ al menos un menor 1,00 5860 1,000

◼ Interactions:
◼ INT_1 H13(1) by XMEN5(1)
Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO
Dependent Variable.. XCDEA Condición de Actividad
Beginning Block Number 0. Initial Log Likelihood Function

-2 Log Likelihood 16339,972

Beginning Block Number 1. Method: Enter


Variable(s) Entered on Step Number
1. XMEN5 Presencia de menores de 5 años o menos
H13 Sexo

Estimation terminated at iteration number 4 because


Log Likelihood decreased by less than ,01 percent.
◼ -2 Log Likelihood 14057,404
◼ Goodness of Fit 15645,491
◼ Cox & Snell - R^2 ,138
◼ Nagelkerke - R^2 ,211
Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO: INACTIVOS

◼ Classification Table for XCDEA


◼ The Cut Value is ,78
Predicted
Observed Activo Inactivo Percent
A I Correct

Activo A 6.774 5.130 56,91%


Inactivo I 458 2.985 86,70%
Overall 63,59%

Variable B S.E. Wald Df Sig R Exp(B)

H13(1) 2,1547 ,0535 1620,21 1 ,0000 ,3147 8,6251

XMEN5(1 ,2425 ,0424 32,7129 1 ,0000 ,0434 1,2744

Constant -2,7914 ,0516 2926,26 1 ,0000


Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO: ACTIVOS

◼ Classification Table for XCDEA


◼ The Cut Value is ,78
Predicted
Observed Inactivo Activo Percent
I A Correct

Inactivo I 2.985 458 86,70%


Activo A 5.130 6.774 56,91%
Overall 63,59%

Variable B S.E. Wald Df Sig R Exp(B)

H13(1) -2,1547 ,0535 1620,21 1 ,0000 -,3147 ,1159

XMEN5(1 -,2425 ,0424 32,7129 1 ,0000 -,0434 ,7847

Constant 2,7914 ,0516 2926,26 1 ,0000


Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO: INACTIVOS

Beginning Block Number 2. Method: Enter


•Variable(s) Entered on Step Number
•1.. H13 * XMEN5

Variable B S.E. Wald Df Sig R Exp(B)

H13(1) 1,7112 ,0626 746,165 1 ,0000 ,2301 5,5357

XMEN5 -,8638 ,1170 54,4647 1 ,0000 -,0611 ,4216

INT_1 1,3302 ,1262 111,185 1 ,0000 ,0881 3,7818

Constant -2,4388 ,0549 1974,89 1 ,0000


Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO: ACTIVOS

Beginning Block Number 2. Method: Enter


•Variable(s) Entered on Step Number
•1.. H13 * XMEN5

Variable B S.E. Wald Df Sig R Exp(B)

H13(1) -1,7112 ,0626 746,165 1 ,0000 -,2301 ,1806

XMEN5 ,8638 ,1170 54,4647 1 ,0000 ,0611 2,3722

INT_1 -1,3302 ,1262 111,185 1 ,0000 -,0881 ,2644

Constant 2,4388 ,0549 1974,89 1 ,0000


Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO

Beginning Block Number 3. Method: Enter


Variable(s) Entered on Step Number
1.. XQUINTIL Quintiles de ingreso familair per cápita
XH12 Edad
XEDAD2 Edad AL CUADRADO

Estimation terminated at iteration number 5 because


Log Likelihood decreased by less than ,01 percent.

-2 Log Likelihood 13507,734 (14057,404)


Goodness of Fit 15080,288 (15645,491)
Cox & Snell - R^2 ,169 (,138)
Nagelkerke - R^2 ,257 (,211)
Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO: INACTIVOS
Predicted
Observed Activo Inactivo Percent
A I Correct

Activo A 7.557 4.347 63,48%


Inactivo I 620 2.823 81,99%
Overall 67,64%
Variable B S.E. Wald Df Sig R Exp(B)

H13(1) -1,7161 ,0634 732,350 1 ,0000 -,2290 ,1798

XMEN5 1,0891 ,1182 84,8889 1 ,0000 ,0771 2,9716

INT_1 -1,3462 ,1270 112,346 1 ,0000 -,0890 ,2602

XQUINTI ,3088 ,0168 339,416 1 ,0000 ,1556 1,3618


XH12 ,2411 ,0451 28,5608 1 ,0000 ,0437 1,2726
XEDAD2 -,0031 ,0006 23,1655 1 ,0000 -,0390 ,9969
Constant -2,8649 ,7656 14,0034 1 ,0002
Modelos de Regresión Logística
ANÁLISIS DE UN EJEMPLO: ACTIVOS
Predicted
Observed Inactivo Activo Percent
I A Correct

Inactivo I 2.823 620 81,99%


Activo A 4.347 7.557 63,48%
Overall 67,64%

Variable B S.E. Wald Df Sig R Exp(B)

H13(1) 1,7161 ,0634 732,350 1 ,0000 ,2290 5,5626

XMEN5 -1,0891 ,1182 84,8889 1 ,0000 -,0771 ,3365

INT_1 1,3462 ,1270 112,346 1 ,0000 ,0890 3,8428

XQUINTI -,3088 ,0168 339,416 1 ,0000 -,1556 ,7343


XH12 -,2411 ,0451 28,5608 1 ,0000 -,0437 ,7858
XEDAD2 ,0031 ,0006 23,1655 1 ,0000 ,0390 1,0031
Constant 2,8649 ,7656 14,0034 1 ,0002

También podría gustarte