Bstat Tema9
Bstat Tema9
Bstat Tema9
1
.
1+ exp( 1 x1 2 x2 p x p )
L( y, ) = yi ln( pi ) + (1 yi ) ln(1 pi ),
i =1
Una vez que hayamos calculado los estimadores mximo-verosmiles (MV) de i's, puede interesarnos el
clculo de intervalos de confianza de estos parmetros, para ello podemos utilizar la estimacin de la
matriz de covarianza de los estimadores MV de los i. El intervalo de confianza del 100*(1-)% puede
calcularse por:
). .
z 1- /2 Var(
i
i
)
Var(
i
Otra va para probar la hiptesis anterior, cuando se consideran varias variables, es utilizando el mximo
de la funcin de verosimilitud. Ejemplificaremos el procedimiento para el caso de dos variables X1 y X2.
Se consideran los siguientes modelos:
Modelo 1: logit(Pr(Y = 1| X 1 )) = + 1X 1.
Modelo 2: logit(Pr(Y = 1| X 2 )) = + 2 X 2 .
Modelo 3: logit(Pr(Y = 1| X 1 , X 2 )) = + 1X 1 + 2 X 2 .
Nos interesa en el modelo 3 probar las hiptesis H0:1=0 y H0:2=0. Sean L1 , L2 y L3 los mximos de la
funcin de verosimilitud para los modelos 1, 2 y 3, respectivamente. Se cumple
1
que: -2ln( L 2) 2ln( L 3) Z 2 donde Z =
, o sea, el estadstico para la primera de las hiptesis.
)
Var(
1
2
)
Var(
2
EJEMPLO: En una sala de terapia se desea estudiar la relacin entre la sobrevivencia y las variables edad
e infarto agudo del miocardio. A continuacin mostramos los resultados del programa RELODI para
datos de 200 pacientes tratados en esa sala.
Salida abreviada de RELODI (Modelo 1)
Nmero de casos para los cuales FALLECIDO es igual a 1: 76
Tamao total de la muestra 200
-2 ln verosimilitud final: 245.91
Coeficiente
-2.1920
0.0373
S.E.
z-score
0.0094
3.8009 EDAD
S.E.
z-score
0.2954
0.8509 INFARTO
S.E.
z-score
0.0094
0.3112
3.8973 EDAD
1.2645 INFARTO
Notemos que este enfoque nos permite probar hiptesis del tipo: H0:p+1=0, p+2=0, ..., p+q=0 en el
modelo: logit(Pr(Y = 1| x)) = + i =1 ixi bastar calcular el mximo de la funcin de verosimilitud
p+q
para este modelo y para el modelo siguiente: logit(Pr(Y = 1| x)) = + i =1 ixi . Se utiliza el siguiente
p
estadstico:
L p
2 = -2ln
,
L
p+q
donde L p+q es el mximo de la funcin de verosimilitud para el primer modelo y L p es el mximo para la
funcin de verosimilitud del segundo modelo. El estadstico, bajo la hiptesis nula, se distribuye como
una q2 .
Para evaluar el grado de concordancia entre los valores observados de Y, y los valores estimados de p
n
2
( y i - p i )
. Esta medida es inestable
p i (1- p i )
caso de que Y=0 o la diferencia de la fecha de la ltima anotacin en la historia clnica y la fecha de
t s - t d si Y = 0
. Se ajusta el siguiente modelo:
deteccin si Y=1, o sea: t =
t e - t d si Y = 1
1
.
Pr(Y = 1| t ) =
1 + exp(- - t )
Salida Abreviada de RELODI
Nmero de casos para los cuales SIGNO es igual a 1: 110
Tamao total de la muestra 300
Coeficiente
1.6642
-0.0168
S.E.
z-score
0.0021
-7.7585 TIEMPO
Se tiene entonces que 1.664 y -0.017. Por tanto, la probabilidad de que un paciente no tenga el
signo a t das de la deteccin de la enfermedad se estima por:
1
.
Pr(Y = 1| t ) =
1 + exp(-1.664 + 0.017t )
De esta manera podemos calcular Pr(Y = 1| t ) para distintos valores de la variable t = 20, 40, 60,..., esta
probabilidad no es ms que la prevalencia de pacientes que a t das no tienen el signo en estudio. En el
figura 1 se presenta la curva de prevalencia estimada por el modelo. Si el ajuste de la curva es adecuado
los datos empricos (proporcin de individuos sin el signo en un grupo de estudio cuya variable t est en
un rango predefinido), sern cercanos a la curva terica.
Variables predictoras
EJEMPLO: Se desea conocer la probabilidad de que un paciente que se ingresa en una sala de terapia
intensiva sobreviva. Para este tipo de estudios es recomendable la definicin de grupos diagnsticos
(conjunto de entidades o enfermedades que tienen en comn afectar a un mismo sistema del organismo),
por tanto en nuestro ejemplo nos limitaremos a algunas de las variables que puedan influir el pronstico
de la evolucin de pacientes con Enfermedades del Sistema Cardiocirculatorio (ESCC):
Edad (aos) X1
Enfermedad Hipertensiva (S/N) X2
Insuficiencia Cardiaca (S/N) X3
Disrritmia (S/N) X4
Infarto Agudo del Miocardio (S/N) X5
Enfermedad Pulmonar Obstructiva Crnica y afecciones afines (S/N) X6
Ingresos anteriores por estas causas (#) X7
Se estudiarn entonces un grupo de pacientes que ingresen a la sala de terapia intensiva con diagnstico
de ESCC, se les medirn las variables anteriores, que definiremos como 1 si hay presencia del problema
y como 0 si no. Se espera entonces al egreso de cada paciente, si egresa vivo la variable Y toma valor 1,
en caso contrario toma valor 0. La matriz de los datos de este estudio puede ser, por ejemplo:
Y
1
1
:
0
X1
51
54
:
46
X2
0
0
:
0
X3
0
0
:
1
X4
0
0
:
1
X5
0
1
:
0
X6
0
0
:
0
X7
0
1
:
0
1
.
1 + exp(- - 1 x 2 - 2 x 2 - ... - 7 x 7)
S.E.
z-score
0.0782
0.6175
0.7488
0.6801
0.6823
0.6401
0.2066
-3.9837
-2.2126
-4.4826
-3.7970
-3.3668
0.5066
-3.2968
EDAD
HIPERTENSION
INSUFICIENCIA
DISRRITMIA
INFARTO
EPOC
INGRESOS
Dados los parmetros estimados la probabilidad de sobrevivencia Pr(Y = 1| x1, x 2, ..., x 7) est dada por:
Pr(Y = 1| x1, x 2, ..., x 7) =
1
.
1 + exp(-22.2 + 0.3 x1 + 1.4 x2 + 3.4 x3 + 2.6 x4 + 2.3x5 0.3x6 + 0.7 x7 )
Notemos como disminuye la probabilidad de sobrevivencia con la edad, con la cantidad de ingresos
previos y la conjuncin de varias patologas.
De esta misma manera podemos contemplar variables referentes a procedimientos teraputicos,
determinndose cuales son mejores (ofrezcan una mayor probabilidad de sobrevivencia) segn las
condiciones del paciente.
Anlisis de Factores de Riesgo:
La regresin logstica puede utilizarse como mtodo para la estimacin de la razn de disparidad (odds
ratio OR). Veamos como obtenemos el OR en el caso de una variable independiente X, tenemos
Pr(Y = 1| X = 1) Pr(Y = 0 | X = 0)
que: OR =
,
y
si
asumimos
el
siguiente
modelo:
Pr(Y = 0 | X = 1) Pr(Y = 1| X = 0)
Pr(Y = 1| X )
logit(Pr(Y = 1| X )) = ln
= + X que para X=1 y X=0 toma las siguientes expresiones:
Pr(Y = 0 | X )
Pr(Y = 1| X = 1)
Pr(Y = 1| X = 0)
y
de
donde
obtenemos,
ln
ln
= +
= ,
Pr(Y = 0 | X = 1)
Pr(Y = 0 | X = 0)
Pr(Y = 1| X = 1) Pr(Y = 0 | X = 0)
ln(OR ) = ln
= u OR = exp( ) . Por tanto probar la hiptesis
Pr(Y = 0 | X = 1) Pr(Y = 1| X = 0)
H0:OR=1 es equivalente a la hiptesis H0:=0.
(X X )
i
i =1
Controles
Alcohol
68
32
No Alcohol
32
68
El odds ratio estimado es OR=4.52 con un intervalo de confianza igual a (2.39, 8.55). Si estratificamos
por la variable fumar, obtenemos:
Controles
Alcohol
64
16
No Alcohol
16
Controles
Alcohol
16
No Alcohol
16
64
S.E.
z-score
0.3031
4.972609 alcohol
Interv de conf (95%)
Odds Ratio
Lim. inf.
Lim. sup.
4.5156
2.4926
8.1805
Coefic.
1.5057
Variable
alcohol
En este caso solo consideramos la variable alcohol, y por tanto obtenemos un resultado similar a la
primera tabla.
Salida Abreviada de RELODI
Coeficiente
-1.3862
0.0000
2.7725
Coefic.
0.0000
2.7725
S.E.
z-score
0.4419
0.4419
0.0000 alcohol
6.2735 fumar
Interv de conf (95%)
Odds Ratio
Lim. inf.
Lim. sup.
1.0000
0.4205
2.3778
15.9991
6.7284
38.0436
Variable
alcohol
fumar
Se obtiene entonces el OR=1.00 ajustado por la variable fumar, que es igual al OR de Mantel-Haenszel.
Si bien en un ejemplo como este en que slo hay 2 variables independientes dicotmicas, el anlisis
estratificado es recomendable por su facilidad y comprensin, a medida que el nmero de variables crece
o se consideran variables con ms categoras, el anlisis estratificado se hace muy laborioso. Por
ejemplo, si consideramos 5 variables dicotmicas habra que calcular 24=16 tablas de 2x2. Si alguna de
las variables independientes es continua se deber clasificar la misma con la consiguiente prdida de
informacin, en esos casos la regresin logstica es un procedimiento sumamente til.
Evaluacin de la Interaccin:
Consideremos dos factores de exposicin X1 y X2 (variables dicotmicas) podemos definir el riesgo
R ij = Pr( D = 1| X 1 = i, X 2 = j ) para los distintos niveles de exposicin a X1 y X2, y calcular el OR para
cada uno de estos niveles por: ORij =
R ij.(1- R 00)
.
R 00.(1- R ij )
La hiptesis nula de no interaccin bajo un modelo multiplicativo es: H0:OR11=OR10 OR01, que puede
contrastarse utilizando el siguiente modelo de regresin logstica:
1
,
Pr(Y = 1| X 1, X 2, X 1 X 2) =
1 + exp(- - 1 X 1 - 2 X 2 - 3 X 1 X 2)
OR11
pues se tiene la siguiente igualdad: 3 = logit
.
OR10OR01
No fumadores
Zona de
Residencia
Casos
Controles
Casos
Controles
Rural
520
180
300
100
Urbana
30
220
150
500
Coefic.
2.4607
S.E.
z-score
0.1083
22.7157 FUMAR
Variable
FUMAR
Coefic.
0.6061
S.E.
z-score
0.0905
6.6907 CAMPO
Variable
CAMPO
Algo que no esperamos, la variable vivir en zona rural aparece asociada al cncer de pulmn.
Veamos si la variable FUMAR es de confusin?
Salida Abreviada de RELODI
Coeficiente
-1.3104
2.5751
-0.2912
Coefic.
2.5751
-0.2912
S.E.
z-score
0.1195
0.1175
21.5457 FUMAR
-2.4786 CAMPO
Interv
Odds Ratio
13.1337
0.7473
de conf (95%)
Lim. inf.
Lim. sup.
10.3908
16.6008
0.5935
0.9408
Variable
FUMAR
CAMPO
Notemos que el OR ajustado por la variable FUMAR (OR=0.7473) nos indica que vivir en zona rural
es un factor "protector" del cncer de pulmn. FUMAR acta como variable de confusin en esa
relacin.
3) logit(Pr(Y = 1| X 1 , X 2 , X 1 X 2 )) = + 1X 1 + 2 X 2 + 3X 1 X 2 .
Salida Abreviada de RELODI
Coeficiente
-1.2039
2.3025
-0.7884
0.7507
Coefic.
2.3025
-0.7884
0.7507
S.E.
z-score
0.1483
0.2157
0.2595
15.5240 FUMAR
-3.6545 CAMPO
2.8925 CAMPO*FUMAR
Interv
Odds Ratio
10.0000
0.4545
2.1185
de conf (95%)
Lim. inf.
Lim. sup.
7.4772
13.3738
0.2978
0.6937
1.2738
3.5233
10
Variable
FUMAR
CAMPO
CAMPO*FUMAR
Notemos que el coeficiente 3 es distinto de cero, por tanto se concluye que existe interaccin entre
ambos factores.
(1- )
Si utilizamos el siguiente fichero de datos podemos estimar: OR11 = R11 R11 :
R 00(1- R11)
1,agrupados,CANCER,CAMPO*FUMAR
1,520,1
1,150,0
0,180,1
0,500,0
4) logit(Pr(Y = 1| X 1 X 2 )) = + 3X 1 X 2
Salida Abreviada de RELODI
Coeficiente S.E.
-1.2039
2.2648
0.1270
Coefic.
2.2648
z-score
17.8243 CAMPO*FUMAR
Lim. sup.
12.3528
Variable
CAMPO*FUMAR
No expuestos a E
Casos
Controles
Casos
Controles
Expuestos a F
110
390
380
2620
No expuestos a F
90
1410
20
980
11