Regressão logística

A regressão logística é uma técnica estatística que tem como objetivo produzir, a partir de um conjunto de observações, um modelo que permita a predição de valores tomados por uma variável categórica, frequentemente binária, a partir de uma série de variáveis explicativas contínuas e/ou binárias.^[1]^[2]

A regressão logística é amplamente usada em ciências médicas e sociais, e tem outras denominações, como modelo logístico, modelo logit, e classificador de máxima entropia. A regressão logística é utilizada em áreas como as seguintes:

Em medicina, permite por exemplo determinar os factores que caracterizam um grupo de indivíduos doentes em relação a indivíduos sãos;
No domínio dos seguros, permite encontrar fracções da clientela que sejam sensíveis a determinada política securitária em relação a um dado risco particular;
Em instituições financeiras, pode detectar os grupos de risco para a subscrição de um crédito;
Em econometria, permite explicar uma variável discreta, como por exemplo as intenções de voto em actos eleitorais.

O êxito da regressão logística assenta sobretudo nas numerosas ferramentas que permitem interpretar de modo aprofundado os resultados obtidos.

Em comparação com as técnicas conhecidas em regressão, em especial a regressão linear, a regressão logística distingue-se essencialmente pelo facto de a variável resposta ser categórica.

Enquanto método de predição para variáveis categóricas, a regressão logística é comparável às técnicas supervisionadas propostas em aprendizagem automática (árvores de decisão, redes neurais, etc.), ou ainda a análise discriminante preditiva em estatística exploratória. É possível de as colocar em concorrência para escolha do modelo mais adaptado para um certo problema preditivo a resolver.

Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros factores. É um modelo linear generalizado que usa como função de ligação a função logit.

Assunções:^[3]^[4]

Relação linear entre o vetor das variáveis explicativas X e o logit da variável resposta Y
Ausência de multicolinearidade
Valor esperado dos resíduos igual a zero
Ausência de heterocedasticidade

Não pressupõe normalidade dos resíduos nem homogeneidade de variâncias.

Por isso torna preferível em situações práticas.

Aplicações

A regressão logística é usada em vários campos, incluindo o aprendizado de máquina (machine learning), a maioria dos campos médicos e ciências sociais. Por exemplo, o Trauma and Injury Severity Score (TRISS), que é amplamente utilizado para prever a mortalidade em pacientes feridos, foi originalmente desenvolvido por Boyd et al. usando regressão logística.^[5] Muitas outras escalas médicas usadas para avaliar a severidade de doenças em pacientes têm sido desenvolvidas utilizando a regressão logística.^[6]^[7]^[8]^[9] A regressão logística pode ser utilizada para prever o risco de desenvolver uma dada doença (por exemplo, diabetes ou doença arterial coronária), baseado em características observadas do paciente (idade, sexo, índice de massa corporal, resultados de vários testes de sangue, etc, etc.).^[10]^[11]^[12] Um outro exemplo de uso da regressão logística seria para prever, por exemplo, se um eleitor votará em um dado partido baseado na idade, na renda, no sexo, na raça, no estado de residência, os votos em eleições precedentes, etc. do eleitor.^[13] A técnica também pode ser utilizada na engenharia, especialmente para predizer a probabilidade de falha em um dado processo, sistema ou produto.^[14]^[15] Ela também é utilizada em marketing na previsão da propensão de um cliente para comprar um produto, interromper a assinatura de um serviço, etc.^[16] Em economia ela pode ser utilizada para prever a probabilidade de uma pessoa estar trabalhando, de um proprietário optar por uma hipoteca. Campos aleatórios condicionais, uma extensão da regressão logística ao dados seqüênciais, são utilizados em processamento de linguagem natural.

Descrição

A regressão logística analisa dados distribuídos binomialmente da forma

Y_{i}\ \sim B(p_{i},n_{i}),{\text{ for }}i=1,\dots ,m,

onde os números de ensaios de Bernoulli n_i são conhecidos e as probabilidades de êxito p_i são desconhecidas. Um exemplo desta distribuição é a percentagem de sementes (p_i) que germinam depois de n_i serem plantadas.

O modelo é então obtido na base de que cada ensaio (valor de i) e o conjunto de variáveis explicativas/independentes possa informar acerca da probabilidade final. Estas variáveis explicativas podem-se ver como um vector X_i k-dimensional e o modelo toma então a forma

p_{i}=\operatorname {E} \left(\left.{\frac {Y_{i}}{n_{i}}}\right|X_{i}\right).\,\!

Os logits das probabilidades binomiais desconhecidas (i.e., os logaritmos dos odds) são modelados como uma função linear dos X_i.

\operatorname {logit} (p_{i})=\ln \left({\frac {p_{i}}{1-p_{i}}}\right)=\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{k}x_{k,i}.

Note-se que um elemento particular de X_i pode ser ajustado a 1 para todo o i obtendo-se um intercepto no modelo. Os parâmetros desconhecidos β_j são habitualmente estimados através de máxima verossimilhança.

A interpretação dos valores estimados do parâmetro β_j é similar aos efeitos aditivos em log odds ratio para uma unidade de mudança na jésima variável explicativa. No caso de uma variável explicativa dicotómica, por exemplo o género, $e^{\beta }$ é o estimador de odds ratio de ter o resultado para, por exemplo, homens comparados com mulheres.

O modelo tem uma formulação equivalente dada por

p_{i}={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x_{1,i}+\cdots +\beta _{k}x_{k,i})}}}.\,\!

Esta forma funcional é habitualmente identificada como um perceptron (ou perceptrão em português europeu) de uma camada simples ou rede neuronal artificial de uma só camada. Uma rede neuronal de uma só camada calcula uma saída contínua em vez de uma função por troços. A derivada de p_i em relação a X = x₁...x_k é calculada na forma geral:

y={\frac {1}{1+e^{-f(X)}}}

onde f(X) é uma função analítica em X. Com esta escolha, a rede de camada simples é idêntica ao modelo de regressão logística. Esta função tem uma derivada contínua, a qual permite ser usada na propagação para trás. Esta função também é preferida pois a sua derivada é facilmente calculável:

y'=y(1-y){\frac {\mathrm {d} f}{\mathrm {d} X}}\,\!

Extensões

Existem diversas extensões do modelo para tratar variáveis dependentes multicategóricas e/ou ordinais, tais como a regressão politómica. A classificação em várias classes por regressão logística é conhecida como logit multinomial. Uma extensão do modelo logístico para ajustar conjuntos de variáveis independentes é o campo aleatório condicional.

Exemplo

Seja p(x) a probabilidade de êxito quando o valor da variável preditiva é x. Então, seja

p(x)={\frac {1}{1+e^{-(B_{0}+B_{1}x)}}}={\frac {e^{B_{0}+B_{1}x}}{1+e^{B_{0}+B_{1}x}}}.

Depois de alguma álgebra prova-se que

{\frac {p(x)}{1-p(x)}}=e^{B_{0}+B_{1}x},

onde ${\frac {p(x)}{1-p(x)}}$ são os odds favoráveis (êxito).

Se tomarmos um valor de exemplo, digamos p(50) = 2/3, então

{\frac {p(50)}{1-p(50)}}={\frac {\frac {2}{3}}{1-{\frac {2}{3}}}}=2.

Quando x = 50, um êxito é duas vezes mais provável que uma falha, ou seja, pode dizer-se simplesmente que os odds são 2 para 1.

Ver também

Referências

↑ «Logistic Regression». Consultado em 12 de dezembro de 2008
↑ «Logistic Regression: Statnotes, from North Carolina State University, Public Administration Program». Consultado em 12 de dezembro de 2008
↑ Fávero, Luiz Paulo Lopes. (2009). Análise de dados : modelagem multivariada para tomada de decisões. [S.l.]: Elsevier. OCLC 457551539
↑ Campbell, Michael J., 1950- (2006). Statistics at square two. [S.l.]: Blackwell. OCLC 65766965
↑ Boyd, C. R.; Tolson, M. A.; Copes, W. S. (1987). «Evaluating trauma care: The TRISS method. Trauma Score and the Injury Severity Score». The Journal of Trauma. 27 (4): 370–378. PMID 3106646. doi:10.1097/00005373-198704000-00005
↑ Kologlu, M.; Elker, D.; Altun, H.; Sayek, I. (2001). «Validation of MPI and PIA II in two different groups of patients with secondary peritonitis». Hepato-Gastroenterology. 48 (37): 147–51. PMID 11268952
↑ Biondo, S.; Ramos, E.; Deiros, M.; Ragué, J. M.; De Oca, J.; Moreno, P.; Farran, L.; Jaurrieta, E. (2000). «Prognostic factors for mortality in left colonic peritonitis: A new scoring system». Journal of the American College of Surgeons. 191 (6): 635–42. PMID 11129812. doi:10.1016/S1072-7515(00)00758-4
↑ Marshall, J. C.; Cook, D. J.; Christou, N. V.; Bernard, G. R.; Sprung, C. L.; Sibbald, W. J. (1995). «Multiple organ dysfunction score: A reliable descriptor of a complex clinical outcome». Critical Care Medicine. 23 (10): 1638–52. PMID 7587228. doi:10.1097/00003246-199510000-00007
↑ Le Gall, J. R.; Lemeshow, S.; Saulnier, F. (1993). «A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study». JAMA. 270 (24): 2957–63. PMID 8254858. doi:10.1001/jama.1993.03510240069035
↑ David A. Freedman (2009). Statistical Models: Theory and Practice. [S.l.]: Cambridge University Press. p. 128
↑ Truett, J; Cornfield, J; Kannel, W (1967). «A multivariate analysis of the risk of coronary heart disease in Framingham». Journal of Chronic Diseases. 20 (7): 511–24. PMID 6028270. doi:10.1016/0021-9681(67)90082-3
↑ Liu, Siyu; Gao, Yue; Shen, Yuhang; Zhang, Min; Li, Jingjing; Sun, Pinghui (dezembro de 2019). «Application of three statistical models for predicting the risk of diabetes». BMC Endocrine Disorders (em inglês). 19 (1). 126 páginas. ISSN 1472-6823. PMC 6878628. PMID 31771577. doi:10.1186/s12902-019-0456-2
↑ Harrell, Frank E. (2001). Regression Modeling Strategies 2nd ed. [S.l.]: Springer-Verlag. ISBN 978-0-387-95232-1
↑ M. Strano; B.M. Colosimo (2006). «Logistic regression analysis for experimental determination of forming limit diagrams». International Journal of Machine Tools and Manufacture. 46 (6): 673–682. doi:10.1016/j.ijmachtools.2005.07.005
↑ Palei, S. K.; Das, S. K. (2009). «Logistic regression model for prediction of roof fall risks in bord and pillar workings in coal mines: An approach». Safety Science. 47: 88–96. doi:10.1016/j.ssci.2008.01.002
↑ Berry, Michael J.A (1997). Data Mining Techniques For Marketing, Sales and Customer Support. [S.l.]: Wiley. 10 páginas

Fontes

Agresti, Alan. (2002). Categorical Data Analysis. [S.l.]: New York: Wiley-Interscience. ISBN 0-471-36093-7
Amemiya, T. (1985). Advanced Econometrics. [S.l.]: Harvard University Press. ISBN 0-674-00560-0
Balakrishnan, N. (1991). Handbook of the Logistic Distribution. [S.l.]: Marcel Dekker, Inc. ISBN 978-0824785871
Green, William H. (2003). Econometric Analysis, fifth edition. [S.l.]: Prentice Hall. ISBN 0-13-066189-9
Hosmer, David W.; Stanley Lemeshow (2000). Applied Logistic Regression, 2nd ed. [S.l.]: New York; Chichester, Wiley. ISBN 0-471-35632-8

Ligações externas

«Web-based logistic regression calculator» (em inglês)
«A highly optimized Maximum Entropy modeling package» (em inglês)
«MALLET Java library, includes a trainer for logistic models» (em inglês)

[1] «Logistic Regression». Consultado em 12 de dezembro de 2008

[2] «Logistic Regression: Statnotes, from North Carolina State University, Public Administration Program». Consultado em 12 de dezembro de 2008

[3] Fávero, Luiz Paulo Lopes. (2009). Análise de dados : modelagem multivariada para tomada de decisões. [S.l.]: Elsevier. OCLC 457551539

[4] Campbell, Michael J., 1950- (2006). Statistics at square two. [S.l.]: Blackwell. OCLC 65766965

[5] Boyd, C. R.; Tolson, M. A.; Copes, W. S. (1987). «Evaluating trauma care: The TRISS method. Trauma Score and the Injury Severity Score». The Journal of Trauma. 27 (4): 370–378. PMID 3106646. doi:10.1097/00005373-198704000-00005

[6] Kologlu, M.; Elker, D.; Altun, H.; Sayek, I. (2001). «Validation of MPI and PIA II in two different groups of patients with secondary peritonitis». Hepato-Gastroenterology. 48 (37): 147–51. PMID 11268952

[7] Biondo, S.; Ramos, E.; Deiros, M.; Ragué, J. M.; De Oca, J.; Moreno, P.; Farran, L.; Jaurrieta, E. (2000). «Prognostic factors for mortality in left colonic peritonitis: A new scoring system». Journal of the American College of Surgeons. 191 (6): 635–42. PMID 11129812. doi:10.1016/S1072-7515(00)00758-4

[8] Marshall, J. C.; Cook, D. J.; Christou, N. V.; Bernard, G. R.; Sprung, C. L.; Sibbald, W. J. (1995). «Multiple organ dysfunction score: A reliable descriptor of a complex clinical outcome». Critical Care Medicine. 23 (10): 1638–52. PMID 7587228. doi:10.1097/00003246-199510000-00007

[9] Le Gall, J. R.; Lemeshow, S.; Saulnier, F. (1993). «A new Simplified Acute Physiology Score (SAPS II) based on a European/North American multicenter study». JAMA. 270 (24): 2957–63. PMID 8254858. doi:10.1001/jama.1993.03510240069035

[Freedman09-10] David A. Freedman (2009). Statistical Models: Theory and Practice. [S.l.]: Cambridge University Press. p. 128

[11] Truett, J; Cornfield, J; Kannel, W (1967). «A multivariate analysis of the risk of coronary heart disease in Framingham». Journal of Chronic Diseases. 20 (7): 511–24. PMID 6028270. doi:10.1016/0021-9681(67)90082-3

[12] Liu, Siyu; Gao, Yue; Shen, Yuhang; Zhang, Min; Li, Jingjing; Sun, Pinghui (dezembro de 2019). «Application of three statistical models for predicting the risk of diabetes». BMC Endocrine Disorders (em inglês). 19 (1). 126 páginas. ISSN 1472-6823. PMC 6878628. PMID 31771577. doi:10.1186/s12902-019-0456-2

[Harrell-13] Harrell, Frank E. (2001). Regression Modeling Strategies 2nd ed. [S.l.]: Springer-Verlag. ISBN 978-0-387-95232-1

[strano05-14] M. Strano; B.M. Colosimo (2006). «Logistic regression analysis for experimental determination of forming limit diagrams». International Journal of Machine Tools and Manufacture. 46 (6): 673–682. doi:10.1016/j.ijmachtools.2005.07.005

[safety-15] Palei, S. K.; Das, S. K. (2009). «Logistic regression model for prediction of roof fall risks in bord and pillar workings in coal mines: An approach». Safety Science. 47: 88–96. doi:10.1016/j.ssci.2008.01.002

[16] Berry, Michael J.A (1997). Data Mining Techniques For Marketing, Sales and Customer Support. [S.l.]: Wiley. 10 páginas

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

v d e Econometria
Regressão linear	Método dos mínimos quadrados · R² · Teste t · Teste F · Valor-p
Regressão não-linear	Modelo linear generalizado · Máxima verossimilhança · Método dos momentos generalizados
Ajustes nos modelos	Correlação serial · Endogeneidade · Heteroscedasticidade · Mínimos quadrados de dois estágios · Multicolinearidade · Variável dummy · Variáveis instrumentais · Regressão quantílica · Teste de especificação de Hausman
Variável dependente limitada	Modelo probit · Regressão logística · Regressão de Poisson
Série temporal	Autocorrelação · Ruído branco · Operador de defasagem · ARMA · ARIMA · GARCH · Dados em painel · Teste de Chow · Teste de Dickey-Fuller aumentado
Softwares	EViews · Gretl · LIMDEP & NLOGIT · IGEst · MATLAB · R · Shazam software · Stata · Octave · JMulTi · PSPP
Pessoas	Adrien-Marie Legendre · Carl Friedrich Gauss · David Dickey · George Box · Gwilym Jenkins · George Chow · Lars Peter Hansen · Ronald Fisher · Wayne Fuller