0% acharam este documento útil (0 voto)
39 visualizações28 páginas

Aula Regressao

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1/ 28

Análise de Regressão

Análise de regressão é uma ferramenta estatística que


utiliza a relação entre duas ou mais variáveis tal que
uma variável possa ser explicada (variável
dependente) pela outra ou outras (variáveis
explicativas,independentes).
Y = aX + b
Exemplos:
Explicar vendas pelos gastos em propaganda.
Incidência de câncer com consumo de cigarro
Consumo x renda
Objetivos da Análise de Regressão

• Determinar como duas ou mais variáveis se relacionam.


• Estimar a função que determina a relação entre duas
variáveis.
• Usar a equação para prever valores futuros da variável
dependente.
Suposições
1) Distribuição Normal Para um valor fixo da variável aleatória X, Y é uma
variável aleatória com distribuição Normal (com média e variâncias
finitas);
Yi ~ N(E(y/x); σ2)
2) Linearidade
Todos os valores médios de Y (E(y/x)=μY/x) permanecem sobre uma reta,
para um particular valor de X.
E(y/x)=μy/x = 0 + 1x

3) Independência
Os valores de Y são estatisticamente independentes.

4) Homocedasticidade
A variância de Y é igual, qq que seja X.
Modelos de Regressão
Modelos de Regressão

Um modelo de regressão contendo somente uma


variável independente é denominado modelo de
regressão simples.

Um modelo com mais de uma variável independente é


denominado modelo de regressão múltiplo.
Regressão Linear Simples

Yi   0  1 X i  i

onde:
Yi é o valor da variável dependente na i-ésima observação;
0 e 1 são parâmetros;
Xi é uma constante conhecida; é o valor da variável independente
na i-ésima observação;
i é um termo de erro aleatório com média zero e variância
constante 2 (E(i)=0 e 2 (i)= 2 )
i e j são não correlacionados (independentes) para i j
(2 (i,j)= 0 )
Modelo de Regressão Linear
InterceptoInclinação
Populacional Variável
Populacional
Independente
Variável
Dependente Yi=0+1Xi +i Erro
Aleatóri
o
Yi
Y i Y = E(Y) = 0 + 1 X

1 Coeficiente
angular Ŷi=b0+b1Xi Modelo estimado
0 i =Yi-Ŷi Resíduo

X
Significado de 0 e 1
Os parâmetros 0 e 1 são denominados coeficientes de regressão.
• 1 é a inclinação da reta de regressão. Ela indica a mudança na
média de Y quando X é acrescido de uma unidade.
• 0 é o intercepto em Y da equação de regressão (é o valor de Y
quando X = 0.
0 só tem significado se o modelo incluir X = 0.

E[Yi ]     Xi
Y 0 1

1

0
0
X
Regressão Linear Múltipla

Yi=0+1Xi1 + 2Xi2 +…+ pXip + i


Yi é o valor da variável dependente na i-ésima observação
0, …, p são parâmetros
Xi1 ,…,Xip são os valores das variáveis independentes na i-ésima
observação
i é um termo de erro aleatório com distribuição normal, média zero e
variância constante 2 (E(i )=0 e 2 (i )= 2 )
i e j são não correlacionados (independentes) para i j
Estimação dos parâmetros
Em geral não se conhece os valores de 0 e 1 .
Eles podem ser estimados através de dados obtidos por amostras.
O método utilizado na estimação dos parâmetros é o método dos
mínimos quadrados, o qual considera os desvios dos Yi de seu
valor esperado:
i = Yi – (0 + 1 Xi)

Em particular, o método dos mínimos quadrados requer que c a


soma dos n desvios quadrados, denotado por Q:

n
Q   [Yi   0  1 X i ]2
i 1
Estimação
A soma dos quadrados dos desvios (єi) é dada por:

n n

 (ε
i 1
i
2
)   (Ŷi  β̂0  β̂1Xi)
i 1

A equação deve ser derivada em relação a 0 e 1, igualando-as a zero


para se obter os valores estimados de 0 e 1.

 ( X  X )(Y  Y )
i i

ˆ 0  Y  ˆ 1 X ̂ 1  i 1
n

 (
i 1
Xi  X ) 2
Inferência

Testando se a inclinação ˆ 1 é zero

• construir intervalos de confiança


0,14
para : ˆ 1
tn-2
0,12

• Teste de hipótese para : 0,1

0,08

H 0 : ˆ 1  0 0,06
t 
* b1
0,04 1a
s (b1 )
Ha : ˆ 1  0 0,02
a/2 a/2
0
0 - 5
-t1-a/2;n-2 10
0 t1-a/2;n-2 15 +
Se ˆ 1= 0 , Y e X são não correlacionados
Rejeitar H 0 que o modelo que inclui X é melhor do
que o modelo que não inclui X mesmo que a linha reta
não não seja a relação mais apropriada.
Inferência

De forma semelhante testa-se ˆ0 é zero

H0 : 0  0
H1 :  0  0

Se a hipótese nula H = 00 não for rejeitada, pode-se excluir


a constante do modelo, já que a reta inclui a origem.
Esse teste é muitas vezes de pouca utilidade. Ex, idade (X) e
Pressão sanguinea.
Inferência
Inferência
Yi  Y  (Yˆi  Y )  (Yi  Yˆ )
Elevando-se ao quadrado os dois lados da igualdade e fazendo-se a soma
para todas as observações de uma determinada amostra tem-se que:

n n n

 (Y
i 1
i  Y )  2
(Y
i 1

ˆi  Y )  (Yi  Yˆ ) 2
2

i 1

Soma de quadrados total Soma de quadrados Soma de quadrados devido


(SQT) devido ao modelo (SQM) Aos resíduos (SQR)
Particionando a soma dos quadrados
n n n

 (Y
i 1
i  Y )   (Y
i 1

ˆi  Y ) 2  (Yi  Yˆ ) 2
i 1

•Se SQT=0, então todas as Se SQR = 0, então as


observações são iguais. observações caem na
Y
•Quanto maior for SQT, linha de regressão.
maior será a variação entre Se a linha de regressão for Quanto maior SQR,
os Y´s. horizontal, de modo maior será a variação
^ 
•SQT é uma medida da
que Y i  Y  então
das observações Y
variação dos Y´s quando 0
ao redor da linha de
não se leva em SQM = 0. regressão.
consideração a variável
independente X.
Particionando a Soma de Quadrados
SQT = SQM + SQR.

Um modo de se saber quão útil será a linha de regressão para a predição é


verificar quanto da SQT está na SQM e quanto está na SQR.
Idealmente, gostaríamos que SQM fosse muito maior que
SQR.

Gostaríamos, portanto, que fosse próximo de 1.

SQM
SQT
Coeficiente de determinação
Uma medida do efeito de X em reduzir a variabilidade do Y é:
SQM SQT - SQR SQR Note que: 0  R2  1
R2    1
SQT SQT SQT

R2 é denominada coeficiente de determinação. Em um modelo de regressão


simples, o coeficiente de determinação é o quadrado do coeficiente de
correlação (r) entre Y e X. Note que em um modelo de regressão simples

Temos dois casos extremos:


• R2 = 1 todas r asobservações
R 2   1 caem
r  1na linha de regressão ajustada. A
variável independente X explica toda a variação nas observações.
• R2 = 0 isto ocorre quando b1 = 0. Não existe relação linear em Y e X. A
variável X não ajuda a explicar a variação dos Yi .
Inferência

▪ Testes de significância do modelo geral

H 0 : ˆ 1  ˆ2  ...ˆk  0

Ha : existe pelo menos um dos j  0

Fo = MQM/MQR onde Fc ~ F k, n-k-1

▪ Teste do F parcial

H 0 : ˆ *  0
Modelo Y=0+1X1+...pXp+*X*

Ha : ˆ *  0 Ha: X* melhora significativamente a predição de Y, dado


que X1, X2,...Xp já estão no modelo

Fpc(x*/x1,x2,...xp) ~ F 1,n-(p+1)-1
Tabela ANOVA - F
Graus de Soma dos Quadrado Razão da
Liberdade quadrados médio variância
(df) (SQ) SQM=SQ/df

Regressão(X) 1 SQT-SQR= 6394.02 21.33(p<0.001)


6394.02

Residuo 28 SQR= 299.77


8393.44

Total 29 SQT =
14787.46

SST  SSR 2 6394.02 ( SST  SSR) / k R /k 2

R 
2
R   0.43 F  F 
SST 14787.46 SSR /(n  k  1) (1  R 2 /(n  k  1)
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 Se função de regressão é linear


Resíduo

X
Não Linearidade
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 Se os erros possuem variância constante


(homocedasticidade)

Variância Não Constante


Resíduo

X
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 Se os erros são independentes


Resíduo

X
Erros Correlacionados
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 A presença de outliers

Gráfico dos Resíduos

0,8
Resíduos Padronizados

0,6

0,4

0,2

0
150 155 160 165 170 175 180 185
-0,2

-0,4
X
Análise da Aptidão do Modelo
 Análise dos Resíduos – Verificar:

 Se erros são normalmente distribuídos


Análise da Aptidão do Modelo
 Análise dos Resíduos – Modelo Adequado:

0
Resíduo

X
Análise de Resíduos

Você também pode gostar