Econometria 2

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 23

23/05/2022 19:25 Econometria

Econometria
UNIDADE 2 - TEORIA DA CORRELAÇÃO E
REGRESSÃO LINEAR SIMPLES

Autoria: José Tadeu de Almeida – Revisão técnica: Jorge Lisandro Maia Ussan

Introdução

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 1/23
23/05/2022 19:25 Econometria

Caro(a) estudante, você sabe como podemos


entender as relações de associação entre as
variáveis? Como calcular o coeficiente de
correlação? E quais as características e os
métodos de elaboração de uma regressão linear
simples? Para responder a essas e outras
perguntas, nesta unidade, aprofundaremos
nossos estudos sobre os processos de
construção de modelos de regressão linear simples, operacionalizando a relação
existente entre uma variável independente e uma variável dependente.
A partir de conceitos da estatística descritiva, como o coeficiente de correlação de
Pearson, ampliaremos nossos conhecimentos sobre a relação e a articulação entre
variáveis. Esse coeficiente apresenta algumas limitações importantes, mas que
podem ser, em boa medida, superadas pelos métodos de regressão linear. Por isso, é
fundamental compreender bem os processos de construção da regressão, visando
entender, desse modo, a metodologia de estimação de valores previstos e residuais
nesse modelo.
Para atingir nossos objetivos, no decorrer desta unidade, aliaremos teoria à prática,
construindo nuvens de pontos reais e estimados e gerando retas ajustadas de forma
compatível com o modelo de regressão, cujas características e hipóteses determinam
os processos de estimação. Esses processos, como sabemos, são fundamentais para
a inferência estatística. Com isso, consolidaremos nossos conhecimentos sobre a
previsão do comportamento de algumas variáveis, permitindo estimar variações
futuras, e sobre o comportamento previsível de elementos econômicos e sociais, de
acordo com os interesses de pesquisa.
Bons estudos!

2.1 Correlação
linear

Nesta seção, recordaremos alguns elementos de estatística descritiva que enfatizam o grau de
associação entre variáveis. Utilizando conceitos relacionados à correlação linear e à
covariância, torna-se possível verificar de que modo a trajetória, isto é, a variação de uma
variável dependente, é capaz de ser afetada pelo desenvolvimento de uma variável
independente.
Nessa linha de raciocínio, compreenderemos as aplicações práticas dessa associação entre
variáveis, recorrendo, em particular, ao coeficiente de correlação, o qual exibe, por meio de um
valor real e compreendido em um determinado intervalo, o grau de associação entre variáveis.
Acompanhe!

2.1.1 Coeficiente de correlação linear

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 2/23
23/05/2022 19:25 Econometria

A criação de uma base de dados, por meio de um levantamento estatístico e de procedimentos


de coleta baseados em amostragem aleatória, pode viabilizar a observação de dados relativos
a diferentes variáveis que se relacionam entre si. Essa situação é particularmente comum em
análises bidimensionais, em que duas variáveis se associam em maior ou menor intensidade
(MAIA, 2017).

Caso
Um exemplo de análise bidimensional ocorre quando um
professor procura associar, individualmente, o número de
exercícios resolvidos pelos alunos às notas obtidas por eles em
uma prova. Nesse caso, tomam-se observações relativas a cada
aluno, dispondo os resultados dessas variáveis. É possível que
os alunos que resolveram mais exercícios sejam encontrados
entre aqueles que obtiveram as melhores notas?
Há diferentes respostas em uma situação como essa, em que as
variáveis são “exercícios resolvidos” e “notas obtidas”, aluno por
aluno. Vejamos duas respostas: tomando a hipótese do senso
comum, espera-se que os alunos que fizeram mais exercícios
tenham melhores notas. Mas, eventualmente, um aluno que
respondeu a poucos exercícios pode ser beneficiado se a prova
cobrou exatamente o conteúdo que ele havia respondido, por
exemplo. Assim, para entender se essa relação entre variáveis é
válida, será necessário calcular o coeficiente de correlação.

Naturalmente, é possível compreender a associação entre variáveis por meio de uma análise
gráfica. Na medida das possibilidades, a análise gráfica destaca uma eventual correlação entre
variáveis, mas que não pode ser presumida em termos mais precisos.
Como referência, suponha que um professor de uma disciplina de Econometria distribuiu para
seus 60 alunos, como base para a aplicação de uma prova, uma lista com 300 exercícios. O
aluno que conseguiu resolver menos exercícios foi aquele que respondeu a apenas 20
questões, enquanto o aluno com o melhor desempenho na lista conseguiu resolver 280
perguntas. Para entender a relação entre essa resolução de problemas e a nota na prova,
observe a figura a seguir.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 3/23
23/05/2022 19:25 Econometria

Figura 1 - Associação entre exercícios e notas finais


Fonte: Elaborada pelo autor, 2021.

#PraCegoVer: na figura, consta um gráfico que apresenta uma relação entre o número de
exercícios resolvidos pelos alunos, no eixo horizontal, e as notas obtidas por eles, no eixo
vertical. Há uma nuvem de pontos que apontam uma tendência crescente, demonstrando que
aqueles que fizeram mais exercícios apresentaram melhor desempenho por meio de melhores
notas.

Graficamente, é possível perceber uma tendência positiva, relativamente relevante, entre o


desempenho dos alunos na resolução da lista e na resolução da prova. Essa análise pode ser
útil, porém, não é exatamente eficiente, pois é possível observar, por exemplo, se a relação
entre variáveis é positiva ou negativa e se é direta ou inversamente proporcional, mas a
intensidade dessa relação não pode ser captada, apenas as tendências de variação é que o
podem.
Desse modo, para compreender se essa relação é mais ou menos importante, especialmente
quando a amostra tem uma dimensão muito grande (isto é, quando há um número muito grande
de dados) e é formada por variáveis quantitativas, pode-se recorrer ao coeficiente de
correlação, também chamado de coeficiente de correlação de Pearson (MAIA, 2017).

Você o conhece?
Karl Pearson (1857-1936) foi um estatístico inglês que
contribuiu para o desenvolvimento dessa disciplina por meio
dos processos de regressão linear e da criação de
indicadores de correlação e de estatísticas de significância,
como a estatística qui-quadrado ( ) (DOANE; SEWARD,
2014).

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 4/23
23/05/2022 19:25 Econometria

O coeficiente de correlação entre duas variáveis (X,Y) pode ser obtido de acordo com a

fórmula: (MAIA, 2017). Essa fórmula demonstra

que o coeficiente de correlação é alcançado ao efetivar-se o cálculo da média do somatório dos


desvios médios padronizados, em que o desvio médio é calculado pela diferença entre um dado
pertencente a uma variável e a sua média. A padronização ocorre ao dividir essa soma pelo
desvio-padrão da variável (BUSSAB; MORETTIN, 2017).
Finamente, é importante lembrar-se de que o desvio-padrão amostral é criado pela raiz
quadrada da razão entre o somatório dos desvios médios e o número ( ) de graus de

liberdade, como se segue: .

2.1.2 Sinal e ordem de grandeza


Ao efetivar a divisão entre a soma dos desvios médios e do desvio-padrão, e depois dividir esse
resultado pelo somatório n de elementos que compõem a amostra, será possível inserir os
valores dessa correlação em um conjunto de valores reais entre -1 e +1 (BUSSAB; MORETTIN,
2017). Portanto, tem-se o seguinte intervalo: .
Se o coeficiente de correlação for igual a 1, há uma forte e positiva correlação linear entre as
variáveis; na situação oposta, a correlação entre as variáveis X e Y é forte e negativa. Se a
correlação for próxima a zero, essa relação de associação é entendida como fraca (MAIA,
2017).

Você quer ler?


O artigo de Dalson Brito Figueiredo Filho e de José
Alexandre da Silva Júnior (2009), denominado
“Desvendando os mistérios do coeficiente de correlação
de Pearson (r)”, traz uma abordagem didática sobre
esse indicador, aprofundando o estudo sobre as
características e as propriedades de cálculo do
mencionado coeficiente.
Acesse
(https://periodicos.ufpe.br/revistas/politicahoje/articl
e/viewFile/3852/3156)
O objetivo de elaborar essa razão entre os desvios padronizados e o número de elementos da
amostra é o de evitar a influência da ordem de grandeza entre variáveis. No exemplo da lista de
exercícios, observe que o intervalo da variável independente é dado por [0, 300] e que o
intervalo da variável dependente é igual a [0, 10]. Há, portanto, dimensões diferentes entre as
variáveis, e essa situação precisa ser ajustada para tornar a análise estatística mais confiável.
A mesma situação pode ser evidenciada em casos nos quais a ordem de grandeza é distinta,
como no caso de uma correlação entre peso (em quilogramas) e altura (em centímetros) de
uma determinada amostra ou população. É possível, ainda, realizar a separação do elemento
numerador que está presente na fórmula do coeficiente de correlação e, isolando esse
coeficiente, pode-se obter o indicador de covariância, que é a média dos produtos entre os
valores centrados das variáveis (BUSSAB; MORETTIN, 2017).

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 5/23
23/05/2022 19:25 Econometria

A fórmula da covariância é descrita como se segue: .

Os valores centrados dessas variáveis correspondem, efetivamente, aos desvios médios de


uma variável, como no caso ( ).

 
Esses valores demonstram o afastamento dos valores da variável em relação à sua média.
Ao somar os desvios médios, a soma será igual a zero.

Contudo, a fórmula da covariância não necessariamente será igual a zero, pois calcula-se,
na verdade, o somatório entre os produtos de cada desvio médio:

Aplicando a fórmula da covariância sobre a fórmula do coeficiente de correlação (expresso por


r), pode-se observar uma articulação entre esses indicadores (BUSSAB; MORETTIN, 2017):

É possível, ainda, verificar se o coeficiente de correlação é significativo, mediante a construção


de um teste de hipóteses. O teste é um instrumento útil para verificar se a variável dependente
Y e a variável independente X estão efetivamente correlacionados (DOANE; SEWARD, 2014).
Nesse caso, para comprovar a significância do coeficiente de correlação, deve-se elaborar o
seguinte teste de hipótese:

A estatística relacionada a esse teste é expressa do seguinte modo: . Essa

estatística deve ser comparada com a estatística padronizada com ( ) graus de liberdade,
de acordo com a distribuição t de Student. Nesse caso, se superar o valor crítico da
estatística t, é correto rejeitar a hipótese nula ao nível de significância . Caso a hipótese nula
for rejeitada, é coerente concluir que existe, de fato, uma relação significativa entre as variáveis.
Por exemplo, suponhamos que um estudante de Economia decidiu entender a dinâmica do
crescimento econômico e do desemprego em uma determinada região. Para isso, ele mediu a
variação percentual do produto interno bruto (PIB), como variável dependente (Y), e a variação
percentual da taxa de desemprego, como variável independente (X), ao longo de seis anos,
gerando o quadro a seguir.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 6/23
23/05/2022 19:25 Econometria

Quadro 1 - Variação do PIB e da taxa de desemprego (anos selecionados, em %)


Fonte: Elaborado pelo autor, 2021.

#PraCegoVer: quadro composto por três colunas, apresentando dados relativos a um caso
hipotético. Na primeira coluna, à esquerda, constam os anos de 1 a 6; na coluna central, é
destacada a variação percentual de crescimento da economia, considerando cada um desses
anos; e na coluna à direita, apresenta-se a variação da taxa de desemprego também para os
anos 1 a 6.

Essa relação específica é analisada pela Lei de Okun, que demonstra uma ligação negativa e
inversamente proporcional entre crescimento econômico e desemprego (BLANCHARD, 2017).

Você o conhece?
Arthur Melvin Okun (1928-1980) foi um economista norte-
americano que atuou junto ao governo dos Estados Unidos
e desenvolveu vários estudos na área da macroeconomia,
como a análise entre desemprego e crescimento econômico
que leva o seu nome, a Lei de Okun (BLANCHARD, 2017).

Graficamente, pode-se observar uma relação decrescente entre essas variáveis, isto é, o
desemprego varia positivamente à medida que a economia sofre retração (havendo queda
percentual na variação do PIB), como apresentado na figura a seguir.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 7/23
23/05/2022 19:25 Econometria

Figura 2 - Aplicação gráfica de um caso hipotético de Lei de Okun


Fonte: Elaborada pelo autor, 2021.

#PraCegoVer: gráfico apresentando uma abordagem ilustrada do quadro anterior, sobre


variação do PIB e da taxa de desemprego. Observa-se que a nuvem de pontos tem uma
tendência decrescente.

A partir da situação apresentada, é possível questionar: ocorre alguma relação direta entre a
variação do desemprego e a variação do PIB? Deve-se testar a significância dessa correlação
ao nível de 5%. Assim, ao calcular a média de X e Y, observa-se que e que
. Consequentemente, pode-se obter a covariância entre as variáveis X e Y mediante a equação:

Sabendo-se que o desvio-padrão de X é igual a 1,995 e que o desvio-padrão de Y é igual a


2,409, pode-se elaborar o coeficiente de correlação:

Você quer ver?


Para reforçar a sua compreensão sobre os conceitos de
estatística descritiva, você pode assistir ao vídeo
Variância e desvio-padrão, produzido pelo Portal da
Matemática da Olimpíada Brasileira de Matemática
(OBMEP).
Acesse (https://www.youtube.com/watch?
v=c8x_ZChTiLk)
Testando a significância desse coeficiente, observa-se o seguinte:

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 8/23
23/05/2022 19:25 Econometria

O valor crítico de t que corresponde a ( é igual a 4 graus de liberdade, e 5% do nível de


significância é igual a 2,78. Como , observa-se que há evidências suficientemente
objetivas para afirmar que a variação do PIB e a variação do desemprego estão
correlacionadas.

2.1.3 Limitações da correlação no modelo econométrico


Ainda que os indicadores apresentados sejam importantes para compreender o processo de
associação entre variáveis, é preciso considerar que o coeficiente de correlação e a covariância
apresentam algumas insuficiências importantes. No que se refere à covariância, ela não é um
indicador padronizado, de modo que a ordem de grandeza acaba afetando a sensibilidade do
indicador em relação a um certo conjunto de dados (MAIA, 2017).
Por exemplo, se há um interesse em analisar a covariância de dois conjuntos amostrais que
envolvem uma notação em metros, e a covariância entre eles é dada por , ao
efetivar uma transformação dessa variável para uma notação em centímetros, a covariância
torna-se igual a . Assim, a covariância acaba sendo multiplicada por 100 ao
ser realizada uma mudança na ordem de grandeza.
Paralelamente, o coeficiente de correlação de Pearson permite obter uma referência sobre o
grau de associação entre as variáveis entre um intervalo, como observamos anteriormente. No
entanto, saber se uma correlação é forte ou fraca é um dado também insuficiente para
compreender as tendências internas dessa distribuição de dados: uma variação positiva não
mostra a efetiva dispersão dos dados ao redor da média, pois o indicador, como vimos, é
padronizado de acordo com os desvios-padrão e com o número de elementos da amostra.

Teste seus conhecimentos


(Atividade não pontuada)

Um pesquisador da área de economia dispõe, para o cálculo do coeficiente de correlação de


Pearson, expresso por r, do conjunto de variáveis (X,Y), dado por {(2,12), (4,10), (7,4),
(11,6)}. Nesse conjunto, é sabido que a variável Y corresponde à variável dependente e que
a variável X diz respeito à variável independente.
Considerando essas informações, a correlação entre essas variáveis será igual a

a) 0,78.

b) 0,55.

c) 0,22.

d) -0,22.

e) -0,78.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0gJ… 9/23
23/05/2022 19:25 Econometria

Verificar 

Por fim, de acordo com Maia (2017), a correlação também não é capaz de demonstrar alguns
aspectos básicos que são relacionados à distribuição dos dados amostrais, por exemplo: se há
uma variação absoluta em X, qual a variação que deve ocorrer em Y? E, da mesma forma, se
há um valor fixo em X, qual o valor esperado para a variável Y?
Para superar essas limitações e obter uma ferramenta eficiente de estimação de uma dispersão
ou de variabilidade de um conjunto de dados, é conveniente recorrer a um procedimento de
regressão linear, assunto que veremos na próxima seção!

Vamos Praticar!
É importante que você conheça as aplicações práticas e sociais dos
métodos de amostragem e da análise de variáveis. Assim, pesquise
de modo mais aprofundado a respeito dos métodos de coleta de
amostras populacionais do Censo Demográfico do Instituto
Brasileiro de Geografia e Estatística (IBGE). Para isso, leia o Tópico
11.2 do livro Metodologia do Censo Demográfico 2010, do IBGE
(2016), denominado “Amostragem”, elaborando um breve resumo,
com cerca de 20 linhas, sobre os métodos estatísticos
apresentados.

2.2 Modelo de regressão linear


simples

O conceito de regressão foi criado no final do século XIX pelo matemático e antropólogo
Francis Galton (1822-1911). Esse pesquisador analisou uma possível relação entre a altura
média dos pais e a dos filhos adultos em uma família. Ao realizar uma coleta de dados
amostrais, ele obteve duas informações importantes (e razoavelmente esperadas) (MAIA,
2017):

os pais que tinham maior estatura no grupo amostral apresentavam filhos mais altos;

os pais com baixa estatura apresentavam filhos baixos.

No entanto, Galton também observou o seguinte:

os filhos de pais com maior estatura não são tão altos quanto seus pais;

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 10/23
23/05/2022 19:25 Econometria

os filhos de pais com menor estatura também não são tão baixos quanto seus pais.

Ou seja, a altura média dos filhos regredia à altura média da população, isto é, apresentava
uma tendência de convergir para uma estatura média. Essa é a base histórica do conceito de
regressão, que discutiremos com mais profundidade ao longo deste tópico.

2.2.1 Características do modelo e hipóteses associadas


A econometria permite desenvolver modelos explicativos que correlacionam diferentes
variáveis, com base em processos de regressão linear. Logo, com tais processos, torna-se
possível avaliar e demonstrar alguns padrões e tendências de variabilidade entre séries de
dados compostas por essas variáveis, podendo, desse modo, efetivar a estimação das
mudanças e dos resultados futuros dessas séries.
Por meio da regressão linear, é possível, então, que o pesquisador analise conjuntos de dados
que se relacionam a n variáveis distintas, sendo que uma delas será enquadrada como uma
variável dependente e as demais serão as variáveis independentes. Em resumo, o objetivo
principal da regressão linear é determinar de que modo a variável dependente é afetada pela
variável independente ou por um conjunto dessas variáveis (HOFFMANN, 2016).

Você sabia?
Observe que uma variável dependente, de acordo com seu
próprio nome, desenvolve-se em função dos dados de outra
variável. Não ocorre, no entanto, uma relação direta de
causa e efeito entre essas variáveis, tal como se a variável
dependente fosse apenas um resultado relativo às variáveis
independentes.

Portanto, essa relação entre uma série de n variáveis independentes e a


variável dependente Y é estruturada como uma função entre tais variáveis:
(MAIA, 2017).
Há várias situações que demandam o uso de modelos de regressão linear, com maior ou menor
grau de efetividade, como as destacadas na sequência.

Taxas e indicadores econômicos

Com os modelos de regressão linear, pode-se verificar a relação entre as taxas de


crescimento do PIB e outros indicadores econômicos importantes, como a taxa de
desemprego (a relação entre o número de indivíduos empregados e a população

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 11/23
23/05/2022 19:25 Econometria

economicamente ativa) e a taxa de inflação (o aumento sustentado do nível geral de


preços).

Setor privado

No setor privado, pode-se destacar relações existentes entre o número de visitantes de


um centro de compras, o volume de vendas em um determinado período e a variação
do poder de compra da população mediante eventuais reajustes do salário mínimo.

Suponhamos, por exemplo, a existência de duas variáveis, a saber, uma variável dependente
expressa por Y e uma variável independente expressa por X. A relação estabelecida entre elas
é dada pela equação . Assim, para um conjunto de dados da variável independente
dada por , também haverá um conjunto de valores distintos no conjunto
. Esses valores podem ser apresentados em uma reta, pois a relação de
determinação entre as variáveis é absoluta, de acordo com a figura a seguir.

Figura 3 - Associação absoluta entre variáveis ( )


Fonte: Elaborada pelo autor, 2021.

#PraCegoVer: gráfico apresentando uma linha reta que une diversos pontos de acordo com a
equação . Nesse caso, quando X é igual a 2, Y é igual a 8, e assim por diante.

Contudo, há situações — que compõem a maioria dos casos — em que a variável dependente
se torna diretamente influenciada por diferentes elementos ligados à variável independente.
Esses elementos são conhecidos como exógenos, e geram uma diferença entre valores reais e
esperados, denominados resíduos ou erros. Esses resíduos são capazes de afetar os
resultados previstos pelo modelo de regressão linear (GUJARATI, 2011).
Por fim, deve-se considerar que o modelo de regressão linear simples é definido por alguns
pressupostos, apresentados a seguir (HOFFMANN, 2016).

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 12/23
23/05/2022 19:25 Econometria

Ocorre uma relação linear entre a variável


Pressuposto 1 independente e a variável dependente, de acordo com
a construção de um modelo bidimensional.

Os valores da variável independente são fixos, ou seja,


eles explicam a variação da variável dependente e não
Pressuposto 2
o contrário, de modo que a variável independente não
é influenciada pela variável dependente.

O valor esperado para a média dos resíduos,


expressos por

Pressuposto 3

, é igual a zero, assim,

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 13/23
23/05/2022 19:25 Econometria

A cada valor da variável independente

Pressuposto 4

, a sua variância será sempre igual a

Os erros/resíduos relacionados a cada um dos dados


Pressuposto 5 observados não apresentam correlação entre si (são
independentes).

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 14/23
23/05/2022 19:25 Econometria

Pressuposto 6 A distribuição dos resíduos assume uma distribuição


normal.

É possível, portanto, verificar, resumidamente, que o modelo de regressão linear simples é


baseado em uma construção estatística que associa séries de valores esperados e valores
reais e suas tendências de variação (WOOLDRIDGE, 2017).

2.2.2 Valores previstos e residuais


Retomando a discussão sobre o modelo econométrico, você deve observar que os valores
previstos , relativos a uma variável dependente Y, podem ser obtidos de acordo com a
seguinte equação: (MAIA, 2017). Nesse caso, o coeficiente a representa o
coeficiente linear (o valor de Y quando X é igual a zero) e b representa o coeficiente angular
(que determina a variação de Y a cada variação absoluta de X).
De acordo com Hoffmann (2016), esses coeficientes são calculados da seguinte forma:

Entretanto, é necessário observar que o modelo econométrico gera uma tendência, isto é, uma
estimação dos valores esperados da variável dependente. Porém, pode haver outros fatores,
não explicados pelo modelo (ou seja, que são exógenos ou externos ao modelo), que podem
gerar uma variação real dos dados dessa variável.
Nesse caso, haverá uma discrepância entre os valores estimados e os valores reais ,
gerando um erro amostral também conhecido como resíduo ou desvio. Esse erro é criado
aleatoriamente (isto é, por fatores exógenos) e é dado por . Logo, uma formalização mais
adequada de um modelo econométrico é expressa do seguinte modo:
(MAIA, 2017).
Para observar a relação entre valores previstos e residuais em um modelo, vamos retomar o
exemplo do início desta unidade, o qual efetuava uma associação entre o número de exercícios
respondidos por um grupo de alunos (em uma lista com 300 questões) e as respectivas notas
nas avaliações. Trazendo agora a base de dados relativa à criação do gráfico de dispersão
observado anteriormente, pode-se elaborar o quadro a seguir.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 15/23
23/05/2022 19:25 Econometria

Quadro 2 - Base de dados amostrais para um modelo econométrico


Fonte: Elaborado pelo autor, 2021.

#PraCegoVer: quadro composto por oito colunas, apresentando as notas individuais dos alunos
mencionados no exemplo anterior sobre a lista de exercícios de estatística e o número de
exercícios resolvidos por eles. O aluno com o pior desempenho elaborou 20 exercícios e teve
nota 0,5 na prova, e o aluno com o melhor desempenho elaborou 280 exercícios e obteve nota
9,9.

No quadro, você pôde verificar que 60 alunos realizaram a lista de exercícios, de modo que se
espera uma variação da nota Y a cada variação do número X de exercícios resolvidos.
Recorrendo ao cálculo dos coeficientes linear e angular, de acordo com Hoffmann (2016), para
uma média igual a 154, e uma média igual a 5,5, tem-se o seguinte:

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 16/23
23/05/2022 19:25 Econometria

Logo, calcula-se o coeficiente linear:

Assim, o modelo econométrico, incluindo-se a eventualidade de haver resíduos, pode ser


descrito da seguinte forma: . O modelo gerado
permite observar que, se é igual a zero, isto é, se o aluno não resolve um exercício sequer,
sua nota esperada é igual a 1,59, e, a cada exercício que ele realizar, espera-se que sua nota
na prova seja acrescida em 0,0254 pontos, até o limite de nota igual a 10.
A partir dessa esquematização econométrica, questiona-se: para esse modelo, o limite de nota
a ser atingido pelo aluno seria igual a 8,7, haja vista que, se ele elaborar os 300 exercícios, sua
nota seria igual a 1,59 + (300*0,0254) = 1,59 + 7,62 = 9,21? Nesse caso, há dois fatores que
ajudam a entender essa diferença. O primeiro deles, e mais objetivo, diz respeito aos
arredondamentos e simplificações algébricas que foram adotados para facilitar o cálculo; a
segunda razão é a existência de valores discrepantes e dispersos, que reduzem a eficiência
explicativa do modelo a partir dos resíduos gerados.
Por exemplo, há um aluno que elaborou 262 exercícios. Logo, a sua nota esperada é igual a
. No entanto, a nota obtida foi igual a 5,4. Essa situação gera um
resíduo igual a , ou seja, mais de 50% do valor real. Nesses casos, pode-se
verificar que o modelo não está explicando eficientemente (ou seja, determinando) a variação
dos dados da variável dependente.

2.2.3 Representação gráfica do modelo econométrico


A partir de uma equação geradora de uma reta de regressão, é possível observar a tendência
relativa à associação entre duas variáveis (MAIA, 2017). Como referência, vamos recuperar a
primeira figura apresentada nesta unidade. Ali, você pôde observar uma tendência de
distribuição das notas dos alunos a partir de sua capacidade de elaboração de uma série de
exercícios preparatórios.
Consequentemente, uma análise gráfica inicial apontou uma tendência crescente, isto é, as
notas aumentavam à medida que o aluno tinha condições de responder a mais questões.
Porém, dada a existência de um modelo econométrico baseado nessa dispersão de dados e
expresso por , é possível sobrepor essas informações, que geram
dados previstos, em relação à série de dados reais.
Desse modo, observe o quadro a seguir, que apresenta os dados das variáveis X e Y e dos
valores estimados, que são expressos por Yest.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 17/23
23/05/2022 19:25 Econometria

Quadro 3 - Dispersão de dados esperados e reais em um modelo econométrico


Fonte: Elaborado pelo autor, 2021.

#PraCegoVer: quadro composto por 12 colunas e complementando o Quadro 2. Nele, constam


as notas esperadas para cada aluno a partir do modelo econométrico elaborado por meio da
relação entre os exercícios resolvidos e suas respectivas notas.

A partir dessa distribuição, é possível representar graficamente as informações geradas pelo


modelo econométrico, gerando uma linha de tendência ou reta de regressão, conforme ilustra a
figura a seguir.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 18/23
23/05/2022 19:25 Econometria

Figura 4 - Representação de um modelo econométrico


Fonte: Elaborada pelo autor, 2021.

#PraCegoVer: gráfico destacando as notas estimadas para cada aluno, conforme o modelo
econométrico gerado nesse exercício. As notas estão dispostas em uma reta, denominada reta
de regressão.

Observe que, nesse caso, há uma relação perfeitamente linear entre as variáveis independente
e dependente, supondo que há uma associação perfeita entre essas variáveis, isto é, uma
ausência de resíduos no modelo. Contudo, esses resíduos existem e determinam variações
importantes entre os valores estimados e reais. Para compreendê-los, vamos tomar quatro
exemplos como referência, focando nos alunos que responderam a 20, 114, 180 e 250
exercícios, observando suas notas reais e o desemprenho esperado para cada um deles.
Assim, considere a figura a seguir.

Figura 5 - Discrepâncias entre valores estimados e reais


Fonte: Elaborada pelo autor, 2021.

#PraCegoVer: gráfico apresentando as discrepâncias entre notas reais e esperadas de quatro


alunos, demonstrando que esse intervalo pode ser maior ou menor, de acordo com o
desempenho de cada um deles.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 19/23
23/05/2022 19:25 Econometria

Observe, apenas nesses quatro casos, as discrepâncias entre valores estimados e valores
reais. Nesse caso, o resíduo , isto é, o primeiro resíduo apresentado à esquerda no gráfico, é
igual a , enquanto os outros resíduos são, respectivamente, 2,31, -3,51 e -6,54.
Assim, em resumo, a figura a seguir apresenta a relação existente entre valores reais e
esperados no modelo econométrico enfocado nesta unidade.

Figura 6 - Sobreposição de séries de valores reais e estimados


Fonte: Elaborada pelo autor, 2021.

#PraCegoVer: gráfico apresentando duas séries de dados, sobrepondo a nuvem de dados que
foi apresentada na Figura 1, com as notas reais dos alunos, e os dados da reta de regressão da
Figura 4.

A sobreposição de dados relativos aos valores reais e do modelo econométrico gerado a partir
desses dados permite observar as tendências de dispersão dessas séries: enquanto o modelo
econométrico é perfeitamente linear, os dados reais apontam para uma tendência de dispersão.

Teste seus conhecimentos


(Atividade não pontuada)

Um pesquisador na área de macroeconomia deseja avaliar, com base em uma série de


dados históricos, as tendências de oscilação do crescimento econômico em função de uma
variação da taxa de desemprego. O intuito desse pesquisador é validar a Lei de Okun para a
sua região geográfica e estimar algumas tendências futuras, por meio de uma regressão
linear simples. Para a criação desse cenário macroeconômico futuro, tem-se o quadro a
seguir.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 20/23
23/05/2022 19:25 Econometria

Quadro 4 - Variação do PIB e da taxa de desemprego (anos selecionados, em %)


Fonte: Elaborado pelo autor, 2021.
Considerando essas afirmações, analise as afirmativas a seguir.
I. No Ano 9, de acordo com a regressão, se , o valor de Y será igual a -2,88.
II. O modelo econométrico que é compatível com essa série de dados corresponde a
.
III. De acordo com a regressão, estima-se que no Ano 8, se , o valor de Y será
igual a 4,015.
IV. Para essa série de dados, o modelo de regressão linear simples é dado por
.
Está correto apenas o que se afirma em:

a) I e IV.

b) II e III.

c) II e IV.

d) I, II e III.

e) I, III e IV.

Verificar 

Com base nessa situação, há alunos que deveriam ter obtido uma nota baixa, mas que tiveram
bom desempenho, ao mesmo tempo em que outros com uma boa performance na resolução da
lista obtiveram notas baixas. Como mencionado anteriormente, tais situações podem ser
atribuídas a diferentes fatores: o aluno pode ter ficado nervoso, os exercícios da prova não
corresponderam aos exercícios elaborados na lista, o aluno inverteu algum sinal na resolução,
entre outras possibilidades. Esses fatores, na verdade, constituem-se como elementos
exógenos os quais o modelo foi incapaz de captar. Assim, para verificar a eficiência explicativa
do modelo, será preciso recorrer a um outro cálculo, relativo ao coeficiente de determinação (
).

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 21/23
23/05/2022 19:25 Econometria

Vamos Praticar!
Vamos pensar em uma experiência prática de regressão ligada
à sua vida pessoal: selecione seis pares de pais (ou mães) e
seus filhos, tomando a altura de cada um deles. Assim, você
terá seis pares ordenados etc. A
partir desses dados, elabore uma regressão linear, verificando
de que modo a variação da altura P dos pais determina a
variação da altura F dos filhos.

Conclusão
A análise de variáveis implica a criação de coeficientes que permitem
entender a intensidade da relação entre diferentes grupos amostrais.
Assim, por meio do coeficiente de correlação e da regressão linear
simples, por exemplo, é possível compreender e avaliar a associação
de diferentes variáveis, apreendendo tendências de distribuição e a
existência de erros amostrais que dizem respeito às diferenças entre
valores reais e estimados.
Nesta unidade, você teve a oportunidade de:

distinguir os usos e as limitações do coeficiente de correlação de


Pearson e compreender sua operacionalização;

articular o coeficiente de correlação e o cálculo de covariância para


a criação de análises bidimensionais;

aplicar conceitos e hipóteses relativos à construção de uma


regressão linear simples, por meio de um caso prático;

avaliar os efeitos da criação de um modelo econométrico a partir


de discrepâncias eventuais entre valores reais e esperados.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 22/23
23/05/2022 19:25 Econometria

Referências
BLANCHARD, O. Macroeconomia. 7. ed. São Paulo:
Pearson, 2017.
BUSSAB, W. O.; MORETTIN, P. Estatística básica. 7. ed.
São Paulo: Saraiva, 2017.
DOANE, D.; SEWARD, L. Estatística aplicada à administração e economia. Porto
Alegre: AMGH, 2014.
FIGUEIREDO FILHO, D. B.; SILVA JÚNIOR, J. A. Desvendando os mistérios do
coeficiente de correlação de Pearson (r). Revista Política Hoje, Recife, v. 18, n. 1, p.
115-146, 2009. Disponível em:
https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156
(https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156). Acesso
em: 24 jan. 2021.
GUJARATI, D. N. Econometria básica. 5. ed. Porto Alegre: Bookman, 2011.
HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba:
Edição do Autor, 2016.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA (IBGE). Metodologia do
Censo Demográfico 2010. 2. ed. Rio de Janeiro: IBGE, 2016.
MAIA, A. G. Econometria: conceitos e aplicações: aprenda os fundamentos da análise
econométrica e resolva problemas econômicos concretos. São Paulo: Saint Paul,
2017.
VARIÂNCIA e desvio padrão. [S. l.: s. n.], 2018. 1 vídeo (9 min). Publicado pelo canal
Portal da Matemática OBMEP. Disponível em: https://www.youtube.com/watch?
v=c8x_ZChTiLk (https://www.youtube.com/watch?v=c8x_ZChTiLk). Acesso em: 9
fev. 2021.
WOOLDRIDGE, J. M. Introdução à econometria: uma abordagem moderna. 6. ed.
São Paulo: Cengage Learning, 2017.

https://student.ulife.com.br/ContentPlayer/Index?lc=aSssD5bAQpXJMlZjGXTVTQ%3d%3d&l=FrBZdOIAG8p3VktncyRfoA%3d%3d&cd=9MZ0g… 23/23

Você também pode gostar