Modelo Classico de Regressao Linear

1.
O Modelo Clássico de Regressão Linear (MCRL)
1.1. Hipóteses do MCRL

[Griffith et al., caps.3,5; Johnston e Dinardo, cap.3]
O modelo a ser estimado pode ser expresso como:
Yi = β1 + β 2 X 2i + β 3 X 3i + ... + β k X ki + ui , i = 1,...,n (1.1)
onde:
Y é a variável dependente,
X2,...,Xk são k-1 variáveis independentes (explicativas),
β1,..., βk são os parâmetros a serem estimados,
u é um distúrbio aleatório, e
i indexa as n observações amostrais.
1-1
Hipóteses básicas do MCRL:
(1) Linearidade nos parâmetros

O modelo pode ser escrito na forma (1.1).
→ refere-se à forma como os parâmetros entram
na equação, não necessariamente à relação entre
XeY
Ex.: a relação Y = AXβ não é linear no sentido
usual, mas pode ser expressa, em logaritmos,
como um modelo de regressão linear:
ln Y = α + β ln X
(2) Regressores não-estocásticos

Os valores de X são fixos em amostragens
repetidas
(3) Média zero dos distúrbios

E(ui|X2i,...,Xki) = 0 para todo i
(4) Homocedasticidade
Var(ui|X2i,...,Xki) = σ² (constante) para todo i
(5) Ausência de autocorrelação dos distúrbios

Cov(ui ,uj |X2i,...,Xki ,X2j,...,Xkj) = 0 para i ≠ j
1-2
(6) Ausência de correlação entre regressores e
distúrbios
Cov(ui ,X2i) =...= Cov(ui ,Xki) = 0
(7) Número de observações ≥ número de

regressores
(8) Variabilidade dos valores de X

0 < var(X) < ∞
→ trata-se de uma condição de identificação: se
todos os valores de X na amostra forem iguais,
não será possível inferir qualquer resultado sobre
a relação entre Y e X
(9) Modelo corretamente especificado
(10) Ausência de multicolinearidade perfeita entre

regressores
(11) Normalidade dos distúrbios

ui ~ N[0,σ²] para todo i
→ resultados referentes às propriedades dos
estimadores no MCRL independem dessa
hipótese
→ sob tal hipótese, o modelo é dito Modelo
Clássico de Regressão Linear Normal (MCRLN)
1-3
O modelo (1.1) pode ser reescrito como
Y1 = β1 + β 2 X 21 + β 3 X 31 + ... + β k X k1 + u1
Y2 = β1 + β 2 X 22 + β 3 X 32 + ... + β k X k 2 + u 2
(1.2)
: : :
Yn = β1 + β 2 X 2 n + β 3 X 3n + ... + β k X kn + u n
ou, em forma matricial:
y = Xβ + u (1.3)
onde:
 Y1  1 X 21 .. X k1   β1   u1 
Y  1 X .. X k 2  β  u 
2 22 , β =  , u =  2 
2
y =  , X = 
: 1 : :   :  :
       
Yn  1 X 2 n .. X kn  β k  u n 
nx1 nxk kx1 nx1
X é a matriz de dados.
Observe que a 1a coluna de X é um vetor de 1’s,

referente ao termo constante (intercepto) de cada
equação.
Atenção: a ordem dos índices na matriz X é a inversa

da usualmente adotada na representação de matrizes.
1-4
A matriz X é formada por k vetores coluna x1,...,xk.
Uma forma alternativa de representar o modelo é,
portanto:
y = β1x1 + β 2 x 2 + ... + β k x k + u (1.4)
de modo que o vetor y pode ser expresso como uma

combinação linear das colunas de X e do vetor u.
As hipóteses do MCRL na versão matricial são:
(1) Linearidade nos parâmetros

O modelo pode ser escrito na forma (1.3)
(2) Regressores não-estocásticos

A matriz X (n x k) é não-estocástica
(3) Média zero dos distúrbios
 u1   E (u1 )  0
 u   E (u )   0 
E (u ) = E  2  =  2
= =0
 :   :  :
     
 n 
u E (u )
n  0 
1-5
(4)-(5) Homocedasticidade + ausência de
autocorrelação dos distúrbios
 var(u1 ) cov(u1 , u2 ) .. cov(u1 , un ) 

cov(u , u ) var(u2 ) .. cov(u2 , un )
Var (u ) =  2 1

 : : .. : 
 
cov(un , u1 ) cov(un , u2 ) .. var(un ) 
 E[u1 − E (u1 )]2 .. E[u1 − E (u1 )][un − E (un )]
 
= : .. : 
 E[un − E (un )][u1 − E (u1 )] .. E[un − E (un )] 2

= E[u − E (u)][u − E (u)]'
= E (uu' )
σ 2 0 0 .. 0 
 2 
 0 σ 0 .. 0 
=0 0 . : 
 
 : : . 0
 0 0 .. 0 σ 2 
= σ 2I n
(6) Ausência de correlação entre regressores e

distúrbios
Cov(X,u) = 0
1-6
(7)-(8)-(10) O posto da matriz X (n x k) é k
As colunas de X são linearmente independentes
→ não há multicolinearidade perfeita
→ os valores observados de X1,...,Xk não são
todos iguais (caso contrário, qualquer coluna de X
seria um múltiplo de outra)
→ n ≥ k (número de observações ≥ número de
variáveis independentes)
(9) Modelo corretamente especificado
(11) Normalidade dos distúrbios

u ~ N[ 0, σ²I ]
1-7
1.2. Estimação pelo Método dos Mínimos
Quadrados Ordinários (MQO) [Johnston e Dinardo,
cap.3; Griffith et al., cap.5]
Dado o modelo
y = Xβ + u , (1.5)
nosso objetivo é encontrar a “melhor” estimativa do

vetor de parâmetros desconhecidos β.
Seja o vetor β̂ (k x 1) uma estimativa qualquer de β, a

partir da qual pode-se definir o vetor de valores
ajustados de y,
yˆ = Xβ̂ (1.6)
e o vetor de resíduos
e = y − yˆ = y − Xβ̂ (1.7)
O método dos MQO seleciona β̂ de modo a minimizar

a soma dos quadrados dos resíduos e’e. Denotaremos
por b a solução desse problema.
O Apêndice 1.A mostra a derivação do estimador de

MQO a partir das condições de primeira e segunda
ordem desse problema.
1-8
Note que o problema consiste em tentar reproduzir, da
melhor forma possível, o vetor y(n x 1) através de uma
combinação linear das colunas da matriz X(n x k).
Em outras palavras: dentre todos os (infinitos) vetores

que se encontram no subespaço vetorial definido pelos
vetores-coluna de X, queremos encontrar aquele que
mais se aproxime do vetor y.
Podemos ter dois casos básicos:
• Caso 1: y está no espaço coluna de X
Isso significa que y pode ser expresso exatamente

como uma combinação linear das colunas de X:
y = Xb (1.8)
Ex.: x1, x2 e y são vetores 3x1 com a terceira

coordenada igual (ou seja, estão no mesmo
hiperplano).
x1
y = x1b1+x2b2
x2
1-9
• Caso 2: y não está no espaço coluna de X
Isso significa que y não pode ser expresso como

uma combinação linear das colunas de X; ou seja,
não há um vetor b que satisfaça (1.8).
Mas podemos escrever:
y = Xb + e (1.9)
onde e é a diferença (“resíduo”) entre y e a

combinação linear das colunas de X, Xb. O
objetivo é, então, encontrar o vetor b que minimize
tal resíduo.
Ex.:
x1, x2 são vetores 3x1 com a terceira coordenada
igual a zero.
y é um vetor com terceira coordenada não nula.
x1
yˆ = x 1b1 + x 2 b2 = Xb
x2
1-10
O Caso 2 é a situação típica na prática; isto é, as
variáveis independentes não conseguem explicar
totalmente a variável dependente, havendo sempre
uma diferença (resíduo) entre esta e sua estimativa.
A estimativa de y é sua projeção no espaço de X, dada

por ŷ na figura.
Observe que:
(1) O vetor de resíduos é ortogonal ao vetor ŷ :

yˆ ' e = 0
(2) Como ŷ é uma combinação linear das colunas de

X, (1) implica que o vetor de resíduos também é
ortogonal em relação a cada coluna de X:
X'e = 0
(3) Se as colunas de X são linearmente

independentes, ŷ pode ser expresso como uma
combinação linear única dessas colunas; caso
contrário, não há solução única.
Ex:
Na figura anterior, suponha um vetor adicional x3
no mesmo subespaço de x1 e x2. Então, ŷ não
tem uma única representação em termos dos
vetores xi’s.
1-11
A hipótese de que X tem posto cheio (= k) garante a
unicidade da solução. (Por quê?)
Mas como podemos calcular o vetor b que resolve o

problema?
Note que, como vimos, e é ortogonal a todo o plano

formado por combinações de x1 e x2, isto é:
X’e = 0
Mas e = y – Xb. Logo:
X’(y – Xb) = 0
De modo que o estimador b deve satisfazer as k

equações normais:
( X' X)b = X' y (1.10)
e, se (X’X)-1 existe, ele é encontrado a partir de:
b = ( X' X) −1 X' y (1.11)
O Apêndice 1.A prova que, dadas nossas hipóteses, a

matriz (X’X) é inversível, de modo que b pode
efetivamente ser calculado a partir de (1.11).
1-12
Vejamos as equações normais (1.10) em maior
detalhe:
 n ∑ X 2i .. ∑ X ki   b1   ∑ Yi 
∑ X ∑ X 2i
2
.. ∑ X 2i X ki  b2  ∑ X 2iYi 
 2i  =  (1.12)
 : : : :  :   : 
 2    
 ∑ X ki ∑ X 2i X ki .. ∑ X ki  bk   ∑ X kiYi 
(No Exercício 1.1 você deve derivar essa expressão)
(1.12) deveria parecer familiar a vocês.

Não parece? Suponha então que você esteja
regredindo Y contra uma constante e um único
regressor X2. As equações normais seriam, nesse
caso, estas:
 n ∑ X 2i   b1   ∑ Yi 
∑ X 2   =  (1.13)
 2i ∑ X 2i  b2  ∑ X 2iYi 
Se ainda não reconhece expressões estudadas no

curso anterior de Econometria, veja o Exercício 1.2.
1-13
1.2.1 Exemplo: A geometria do ajuste por MQO
Suponha que você deseje estimar uma regressão

univariada (com intercepto) a partir de nada mais do
que as seguintes três observações:
x1 = -1 y1 = 1
x2 = 1 y2 = 1
x3 = 2 y3 = 3
Essas três observações estão representadas como

quadrados no diagrama de dispersão abaixo.
1-14
Por mínimos quadrados, ajustaremos uma reta a
essas três observações, representada pela equação:
Yi = β1 + β2 Xi , i = 1...3
Substituindo os valores observados, obtemos o

sistema linear:
1 = β1 - β2
1 = β1 + β2
3 = β1 + 2β2
Esse sistema nas “variáveis” β1 e β2 não tem solução,

i.e., é inconsistente. Se o sistema tivesse solução,
haveria uma reta que passaria pelos três pontos do
diagrama de dispersão, o que é claramente
impossível. Essa é a situação típica em econometria
Escrito em forma matricial, o sistema é:
1 1 − 1
1 = 1 1  β1 
   β 
3 1 2  2 
Na notação do nosso curso:
1 1 − 1
 β1 
y = 1, X = 1 1, β= 
3 1 2 β 2 
1-15
A mesma equação vetorial pode ser rescrita
1 1 − 1
1 = 1 β +  1 β
   1   1
3 1  2
Essa segunda forma mostra que resolver o sistema

significaria encontrar uma combinação linear dos
vetores-coluna da matriz X que fosse igual ao vetor y.
Os pesos da combinação seriam β1 e β2.
O espaço vetorial gerado pelos vetores linearmente

independentes x1 = (1, 1, 1) e x2 = (-1, 1, 2) é um
plano. Se o sistema tivesse solução, y = (1, 1, 3) seria
um dos infinitos vetores nesse plano. Infelizmente, ele
não é e o sistema é insolúvel.
y = (1, 1, 3) Plano formado

y está fora do plano
pelas combinações
definido por x1 e x2.
lineares de x1 e x2.
É o “espaço-
coluna de X”.
x1 = (1, 1, 1)
x1 = (-1, 1, 2)
1-16
Como o sistema não tem solução, lançamos mão de
um ajuste de mínimos quadrados. As estimativas b1 e
b2 para os parâmetros β1 e β2 consistirão em pesos de
uma combinação linear de x1 e x2.
Essa combinação é um vetor muito especial: ele é a

projeção ortogonal de y sobre o espaço-coluna de X.
Justamente por ser ortogonal, a projeção minimiza o
comprimento do vetor de erro e, definido por:
e = y − yˆ = y − Xb
onde yˆ = Xb é a projeção ortogonal de y sobre o plano.
Esse vetor e, por construção, é ortogonal a todo o

plano formado por combinações de x1 e x2. Logo:
x1 ' (y − Xb) = 0
⇒ X' (y − Xb) = 0
x 2 ' (y − Xb) = 0
X' Xb = X' y
∴ b = (X' X ) X' y
−1
Aplicamos a seguir a fórmula do estimador para os

dados do exemplo.
1-17
SOLUÇÃO:
3 2 5 
X' X =   X' y =  
2 6  6 
−1
 3 2  5  9 7
b=    ⇒ b = 4
 2 6  6   7
1 − 1 5 7
9 7 
yˆ = 1 1   ⇒ yˆ = 13 7 
47
1 2   17 7
1  5 7   2 7
e = 1 − 13 7  ⇒ e = − 6 7
3 17 7  4 7
A soma dos resíduos ao quadrado, que também é o

quadrado do comprimento do vetor e, é a menor
possível, com as observações dadas (se não acredita,
tente obter outra estimativa que gere um vetor e de
comprimento menor!)
3
4 36 16 56
e' e = ∑ ei2 = + + =
i =1 49 49 49 49
Verifique, como exercício, que o vetor e é realmente

perpendicular aos vetores x1 e x2.
1-18
Há 2 formas de visualizar geometricamente essa
solução. A primeira, que você conheceu em
Econometria, é através do diagrama de dispersão,
agora com a reta de regressão obtida por MQO:
e3 = 3 – 17/7 = 4/7
e2 = 1 – 13/7 = -6/7
e1 = 1 – 5/7 = 2/7
X
1 5 7  2 7
y = 1 yˆ = 13 7  e = − 6 7 
3 17 7  4 7 
1-19
A segunda forma de visualizar esta, e qualquer outra
estimação por mínimos quadrados, é a que você
aprende agora em TPE.
y = (1, 1, 3)
e = (2/7, -6/7, 4/7)
x1 = (1, 1, 1)
Espaço-
coluna de X
y^ = (5/7, 13/7, 17/7)
x1 = (-1, 1, 2)
Se este é um triângulo retângulo, valerá para ele o

Teorema de Pitágoras? Veremos logo adiante que sim,
e que ele representa um resultado importante já visto
em Econometria: a decomposição da variância de y.
1-20
1.2.2 Duas matrizes importantes
Substituindo a fórmula do estimador de MQO (1.11) na

definição do vetor de valores ajustados, temos:
yˆ = Xb = X(X'X)−1 X' y = Py (1.14)
onde
P = X(X'X)−1 X'
é a matriz de projeção de y no espaço coluna de X.
É fácil verificar que P é idempotente, simétrica e

singular. (Quais as dimensões e o posto dela?)
Analogamente, podemos expressar o vetor de

resíduos como:
e = y − Xb = y − X(X'X)−1 X' y
= (I − X(X'X)−1 X' )y (1.15)
= My
onde
M = I − X(X' X) X'
−1
é uma matriz que, gera o vetor de resíduos de MQO

na regressão de y sobre X quando pré-multiplica
qualquer vetor y.
1-21
Note que M = I – P e, evidentemente:
Py + My = (P + I – P)y = y
pois y pode ser decomposto no ajuste da regressão e

no resíduo desta.
Eis um resumo gráfico:
M=I-P
P ŷ
1-22
1.2.3. Decomposição da soma dos quadrados
Podemos decompor a variação de y numa parte

explicada pela regressão e numa parte não explicada.
Partindo de
y = yˆ + e (1.18)
podemos definir a soma dos quadrados
y' y = (yˆ + e)' (yˆ + e)

= yˆ ' yˆ + e' e
(1.19)
= (Xb)' Xb + e' e
= b' X' Xb + e' e
Note que este resultado é exatamente o Teorema de

Pitágoras (em n dimensões), para o triângulo
retângulo formado pelos vetores y, y ajustado e e:
y' y = yˆ ' yˆ + e' e

A variação de y ao redor da média é dada por
∑ (Yi − Y ) 2 =∑ Yi 2 − 2Y ∑ Yi +nY 2
= ∑ Yi 2 − nY 2 (1.20)
= y' y − nY 2
1-23
Temos, então,
y' y − nY 2 = (b' X' Xb − nY 2 ) + e' e (1.21)
SQT SQE SQR
Finalmente, a partir da decomposição de quadrados,

são definidos o R2 e o R2 ajustado da regressão.
R2 =
SQE
SQT
(
R 2 = 1 − 1 − R2 ) nn −− 1k
EXEMPLO – Para o triângulo retângulo do ex. (1.2.1),
a aplicação do Teorema de Pitágoras e o R2 são:
y' y = yˆ ' yˆ + e' e
1 2 1 2
(12
)
+ 12 + 32 =
7 2
5(+ 13 2
+ 17 2
+
7
)2
(
2 + 62 + 42 )
483 56
11 = +
49 49
2 483 49 − 5 2 3 1,52
R = 2
= = 57%
11 − 5 3 2,67
R 2 = 1− 1− R2( ) nn −− 1k = 1 − (1 − 0,57) 33−− 12 = 14%
1-24
1.3 Teorema de Frisch-Waugh-Lovell
Suponha que nosso modelo contenha pelo menos 2

regressores (e, para facilitar, não inclua constante).
Podemos então dividir os regressores em 2 conjuntos

de variáveis, que denominaremos X1 e X2 e
correspondem a partições da matriz X.
Por exemplo, se X contivesse 4 regressores,

poderíamos agrupá-los em dois grupos de dois:
 X 11 X 21 X 31 X 41 
X= : : : : 
 
 X 1n X 2n X 3n X 4 n 
X1 X2
Para facilitar o raciocínio, pense inicialmente no caso

de apenas dois regressores, quando X1 e X2 são,
portanto, vetores. Lembre, porém, que os resultados a
seguir valem para o caso de k regressores.
1-25
Já sabemos como estimar por MQO os coeficientes b1
e b2 da regressão de y em X1 e X2. O Teorema de
Frisch-Waugh-Lovell nos fornece uma forma
alternativa de fazer isso, que tem uma interpretação
muito interessante.
Segundo o teorema, o vetor b2 obtido da regressão de

y sobre X1 e X2 é idêntico ao obtido através do
seguinte procedimento:
(1) Regressão de y sobre X1; forma o vetor de

resíduos y*;
(2) Regressão de X2 sobre X1; forma o vetor de

resíduos X2*;
(3) Regressão de y* sobre X2*.
[resultado análogo vale para b1]
1-26
Tal resultado significa que o vetor de coeficientes de
um regressor num modelo de regressão múltipla pode
ser obtido de duas formas alternativas:
• regredindo todas as variáveis sobre algum outro

regressor (p.ex., “tempo”), e usando os resíduos
dessas regressões em nova regressão;
• usando os regressores na forma original, incluindo

explicitamente o outro regressor (“tempo”) no
modelo a ser estimado
Em outras palavras, os coeficientes estimados num

modelo de regressão múltipla correspondem ao efeito
de cada regressor sobre a variável dependente,
“líquido” dos efeitos dos demais regressores.
Para uma apresentação mais detalhada desse

resultado e algumas aplicações, ver os Apêndices 1.C
e 1.D.
1-27
1.4 Distribuição do Estimador de MQO
Sabemos que a distribuição normal é preservada após

uma transformação linear; se Z tem uma distribuição
normal:
Z ~ N(µ,σ2)
então
aZ + c ~ N(aµ + c, a2σ2)
Para o caso de um vetor z:
z ~ N(µ, Σ)
Az + c ~ N(Aµ + c, AΣA’)
Usaremos esse resultado, nas próximas páginas, para

derivar a distribuição do estimador de MQO, o vetor b.
1-28
Primeiro, adotemos a hipótese de normalidade dos
distúrbios:
2
u ~ N(0, σ I )
Segundo, note que b é uma transformação linear de u:
b = (X' X)−1 X' y

= (X' X)−1 X'(Xβ + u)
= (X' X)−1 X' Xβ + (X' X)−1 X'u (1.16)
= β + (X' X)−1 X'u
Logo, usando o resultado anterior com

z=u
µ=0
Σ = σ 2I
A = (X' X)−1 X'
c=β
obtemos
b ~ N(β , σ 2 ( X' X) −1 ) (1.17)
1-29
Esta é uma distribuição normal multivariada; para cada
elemento,
bk ~ N( β k ,σ 2 ( X' X) −kk1 )
onde ( X' X) −kk1 é o k-ésimo elemento na diagonal da

matriz ( X' X) −1 .
Podemos, então, testar hipóteses sobre β usando a

distribuição normal. (Essa é a relevância da hipótese
de normalidade dos distúrbios!)
Observações importantes:
1. MQO é não-viesado
Pode ser visto diretamente de (1.17). Alternativamente:
E (b) = E[β + (X' X)−1 X'u]

= β + (X' X)−1 X' E (u) (1.18)
=β
2. MQO é o melhor estimador linear não-viesado

(“BLUE”)
Ver Apêndice 1.E.
1-30
1.4.1 Estimação de σ 2
Ainda há um problema para a realização de testes de

hipótese sobre os parâmetros do modelo, pois a
variância do estimador de MQO depende do parâmetro
desconhecido σ 2 (variância dos distúrbios u).
2
Precisamos, então, de um estimador de σ . No
Apêndice 1.F, mostramos que um estimador não
enviesado é
e' e
s2 = (1.19)
n−k
de modo que a matriz de variância-covariância

estimada de b é
Var (b) = s 2 ( X' X) −1
1-31
1.5 Teste de hipóteses lineares
Dado o modelo
y = Xβ + u
podemos estar interessados em testar várias hipóteses

sobre os parâmetros β1 , β 2 ,..., β k . Por exemplo:
(i) H0 : β2 = 0
(ii) H 0 : β 2 = −1
(iii) H 0 : β 2 + β 3 = 1
(iv) H 0 : β 2 = β 4 ou H 0 : β 2 − β 4 = 0
(v) H 0 : β 2 = β 3 = ... = β k = 0
(vi) H 0 : β 2 = β 3 = 0
Qualquer uma dessas hipóteses pode ser rescrita

matricialmente através do formato geral
Rβ = r (1.20)
onde R é uma matriz (q x k), q<k, e r é um vetor (q x 1)

de constantes conhecidas.
A matriz R essencialmente “codifica” as hipóteses a

serem testadas. Cada linha dela corresponde a uma
1-32
restrição linear sobre o vetor β . Logo, q é o número de
restrições a serem testadas.
Para os exemplos acima, teríamos as seguintes

representações em termos de R e r:
(i) H0 : β2 = 0
 β1 
β 
 2
[0 1 0 .. 0] β 3  = 0
 
 : 
 β k 
R β = r
1xk kx1 1x1
(ii) H 0 : β 2 = −1
 β1 
β 
 2
[0 1 0 .. 0] β 3  = −1
 
 : 
 β k 
1-33
(iii) H 0 : β 2 + β 3 = 1
 β1 
β 
 2
[0 1 1 0 .. 0] β 3  = 1
 
 : 
 β k 
(iv) H 0 : β 2 − β 3 = 0
 β1 
β 
 2
[0 1 − 1 0 .. 0] β 3  = 0
 
 : 
 β k 
(v) H 0 : β 2 = β 3 = ... = β k = 0
0 1 0 0 .. 0  β 1  0
0 0 1 0 .. 0  β 2  0
    
0 0 0 1 .. 0  β 3  = 0
    
: : : : . :  :   : 
0 0 0 0 .. 1  β k  0
R β = r
(k-1) x k kx1 (k-1) x 1
1-34
(vi) H 0 : β 2 = β 3 = 0
 β1 
β 
0 1 0 0 .. 0   0
2
0 0 1 0 .. 0  β 3  = 0
    
 : 
 β k 
Ou seja: um conjunto qualquer de hipóteses lineares é

substituído por uma única hipótese matricial:
H 0 : Rβ − r = 0 (1.21)
Em outras palavras, qualquer conjunto de hipóteses

sobre os parâmetros do modelo econométrico é
substituído por uma pergunta ao mesmo tempo mais
simples e mais abstrata: “O vetor (Rβ – r) tem um
comprimento maior do que zero?”
Chegar à conclusão de que esse comprimento é nulo

significa aceitar o conjunto das hipóteses codificadas
em R e r. Por outro lado, a conclusão de que o
comprimento é maior do zero corresponde à rejeição
de uma ou mais das hipóteses conjuntas originais.
1-35
Se o vetor β é irremediavelmente desconhecido, o
vetor (Rβ - r) também o é. Por isso, testamos a
hipótese nula através do estimador de MQO. Dado o
estimador b, podemos computar o vetor (Rb - r).
Geometria do teste de hipóteses:
Espaço
vetorial de
dimensão q
(Rb – r) (número de
hipóteses a
(Rβ - r) se testar).
Vetor conhecido, mas Vetor desconhecido,

aleatório. Flutua ao mas fixo. Queremos
redor do ponto fixo e testar a hipótese de
desconhecido (Rβ β - r) que seu comprimento
é igual a zero
Quanto mais longe o vetor (Rb - r) estiver de 0, menos

provável é que o vetor (Rβ - r) seja igual a zero. Logo,
tenderemos a rejeitar a hipótese nula.
Como em qualquer teste de hipótese, a questão crucial

é se o desvio de (Rb - r) em relação a 0 pode ser
atribuído a erro de amostragem, ou se é realmente
significativo.
1-36
Para testar H0, investigaremos a distribuição do
quadrado do comprimento de (Rb – r), sob H0.
Lembrando que esse vetor nada mais é do que uma

transformação linear do vetor aleatório bem conhecido
nosso b, cuja distribuição é:
b ~ N(β , σ 2 ( X' X) −1 ),
segue:
E (Rb − r) = Rβ − r = zero (sob a hipótese nula)
Var (Rb − r ) =
Var (Rb) = E[(Rb − Rβ)(Rb − Rβ)' ]
= E[R(b − β)(b − β)' R ' ]
= RVar (b)R'
= σ 2 R ( X' X)−1 R'
E finalmente,
(Rb - r) ~ N( 0, σ 2 R(X' X)−1 R' ) (1.22)
1-37
Se então (Rb – r) é uma normal multivariada com
média 0, o seu comprimento ao quadrado, dado por
(Rb – r)’(Rb – r)
será uma soma de quadrados de v.a. normais. É uma

variável aleatória não tabelada, mas com um forte
“parentesco” com uma v.a. qui-quadrado. Como torná-
la uma qui-quadrado, com valores críticos conhecidos?
Pode-se mostrar (Johnston e Dinardo, Apêndice B),

que, se o vetor z (qx1) tem distribuição
z ~ N( 0,Σ )
então
z’ Σ −1 z ~ χ 2 (q )
Logo, a partir da distribuição amostral (1.22),

chegamos a uma v.a. tabelada, sobre a qual
poderíamos realizar testes de hipóteses:
(Rb − r)'[σ 2 R(X' X)−1 R' ]−1 (Rb − r) ~ χ 2 (q ) (1.23)
Essa expressão deve ser entendida como o

quadrado do comprimento “padronizado” do vetor
(Rb – r), ou seja, medido em desvios padrões.
1-38
Infelizmente, não podemos parar aqui. A equação
(1.23) não pode ser usada na prática devido à
presença do parâmetro desconhecido σ 2 .
Mas pode-se mostrar (Johnston e Dinardo, Ap.B), que
e' e
2
~ χ 2 (n − k ) (1.24)
σ
e que tal estatística é distribuída independentemente

de b.
Além disso, sabemos que a razão entre duas variáveis

qui-quadrado independentes, divididas pelos
respectivos graus de liberdade n1 e n2, gera uma
variável com distribuição F(n1,n2).
Logo, podemos construir a estatística
(Rb − r)'[σ 2 R(X' X)−1 R' ]−1 (Rb − r) q

~ F(q,n-k)
(e' e σ 2 ) (n − k )
(Rb − r)'[R(X' X)−1 R' ]−1 (Rb − r) q

~ F(q,n-k) (1.25)
(e' e) (n − k )
1-39
Usando a definição de s2,
(Rb − r)'[ s 2 R(X' X)− 1 R' ]−1 (Rb − r) q ~ F(q,n-k) (1.26)
A estatística (1.26) pode, assim, ser usada para testar

hipóteses lineares sobre o vetor β . Valores elevados
da estatística apontam para a rejeição de H0.
Note que a raiz quadrada de uma variável F(1,n) é

uma variável t(n).
Logo, no caso de uma única restrição (q=1), a raiz

quadrada da estatística-F (1.26) equivale a uma
estatística-t.
Ex:
(i) H0 : β2 = 0
Rb − r = b2
s 2 R(X' X)−1 R' = Var (b2 )
b22
~ F (1, n - k)
Var (b2 )
b2
~ t (n - k)
d . p.(b2 )
1-40
(ii) H 0 : β 2 + β 3 = 1
Rb − r = b2 + b3 − 1
s 2 R(X' X)−1 R' =

0 
 c11 c21 c31 .. ck1   
c12 1
c22 c32 .. ck 2   
  1
= s 2 [0 1 1 0 .. 0]c13 c23 c33 .. ck 3   
0
 : : : . :  
:
c1k c2 k c3 k .. ckk   
0 
= s 2 (c22 + c23 + c32 + c33 )
= s 2 (c22 + 2c23 + c33 )
= var (b2 ) + 2 cov(b2 , b3 ) + var(b3 )
= var (b2 + b3 )
(b2 + b3 − 1) 2
var(b2 + b3 ) ~ F(1, n - k)
(b2 + b3 − 1)
var(b2 + b3 ) ~ t (n - k)
1-41
(v) H 0 : β 2 = β 3 = ... = β k = 0
b2 
b 
Rb − r =  3  = b 2
:
 
bk 
s 2 R(X' X)−1 R' =

0 0 .. 0
0 1 0 .. 0  c11 c21 .. ck1  
1 0 .. 0
0 0 1 .. 0 c12 c22 .. ck 2   
=s 2   0 1 .. 0
: : : . :  : : . :  
   : : . :
0 0 0 .. 1 c1k c2 k .. ckk  
0 0 .. 1
 c22 .. ck 2 
= s2  : . :  = s 2C
 
c2 k .. ckk 
A estatística de teste é, então,
F = b '2 ( s 2 C) −1 b 2 ( k − 1) ~ F(k - 1, n - k) (1.27)
Mas, conforme mostra o Apêndice 1.G, tal estatística

pode ser rescrita da seguinte forma:
R 2 (k − 1)
F= ~ F(k - 1, n - k) (1.28)
(1 − R 2 ) (n − k )
1-42
1.6 O Estimador de Mínimos Quadrados Restrito
De acordo com a abordagem acima, os testes de

hipóteses seguem os seguintes passos:
1. Estimam-se os parâmetors;
2. Verifica-se se tais estimativas estão muito longe de

satisfazer determinadas restrições.
Mas pode-se proceder de forma alternativa:
1. Impõem-se as restrições diretamente, estimando-

se uma regressão restrita;
2. Estima-se a regressão irrestrita usual;
3. Comparam-se os resultados das regressões

restrita e irrestrita, de modo a verificar se a perda
de ajuste ocasionada pela imposição das restrições
deve-se a amostragem ou realmente indica que as
restrições não são válidas.
As duas abordagens são equivalentes. A opção por

uma ou outra dependerá da situação:
• para testar uma única restrição ou a “significância
global” da regressão, a primeira abordagem é
preferível;
• para testar várias restrições, a segunda
abordagem é geralmente preferível
1-43
O Apêndice 1.H mostra a derivação formal do
estimador restrito. Aqui, nos limitamos a apresentar a
fórmula a ser utilizada nas aplicações:
(e'* e* − e' e) q
F= ~ F(q, n - k) (1.29)
e' e (n − k )
ou
( R 2 − R 2* ) q
F= 2
~ F(q, n - k) (1.30)
(1 − R ) ( n − k )
Ao usar (1.30) deve-se atentar para o fato de que,

freqüentemente, as regressões restrita e irrestrita
apresentam diferentes variáveis dependentes, de
modo que os R2 são incomparáveis.
Ex.:
Para testar H 0 : β 2 = 1 no modelo
ln Y = β1 + β 2 ln L + β 3 ln K + ε
pode-se impor a restrição
ln Y = β1 + ln L + β 3 ln K + ε
e estimar o modelo restrito, usando como variável

dependente ln Y − ln L :
ln Y − ln L = β1 + β 3 ln K + ε
1-44
Aplicação:
Teste de Chow para Mudança Estrutural
[Johnston e Dinardo, 4.5]
Pergunta: Os coeficientes da regressão são

constantes ao longo de toda a amostra? Ou há
diferentes vetores de parâmetros para diferentes
subconjuntos dos dados?
• Modelo irrestrito:
 y 1   X1 0  β 1 
y  =  0 X 2  β 2 
+u
 2 
Estimador de MQO:
−1
b 1   X'1 X 1 0   X'1 y   (X'1 X 1 ) −1 X'1 y 
b  =  0    =
X'2 X 2   X'2 y  (X'2 X 2 ) −1 X'2 y 
 2 
Trata-se de MQO aplicados separadamente a cada

equação.
A soma dos quadrados dos resíduos total é:
e' e = e'1 e1 + e'2 e 2
1-45
• Modelo restrito:
H 0 :β 1 = β 2
Pode-se formular a hipótese nula através da matriz

R = [I − I ] e do vetor r = 0.
Alternativamente, pode-se impor a restrição

diretamente no modelo:
y 1   X1 
y  =  X  β + u
 2  2
Trata-se de uma única regressão por MQO, cuja SQR

denotamos por e'* e* .
A estatística de teste é, então,
(e'* e* − e' e) k
F= ~ F(k, n - 2k)
e' e ( n − 2k )
1-46
Ex.: Emprego nos EUA (E) em função de uma
constante, do deflator do PIB (D), PIB (Y), Forças
Armadas (F) e tempo (t):
E = β1 + β 2 D + β 3Y + β 4 F + β 5t
A relação entre tais variáveis mudou após a Guerra da

Coréia (terminada em 1953) ?
1947-62 1947-53 1954-62

Coeficientes
C 1,169,090 1,678,148 3,776,130
D -19.768 -161.292 -42.4647
Y 0.06439 0.0948 0.11233
F -0.01014 -0.246697 -2.57928
t -576.464 -835.193 -1914.17
SQR 4.898.596 345.212 800.244
(4,898,596 − 345,212 − 800,244) 5

F [5,6] = = 3.932
(345,212 + 800,244) (7 + 9 − 10)
Valor crítico da distribuição-F a 5%: 4.39
⇒ Não se pode rejeitar a hipótese nula de constância

paramétrica.
1-47
1.7 Problemas de especificação (Greene 8.4)
Uma das hipóteses do MCRL nos diz que o modelo

deve estar “corretamente especificado”. Isso significa,
em particular, que no modelo
y = Xβ + u
a matriz X deveria incluir todas as variáveis

explicativas relevantes e não deveria incluir nenhuma
variável supérflua.
O que aconteceria se tais condições não fossem

satisfeitas? É o que veremos a seguir.
1.7.1 Omissão de variáveis relevantes
Suponha que o modelo verdadeiro seja
y = X1β 1 + X 2β 2 + u (1.31)
mas que o modelo estimado seja o seguinte:
y = X1β 1 + u (1.32)
Ou seja, estima-se um modelo caracterizado pela

omissão de um conjunto de variáveis relevantes (X2).
1-48
O estimador de MQO de (1.32) é
b1 = (X1 ' X1 ) −1 X1 ' y

= (X1 ' X1 ) −1 X1 ' (X1β 1 + X 2β 2 + u) (1.33)
= β 1 + (X1 ' X1 ) −1 X1 ' X 2β 2 + (X1 ' X1 )−1 X1 ' u
cujo valor esperado é
E (b1 ) = β 1 + (X1 ' X1 ) −1 X1 ' X 2β 2 (1.34)
Vemos, portanto, que b1 será viesado em geral, a não

ser que tenhamos X1’X2 = 0 , isto é, que os regressores
incluídos no modelo sejam ortogonais aos regressores
omitidos.
Em outras palavras, se alguma variável relevante for

omitida do modelo, e se a correlação dessa
variável com as variáveis incluídas no modelo não
for zero, então o estimador de MQO será viesado.
Na prática, é improvável que os regressores sejam

ortogonais, de modo que, em geral, deve-se esperar
que a omissão de variáveis relevantes gere
estimativas viesadas.
1-49
O que acontece com a variância do estimador de
MQO quando omitimos variáveis relevantes?
O Apêndice 1.I mostra que a variância de b1 é menor

que a variância de b1.2 (estimador que leva em
consideração X2).
Logo, apesar de obtermos estimativas viesadas ao

omitirmos variáveis relevantes, é possível que tais
estimativas sejam “mais precisas” do que as que
teriam sido obtidas com a inclusão dessas variáveis.
(O que não é grande consolo – estamos errando com
mais precisão!!)
No entanto, há um problema adicional, relativo à

estimação de σ 2 - necessária para a realização de
testes de hipótese. Conforme o Apêndice 1.I mostra, o
estimador usual
e1' e1
s2 =
n − k1
também é viesado, não sendo possível estimar σ 2 - e,

portanto, não sendo possível testar hipóteses sobre
o vetor de coeficientes β 1 .
1-50
1.7.2 Inclusão de variáveis irrelevantes
Suponha agora que o modelo verdadeiro seja
y = X1β 1 + u (1.35)
mas que o modelo estimado seja
y = X1β 1 + X 2β 2 + u
(1.36)
= Xβ + u
onde
X = [X1 X2 ]
β 
β =  1
β 2 
Nesse caso, o estimador de MQO é dado pela fórmula

usual, e não é viesado:
b = (X' X)−1 X' y

= β + (X' X)−1 X' u
β  β 
E (b) = β =  1  =  1 
β 2   0 
Da mesma forma, a variância do estimador de MQO é

dada pela fórmula usual e também não é viesada.
1-51
Tais resultados parecem indicar que a inclusão de
variáveis irrelevantes não causa nenhum problema de
estimação.
Tendo em vista que, como vimos, a omissão de

variáveis relevantes causa problemas bastante graves,
a conclusão lógica pareceria ser:
“Sempre que estivermos em dúvida com relação à

inclusão/exclusão de alguma variável no modelo a ser
estimado, é melhor optar pela sua inclusão”.
Entretanto, tal conclusão está errada!
A razão disso é simples:
Se, por um lado, estimar um modelo omitindo uma

variável relevante equivale a impor uma restrição falsa
(restrição de que o coeficiente da variável é zero), por
outro lado, estimar um modelo incluindo uma variável
irrelevante equivale a deixar de impor uma restrição
verdadeira (restrição de que o coeficiente da variável é
zero).
O custo dessa segunda situação é a perda de

precisão da estimação. Conforme visto acima, a
variância do estimador de MQO aumenta com a
inclusão de novas variáveis explicativas.
Logo, também é necessário tomar cuidado para não

incluir variáveis irrelevantes no modelo.
1-52
APÊNDICE 1.A
Derivação do estimador de MQO
Problema:
Min β̂ e' e = (y − Xβ̂ )' (y − Xβ̂ )

= y' y − β̂ ' X' y − y' Xβ̂ + β̂ ' X' Xβ̂
= y' y − 2β̂ ' X' y + β̂ ' X' Xβ̂
Condições de primeira ordem:
∂ (e' e)
= −2 X' y + 2 X' Xβ̂ = 0
∂β̂
Seja b a solução do problema. Então, b satisfaz as k

equações normais:
( X' X)b = X' y
e, se (X’X)-1 existe, pode ser encontrado a partir de:
b = ( X' X) −1 X' y
Condições de segunda ordem para um mínimo:
∂ 2 (e' e)
= 2 X' X é positiva definida
∂β̂ 2
1-53
Pergunta: A condição de segunda ordem é satisfeita?
Resposta: Sim.
Prova:
Sejam X uma matriz (n x k) de posto cheio k e d um

vetor não nulo (k x 1). Observe que:
• d'(X’X)d ≥ 0 , pois é dada pela soma dos

quadrados dos elementos do vetor Xd (n x 1)
• d'(X’X)d = 0 se e somente se Xd = 0
Mas Xd = 0 implica que as colunas de X são

linearmente dependentes, o que contradiz a hipótese
de que X tem posto cheio. Logo,
d'(X’X)d > 0 para todo d ≠ 0
⇒ X’X é positiva definida
1-54
Pergunta: (X’X)-1 existe?
Resposta: Sim.
Prova:
Uma matriz positiva definida não pode ser singular.

Suponha que (X’X) seja singular; então, existe algum
vetor d ≠ 0 que satisfaz
(X’X)d = 0 ⇒ d'(X’Xd) = 0
o que contradiz a hipótese de que X’X é positiva

definida.
⇒ X’X é não-singular
1-55
APÊNDICE 1.B
O modelo em forma de desvios
Sejam i um vetor coluna composto por 1’s, e x um

vetor de observações de uma variável. Então,
x 
1
ix =  :  = i i' x
  n
 x 
1
= ii' x
n
Podemos expressar os valores de x em forma de

desvio:
 x1 − x 
 :  = x − ix = x − 1 ii' x
  n
 n
x − x 
1
= Ix − ii' x
n
 1 
= I − ii' x
 n 
= Ax
A matriz A é uma matriz simétrica e idempotente que,

ao premultiplicar qualquer vetor x, o coloca na forma
de desvios.
1-56
Observe que
 1 1 1 1 
1 − − − .. −
n n n n 
 1 1 1 
 − 1− 1 − .. − 
 n n n n 
1 1
A= − − : : : 
 n n 
 1 
 : : : 1− 1 − 
n n 

 −1 −
1
.. −
1
1− 1 
 n n n n
Tal matriz é usada primordialmente para calcular

somas de quadrados de desvios:
∑ ( x1 − x ) 2 = (x − ix )' (x − ix )
= (Ax)' Ax
= x' A' Ax
= x' Ax
Podemos colocar o modelo
y = Xb + e
na forma de desvio, premultiplicando cada termo por A
Ay = AXb + Ae
1-57
e, então, proceder à decomposição da soma dos
quadrados:
y' Ay = b' X' AXb + e' e
SQT SQE SQR
1-58
APÊNDICE 1.C
Teorema de Frisch-Waugh-Lovell
Suponha que X possa ser particionada em 2 conjuntos

de variáveis, X1 e X2:
y = Xβ + u = X 1β 1 + X 2β 2 + u
Sejam b1 e b2 os coeficientes estimados por MQO:
y = X 1b 1 + X 2 b2 + e
Premultiplicando por M 1 = I − X 1 (X 1 ' X 1 ) −1 X 1 ' , obtemos
M 1 y = M 1 X 1b 1 + M 1 X 2 b 2 + M 1e
(1.C1)
= M 1 X 2b 2 + e
e, premultiplicando por X’2 ,
X 2 ' M 1y = X 2 ' M 1 X 2b 2 + X 2 'e

(1.C2)
= X 2 ' M 1 X 2b 2
Rearrumando,
(M 1 X 2 )' (M 1 y ) = (M 1 X 2 )' (M 1 X 2 )b 2
1-59
ou seja, o vetor b2 obtido da regressão de y sobre X =
[X1 X2] é idêntico ao obtido através do seguinte
procedimento:
(4) Regressão de y sobre X1; forma o vetor de

resíduos M1y;
(5) Regressão de X2 sobre X1; forma o vetor de

resíduos M1X2;
(6) Regressão de M1y sobre M1X2.
[resultado análogo vale para b1]
Esse resultado é conhecido como Teorema de Frisch-

Waugh-Lovell.
1-60
APÊNDICE 1.D
Aplicações do Teorema de Frisch-Waugh-Lovell
Aplicação 1: Pode-se usar esse resultado para provar

que o R2 nunca diminui ao adicionarmos novas
variáveis na regressão.
A partir de (1.C1), obtemos:
y' M 1 y = b 2 ' X 2 ' M 1 X 2 b 2 + e' e
ou
e' e = y' M 1 y − b 2 ' X 2 ' M 1 X 2 b 2
Observe que:
• y' M 1 y = (M 1 y )' (M 1 y ) é a SQR da regressão de y

sobre X1
• e’e representa a SQR da regressão de y sobre X =

[X1 X2]
• b 2 ' X 2 ' M 1 X 2b 2 ≥ 0
Logo, a SQR da regressão de y sobre X1 e X2 nunca

será superior à SQR da regressão de y sobre X1
apenas. Consequentemente, o R2 nunca será inferior.
1-61
Aplicação 2: Coeficientes de correlação parcial
Em Econometria, vê-se que o coeficiente de

correlação simples entre a variável dependente (Y) e
uma das independentes (por ex., X2) pode ser
“contaminado” pelas outras variáveis.
Por exemplo, se tanto Y quanto X2 forem

positivamente correlacionadas à X3, então um aumento
nesta última causará aumentos simultâneos nas duas
outras, inflando a correlação “natural” entre elas.
A solução é utilizar o coeficiente de correlação

parcial: r12.34...k é a correlação entre Y e X2, expurgada
qualquer influência de X3, X4 ... Xk.
Seja M* a matriz que produz o vetor de resíduos de

uma regressão contra todas as variáveis
independentes exceto X2. Então:
r12.34...k = correlação entre (M ∗ y ) e (M ∗ x 2 )
x 2 ' M ∗y
r12.34...k =
x 2 ' M ∗ x 2 y ' M ∗y
Comparando com a equação (1.C2) acima, vê-se que:
y ' M ∗y s1.34...k
b2 = r12.34...k = r12.34...k
x 2 ' M ∗x 2 s2.34...k
1-62
APÊNDICE 1.E
Teorema de Gauss-Markov
A matriz de variância-covariância de b é:
Var (b) = E[(b − β)(b − β)' ]

= E[(X' X)−1 X'uu' X(X'X)−1 ]
= (X' X)−1 X' E (uu' )X(X'X)−1
= (X' X)−1 X'σ 2 IX(X' X)−1
= σ 2 (X' X)−1
É possível encontrar algum outro estimador linear e

não-viesado que seja mais eficiente que b?
Seja b0 um estimador linear alternativo dado por
b 0 = C0 y
onde C0 é um matriz de constantes.
b0 é não-viesado se C0X = I:
E (b 0 ) = E (C 0 y) = E (C 0 Xβ + C 0 u) = C 0 Xβ
A matriz de variância-covariância de b0 é:
Var (b 0 ) = Var (C 0 y) = C 0Var (y)C 0 ' = σ 2 C 0 C 0 '
1-63
Seja
D = C 0 − C = C 0 − (X' X)−1 X'
Dado que C0X = I por hipótese, temos:
DX + (X' X)−1 X' X = I

DX + I = I
DX = 0
Logo,
Var (b 0 ) = σ 2 [(D + (X' X)−1 X' )(D + (X' X)−1 X' )' ]
= σ 2 [DX(X'X)−1 + (X' X)−1 X' X(X'X)−1 + DD'+(X' X)−1 X' D' ]
= σ 2 (X' X)−1 + σ 2 DD'
= Var (b) + σ 2 DD'
O que significa que a matriz de variância de b0 é igual

à matriz de variância de b mais uma matriz positiva
semidefinida.
⇒ MQO é o melhor estimador linear não-viesado
1-64
APÊNDICE 1.F
Estimação de σ 2
Para estimar σ 2 , partimos do vetor de resíduos e:
e = My = M(Xβ + u) = Mu
E (e' e) = E[(Mu)' Mu] = E (u' Mu)
Usando as propriedades do traço de uma matriz,
E (e' e) = E[tr (u' Mu)]

= E[tr (uu' M )]
= tr[ E (uu' M )]
= tr[ E (uu' )M ]
= tr[σ 2 IM ]
= σ 2 tr (M )
= σ 2 tr (I n − X(X' X)−1 X' )
= σ 2 tr (I n ) − σ 2 tr ( X(X' X)−1 X' )
= σ 2 tr (I n ) − σ 2 tr ( X' X(X' X)−1 )
= σ 2 tr (I n ) − σ 2 tr (I k )
= σ 2 (n − k )
1-65
Seja
e' e
s2 =
n−k
2
Logo, s2 é um estimador não-viesado de σ :
 e' e 
E (s 2 ) = E  =σ
2
n−k
E a matriz de variância-covariância estimada de b é
Var (b) = s 2 ( X' X) −1
1-66
APÊNDICE 1.G
Teste de H 0 : β 2 = β 3 = ... = β k = 0
A estatística de teste
F = b '2 ( s 2 C) −1 b 2 ( k − 1) ~ F(k - 1, n - k) (1.G1)
pode ser rescrita em função de valores mais familiares.
Note que a inversa de uma matriz particionada
A A 12 
A =  11
 A 21 A 22 
é dada por
 A 11 −1 + A 11 −1 A 12 B 22 A 21 A 11 −1
−1
−1
− A 11 A 12 B 22 
A = −1  (1.G2)
 − B 22 A 21 A 11 B 22 
−1
onde B 22 = ( A 22 − A 21 A 11 A 12 ) −1
Logo, particionando X em X = [ i X2] , temos
 i'   n i' X 2 
X' X =  ' [i X 2 ] =  ' ' 
X 2  X 2 i X 2 X 2 
e, usando o resultado (1.G2) acima,
1-67
C = (X '2 X 2 − X '2 i n −1 i' X 2 ) −1 = (X '2 AX 2 ) −1
Por conseguinte,
b '2 C −1 b 2 = b '2 X '2 AX 2 b 2 (1.G3)
que corresponde à SQE da regressão.
Usando (1.G3) e a fórmula s 2 = e' e /( n − k ) , podemos

rescrever a estatística (1.G1) como
SQE (k − 1)
F= ~ F(k - 1, n - k)
SQR (n − k )
ou
R 2 (k − 1)
F= ~ F(k - 1, n - k)
(1 − R 2 ) (n − k )
1-68
APÊNDICE 1.H
Derivação do estimador de mínimos quadrados

restrito
Formalmente, o problema é
Min b (y − Xb* )' (y − Xb* ) − 2 λ ' (Rb * − r)

*
As condições de primeira ordem são:
∂φ
= −2X' y + 2 X' Xb* − 2R'λ = 0
∂b *
∂φ
= −2(Rb * − r) = 0
∂λ
Obtemos
X' Xb* = X' y + R'λ (1.H1)
Resolvendo para b*
b * = ( X' X) −1 X' y + ( X' X) −1 R' λ

−1
(1.H2)
= b + ( X' X) R' λ
Premultiplicando por R e resolvendo para λ
Rb * = Rb + R ( X' X) −1 R' λ
1-69
λ = [R(X' X)−1 R' ]-1 (r - Rb)
Substituindo em (1.H2),
b * = b + ( X' X) −1 R' [R(X' X)−1 R' ]-1 (r - Rb) (1.H3)
Os resíduos da regressão restrita são
e* = y − Xb*
= y − Xb − X(b* − b)
= e − X(b* − b)
e a soma dos quadrados é
e'* e* = e' e + (b * − b)' X' X(b* − b)
Observe que e'* e* ≥ e' e : a SQR da regressão restrita

não pode ser menor do que a SQR da regressão
irrestrita!
Usando (1.H3),
e'* e* − e' e = (r − Rb)'[R(X' X)−1 R' ]-1 R(X' X)−1 X' X

(X' X)−1 R'[R(X' X)−1 R' ]-1 (r − Rb) (1.H4)
= (r − Rb)'[R(X' X)−1 R' ]-1 (r − Rb)
1-70
Logo, podemos rescrever a estatística do teste
H 0 : Rb = r usando (1.H4):
(e'* e* − e' e) q
F= ~ F(q, n - k) (1.H5)
e' e (n − k )
1-71
APÊNDICE 1.I
Variância do estimador de MQO com omissão de

variáveis
A variância do estimador de MQO no modelo (1.32) é

dada por
Var (b1 ) = σ 2 ( X1' X1 ) −1
Caso tivéssemos estimado o modelo verdadeiro (1.31),

a variância teria sido
Var (b1.2 ) = σ 2 ( X1' M 2 X1 ) −1
onde
M 2 = I − X 2 (X 2 ' X 2 )−1 X 2 '
Podemos comparar as duas matrizes de variância

acima olhando para a diferença entre suas inversas:
Var (b1 ) −1 − Var (b1.2 ) −1 = σ 2 X1 ' X 2 ( X 2 ' X 2 ) −1 X 2 ' X1
que é uma matriz positiva definida.
Isso significa que a inversa da variância de b1 é maior

que a inversa da variância de b1.2, ou seja, que a
variância de b1 é menor que a variância de b1.2.
1-72
Outro problema diz respeito à estimação de σ 2 -
necessária para a realização de testes de hipótese. O
estimador usual seria
e1' e1
s2 =
n − k1
Mas pode-se mostrar que tal estimador também é

viesado. De fato, note que
e1 = M 1y = M 1 (X1β 1 + X 2β 2 + u) = M 1 X 2β 2 + M 1u
de modo que, procedendo como no Apêndice 1.F,

pode-se provar que
E (e1 ' e1 ) = β 2 ' X 2 ' M 1 X 2β 2 + (n − k1 )σ 2
Logo, s2 é viesado, não sendo possível estimar σ 2 - e,

portanto, não sendo possível testar hipóteses sobre
o vetor de coeficientes β 1 .
1-73
EXERCÍCIOS
1.1
Usando as definições de y e X na página 1.4, mostre que (1.10) e (1.12) são equivalentes.
1.2
No curso de Econometria, você aprendeu que o estimador de MQO dos parâmetros β1 e

β2 na regressão
Yi = β1 + β 2 X i + ui
era dado por
∑ (Yi − Y )( X i − X)
b2 =
∑ (Xi − X )2
b1 = Y − b2 X
Mostre que as fórmulas acima podem ser obtidas a partir de (1.13).
1.3
Usando os resultados da Seção 1.2, mostre que se a regressão inclui um intercepto:

• a soma (e a média) dos resíduos é zero
• a média dos valores ajustados é igual à média dos valores observados
1.4
Mostre que MX = 0, onde M = I – X(X’X)-1X’ é a matriz definida na Seção 1.2.2. Interprete

o resultado.
1.5
Sejam os três vetores coluna: v1 = (1,2,c,4,4), v2 = (-2,1,4,-6,c), v3 = (-1,c,7,-2,7), onde c é

uma constante positiva. Esses vetores representam o resultado de uma regressão de
mínimos quadrados com intercepto: um deles é um vetor de observações da variável
dependente, outro um vetor de ajustes, e outro um vetor de resíduos. O espaço coluna da
matriz X tem dimensão igual a 2. Calcule numericamente o R2 ajustado da regressão.
[DICA: Uma forma de resolver é pensar nas propriedades dos resíduos de MQO num
modelo com intercepto.]
1-74
1.6
Espaço vetorial de dimensão... .....

Na figura ao lado, o círculo pontilhado
representa, simbolicamente, um espaço
vetorial de dimensão qualquer. Imerso
nele há um subespaço de dimensão
menor qualquer, simbolizado pelo plano.
O triângulo retângulo formado por três
vetores, apoiado nesse plano, tem um
significado crucial em Econometria.
Explique esse significado, mencionando:
a
c (a) O que determina as dimensões do
espaço vetorial e do subespaço
b vetorial.
(b) Que vetores geram o subespaço.
(c) O que representam os três vetores a,
b b e c que formam o triângulo.
(d) Por que é um triângulo retângulo.
Subspaço vetorial de dimensão.. ....
(e) Qual a expressão da matriz que
transforma linearmente o vetor a no
vetor b. E no vetor c.
(f) Qual a relação entre o R2 de uma
regressão e o Teorema de Pitágoras
aplicado a esse triângulo retângulo.
1.7
Considere as seguintes informações:
1  b 1 c 
y 1 = 1  y 2 = 1 X = 0 d  e1 = 0 e2 = y2
a  1 0 e 
onde: e1 = vetor de resíduos da regressão de y1 em X

e2 = vetor de resíduos da regressão de y2 em X
a, b, c, d, e = parâmetros desconhecidos.
(a) Quais são os valores dos parâmetros a e b? (1,5 pontos)
(b) Os parâmetros c, d, e podem ser unicamente determinados a partir das informações

acima? Por quê? (0,5 ponto)
(c) Caso a resposta ao item anterior seja positiva, encontre a solução única. Caso a
resposta seja negativa, apresente uma possível solução. (0,5 ponto)
1-75
1.8
Um economista deseja verificar se a taxa de crescimento econômico de um país é afetada

pelo “nível de liberdades individuais” e pelo “grau de corrupção” do país através da
seguinte regressão (contendo um termo constante):
Yi = β1 + β 2 Li + β 3Ci + ui
onde Y é a taxa de crescimento do PIB, L o nível de liberdades individuais e C o grau de

corrupção do país i. A variável L pode assumir os valores 1 (nível elevado de liberdades),
0 (nível médio de liberdades) ou –1 (nível baixo de liberdades). Similarmente, a variável C
pode assumir os valores 1 (baixo grau de corrupção), 0 (grau de corrupção médio) ou –1
(elevado grau de corrupção).
Para uma amostra de 10 países, observados ao longo de 1999, o economista obtém os

seguintes dados:
País Y L C
Dinamarca 6 1 1
México 2 1 -1
Chile 3 0 1
Colômbia -1 0 -1
Rússia 2 0 0
Argentina 2 0 0
Brasil 1 0 0
Grécia 1 0 0
Egito 0 -1 0
Indonésia 0 -1 0
Infelizmente, o economista não pode rodar a regressão, pois seu computador contraiu um
vírus que apagou todo o HD (inclusive o Eviews...). O economista precisa entregar a seu
superior um relatório com os resultados da regressão; entretanto, como ele não teve aula
de TPE, não sabe como realizar os cálculos manualmente. Você certamente poderá
ajudá-lo!
(a) Usando seus conhecimentos de álgebra linear, escreva as equações normais e

calcule o vetor de coeficientes de MQO. Interprete os coeficientes estimados.
(b) Calcule as variâncias dos coeficientes estimados. Tais coeficientes são
estatisticamente significativos (a 10%)?
(c) Calcule o R2 da regressão.
Suponha que, após você ter terminado seus cálculos, o economista consiga recuperar
seu HD e decida conferir suas respostas usando o Eviews.
(d) Mostre os resultados da regressão acima realizada no Eviews. Compare os resultados

com aqueles obtidos nos itens (a)-(c); os resultados deveriam ser idênticos (se não forem,
é sinal de que você cometeu algum erro!)
1-76
1.9
Em certo país, com o objetivo de testar algumas hipóteses sobre os determinantes dos
gastos dos municípios em educação e saúde, estima-se por MQO uma regressão dos
gastos municipais (G) em função de uma constante (C), das receitas tributárias do
município (R) e de uma variável dummy (D) que assume valor 1 se o município é
governado por um partido “de esquerda”, e zero em caso contrário. Sabemos que:
• O vetor de coeficientes estimados para C,R,D é b’=[ -0.7527, 0.4753, 2.3764 ]
• O número de municípios com governo de esquerda é 10
• A soma das receitas de todos os municípios é 200, sendo que os municípios de
esquerda têm 25% desse total
• A soma dos quadrados das receitas de todos os municípios é 2114
• A soma dos gastos de todos os municípios é 100
• A soma dos quadrados dos gastos de todos os municípios é 504
• Os valores na diagonal da matriz inversa de X’X são [0.338, 0.00267, 0.2329]
Responda:
a) Quanto foi gasto pelos municípios de esquerda em saúde/educação?

b) Calcule as variâncias dos coeficientes estimados e o R2 da regressão.
c) Teste, ao nível de 5%, a hipótese de que os partidos de esquerda não gastam mais
em saúde/educação relativamente aos demais.
1.10
Suponha um modelo econométrico para explicar o consumo (C) de famílias de uma

mesma região através de três variáveis: renda (R), poupança total (P) e posse do imóvel
em que habita (D). As variáveis C, R e P são medidas em reais. A variável D é uma
dummy que assume valor 1 se a família é dona do imóvel em que habita, e zero caso
contrário. A FRP é:
Ci = β1 + β 2 Ri + β 3 Pi + β 4 Di + ui
Um economista estimou esse modelo para uma amostra de 14 famílias, obtendo:
1  1 0 0 0
 2 −1
0 2 0 0 1
b=  (X ' X ) =  s2 =
1  0 0 1 0 3
4 0 0 0 3
Teste conjuntamente as hipóteses: (1) não há diferença entre os efeitos da renda e da

poupança sobre o consumo, e (2) o fato de a família ser dona do imóvel em que habita
não influencia em nada o consumo. O Conjunto das hipóteses é rejeitado ou não?
Interprete o resultado.
1-77
1.11
A teoria econômica sugere que o grau de independência da política monetária de um país

depende do regime cambial adotado: sob um regime de câmbio fixo e mobilidade de
capitais, a taxa de juros doméstica estaria atrelada à taxa de juros externa, enquanto que
num regime de câmbio flutuante as autoridade monetárias teriam liberdade para
determinar a taxa de juros doméstica. Entretanto, alguns autores afirmam que mesmo em
países com regimes flexíveis a política monetária não é independente, pois fatores como
credibilidade, repasse (“pass-through”) do câmbio à inflação e passivos em moeda
estrangeira impedem que as autoridades deixem o câmbio flutuar livremente – ou seja,
que adotem políticas monetárias independentes.
Com o objetivo de testar se a adoção de um regime flutuante realmente permite políticas

monetárias independentes, um economista estimou, para um conjunto de países, a
seguinte regressão:
i D = β1 + β 2i* + ε
onde iD = taxa de juros doméstica; i* = taxa de juros externa
A regressão foi estimada para a amostra completa de países e para duas subamostras,
classificadas de acordo com o tipo de regime cambial adotado pelos países: (1) câmbio
fixo; (2) câmbio flexível. As matrizes relevantes, em cada subamostra, são:
(1) Câmbio fixo
10 60   60 
X1' X1 =   X1' y1 =   y1' y1 = 490
60 420 420
(2) Câmbio flexível
10 60   60 
X2 ' X2 =   X2'y 2 =   y 2 ' y 2 = 430
60 420 390
a) Calcule o vetor de coeficientes de MQO e o R2 para a amostra inteira e para cada

subamostra. Os valores dos coeficientes estimados estão de acordo com a teoria
“convencional”?
b) Teste, ao nível de 5%, a igualdade dos coeficientes entre as duas subamostras.
Interprete o resultado.
1-78
1.12
Os dados abaixo referem-se a um modelo de regressão linear estimado:
 − 1 0,05 0,1 0 
b = − 2 =  0,1 0,4 0 
−1
e' e = 74 (X' X )
 3  0 0 0,5
O modelo (com intercepto) explica as importações de um país em função da taxa de

câmbio real (x2) e um índice de produção física industrial (x3). Teste, ao nível de
significância de 1%, a hipótese conjunta de que β 1 = 0 e β 2 = − β 3 .
1.13
Com o objetivo de analisar a relação entre os lucros dos bancos e o volume de

empréstimos concedidos, o economista A pretende estimar a seguinte regressão:
Li = β1 + β 2 Ei + ui
onde Li é o lucro por cliente do banco i, Ei é o volume de empréstimos do banco e ui é um
distúrbio aleatório.
Entretanto, segundo o economista B, não seria correto estimar tal regressão para a
amostra total de bancos, pois bancos com diferentes tamanhos devem apresentar
desempenhos muito diferentes – e, portanto, os parâmetros não podem ser considerados
constantes ao longo da amostra. O mais correto, segundo ele, seria estimar regressões
diferentes para bancos com tamanhos diferentes.
Suponha que seja possível dividir a amostra em duas partes, a primeira correspondente
aos bancos de pequeno porte e a segunda aos bancos de grande porte, cujas
observações geram as seguintes matrizes:
10 10 10 

X1' X1 =   X1' y1 =   y1 ' y1 = 3210
10 11 50
10 10  10 
X2 ' X2 =   X2 'y 2 =   y 2 'y 2 = a
10 11 100
onde X inclui um intercepto.
a) Calcule o vetor de coeficientes de MQO para a amostra inteira e para cada uma
das subamostras. Interprete os resultados.
b) Calcule a soma dos quadrados dos resíduos para cada subamostra. Qual é o
intervalo de valores possíveis para a?
1-79
c) Para quais valores de a poderíamos dizer, com 95% de confiança, que o
procedimento sugerido pelo economista B é realmente mais correto?
1.14
Um economista deseja estimar a seguinte relação para um conjunto de países:
Yi = β 1 + β 2 J i + β 3 Pi + u i , u i ~ N (0, σ 2 ) (1)
onde, para cada país i, Yi é a taxa de crescimento do PIB, Ji é a taxa de juros nominal e Pi
é a taxa de inflação.
Ele dispõe dos seguintes dados:
100 0 0 100
X' X =  0 10 0 X' y = - 15 y' y = 220,5
 0 0 1  1 
onde y é o vetor de observações da variável dependente e X a matriz de observações das

variáveis explicativas.
(a) Calcule os coeficientes estimados por MQO. [0,5 ponto]
(b) Segundo outro economista, a taxa de crescimento do PIB deveria depender

exclusivamente da taxa de juros real, de modo que uma equação mais apropriada
seria:
Yi = δ1 JRi + u (2)
onde JR = J – P é a taxa de juros real “ex-post”. Com base nas informações

disponíveis, teste ao nível de 5% a validade dessa especificação vis-à-vis a equação
(1). [1 ponto]
(c) Se nós dispuséssemos de informações adicionais, seríamos capazes de realizar o

teste do item anterior através de um método alternativo. Descreva esse método
alternativo, explicitando as informações requeridas para a sua realização. [0,5 ponto]
(d) Um terceiro economista, tentando conciliar as idéias dos outros dois, sugere estimar
por MQO uma equação contendo simultaneamente as variáveis nominais e reais, isto
é:
Yi = β1 + β 2 J i + β 3 Pi + β 4 JRi + ui (3)
Esse procedimento apresenta algum problema? Responda fazendo referência às

propriedades da matriz X de variáveis explicativas. [0,5 ponto]
1-80

Modelo Classico de Regressao Linear

Enviado por

Direitos autorais:

Formatos disponíveis

Modelo Classico de Regressao Linear

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelo Classico de Regressao Linear

Enviado por

Direitos autorais:

Formatos disponíveis

1.

O Modelo Clássico de Regressão Linear (MCRL)

1.1. Hipóteses do MCRL

O modelo a ser estimado pode ser expresso como:

Yi = β1 + β 2 X 2i + β 3 X 3i + ... + β k X ki + ui , i = 1,...,n (1.1)

X2,...,Xk são k-1 variáveis independentes (explicativas),

β1,..., βk são os parâmetros a serem estimados,

i indexa as n observações amostrais.

(1) Linearidade nos parâmetros

(2) Regressores não-estocásticos

(3) Média zero dos distúrbios

(5) Ausência de autocorrelação dos distúrbios

(7) Número de observações ≥ número de

(8) Variabilidade dos valores de X

(9) Modelo corretamente especificado

(10) Ausência de multicolinearidade perfeita entre

(11) Normalidade dos distúrbios

ou, em forma matricial:

Observe que a 1a coluna de X é um vetor de 1’s,

Atenção: a ordem dos índices na matriz X é a inversa

y = β1x1 + β 2 x 2 + ... + β k x k + u (1.4)

de modo que o vetor y pode ser expresso como uma

As hipóteses do MCRL na versão matricial são:

(1) Linearidade nos parâmetros

(2) Regressores não-estocásticos

(3) Média zero dos distúrbios

 var(u1 ) cov(u1 , u2 ) .. cov(u1 , un ) 

(6) Ausência de correlação entre regressores e

(9) Modelo corretamente especificado

(11) Normalidade dos distúrbios

nosso objetivo é encontrar a “melhor” estimativa do

Seja o vetor β̂ (k x 1) uma estimativa qualquer de β, a

O método dos MQO seleciona β̂ de modo a minimizar

O Apêndice 1.A mostra a derivação do estimador de

Em outras palavras: dentre todos os (infinitos) vetores

Podemos ter dois casos básicos:

• Caso 1: y está no espaço coluna de X

Isso significa que y pode ser expresso exatamente

Ex.: x1, x2 e y são vetores 3x1 com a terceira

Isso significa que y não pode ser expresso como

Mas podemos escrever:

onde e é a diferença (“resíduo”) entre y e a

A estimativa de y é sua projeção no espaço de X, dada

(1) O vetor de resíduos é ortogonal ao vetor ŷ :

(2) Como ŷ é uma combinação linear das colunas de

(3) Se as colunas de X são linearmente

Mas como podemos calcular o vetor b que resolve o

Note que, como vimos, e é ortogonal a todo o plano

Mas e = y – Xb. Logo:

De modo que o estimador b deve satisfazer as k

( X' X)b = X' y (1.10)

e, se (X’X)-1 existe, ele é encontrado a partir de:

b = ( X' X) −1 X' y (1.11)

O Apêndice 1.A prova que, dadas nossas hipóteses, a

(No Exercício 1.1 você deve derivar essa expressão)

(1.12) deveria parecer familiar a vocês.

Se ainda não reconhece expressões estudadas no

Suponha que você deseje estimar uma regressão