Demostraciones Econometria

Luis Carlos Carvajal Osorio Final Econometra 1
Generalidades de la econometra
La econometra es una rama de la economa que consiste en la creacin de modelos para estimar
mtodos que permitan explicar fenmenos econmicos.
Hay cinco elementos fundamentales en un modelo:
Parmetros: Parte de la ecuacin que se pretende estimar (ejemplo: los )

Perturbaciones estocsticas: Parte no estimable del modelo, que se explica por el azar.
Ecuaciones: Forma funcional del modelo
Datos: Conjunto de valores que servirn para la estimacin
Variables: Criterio bajo el cual se agrupan los datos y cuya relacin ser el fin ltimo del
modelo (ejemplo: precios, cantidades, distancias). Segn su funcin dentro del modelo
podrn ser endgenas (variable que se pretende explicar) o exgenas (variable que est
dada desde el principio y ser contribuyente a la explicacin de la variable endgena)
Los datos se pueden clasificar en:
Corte transversal o cross section: Datos de mltiples individuos en un mismo momento

del tiempo.
Series de tiempo: Datos de un solo individuo a lo largo de diferentes momentos
Datos de panel: Datos de mltiples individuos a lo largo de varios momentos en el tiempo.
Georreferenciados: Datos organizados segn su ubicacin espacial.
Para crear un modelo hay diferentes pasos, a saber:

1. Especificacin: Se definen las variables exgenas y endgenas, as como se formulan los
supuestos y los objetivos
2. Estimacin: Se hacen los estudios y se realizan pruebas sobre los datos
3. Validacin: Se revisa el modelo y se corroboran los supuestos
4. Pronstico Simulacin: Se hacen predicciones en base a lo estimado en el modelo.
5. Anlisis: Se interpretan los resultados y se confrontan con la teora.
Los modelos pueden clasificarse segn diferentes aspectos, tal y como se resume en la siguiente
tabla.
Criterio de clasificacin
Manejo del tiempo
Nmero de ecuaciones
Forma de las funciones
Rezago de los datos
Categora 1
Esttico
Uniecuacional
Lineal
Interdependiente
Categora 2
Dinmico
Multiecuacional
No lineal
Recursivo
Generalidades del modelo de mnimos cuadrados ordinarios (MCO)

El modelo de Mnimos Cuadrados Ordinarios (MCO) es un modelo de estimacin lineal de una sola
ecuacin, en el que una variable estar en funcin de diferentes variables exgenas y de una
perturbacin estocstica. Lo que el modelo busca es crear una funcin que se acerque tanto a los
datos reales como sea posible, de forma que pueda reducir al mnimo el cuadrado de las
perturbaciones estocsticas. El cuadrado es necesario pues los errores positivos y negativos se
contrarrestan.
Matemticamente, esto se representa as:
Yi 0 1X1i 2X2i ... k Xki i

Para un modelo de una variable, de la forma Yi 0 1Xi i se
puede hacer una
representacin grfica. La lnea es el resultado del modelo, los puntos son los datos y el espacio
entre cada punto y la lnea son las perturbaciones estocsticas.
Para hallar la forma funcional de esta lnea es necesario aclarar cules son los . Primero se har
una explicacin para el modelo de dos y luego se generalizar para n .
Demostracin 1: De dnde salen 0 y 1 en el modelo lineal simple

de MCO?
Esta demostracin estar enfocada en hallar en la ecuacin Yi 0 1Xi i las variables 0 y
1. Queremos minimizar la suma de todos los al cuadrado. Si despejamos obtenemos
i Yi 0 1 X i
Luego
N
la
N
ArgMn S ArgMn i ArgMn (Yi 0 1X i )2

01
01
i1
0 1
i1
funcin
objetivo
ser
Para minimizar, derivamos con respecto a 0 e igualamos a 0. El -2 pasa a dividir, de forma que se
elimina. Luego se reparte la sumatoria
N
S
2 (Yi 0 1X i ) 0
0
i 1
N
(Y
i
i 1
1X i ) 0
i 1
i 1
i 1
Yi 0 1X i 0
Queremos despejar 0 . Para ello, recordemos que la suma de una constante desde 1 hasta N es
multiplicar dicha constante por N. Dicho esto, tenemos:
N
Y Y
i 1
i 1
i 1
i 1
i 1
Yi 1 Yi N 0
Yi
i1
Y
i 1
Por ltimo, la definicin de media de una variable nos dice que sta se halla sumando todos los
valores y dividiendo por el nmero de datos. Entonces
0 Y 1 X
Ahora derivaremos respecto a 1 . Atencin a la regla de la cadena. El -2 pasa a dividir y
repartimos la sumatoria (distribuyendo la X)
N
S
2 (Yi 0 1X i )(Xi ) 0
1
i 1
N
(Y
i 1
1X i )(Xi ) 0
i 1
i 1
i 1
2
YiXi 0 Xi 1 Xi 0
Segn lo que recin hallamos, reemplazamos 0 . Distribuimos y agrupamos.
2
YiX i (Y 1 X) Xi 1 Xi 0
i 1
i 1
i 1
i 1
i 1
i1
2
YiX i Y X i 1 X X i 1 Xi 0
i 1
Y X Y X (X X X
i 1
i 1
i 1
i 1
2
i
)0
Despejando 1
i1
N
i1
N
i1
i1
Y X i Yi X i
X Xi Xi
Cambiamos de signos y sumando y restando por X

N
YiXi Y Xi
i 1
N
X
i1
i 1
N
X Xi
2
i
i1
i1
N
i i
X
i 1
2
i
i1
N
i1
i1
(Y Y)(X X)
i
i1
(X X)
i1
Dividimos por N-1

N
(Y Y)(X X)
i
i1
N1
N
(X X)
i1
i 1
N
i1
N
X Xi X Xi X Xi
Luego, factorizamos
YX Y X X Y X Y
N1
i1
i 1
i 1
Yi en el numerador y por X X i obtenemos
Por definiciones de varianza y covarianza, llegamos a
Cov(Yi , X i )
1
Var(X i )
Pero estas frmulas son slo vlidas para el modelo de un solo regresor. Deberemos abordar un
enfoque matricial para generalizar esto para ms de un regresor.
Demostracin 2: Cmo hallar los en el modelo general de MCO?

En este caso nos ocupa la funcin
Yi 0 1 X 1i 2 X 2i ... k X ki i
Despejando
i Yi 0 1X1i 2X2i ... k Xki i

Nuestra funcin objetivo ahora ser
N
ArgMn S ArgMn i ArgMn (Yi 0 1 X 1i 2 X 2i ... k X ki i )2
i1
i1
Expresemos la funcin matricialmente. Y es un vector N x 1 que contiene todos los valores de la

variable independiente. X es una matriz N x K (o N x (K+1), si empezamos a contar los regresores
de 0 hasta K) donde cada fila representar un individuo y cada columna el valor de cada variable
explicativa. El vector representa los valores de los K (o K+1) parmetros. La idea es despejar este
vector. Por ltimo, el vector es el vector de perturbaciones estocsticas. Este ser el vector a
minimizar.
Y x
Y - x
1
Y1
1 X 11 X 21

Y
2 2 1 X 12 X 22
...
...
... ... ...

N Nx1 YN Nx1 1 X 1N X 2N
1
Y1
0

Y
2 2 0
...
...
...

N Nx1 YN Nx1 1
1X 11
1X 12
...
1X 1N
... X k1
0

... X k2
1
...
... ...

... X kN Nx(k1) k (k1)x1
2 X 21 ... k X k1
2 X 22 ... k X k2
...
... ...
2 X 2N ... k X kN Nx1
12
(Y1 0 1X 11 2 X 21 ... k X k1 )2
2
2
2 (Y1 0 1X 12 2 X 22 ... k X k2 )
...
...
2
2
N Nx1 (Y1 0 1X 1N 2 X 2N ... k X kN ) Nx1
Procedo a derivar con respecto a cada e igualar a 0. La nica derivada distinta a las dems es la
de 0 . Las dems sern todas iguales, con la nica diferencia en la X que distribuyo
N
ArgMn (Yi 0 1X 1i 2 X 2i ... k X ki i )2
i 1
N
S
2 (Yi 0 1X 1i 2 X 2i ... k X ki ) 0
0
i 1
N
S
2 (Yi 0 1X 1i 2 X 2i ... k X ki ) 0
0
i 1
N
N
S
2 Yi 2 ( 0 1X 1i 2 X 2i ... k X ki ) 0
0
i 1
i 1
N
S
2 (Yi 0 1X 1i 2 X 2i ... k X ki )(X1i ) 0
1
i 1
N
S
2
2 (YiX 1i 0 X 1i 1X 1i 2 X 2iX 1i ... k X kiX 1i ) 0
1
i 1
N
N
S
2
2 YiX 1i 2 ( 0 X 1i 1X 1i 2 X 2iX 1i ... k X kiX 1i ) 0
1
i 1
i 1
Esta ltima expresin se divide en dos sumatorias. La primera es el producto de X e Y. La segunda

es el producto de los estimados con el producto de X1 y las otras X. La primera parte es la
segunda fila de la matriz XY (para el caso de X1) y la segunda parte es la segunda fila de la matriz
XX. Cada fila representa la derivada respecto a cada parmetro (la tercera fila es para X2, la
cuarta es para X3, y as sucesivamente)
1
X
11
X Y X 21
...
X k1
1
X11
X X X21
...
Xk1
X 12
X 13
X 22
X 23
....
....
X k2
X k3
1
Y1
... X 1N
Y
2
... X 2N
...
.... ...

YN
.... X kN (k1)xN Nx1

...
...
X12
X13
...
X22
X23
...
X2N
....
....
....
...
Xk2
Xk3
....
N
X 1i
i
1
X X N
X 2i
i1
N ...
X ki
i1
X 1i
i 1
N
i 1
2
1
X1N
XkN
(k 1)xN
N
X 2i
i 1
N
X 1i X 2i
i 1
X 1i X 2i
X2
i 1
....
N
X 1i X ki
i 1
i 1
....
N
X 2i X ki
i 1
1
1
...
1
X11
X12
X21
X22
...
...
X1N X2N
Yi
Ni1
YX
i 1i
i 1
N
Yi X 2i
i1
...
N
Yi X ki
i1
(k1)x1
... Xk1
... Xk2
...XkN
Nx(k 1)
... ...
N
N
X1i
i1
N
X2i
i1
...
N
X
i1 ki
N
N
N
N
X ki
...
k X ki
i 1
0
1 1i
N

i 1
i 1
N i 1
... X 1i X ki 0
N
N
2
i 1
...
X
X
1
N
k 1i ki
0 1i 1 1i
i 1
i 1
i 1
... X 2i X ki ...
i 1
...

N
N
N
....
... k
2
(k
1)x1
N
X
X
...
0 ki
1 1i ki
k ki
.... X ki2
i 1
i 1
i 1
(k 1)x1
i 1
...
Lo nico que falta es multiplicar por los escalares. As, obtenemos que
S
2XY 2XX
Ahora,
S
2X Y 2X X 0
Despejemos
N
N
N
...
X1i
X2i
Xki
i1
i1
i1
N 2
N
N
X1
X1iX2i ... X1iXki
i1
i1
i1
N
N 2
N
... X2iXki
X1iX2i
X2
i1
i1
i1
....
....
....
...
N
N
N 2
X1iXki X2iXki ....
Xki
i1
i1
i1
2X X 2X Y
X X X Y
Para obtener sola, nos estorba XX. Como estas son matrices, no se pueden pasar a dividir. Por
eso, multiplicamos por su inversa (este es el equivalente a pasar a dividir en lgebra lineal). As
llegamos a
(X X) 1 X X (X X) 1 X Y
I (X X) 1 X Y
La matriz identidad multiplicada por cualquier matriz da como resultado dicha matriz. As
(XX)1 XY
Ahora demostraremos algunas propiedades derivadas de este resultado. Antes de esto, conviene
indicar que toda variable con ^ es estimada. Yi Es el valor estimado de Y. Adems, el residual se
define como la diferencia entre el valor estimado y el valor real de Y. Esto es i Yi Yi .
Demostracin 3: El hiperplano de regresin pasa por el punto de

medias
El enunciado anterior bsicamente significa que el promedio de la variable endgena debe ser el
mismo que el promedio del estimado de dicha variable.
Partimos de XX XY
En matrices, esto es:
Yi
N
N
N
Ni1
0 1X 1i ... k X ki
i1
i1
YX
N i 1
i 1i
N
N
2
i 1
X X ... X X
0 1i
1 1i
k 1i ki
i 1
i 1
i 1
Y
X
i 2i
...
1
N
N
N
2
...
0 X ki 1X 1iX ki ... k X ki
N
i 1
i 1
i 1
(k1)x1
YiX ki
i 1
(k1)x1
Si tomamos la primera fila tenemos que
i1
i1
i1
i1
0 1X1i ... k Xki Yi
Dividamos todo por N, para obtener los promedios.

N
i1
X
i1
1 1i
X
i1
ki
Y
i1
0 1 X1 2 X2 ... k Xk Y
La expresin de la izquierda es el promedio de todas las variables exgenas. Esto es lo mismo que
el promedio de Y . De ah concluimos que Y Y
Demostracin 4: La suma de residuales de los estimadores mnimos

cuadrticos es 0
La definicin de residual es i Yi Yi . Entonces la suma de residuales ser
N
i1
i1
i1
i Yi Yi
Y Y
Si dividimos esta expresin por N, obtenemos
i1
i1
i1
. Por definicin esto ser
i Yi Yi . Pero Y Y , por tanto i Yi Yi 0 . Esto implica dos cosas. La primera es que la

suma de residuales es 0. Adems el valor medio (el valor esperado) de los residuales es cero.
Demostracin 5: Los momentos de segundo orden entre cada

regresor y los residuales es 0
Deseamos ver el resultado del producto matricial entre la matriz x transpuesta y la matriz de
residuales, es decir X . Segn la definicin de residual, podemos establecer que X X(Y Y )
Si distribuyo, tengo X XY XY . Pero Y X , luego X
XY XX 0 , por la identidad
XX XY
Demostracin 6: Los momentos de segundo orden entre la

prediccin y los residuales es 0
Ahora queremos demostrar que el producto entre la matriz de residuales y la matriz transpuesta
de predicciones es 0.
Esto es Y Y1
10
1

N
... YN 1xN 2 Yi i . De acuerdo a la definicin de Y X
...
i1

N Nx1
Y2
tenemos
N
i1
i 1
Yi i ( 0 1X1i 2X2i ... k Xki ) i

N
i1
i 1
Yi i 0 i 1 X1i i 2 X2i i ... k Xki i

La demostracin anterior nos dice que cada uno de estos productos es 0. Adems la suma de los
N
residuales es 0. As:
Y
i1
0 0 0 0 0... 0 0
Coeficiente de determinacin R2
El coeficiente de determinacin R2 es una medida de bondad de ajuste lineal (es decir, busca
N
cunto de la varianza muestral se define por la regresin). R2 est definido por R2
(Y Y )
i 1
N
(Y Y )
i 1
2
El modelo tiene mayor capacidad predictiva a medida de que el R2 se acerque a 1. El R va de 0 a 1.

Este coeficiente se puede expresar de otra forma.
Primero, redefinamos el denominador. El valor poblacional de Y es el valor estimado ms la
perturbacin estocstica. Adems, Y Y Si reemplazamos estos valores, obtenemos:
N
i1
i1
i1
i1
(Yi Yi )2 ((Yi i ) Yi )2 (Yi Yi i )2 [(Yi Yi ) i ]2

Resolvemos el trinomio y distribuimos
N
(Y Y )
i1
2
[(Yi Yi )2 2 i (Yi Yi ) i ]
i1
i1
i1
i1
i1
i1
i1
i1
i 1
(Yi Yi )2 (Yi Yi )2 2 i (Yi Yi ) i
i1
(Yi Yi )2 (Yi Yi )2 2 i Yi 2Yi i i
Por propiedades ya demostradas, podemos eliminar los dos trminos de la mitad, pues ambos son
iguales a 0
N
i1
i1
i1
(Yi Yi )2 (Yi Yi )2 i
(Y Y )
Ahora dividamos todos por
y despejemos R2
i 1
(Y Y )
i 1
N
(Yi Yi )2
i1
N
(Y Y )
i1
(Yi Yi )2
i1
N
i1
N
i1
i1
i1
i1
i1
R2 1
i1
i1
(Y Y ) (Y Y )
i
(Y Y ) (Y Y )
(Yi Yi )2
(Y Y )
i 1
(Y Y )
i1
N
(Y Y )
i1
(Y Y )
i1
R2 tambin se puede definir en forma matricial. Definiremos la matriz M0 as
M0 I
1
ii
N
1
1
i
...

1
1
1
ii 1 1 ... 11xN
...

1 1xN
11
1
1
ii
...
1 ... 1
1 ... 1
... ... ...
1 ... 1 NxN
1
1
1
N N ... N
1
1
1
1
...
ii N
N
N
N
... ... ...
...
1 1 ... 1
N
N
N NxN
1
0
1
I ii
...
N
0 ...
1 ...
... ...
0 ...
1
1
1 N N
1
1
M0 N 1 N
...
...
1
1
N
N
1
1
1
...
0
N
N
N
1
1
1
0
...
N
N
N
...
... ... ...
...
1
1
1 NxN 1
...
N
N NxN
N
1
...
N
1
...
N
...
...
1
... 1
N NxN
Esta es una matriz idempotente. Esto significa que al multiplicarse por s misma da la misma
matriz.
En la diagonal queda el 1-1/N al cuadrado porque se cruzan al hacer filas por columnas. El resto
de trminos es (1/N) x (1/N), que se repite N-1 veces (el -1 es porque el trmino que falta es el (11/N)2
En el resto de espacios va el (1-1/N) que se cruza dos veces con (-1/N) y los otros trminos son
(1/N) x (1/N), que se repite N-2 veces (el -2 es porque los trminos que faltan son los (-1/N) x (11/N)
12
1
1 1
1
1
1
1 N N ... N 1 N N ... N
1
1
1 1
1
1
...
...
M0M0
N
N N
N
N
N
...
...
... ...
...
...
...
...
1
1
1
1
1
1
... 1
... 1
N
N NxN N
N
N NxN
N
1 2 N1
2
1 N2
2
1 N 2
... (1 ) 2
(1 N) ( N2 ) N (1 N) N2
N
N
N
2
1 N2
1 2 N1
2
1 N 2
(1 ) ( 2 ) ... (1 ) 2
M0M0 N (1 N) N2
N
N
N
N
N
...
...
...
...
2 (1 1 ) N 2 2 (1 1 ) N 2 ... 2 (1 1 ) N 2
N
N
N
N
N
N
N2
N2
N2 NxN
2
1 N2
2 2
N
2
2 1
1
(1 ) 2 2 2 2
N
N
N N
N N
N
N
N N
1
N1
2 1
N
1
2 1
1
(1 )2 ( 2 ) 1 2 2 2 1 1
N
N N
N N
N
N
N N
1
1
1
1 N N ... N
1
1
1
...
M0M0
N
N
N
...
...
...
...
1
1
1
... 1
N
N
N NxN
Ahora haremos el producto de M0 y de Y
1
1
1
1 N N ... N Y1
1
1
1 Y
...
M0 Y
N
N ...
N
...
...
...
...
1
1
1
Y
... 1 N Nx1
N
N
N NxN
YN
1 Y2
Y1 (1 N) N ... N
Y1
YN
1
Y
(1
)...
2
M0 Y
N
N
N
...
Y1 Y2 ... YN (1 1 )
N
N
N
N Nx1
13
1 N
1 N Yi
i 1
N
1
Y
M0 Y 2 N Yi
i 1
...
N
1
YN Yi
N i1 Nx1
Y1 Y
Y2 Y
M0 Y
...
YN Y Nx1
N
M0 Y (Yi - Y)
i 1
Ahora, elevemos este resultado al cuadrado. Aprovecharemos la idempotencia y la simetra de M 0.

Tenemos que
N
(Y - Y)
i 1
(M0 Y)(M0 Y)
(Y - Y)
i 1
YM0M0 Y
(Y - Y)
i 1
YM0M0 Y
(Y - Y)
i 1
YM0 Y
Haremos un proceso muy similar para hallar
(Y - Y )
i1
(Y - Y )
i 1
(M0 Y )(M0 Y )
Y M0 Y
Ahora, dada la definicin de R2, reemplazaremos estos trminos por los recin encontrados
N
R2
(Y Y )
i 1
N
(Y Y )
i 1
14
R2
Y M0 Y
YM0 Y
Finalmente, reemplacemos Y
Y X
Y M0 Y (X )M0 X
Y M Y XM X
0
XM0 X
R
YM0 Y
2
Ahora veremos algunas caractersticas de los diferentes componentes del modelo (X, Y, )
Demostracin 7: tiene media 0 y varianza constante

Matemticamente, esta condicin se escribe como ~ (0, 2 )
Recordemos, que dado nuestro modelo Y X , tenemos que la matriz es igual a Y X
Sacamos valor esperado a ambos lados. Es importante notar que el valor esperado de Y es X.
E( ) E(Y X)
E( ) E(Y) E(X)
E( ) X X
E( ) 0
La varianza la demostraremos hallando la matriz de varianzas y covarianzas, que est determinada
por E[ - E( )][ - E( )]'
Dado que Y X , E[Y X - E( )][Y X - E( )]'
Puesto que E( ) 0 , entonces E[Y X][Y X]' . Ambos parntesis son . Luego
E[[ ][ ]' ]
E[ ' ]
Definamos la covarianza:
15
Cov( i j ) E[ i E( i )][ j E( j )]i j

Cov( i i ) E[ i E( i )]2 Var( i )
Sabiendo estas definiciones de varianza y covarianza, podremos construir la matriz, as
E[ 1 E( 1 )]
E[ E( )]
2
2
E[ 3 E( 3 )] * E[ 1 E( 1 )] E[ 2
...
E[ N E( N )]
Cov( 1 2 ) Cov( 1 3 )
Var( 1 )
Cov( )
Var( 2 ) Cov( 2 3 )
1 2
Cov( 1 3 ) Cov( 2 3 )
Var( 3 )
...
...
...
Cov( 1 N ) Cov( 2 N ) Cov( 3 N )

0
0
Var( 1 )
0
Var( 2 )
0
0
0
Var( 3 )
...
...
...
0
0
0
2
0
0
...
0
...
...
...
...
...
...
...
1
0
2 * 0
...
0
0
1
0
...
0
...
...
...
...
...
E( 2 )] E[ 3 E( 3 )] ... E[ N E( N )]
... Cov( 1 N )
... Cov( 2 N )
... Cov( 3 N )
...
...
... Var( N )
0
0
...
Var( N )
0
0
0
...
2
0 ... 0
0 ... 0
1 ... 0
... ... ...

0 ... 1
2I
Demostracin 8: Media y Varianza de Y

Por definicin de Y, sabemos que su valor esperado es X.
16
Ahora, si partimos de la demostracin anterior para varianza de , tenemos
E[Y X ][Y X ]'

E[Y E(Y)][Y E(Y)]'
Y E[Y E(Y)][Y E(Y)]'
Y
Y 2 I
En resumen
Y ~ (X , 2I)
Demostracin 9: Media y Varianza de estimado
La media (el valor esperado) de estimado se debe estimar sabiendo que (X' X) 1 X' Y
E[ ] E[(X' X) 1 X' Y] Reemplazando Y por su definicin tenemos
E[ ] E[(X' X)1 X' (X )]

E[ ] E[(X' X)1 X' X (X' X)1 X' ]
Distribuimos el valor esperado y operamos
E[ ] E[(X' X)1 X' X ] E[(X' X)1 X' ]

E[ ] E[ ] E[(X' X)1 X' ]
E[ ] (X' X)1 X' E( )
Como E ()=0, deducimos
E[ ]
Antes de hacer la varianza, hallemos otra forma de expresar estimado, que nos ser til despus.
De nuevo, partimos de la definicin de Y para luego hacer la distributiva
(X' X) 1 X' Y
(X' X) 1 X' (X )
(X' X) 1 X' X (X' X) 1 X'
(X' X)1 X'
17
(X' X) 1 X'
Para la varianza, trabajaremos con la matriz de varianzas y covarianzas
E[[ E( )][ E( )]']

El valor esperado de estimado es poblacional. O sea que se puede expresar esto as
E[[(X' X)
X' ][(X' X)1 X' ]' ]
Operando (atencin a la transpuesta) y repartiendo el valor esperado tenemos
E[[(X' X) X'' X(X' X)

(X' X) X'E[ ' ]X(X'X)
1
Este valor esperado ya lo habamos hallado. Remplazando, la expresin se vuelve
(X' X)
2
X' X(X' X)1
Como una matriz por su inversa es la matriz identidad, llegamos a
(X'X)
2
Es decir,
~ ( , 2 (X' X)1 )
Demostracin 10: Teorema Gauss Markov
El teorema Gauss Markov nos indica que el estimador hallado por el mtodo de MCO es el Mejor
Estimador Lineal insesgado (MELI, o BLUE por sus siglas en ingls). Por mejor se entender que es
el de menor varianza.
Expresemos entonces un Estimador lineal insesgado ( virgulilla)
Un estimador lineal est dado por una expresin as: [(X' X) 1 X'C]Y
Distribuimos y reemplazamos Y.
18
~
(X' X)1 X' Y CY
~
(X' X)1 X' (X ) C(X )
~
(X' X)1 X' X (X' X)1 X' CX C
~
(X' X)1 X' CX C
Restemos virgulilla menos el poblacional, por conveniencia.
~
(X' X) 1 X' CX C
Ahora, como deseamos obtener un estimador lineal insesgado, el valor esperado debe ser igual al
poblacional.
~
(X' X) 1 X' CX C
~
E( ) E( (X' X) 1 X' CX C )
~
E( ) E( ) E((X' X) 1 X' ) E(CX ) E(C )
~
E( ) (X' X) 1 X' E( ) CXE( ) CE( )
~
E( ) CX
Para que este estimador sea insesgado, hay que imponer la siguiente restriccin: CX = 0. Por tanto,
XC = 0 tambin.
Ya con estas definiciones podemos demostrar lo inicial, esto es, que la varianza de virgulilla es
menor que la de gorro (la de MCO)
Hallemos la varianza de virgulilla
E[[ E( )][ E( )]']

~
~
~
E[[ ][ ]' ]
~
E[[(X' X) X' CX C ][(X'X) X' CX C ]' ]
~
E[(X' X) X'' X(X' X) (X' X) X'' X' C'(X' X) X' ' C'
1
CX ' X(X' X)1 CX ' X' C'CX ' C'

C ' X(X' X)1 C ' X' C'C ' C' ]
Como impusimos la restriccin de que CX = 0, la expresin anterior se reduce a
E[(X' X)
~
E[(X' X)
~
(X' X)
X' ' X(X' X)1 (X' X)1 X' ' C'C ' X(X' X)1 C ' C' ]
X' ' X(X' X)1 ] E[(X' X)1 X' ' C' ] E[C ' X(X' X)1 ] E[C ' C' ]
X'E[ ' ]X(X' X)1 (X' X)1 X'E[ ' ]C'CE[ ' ]X(X' X)1 CE[ ' ]C'
19
Ahora resolveremos el valor esperado
(X' X)
~
(X' X)
2
X' X(X' X)1 2 (X' X)1 X' C' 2CX(X' X)1 2CC'
2 (X' X)1 X' C' 2CX(X' X)1 2CC'
Los trminos de la mitad sern 0, porque CX = 0
(X' X)
2
2CC'
Para revisar que el estimador de MCO es mejor, la diferencia de varianzas entre virgulilla y
gorro debe ser positiva. Entonces
(X' X)
~
CC'
2
2 CC'- 2 (X' X) 1
Este resultado es positivo, puesto que una varianza es siempre positiva y una matriz por su
transpuesta es semidefinida positiva, con lo cual se demuestra el teorema de Gauss Markov
Demostracin 11: Un estimador insesgado para la varianza

Esta demostracin inicia con establecer la varianza poblacional total. Lo que haremos es hallar la
sumatoria de todas las varianzas. Esto es lo mismo que multiplicar la transpuesta de por
E[ 1 ]
E[ ]
2
E( ' ) E[ 1 ] E[ 2 ] E[ 3 ] ... E[ N ]E[ 3 ]
...
E[ N ]
E( ' ) E[ 12 ] E[ 22 ] E[ 23 ] ... E[ N2 ]
E( ' ) 2 2 2 ... 2
E( ' ) N 2
Ahora, vamos a calcular la matriz de residuales en funcin de la varianza. Remplazamos
estimado
Y X
Y X[(X' X)1 X' Y]
Y X(X' X)1 X' Y
Si sacamos factor comn Y a la derecha y remplazamos Y por X+, tenemos
20
[I X(X' X)1 X' ]Y

[I X(X' X)1 X' ](X )
X - X(X' X)1 X' X X(X' X)1 X'

X - X X(X' X)1 X'
Factor comn a la derecha. Sea M [I X(X' X) 1 X' ]
[I X(X' X)1 X' ]

M
La matriz M es simtrica porque
M' [I X(X' X) 1 X' ]'

M' I'X(X' X) 1 X' M
Y tambin es idempotente ya que
MM [I X(X' X) 1 X' ][I X(X' X) 1 X' ]

MM I X(X' X) 1 X'X(X' X) 1 X'X(X' X) 1 X' X(X' X) 1 X'
MM I X(X' X) 1 X'X(X' X) 1 X'X(X' X) 1 X'
MM I X(X' X) 1 X' M
Ahora, hallemos el valor de la varianza de los residuales
E( ' ) E[(M )' (M )]

E( ' ) E[ ' MM ]
E( ' ) E[ ' M ]
Esta matriz es un escalar, porque es de tamao (1 x N) M es de tamao (N x N) y es de tamao
(N x 1). Por tanto, si sacamos la traza (suma de la diagonal), tendremos la misma matriz. Traza se
representa por tr. La traza y el valor esperado pueden alternar de posicin. Adems el valor de la
varianza tambin puede estar dentro y fuera del valor esperado.
E[ ' M ] tr{E[ ' M ]}

tr{E[ ' M ]} E{tr[ ' M ]}
E{tr[ ' M ]} E{tr[ ' M]} tr{E[ ' M]}
tr{E[ ' ]M]} tr{ 2M}
tr{ 2M} 2 tr(M)
Ahora remplazamos M. Por propiedades de la traza, puedo cambiar el orden de las matrices y
puedo distribuir el operador traza. As
21
2 tr(M) 2 tr[I X(X' X)1 X' ]

2 tr(M) 2 tr[I] 2 tr[X(X' X)1 X' ]
2 tr(M) 2 tr[I] 2 tr[X' X(X' X)1 ]
La matriz de la derecha es una identidad de tamao K. La traza de la matriz identidad es el tamao
de la misma.
E( ' ) 2 tr[IN ] 2 tr[IK ]

E( ' ) 2 (N K)
Despejando 2
E( ' ) E([Y X ]'[Y X ])
(N K)
(N K)
Mtodo de la Mxima Verosimilitud (Maximum Likelihood) bajo el

supuesto de normalidad
Al estimar por el mtodo de MCO la Y, con los X que se tienen y los y estimados, hay una
probabilidad de obtener los datos reales, es decir, de obtener los Y (que Y sea igual a Y estimado).
Esta probabilidad es el producto de la probabilidad de que el Y poblacional y el estimado de cada
observacin sean idnticos.
El mtodo de Mxima Verosimilitud sugiere que debemos elegir un conjunto de y de tal que
maximicemos la probabilidad de obtener los datos reales (X e Y).
Vamos a suponer que la funcin de probabilidad conjunta (probabilidad de hallar los X e Y reales
dados los los ) es una funcin normal. Una funcin normal est dada por
1
(2 )
2 N/2
exp{
1
(Y x )'(Y x )}
2 2
Esta funcin exponencial se puede volver lineal va logaritmos. Queda as
1
(Y x )' (Y x )
2 2
N
N
1
ln ln1 ln(2 ) ln( 2 ) 2 (Y X )' (Y X )
2
2
2
N
N
1
ln ln(2 ) ln( 2 ) 2 (Y X )' (Y X )
2
2
2
ln ln1 ln(2 2 )N/2
Para maximizar esta funcin, derivamos respecto a y a 2
22
ln
(X' X) 1 X' Y
Obtenemos el mismo resultado que en MCO.

Para obtener la varianza, derivamos respecto a 2
ln
N
1
2
(Y X )' (Y X ) 0
2
2
2( 2 )2
ln (Y X )' (Y X ) - N 2
0
2
2( 2 ) 2
ln
(Y X )' (Y X ) - N 2 0
2
ln
(Y X )' (Y X ) N 2
2
(Y X )' (Y X )
N
Este estimador es sesgado, pero cumple con el criterio de consistencia (La varianza tiende a 0 a
medida que N tiende a infinito)
Demostracin 12: estimado y estimado son independientes

La independencia implica que la matriz de varianzas y covarianzas debe ser 0.
23
E[[ E( )][ E( )]']

E[[ 0][ ]' ]
E[ ( )' ]
E[M[(X' X) X' ]' ]
E[M ' X(X' X) ]
ME[ ' ]X(X' X)
MX(X' X)
[{I X(X' X) X' }X(X' X) ]
[X' (X' X) X(X' X) X' X(X' X)
[X' (X' X) X(X' X) ]
[0]
0
24
Definicin de
Valores esperados respectivos
Simplificacin
Remplazo por definicin
Multiplicacin. Ojo con la transpuesta

Lo nico estocstico es
Valor esperado de
Definicin de M
Distributiva
Matriz por su inversa = Identidad
Se cancelan trminos semejantes
Mnimos Cuadrados Restringidos

En muchas ocasiones, los problemas econmicos contienen restricciones lineales derivadas de
informacin no muestral.
En
este
caso
N
nos
enfrentamos
un
problema
del
tipo
ArgMn S ArgMn i ArgMn i ' i sujeto a RB = r, donde R es la matriz de
i1
i1
restricciones. Resolveremos una optimizacin de Lagrange, dada por:
(Y X)' (Y X ) 2(r' ' R' ) (El dos est por facilidad matemtica)
Las condiciones de primer orden sern:
2X Y 2X X r - 2R' r 0
2(R r r) 0
De la primera condicin
X X r X Y R' r
25
r (X X) 1 X Y (X X) 1 R' r
r (X X) 1 R' r
Multiplicamos por R y obtenemos
R r R R(X X) 1 R' r
De 2 deducimos que
R r r
Es decir,
r R R(X X) 1 R' r
r R R(X X) 1 R' r
[R(X X) 1 R' ]-1 [r R ] r
Reemplazando:
r (X X) 1 R' [R(X X) 1 R' ]-1 [r R ]
Demostracin 13: El estimador de Mnimos Cuadrados Restringidos

es mejor que el de Mnimos Cuadrados Ordinarios
Tener esta proposicin implica que
C donde c es una matriz constante
semidefinida positiva.
Recordando que
(X' X) 1 , que (X' X) 1 X'
Y que r (X' X) 1 R' [R(X' X) 1 R' ]1 (r R )
E[ r ] (X' X) 1 R' [R(X' X) 1 R' ]1 (r R )
E[ r ] (X' X) 1 R' [R(X' X) 1 R' ] 1 (r R R(X' X) 1 X' )

E[ r ] (X' X) 1 R' [R(X' X) 1 R' ] 1
E[ r ]
Hallemos r para la restriccin verdadera
Remplazo restringido
Sea = r R R(X' X)1 X' . Restriccin falsa
Si la restriccin es cierta, =0
r (X' X) 1 R' [R(X' X) 1 R' ] 1 (r R R(X' X) 1 X' )

r (X' X) 1 R' [R(X' X) 1 R' ] 1 (R(X' X) 1 X' )
r (X' X) 1 X' (X' X) 1 R' [R(X' X) 1 R' ]1 R(X' X) 1 X'
r [I (X' X) 1 R' [R(X' X) 1 R' ]1 R](X' X) 1 X'
r M * (X' X) -1 X'
r M * (X' X) -1 X'
Definicin de restringido
R=r si la restriccin es verdadera
Distributiva
Factor comn a la derecha
Sea M* [I (X' X) 1 R' [R(X' X) 1 R' ]1 R]
Hacemos la resta por conveniencia
E[[ r E( r )][ r E( r )]' ]
E[[ r ][ r ]'
E[[M * (X' X) -1 X' ][M * (X' X) -1 X' ]' ]
M * (X' X) -1 X' E[ ' ]X(X' X) -1 M*'
M * (X' X) X' X(X' X) M*'
Distributiva
Valor esperado de
2M * (X' X) -1 X' X(X' X) -1 M*'
Reorganizacin
-1
-1
r 2M * (X' X)-1 M*'
26
Definicin de matriz varianzas y covarianzas

Valor esperado de restringido
Remplazo de la diferencia
Una matriz por su inversa da identidad
Ahora, si la restriccin es falsa:

r (X' X) 1 R' [R(X' X) 1 R' ] 1 (r R R(X' X) 1 X' )
Reorganizacin
r (X' X) 1 R' [R(X' X) 1 R' ] 1 (r R ) (X' X) 1 R' [R(X' X) 1 R' ] 1 R(X' X) 1 X'
r (X' X) 1 X' (X' X) 1 R' [R(X' X) 1 R' ] 1 (X' X) 1 R' [R(X' X) 1 R' ] 1 R(X' X) 1 X' Definicin de y de MCO
Distributiva
r (X' X) 1 X' (X' X) 1 R' [R(X' X) 1 R' ] 1 R(X' X) 1 X' (X' X) 1 R' [R(X' X) 1 R' ] 1
Factor comn
r [ I (X' X) 1 R' [R(X' X) 1 R' ] 1 R](X' X) 1 X' (X' X) 1 R' [R(X' X) 1 R' ] 1
Definicin de M*
r (X' X) 1 R' [R(X' X) 1 R' ] 1 M * (X' X) 1 X'
Por definicin
E[[ r E( r )][ r E( r )]' ]
27
Definicin de
1
E[[ (X' X) R' [R(X' X) R' ] M * (X' X) X' (X' X) R' [R(X' X) R' ] ]
[ (X' X) 1 R' [R(X' X) 1 R' ] 1 M * (X' X) 1 X' (X' X) 1 R' [R(X' X) 1 R' ] 1 ]' ]
Trminos semejantes se
cancelan
E[[M * (X' X) -1 X' ][M * (X' X) -1 X' ]' ]
M * (X' X) -1 X' E[ ' ]X(X' X) -1 M*'
Lo nico estocstico es
M * (X' X) -1 X' 2 X(X' X) -1 M*'
Valor esperado
2M * (X' X) -1 X' X(X' X) -1 M*'
Matriz por su inversa
2M * (X' X) -1 M*'
Como podemos observar, la matriz de varianzas y covarianzas en ambos casos es igual.

Analicemos en detalle este resultado:
2M * (X' X)-1 M*' 2 [M * (X' X)-1 M*' ]

2 [M * (X' X)-1 M*' ] 2 [{[I (X' X)1 R' [R(X' X)1 R' ]1 R]}(X' X)-1{[I (X' X)1 R' [R(X' X)1 R' ]1 R]}' ]
2 [M * (X' X)-1 M*' ] 2 [{(X' X)-1 (X' X)1 R' [R(X' X)1 R' ]1 R(X' X)-1 }{[I (X' X)1 R' [R(X' X)1 R' ]1 R]}' ]
2 [M * (X' X)-1 M*' ] 2 [(X' X)-1 (X' X)1 R' [R(X' X)1 R' ]1 R(X' X)-1
(X' X)1 R' [R(X' X)1 R' ]1 R(X' X)-1 (X' X)1 R' [R(X' X)1 R' ]1 R' (X' X)-1 R' [R(X' X)1 R' ]1 R(X' X)1 ]
2 [M * (X' X) -1 M*' ] 2 [(X' X) -1 2(X' X) 1 R' [R(X' X) 1 R' ]1 R(X' X) -1

(X' X) 1 R' [R(X' X) 1 R' ]1 R' (X' X) -1 R' [R(X' X) 1 R' ]1 R(X' X) 1 ]
2 [M * (X' X) -1 M*' ] 2 [(X' X) -1 (X' X) 1 R' [R(X' X) 1 R' ]1 R(X' X) -1 ]
2 [M * (X' X) -1 M*' ] 2 (X' X) -1 2 (X' X) 1 R' [R(X' X) 1 R' ]1 R(X' X) -1
2M * (X' X)-1 M*' 2 (X' X)-1 2 (X' X)1 R' [R(X' X)1 R' ]1 R(X' X)-1
Vamos entonces a hacer la resta
2 (X' X) -1 - 2 (X' X) -1 2 (X' X) 1 R' [R(X' X) 1 R' ]1 R(X' X) -1
2 (X' X) 1 R' [R(X' X) 1 R' ]1 R(X' X) -1
Este resultado es una matriz semidefinida positiva. Las matrices semidefinidas positivas slo se
obtienen en caso de que el trmino con signo positivo sea mayor al que tiene signo negativo, o lo
que es lo mismo, que el de signo negativo sea menor. En este caso, el signo negativo est en el
estimador de Mnimos Cuadrados Ordinarios Restringidos y dado que tenemos la matriz
semidefinida positiva, dicho estimador debe ser menor que el de MCO
Intervalos de confianza
Intervalo de confianza para
A diferencia de la estimacin puntual, que es la que se desarrolla habitualmente (ejemplo
'
) la estimacin por intervalos plantea que el valor poblacional de la
(X' X)1 X' Y ; 2
NK
varianza a estimar se encuentra entre ciertos nmeros (los lmites del intervalo) en el 1 por
ciento de los casos, donde es el nivel de significancia. Esto slo se da en muestreo repetido. Para
un solo intervalo, la estimacin slo tiene dos probabilidades: el valor poblacional est (1) o no
est (0). La probabilidad significa que dado una cantidad de muestras (con X e Y diferentes en cada
muestreo), el (1-) % de los casos obtendr un intervalo que incluya al valor poblacional.
Para obtener el intervalo de confianza para , partiremos del supuesto de que ~ [ , 2 (X' X) 1 ]
Por ende, si tenemos un modelo de mnimos cuadrados restringidos:
R ~ [R , 2R(X' X) 1 R' ]
La matriz R ser una matriz de ceros y unos con tamao (1 x k) con k siendo el nmero de ,
incluyendo el intercepto, en la que habr un 1 por cada al que le quiera hallar el intervalo de
confianza. Por ejemplo, si deseo estimar 3 en un modelo con 4 variables (matriz de 5 x 1)
tendra una matriz R as:
R 0 0 1 0 0
1

2
R 0 0 1 0 03 3

4
5
Definiremos una variable Z como una normal estndar, que se halla restando por la media y
dividiendo por la desviacin estndar. Esto es:
28
R - R
R(X' X) 1 R'
~ N(0,1) .
Definimos adems que
' (N - K) 2
~ N2 K
2
2
Si dividimos la variable Z sobre la raz de la anterior, tendremos una variable que distribuye t de
Student, con lo cual podremos hallar los lmites del intervalo.
R - R
R - R
[R(X' X) 1 R' ]1/2
t
~ t nk
(N - K) 2 1/2
[R(X' X) 1 R' ]1/2
[
]
2
Para armar el intervalo, diremos que el valor de la distribucin quedar entre los valores negativo
y positivo de t nk que generan una probabilidad de /2, porque debemos repartir entre ambas
colas de la distribucin el valor de significancia.
R - R
t /2 nk ) 1 -
1
1/2
[R(X' X) R' ]
/2
P( t nk [R(X' X) 1 R' ]1/2 R - R t /2 nk [R(X' X) 1 R' ]1/2 ) 1 -
P(-R t /2 nk [R(X' X) 1 R' ]1/2 -R R t /2 nk [R(X' X) 1 R' ]1/2 ) 1 -
P( t /2 nk
P(-R t /2 nk [R(X' X) 1 R' ]1/2 -R R t /2 nk [R(X' X) 1 R' ]1/2 ) 1 -
P(R t/2 nk [R(X' X)1 R' ]1/2 R R t/2 nk [R(X' X)1 R' ]1/2 ) 1 -
Regin de confianza para dos o ms
Es posible extender este modelo para hacer regiones de confianza, que estarn definidas cuando
queremos hallar intervalos de confianza simultneamente para dos o ms variables. Si tenemos en
cuenta que multiplicar la variable Z varias veces nos da como resultado una 2 con los grados de
libertad determinados por el nmero de veces que haga la multiplicacin. Entonces, si tenemos j
restricciones, tendremos esto (hay inversa porque no existe la divisin de matrices)
(R - R )'( 2 [R(X' X) 1 R' ])-1 (R - R) ~ 2j
29
Siguiendo la misma lgica que con una sola restriccin, definiremos como la divisin de las dos 2
mencionadas, que a su vez estn divididas por sus grados de libertad. Por definicin, esta variable
distribuye F con j y N-K grados de libertad
(R - R )' ( 2 [R(X' X) 1 R' ]) -1 (R - R)

j
~ Fj,nk
(N - K) 2
2
N-K
(R - R )' ([R(X' X) 1 R' ])-1 (R - R)
~ Fj,nk
j 2
Sin embargo, esta vez no tendremos una desigualdad doble, sino una sencilla puesto que estamos
delimitando una regin. Dicha desigualdad estar definida por:
(R - R )'([R(X'X)1 R' ])-1 (R - R)

P( Fj,nk ) P(
Fj,nk ) 1
j 2
Intervalo de confianza para 2

Para definir un intervalo de confianza para 2, recordemos esta variable:
' (N - K) 2
~ N2 K
2
2
Tambin recordemos que la variable 2 tiene la siguiente forma:
30
Teniendo esto en cuenta y partiendo de la variable mencionada, el intervalo de confianza quedar

definido as:
N2 K,1-/2
(N - K) 2
N2 K, /2
2
Despejamos para la varianza. Hay que tener en cuenta que si invertimos numerador y
denominador, la desigualdad cambiar de sentido. Luego de invertir, obtenemos
1
N2 K, /2
2
1
2
2
(N - K)
NK,1-/2
(N - K) 2
(N - K) 2
2
2
N2 K, /2
NK,1-/2
Ejemplo ilustrativo
Dado el modelo
Yi 0 1 X 1i 2 X 2i
Con 32 observaciones se obtuvieron estos resultados:
0.4 0.3 1.6

Yi 4.3 - 0.7X1i 2.8X2i (X' X) 1.8 0.3 0.5 1
1.6 1 0.6
2
31
Calculemos el intervalo de confianza con un nivel de significancia de 5% (1-=95%) para 1

y 2 individualmente
Para 1, la matriz de restricciones ser R 0 1 0
0.4 0.3 1.6 0

R(XX) R va a ser entonces R(X' X) R' 0 1 0 0.3 0.5 1 1 0.5

1.6 1 0.6 0
-1
N K = 32 3 = 29. Adems, el valor de la distribucin t con 29 grados de libertad con una

probabilidad de 0.025 es 2.045
El intervalo de confianza, segn nuestra frmula es:
P(R t /2 nk [R(X' X) 1 R' ]1/2 R R t /2 nk [R(X' X) 1 R' ]1/2 ) 1 -

Ajustando los datos del ejercicio, tenemos:
P( 1 (2.045)(1. 3416)[0.5] 1/2 R 1 (2.045)(1. 3416)[0.5] 1/2 ) 0.95

P(-0.7 (2.045)(1. 3416)[0.5] 1/2 R -0.7 (2.045)(1. 3416)[0.5] 1/2 ) 0.95
P(2.64 R 1.24) 0.95
Nuestro intervalo de confianza para 1 es [-2.64; 1.24]
Por el mismo mtodo aplicado, podemos demostrar que el intervalo de confianza para 2 es [1.76,
3.84]
Calculemos la regin de confianza de 1 y 2
0 1 0
0 0 1
La matriz de restricciones ser R
0.4 0.3 1.6 0 0

0 1 0
1 0 0.5 1
0.3
0.5
1
R(XX) R va a ser entonces R(X' X) R'

0 0 1 1.6 1 0.6 0 1 1 0.6
-1
Como nos toca hallar la inversa de esta matriz, repasemos cmo se hace:
Hallamos la matriz adjunta que es la matriz de cofactores transpuesta. Atencin con los cambios
de signos.
0.5 1 0.6 - 1
Adj
1 0.6 - 1 0.5
32
33
Adems, hallamos el determinante de la matriz original, que es el producto de la diagonal principal

menos el producto de la diagonal secundaria. En este caso es -0.7
Luego dividimos todos los trminos por el determinante y el resultado es la matriz inversa.
0.6
0.7
1
0.7
1
0.7 - 0.857
0.5 1.428
0.7
1.428
- 0.714
Ya tenemos todos los elementos necesarios para remplazar en la frmula. Aclaremos que F de 2 y
29 es igual a 3.33.
(R - R )' ([R(X' X) 1 R' ])-1 (R - R)

Fj,nk ) 1
j 2
- 0.857 1.428 1 1
2 2 )(
)
)(
1.428 - 0.714 2 2
Fj,nk ) 1
2(1.8)
P( Fj,nk ) P(
( 1 1
P(
1
(-0.857( 1 1 ) 1.428( 1 1 )) (1.428( 2 2 ) 0.714( 2 2 )))( 1
)
2 2
P(
Fj,nk ) 1
2(1.8)
- 0.857( )2 1.428( )( ) 1.428( )( ) 0.714( )2
1
1
1
1 2
2
1
1 2
2
2
2 3.33) 0.95
P(
2(1.8)
- 0.857(-0.7 )2 2.857(-0.7 )(2.8 ) 0.714(2.8 )2
1
1
2
2 3.33) 0.95
P(
3.6
P(-0.857(- 0.7 )2 2.857(-0.7 )(2.8 ) 0.714(2.8 )2 11.988) 0.95
1
1
2
2
Estimador puntual e intervalo de confianza para Y

La idea es que tenemos un cierto nivel de X, que vamos a llamar X0. Dado este nivel, Qu valor de
Y esperamos obtener, es decir, cul es el valor de Y estimado?
Sabemos que Y0=X0 + 0. Entonces Y 0 X 0 Con este valor podremos hacer la estimacin
puntual de Y.
La diferencia entre el valor estimado y el valor real ser Y 0 Y X 0 - X 0 - 0 X 0 ( - ) - 0
La varianza de esta diferencia ser el valor esperado al cuadrado. Recordemos que una matriz por
su transpuesta es el equivalente a elevar al cuadrado cada trmino de la matriz.
E[ X 0 ( - ) - 0 ]2 E[ X 0 ( - )( - )' X 0 ] 2E[ X 0 ( - ) 0 ] E[ 2 0 ]
Vamos a simplificar esta expresin. Para ello, definimos E[ 2 0 ] 2
Luego, la expresin E[ X 0 ( - ) 0 ] por la independencia de y se puede escribir como
E[ X 0 ( - )]E[ 0 ] . Como el valor esperado de es 0, toda esta expresin es igual a cero.

Finalmente, dentro del primer trmino, tenemos
E[ X 0 ( - )( - )' X 0 ] . La expresin
E[( - )( - )' ] es la matriz de varianzas y covarianzas de estimado, que es igual a

E[( - )( - )' ] 2 (X' X) 1 . Reemplazando este valor, tenemos que el primer trmino es igual a
2 [X 0 (X' X) 1 X 0 ]
Dado todo lo anterior, tenemos:
E[ X 0 ( - ) - 0 ]2 E[ X 0 ( - )( - )' X 0 ] 2E[ X 0 ( - ) 0 ] E[ 2 0 ]
2 [X 0 (X' X) 1 X 0 ] 2
2 [X 0 (X' X) 1 X 0 1]
La desviacin estndar de esta expresin es la raz cuadrada de la varianza y es igual a
[X 0 (X' X) 1 X 0 1] 1/2
El siguiente paso es estandarizar la distribucin normal de Y estimado. Esto es, debemos restar por
el valor esperado y dividir por su desviacin estndar. Sabiendo que Y estimado es igual a
Y 0 X 0 , esta distribucin queda as
X 0 - Y0
~ N(0,1)
[X 0 (X' X) 1 X 0 1] 1/2
Nos encontramos de nuevo con el problema de desconocer la desviacin estndar poblacional.

Haremos un procedimiento similar al de para obtener una distribucin t.
' (N - K) 2
~ N2 K
2
2
Dividimos la distribucin normal sobre la raz cuadrada del cociente de la 2 y sus grados de
libertad. Entonces
34
35
X 0 - Y0
[X 0 (X' X) 1 X 0 1] 1/2
X 0 - Y0
t
~ t nk
(N - K) 2 1/2
[X 0 (X' X) 1 X 0 1] 1/2
[
]
2
Por ltimo, el intervalo de confianza lo armaremos de una forma parecida a la hecha con .
X 0 - Y0
t /2 nk ) 1 -
1
1/2
[X 0 (X' X) X 0 1]
P( t /2 nk ( [X 0 (X' X) 1 X 0 1] 1/2 ) X 0 - Y0 t /2 nk ( [X 0 (X' X) 1 X 0 1] 1/2 )) 1 -
P(-X t /2 nk ( [X (X' X) 1 X 1] 1/2 ) -Y X t /2 nk ( [X (X' X) 1 X 1] 1/2 )) 1 -
P( t /2 nk
P(X0 t
/2
nk
( [X0 (X' X) X 0 1] ) Y0 X0 t
1
1/2
/2
nk
( [X0 (X' X) X 0 1]1/2 )) 1 -

1
Pruebas de Hiptesis
Pruebas de hiptesis para
Una prueba de hiptesis pretende demostrar o desmentir una afirmacin hecha a priori acerca de
una variable. SIEMPRE debe haber estos cuatro elementos en una prueba de hiptesis
Hiptesis Nula (H0), tambin llamada hiptesis de investigacin. Lo que queremos probar
Hiptesis Alterna (H1), justo lo contrario a la hiptesis nula
Estadstico de prueba, un valor con el cual se demostrar la hiptesis
Regin de rechazo: Conjunto de puntos que rechazan la hiptesis nula.
Lo primero que uno debe hacer es definir las hiptesis. La hiptesis debe estar en trminos
poblacionales. Luego, se define el estadstico de prueba conveniente (hay que conocer su
distribucin y establecer un nivel de significancia, que es el mximo error tipo I permisible. El error
tipo I es rechazar la hiptesis nula siendo sta verdadera). Se elige la regin de rechazo de acuerdo
a las hiptesis planteadas.
Para una sola , el estadstico de prueba ser la distribucin t usada para el intervalo de confianza
R - R
~ tnk
[R(X' X)1 R' ]1/2
Definiremos la regin de rechazo segn esta tabla
Hiptesis Nula
=0
0
Hiptesis Alterna
0
< 0
Cundo rechazo H0?

t<-t/2 o t/2
t<t
> 0
t>t
Ahora, si queremos hacer una prueba conjunta, para ms de una definiremos el estadstico de
prueba con la distribucin F, exactamente el mismo usado para la regin de confianza.
(R - R )'([R(X' X) 1 R' ])-1 (R - R)

j 2
Este valor se rechaza si > Fj,nk

Pero esta forma puede ser inconveniente. Se pueden usar entonces otras formas de expresar
SRCR SRC R2 Rr2

j
j
SRC
1 - R2
N-K
N-K
SRCR = Suma de los residuales al cuadrado del modelo restringido

SRC = Suma de los residuales al cuadrado
Rr2= Coeficiente de determinacin del modelo restringido
R2 = Coeficiente de determinacin
Pruebas de hiptesis para 2

Usaremos el estadstico de prueba
(N - K) 2
~ N2 K
2
Los criterios para elegir rechazar o no la variable estarn dados por:

Hiptesis Nula
2=02
Hiptesis Alterna
202
Cundo rechazo H0?
2=02
2<02
(N - K)
N2 K,1-
2
0
2=02
2>02
(N - K)
N2 K,
2
0
(N - K)
(N - K)
N2 K,1-/2 o
N2 K, /2
2
2
0
0
Multicolinealidad: Cmo se expresa y se detecta
36
La multicolinealidad es un problema que consiste en la existencia de una relacin lineal entre los
regresores. Idealmente, los regresores deber ser independientes entre s, pero este no es siempre
el caso. Este problema sucede porque el determinante de la matriz XX es 0, por lo cual no hay
inversa. Vamos a demostrar una forma de revisar su existencia.
Primero que todo, recordemos:
(X' X)1 X' Y

En forma matricial expresamos como hallar los dos primeros
1 X 11

2 X 21
X 12
X 22
X 11
... X 1n X 21
... X 2n ...
X 1n
X 21
X 22 X 11
... X 21
X 2n
X 12
X 22
Y1
... X 1n Y2
... X 2n ...

Yn
Resolviendo las multiplicaciones tenemos
1 X 1i2

2 X 1iX 2i
X X
X
1i
2i
2
2i
X 1iYi

X Y
2i i

Antes de seguir aclaremos la definicin del coeficiente de correlacin
(X
Cov(x 1 , x 2 )
x 1 ,x 2
Var(x 1 )Var(x 2 )
1i
X)(X2i X)
N1
(X1i X)2 (X2i X)2
(N 1) 2
Elevamos este valor al cuadrado y descubrimos que es igual al coeficiente de determinacin de X1

y X2.
( (X1iX 2i ))
(X ) (X
2
1i
2i
2
r1,2
Sabiendo este resultado, podremos seguir. La inversa de una matriz es el inverso multiplicativo de
su determinante por la matriz adjunta. Para nuestro caso, ser
1

2
X 22i
1
(X1i )2 (X2i )2 ( X1iX 2i )2 X1iX 2i
X 1iX 2i X 1iYi
X1i2 X 2iYi
37
(X ) (X
trmino de la matriz por (X ) (X )
2
Dividimos la expresin por
1i
1i
2i
)2 . Para que se mantenga la igualdad, dividimos cada
2i
X 22i
1
(X1i )2 (X 2i )2
1

X X
2
2
2
1i 2i
2 (X1i ) (X 2i ) ( X 1iX 2i )
2
2
2
2
2
2
(X1i ) (X2i ) (X1i ) (X2i ) (X1i ) (X2i )
r1,2
( X 1i2 ) 1
2
2
1
(X1i ) (X 2i ) X 1iYi
1

2
X Y
r1,2
2 1
2 1 r1,2
( X 2i )
2i i
(X )2 (X )2
1i 2i
X 1iX 2i
2
2
(X
)
(X
)
1i 2 2i X 1iYi
X 1i
X 2iYi
2
2
(X1i ) (X2i )
Ahora, la matriz de varianzas y covarianzas es
(X' X) 1
La expresin
( X 1i2 ) 1

2
r1,2
1 r1,2
2
2
(X1i ) (X 2i )
2
r1,2
(X1i ) (X2i )
( X 22i ) 1
1
se conoce como factor de aumento de la varianza. Hay problemas de
2
1 r1,2
multicolinealidad si este valor es mayor a 10.
Variables Dummies, Dictomas o Ficticias

Son variables que toman el valor de 0 o de 1 segn si los individuos cumplen o no ciertas
caractersticas, por ejemplo hombre mujer; s o no Las variables dummies son propensas a la
multicolinealidad porque si se toma un exceso de variables dummies, estas no sern
independientes. Por ejemplo, si tomo una variable para hombres y otra para mujeres, estas
estarn profundamente relacionadas.
Otro problema que presentan las dummies es que no necesariamente expresan un valor
cuantitativo real. Por ejemplo, una persona estrato 2 no es el doble de rica que una persona
estrato 1.
Qu pasa si no se cumplen los supuestos de MCO?
38
El modelo de MCO es el mejor modelo que se puede utilizar slo si todos sus supuestos se
cumplen. Lastimosamente, dichos supuestos son muy restrictivos. La siguiente tabla resumir los
diferentes supuestos incumplidos, las pruebas de deteccin y la solucin para estas violaciones.
Cul es el problema?
Multicolinealidad
Cmo se detecta?
Factor de Aumento de
Varianza,
Nmero
de
Condicin, Correlacin entre
regresores
Endogeneidad
Prueba de Hausman
Error en la especificacin del Prueba Ramsey RESET
modelo
Heteroscedasticidad
Prueba de White, Prueba de
Goldfeld Quandt, Prueba de
Breusch Pagan,
Autocorrelacin
Prueba de Durbin Watson
Normalidad de
Prueba Jarque - Bera
Cmo se soluciona?
Eliminacin de variables, uso
de informacin extra, mayor
tamao muestral, Regresiones
tipo Ridge,
Variable Instrumental
Mnimos
Cuadrados
No
Lineales
Mnimos
Cuadrados
Generalizados Factibles
Mnimos cuadrados generalizados

Este modelo plantea la existencia de una matriz , cuya inversa se puede descomponer as
1 P' P Donde P es una matriz triangular superior. Esta matriz aparecer en la matriz de
varianzas y covarianzas de . Antes de seguir, definamos la notacin a usar. X*=PX. Y*=PY y *=P.
El mtodo de Mnimos Cuadrados Generalizados (MCG) se utiliza para resolver casos de
heteroscedasticidad o de autocorrelacin. La estimacin de los se har as:
MCG (X * X*) 1 X * Y *
Reemplazamos de acuerdo a las definiciones anteriores y tenemos
MCG ((PX)(PX))1 (PX)(PY)

MCG (X PPX) 1 X PPY
Recordando que 1 P' P
MCG (X1X)1 X1Y

Adems, la matriz de varianzas y covarianzas estar dada por
39
MCG
2 (X * X*) 1
MCG
2 ((PX)(PX))1
MCG
2 (X PPX) 1
MCG
2 (X 1 X) 1
Finalmente, hallemos un estimador para la varianza

2
MCG
2
MCG
(Y - X * MCG )' (Y - X * MCG )

'
NK
NK
(PY - PX )' (PY - PX )

MCG
MCG
NK
Por propiedades de la transpuesta, si sacamos factor comn P en el parntesis de la izquierda, ste

quedar (como P) a la derecha, pero si lo sacamos en el parntesis de la derecha, se ubicar en la
izquierda. Esto es
2
MCG
(Y - XMCG )'P' P(Y - XMCG )

NK
Luego, slo reemplazamos

2
MCG
(Y - XMCG )' 1 (Y - XMCG )

NK
Es posible obtener estos estimadores a travs del mtodo de mxima verosimilitud. En este caso,
la funcin estar dada por
1
(2 2 )N/2
1/2
exp{
1
(Y x )' 1 (Y x )}
2
2
Expresemos la frmula anterior en logaritmos:
N
N
1
1
ln ln1 ln(2 ) ln( 2 ) - ln 2 (Y X )' -1 (Y X )
2
2
2
2
N
N
1
1
ln ln(2 ) ln( 2 ) - ln 2 (Y X )' -1 (Y X )
2
2
2
2
La derivada respecto a ser muy similar a la presentada en la Demostracin 2: Cmo hallar los
en el modelo general de MCO?. Quedar exactamente igual. (
(X1X)1 X1Y )
MCG
Ahora, si derivamos respecto a 2 tenemos:
40
ln
N
1
2
(Y X )' -1 (Y X ) 0
2
2
2( 2 )2
ln - N 2 (Y X )' -1 (Y X )
0
2
2( 2 )2
ln
-N 2 (Y X )' -1 (Y X ) 0
2
ln
(Y X )' -1 (Y X ) N 2
2
ln (Y X )' -1 (Y X )
2
2
N
Este es un estimador sesgado, pero consistente de 2
Heteroscedasticidad
La Heteroscedasticidad es la situacin en la que hay varias varianzas distintas al interior del
modelo. Esto es, la matriz de varianzas y covarianzas estar dada por
0
0
Var( 1 )
0
Var( 2 )
0
0
0
Var( 3 )
...
...
...
0
0
0
...
...
...
...
...
0
0
...
Var( N )
0
Normalmente asumiramos que estas varianzas son todas idnticas, pero este no es el caso. Para
solucionar el problema usamos MCG, como ya se mencion. As nuestros sern
MCG (X1X)1 X1Y . Pero hay un problema, Qu es ? Al estimar tenemos Mnimos

1 X) 1 X
1 Y .
Cuadrados Generalizados Factibles (MCGF) MCGF (X
Para asumir , definiremos P como una matriz diagonal con el inverso de las desviaciones
estndar.
41
1
0
P
0
...
...
1
2
...
...
1
3
...
...
...
...
...
1
N
La matriz Y* ser entonces
Y1

1
Y2
Y* Este mtodo se conoce como Mnimos Cuadrados Ponderados. Este mtodo resulta
2
...
Y
N
N Nx1
muy imprctico, por lo cual no tiene mucho uso. Sin embargo, se puede asumir una matriz con dos
varianzas distintas (divido la muestra en dos partes, no necesariamente iguales).
1
0
...
0
...
...
...
...
...
... 2
...
0
0
0
...
2
Revisemos mediante una prueba de hiptesis que en efecto exista heteroscedasticidad. La

hiptesis nula ser que ambas varianzas son iguales. La hiptesis alterna es que son diferentes.
Esto es
H0 1 2
H1 1 2
Construyamos el estadstico de prueba. Sabemos que
(N - K) 2
~ N2 K y adems, sabemos que
2
una distribucin F es el cociente de dos distribuciones chi cuadrado divididas por sus grados de
42
(N1 - K) 1
1
(N1 - K)
libertad. Esto implica que
~ FN1-K,N2-K . Simplificando esta expresin llegamos a
2
(N2 - K) 2
2
1
(N2 - K)
2
2
1
1
~ FN1-K,N2-K . La regin de rechazo se determinar de acuerdo a 2 FN1-K,N2-K
2
2
2
Los pasos para solucionar la heteroscedasticidad son:

1. Implementar MCO
2. Obtener los residuales al cuadrado
3. Realizar mediante MCO la regresin ln 2 i 0 1 Z 1i 2 Z 2i ... k Z ki
4.
5.
6.
7.
K
Construir
Aplicar MCGF
Repetir hasta llegar a la convergencia.
FIN
43

Demostraciones Econometria

Cargado por

Copyright:

Formatos disponibles

Demostraciones Econometria

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Demostraciones Econometria

Cargado por

Copyright:

Formatos disponibles

Luis Carlos Carvajal Osorio Final Econometra 1

Parmetros: Parte de la ecuacin que se pretende estimar (ejemplo: los )

Los datos se pueden clasificar en:

Corte transversal o cross section: Datos de mltiples individuos en un mismo momento

Para crear un modelo hay diferentes pasos, a saber:

Luis Carlos Carvajal Osorio Final Econometra 1

Generalidades del modelo de mnimos cuadrados ordinarios (MCO)

Yi 0 1X1i 2X2i ... k Xki i

puede hacer una

Demostracin 1: De dnde salen 0 y 1 en el modelo lineal simple

ArgMn S ArgMn i ArgMn (Yi 0 1X i )2

Luis Carlos Carvajal Osorio Final Econometra 1

Segn lo que recin hallamos, reemplazamos 0 . Distribuimos y agrupamos.

Luis Carlos Carvajal Osorio Final Econometra 1

Cambiamos de signos y sumando y restando por X

Dividimos por N-1

Yi en el numerador y por X X i obtenemos

Luis Carlos Carvajal Osorio Final Econometra 1

Por definiciones de varianza y covarianza, llegamos a

Demostracin 2: Cmo hallar los en el modelo general de MCO?

i Yi 0 1X1i 2X2i ... k Xki i

ArgMn S ArgMn i ArgMn (Yi 0 1 X 1i 2 X 2i ... k X ki i )2

Expresemos la funcin matricialmente. Y es un vector N x 1 que contiene todos los valores de la

Luis Carlos Carvajal Osorio Final Econometra 1

ArgMn (Yi 0 1X 1i 2 X 2i ... k X ki i )2

Esta ltima expresin se divide en dos sumatorias. La primera es el producto de X e Y. La segunda

Luis Carlos Carvajal Osorio Final Econometra 1

.... X kN (k1)xN Nx1

Luis Carlos Carvajal Osorio Final Econometra 1

Demostracin 3: El hiperplano de regresin pasa por el punto de

0 1X1i ... k Xki Yi

Luis Carlos Carvajal Osorio Final Econometra 1

Dividamos todo por N, para obtener los promedios.

Demostracin 4: La suma de residuales de los estimadores mnimos

. Por definicin esto ser

i Yi Yi . Pero Y Y , por tanto i Yi Yi 0 . Esto implica dos cosas. La primera es que la

Demostracin 5: Los momentos de segundo orden entre cada

Demostracin 6: Los momentos de segundo orden entre la

Luis Carlos Carvajal Osorio Final Econometra 1

Yi i ( 0 1X1i 2X2i ... k Xki ) i

Yi i 0 i 1 X1i i 2 X2i i ... k Xki i

cunto de la varianza muestral se define por la regresin). R2 est definido por R2

El modelo tiene mayor capacidad predictiva a medida de que el R2 se acerque a 1. El R va de 0 a 1.

(Yi Yi )2 ((Yi i ) Yi )2 (Yi Yi i )2 [(Yi Yi ) i ]2

(Yi Yi )2 (Yi Yi )2 2 i (Yi Yi ) i

(Yi Yi )2 (Yi Yi )2 2 i Yi 2Yi i i

Luis Carlos Carvajal Osorio Final Econometra 1

Ahora dividamos todos por

R2 tambin se puede definir en forma matricial. Definiremos la matriz M0 as

Luis Carlos Carvajal Osorio Final Econometra 1

Luis Carlos Carvajal Osorio Final Econometra 1

Luis Carlos Carvajal Osorio Final Econometra 1

Ahora, elevemos este resultado al cuadrado. Aprovecharemos la idempotencia y la simetra de M 0.

Haremos un proceso muy similar para hallar

Luis Carlos Carvajal Osorio Final Econometra 1

Demostracin 7: tiene media 0 y varianza constante

Luis Carlos Carvajal Osorio Final Econometra 1

Cov( i j ) E[ i E( i )][ j E( j )]i j