Capitulo 2
Capitulo 2
Capitulo 2
()
Recordemos que el estimador OLS es insesgado E βˆ = β y la expresión de su varianza viene dada por
() (
var βˆ = σ 2 X t X )
−1
[ ]
. Además si suponíamos normalidad en el error estocástico ε t ≈ N 0, σ 2 I . la
(
distribución muestral del estimador viene dada por βˆ ≈ N β , σ 2 X t X ( )
−1
).
Para cada coeficiente individual podríamos escribir:
βˆi ≈ N (β i , σ 2 sii )
(
Donde sii es el elemento ii de la matriz X t X )−1
.
βˆi − β i
zi =
σ 2 sii
Como no conocemos la varianza del error poblacional, debemos hacer uso de nuestro conocimiento
et e
acerca de que σˆ 2 = es un estimador insesgado de σ 2 que se distribuye según χ 2 (n − k ) .
n−k
Por tanto, si usamos σˆ 2 , tendremos una t de Student:
βˆ − β i
ti = i
σˆ 2 sii
Recuerde que esta distribución es simétrica, por lo que la región crítica de rechazo del test viene dada por
las zonas marcadas:
1−α
α /2 α /2
λ λ
Los programas suelen proporcionar el error estándar de cada coeficiente estimado y el estadístico t
correspondiente a la hipótesis nula de que el coeficiente es igual a cero. En este caso nuestro estadístico
experimental queda como:
βˆi
ti [n − k ] =
σˆ 2 sii
Los programas también suelen ofrecernos el P-value, esto es, el valor de Prob> T , es decir, cuánto
tiene que valer α para que la región crítica fuera tal que se aceptara la hipótesis nula. En otros términos,
el nivel de significatividad (100-α) al que el parámetro es significativo.
Sabemos que:
βˆi − β i
≈ ti [n − k ]
σˆ 2 sii
βˆ − β i
P − λ < i < λ = 1− α
σˆ 2 sii
Como el estadístico se distribuye según una t de Student, λ será aquel valor que deja α / 2 de la
distribución en cada cola, ya que ésta es simétrica.
Por tanto, podemos rescribir la anterior expresión como:
βˆ − β i
P − tα / 2 < i < tα / 2 = 1 − α
σˆ 2 sii
[ ]
P − tα / 2 σˆ 2 sii < βˆi − β i < tα / 2 σˆ 2 sii = 1 − α
[
P − tα / 2 σˆ 2 sii − βˆi < − β i < tα / 2 σˆ 2 sii − βˆi = 1 − α ]
[
P tα / 2 σˆ 2 sii + βˆi > β i > −tα / 2 σˆ 2 sii + βˆi = 1 − α]
P[βˆ − t
i α /2 ]
σˆ 2 sii < β i < βˆi + tα / 2 σˆ 2 sii = 1 − α
Por tanto, cabe esperar que de cada 100 muestras que tomemos en 1- α de ellas el estimador ha de
encontrarse entre los dos extremos del intervalo de confianza.
[βˆ − t
i α /2 σˆ 2 sii < β i < βˆi + tα / 2 σˆ 2 sii ]
Intervalo de confianza de la predicción
Supongamos que trabajamos con un modelo univariante con constante. Dado x0 queremos predecir el
verdadero valor de y 0 . Hay dos fuentes de error.
Por un lado, el verdadero valor de y 0 viene dado por:
y 0 = α + βx 0 + ε 0
La predicción será:
yˆ 0 = αˆ + βˆx 0
(
e 0 = y 0 − yˆ 0 = α + βx 0 + ε 0 − αˆ − βˆx 0 = (α − αˆ ) + β − βˆ x 0 + ε 0 )
Si calculamos la esperanza del error de predicción, se tiene que:
( ) [( ) ] ( )
E e 0 = E (α − αˆ ) + E β − βˆ x 0 + E ε 0 = 0 + 0 + 0 = 0
( )
1 x0 − x 2
var e = σ 1 + +
0 2
( )
n S xx
A) Estimar el modelo sin restricciones y con restricciones y comparar la suma de los cuadrados de
los residuos.
Este método consiste en calcular mínimos cuadrados restringidos. La suma de los
errores en el modelo restringido siempre será mayor o igual que en el modelo sin
restringir, ya que un mínimo restringido siempre es mayor que un mínimo sin retringir.
ert er ≥ e t e
El test consiste en ver si la suma de los errores en el modelo restringido es
significativamente mayor que en el modelo sin restringir.
(e e
t
r r− et e j )
≈ F ( j, n − k )
e e (n − k )
t
Si el valor muestral cae en la región crítica, rechazaremos la hipótesis nula que indica
que las restricciones no son válidas.
H 0 : Aβ = q
Si las restricciones fueran ciertas, los parámetros poblacionales deberían verificar que:
Aβ − q = 0
Sin embargo, con las estimaciones, la expresión no tiene porque ser igual a 0.
Aβ̂ − q = d
Si llamamos d, a esta discrepancia, lo que tenemos es que obtener su distribución y
saber si es significativamente distinto de 0.
La varianza de d será:
( )
var(d ) = var Aβˆ − q = A var βˆ At ()
Para construir el estadístico se utiliza el test de Wald:
(e e) (n − k )
t
Si la F experimental cae en la región crítica, rechazamos la hipótesis nula, por lo que las
restricciones no serían válidas.
y1 X 1 0 β1 ε 1
= +
y2 0 X 2 β 2 ε 2
{ 14243 { {
Y X β ε
El modelo sin restringir lo podríamos especificar como:
Y = Xβ + ε
Que podríamos estimar por OLS.
βˆ = (X t X ) X t y
−1
La restricción es β1 = β 2 es decir que los coeficientes sean los mismos entre los dos grupos de
observaciones o los dos períodos de tiempo. Si incluyésemos esta restricción en el modelo inicial
tendríamos ahora:
y1 X 1 ε
= β + 1
y2 X 2 ε 2
Los residuos de este nuevo modelo serían los correspondientes al modelo restringido, es decir, ert er . A
partir de aquí aplicaremos el método de tests con restricciones, es decir:
(e e
t
r r )
− et e j
≈ F ( j, n − k )
e e (n − k )
t
H 0 : f (β ) = q
Por analogía, nosotros desearemos construir un estadístico para el contraste de la forma:
z=
()
f β̂ − q
estimación error estándar
()
En la que el numerador refleja si f β̂ se aleja de q, significativamente.
Para calcular el error estándar, se usa una aproximación de Taylor:
∂f (β ) ˆ
() ( )
t
f βˆ = f (β ) + β − β
∂β
Cuando la muestra sea significativamente grande, ha de verificarse que:
[ ( )] ()
t
∂f ∂f
var f βˆ ≈ var βˆ
∂β ∂β
()
Donde: var βˆ = S 2 X t X (−1
)
−Student
TABLA DE LA DISTRIBUCION t−
c = t1−α , r
La tabla da áreas 1 − α y valores , donde, P[T ≤ c] = 1 − α , y donde T tiene
distribución t-Student con r grados de libertad.
1−α
r 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032