8regresión Lineal Multiple
8regresión Lineal Multiple
8regresión Lineal Multiple
Lineal Múltiple
ANÁLISIS DE REGRESIÓN
Un modelo de regresión donde interviene más de una variable regresora, supongamos k, se llama modelo de
regresión múltiple; un modelo de regresión múltiple se dice lineal porque la ecuación del modelo es una función
lineal de los parámetros desconocidos 𝛽0 , 𝛽1 , … , 𝛽𝑘
En general, se puede relacionar la respuesta y con los k regresores, o variables predictivas bajo el modelo:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝑒
Donde los parámetros 𝛽0 , 𝛽1 , … , 𝛽𝑘 se llaman coeficientes de regresión. Este modelo describe un hiperplano en el
espacio de k dimensiones de las variables regresoras 𝑥0 , 𝑥1 , … , 𝑥𝑘 .
Otros modelos con estructura más complicada que se pueden analizar con técnicas de regresión lineal múltiple
son por ejemplo un modelo polinómico o modelos que incluyan efectos de interacción.
S 𝛽0 , 𝛽1 , … , 𝛽𝑘 = 𝑒𝑖2 = 𝑦𝑖 − 𝛽0 − 𝛽𝑗 𝑥𝑖𝑗
𝑖=1 𝑖=1 𝑗=1
𝜕𝑆
Al simplificar 𝜕𝛽 se obtienen las ecuaciones normales de mínimos cuadrados
0
𝑛𝛽መ0 + 𝛽መ1 σ𝑛𝑖=1 𝑥𝑖1 +𝛽መ2 σ𝑛𝑖=1 𝑥𝑖2 +…+𝛽መ𝑘 σ𝑛𝑖=1 𝑥𝑖𝑘 = σ𝑛𝑖=1 𝑦𝑖
𝛽መ0 σ𝑛𝑖=1 𝑥𝑖1 + 𝛽መ1 σ𝑛𝑖=1 𝑥𝑖1
2
+ 𝛽መ2 σ𝑛𝑖=1 𝑥𝑖1 𝑥𝑖2 + ⋯ + 𝛽መ𝑘 σ𝑛𝑖=1 𝑥𝑖1 𝑥𝑖𝑘 = σ𝑛𝑖=1 𝑥𝑖1 𝑦𝑖
⋮
𝛽መ0 σ𝑛𝑖=1 𝑥𝑖𝑘 + 𝛽መ1 σ𝑛𝑖=1 𝑥𝑖𝑘 𝑥𝑖1 + 𝛽መ2 σ𝑛𝑖=1 𝑥𝑖𝑘 𝑥𝑖2 + ⋯ + 𝛽መ𝑘 σ𝑛𝑖=1 𝑥𝑖𝑘
2
= σ𝑛𝑖=1 𝑥𝑖𝑘 𝑦𝑖
Nótese que hay p= k+1 ecuaciones normales, una para cada uno de los coeficientes
desconocidos de regresión. La solución de las ecuaciones normales serán los estimadores por
mínimos cuadrados 𝛽መ0 , 𝛽መ1 ,…, 𝛽መ𝑘
Otras dos maneras de evaluar la adecuación del modelo son los estadísticos 𝑅2 y 𝑅 2 ajustada. En general, el valor
de 𝑅2 aumenta siempre, cuando se agrega un regresor al modelo, independientemente del valor de la
contribución de esa variable. En consecuencia, es difícil juzgar si un aumento de 𝑅2 dice en realidad algo
importante.
Algunas personas que trabajan con modelos de regresión prefieren usar el estadístico 𝑅2 ajustada definido como:
𝑆𝑆𝐸
2 ൗ 𝑛−𝑝
𝑅𝑎𝑑𝑗 = 1 − 𝑆𝑆𝑇
ൗ 𝑛−1
Una vez determinado que al menos uno de los regresores es importante, la pregunta es ¿cuál(es) sirve(n) de ellos?
Las hipótesis para probar la significancia de cualquier coeficiente individual de regresión, 𝛽𝑗 , son:
𝐻0 : 𝛽𝑗 =0 (el regresor 𝑥𝑗 no influye significativamente en el modelo)
𝐻𝑎 : 𝛽𝑗 ≠0 (el regresor 𝑥𝑗 influye significativamente en el modelo)
𝑗
𝛽
El estadístico de prueba para esta hipótesis es: 𝑡0 =
ෝ 2 𝐶𝑗𝑗
𝜎
Rechazando la hipótesis nula 𝐻0 : 𝛽𝑗 =0 si |𝑡0 | > 𝑡𝛼Τ2,𝑛−𝑘−1 , sino se rechaza la hipótesis nula quiere decir que se puede
eliminar el regresor del modelo
Para construir estimados de intervalo de confianza de los coeficientes de regresión 𝛽𝑗 , se continúa suponiendo que
los errores están distribuidos normal e independientemente, con promedio cero y varianza constante. Como el
estimador de mínimos cuadrados es combinación lineal de las observaciones , esta distribuido normalmente. Esto
implica que cada que la distribución marginal de cualquier coeficiente de regresión 𝛽መ𝑗 es normal con media 𝛽𝑗 y
varianza 𝜎 2 𝐶𝑗𝑗 donde 𝐶𝑗𝑗 es el elemento de la diagonal de 𝑋´𝑋 −1 . En consecuencia, cada uno de los estadísticos
𝑗
𝛽𝑗 −𝛽
, 𝑗 = 0,1, … , 𝑘 se distribuye como t, con n-p grados de libertad.
ෝ 2 𝐶𝑗𝑗
𝜎
Así el intervalo de confianza del 100 1 − 𝛼 % para el coeficiente de regresión 𝛽𝑗 queda definido como: