8regresión Lineal Multiple

Análisis de Regresión
Lineal Múltiple
ANÁLISIS DE REGRESIÓN
Métodos Estadísticos MET. Alejandra Cerda

Regresión Lineal Múltiple
Un modelo de regresión donde interviene más de una variable regresora, supongamos k, se llama modelo de
regresión múltiple; un modelo de regresión múltiple se dice lineal porque la ecuación del modelo es una función
lineal de los parámetros desconocidos 𝛽0 , 𝛽1 , … , 𝛽𝑘
En general, se puede relacionar la respuesta y con los k regresores, o variables predictivas bajo el modelo:
𝑦 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑘 𝑥𝑘 + 𝑒
Donde los parámetros 𝛽0 , 𝛽1 , … , 𝛽𝑘 se llaman coeficientes de regresión. Este modelo describe un hiperplano en el
espacio de k dimensiones de las variables regresoras 𝑥0 , 𝑥1 , … , 𝑥𝑘 .
Otros modelos con estructura más complicada que se pueden analizar con técnicas de regresión lineal múltiple
son por ejemplo un modelo polinómico o modelos que incluyan efectos de interacción.

Datos para regresión lineal múltiple
Supongamos que se dispone de n>k

observaciones, con 𝑦𝑖 la i-ésima
observación respuesta Regresores
respuesta observada, y 𝑥𝑖𝑗 la i-ésima i y 𝑥1 𝑥2 … 𝑥𝑘
observación o nivel del regresor 𝑥𝑗 , con 1 𝑦1 𝑥11 𝑥12 … 𝑥1𝑘
j=0,1,…, k. Suponiendo además que el 2 𝑦2 𝑥21 𝑥22 … 𝑥2𝑘
termino de error del modelo tiene 3 𝑦3 𝑥31 𝑥32 … 𝑥3𝑘
median cero, varianza constante y que
. . . . .
los errores no están correlacionados.
. . . . .
. . . . .
n 𝑦𝑛 𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑘
Estimación por mínimos
cuadrados
Se puede escribir en la siguiente forma el modelo de regresión:

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 +… +𝛽𝑘 𝑥𝑖𝑘 + 𝑒𝑖 = 𝛽0 + σ𝑘𝑗=1 𝛽𝑗 𝑥𝑖𝑗 + 𝑒𝑖
De tal manera que la función de mínimos cuadrados es

2
𝑛 𝑛 𝑘
S 𝛽0 , 𝛽1 , … , 𝛽𝑘 = ෍ 𝑒𝑖2 = ෍ 𝑦𝑖 − 𝛽0 − ෍ 𝛽𝑗 𝑥𝑖𝑗
𝑖=1 𝑖=1 𝑗=1
Se debe minimizar la función S respecto a 𝛽0 , 𝛽1 , … , 𝛽𝑘 . Los estimadores de mínimos cuadrados deben

satisfacer las ecuaciones:
𝜕𝑆
= −2 σ𝑛𝑖=1 𝑦𝑖 − 𝛽መ0 − σ𝑘𝑗=1 𝛽መ𝑗 𝑥𝑖𝑗 =0
𝜕𝛽0
𝜕𝑆
= −2 σ𝑛𝑖=1 𝑦𝑖 − 𝛽መ0 − σ𝑘𝑗=1 𝛽መ𝑗 𝑥𝑖𝑗 𝑥𝑖𝑗 =0
𝜕𝛽𝑗

Ecuaciones normales
𝜕𝑆
Al simplificar 𝜕𝛽 se obtienen las ecuaciones normales de mínimos cuadrados
0
𝑛𝛽መ0 + 𝛽መ1 σ𝑛𝑖=1 𝑥𝑖1 +𝛽መ2 σ𝑛𝑖=1 𝑥𝑖2 +…+𝛽መ𝑘 σ𝑛𝑖=1 𝑥𝑖𝑘 = σ𝑛𝑖=1 𝑦𝑖
𝛽መ0 σ𝑛𝑖=1 𝑥𝑖1 + 𝛽መ1 σ𝑛𝑖=1 𝑥𝑖1
2
+ 𝛽መ2 σ𝑛𝑖=1 𝑥𝑖1 𝑥𝑖2 + ⋯ + 𝛽መ𝑘 σ𝑛𝑖=1 𝑥𝑖1 𝑥𝑖𝑘 = σ𝑛𝑖=1 𝑥𝑖1 𝑦𝑖
⋮
𝛽መ0 σ𝑛𝑖=1 𝑥𝑖𝑘 + 𝛽መ1 σ𝑛𝑖=1 𝑥𝑖𝑘 𝑥𝑖1 + 𝛽መ2 σ𝑛𝑖=1 𝑥𝑖𝑘 𝑥𝑖2 + ⋯ + 𝛽መ𝑘 σ𝑛𝑖=1 𝑥𝑖𝑘
2
= σ𝑛𝑖=1 𝑥𝑖𝑘 𝑦𝑖
Nótese que hay p= k+1 ecuaciones normales, una para cada uno de los coeficientes
desconocidos de regresión. La solución de las ecuaciones normales serán los estimadores por
mínimos cuadrados 𝛽መ0 , 𝛽መ1 ,…, 𝛽መ𝑘

Notación matricial del modelo
Es más cómodo manejar modelos de regresión múltiple cuando se expresan de

forma matricial. La notación matricial del modelo es 𝑦 = 𝑋𝛽 + 𝑒 en donde
𝑦1 1 𝑥11 𝑥12 … 𝑥1𝑘 𝛽0 𝑒1
𝑦2 1 𝑥21 𝑥22 … 𝑥2𝑘 𝛽1 𝑒2
𝑦= ⋮ 𝑋= ⋱ ⋮ 𝛽= 𝑒= ⋮
⋮ ⋮ ⋮ ⋮
𝑦𝑛 1 𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑘 𝛽𝑘 𝑒𝑛
Las ecuaciones normales de mínimos cuadrados quedan dadas por 𝑋´𝑋𝛽መ = 𝑋´𝑦 ,
para resolverlas se multiplica ambos lados por la inversa de X´X. Así el estimador de
mínimos cuadrados es 𝜷 ෡ = 𝑿´𝑿 −𝟏 𝑿´𝒚 siempre y cuando exista la matriz inversa
𝑋´𝑋 −1 ; es decir, si ninguna columna de la matriz X es una combinación lineal de
las demás columnas.

Multicolinealidad
REGRESIÓN LINEAL MÚTIPLE

¿Qué es la multicolinealidad?
Un problema serio que puede influir mucho sobre la utilidad de un modelo de

regresión es la multicolinealidad, o dependencia casi lineal entre las variables
de regresión. La multicolinealidad implica una dependencia casi lineal entre
los regresores, los cuales son las columnas de la matriz X, por lo que es claro
que una dependencia lineal exacta causaría una matriz X´X singular.
Los elementos de la diagonal principal en la inversa de la matriz X´X en forma

de correlación se llaman con frecuencia factores de inflación de varianza (VIF,
de Variance Inflation Factors), y son un diagnóstico importante de la
multicolinealidad.

¿Cómo medir la
multicolinealidad?
Se puede demostrar que, en general, el factor de inflación de varianza para el j-ésimo

coeficiente de regresión se puede escribir como sigue:
1
𝑉𝐼𝐹𝑗 =
1 − 𝑅𝑗2
donde 𝑅𝑗2 es el coeficiente de determinación múltiple obtenido haciendo la regresión 𝑥𝑗
sobre las demás variables regresoras. Si 𝑥𝑗 depende casi linealmente de alguno(s) de los
demás regresores, entonces 𝑅𝑗2 será casi la unidad, y 𝑉𝐼𝐹𝑗 será grande.
Los factores VIF mayores que 10 implican problemas graves de multicolinealidad.

Prueba de
Hipótesis
REGRESIÓN LINEAL MÚLTIPLE

Prueba de
significancia
TABLA ANOVA
La prueba de significancia de la regresión es Grados
para determinar si hay una relación lineal Fuente de Suma de Cuadrad
de F0
entre la respuesta y y cualquiera de las
Variación Cuadrados o medio
variables regresoras.
correspondientes son:
Las hipótesis
libertad
𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0 (la regresión no es 2
σ𝑛
significativa, las variables involucradas no
muestran relación)
Regresión k መ
𝛽´𝑋´𝑦 − 𝑖=1 𝑦𝑖 MSR=SSR/k MSR/MSE
𝑛
𝐻𝑎 : 𝛽𝑗 ≠ 0 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑝𝑎𝑟𝑎 𝑢𝑛𝑎 𝑗 (al menos un
regresor contribuye de forma significativa) Residuale መ
𝑦´𝑦 − 𝛽´𝑋´𝑦
n-k-1 MSE=SSE/(n-k-1)
s
El procedimiento de prueba es una
generalización del análisis de varianza 2
σ𝑛
(ANOVA) que se usó en la regresión lineal
simple; rechazando 𝐻0 si 𝐸𝑃: 𝐹0 > 𝐹𝛼,𝑘,𝑛−𝑘−1
Total n-1 𝑦´𝑦 − 𝑖=1 𝑦𝑖
𝑛

𝑅 2 y 𝑅 2 ajustada
Otras dos maneras de evaluar la adecuación del modelo son los estadísticos 𝑅2 y 𝑅 2 ajustada. En general, el valor
de 𝑅2 aumenta siempre, cuando se agrega un regresor al modelo, independientemente del valor de la
contribución de esa variable. En consecuencia, es difícil juzgar si un aumento de 𝑅2 dice en realidad algo
importante.
Algunas personas que trabajan con modelos de regresión prefieren usar el estadístico 𝑅2 ajustada definido como:
𝑆𝑆𝐸
2 ൗ 𝑛−𝑝
𝑅𝑎𝑑𝑗 = 1 − 𝑆𝑆𝑇
ൗ 𝑛−1
En vista de que el numerador es el cuadrado medio de residuales y el denominador es constante,

independientemente de cuántas variables hay en el modelo, 𝑅2 ajustada sólo aumentará al agregar una
variable al modelo si esa adición reduce el cuadrado medio residual . 𝑅2 ajustada penaliza la adición de
términos que no son útiles, además que es ventajoso para evaluar y comparar los posibles modelos de regresión.

Prueba sobre coeficientes
individuales de regresión
Una vez determinado que al menos uno de los regresores es importante, la pregunta es ¿cuál(es) sirve(n) de ellos?
Las hipótesis para probar la significancia de cualquier coeficiente individual de regresión, 𝛽𝑗 , son:
𝐻0 : 𝛽𝑗 =0 (el regresor 𝑥𝑗 no influye significativamente en el modelo)
𝐻𝑎 : 𝛽𝑗 ≠0 (el regresor 𝑥𝑗 influye significativamente en el modelo)
෡𝑗
𝛽
El estadístico de prueba para esta hipótesis es: 𝑡0 =
ෝ 2 𝐶𝑗𝑗
𝜎
donde 𝐶𝑗𝑗 es el elemento de la diagonal de 𝑋´𝑋 −1

que corresponde a 𝛽መ𝑗
Rechazando la hipótesis nula 𝐻0 : 𝛽𝑗 =0 si |𝑡0 | > 𝑡𝛼Τ2,𝑛−𝑘−1 , sino se rechaza la hipótesis nula quiere decir que se puede
eliminar el regresor del modelo

INTERVALOS DE CONFIANZA
Para construir estimados de intervalo de confianza de los coeficientes de regresión 𝛽𝑗 , se continúa suponiendo que
los errores están distribuidos normal e independientemente, con promedio cero y varianza constante. Como el
estimador de mínimos cuadrados es combinación lineal de las observaciones , esta distribuido normalmente. Esto
implica que cada que la distribución marginal de cualquier coeficiente de regresión 𝛽መ𝑗 es normal con media 𝛽𝑗 y
varianza 𝜎 2 𝐶𝑗𝑗 donde 𝐶𝑗𝑗 es el elemento de la diagonal de 𝑋´𝑋 −1 . En consecuencia, cada uno de los estadísticos
෡𝑗
𝛽𝑗 −𝛽
, 𝑗 = 0,1, … , 𝑘 se distribuye como t, con n-p grados de libertad.
ෝ 2 𝐶𝑗𝑗
𝜎
Así el intervalo de confianza del 100 1 − 𝛼 % para el coeficiente de regresión 𝛽𝑗 queda definido como:
𝛽መ𝑗 − 𝑡𝛼Τ2,𝑛−𝑝 𝜎ො 2 𝐶𝑗𝑗 < 𝛽𝑗 < 𝛽መ𝑗 + 𝑡𝛼Τ2,𝑛−𝑝 𝜎ො 2 𝐶𝑗𝑗

8regresión Lineal Multiple

Cargado por

Copyright:

Formatos disponibles

8regresión Lineal Multiple

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

8regresión Lineal Multiple

Cargado por

Copyright:

Formatos disponibles

Análisis de Regresión

Métodos Estadísticos MET. Alejandra Cerda

Métodos Estadísticos MET. Alejandra Cerda

Supongamos que se dispone de n>k

Se puede escribir en la siguiente forma el modelo de regresión:

De tal manera que la función de mínimos cuadrados es

Se debe minimizar la función S respecto a 𝛽0 , 𝛽1 , … , 𝛽𝑘 . Los estimadores de mínimos cuadrados deben

Métodos Estadísticos MET. Alejandra Cerda

Métodos Estadísticos MET. Alejandra Cerda

Es más cómodo manejar modelos de regresión múltiple cuando se expresan de

Métodos Estadísticos MET. Alejandra Cerda

Métodos Estadísticos MET. Alejandra Cerda

Un problema serio que puede influir mucho sobre la utilidad de un modelo de

Los elementos de la diagonal principal en la inversa de la matriz X´X en forma

Métodos Estadísticos MET. Alejandra Cerda

Se puede demostrar que, en general, el factor de inflación de varianza para el j-ésimo

Los factores VIF mayores que 10 implican problemas graves de multicolinealidad.

Métodos Estadísticos MET. Alejandra Cerda

Métodos Estadísticos MET. Alejandra Cerda

Métodos Estadísticos MET. Alejandra Cerda

En vista de que el numerador es el cuadrado medio de residuales y el denominador es constante,

Métodos Estadísticos MET. Alejandra Cerda

donde 𝐶𝑗𝑗 es el elemento de la diagonal de 𝑋´𝑋 −1

Métodos Estadísticos MET. Alejandra Cerda

𝛽መ𝑗 − 𝑡𝛼Τ2,𝑛−𝑝 𝜎ො 2 𝐶𝑗𝑗 < 𝛽𝑗 < 𝛽መ𝑗 + 𝑡𝛼Τ2,𝑛−𝑝 𝜎ො 2 𝐶𝑗𝑗

Métodos Estadísticos MET. Alejandra Cerda

También podría gustarte