Apuntes Unidad Ii
Apuntes Unidad Ii
Apuntes Unidad Ii
Muchas aplicaciones del análisis de regresión involucran situaciones donde se tiene más de una
variable de regresión. Un modelo de regresión que contiene más de un regresor recibe el nombre
de modelo de regresión múltiple. Por ejemplo, para los datos del rendimiento de gasolina de la
unidad pasada, la ecuación de regresión es ^y =46.3889−0.1347 x , donde x representan el
tamaño de motor (en cid) y y representa la razón del consumo de gasolina (mpg). Deberíamos ser
capaces de hacer una mejor predicción del consumo de gasolina si tuviéramos más información
sobre los coches utilizados en el estudio. Por ejemplo, además de la variable tamaño del motor,
esperaríamos que otras variables, como el peso del coche, el tipo de recorrido, ciudad o carretera,
y el tamaño y el tipo de las llantas, también influyeran sobre la razón del consumo de gasolina.
Cuando se usa más de una variable independiente para predecir los valores de una variable
dependiente, el proceso se llama análisis de regresión múltiple. Un modelo de regresión múltiple
se escribe:
Y = β o+ β1 x1 + β 2 x 2 +… β k xk
^y =bo +b 1 x 1+ b2 x 2 +… b k x k
^y = β^ o + β^ 1 x1 + β^ 2 x 2 +… ^β k x k
Donde cada coeficiente de regresión β i se estima por medio de b i, a partir de los datos muéstrales,
usando el método de los mínimos cuadrados.
Para nuestro ejemplo, Y representa el rendimiento de gasolina; x 1 representa el tamaño del motor;
x 2 representa el peso del coche. Éste es un modelo de regresión lineal múltiple con dos
regresores. Se utiliza el término lineal, porque la ecuación anterior es una función lineal de los
parámetros desconocidos de β o , β1 y β 2 .
El método de mínimos cuadrados puede emplearse para estimar los coeficientes de regresión del
modelo lineal múltiple. En principio, el método es muy similar al caso de dos variables estudiado
en la unidad pasada, pero hay más cálculos involucrados. El método de mínimos cuadrados en
este caso requiere resolver tres ecuaciones lineales en tres incógnitas, estas ecuaciones conocidas
como ecuaciones normales son:
1. ∑ y=n b 0+ b1 ( ∑ x 1 ) +b2 ( ∑ x 2 )
1
3. ∑ x 2 y=b0 ( ∑ x 2 ) +b1 ( ∑ x 1 x 2 ) +b 2 ( ∑ x 22 )
EJEMPLO 1
Montgomery y Peck (1992) describen el uso de un modelo de regresión para relacionar la cantidad
de tiempo que requiere un vendedor para dar servicio a una máquina expendedora de refrescos,
con el número de envases contenidos en la máquina y la distancia del vehículo de servicio al sitio
donde se encuentra la máquina. Este modelo fue utilizado para diseñar la ruta, los horarios y la
salida de vehículos. La siguiente tabla, presenta 25 observaciones del tiempo de suministro
tomadas del mismo estudio descrito por Montgomery y Peck.
1 9.95 2 50
2 24.45 8 110
3 31.75 11 120
4 35.00 10 550
5 25.02 8 295
6 16.86 4 200
7 14.38 2 375
8 9.60 2 52
9 24.35 9 100
10 27.50 8 300
11 17.08 4 412
12 37.00 11 400
13 41.95 12 500
14 11.66 2 360
15 21.65 4 205
16 17.89 4 400
2
17 69.00 20 600
18 10.30 1 585
19 34.93 10 540
20 46.59 15 250
21 44.88 15 290
22 54.12 16 510
23 56.23 17 590
24 22.13 6 100
25 21.15 5 400
n=25
25
∑ yi =725.42
i=1
25
∑ x i 1=206
i=1
25
∑ x i 2=8294
i=1
25
∑ x 2i 1=2396
i=1
25
∑ x 2i 2=3531848
i=1
25
∑ x i 1 x i 2=77177
i=1
25
∑ x i 1 y i =8008.67lo
i=1
25
∑ x i 2 yi =274580.71
i=1
3
1. ∑ y=n b 0+ b1 ( ∑ x 1 ) +b2 ( ∑ x 2 )
3. ∑ x 2 y=b0 ( ∑ x 2 ) +b1 ( ∑ x 1 x 2 ) +b 2 ( ∑ x 22 )
Ecuación 1 y 2
Ecuación 1 y 3
4
−207,350 ^β 0−1,708,564 ^β 1−68,790,436 ^β 2=−6,016,633.48
Ecuación 4 y 5
^β 2= 3,630,729,188.25 =0.012439
291,869,081,175
Sustituir ^
β 2 en la ecuación 4
17,464 ^β 1+ 2,747.29=50,605.23
Despejamos ^
β1
17,464 ^β 1=50,605.23−2,747.29
17,464 ^β 1=47,857.94
^β 1= 47,857.94 =2.7403
17,464
Sustituimos ^
β 1 y ^β 2 en la ecuación 1
25 ^β 0+ 564.5018+103.1690=725.42
5
Despejamos ^
β0
25 ^β 0=725.42−564.5018−103.1690
25 ^β 0=57.7492
^β 0= 57.7492 =2.3099
25
^y = β^ o + β^ 1 x1 + β^ 2 x 2 +… ^β k x k
Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las operaciones
matemáticas en forma matricial. Suponga que existen k variables de regresión y n observaciones
( x i 1 , x i2 , xi 3 , … .., x ik , y i), i=1 , 2 ,3 , … . , n, y que el modelo que relaciona los regresores con la
respuesta es
y i=β 0 + β 1 x i 1 + β 2 x i 2+ …+ β k x ik + ε i ,i=1, 2 ,3 ,… , n
Este modelo es un sistema de n ecuaciones que puede expresarse en notación matricial como
y= Xβ+ ε
Donde
[] [ ] [] []
y1 β1 ε1
1 x 11 x 12 . . . x1k
y2 β2 ε2
1 x 21 x 22 . . . x2k
y= . X= . . . ... . β= . ε= .
. . .
. . . ... .
. . .
1 xn 1 xn 2 . .. x nk
yn βn εn
6
^β=( X T X )−1 X T y
−1
Donde X T es la matriz transpuesta. Y (XT X) es la matriz inversa del producto de X T X , la cual
se puede obtener por determinantes.
[ ][]
EJEMPLO 2.
1 2 50 9.95
1 8 110 24.45
1 11 120 31.75
1 10 550 35.00
1 8 295 25.02
1 4 200 16.86
1 2 375 14.38
1 2 52 9.60
1 9 100 24.35
1 8 300 27.50
1 4 412 17.08
[ ]
1 11 400 37.00 1 1 1 1 1 1 1 … 1
T
X= 1 12 500 y= 41.95 X = 2 8 11 10 8 4 2 … 5
1 2 360 11.66 50 110 120 550 295 200 375 … 400 3 x25
1 4 205 21.65
1 4 400 17.89
1 20 600 69.00
1 1 585 10.30
1 10 540 34.93
1 15 250 46.59
1 15 290 44.88
1 16 510 54.12
1 17 590 56.63
1 6 100 22.13
1 5 400 21.15
7
[]
1 2 50
1 8 110
1 11 120
1 10 550
1 8 295
1 4 200
1 2 375
1 2 52
1 9 100
1 8 300
1 4 412
[ ]
1 1 1 1 1 1 1 1 1 1 … 1 1 11 400
X T X= 2 8 11 10 8 4 2 2 9 8 … 5 1 12 500
50 110 120 550 295 200 375 52 100 300 … 400 3 x 25 1 2 360
1 4 205
1 4 400
1 20 600
1 1 585
1 10 540
1 15 250
1 15 290
1 16 510
1 17 590
1 6 100
1 5 400 25 x 3
PRODUCTO DE MATRICES
A=
[ a11 a12
a 21 a22 ]2x2
; B=
[ b11 b 12 b13
b21 b 22 b23 ]
2 x3
A . B=
[ a11 a12
a21 a22 ] [2x 2
.
b11 b12 b13
b21 b22 b23 ] [
2x 3
=
c 11 c 12 c 13
c 21 c 22 c 23 ]
2x 3
A . B=
[ ] [
c 11 c 12 c13
c 21 c 22 c23 2 x3
=
a11 b11+ a12 b21 a11 b12+ a12 b 22 a 11 b13 +a12 b23
a21 b11+ a22 b21 a21 b12+ a22 b 21 a 21 b13 +a22 b23 ]
8
[ ]
25 206 8294
T
X X= 206 2396 77177
8294 77177 3531848 3 x3
[]
9.95
[ ]
24.45
1 1 1 1 1 1 1 1 1 1 … 1
T 31.75
X Y= 2 8 11 10 8 4 2 2 9 8 … 5
35.00
50 110 120 550 295 200 375 52 100 300 … 400 3 x 25
…
21.15 25 x1
[ ]
725.22
T
X Y = 8,001.67
274,580.71 3 x1
^β=( X T X )−1 X T y
[][ ] [ ]
^β 1 −1
25 206 8294 725.42
^β 2 = 206 2396 77177 8,001.67
^β3 8294 77177 3531848 3 x3 274,580.71 3 x1
det ( X T X )=| X T X|
det ( X X )=25 [ 2396 x 3531848−77177 x 77177 ] −206 [ 206 x 3531848−8294 x 77177 ] +8294 [ 206 x 77177−829
T
det ( X X )=11674763250
T
T
( X T X ) = Adj( TX X )
−1
|X X|
[ ]
A 11 A12 A13
Adj ( X X )= A 21
T
A22 A23
A 31 A32 A33
[77177
A11=
2396
3531848 ]
77177
=2396 x 3531848−77177 x 77177=2,506,018,479
[ 8294 3531848
A =− 206
12 ]
77177 =− ( 206 x 3531848−8294 x 77177 )=−87,454,650
9
[ ]
A13= 206 2396 =206 x 77177−8294 x 2396=−3,973,962
8294 77177
A21=− 206
[ ]
8294 =−(206 x 3531848−77177 x 8294)=−87,454,650
77177 3531848
[ 8294
A22=
25
3531848 ]
8294
=25 x 3531848−8294 x 8294=19,505,764
A =−
23 [ 8294
25
77177 ]
206
=−(25 x 77177−8294 x 206)=−220,861
[ 2396 77177 ]
A = 206 8294 =206 x 77177−2396 x 8294=−3,973,962
31
[ 206 77177 ]
A =− 25 8294 =−( 25 x 77177−206 x 8294 )=−220,861
32
A =[
206 2396 ]
25 206
33 =25 x 2396−206 x 206=17,464
[ ]
2506018479 −87454650 −3973962
Adj ( X X )= −87454650 19505764
T
−220861
−3973962 −220861 17464
[ ]
2,506,018,479 −87,454,650 −3,973,962
−87,454,650 19,505,764 −220,861
−1 −3,973,962 −220,861 17,464
(XT X) =
11,674,763,250
[ ]
−1
0.214652617 −0.007490914 −0.000340389
( X T X ) = −0.007490914 0.001670763 −0.0000189178
−0.000340389 −0.0000189178 0.00000149588
^β=( X T X )−1 X T y
[][ ][ ]
^β
0 0.214652617 −0.007490914 −0.000340389 725.42
^β = −0.007490914 0.001670763 −0.0000189178 8,001.67
1
^β −0.000340389 −0.0000189178 0.00000149588 3x 3 274,580.71 3x1
2
10
[][ ]
^β 0 ( 0.214652617 x 725.42 ) + (−0.007490914 x 8001.67 ) +(−0.000340389 x 274580.71)
^β 1 = (−0.00749094 x 725.42 )+ ( 0.001670763 x 8001.67 ) +(−0.0000189178 x 274580.71)
^β 2 (−0.000340389 x 725.42 )+ (−0.0000189178 x 8001.67 ) +(0.00000149588 x 274580.71) 3 x1
[][ ]
^β
0 2.309200429
^β = 2.740369424
1
β^ 0.012439581 3x 1
2
^y =2.309200429+2.740369424 x 1 +0.012439581 x 2
Este modelo de regresión puede emplearse para predecir valores del tiempo de suministro para varios
valores de envases entregados (x 1) y distancia (x 2) . También pueden obtenerse valores ajustados ^y
mediante la sustitución de cada observación (x i 1 , x i 2) en la ecuación.
E ( ^β )=E [ ( X X) X y ]
T −1 T
E ( ^β )=E [ ( X X ) X ( Xβ+ϵ ) ]
T −1 T
E ( ^β )=E [ ( X X ) X Xβ+ ( X X ) X ϵ ]
T −1 T T −1 T
E ( ^β )=β
β.
Las varianzas de ^
β se expresan en términos de los elementos de la inversa de la matriz X T X . La inversa de
T 2
X X multiplicada por la constante σ representa la matriz de covarianzas de los coeficientes de regresión
^β . Los elementos de la diagonal de σ 2 ( X T X )−1 son varianzas de ^β 0 , β^ 1 , β^ 2 , … , β^ k mientras que los
elementos que están fuera de la diagonal de esta matriz son las covarianzas. Por ejemplo, si se tienen k =2
regresores (tal como en el problema del tiempo de suministro de refrescos), entonces
−1
C=( X X )
T
11
[ ]
C 00 C 01 C02
C= C 10 C 11 C12
C 20 C 21 C22
−1
La cual es simétrica ya que C 10=C01 ,C 20 =C 02 y C21 =C 12, dado que ( X T X ) es simétrica, con lo que
se tiene
V ( ^β j ) =σ 2 C jj , j=0 , 1 ,2
cov ( β^ i , β^ j )=σ 2 C jj ,i ≠ j
n
SCE=∑ e i
2
i=1
SCE= y T y− β^ T X T y
Dado que puede demostrarse que el valor esperado de la cantidad SCE es σ 2 ( n−p ), un
estimador insesgado de σ 2 está dado por el error o residuo cuadrático medio.
2 SCE y T y− β^ T X T y
σ^ = =
n− p n− p
EJEMPLO 3
Para el ejercicio del abastecimiento de refrescos estime la varianza del error σ 2,obtenga la
matriz de covarianzas y las varianzas de las ^β j .
12
2.3 PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL MÚLTIPLE (Probabilidad y
estadística aplicadas a la ingeniería. Duoglas C. Montgomery y George C. Runger)
En problemas de regresión lineal múltiple, existen ciertas pruebas de hipótesis sobre los
parámetros del modelo que son útiles para medir la adecuación del mismo. Al igual que en el caso
de la regresión lineal simple, la prueba de hipótesis requiere de los términos de error ϵ i del modelo
de regresión tengan distribuciones normales e independientes con media cero y varianza σ 2 .
H o ; β 1=β 2=…=β k =0
El rechazo de H o ; β 1=β 2=…=β k =0 implica que al menos una de las variables de regresión
x 1 , x 2 , … , x k tiene una contribución significativa en el modelo.
Syy=SCR+ SCE
(∑ )
n 2
yi
T i=1
Syy= y y−
n
13
que SCE/σ 2 es una variable aleatoria con n− p grados de libertad, y que SCE y SCR son
independientes. El estadístico de prueba para H o ; β 1=β 2=…=β k =0 es:
SCR /k CMR
F o= =
SCE/(n− p) CME
SCE= y y− β^ X y
T T T
(∑ )
n 2
yi
i=1
SCR= ^β X y −
T T
n
EJEMPLO 4.
(∑ )
n 2
yi
T i=1 ( 725.42 )2
Syy= y y− =27133.3876− =6084.020544
n 25
(∑ )
n 2
yi
i=1 (725.42 )2
SCR= ^β X y −
T T
=27018.34107− =5968.97014
n 25
Syy=SCR+ SCE
Despejando SCE
SCE=Syy−SCR
SCE=6084.020544−5968.974014=115.0465299
14
Error o 22 115.0465299 5.229387722
residuo
Total 24 6084.020544
Dado que F calculada es mayor que F de tabla se rechaza la hipótesis nula, y se concluye
que el tiempo de suministro está relacionado de manera lineal con la distancia, con el
volumen suministrado o con ambos
Gráfica de distribución
F, df1=2, df2=22
1.0
0.8
Densidad
0.6
0.4
0.2
0.05
0.0
0 3.443
X
La adición de una variable a un modelo de regresión siempre hace que la suma de los
cuadrados de la regresión aumente y que la suma de los cuadrados del error disminuya.
Por tanto, debe decidirse si el aumento en la suma de los cuadrados de la regresión es
suficientemente grande como para justificar el uso de una variable más en el modelo. Por
otra parte, la adición de una variable sin importancia puede aumentar el error cuadrático
medio, lo que constituye un indicador de que tal variable disminuye la calidad con la que
el modelo ajusta los datos.
15
H o ; β j=0
H 1 ;β j ≠ 0
Si no se rechaza H o ; β j =0 , entonces esto indica que el regresor x j puede eliminarse del modelo.
El estadístico de prueba para esta hipótesis es:
^β j
T o=
√ σ^ 2
C jj
La hipótesis nula H o ; β j=0se rechaza si |t o|>t α ,n− p . Esto se conoce como prueba parcial o
2
EJEMPLO 5
Considere los datos sobre tiempo de suministro de refrescos, y supóngase que se desea probar la
hipótesis de que el coeficiente de regresión para x 2 (distancia) es cero. Las hipótesis son:
0.012439581
T o=
√(5.229387722)(1.49588 x 10−6 )
tα =t 0.05 =t 0.025,22 =2.0739
,n− p ,25−3
2 2
Gráfica de distribución
T, df=22
0.4
0.3
Densidad
0.2
16
0.1
0.025 0.025
0.0
-2.074 0 2.074
Como t-calculada es mayor que la t de tabla, se rechaza la hipótesis nula y se concluye que la
variable distancia tiene una contribución importante en el modelo.
2 SCR SCE
R= =1−
SCY SCY
EJEMPLO 6
El coeficiente de determinación múltiple para el modelo de regresión ajustado a los datos de tiempo
de suministro de refrescos.
2 SCR 5968.974014
R= = =0.981090378
SCY 6084.020544
Esto es, alrededor del 98.11% de la variabilidad en el tiempo de suministro y queda explicada
cuando se utilizan las dos variables de regresión, volumen de suministro ( x 1 ¿ y distancia (x ¿¿ 2)¿.
17
EJERCICIO 1
La tabla que aparece más adelante contiene datos sobre el desempeño de los equipos de la Liga
Nacional de futbol americano de Estados Unidos para el año 2021.
a) Ajuste un modelo de regresión lineal múltiple que relacione el número de juegos ganados
con las yardas por pase del tiempo (x ¿¿ 1)¿, el porcentaje de jugadas por corrida
(x ¿¿ 2)¿ y las yardas corridas por el oponente (x ¿¿ 3)¿ . Por diferencia de ecuaciones y
por matrices.
b) Utilice un modelo para predecir el número de juegos ganados cuando x 1=2000 yards,
x 2=60 % , y x 3=1800 yardas .
^2
c) Estime la varianza del error σ
d) Pruebe la significancia de la regresión utilizando α =0.05 .
e) Construya la prueba t para cada coeficiente de regresión. ¿A qué conclusiones puede
llegarse si se emplea α =0.05 .
f) Calcule el coeficiente de determinación múltiple.
Equipo y x1 x2 x3
18
Detroit 6 2213 59.2 1901
19