Apuntes Unidad Ii

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 19

UNIDAD II

REGRESIÓN LINEAL MULTIPLE Y CORRELACIÓN

2.1 MODELO DE REGRESIÓN MULTIPLE. ESTIMACIÓN DE LA ECUACIÓN DE REGRESIÓN


MÚLTIPLE. (Probabilidad y Estadística aplicadas a la ingeniería Duglas C. Montgomery y
George C. Runger) (Estadística Richard C. Weimer)

Muchas aplicaciones del análisis de regresión involucran situaciones donde se tiene más de una
variable de regresión. Un modelo de regresión que contiene más de un regresor recibe el nombre
de modelo de regresión múltiple. Por ejemplo, para los datos del rendimiento de gasolina de la
unidad pasada, la ecuación de regresión es ^y =46.3889−0.1347 x , donde x representan el
tamaño de motor (en cid) y y representa la razón del consumo de gasolina (mpg). Deberíamos ser
capaces de hacer una mejor predicción del consumo de gasolina si tuviéramos más información
sobre los coches utilizados en el estudio. Por ejemplo, además de la variable tamaño del motor,
esperaríamos que otras variables, como el peso del coche, el tipo de recorrido, ciudad o carretera,
y el tamaño y el tipo de las llantas, también influyeran sobre la razón del consumo de gasolina.

Cuando se usa más de una variable independiente para predecir los valores de una variable
dependiente, el proceso se llama análisis de regresión múltiple. Un modelo de regresión múltiple
se escribe:

Y = β o+ β1 x1 + β 2 x 2 +… β k xk

Y la respuesta estimada se obtiene a partir de la ecuación de regresión muestral:

^y =bo +b 1 x 1+ b2 x 2 +… b k x k

^y = β^ o + β^ 1 x1 + β^ 2 x 2 +… ^β k x k

Donde cada coeficiente de regresión β i se estima por medio de b i, a partir de los datos muéstrales,
usando el método de los mínimos cuadrados.

Para nuestro ejemplo, Y representa el rendimiento de gasolina; x 1 representa el tamaño del motor;
x 2 representa el peso del coche. Éste es un modelo de regresión lineal múltiple con dos
regresores. Se utiliza el término lineal, porque la ecuación anterior es una función lineal de los
parámetros desconocidos de β o , β1 y β 2 .

ESTIMACIÓN DE LOS PARÁMETROS POR MINIMOS CUADRADOS

El método de mínimos cuadrados puede emplearse para estimar los coeficientes de regresión del
modelo lineal múltiple. En principio, el método es muy similar al caso de dos variables estudiado
en la unidad pasada, pero hay más cálculos involucrados. El método de mínimos cuadrados en
este caso requiere resolver tres ecuaciones lineales en tres incógnitas, estas ecuaciones conocidas
como ecuaciones normales son:

1. ∑ y=n b 0+ b1 ( ∑ x 1 ) +b2 ( ∑ x 2 )

2. ∑ x 1 y=b0 ( ∑ x 1 ) +b1 ( ∑ x 1 ) +b2 ( ∑ x 1 x 2 )


2

1
3. ∑ x 2 y=b0 ( ∑ x 2 ) +b1 ( ∑ x 1 x 2 ) +b 2 ( ∑ x 22 )

Resolver este sistema de ecuaciones lineales para obtener b 0, b 1 y b 2 es tedioso. Es común


emplear matrices para simplificar el proceso.

EJEMPLO 1

Montgomery y Peck (1992) describen el uso de un modelo de regresión para relacionar la cantidad
de tiempo que requiere un vendedor para dar servicio a una máquina expendedora de refrescos,
con el número de envases contenidos en la máquina y la distancia del vehículo de servicio al sitio
donde se encuentra la máquina. Este modelo fue utilizado para diseñar la ruta, los horarios y la
salida de vehículos. La siguiente tabla, presenta 25 observaciones del tiempo de suministro
tomadas del mismo estudio descrito por Montgomery y Peck.

Número de Tiempo de suministro Número de envases Distancia (ft)


Observaciones en minutos
x1 x2
y

1 9.95 2 50

2 24.45 8 110

3 31.75 11 120

4 35.00 10 550

5 25.02 8 295

6 16.86 4 200

7 14.38 2 375

8 9.60 2 52

9 24.35 9 100

10 27.50 8 300

11 17.08 4 412

12 37.00 11 400

13 41.95 12 500

14 11.66 2 360

15 21.65 4 205

16 17.89 4 400

2
17 69.00 20 600

18 10.30 1 585

19 34.93 10 540

20 46.59 15 250

21 44.88 15 290

22 54.12 16 510

23 56.23 17 590

24 22.13 6 100

25 21.15 5 400

(SUMATORIAS CALCULADAS EN EXCEL)

n=25
25

∑ yi =725.42
i=1

25

∑ x i 1=206
i=1

25

∑ x i 2=8294
i=1

25

∑ x 2i 1=2396
i=1

25

∑ x 2i 2=3531848
i=1

25

∑ x i 1 x i 2=77177
i=1

25

∑ x i 1 y i =8008.67lo
i=1

25

∑ x i 2 yi =274580.71
i=1

Sustituir los valores en las ecuaciones:

3
1. ∑ y=n b 0+ b1 ( ∑ x 1 ) +b2 ( ∑ x 2 )

25 b0 +206 b 1+ 8294 b2 =725.42

25 ^β 0+ 206 ^β1 +8294 ^β2=725.42 Ecuación 1

2. ∑ x 1 y=b0 ( ∑ x 1 ) +b1 ( ∑ x 1 ) +b2 ( ∑ x 1 x 2 )


2

206 b 0+ 2396 b1+ 77177 b2=8008.47

206 ^β 0 +2396 ^β 1+77177 β^ 2=8001.67 Ecuación 2

3. ∑ x 2 y=b0 ( ∑ x 2 ) +b1 ( ∑ x 1 x 2 ) +b 2 ( ∑ x 22 )

8294 b 0 +77177 b1 +3531848 b2=274580.71

8294 β^ 0 +77177 ^β 1+ 3531848 β^ 2=274580.71 Ecuación 3

Análisis por diferencia de ecuaciones

Ecuación 1 y 2

−206 [ 25 ^β 0 +206 ^β 1+ 8294 ^β 2=725.42 ]

25 [ 206 ^β 0 +2396 ^β 1+77177 β^ 2=8001.67 ]

−5150 ^β 0−42436 β^ 1−1,708,564 β^ 2=−149,436.52

5,150 ^β 0+ 59,900 β^ 1 +1,929,425 β^ 2=200,041.75

17,464 ^β 1+ 220,861 β^ 2=50,605.23 Ecuación 4

Ecuación 1 y 3

−8,294 [ 25 β^ 0 +206 ^β 1+ 8294 ^β 2=725.42 ]

25 [ 8294 β^ 0 +77177 ^β 1+ 3531848 β^ 2=274580.71 ]

4
−207,350 ^β 0−1,708,564 ^β 1−68,790,436 ^β 2=−6,016,633.48

207,350 ^β 0+ 1,929,425 β^ 1 +88,296,200 ^β2 =6,864,517.75

220,861 ^β1 +19,505,764 ^β 2=847,884.27 Ecuación 5

Ecuación 4 y 5

−220,861 [ 17,464 ^β 1+220,861 ^β 2=50,605.23 ]

17,464 [ 220,861 ^β 1+19,505,764 β^ 2=847,884.27 ]

−3,857,116,504 ^β 1−48,779,581,321 ^β 2=−11,176,721,703.03

3,857,116,504 ^β 1+ 340,648,662,496 β^ 2=14,807,450,891.28

291,869,081,175 ^β2 =3,630,729,188.25

^β 2= 3,630,729,188.25 =0.012439
291,869,081,175

Sustituir ^
β 2 en la ecuación 4

17,464 ^β 1+ 220,861 ( 0.012439 ) =50,605.23

17,464 ^β 1+ 2,747.29=50,605.23

Despejamos ^
β1

17,464 ^β 1=50,605.23−2,747.29

17,464 ^β 1=47,857.94

^β 1= 47,857.94 =2.7403
17,464

Sustituimos ^
β 1 y ^β 2 en la ecuación 1

25 ^β 0+ 206 ( 2.7403 )+ 8294 ( 0.012439 )=725.42

25 ^β 0+ 564.5018+103.1690=725.42

5
Despejamos ^
β0

25 ^β 0=725.42−564.5018−103.1690

25 ^β 0=57.7492

^β 0= 57.7492 =2.3099
25

Ahora que tenemos las ^


β , podemos obtenemos el modelo de regresión lineal múltiple ajustada

^y = β^ o + β^ 1 x1 + β^ 2 x 2 +… ^β k x k

^y =2.3099+ 2.7403 x 1 +0.012439 x2

2.2 MATRIZ DE VARIANZA-COVARIANZA (Probabilidad y estadística aplicadas a la


ingeniería. Douglas C. Montgomery y George C. Runger)

Enfoque matricial para la regresión lineal múltiple

Al ajustar un modelo de regresión múltiple es mucho más conveniente expresar las operaciones
matemáticas en forma matricial. Suponga que existen k variables de regresión y n observaciones
( x i 1 , x i2 , xi 3 , … .., x ik , y i), i=1 , 2 ,3 , … . , n, y que el modelo que relaciona los regresores con la
respuesta es

y i=β 0 + β 1 x i 1 + β 2 x i 2+ …+ β k x ik + ε i ,i=1, 2 ,3 ,… , n

Este modelo es un sistema de n ecuaciones que puede expresarse en notación matricial como

y= Xβ+ ε

Donde

[] [ ] [] []
y1 β1 ε1
1 x 11 x 12 . . . x1k
y2 β2 ε2
1 x 21 x 22 . . . x2k
y= . X= . . . ... . β= . ε= .
. . .
. . . ... .
. . .
1 xn 1 xn 2 . .. x nk
yn βn εn

En general, y es un vector de observaciones de ( n x 1 ) , X es una matriz ( n x p ) de los niveles de


las variables independientes, β es un vector de ( p x 1 ) formado por los coeficientes de regresión y
ε es un vector de ( n x 1 ) de errores aleatorios.

ESTIMADOR DE MINIMOS CUADRADOS DE β

6
^β=( X T X )−1 X T y

−1
Donde X T es la matriz transpuesta. Y (XT X) es la matriz inversa del producto de X T X , la cual
se puede obtener por determinantes.

[ ][]
EJEMPLO 2.

Resolver el ejercicio uno por forma matricial.

1 2 50 9.95
1 8 110 24.45
1 11 120 31.75
1 10 550 35.00
1 8 295 25.02
1 4 200 16.86
1 2 375 14.38
1 2 52 9.60
1 9 100 24.35
1 8 300 27.50
1 4 412 17.08

[ ]
1 11 400 37.00 1 1 1 1 1 1 1 … 1
T
X= 1 12 500 y= 41.95 X = 2 8 11 10 8 4 2 … 5
1 2 360 11.66 50 110 120 550 295 200 375 … 400 3 x25
1 4 205 21.65
1 4 400 17.89
1 20 600 69.00
1 1 585 10.30
1 10 540 34.93
1 15 250 46.59
1 15 290 44.88
1 16 510 54.12
1 17 590 56.63
1 6 100 22.13
1 5 400 21.15

7
[]
1 2 50
1 8 110
1 11 120
1 10 550
1 8 295
1 4 200
1 2 375
1 2 52
1 9 100
1 8 300
1 4 412

[ ]
1 1 1 1 1 1 1 1 1 1 … 1 1 11 400
X T X= 2 8 11 10 8 4 2 2 9 8 … 5 1 12 500
50 110 120 550 295 200 375 52 100 300 … 400 3 x 25 1 2 360
1 4 205
1 4 400
1 20 600
1 1 585
1 10 540
1 15 250
1 15 290
1 16 510
1 17 590
1 6 100
1 5 400 25 x 3

PRODUCTO DE MATRICES

A=
[ a11 a12
a 21 a22 ]2x2
; B=
[ b11 b 12 b13
b21 b 22 b23 ]
2 x3

A . B=
[ a11 a12
a21 a22 ] [2x 2
.
b11 b12 b13
b21 b22 b23 ] [
2x 3
=
c 11 c 12 c 13
c 21 c 22 c 23 ]
2x 3

A . B=
[ ] [
c 11 c 12 c13
c 21 c 22 c23 2 x3
=
a11 b11+ a12 b21 a11 b12+ a12 b 22 a 11 b13 +a12 b23
a21 b11+ a22 b21 a21 b12+ a22 b 21 a 21 b13 +a22 b23 ]

8
[ ]
25 206 8294
T
X X= 206 2396 77177
8294 77177 3531848 3 x3

[]
9.95

[ ]
24.45
1 1 1 1 1 1 1 1 1 1 … 1
T 31.75
X Y= 2 8 11 10 8 4 2 2 9 8 … 5
35.00
50 110 120 550 295 200 375 52 100 300 … 400 3 x 25

21.15 25 x1

[ ]
725.22
T
X Y = 8,001.67
274,580.71 3 x1

^β=( X T X )−1 X T y

[][ ] [ ]
^β 1 −1
25 206 8294 725.42
^β 2 = 206 2396 77177 8,001.67
^β3 8294 77177 3531848 3 x3 274,580.71 3 x1

Para obtener la matriz inversa se utiliza el uso de determinantes

det ( X T X )=| X T X|

det ( X X )=25 [ 2396 x 3531848−77177 x 77177 ] −206 [ 206 x 3531848−8294 x 77177 ] +8294 [ 206 x 77177−829
T

det ( X X )=11674763250
T

T
( X T X ) = Adj( TX X )
−1

|X X|

[ ]
A 11 A12 A13
Adj ( X X )= A 21
T
A22 A23
A 31 A32 A33

[77177
A11=
2396
3531848 ]
77177
=2396 x 3531848−77177 x 77177=2,506,018,479

[ 8294 3531848
A =− 206
12 ]
77177 =− ( 206 x 3531848−8294 x 77177 )=−87,454,650

9
[ ]
A13= 206 2396 =206 x 77177−8294 x 2396=−3,973,962
8294 77177

A21=− 206
[ ]
8294 =−(206 x 3531848−77177 x 8294)=−87,454,650
77177 3531848

[ 8294
A22=
25
3531848 ]
8294
=25 x 3531848−8294 x 8294=19,505,764

A =−
23 [ 8294
25
77177 ]
206
=−(25 x 77177−8294 x 206)=−220,861

[ 2396 77177 ]
A = 206 8294 =206 x 77177−2396 x 8294=−3,973,962
31

[ 206 77177 ]
A =− 25 8294 =−( 25 x 77177−206 x 8294 )=−220,861
32

A =[
206 2396 ]
25 206
33 =25 x 2396−206 x 206=17,464

[ ]
2506018479 −87454650 −3973962
Adj ( X X )= −87454650 19505764
T
−220861
−3973962 −220861 17464

[ ]
2,506,018,479 −87,454,650 −3,973,962
−87,454,650 19,505,764 −220,861
−1 −3,973,962 −220,861 17,464
(XT X) =
11,674,763,250

[ ]
−1
0.214652617 −0.007490914 −0.000340389
( X T X ) = −0.007490914 0.001670763 −0.0000189178
−0.000340389 −0.0000189178 0.00000149588

^β=( X T X )−1 X T y

[][ ][ ]

0 0.214652617 −0.007490914 −0.000340389 725.42
^β = −0.007490914 0.001670763 −0.0000189178 8,001.67
1
^β −0.000340389 −0.0000189178 0.00000149588 3x 3 274,580.71 3x1
2

10
[][ ]
^β 0 ( 0.214652617 x 725.42 ) + (−0.007490914 x 8001.67 ) +(−0.000340389 x 274580.71)
^β 1 = (−0.00749094 x 725.42 )+ ( 0.001670763 x 8001.67 ) +(−0.0000189178 x 274580.71)
^β 2 (−0.000340389 x 725.42 )+ (−0.0000189178 x 8001.67 ) +(0.00000149588 x 274580.71) 3 x1

[][ ]

0 2.309200429
^β = 2.740369424
1

β^ 0.012439581 3x 1
2

^y =2.309200429+2.740369424 x 1 +0.012439581 x 2

Este modelo de regresión puede emplearse para predecir valores del tiempo de suministro para varios
valores de envases entregados (x 1) y distancia (x 2) . También pueden obtenerse valores ajustados ^y
mediante la sustitución de cada observación (x i 1 , x i 2) en la ecuación.

PROPIEDADES DE LOS ESTIMADORES DE MÍNIMOS CUADRADOS Y ESTIMACIÓN DE σ 2

Las propiedades estadísticas de los estimadores ^


β 0 , β^ 1 , β^ 2 , … , β^ k pueden determinarse con facilidad, bajo
ciertas condiciones sobre los términos de error ϵ 1 , ϵ 2 , … , ϵ ndel modelo de regresión. Paralelamente con
las suposiciones de la unidad pasada, aquí se supondrá que los errores ϵ i son estadísticamente
independientes con media cero y varianza σ 2. Bajo estas suposiciones, los estimadores de mínimos
cuadrados ^
β 0 , β^ 1 , β^ 2 , … , β^ k son estimadores insesgados de los coeficientes β 0 , β 1 , β 2 , … , β k . Esta
propiedad puede demostrarse de la siguiente manera.

E ( ^β )=E [ ( X X) X y ]
T −1 T

E ( ^β )=E [ ( X X ) X ( Xβ+ϵ ) ]
T −1 T

E ( ^β )=E [ ( X X ) X Xβ+ ( X X ) X ϵ ]
T −1 T T −1 T

E ( ^β )=β

X X=I , es decir la matriz identidad. Por tanto, ^β es un estimador de


−1
Puesto que E ( ϵ )=0 y ( X T X ) T

β.

Las varianzas de ^
β se expresan en términos de los elementos de la inversa de la matriz X T X . La inversa de
T 2
X X multiplicada por la constante σ representa la matriz de covarianzas de los coeficientes de regresión
^β . Los elementos de la diagonal de σ 2 ( X T X )−1 son varianzas de ^β 0 , β^ 1 , β^ 2 , … , β^ k mientras que los
elementos que están fuera de la diagonal de esta matriz son las covarianzas. Por ejemplo, si se tienen k =2
regresores (tal como en el problema del tiempo de suministro de refrescos), entonces

−1
C=( X X )
T

11
[ ]
C 00 C 01 C02
C= C 10 C 11 C12
C 20 C 21 C22

−1
La cual es simétrica ya que C 10=C01 ,C 20 =C 02 y C21 =C 12, dado que ( X T X ) es simétrica, con lo que
se tiene

V ( ^β j ) =σ 2 C jj , j=0 , 1 ,2

cov ( β^ i , β^ j )=σ 2 C jj ,i ≠ j

En general, la matriz de covarianza de ^


β es una matriz simétrica de ( p x p ) cuyo jj−ésimo
elemento es la varianza de ^
β j , mientras que el ij−ésimo elemento representa la covarianza
entre ^
β i y ^β j , esto es,

cov ( ^β )=σ ( X X ) =σ C Si el cálculo de este valor es muy alto, indicaría que x 1 y x 2


2 T −1 2

están altamente relacionadas.

Las estimaciones de las varianzas de estos coeficientes de regresión se obtienen al


reemplazar σ 2 con una estimación apropiada. Cuando σ 2 se reemplaza por la estimación
σ^ , la raíz cuadrada de la varianza estimada del j−ésimo coeficiente de regresión recibe el
2

nombre de error estándar estimado de ^β j , o EE j j jj √


^ ( β^ ) =se ( β^ )= √σ^ 2 C = var ( ^β ). Al igual que
j
2
en el caso de la regresión lineal simple, la estimación de σ está definida en términos de la
suma de cuadrados de los residuos.
n
SCE=∑ ( y i− ^y i) 2
i=1

n
SCE=∑ e i
2

i=1

SCE= y T y− β^ T X T y

Dado que puede demostrarse que el valor esperado de la cantidad SCE es σ 2 ( n−p ), un
estimador insesgado de σ 2 está dado por el error o residuo cuadrático medio.

2 SCE y T y− β^ T X T y
σ^ = =
n− p n− p

EJEMPLO 3

Para el ejercicio del abastecimiento de refrescos estime la varianza del error σ 2,obtenga la
matriz de covarianzas y las varianzas de las ^β j .

12
2.3 PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL MÚLTIPLE (Probabilidad y
estadística aplicadas a la ingeniería. Duoglas C. Montgomery y George C. Runger)

En problemas de regresión lineal múltiple, existen ciertas pruebas de hipótesis sobre los
parámetros del modelo que son útiles para medir la adecuación del mismo. Al igual que en el caso
de la regresión lineal simple, la prueba de hipótesis requiere de los términos de error ϵ i del modelo
de regresión tengan distribuciones normales e independientes con media cero y varianza σ 2 .

Fuente de Grados de Suma de Cuadrados Fcalculada


variación libertad cuadrados medios

Regresión k SCR CMR CMR


CME

Error o residuo n− p SCE CME

Total n−1 Syy=SCT

PRUEBA PARA LA SIGNIFICANCIA DE LA REGRESIÓN

La prueba para la significancia de la regresión es una prueba para determinar si existe


una relación lineal entre la variable de respuesta y y un subconjunto de las variables de
regresión x 1 , x 2 , … , x k . Las hipótesis apropiadas son:

H o ; β 1=β 2=…=β k =0

H 1 ; β j ≠ 0 al menos para una j

El rechazo de H o ; β 1=β 2=…=β k =0 implica que al menos una de las variables de regresión
x 1 , x 2 , … , x k tiene una contribución significativa en el modelo.

La prueba de significancia de la regresión es una generalización del procedimiento utilizado en la


regresión lineal simple. La suma total de cuadrado Syy=SCT se divide en una suma de
cuadrados debida a la regresión y una suma de cuadrados debida al error.

Syy=SCR+ SCE

(∑ )
n 2

yi
T i=1
Syy= y y−
n

Y si H o ; β 1=β 2=…=β k =0 es verdadera, entonces SCR /σ 2 es una variable ji-cuadrada con k


grados de libertad. Nótese que el número de grados de libertad para esta variable aleatoria ji-
cuadrada es igual al número de variables de regresión del modelo. También puede demostrarse

13
que SCE/σ 2 es una variable aleatoria con n− p grados de libertad, y que SCE y SCR son
independientes. El estadístico de prueba para H o ; β 1=β 2=…=β k =0 es:

SCR /k CMR
F o= =
SCE/(n− p) CME

Debe rechazarse H o si el valor calculado del estadístico de prueba de la ecuación anterior


es mayor que f α ,k , n−p .

SCE= y y− β^ X y
T T T

(∑ )
n 2

yi
i=1
SCR= ^β X y −
T T
n

EJEMPLO 4.

Realizar la prueba de significancia de la regresión con α =0.05 utilizando los datos de


tiempo de suministro de la máquina expendedora.

H o ; β 1=β 2=…=β k =0 , Nohay relación entre las variables del modelo

H 1 ; β j ≠ 0 , hay relaciónentre una o más variables

(∑ )
n 2

yi
T i=1 ( 725.42 )2
Syy= y y− =27133.3876− =6084.020544
n 25

(∑ )
n 2

yi
i=1 (725.42 )2
SCR= ^β X y −
T T
=27018.34107− =5968.97014
n 25

Syy=SCR+ SCE

Despejando SCE

SCE=Syy−SCR

SCE=6084.020544−5968.974014=115.0465299

Fuente de Grados de Suma de Cuadrados F calculada F tabla


variación libertad cuadrados medios

Regresión 2 5968.97014 2984.487007 570.7144251 3.4434

14
Error o 22 115.0465299 5.229387722
residuo

Total 24 6084.020544

Dado que F calculada es mayor que F de tabla se rechaza la hipótesis nula, y se concluye
que el tiempo de suministro está relacionado de manera lineal con la distancia, con el
volumen suministrado o con ambos

Gráfica de distribución
F, df1=2, df2=22

1.0

0.8
Densidad

0.6

0.4

0.2

0.05
0.0
0 3.443
X

PRUEBAS SOBRE LOS COEFICIENTES INDIVIDUALES DE REGRESIÓN

A menudo se tiene interés en hacer pruebas de hipótesis sobre los coeficientes de


regresión. Tales pruebas son útiles para determinar el valor potencial de cada una de las
variables de regresión del modelo de regresión. Por ejemplo, el modelo puede ser más
eficaz con la inclusión de variables adicionales, o quizá con la eliminación de uno o más
de los regresores presentes en el modelo.

La adición de una variable a un modelo de regresión siempre hace que la suma de los
cuadrados de la regresión aumente y que la suma de los cuadrados del error disminuya.
Por tanto, debe decidirse si el aumento en la suma de los cuadrados de la regresión es
suficientemente grande como para justificar el uso de una variable más en el modelo. Por
otra parte, la adición de una variable sin importancia puede aumentar el error cuadrático
medio, lo que constituye un indicador de que tal variable disminuye la calidad con la que
el modelo ajusta los datos.

La hipótesis para la prueba de la significancia de cualquier coeficiente de regresión


individual, por ejemplo β j , son:

15
H o ; β j=0

H 1 ;β j ≠ 0

Si no se rechaza H o ; β j =0 , entonces esto indica que el regresor x j puede eliminarse del modelo.
El estadístico de prueba para esta hipótesis es:

^β j
T o=
√ σ^ 2
C jj

que corresponde a ^β j . Notese que el


−1
Donde C jj es el elemento de la diagonal de ( X T X )
denominador de la ecuación anterior es el error estándar del coeficiente de regresión ^β j .

La hipótesis nula H o ; β j=0se rechaza si |t o|>t α ,n− p . Esto se conoce como prueba parcial o
2

marginal, debido a que el coeficiente de regresión ^


β j depende de todas las demás variables de
regresión x i (i≠ j) que están en el modelo.

EJEMPLO 5

Considere los datos sobre tiempo de suministro de refrescos, y supóngase que se desea probar la
hipótesis de que el coeficiente de regresión para x 2 (distancia) es cero. Las hipótesis son:

H o ; β 2=0 , la variable distancia no tiene una contribución en el modelo

H 1 ; β 2 ≠ 0 ,la variable distanciatiene una contribuciónimportante en el modelo

El elemento de la diagonal principal de la matriz (XT X)


−1
que corresponde a ^β 2 es
−6
C 22=1.49588 x 10 , de modo que el estadístico t es:

0.012439581
T o=
√(5.229387722)(1.49588 x 10−6 )
tα =t 0.05 =t 0.025,22 =2.0739
,n− p ,25−3
2 2

Gráfica de distribución
T, df=22

0.4

0.3
Densidad

0.2

16
0.1

0.025 0.025
0.0
-2.074 0 2.074
Como t-calculada es mayor que la t de tabla, se rechaza la hipótesis nula y se concluye que la
variable distancia tiene una contribución importante en el modelo.

2.4 CORRELACIÓN LINEAL MÚLTIPLE

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE

2 SCR SCE
R= =1−
SCY SCY

R es una medida de la magnitud de la reducción en la variabilidad de y obtenida mediante el


2

empleo de las variables de regresión x 1 , x 2 , … , x k . Al igual que en el caso de la regresión lineal


simple, se tiene que 0 ≤ R2 ≤ 1. Sin embargo, un valor grande de R2 no necesariamente implica
que el modelo de regresión sea bueno. La adición de una variable al modelo siempre aumenta R2,
sin importar si la variable es o no estadísticamente significativa. Es así como los modelos que
tienen valores de R2 grandes pueden proporcionar predicciones pobres de nuevas observaciones o
estimaciones de la respuesta promedio.

La raíz cuadrada positiva de R2 recibe el nombre de coeficiente de correlación múltiple entre y y el


conjunto de variables de regresión x 1 , x 2 , … , x k . Esto es, R es una medida de la asociación lineal
existente entre y y x 1 , x 2 , … , x k . Cuando k =1 , éste se convierte en la correlación simple entre y
y x.

EJEMPLO 6

El coeficiente de determinación múltiple para el modelo de regresión ajustado a los datos de tiempo
de suministro de refrescos.

2 SCR 5968.974014
R= = =0.981090378
SCY 6084.020544

Esto es, alrededor del 98.11% de la variabilidad en el tiempo de suministro y queda explicada
cuando se utilizan las dos variables de regresión, volumen de suministro ( x 1 ¿ y distancia (x ¿¿ 2)¿.

17
EJERCICIO 1

La tabla que aparece más adelante contiene datos sobre el desempeño de los equipos de la Liga
Nacional de futbol americano de Estados Unidos para el año 2021.

a) Ajuste un modelo de regresión lineal múltiple que relacione el número de juegos ganados
con las yardas por pase del tiempo (x ¿¿ 1)¿, el porcentaje de jugadas por corrida
(x ¿¿ 2)¿ y las yardas corridas por el oponente (x ¿¿ 3)¿ . Por diferencia de ecuaciones y
por matrices.
b) Utilice un modelo para predecir el número de juegos ganados cuando x 1=2000 yards,
x 2=60 % , y x 3=1800 yardas .
^2
c) Estime la varianza del error σ
d) Pruebe la significancia de la regresión utilizando α =0.05 .
e) Construya la prueba t para cada coeficiente de regresión. ¿A qué conclusiones puede
llegarse si se emplea α =0.05 .
f) Calcule el coeficiente de determinación múltiple.

Equipo y x1 x2 x3

Washingyon 10 2113 59.7 2205

Minnesota 11 2003 55.0 2096

New England 11 2957 65.6 1847

Oakland 13 2285 61.4 1903

Pittsburgh 10 2971 66.1 1457

Baltimore 11 2309 61.0 1848

Los Angeles 10 2528 66.1 1564

Dallas 11 2147 58.9 2476

Atlanta 4 1689 57.0 2577

Buffalo 2 2566 58.9 2476

Chicago 7 2363 68.5 1984

Cincinnati 10 2109 59.2 1901

Cleveland 9 2295 58.8 1761

Denver 9 1932 58.6 1709

18
Detroit 6 2213 59.2 1901

Green Bay 5 1722 54.4 2288

Houston 5 1498 49.6 2072

Kansas City 5 1873 54.3 2861

Miami 6 2118 58.7 2411

New Orleans 4 1775 51.7 2289

New York Giants 3 1904 61.9 2203

New York Jets 3 1929 52.7 2592

Philadelphia 4 2080 57.8 2053

St. Louis 10 2301 59.7 1979

San Diego 6 2040 54.9 2048

San Francisco 8 2447 65.3 1786

Seattle 2 1416 43.8 2876

Tampa Bay 0 1503 53.5 2560

19

También podría gustarte