Analisis de Regresion
Analisis de Regresion
Analisis de Regresion
Tabla 1
Respuesta:
15
S
R-cuad.
R-cuad.(ajustado)
10
2,39287
54,5%
52,7%
-5
1500
1750
2000
2250
x8
2500
2750
3000
Fig. 1.1
En donde se observa que los datos estimados siguen una lnea recta con
pendiente negativa.
b. El coeficiente de correlacin entre las variables y y x8 es de
-0,7380273.
Fig. 1.2
sto nos indica que las variables y y x8 estn correlacionadas y el
signo negativo se refiere a una pendiente negativa como se muestra en la Fig. 1.1.
La Fig. 1.2 nos indica que las dos variables estn fuertemente correlacionadas,
dentro de los intervalos predefinidos, aunque su valor se encuentra en el extremo
derecho, ya que su valor es apenas de -0,73.
2. Estimacin e inferencia sobre los parmetros.
a.
La ecuacin
que se
0 y 1
(1.1)
Estimate
2.5 %
97.5 %
(Intercept) 21.7882509 16.246064040 27.330437725
x8
-0.0070251 -0.009614347 -0.004435854
Dentro de un intervalo de confianza de -0.009614347 a -0.004435854
para 1 y 16.246064040 a 27.330437725 para 0 para un 5% de
significancia. El campo (4) de la tabla 1.1 muestra el modelo ajustado
de la ecuacin (1.1) aplicado a los datos de la Tabla 1. A esta tabla se
volver ms adelante. El modelo ajustado est representado en la linea
recta de color negro de la Fig. 1.1
Equipo
Y x8
(1)
Washington
Minnesota
New England
Oakland
Pittsburgh
Baltimor
Los ngeles
Dallas
Atlanta
Buffalo
Chicago
Cincinnati
Cleveland
Denver
Detroit
Green Bay
Houston
Kansas City
Miami
Nueva Orleans
Nueva York Giants
Nueva York Jets
Philadelphia
St, Louis
San Diego
San Francisco
Seattle
Tampa Bay
(2)
10
11
11
13
10
11
10
11
4
2
7
10
9
9
6
5
5
5
6
4
3
3
4
10
6
8
2
0
cooks
Fitted
residuals rstudent
hatvalues distance
Modeloyx8 Modeloyx8 Modeloyx8 Modeloyx8 Modeloyx8 obsNumber
(3)
2205
2096
1847
1903
1457
1848
1564
1821
2577
2476
1984
1917
1761
1709
1901
2288
2072
2861
2411
2289
2203
2592
2053
1979
2048
1786
2876
2560
(4)
6,30
7,06
8,81
8,42
11,55
8,81
10,80
9,00
3,68
4,39
7,85
8,32
9,42
9,78
8,43
5,71
7,23
1,69
4,85
5,71
6,31
3,58
7,37
7,89
7,40
9,24
1,58
3,80
(5)
(6)
3,70
3,94
2,19
4,58
-1,55
2,19
-0,80
2,00
0,32
-2,39
-0,85
1,68
-0,42
-0,78
-2,43
-0,71
-2,23
3,31
1,15
-1,71
-3,31
-0,58
-3,37
2,11
-1,40
-1,24
0,42
-3,80
Tabla 1.1
b.
1,63
1,74
0,94
2,08
-0,70
0,94
-0,35
0,86
0,14
-1,04
-0,36
0,71
-0,18
-0,34
-1,04
-0,30
-0,95
1,58
0,49
-0,72
-1,44
-0,25
-1,46
0,90
-0,59
-0,53
0,19
-1,73
(7)
(8)
0,04
0,04
0,05
0,05
0,15
0,05
0,12
0,06
0,10
0,07
0,04
0,05
0,07
0,08
0,05
0,04
0,04
0,19
0,06
0,04
0,04
0,10
0,04
0,04
0,04
0,06
0,20
0,09
(9)
0,05
0,05
0,03
0,10
0,05
0,03
0,01
0,02
0,00
0,04
0,00
0,01
0,00
0,01
0,03
0,00
0,02
0,28
0,01
0,01
0,04
0,00
0,04
0,02
0,01
0,01
0,00
0,14
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
c.
i= i0.
El valor calculado para Fo=31,103, y el valor para =1%, entonces
F0.01, 1, 26=7,721254458.
5, 72584509285715
= 0,00125964955
3608611, 429
t0,025,1, 26 = 2,055529439
1 2,055529439*0,00125964955
de donde:
1 = -25350,85714/3608611.429 = -0,00702510027
Se calcula el intervalo de confianza del punto medio:
-0,00702510027 - 0,00258924673 1 -0,00702510027 +0,00258924673
-0,009614347 -0,004435854
1
-0.006
-0.008
-0.010
x8 coefficient
-0.004
Region de Confianza
16
18
20
22
24
(Intercept) coefficient
i = 0.
26
28
-2
10
fitted.Modeloyx8
2800
-4
-2
residuals.Modeloyx8
1600
2000
2400
x8
10
1600
1800
2000
2200
2400
2600
2800
lm(y ~ x8)
-1
Standardized residuals
2
0
-4
28
Normal Q-Q
4
-2
Residuals
Residuals vs Fitted
28
10
-2
-1
Fitted values
10
Fitted values
0.5
18
Cook's distance
-2
4
-1
Standardized residuals
1.2
0.8
0.4
Residuals vs Leverage
4
0.0
Standardized residuals
Scale-Location
28
0
Theoretical Quantiles
0.00
28
0.05
0.10
Leverage
0.5
0.15
0.20
95
90
Porcentaje
80
70
60
50
40
30
20
10
5
-5,0
-2,5
0,0
Residuo
2,5
5,0
10
7
26
13
12
15
24
23
25
17
21
Residuales
14
20
2
1
16
19
28
10
22
27
-4
-2
18
2
Modelo Ajustado
Esta grfica nos indica que existe un alto porcentaje de dispersin de los
puntos, sin embargo los puntos 5, 7, 27 y 18 podran ser candidatos a ser
outliers. Obsrvese la gran influencia que tiene el punto 27.
6
4
2
0
-2
Component+Residual(y)
-4
-6
1600
1800
2000
2200
2400
2600
x8
2800
0.
Durbin-Watson test
data: y ~ x8
DW = 1.5661, p-value = 0.1027
alternative hypothesis: true autocorrelation is greater than 0
Wilcoxon signed rank test
data: Ejercicio21$fitted.Modeloyx8 and Ejercicio21$residuals.Modeloyx8
V = 404, p-value = 2.235e-08
alternative hypothesis: true location shift is not equal to 0
f. Estadsticas de Homogeneidad de Varianza.
g. Estadsticas de Normalidad de los residuales.
Distribution of Errors
0.0
0.1
0.2
Density
0.3
0.4
Normal Curve
Kernel Density Curve
-2
-1
Studentized Residual
Shapiro-Wilk normality test
data: Ejercicio21$residuals.Modeloyx8
W = 0.9578, p-value = 0.309
h. Prueba de E(") = 0.
evidencia para
se muestra
24
38
12
19
9
27
Studentized Residuals
18
11 16
13
22
14
-1
25
17
26
20
15
10
21
23
28
0.05
0.10
0.15
0.20
Hat-Values
.
6. Uso del modelo.
a. Intervalo de confianza para la respuesta E(Y j x0).
b. Un intervalo de prediccin para una observacin futura x0.
Tabla 2
Respuesta:
1. Propuesta del modelo.
El grfico de dispersin de las variables X e Y. La Fig 2.1 muestra un
a.
diagrama de dispersin entre las variables y y x4
280
260
240
180
200
220
15.5
16.0
16.5
17.0
17.5
18.0
18.5
19.0
x4
Fig. 2.1
En donde se observa que los datos estimados para una regresin lineal
simple presentan una pendiente negativa. Ntese que los datos del Fig.
1.1. estn ms dispersos que los datos de la Fig. 2.1. Mientras que la
mayor dispersin se presenta en el rea central de la grfica.
b.
La ecuacin
que se
intentar explicar el comportamiento de los datos de la Tabla 2.1. Usando
el lenguaje R, se obtiene que los valores correspondientes para
0 y 1
(2.1)
Tabla 2.1
b.
c.
i = 0.
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x4
1 10578.7 10579 69.609 5.935e-09 ***
Residuals 27 4103.2
152
4. Anlisis de residuales y diagnstico para balanceo e influencia.
a. Grfico de probabilidad normal,
y i .
h. Prueba de E(") = 0.
i.
valores atpicos:
27
18
0.10
0.15
0.05
hatvalues(Modeloyx8)
0.20
10
15
Index
20
25
0.30
Cook's distance
0.20
0.15
0.10
28
0.05
0.00
Cook's distance
0.25
18
10
15
Obs. number
lm(y ~ x8)
20
25
Influence Plot
4
1
0
-1
Studentized Residuals
18
28
0.05
0.10
0.15
Hat-Values
Circle size is proportional to Cooks distance
0.20
18
-6
-4
-2
y | others
28
-600
-400
-200
200
400
600
x8 | others
c. Estadstica DFFITS.
d. Estadstica DFBETAj,i .
e. Estadstica COVRATIO
Con R se obtiene los siguiente resultados de la funcin covratio
aplicada al modelo .
800