Documento de Regresion Simple
Documento de Regresion Simple
Documento de Regresion Simple
COVARIANZA: SXY 1
n (x i X )( yi Y ) 1
n x y i i
i1 i1 XY .
Justificación como medida de asociación:
El producto (xi X )( yi Y ) es >0 en los cuadrantes 1 y 3; <0 en el 2 y 4. La covarianza es el promedio
de estos productos. Su signo indica la dirección que prevalece.
+ +
+
(X,Y) (X,Y)
(X,Y)
+ S XY 0 + S XY 0
+ S XY 0
Tema 14. El modelo de regresión lineal simple 261
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA
E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Asociación creciente: SXY>0. Ausencia de asociación: SXY0. Asociación decreciente: SXY<0.
i X Y
1 n xi i X
y Y
i
rX ,Y XYSi
y
1
r S S
XY
S XY
S n
2
n 2 n
i1 Y
yi Y X
x X i
i1
es decir, la covarianza entre las variables tipificadas. i1
Propiedades:
Adimensionalidad: No tiene unidades.
Invariancia frente a cambios de localización y escala (transformaciones lineales):
X aX b, Y cY d rX Y rXY (a 0, c 0)
Los cambios de unidades (cambios de escala) no deben influir en la medida de asociación lineal ya
que la asociación es la misma estén los datos medidos en metros o en centímetros (por ejemplo).
Acotación entre -1 y 1.
rXY
1
Si la medida no estuviera acotada no sabríamos qué valores serían altos y qué valores serían bajos.
Interpretación:
-La medida del grado de asociación lineal la da el valor absoluto rXY.
- rXY próximo a 1 significa asociación lineal importante.
- rXY próximo a 0 significa asociación lineal débil.
-El sentido de asociación lineal (creciente o decreciente) lo da el signo, que es el mismo que el de la
covarianza.
rXY=1 Asociación lineal exacta. El valor absoluto del coeficiente de correlación es 1 si y sólo
si los puntos (xi,yi), i=1,...,n están alineados sobre una recta, cuya ecuación es ésta:
y Y rS
Y
x X .
X ,Y
X
SY
(recta que pasa por con pendiente r XY ; tiene el mismo signo que rXY y que SXY).
SX
El coeficiente de correlación tiene que ir siempre acompañado de un plot XY (nube de puntos)
para su correcta interpretación.
- Puede haber un coeficiente de correlación alto y no existir en absoluto asociación lineal
- Puede haber un coeficiente de correlación bajo por culpa de un sólo punto que rompe la
tendencia.
5 1,46 96,73
6 1,36 94,45
102
7 0,87 87,59
99 8 1,23 91,77
9 1,55 99,42
96 10 1,40 93,65
93 11 1,19 93,54
12 1,15 92,52
90 13 0,98 90,56
14 1,01 89,54
87
0,87 1,07 1,27 1,47 1,67 15 1,11 89,85
16 1,20 90,39
NIVEL DE HIDROCARBUROS (%) 17 1,26 93,25
18 1,32 93,41
19 1,43 94,98
El modelo de regresión lineal RESPUESTA Recta verdadera de Regresión
simple Y
E Y X x 0 1x
Y = 0+ 1X + 0+1x2
0término independiente
1 error aleatorio
pendiente 0+1x1
HIPÓTESIS:
1.Linealidad: x1 x2
VARIABLE INDEPENDIENTE X
E( ) 0 E Y X x 0
2.Homogeneidad de la varianza (Homocedasticidad):
x, x
Var ( ) Var Y
1
2
, x
2 x
3.Normalidad: X
x, ), x
N (0, ) Y X x N (0 1
4.Independencia: Los errores aleatorios de distintas observaciones son v.a. independientes, no tienen
memoria al cambiar de unidad experimental.
Se toman n observaciones y bajo diferentes valores x, de forma que cada una de ellas sigue el modelo
yi 0 1 xi i i 1...n
0 , i1
i
0 ,
(yi
i1
(0 1xi ))βm-in y-
1 1
SOLUCIÓN: Xβ Matricialmente:
n
(y x ) 2 2
n
(y x )0 1 Sy
x
(XtX)β=Xt y
x
i 1 i
βˆ =(X t X)-1X t
0 1 i i 1 i 0 1 i
Sx
0 (y x ) 2 2(y x ) x 0
n n
0 Sx
i 0 1 i i 0 1 i i y y
1 i 1 i 1
Sx
S (x x)( y y),
S (x x)2 , S ( yy)2.xx
n n y n
Notación: i i xx i yy i
i1 i1 i1
xy
1. Modelo estimado : yˆ ˆ ˆ x
0 1
x
3. Residuos
: ei yi yi ˆ x ), i 1,..., n
i
yˆ i ( ˆ 0 1 i
ei : Estimación de la perturbación aleatoria ocurrida
en el caso i.
4. Estimación de la varianza del modelo : ˆ MSE SSE / n 2
2
MSE : Promedio corregido de los errores cuadráticos cometidos.
Propiedades de los estimadores
1. ESTIMADORES INSESGADOS
(No se necesita la hipótesis de normalidad)
E 1 ˆ 1 E ˆ0
E ˆ 2 2
, 0 ,
2. VARIANZAS DE LOS ESTIMADORES
Var ˆ1 , Var ˆ 0 2 x2 , Cov ˆ 0 , ˆ1 2 x
S 1 n S xx Sxx
2 xx
ˆ ˆ
1 N 1 , tn2
11 ; su cuadrado F1,n2
2 MSE
̂0 N 0 , S 21 x2 Sxx
xx
Sxx ˆ0 0
; idem
(n 2)ˆ 2 SSE n
2 x tn2
n2 MSE
2 2 1 2
SSE independiente de ˆ y ˆ Sxx
0 1
n
0
t
2,
n2
Inferencias sobre los parámetros
t2
1
t
MSE1 n S 0
INTERVALOS DE CONFIANZA
,n2
xx2 t
MSE 1 1
Sx
xx
0
CONTRASTES DE HIPÓTESIS
2
,n2
H01: 1
*
H00: *
2,
n2
0
H 11: 1
*
H10 : *
ES x
MS
S
MSE1 n
0
x
ˆ
C ˆ 2,n2 C 00 * t
x2
11
x 2
xx
2,n2
t *MSE
MSE
Sxx n 1
Sxx
TABLA DE COEFICIENTES ESTIMADOS
Parámetro Estimador Error Estadístico t p-valor
Estándar
Intercept
Var(0 t0 0
Var(0
t
0
Slope ) )
Va
1 1
Va
1 r r
( (
1 1
) )
Prueba de significación de la regresión
H0 :1
0
¿La variable X aporta información relevante para explicar la variabilidad de Y?
H1 : 1
0
PARTICIÓN DE LA VARIABILIDAD
Recta estimada de Regresión de Y sobre X:
n
Solución de min (y ( x )) 2
0 , 1 i 0 1i
i 1
y x n n n
0 1
S(
y
y i y)( y i y)
2 2
( y i i )2
(xi,yi) y i i
y i
yi
1 1 1
y i y ei ( xi yi )
y VARIABILIDAD PARTE EXPLICADA PARTE
i TOTAL POR LA REGRESIÓN NO EXPLICADA POR
i DE LA RESPUESTA Y LA REGRESIÓN
y i y
y
= +
y y
Ajuste de la variable Y sin tener en
SST = SSR + SSE
cuenta la X:
(y )
n
Solución de min i 0
2
0
i 1
xi
El tamaño de SSR y SSE relativo al total SST sirve para valorar la significación de la regresión:
SSE = 0 : Ajuste perfecto.
SSR = 0 : La X no aporta nada en la explicación de la Y.
0 < SSR, SSE < SST : Situaciones habituales.
SSR 2 F MSR
2
2
F
Si la hipótesis nula se cumple (1=0), entonces SS
E 2
0
n MS
E
1
R
S
S
1 2 1,n2
SSE
n2
COEFICIENTE DE DETERMINACIÓN: R2
Standard
102 Parameter Estimate Error Statistic P-Val
100
98 Recta estimada de regresión: PUREZA=74.2833+14.9475*HIDROC. Intercept 74,2833 1,59347 46,6172 0,00
Slope 14,9475 1,31676 11,3517 0,00
96
94
92 TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)
90
Analysis of Variance
88
86 Source Sum of Squares Df Mean Square F-Rati
0,8 1 1,2 1,4 1,6 Model 152,127 1 152,127 128,8
NIVEL DE HIDROCARBUROS Residual 21,2498 18 1,1805
Correlation = 0,936715
R-squared = 87,7436 percent
Coefficient
Standard Error of Est. = 1,08653
Intervalo de confianza
para la respuesta media de Y para un valor determinado de X
Parámetro: E Y
X x
x
Y/x0 0
0 10
Estimador: 0 1 x0
Y/x 0
2
(x0
Distribución: Y /
N Y /
1 x)2
x,
0 0
x
ˆY / x n Sx ˆY / Y /
Y/ N (0,1) indep.de SSE( )
2
t
x x x x
0 0 0
0 n2
(x 2
(x 0
21 0 n M x )2
x )Sxx 1
SE
n S
1 (x 2
1(x 2
Y/x t,n2 MSE 0 t MSE 0 xx
x)Sx Sxx)
Y/xY/x
0 0 2
0 ,n2
2
n x
n x
y0 N ( Y / , )
0
x
2 y yˆ
N
0 0
, 1 2(x
y 0
t
x )Sx
n2
ˆ0
Y / x0
1(x
n MSE 0
y0 e yˆ0 independientes de MSE
x 2 x ) 2
Sx
n
1
x
Límites inferior y
superior del intervalo
de confianza para la
respuesta media en
X=x0.
Y / x
0
Límites inferior y
superior del intervalo de
predicción para una
nueva observación y0 en
X=x0.
x0
EJEMPLO: Proceso químico de destilación
11
X1 Y1 Y2 Y3 X2 X3
1 10 8,04 9,14 7,46 8 6,58
2 8 6,95 8,14 6,77 8 5,76
7
10 3 13 7,58 8,74 12,74 8 7,71
6
9 4 9 8,81 8,77 7,11 8 8,84
5
8 5 11 8,33 9,26 7,81 8 8,47
4
6 14 9,96 8,1 8,84 8 7,04
Y1
7 6 7,24 6,13 6,08 8 5,25 3
2 4 6 8 10 12 14 16
9
12 12
8
7
10 10
X3
Y3
Y2
8 8
5
4
6 6
2
2 4 6 8 10 12 14 16 4 4
2 4 6 8 10 12 14 16 6 8 10 12 14 16 18 20
X1
X1 X2
-400
-700 Pred
icte
3600 4600 5600 d 6600
7600
Estudio de la adecuación del modelo
Problemas fundamentales:
1. IOLACIÓN DE LAS HIPÓTESIS
1.1. NO LINEALIDAD
1.2. HETEROCEDASTICIDAD (Varianza no
constante) 1.3. NO NORMALIDAD
1.4. CORRELACIÓN DE LAS PERTURBACIONES
Los problemas anteriores afectan en mayor o menor medida a la validez de las conclusiones del
análisis de regresión: Conocimiento del modelo, interpretación de los coeficientes, intervalos de
confianza y tests, predicción, …
Herramientas fundamentales:
1.ANÁLISIS DE RESIDUOS (Para problemas 1 y 2)
2.DIAGNÓSTICOS DE INFLUENCIA (Para problema 2)
1- Análisis de residuos
Se utiliza sobre todo para chequear la validez de las hipótesis probabilísticas hechas sobre el modelo:
yi 0 1 xi1 i , i 1,..., n.
1. E(i ) 0 E( yi ) 1 (Linealidad )
0 xi1
2. Var( ) 2 Var( ) (Homogeneidad de la var ianza)
y
2
i i
Las hipótesis se hacen sobre las perturbaciones aleatorias 1, …, n. N(0,) independientes
Las perturbaciones aleatorias no son observables, son desconocidas:
x ) i 1,...,
i ( 0 i n.
delas hipótesis. Los
1 1
No podemos usarlas para chequear la validez
yi
Residuos
4
6
0
4
-4
2
residuos ei
-8
0 -0
1 5
21
0
- 15
12
60
25
P
r
e
d
i
c
c
i
o
n
e
Predic
s
ciones
o
Variab
V
regres
a
r
i
a
b
l
Tema 14. El modelo de regresión lineal simple 288
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA
E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Residuos estudentizados
ei ei
o 0 o 0
ri ri
HETEROCEDASTICIDAD
ei ei
o 0 o 0
ri ri
Predicciones yi , X’s, tiempo, caso. Predicciones yi , X’s, tiempo, caso.
1
SOLUCIONES: Transformaciones en la Y para estabilizar la varianza: y , ln y,
,...
y
A veces aparecen los dos problemas simultáneamente:
ei
o0
ri
FALTA DE NORMALIDAD
Se detecta a través del plot de normalidad de residuos ri. También existen test de ajuste específicos.
Se puede corregir con transformaciones en la respuesta.
Suele ir asociada a los otros problemas: no linealidad y heterocedasticidad.
A veces, una transformación resuelve todos los problemas a la vez.
Otras veces, arreglar un problema supone crear otro peor.
ERRORES CORRELACIONADOS
La violación de la hipótesis de independencia de las perturbaciones aparece principalmente en
problemas donde las observaciones están secuenciadas en el tiempo (series temporales).
El plot de residuos frente al tiempo es una herramienta importante.
El reconocimiento de los patrones más importantes de desviaciones respecto del plot nulo es más
complicado que en los otros casos.
La solución pasa por la construcción de otro tipo de modelos que no se estudian en este curso.
Ejemplo: Bacterias expuestas a rayos x
N. BAC.TIEMPO
En la tabla se muestra el número de bacterias supervivientes
(N.BAC.) en unidades de 100 después de su exposición a 200 kV. 355 1
de radiación constante de rayos X durante periodos de tiempo de 1 a 211 2
15 intervalos de 6 minutos. 197 3
166 4
Se trata de probar una teoría según la cual 142 5
10 6
N.BAC.=N0*e*TIEMPO 6
10 7
Los parámetros admiten una interpretación física clara: 4
N0= Número inicial de bacterias 60 8
= Tasa de destrucción 56 9
38 10
Tomando logaritmos en la ecuación el modelo es lineal: 36 11
ln(N.BAC.)= lnN0+*TIEMPO+ 32 12
21 13
19 14
MODELO: N.BACTERIAS = 0 + 1*TIEMPO +
Dependent variable: N.BACTERIAS. Independent variable: TIEMPO
Standard T
Parameter Estimate Error Statistic P-Value
Analysis of Variance
Total 128830,0 14
(Corr.)
Correlation Coefficient = -0,907422 R-squared = 82,3415 percent
tiemp 80
300
o de 6
min
residual 40
200 0
-40
100
-80
0 -120
0 3 6 9 12 15
o de 6 min
0
3
6
9
1
2
15
P
e
r
i
o
d
o
s
d
e
t
i
e
m
p
MODELO: Ln (N.BACTERIAS) = 0 + 1*TIEMPO +
Dependen variable: Ln N.BACTERIAS Independent TIEMPO
t variable:
Standard T
Paramete Estimate Error Statistic P-Value
r
Intercep 5,97316 0,0597781 99,9222 0,0000
t
Slope -0,218425 0,00657471 -33,222 0,0000
Analysis of Variance
Total 13,516 14
(Corr.)
5,7 2,7 2
Ln N.BACTERIAS
Studentized residual
0 1
4,7 6
12 0
3,7 TIEM -1
PO
-2
-3 99
0 95
percentage
3 80
50
6 20
5
9
1
1 0,1
2 -2,1 -1,1 -0,1 0,9 1,9
2,9
1 SRESIDUALS
5
T
I
E
M
P
O
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA
E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Ejemplo industrial X Y
294 30
247 32
En un estudio de 27 establecimientos industriales de distintos 267 37
tamaños, se anotaron el número de supervisores (Y) y el número de 358 44
trabajadores supervisados (X) para estudiar la relación entre estas 423 47
variables. 311 49
450 56
El análisis de residuos del modelo de regresión lineal 534 62
438 68
Y=0+1X+ 697 78
tiene problemas con la homogeneidad de la varianza, apareciendo un 688 80
crecimiento de ésta a medida que crece la X. 630 84
709 88
En situaciones en las que aproximadamente ocurre que 627 97
615 100
Var Y X x k 2 x 2 , 999 109
una forma de eliminar la heterocedasticidad es considerar el modelo 102 114
0 1 2
Y 1 X 101 117
X X X X 1 0
X 5
Y 700 106
si 2 850 128
mp k x k2
Var X le x 2 980 130 costante.
102 160
x2 5
102 97
1
120 180
Tema 14. El modelo de regresión lineal
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA
E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
294
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA
E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Analysis of
Variance
Source Su o Squares Df Mean Square F-Ratio P-Value
m f
Model 40862.6 1 40862.6 86.54 .0000
Residual 11804.1 25 472.163
160 residual 20
120
80 -20
40 -40
-60
300 600 900 1200 1500 1800
Tema 14. El modelo de regresión lineal simple 295
ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA
E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
300 600
900
1200
1500
1800
SUPERVI
SADOS
En este modelo interesa el test sobre el término independiente 1, pendiente del modelo original.
El ajuste obtenido es: Y/X = 3.8033*(1/X) + 0.12099
y deshaciendo la transformación: Y = 3.8033 + 0.12099*X
Calculando los residuos respecto a este último modelo obtenemos:
Coeficiente de determinación: R2=75.87% Error típico estimado: S=22.577
Estos resultados son algo peores que antes, pero hemos resuelto el problema de heterocedasticidad.
45 1/SUPERVISADOS (X .001)
(X .001)
30
15
residual
-15
-30
-45
1 2 3 4 5
Normal
Probability
Plot for
SRESIDUALS
9
9
.
9
9
9
9
percentage
5
8
0
5
0
2
0
5
1
.
1
-2.1 -1.1 -.1
.9 1.9
SRESIDUALS
Outliers
Son casos que parecen no seguir el modelo determinado mayoritariamente por los datos.
CAUSAS:
El modelo es diferente para ese valor de las X’s:
Cambio en la media 0 1xi1 ...k i
Eyi xik
Var( yi ) i 2
2
Cambio en la varianza:
Esto ocurre con frecuencia con observaciones hechas en la frontera del rango de valores de las
variables regresoras. En este caso, suelen ser también puntos de influencia(que trataremos después).
Errores de medición
Errores de transcripción, ...
DETECCIÓN:
1. Plot XY
2. Plots de residuos: Residuo grande posible Outlier.
TRATAMIENTO:
Eliminar el caso si condiciona de manera importante el análisis.
Estudiar las causas de la aparición de dicha observación.
Ejemplo: Forbes data
En la década de 1840 y 1850, el físico escocés James Forbes midió el punto de ebullición del agua (en
grados Fahrenheit) y la presión barométrica (en pulgadas de mercurio) en varias localidades.
El objetivo era predecir l presión barométrica y, en definitiva, altitu a part d punt d
ebullición del agua. a la d ir el o e
Temperatura Farenheit Presion
Hg
194,5 20,79
194,3 20,79
197,9 22,4
198,4 22,67
199,4 23,15
199,9 23,35
200,9 23,89
201,1 23,99
201,4 24,02
201,3 24,01
203,6 25,14
204,6 26,57
209,5 28,49
208,6 27,76
210,7 29,04
211,9 29,88
212,2 30,06
MODELO: PRESIÓN =0 + 1*EBULLICIÓN +
Least Standar T
Squares d
Parameter Estimate Error Statistic P-
Value
Intercept -81,0637 2,05182 -39,5082 0,0000
Slope 0,522892 0,010106 51,7408 0,0000
Analysis of Variance
Source Sum of D Mean Square F-Ratio P-Value
Squares f
Model 145,125 1 145,125 2677,11 0,0000
Residual 0,813143 1 0,0542095
5
Total (Corr.) 145,938 1
6
Correlation Coefficient = 0,99721 R-squared = 99,4428% Standard Error of Est. = 0,232829
32 5
30 Studentized residual 3
28
Presión
1
26
-1
24
22 -3
20 -5
190 194 198 202 206 210 214 20 22 24 26 28 30
Ebullición
predicted Presión
MODELO: 100*LOG10(PRESIÓN) =0 + 1*EBULLICIÓN +
Least Squares Standard T
Parameter Estimate Error Statistic P-Value
Intercept -42,1642 3,34136 -12,6189 0,0000
Slope 0,895618 0,016457 54,4201 0,0000
5
Analysis of Variance
Source Sum of D Mean Square F-Ratio P-Value
Squares f
Model 425,757 1 425,757 2961,55 0,0000
Residual 2,15643 1 0,143762
5
Total (Corr.) 427,914 1
6
Correlation Coefficient = 0,997477 R-squared = 99,4961% Standard Error of Est. = .379159
148 15
t=12,4 r =
Studentized residual
145 10 12,
4
100*LOG10(Presión)
142 5
139 0
136 -5
133 -10
130
-15
190 194 198 202 206 210 214
130 133 136 139 142 145 148
Ebullición
predicted 100*LOG10(Presión)
MODELO: 100*LOG10(PRESIÓN) =0 + 1*EBULLICIÓN + (SIN OUTLIER)
Least Squares Standard T
Parameter Estimate Error Statistic P-Value
Intercept -41,3347 1,00331 -41,1982 0,0000
Slope 0,89111 0,004944 180,237 0,0000
1
Analysis of Variance
Source Sum of D Mean Square F-Ratio P-Value
Squares f
Model 419,193 1 419,193 32485,39 0,0000
Residual 0,180657 1 0,012904
4
Total (Corr.) 419,373 1
5
Correlation Coefficient = 0,999785 R-squared = 99,9569% Standard Error of Est. = .113596
148 2,5
Studentized residual
145
1,5
100*LOG10(Presión)
142
130
133
0,
5
-
0,
5
-
1,
5
-
2,
5
130 133 136 139 142 145 148
predicted 100*LOG10(Presión)
2- Puntos de influencia
Son observaciones cuya presencia condiciona excesivamente los resultados del análisis de regresión.
Ajuste con un punto muy influyente Ajuste sin el punto muy influyente
240 240
200 200
160 160
120 120
Y
Y
80 80
40 40
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
X X
A: Puntos Normales
B: Outlier
C
C: Punto de influencia bueno
D: Punto de influencia malo
B
TRATAMIENTO:
Eliminar los casos que condicionan
D de manera importante el análisis.
Estudiar las causas de la aparición de
A
dichas observaciones.
Ejemplo: Índices de audiencia en TV
Ca X Y PRED e ri hii DFFIT
so i S
1 2, 3,8 3,37 0,430 0,32 0,11 0,112
Se está estudiando la dependencia del índice 5 0 5 0
de audiencia de cierto programa de noticias 2 2,
7
4,1 3,50
3
0,597 0,44
8
0,09
8
0,146
(Y) del índice de audiencia del programa 3 2, 5,8 3,63 2,164 1,61 0,08 0,514
9 6 6 7
precedente (X). La tabla muestra 30 4 3, 4,8 3,76 1,031 0,766 0,07 0,221
observaciones realizadas. 5
1
3, 5,7
9
3,90 1,798 1,32
8
0,06 0,367
3 2 9 9
Los resultados del análisis de regresión 6 3, 4,4 4,03 0,365 0,26 0,06 0,067
lineal simple muestran que la regresión es 7
5
3, 4,8
5
4,16 0,632
9
0,46
1
0,05 0,109
significativa con casi un 40% de la 7 8 4 4
8 3, 3,6 4,30 -0,701 - 0,04 -0,114
variabilidad de la respuesta explicada por la 9 1 0,51 8
X. 9 4, 5,5 4,43 1,065
3
0,77 0,04 0,163
1 5 7 3
El análisis de los residuos muestra que los 10 4, 4,1 4,56 -0,418 - 0,03 -0,060
resultados están fuertemente determinados 3 5 8 0,30
4
9
por cuatro observaciones situadas en los 11 4, 5,8 4,70 1,099 0,79 0,03 0,153
5 1 8 6
extremos del rango de valores de X 12 4, 3,8 4,83 -1,034 - 0,03 -0,140
(programas precedentes con mucha o con 7 4 0,75 4
0
poca audiencia). 13 4, 4,7 4,96 -0,217 - 0,03 -0,029
9 5 7 0,15 3
Prescindiendo de estos casos, la regresión 7
deja de ser significativa (=0). 14 5,
1
3,9 5,10
0
-1,200 -
0,87
0,03
3
-0,160
MODELO: INDICE NOTIC =0 + 1* INDICE P.A. +
Parameter Estimate St.Error T Statistic P-Value
Analysi of Variance
s
Source of Squares Df Mean F-Ratio P-Value
Square
Sum
Model 36,1157 1 18,38 0,0002
36,1157
Residual 55,026 28
1,96521
Total (Corr.) 91,1417 29
Corr. Coef. = 0,629491 R-squared = 39,6259% St.Err.Est. = 1,40186
10 3 La pendiente de la
INDICE PROG. NOTICIAS
4 0
-1
2
-2
0
-3 recta de regresión está
3,3 4,3 5,3 6,3 7,3
condicionada por 4
predicted INDICE PROG. NOTICIAS
observaciones extre-
mas.
El plot de reisduos no
es nulo; hay una
banda con pendiente
negativa y 4 puntos en
la diagonal contraria
haciendo contrapeso.
MODELO: INDICE NOTIC =0 + 1* INDICE P.A. + (Casos 1 a 26)
Parameter Estimate St Error T Statistic P-Value
Analysi of Variance
s
Source of Squares Df Mean Square F-Ratio P-Value
Sum
Model 3,94421 1 3,94421 4,61 0,0421
Residual 20,5373 24 0,855722
7,5
2,4
INDICE PROG. NOTICIAS
6,5 1,4
residual
5,5 0,4
4,5 -0,6
4,3 4,6
4,9
5,2
5,5
5,8
predicted INDICE
PROG.
NOTICIAS
COMPARACIÓN DE LOS RESULTADOS DE LOS DOS ANÁLISIS.
0.665 0.260
R 0.396 0.161
2
s 1.402 0.925
n 30 26
Los 4 casos 27 a 30 ejercen una gran influencia en el ajuste, pero se enmascaran unos a otros al
constituir sendos grupos de dos y no aparecen con diagnósticos de influencia demasiado
espectaculares. Si partimos del modelo con 26 las observaciones típicas e incorporásemos uno
cualquiera de estos 4 casos sí que detectaríamos bien su influencia.