Documento de Regresion Simple

ESTADÍSTICA
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA

E INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
TEMA 14.- EL MODELO DE REGRESIÓN

LINEAL SIMPLE
- Asociación entre variables numéricas.
Covarianza y correlación.
- Modelos de regresión.
- Regresión simple
- Estimación de los parámetros del modelo.
- Significación del modelo. Tabla ANOVA.
- Adecuación del modelo.
Tema 14. El modelo de regresión lineal simple 260

ESTADÍSTICA
Asociación entre variables numéricas

 En la mayoría de los problemas de interés interviene más de una variable.
 Los estudios univariantes para cada variable son insuficientes.
 El interés principal es el estudio de las relaciones entre las variables presentes en el problema.
Suelen buscarse relaciones lineales entre las variables:
 Es el tipo de relación más simple.
 Muchas relaciones no lineales pueden linealizarse a través de transformaciones.
n n
COVARIANZA: SXY 1
n  (x i X )( yi  Y )  1
n x y i i
i1 i1 XY .
Justificación como medida de asociación:
El producto (xi  X )( yi  Y ) es >0 en los cuadrantes 1 y 3; <0 en el 2 y 4. La covarianza es el promedio
de estos productos. Su signo indica la dirección que prevalece.
 +  + 
+
(X,Y) (X,Y)
(X,Y)
+ S XY  0 + S XY  0
 
+ S XY  0
ESTADÍSTICA

Asociación creciente: SXY>0. Ausencia de asociación: SXY0. Asociación decreciente: SXY<0.

Defectos:
 Tiene unidades: La covarianza se mide en unidades u XuY. Sin embargo, el “grado” de asociación
entre dos variables no debería depender de las unidades en que las midamos (cambios de escala
lineales). Los cambios de localización no afectan a la covarianza.
X   aX 
(a  0, c 
Yb   cY  d  SX Y  
0)
 Sólo indica el sentido de la asociación a través del signo.
acSXY
COEFICIENTE DE CORRELACIÓN MUESTRAL:
 x  
n
i X Y
1 n  xi i  X 
 y  Y
i
rX ,Y  XYSi


y  
1
r  S  S 

XY
S XY
S n
2
n 2 n
i1   Y 
 yi  Y X
 x X i


i1
es decir, la covarianza entre las variables tipificadas.  i1
Propiedades:
 Adimensionalidad: No tiene unidades.
 Invariancia frente a cambios de localización y escala (transformaciones lineales):
X   aX  b, Y   cY  d  rX Y   rXY (a  0, c  0)
Los cambios de unidades (cambios de escala) no deben influir en la medida de asociación lineal ya
que la asociación es la misma estén los datos medidos en metros o en centímetros (por ejemplo).
 Acotación entre -1 y 1.
rXY
1

Si la medida no estuviera acotada no sabríamos qué valores serían altos y qué valores serían bajos.
Interpretación:
-La medida del grado de asociación lineal la da el valor absoluto rXY.
- rXY próximo a 1 significa asociación lineal importante.
- rXY próximo a 0 significa asociación lineal débil.
-El sentido de asociación lineal (creciente o decreciente) lo da el signo, que es el mismo que el de la
covarianza.
 rXY=0  Ausencia de relación lineal. La ausencia de relación lineal no implica la inexistencia de

relación entre las variables, que puede ser diferente a la lineal.
 rXY=1  Asociación lineal exacta. El valor absoluto del coeficiente de correlación es 1 si y sólo
si los puntos (xi,yi), i=1,...,n están alineados sobre una recta, cuya ecuación es ésta:
y  Y  rS
Y
x  X .
 X ,Y  
X
SY
(recta que pasa por con pendiente r XY ; tiene el mismo signo que rXY y que SXY).
SX
 El coeficiente de correlación tiene que ir siempre acompañado de un plot XY (nube de puntos)
para su correcta interpretación.
- Puede haber un coeficiente de correlación alto y no existir en absoluto asociación lineal
- Puede haber un coeficiente de correlación bajo por culpa de un sólo punto que rompe la
tendencia.
Para todos estos conjuntos de datos el coeficiente de correlación es rXY=0.7.

Modelos de regresión
ANÁLISIS DE REGRESIÓN: Técnica estadística para modelar e investigar la relación de una
variable (Y) con otra u otras variables (X1, X2, …, Xk).
Y  X1, X2, …, Xk ¿ Cómo afectan a Y los cambios en las Xi ?
 Y: Variable Respuesta o variable dependiente.
Es una variable aleatoria. Es la variable de interés en el problema.
 X1, X2, …, Xk: Regresores o variables independientes.
Aportan información sobre la variabilidad de Y. El experimentador controla sus valores y los
cambia de diferentes maneras para ver el efecto que producen en Y.
INTERÉS DEL ANÁLISIS DE REGRESIÓN:

1.Conocimiento del modelo.
Averiguar el tipo de relación (lineal, polinómica, …). Medir la fuerza de la relación.
Comprender el papel y la importancia de cada variable explicativa.
2.Predicción de observaciones futuras.
Pronosticar, con unos márgenes de confianza, el valor que se obtendrá para Y con ciertos valores
de las X’s.
3.Optimización.
Averiguar los valores de las X’s que proporcionan el “mejor valor” para la Y.
Ejemplos de problemas de regresión
EJEMPLO 1. MODELO PARA EXPLICAR EL RENDIMIENTO DE UN PROCESO QUÍMICO

Y: Rendimiento del proceso
X’s: Temperatura, Presión, Humedad relativa, Tiempo de operación, Operario que controla el
proceso, …
EJEMPLO 2. MODELO PARA EXPLICAR LAS RETRIBUCIONES DE LOS EMPLEADOS DE

UNA EMPRESA
Y: Retribuciones
X’s: Edad, Titulación, Experiencia, Puesto, Grado de responsabilidad, Jornada laboral, …
EJEMPLO 3. MODELO PARA EXPLICAR EL PRECIO DE ALQUILER DE VIVIENDAS EN

UNA CIUDAD.
Y: Precio de alquiler
X’s: Características físicas (Superficie, Altura, Número de habitaciones, Orientación, … ),
Antigüedad del edificio, Situación geográfica, …
EJEMPLO 4. MODELO PARA EXPLICAR EL RENDIMIENTO ACADÉMICO DE LOS

ESTUDIANTES.
Y: Nota media del expediente académico
X’s: Estudios que realiza, Nota de selectividad, Indice de asistencia a clase, Tiempo medio diario
dedicado al estudio, …
Naturaleza de los modelos de regresión
La variabilidad de la variable respuesta Y depende de muchas causas o factores (quizás infinitas):
X1, X2, …, Xk, Xk+1, Xk+2, …
Pocas causas importantes Muchas causas no observables,
observables y controlables desconocidas o incontrolables
Y = f(X1, X2, …, Xk)+g(Xk+1, Xk+2, … )
Y = f(X1, X2, …, Xk)+    perturbación aleatoria

MODELOS DE REGRESIÓN LINEAL:
La relación entre la respuesta y los regresores es lineal.
 Regresión lineal simple: Y = 0+1X + 
 Regresión lineal múltiple: Y = 0+1 X1+ 2X2+ … + kXk + 
PRIMER OBJETIVO: Estimar los parámetros ’s de la ecuación.

JUSTIFICACIÓN DE LOS MODELOS LINEALES:
 Simplicidad y facilidad de manejo.
 Modelos linealizables mediante transformaciones.
 Cualquier función “regular” se puede aproximar localmente por funciones lineales.
EJEMPLO: Proceso químico de destilación.
Nivel de Pureza
Se quiere estudiar la relación entre la PUREZA DEL OXIGENO (Y) Cas Hidrocarbur de
producido en un proceso químico de destilación y el NIVEL DE o os X (%) Oxígen
HIDROCARBUROS (X) presentes en el condensador principal de la o Y
unidad de destilación. (%)
Se realizan n=20 observaciones y se anotan los valores de las 1 0,99 90,01
variables (X,Y)=(xi,yi), i=1, ..., 20. 2 1,02 89,05
3 1,15 91,43
4 1,29 93,74
PUREZA DEL OXIGENO (%)
5 1,46 96,73
6 1,36 94,45
102
7 0,87 87,59
99 8 1,23 91,77
9 1,55 99,42
96 10 1,40 93,65
93 11 1,19 93,54
12 1,15 92,52
90 13 0,98 90,56
14 1,01 89,54
87
0,87 1,07 1,27 1,47 1,67 15 1,11 89,85
16 1,20 90,39
NIVEL DE HIDROCARBUROS (%) 17 1,26 93,25
18 1,32 93,41
19 1,43 94,98
El modelo de regresión lineal RESPUESTA Recta verdadera de Regresión
simple Y 
E Y X  x  0  1x
Y = 0+ 1X +  0+1x2
0término independiente

1 error aleatorio
pendiente 0+1x1
HIPÓTESIS:
1.Linealidad: x1 x2
VARIABLE INDEPENDIENTE X
 
E( )  0  E Y X  x  0 
2.Homogeneidad de la varianza (Homocedasticidad):
 x, x
Var ( )    Var Y  
1
2
, x
2 x
3.Normalidad: X
x, ), x
  N (0, )  Y X  x  N (0  1
4.Independencia: Los errores aleatorios de distintas observaciones son v.a. independientes, no tienen
memoria al cambiar de unidad experimental.
Se toman n observaciones y bajo diferentes valores x, de forma que cada una de ellas sigue el modelo
yi  0  1 xi  i i  1...n
Reunimos las n ecuaciones en forma de vectores xy matrices:

1 
 y1   1     1 
    0   

   
   
1     
  
y 1 x 
 n  n  n
y = X β +ε
y vector de observaciones observables
contiene las n observaciones de la variable dependiente
X matriz de diseño controlables por experimentador
contiene los valores del regresor en cada una de los experimentos
 vector de parámetros desconocido a estimar
contiene las constantes desconocidas (a estimar) que determinan la relación entre X e Y.
 vector de perturbaciones no observables  a estimar
contiene las perturbaciones correspondientes a las n situaciones experimentales
sus componentes son independientes (0,2) (y normales si el modelo es normal)
Estimación del modelo. Método de mínimos cuadrados
Buscamos la recta que minimice globalmente los errores cuadráticos de predicción.
n n
0 , i1
i
0 ,
(yi 
i1
(0  1xi ))βm-in y-
1 1
SOLUCIÓN: Xβ Matricialmente:
 
n
(y     x ) 2  2
n
(y     x )0 1 Sy
x
 (XtX)β=Xt y
  x
 i 1 i
βˆ =(X t X)-1X t
0 1 i i 1 i 0 1 i
Sx

0  (y     x ) 2  2(y     x ) x  0
n n
0 Sx

 i 0 1 i i 0 1 i i  y y
 1 i 1 i 1
 Sx
S  (x  x)( y  y),
S  (x  x)2 , S  (  yy)2.xx
n n y n
Notación: i i xx i yy i
i1 i1 i1
xy
PRODUCTOS DEL AJUSTE:

1. Modelo estimado yˆ  ˆ  ˆ x
:

0 ˆ 1 ˆ x , i 
0 1i
2. Valores ajustados :
yi  nˆ0  ˆ1 i x ), i 
yî 1,...,
3. Re siduos ( 1,..., n
 yi  yî 
: ei
ESTIMACIÓN DE 2
SSE: Suma de cuadrados de los residuos. MSE: Cuadrados medios de los residuos.
n n
SSE
SSE   e   (y  y ) 2 ;
2

.
i i i
i 1 i 1 n
2
Productos del ajuste
1. Modelo estimado : yˆ  ˆ  ˆ x
0 1
ˆ0 : Estimación del termino independiente (intercept) Recta estimada de

Regresión a partir
de las observaciones
1ˆ : Estimación de la pendiente (slope)
y  0 
1 x
2. Valores ajustados   ˆ x , i  1,..., n
:
y ˆ yi (xi yi ) valor
î 0 1 i ei ajustado
yî : Predicción de la respuesta a traves yi eii(xi residuo
,
del modelo estimado. Se usa el valor medio y)
observa
estimado bajo la condición experimental xi ción
x
3. Residuos
: ei  yi   yi   ˆ x ), i  1,..., n
i
yˆ i ( ˆ 0 1 i
ei : Estimación de la perturbación aleatoria ocurrida
en el caso i.
4. Estimación de la varianza del modelo : ˆ  MSE  SSE / n  2
2
MSE : Promedio corregido de los errores cuadráticos cometidos.
Propiedades de los estimadores
1. ESTIMADORES INSESGADOS
(No se necesita la hipótesis de normalidad)
   
E 1 ˆ 1 E ˆ0 

E ˆ 2   2 
 , 0 ,
2. VARIANZAS DE LOS ESTIMADORES
    
Var ˆ1   , Var ˆ 0  2   x2 , Cov ˆ 0 , ˆ1  2 x 
S 1 n S xx  Sxx
2 xx

3. DISTRIBUCIONES DE LOS ESTIMADORES

(Bajo hipótesis de normalidad para los errores)
 
ˆ  ˆ 
1  N  1 ,  tn2
  11 ; su cuadrado F1,n2
 2   MSE
̂0  N  0 , S 21 x2  Sxx
  

xx

  Sxx  ˆ0 0
 ; idem
(n  2)ˆ 2 SSE n  
 
2 x  tn2
n2 MSE  
2 2 1 2
SSE independiente de ˆ y ˆ  Sxx 
0 1
n
0 
t
2,
n2
Inferencias sobre los parámetros
 t2
 
1
 t
MSE1 n  S  0 
INTERVALOS DE CONFIANZA
,n2

xx2  t
MSE  1  1
Sx
xx 
0
CONTRASTES DE HIPÓTESIS

2
,n2


H01:   1
*
H00:  *
2,
n2
0
 
H 11:   1
*

H10 :  *
ES x
MS
S 
MSE1 n 
0

x
    

   
    ˆ 
C  ˆ  2,n2  C   00 * t 
x2
11
x 2
xx 
2,n2
t  *MSE
   
 MSE 
 Sxx    n 1 
Sxx 
   
TABLA DE COEFICIENTES ESTIMADOS
Parámetro Estimador Error Estadístico t p-valor
Estándar
Intercept 
 Var(0 t0 0
Var(0
t
0
Slope ) )
 Va
1 1
  Va
1 r r
( (
1 1
) )
Prueba de significación de la regresión
H0 :1 
0
 ¿La variable X aporta información relevante para explicar la variabilidad de Y?
 H1 :  1 
0
PARTICIÓN DE LA VARIABILIDAD
Recta estimada de Regresión de Y sobre X:
n
Solución de min (y  (   x )) 2
0 , 1 i 0 1i
i 1
y     x n n n
0 1
S(
y 
y  i y)( y i  y)
2 2
( y i i )2
(xi,yi) y i i
y i
yi   
1 1 1
y i y ei ( xi yi )
y  VARIABILIDAD PARTE EXPLICADA PARTE
 i TOTAL POR LA REGRESIÓN NO EXPLICADA POR
i DE LA RESPUESTA Y LA REGRESIÓN
y i y
y
= +
y  y
Ajuste de la variable Y sin tener en
SST = SSR + SSE
cuenta la X:
 (y   )
n
Solución de min i 0
2
0
i 1
xi
El tamaño de SSR y SSE relativo al total SST sirve para valorar la significación de la regresión:
 SSE = 0 : Ajuste perfecto.
 SSR = 0 : La X no aporta nada en la explicación de la Y.
 0 < SSR, SSE < SST : Situaciones habituales. 
SSR  2   F MSR
2
2
 F
Si la hipótesis nula se cumple (1=0), entonces SS
E  2
  0
n  MS
E
1
R
S
S
1 2 1,n2
  SSE
n2 
TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)

Fuente de Variación Suma de cuadradosGrados de libertadCuadrados Medios F0p-valor
(Source) (Sum of Squares) (Df) (Mean Square)
Regresión SSR 1 MSR MSR
MSE
Residual SSE n-2 MSE
Total SST n-1
COEFICIENTE DE DETERMINACIÓN: R2
SSR SSE Proporción de la   0 : Ausenciade relacionlineal.

SSR variabilidad explicada
1  SST  , R2   0 R2
SST SST sobre el total R2  1    1: Ajusteexacto.
 2
R
EJEMPLO: Proceso químico de destilación
TABLA DE COEFICIENTES ESTIMADOS
Regression Analysis - Linear model: Y = a + b*X
Dependent variable: PUREZA DEL OXIGENO

Independent variable: NIVEL DE HIDROCARB
PUREZA DEL OXIGENO
Standard
102 Parameter Estimate Error Statistic P-Val
100
98 Recta estimada de regresión: PUREZA=74.2833+14.9475*HIDROC. Intercept 74,2833 1,59347 46,6172 0,00
Slope 14,9475 1,31676 11,3517 0,00
96
94
92 TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)
90
Analysis of Variance
88
86 Source Sum of Squares Df Mean Square F-Rati
0,8 1 1,2 1,4 1,6 Model 152,127 1 152,127 128,8
NIVEL DE HIDROCARBUROS Residual 21,2498 18 1,1805
Total (Corr.) 173,377 19
Correlation = 0,936715
R-squared = 87,7436 percent
Coefficient
Standard Error of Est. = 1,08653
Intervalo de confianza
 para la respuesta media de Y para un valor determinado de X
Parámetro: E Y 
X     x
 x 
Y/x0  0
0 10
Estimador:  0   1 x0
Y/x 0 
2
(x0 
Distribución: Y /
 N   Y /
 1  x)2 
x,
0 0
x
ˆY / x  n  Sx ˆY /  Y /
 Y/  N (0,1) indep.de SSE( ) 
2
t
x x x x
0 0 0
0 n2
 (x   2
(x 0
 
21  0 n M x )2
 x )Sxx 1
 
SE 
n S
 1 (x  2
 
1(x  2 
Y/x t,n2 MSE 0     t MSE 0 xx
 x)Sx Sxx) 
Y/xY/x
 0  0  2 
0 ,n2
2

n x
n x
Representando gráficamente el Intervalo de Confianza en función de x0 se forma una banda en torno a

la recta de regresión estimada.
Anchura mínima en x0  x .
La anchura crece desde la media hasta los extremos del rango de valores de X.
Predicción de nuevas observaciones
y0 : Nueva observación a realizar en X=x0.
y 0   1 x0 : Predicción con el modelo estimado.
0
y0 independiente de y1, ..., yn utilizadas para el ajuste.
y0  N (  Y / ,  ) 
0

x
 2  y  yˆ
N   
  0  0
, 1 2(x
y 0
t
 x )Sx  
n2
ˆ0 
Y / x0
  1(x 
n  MSE  0
y0 e yˆ0 independientes de MSE  
x 2 x ) 2
Sx 
n 
1
x
 1 0(x  x)2  1 

(x0
 x)2
y  MSE1   y0  y0  MSE1
,  S ,  S
 t t  n    n 
2
n2 x n2 x
0 2 x x
Representando gráficamente el Intervalo de Predicción en función de x0 se forma una banda en torno
a la recta de regresión estimada.
La banda de predicción contiene a la banda de confianza para la respuesta media.
Anchura mínima en x0  x .
La anchura crece desde la media hasta los extremos del rango de valores de X: La predicción fuera
del rango de valores usados en el ajuste es poco fiable, pues no sabemos cómo se comporta y fuera
del
rango x observado.
Intervalos de confianza para la respuesta media e intervalos de predicción para
nuevas observaciones
Límites inferior y
superior del intervalo
de confianza para la
respuesta media en
X=x0.
Y / x
0
Límites inferior y
superior del intervalo de
predicción para una
nueva observación y0 en
X=x0.
x0
EJEMPLO: Proceso químico de destilación
Nivel de Pureza Valores

Cas Hidrocarbur de Residuos
o os Oxígen ajustados
X(%) o
102
PUREZA DEL OXIGENO

Y(%)
1 0,99 90, 89,0813 0,928681 Límites de
100 confianza y de
01
2 1,02 89, 89,5297 -0,479744 98 predicción al
05 95%
3 1,15 91, 91,4729 -0,042916 96
43 94
4 1,29 93, 93,5656 0,174437
74 92
5 1,46 96, 96,1066 0,623365
73
90
6 1,36 94, 94,6119 -0,161887 88
45
7 0,87 87, 87,2876 0,302378 86
59 0,8 1 1,2 1,4 1,6 1,8
8 1,23 91, 92,6687 -0,898714
77 NIVEL DE HIDROCARBURO
9 1,55 99, 97,4519 1,968090
Necesidad de chequear42 la validez de las hipótesis
10 1,40 93, 95,2098 -1,559790
Ejemplo: Datos simulados
65 de Anscombe
y=3.00+0.5*x+eps
12
11
X1 Y1 Y2 Y3 X2 X3
1 10 8,04 9,14 7,46 8 6,58
2 8 6,95 8,14 6,77 8 5,76
7
10 3 13 7,58 8,74 12,74 8 7,71
6
9 4 9 8,81 8,77 7,11 8 8,84
5
8 5 11 8,33 9,26 7,81 8 8,47
4
6 14 9,96 8,1 8,84 8 7,04
Y1
7 6 7,24 6,13 6,08 8 5,25 3
2 4 6 8 10 12 14 16
8 4 4,26 3,1 5,39 19 12,5 X1
y=3.00+0.5*x+eps 9 12 10,84 9,13 8,15 8 5,56

y=3.00+0.5*x+eps y=3.00+0.5*x+eps
10
10 7 4,82 7,26 6,42
14
8 7,91 14
9
12 12
8
7
10 10
X3
Y3
Y2
8 8
5
4
6 6
2
2 4 6 8 10 12 14 16 4 4
2 4 6 8 10 12 14 16 6 8 10 12 14 16 18 20
X1
X1 X2
Los 4 conjuntos de arrojan resultados idénticos: 

  2
0  0 MSE R 0.667
1 13.75,
3.0,
.5,
EJEMPLO
El propietario de una oficina de reparto de envíos postales anuncia que todos sus envíos se embarcan
dentro de las 24 h. siguientes a su recepción. Puesto que el personal del departamento de embarque se
contrata por día, es importante poder predecir el número de envíos contenido en cada lote de correo
diario con el objeto de poder contratar el suficiente personal para el día siguiente. Como resulta más
rápido pesar los envíos que contarlos, tuvo la idea de pesar cada día durante un mes los envíos para
estudiar la forma de predecir el número de envíos en función de su peso.
a) Se puede afirmar estadísticamente que por cada Kg. que aumenta el peso de los envíos, el número
de envíos aumenta en más de 100 unidades. Dar el p-valor.
b) Supongamos que una persona puede manejar como máximo 100 envíos por día. ¿Cuántas personas
como mínimo debe de contratar para manejar 22 Kg. de correo si se quiere tener unas garantías del
99% de poder distribuir todos los envíos?
Día Peso Envíos RESIDS VAL. AJUST Día Peso Envíos RESIDS VAL. AJUST
1 20 540 499.49422 4900.50577 16 26 540 ‐ 5675.7094
0 6 0 275.70942 3
6
2 15 420 ‐54.502730 4254.50273 17 21 500 ‐ 5029.7063
0 0 29.706383 8
3 23 580 511.89240 5288.10760 18 24 540 ‐ 5417.3082
0 0 0 17.308209 1
4 17 500 487.09605 4512.90395 19 16 430 ‐ 4383.7033
0 2 0 83.703339 4
5 12 350 ‐ 3866.90090 20 34 670 ‐ 6709.3143
0 366.90090 0 9.314296 0
4
6 35 640 ‐ 6838.51490 21 28 610 165.88935 5934.1106
0 438.51490 0 6 4
5
7 29 600 ‐63.311252 6063.31125 22 1 360 ‐ 4254.5027
0 5 0 654.50273 3
0
8 21 520 170.29361 5029.70638 23 1 320 ‐ 3737.7003
0 7 1 0 537.70029 0
5
9 10 400 391.50031 3608.49969 24 1 530 657.89544 4642.1045
0 3 8 0 4 6
10 380 ‐ 3996.10151 25 2 580 ‐ 5804.9100
13 0 196.10151 7 0 4.910035 3
3
11 570 153.49118 5546.50882 26 3 590 ‐ 6192.5118
25 0 3 0 0 292.51186 6
1
12 400 ‐ 4125.30212 27 2 550 341.09300 5158.9069
14 0 125.30212 2 0 9 9
2
13 480 157.89544 4642.10456 28 2 520 299.49422 4900.5057
18 0 4 0 0 6 7
14 620 7.488139 6192.51186 29 2 500 ‐ 5417.3082
30 0 4 0 417.30820 1
9
15 660 19.886313 6580.11369 30 13 370 ‐ 3996.101
33 0 . 0 296.10151 51
3
AJUSTE DEL MODELO: ENVIOS = 0  1* PESO + 
7200
Dependent variable: ENVIOS Independent variable: PESO

6200
Parameter Estimate Stnd.Error t -value Prob. level
En vío s
Intercept 2316.49 197.402 11.7349 .00000 5200

Slope 129.201 8.7371 14.7876 .00000
4200
Analysis of Variance 3200

10 15 20 25 30 35
P eso
Source Sum of Df Mean F- Prob.
Squares Square Ratio Level
Model 24863365 1 24863365 218.7 .00000 800
Residual 3183634.9 2 113701.2
8
500
Total 28047000 2 200
Correlation Coef. = 0.9415
R-squared = 88.65 % Resid.
Stnd. Error of Est. = 337.196 -100
-400
-700 Pred
icte
3600 4600 5600 d 6600
7600
Estudio de la adecuación del modelo
Problemas fundamentales:
1. IOLACIÓN DE LAS HIPÓTESIS
1.1. NO LINEALIDAD
1.2. HETEROCEDASTICIDAD (Varianza no
constante) 1.3. NO NORMALIDAD
1.4. CORRELACIÓN DE LAS PERTURBACIONES
2. OUTLIERS Y PUNTOS DE INFLUENCIA

2.1. OUTLIERS: Puntos que se desvían de la tendencia mayoritaria.
2.2. PUNTOS DE INFLUENCIA: Puntos que afectan excesivamente a los resultados de la
regresión.
Los problemas anteriores afectan en mayor o menor medida a la validez de las conclusiones del
análisis de regresión: Conocimiento del modelo, interpretación de los coeficientes, intervalos de
confianza y tests, predicción, …
Herramientas fundamentales:
1.ANÁLISIS DE RESIDUOS (Para problemas 1 y 2)
2.DIAGNÓSTICOS DE INFLUENCIA (Para problema 2)
1- Análisis de residuos
Se utiliza sobre todo para chequear la validez de las hipótesis probabilísticas hechas sobre el modelo:
yi  0  1 xi1   i , i  1,..., n.
1. E(i )  0 E( yi )   1 (Linealidad )
 0 xi1
2. Var( )   2  Var( )   (Homogeneidad de la var ianza)
 y
2
i i
3.   N (0, ) yi  N (  0  1 xi1 , ) (Normalidad )

i

4. 1 independientes  y1 ,..., independientes
,..., n yn
Las hipótesis se hacen sobre las perturbaciones aleatorias 1, …, n. N(0,) independientes
Las perturbaciones aleatorias no son observables, son desconocidas:
x ) i  1,...,
 i   ( 0  i n.
delas hipótesis. Los
1 1
No podemos usarlas para chequear la validez
yi
residuos e1, …, en sí son observables:

 y  yˆ  y  (ˆ  ˆ x ) i  1,...,
e n.
i i i i 0 1 i1
Los residuos estiman las perturbaciones.
Su estudio informa sobre el comportamiento de las perturbaciones y, por tanto, sobre el cumplimiento
de las hipótesis.
Los estudios serán básicamente gráficos y descriptivos y con un alto grado de interpretación personal.
GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA E
INGENIERÍA EN ORGANIZACIÓN INDUSTRIAL
Propiedades de los residuos: ei , i  1,...,n errores aleat.: 

residuos 1,...,n
Propiedades distribucionales: E (ei )  0 (centrados) E (i )  0 (cent
Var(e )   2 h ) (Var. dist.) Var( )   2 (V
(1  ii
iguales)
i i
Cov(e ,e )   2h (depend.) Cov(i ,  j )  0
i j ij
(independ.)
ei  N (0, 1  hii ) i  N (0, ) (n
(normales)
H 
1
Si el número de y no hay puntos que
X X
 datos n es gran estén
( .
  i,j
X ) X
de
h 1,... n 
ejerciendo gran influencia se puede probar que los elementos
hij son todos muy pequeños. En este caso, las dependencias
entre los residuos y las diferencias en las varianzas son de
poca importancia.
Propiedades geométricas:
Los residuos contienen todo lo que haya de no lineal en el modelo. Si
el modelo lineal es correcto no debería observarse nada significativo
en los residuos y aparece lo que se conoce como PLOT NULO.
ERROR
DE
CÁLCU
LO es regresoras
PLOT
1
6
1
DUOS
2
8
Residuos
4
6
0
4
-4
2
residuos ei
-8
0 -0
1 5
21
0
- 15
12
60
25
P
r
e
d
i
c
c
i
o
n
e
Predic
s
ciones
o
Variab
V
regres
a
r
i
a
b
l
ESTADÍSTICA
Residuos estudentizados
Estandarización de los residuos:

ei  E (ei ) ei  0 ei
 , i  1,..., n
Va 
2
i
 (1 i
r(ei 2
)
i 
(1 2 i
Estudentización de los residuos (estimación de  desconocida): h
)
ri  he)
i
, i  1,... ,
MSE (1 ii n
PROPIEDADES: h)
1.Conservan la propiedad de estar centrados (media 0)
2.Las varianzas son todas iguales a 1.
3.No son normales, pero son algo parecido a una t, que se parece a la normal cuando los g. l. son
elevados.
4.Siguen siendo ligeramente dependientes.
UTILIDAD:
1.Plots nulos frente a predicciones y variables regresoras (igual que los residuos ordinarios). Las
tendencias indicarán violaciones de alguna hipótesis.
2.En la banda (-2,+2) habrá aproximadamente el 95% de los residuos. En la banda (-3,+3) más del
99%. Los puntos que se salgan pueden ser outliers.
3.Plot de normalidad.
Violaciones de las hipótesis del modelo
NO LINEALIDAD
ei ei
o 0 o 0
ri ri
Predicciones yi , X’s, tiempo, caso. yi , X’s, tiempo, caso.

SOLUCIONES: Predicciones
 Transformaciones de la Y o de la X o de ambas.
 Introducción de términos polinómicos de orden superior o de nuevos regresores.
HETEROCEDASTICIDAD
ei ei
o 0 o 0
ri ri
Predicciones yi , X’s, tiempo, caso. Predicciones yi , X’s, tiempo, caso.
1
SOLUCIONES: Transformaciones en la Y para estabilizar la varianza: y , ln y,
,...
y
A veces aparecen los dos problemas simultáneamente:
ei
o0
ri
Predicciones yi , X’s, tiempo, caso.
FALTA DE NORMALIDAD
Se detecta a través del plot de normalidad de residuos ri. También existen test de ajuste específicos.
Se puede corregir con transformaciones en la respuesta.
Suele ir asociada a los otros problemas: no linealidad y heterocedasticidad.
A veces, una transformación resuelve todos los problemas a la vez.
Otras veces, arreglar un problema supone crear otro peor.
ERRORES CORRELACIONADOS
La violación de la hipótesis de independencia de las perturbaciones aparece principalmente en
problemas donde las observaciones están secuenciadas en el tiempo (series temporales).
El plot de residuos frente al tiempo es una herramienta importante.
El reconocimiento de los patrones más importantes de desviaciones respecto del plot nulo es más
complicado que en los otros casos.
La solución pasa por la construcción de otro tipo de modelos que no se estudian en este curso.
Ejemplo: Bacterias expuestas a rayos x
N. BAC.TIEMPO
En la tabla se muestra el número de bacterias supervivientes
(N.BAC.) en unidades de 100 después de su exposición a 200 kV. 355 1
de radiación constante de rayos X durante periodos de tiempo de 1 a 211 2
15 intervalos de 6 minutos. 197 3
166 4
Se trata de probar una teoría según la cual 142 5
10 6
N.BAC.=N0*e*TIEMPO 6
10 7
Los parámetros admiten una interpretación física clara: 4
N0= Número inicial de bacterias 60 8
 = Tasa de destrucción 56 9
38 10
Tomando logaritmos en la ecuación el modelo es lineal: 36 11
ln(N.BAC.)= lnN0+*TIEMPO+ 32 12
21 13
19 14
MODELO: N.BACTERIAS = 0 + 1*TIEMPO + 
Dependent variable: N.BACTERIAS. Independent variable: TIEMPO
Standard T
Parameter Estimate Error Statistic P-Value
Intercept 259,581 22,73 11,4202 0,0000

Slope -19,4643 2,49997 -7,78582 0,0000
Source Su of Df Mean F-Ratio P-Value

m Squares Square
Model 106080,0 1 106080,0 60,62 0,0000
Residual 22749,4 13 1749,95
Total 128830,0 14
(Corr.)
Correlation Coefficient = -0,907422 R-squared = 82,3415 percent
400 Perio 120

dos de
Bacterias supervivientes
tiemp 80
300
o de 6
min
residual 40
200 0
-40
100
-80
0 -120
0 3 6 9 12 15
o de 6 min
0
3
6
9
1
2
15
P
e
r
i
o
d
o
s
d
e
t
i
e
m
p
MODELO: Ln (N.BACTERIAS) = 0 + 1*TIEMPO + 
Dependen variable: Ln N.BACTERIAS Independent TIEMPO
t variable:
Standard T
Paramete Estimate Error Statistic P-Value
r
Intercep 5,97316 0,0597781 99,9222 0,0000
t
Slope -0,218425 0,00657471 -33,222 0,0000
Source Su of Df Mean F-Ratio P-Value

m Squares Square
Model 13,3587 1 13,3587 1103,70 0,0000
Residual 0,157346 13 0,0121035
Total 13,516 14
(Corr.)
Correlation Coefficient = -0,994162 R-squared = 98,8359 percent

6,7 3 Normal Probability Plot for SRESIDUAL
99,9
5,7 2,7 2
Ln N.BACTERIAS
Studentized residual
0 1
4,7 6
12 0
3,7 TIEM -1
PO
-2
-3 99
0 95
percentage
3 80
50
6 20
5
9
1
1 0,1
2 -2,1 -1,1 -0,1 0,9 1,9
2,9
1 SRESIDUALS
5
T
I
E
M
P
O
ESTADÍSTICA
Ejemplo industrial X Y
294 30
247 32
En un estudio de 27 establecimientos industriales de distintos 267 37
tamaños, se anotaron el número de supervisores (Y) y el número de 358 44
trabajadores supervisados (X) para estudiar la relación entre estas 423 47
variables. 311 49
450 56
El análisis de residuos del modelo de regresión lineal 534 62
438 68
Y=0+1X+ 697 78
tiene problemas con la homogeneidad de la varianza, apareciendo un 688 80
crecimiento de ésta a medida que crece la X. 630 84
709 88
En situaciones en las que aproximadamente ocurre que 627 97
 
615 100
Var Y X  x  k 2 x 2 , 999 109
una forma de eliminar la heterocedasticidad es considerar el modelo 102 114
0 1 2
Y 1 X       101 117
  
X X X X 1 0
X 5
Y  700 106
 si  2 850 128
mp k x k2
Var  X le  x 2 980 130 costante.
   102 160
 x2 5
 102 97
1
120 180
Tema 14. El modelo de regresión lineal
ESTADÍSTICA
294
ESTADÍSTICA
MODELO: SUPERVISORES =0 + 1*SUPERVISADOS + 

Standard T
Paramete Estimate Error Statist P-Value
ic
Intercept 14.4481 9.56201 1.51099 .1433
Slope .105361 .0113256 9.30288 .0000
Analysis of
Variance
Source Su o Squares Df Mean Square F-Ratio P-Value
m f
Model 40862.6 1 40862.6 86.54 .0000
Residual 11804.1 25 472.163
Total (Corr.) 52666.7 26
Correlation Coefficient = .880836 R-squared = 77.5872 percent

Standard Error of Est. = 21.7293
SUPE
240 60
RVIS
200 ADOS
40
SUPERVISORES
160 residual 20
120
80 -20
40 -40
-60
300 600 900 1200 1500 1800
ESTADÍSTICA
300 600
900
1200
1500
1800
SUPERVI
SADOS

MODELO: Y/X = 0 (1/X) + 1 + ’
Standa T
Parameter Estimate rd Statist P-Value
Erro ic
r
Intercept .12099 .00899864 13.4454 .0000
Slope 3.8033 4.56975 .832277 .4131
En este modelo interesa el test sobre el término independiente 1, pendiente del modelo original.
El ajuste obtenido es: Y/X = 3.8033*(1/X) + 0.12099
y deshaciendo la transformación: Y = 3.8033 + 0.12099*X
Calculando los residuos respecto a este último modelo obtenemos:
Coeficiente de determinación: R2=75.87% Error típico estimado: S=22.577
Estos resultados son algo peores que antes, pero hemos resuelto el problema de heterocedasticidad.
45 1/SUPERVISADOS (X .001)
(X .001)
30
15
residual
-15
-30
-45
1 2 3 4 5
Normal
Probability
Plot for
SRESIDUALS
9
9
.
9
9
9
9
percentage
5
8
0
5
0
2
0
5
1
.
1
-2.1 -1.1 -.1
.9 1.9
SRESIDUALS
Outliers
Son casos que parecen no seguir el modelo determinado mayoritariamente por los datos.
CAUSAS:
 El modelo es diferente para ese valor de las X’s:
 Cambio en la media  0  1xi1 ...k  i
Eyi xik
Var( yi )    i 2
2
 Cambio en la varianza:
Esto ocurre con frecuencia con observaciones hechas en la frontera del rango de valores de las
variables regresoras. En este caso, suelen ser también puntos de influencia(que trataremos después).
 Errores de medición
 Errores de transcripción, ...
DETECCIÓN:
1. Plot XY
2. Plots de residuos: Residuo grande  posible Outlier.
TRATAMIENTO:
Eliminar el caso si condiciona de manera importante el análisis.
Estudiar las causas de la aparición de dicha observación.
Ejemplo: Forbes data
En la década de 1840 y 1850, el físico escocés James Forbes midió el punto de ebullición del agua (en
grados Fahrenheit) y la presión barométrica (en pulgadas de mercurio) en varias localidades.
El objetivo era predecir l presión barométrica y, en definitiva, altitu a part d punt d
ebullición del agua. a la d ir el o e
Temperatura Farenheit Presion
Hg
194,5 20,79
194,3 20,79
197,9 22,4
198,4 22,67
199,4 23,15
199,9 23,35
200,9 23,89
201,1 23,99
201,4 24,02
201,3 24,01
203,6 25,14
204,6 26,57
209,5 28,49
208,6 27,76
210,7 29,04
211,9 29,88
212,2 30,06
MODELO: PRESIÓN =0 + 1*EBULLICIÓN + 
Least Standar T
Squares d
Parameter Estimate Error Statistic P-
Value
Intercept -81,0637 2,05182 -39,5082 0,0000
Slope 0,522892 0,010106 51,7408 0,0000
Source Sum of D Mean Square F-Ratio P-Value
Squares f
Model 145,125 1 145,125 2677,11 0,0000
Residual 0,813143 1 0,0542095
5
Total (Corr.) 145,938 1
6
Correlation Coefficient = 0,99721 R-squared = 99,4428% Standard Error of Est. = 0,232829
32 5
30 Studentized residual 3
28
Presión
1
26
-1
24
22 -3
20 -5
190 194 198 202 206 210 214 20 22 24 26 28 30
Ebullición
predicted Presión
MODELO: 100*LOG10(PRESIÓN) =0 + 1*EBULLICIÓN + 
Least Squares Standard T
Intercept -42,1642 3,34136 -12,6189 0,0000
Slope 0,895618 0,016457 54,4201 0,0000
5
Squares f
Model 425,757 1 425,757 2961,55 0,0000
Residual 2,15643 1 0,143762
5
Total (Corr.) 427,914 1
6
Correlation Coefficient = 0,997477 R-squared = 99,4961% Standard Error of Est. = .379159
148 15
t=12,4 r =
145 10 12,
4
100*LOG10(Presión)
142 5
139 0
136 -5
133 -10
130
-15
190 194 198 202 206 210 214
130 133 136 139 142 145 148
Ebullición
predicted 100*LOG10(Presión)
MODELO: 100*LOG10(PRESIÓN) =0 + 1*EBULLICIÓN +  (SIN OUTLIER)
Least Squares Standard T
Intercept -41,3347 1,00331 -41,1982 0,0000
Slope 0,89111 0,004944 180,237 0,0000
1
Squares f
Model 419,193 1 419,193 32485,39 0,0000
Residual 0,180657 1 0,012904
4
Total (Corr.) 419,373 1
5
Correlation Coefficient = 0,999785 R-squared = 99,9569% Standard Error of Est. = .113596
148 2,5
145
1,5
100*LOG10(Presión)
142
130
139 190 194 198 202 206 210 214

Ebullición
136
133
0,
5
-
0,
5
-
1,
5
-
2,
5
130 133 136 139 142 145 148
predicted 100*LOG10(Presión)
2- Puntos de influencia
Son observaciones cuya presencia condiciona excesivamente los resultados del análisis de regresión.
Ajuste con un punto muy influyente Ajuste sin el punto muy influyente
240 240
200 200
160 160
120 120
Y
Y
80 80
40 40
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10 12
X X
Causas y diagnósticos de influencia potencial

1. Outliers en la Y.
Un punto que se aleja de la tendencia por “errores” en la Y puede ejercer influencia importante.
DIAGNÓSTICO. Residuos estudentizados (p.288): ri. REGLA:  2  Peligro
2. Outliers en la X. ri
Una observación realizada en un punto alejado en la X es potencialmente influyente: Valga lo que

valga la respuesta, el punto va a atraer hacia si la recta de regresión para tener un residuo pequeño:
Var(e )   2 (1  h ) CASO LIMITE: h  1  Var(e )  0  e  E )  0.
(e
i ii ii i i i
1 (x x)2 2(k  1)
DIAGNÓSTICO. Leverages: hii  n  i
Sxx REGLA hii   Peligro
n
:
siendo k el número de regresores en el modelo. Estos diagnósticos no nos dicen la influencia
efectiva del punto ni qué estadísticos han sido afectados.
Diagnóstico de influencia efectiva
Influencia en los valores ajustados: (DFFITS)i
Medida estandarizada del cambio que sufre y i si quitamos el caso i.
yî
( DFFITS ) i 

Y yî ,
X PUNTO INTEGRADO EN LA Y OUTLIER EN LA Y
 i
PUNTO PUNTOS OUTLIER
INTEGRAD “NORMALES” NO A PROBLEMA LEVE B
O PROBLEMA ri grande, hii pequeño
EN LAS X’s ri pequeño, hii pequeño MS
OUTLIER PUNTO DE INFLUENCIA PUNTOE i DE INFLUENCIA
EN LAS BUENO NO PROBLEMA MALO PROBLEMA GRAVE
X’s hii grande, DFFITi pequeño C hii DFFITi grande
hii grande, D
A: Puntos Normales
B: Outlier
C
C: Punto de influencia bueno
D: Punto de influencia malo
B
TRATAMIENTO:
Eliminar los casos que condicionan
D de manera importante el análisis.
Estudiar las causas de la aparición de
A
dichas observaciones.
Ejemplo: Índices de audiencia en TV
Ca X Y PRED e ri hii DFFIT
so i S
1 2, 3,8 3,37 0,430 0,32 0,11 0,112
Se está estudiando la dependencia del índice 5 0 5 0
de audiencia de cierto programa de noticias 2 2,
7
4,1 3,50
3
0,597 0,44
8
0,09
8
0,146
(Y) del índice de audiencia del programa 3 2, 5,8 3,63 2,164 1,61 0,08 0,514
9 6 6 7
precedente (X). La tabla muestra 30 4 3, 4,8 3,76 1,031 0,766 0,07 0,221
observaciones realizadas. 5
1
3, 5,7
9
3,90 1,798 1,32
8
0,06 0,367
3 2 9 9
Los resultados del análisis de regresión 6 3, 4,4 4,03 0,365 0,26 0,06 0,067
lineal simple muestran que la regresión es 7
5
3, 4,8
5
4,16 0,632
9
0,46
1
0,05 0,109
significativa con casi un 40% de la 7 8 4 4
8 3, 3,6 4,30 -0,701 - 0,04 -0,114
variabilidad de la respuesta explicada por la 9 1 0,51 8
X. 9 4, 5,5 4,43 1,065
3
0,77 0,04 0,163
1 5 7 3
El análisis de los residuos muestra que los 10 4, 4,1 4,56 -0,418 - 0,03 -0,060
resultados están fuertemente determinados 3 5 8 0,30
4
9
por cuatro observaciones situadas en los 11 4, 5,8 4,70 1,099 0,79 0,03 0,153
5 1 8 6
extremos del rango de valores de X 12 4, 3,8 4,83 -1,034 - 0,03 -0,140
(programas precedentes con mucha o con 7 4 0,75 4
0
poca audiencia). 13 4, 4,7 4,96 -0,217 - 0,03 -0,029
9 5 7 0,15 3
Prescindiendo de estos casos, la regresión 7
deja de ser significativa (=0). 14 5,
1
3,9 5,10
0
-1,200 -
0,87
0,03
3
-0,160
MODELO: INDICE NOTIC =0 + 1* INDICE P.A. + 
Parameter Estimate St.Error T Statistic P-Value
Intercept 1,70654 0,817155 2,08839 0,0460

Slope 0,665359 0,155208 4,2869 0,0002
Analysi of Variance
s
Source of Squares Df Mean F-Ratio P-Value
Square
Sum
Model 36,1157 1 18,38 0,0002
36,1157
Residual 55,026 28
1,96521
Total (Corr.) 91,1417 29
Corr. Coef. = 0,629491 R-squared = 39,6259% St.Err.Est. = 1,40186
10 3 La pendiente de la
INDICE PROG. NOTICIAS
8 2,5 3,5 4,5 5,5 6,5

2
INDICE DEL PROGRAMA
6 ANTERIOR 1
residual
4 0
-1
2
-2
0
-3 recta de regresión está
3,3 4,3 5,3 6,3 7,3
condicionada por 4
predicted INDICE PROG. NOTICIAS
observaciones extre-
mas.
El plot de reisduos no
es nulo; hay una
banda con pendiente
negativa y 4 puntos en
la diagonal contraria
haciendo contrapeso.
MODELO: INDICE NOTIC =0 + 1* INDICE P.A. +  (Casos 1 a 26)
Parameter Estimate St Error T Statistic P-Value
Intercept 3,71325 0,631352 5,88142 0,0000

Slope 0,259658 0,120945 2,14691 0,0421
Analysi of Variance
s
Source of Squares Df Mean Square F-Ratio P-Value
Sum
Model 3,94421 1 3,94421 4,61 0,0421
Residual 20,5373 24 0,855722
Total (Corr.) 24,4815 25

Corr. Coef. = 0,401384 R-squared = 16,1109% St.Err.Est. = 0,925053
7,5
2,4
INDICE PROG. NOTICIAS
6,5 1,4
residual
5,5 0,4
4,5 -0,6
3,5 2,5 6,5 7,5

4,5 INDICE DEL PROGRAMA ANTERIOR
-1,6
4,3 4,6
4,9
5,2
5,5
5,8
predicted INDICE
PROG.
NOTICIAS
COMPARACIÓN DE LOS RESULTADOS DE LOS DOS ANÁLISIS.
Todos los Casos 1 a

casos 26
1.707 3.713

0
 0.665 0.260
R 0.396 0.161
2
s 1.402 0.925
n 30 26
Los 4 casos 27 a 30 ejercen una gran influencia en el ajuste, pero se enmascaran unos a otros al
constituir sendos grupos de dos y no aparecen con diagnósticos de influencia demasiado
espectaculares. Si partimos del modelo con 26 las observaciones típicas e incorporásemos uno
cualquiera de estos 4 casos sí que detectaríamos bien su influencia.

Documento de Regresion Simple

Cargado por

Copyright:

Formatos disponibles

Documento de Regresion Simple

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Documento de Regresion Simple

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

GRADOS EN INGENIERÍA MECÁNICA, INGENIERÍA QUÍMICA

TEMA 14.- EL MODELO DE REGRESIÓN

Tema 14. El modelo de regresión lineal simple 260

Asociación entre variables numéricas

Tema 14. El modelo de regresión lineal simple 262

 rXY=0  Ausencia de relación lineal. La ausencia de relación lineal no implica la inexistencia de

Para todos estos conjuntos de datos el coeficiente de correlación es rXY=0.7.

INTERÉS DEL ANÁLISIS DE REGRESIÓN:

EJEMPLO 1. MODELO PARA EXPLICAR EL RENDIMIENTO DE UN PROCESO QUÍMICO

EJEMPLO 2. MODELO PARA EXPLICAR LAS RETRIBUCIONES DE LOS EMPLEADOS DE

EJEMPLO 3. MODELO PARA EXPLICAR EL PRECIO DE ALQUILER DE VIVIENDAS EN

EJEMPLO 4. MODELO PARA EXPLICAR EL RENDIMIENTO ACADÉMICO DE LOS

Y = f(X1, X2, …, Xk)+g(Xk+1, Xk+2, … )

Y = f(X1, X2, …, Xk)+    perturbación aleatoria

PRIMER OBJETIVO: Estimar los parámetros ’s de la ecuación.

Reunimos las n ecuaciones en forma de vectores xy matrices:

PRODUCTOS DEL AJUSTE:

ˆ0 : Estimación del termino independiente (intercept) Recta estimada de

3. DISTRIBUCIONES DE LOS ESTIMADORES

TABLA DEL ANÁLISIS DE LA VARIANZA (ANOVA)

SSR SSE Proporción de la   0 : Ausenciade relacionlineal.

Dependent variable: PUREZA DEL OXIGENO

Total (Corr.) 173,377 19

Representando gráficamente el Intervalo de Confianza en función de x0 se forma una banda en torno a

 1 0(x  x)2  1 

Nivel de Pureza Valores

PUREZA DEL OXIGENO

8 4 4,26 3,1 5,39 19 12,5 X1

y=3.00+0.5*x+eps 9 12 10,84 9,13 8,15 8 5,56

Los 4 conjuntos de arrojan resultados idénticos: 

Dependent variable: ENVIOS Independent variable: PESO

Intercept 2316.49 197.402 11.7349 .00000 5200

Analysis of Variance 3200

Stnd. Error of Est. = 337.196 -100

2. OUTLIERS Y PUNTOS DE INFLUENCIA

3.   N (0, ) yi  N (  0  1 xi1 , ) (Normalidad )

residuos e1, …, en sí son observables:

Propiedades de los residuos: ei , i  1,...,n errores aleat.: 

Estandarización de los residuos:

Predicciones yi , X’s, tiempo, caso. yi , X’s, tiempo, caso.

Predicciones yi , X’s, tiempo, caso.

Intercept 259,581 22,73 11,4202 0,0000

Source Su of Df Mean F-Ratio P-Value

400 Perio 120

Source Su of Df Mean F-Ratio P-Value

Correlation Coefficient = -0,994162 R-squared = 98,8359 percent

MODELO: SUPERVISORES =0 + 1*SUPERVISADOS + 

Total (Corr.) 52666.7 26

Correlation Coefficient = .880836 R-squared = 77.5872 percent

Tema 14. El modelo de regresión lineal simple 296

139 190 194 198 202 206 210 214

Causas y diagnósticos de influencia potencial

Una observación realizada en un punto alejado en la X es potencialmente influyente: Valga lo que

Intercept 1,70654 0,817155 2,08839 0,0460

8 2,5 3,5 4,5 5,5 6,5

Intercept 3,71325 0,631352 5,88142 0,0000

Total (Corr.) 24,4815 25

3,5 2,5 6,5 7,5