Semana 7 - Correlación y Regresión Lineal

FACULTAD DE INGINIERIA
INDUSTRIAL
Estadística y Probabilidades
Semana N ° 7
Correlación y regresión lineal

simple
Mg. Julio Cesar Enriquez Alva

Plan de clases
• Motivación.
• Competencias
Inicio • Conocimiento previo.
• Coeficiente de correlación de Pearson.

• Modelo de regresión lineal simple.
• Significancia del modelo de regresión lineal simple.
Construcción
• Verificación de los supuestos.
• Retroalimentación.
• Autoevaluación
Cierre
Motivación
El gerente de una agencia de alquiler de limusinas que opera en Lima
Metropolitana le gustaría determinar el tiempo que llevaría transportar pasajeros
desde varios lugares al aeropuerto del Callao durante las horas no pico. Se
seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las
horas no pico, con los siguientes resultados:
Distancia en
km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
Determine un modelo de regresión lineal simple del tiempo de transportar

pasajeros en función de la distancia recorrida.
¿El tiempo dependerá de la distancia?

Competencias
Interpreta el coeficiente de
correlación de Pearson para
dos variables cuantitativas en
problemas contextualizados.
Aplica la técnica de
regresión lineal simple Analiza el
en problemas comportamie Aplica la regresión
contextualizados nto de dos lineal simple en
utilizando el software variables problemas
estadístico Excel. cuantitativas contextualizados.
Realiza pruebas de
hipótesis para verificar los
supuestos mediante los
errores.
I. Definiciones básicas
VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser descrita como el resultado de un
valor conocido de la variable independiente. La variable dependiente es aleatoria, es decir por cada valor
dado de la variable independiente, existen muchos valores para la variable dependiente. También, se
conoce como la variable respuesta. Se denota por la letra Y.

VARIABLE INDEPENDIENTE
La variable independiente proporciona la base para la estimación. Es la variable predictora o
regresora. Se denota por la letra X.
RESIDUAL iésimo
Diferencia que existe entre el valor observado de la variable dependiente y el valor pronosticado
empleando la ecuación de regresión estimada; para la observación iésima, el residual iésimo es .
ANÁLISIS RESIDUAL
Es la herramienta principal para determinar si el modelo de regresión empleado es apropiado.
Diagrama de dispersión
• El diagrama de dispersión representa el grado

de (intensidad) y naturaleza (forma) de la
relación entre las variables X e Y, si es que
existe.
• En el eje de las abscisas se representa los

valores de la variable independiente (X).
• En el eje de la ordenada los valores de la

variable dependiente (Y).
II. Covarianza
• Una medida del grado en que dos variables aleatorias se mueven en la misma
dirección o en direcciones opuestas la una respecto a la otra.
• En otras palabras, si dos variables aleatorias generalmente se mueven en la misma

dirección se dirá que tienen una covarianza positiva. Si tienden a moverse en
direcciones opuestas, se dirá que tienen una covarianza negativa.
• La covarianza se mide como el valor que se espera de los productos de las desviaciones
de dos variables aleatorias respecto a sus correspondientes medias. Una varianza es
un caso especial de covarianza.
Cálculo de la covarianza
𝒏
∑ ( 𝒙𝒊 − 𝒙 ) ( 𝒚 𝒊 − 𝒚 )
𝒊=𝟏
𝑪𝒐𝒗 ( 𝒙 , 𝒚 ) =
𝒏− 𝟏
Donde:
: Tamaño de la muestra.
Interpretación de la covarianza
• Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a grandes valores de X corresponden
grandes valores de Y.
• Si Cov(x,y) = 0, Una covarianza (0) se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.
• Si Cov(x,y) < 0, hay dependencia inversa o negativa es decir, a grandes valores de X corresponden
pequeños valores de Y.
III. Coeficiente de correlación de Pearson (r)
Mide el grado de asociación entre dos variables cuantitativas relacionadas linealmente.
Se calcula mediante la siguiente fórmula:
Sx: Desviación estándar de la variable x.
Donde:
𝑐𝑜𝑣 ( 𝑥 , 𝑦 ) Sy: Desviación estándar de la variable y.
𝑟=
√ √
𝑠𝑥 𝑠𝑦 𝑛 𝑛
∑ ( 𝑥𝑖 − 𝑥 ) 2
∑ ( 𝑦 𝑖 − 𝑦 )2
𝑖=1 𝑖 =1
𝑠𝑥 = ; 𝑠 𝑦=
𝑛 −1 𝑛− 1
También, se puede calcular

como:
𝑆𝑃 (𝑥 , 𝑦 )
𝑟= SC(x): Suma de cuadrados de los valores de x
√ 𝑆𝐶(𝑥 )× √ 𝑆𝐶 (𝑦 )
Donde:
SP(x,y): Suma de productos de los valores de x e y SC(y): Suma de cuadrados de los valores de y
Por propiedad, el coeficiente de correlación de Pearson se encuentra entre:
Esto es; si:

R La relación entre las variables es perfecta e inversa.
R No existe relación entre las variables
R La relación entre las variables es perfecta y directa.
Interpretación del Coeficiente de correlación de Pearson
Si el valor del coeficiente de correlación estaría entre -1 y 1, se interpretaría de la siguiente
manera:
Relación entre Correlación y Covarianza
• La correlación indica la fuerza y dirección de la asociación entre dos variables

aleatorias en forma de relación lineal. Dos variables cuantitativas están
correlacionadas cuando los valores de una de ellas varían con respecto a los valores
de la otra.
• La covarianza es una medida de la variación común a dos variables y, por tanto, una
medida del grado y tipo de su relación.
• El análisis de varianza sirve para comparar si los valores de un grupos de datos son
diferentes significativamente a los valores de otro u otros grupos de datos.
Ejercicio resuelto 1
El gerente de una agencia de alquiler de limusinas que opera en Lima
Metropolitana le gustaría determinar el tiempo que llevaría transportar
pasajeros desde varios lugares al aeropuerto del Callao durante las horas no
pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día en
particular en las horas no pico, con los siguientes resultados:
Viaje 1 2 3 4 5 6 7 8 9 10 11 12
Distancia en km.
(X) 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos (Y) 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
a) Interprete el diagrama de dispersión.

b) Determine la dirección de la relación entre las variables.
c) Determine el grado de relación entre las variables.
a) Interprete el diagrama de dispersión.
Diagrama de dispersión entre la distancia y el tiempo de transporte

45
40
Tiempo de transporte
35
30
25
20
15
10
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Distancia en kilómetros
Se observa una tendencia creciente (positiva), a mayor distancia, mayor es

el tiempo de transporte.
Solución
Calculando las sumatorias respectivas para las variables:
Viaje X Y XY X2 Y2 Donde:
1 10.3 19.71 203 106.1 388.5
2 11.6 18.15 210.5 134.6 329.4
3 12.1 21.88 264.7 146.4 478.7
4 14.3 24.21 346.2 204.5 586.1
5 15.7 27.08 425.2 246.5 733.3
6 16.1 22.96 369.7 259.2 527.2
7 18.4 29.38 540.6 338.6 863.2
8 20.2 37.24 752.2 408 1387
9 21.8 36.84 803.1 475.2 1357
10 24.3 40.59 986.3 590.5 1648
11 25.4 41.21 1047 645.2 1698
12 26.7 38.19 1020 712.9 1458
Total 216.9 357.4 6968 4268 11455
Solución
b) Determine la dirección de la relación entre las variables.
𝑛
∑ ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 )
Se calcula la Covarianza; para ello, se necesita:𝐶𝑜𝑣 ( 𝑥 , 𝑦 )= 𝑖=1
𝑛 −1
Calculando:
Reemplazando:
Por lo tanto, Cov(x,y) > 0, hay dependencia directa (positiva); es decir, a mayor distancia
corresponden mayores tiempo de transportar a pasajeros desde el aeropuerto del Callao.
Solución
a) Determine el grado de relación entre las variables.
𝑐𝑜𝑣 ( 𝑥 , 𝑦 )
Se calcula el coeficiente de correlación; para ello, se necesita:𝑟 =
𝑠𝑥 𝑠𝑦
Calculando:
𝐶𝑜𝑣(𝑥 , 𝑦) 46.117
Reemplazando: 𝑟= = =0.958
𝑆𝑥 𝑆 𝑦 (5.618)(8.569)
Existe muy buena relación entre la distancia recorrida y el tiempo de transporte.

IV. Análisis de Regresión Lineal Simple
Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable
dependiente, en base a lo que ocurre o lo que sucede con las variables independientes (o
regresoras) x1, x2,...., xp.
En el caso de dos variables, se cumple la siguiente función de regresión:
Y = 0 + 1X+ i → se llama: Regresión Lineal Simple
Características de la regresión lineal simple

 La variable X es determinística y es observada con la mejor precisión posible.
 La variable Y es aleatoria.
 Los errores, ei, son variables aleatorias con media 0 y varianza 2 constantes .
 Los errores ei y ej (i,j=1…,n) son independientes entre si.
Estimación del Modelo de Regresión Lineal Simple
Principio del Método de Mínimos Cuadrados (MMC):
Determina una ecuación de regresión al minimizar la suma de los
cuadrados de las distancias verticales entre los valores reales de Y y
los valores pronosticado de Y.
Haciendo uso del MMC el modelo de regresión lineal simple
es estimado por la ecuación:
Donde:
b1: Coeficiente de regresión estimado, se Interpretación de los valores estimados:
calcula de la siguiente manera:
bo: Indica el valor promedio de la variable de
respuesta Y cuando X es cero.
b0: Constante del modelo de regresión
lineal, se calcula de la siguiente manera: b1: Indica el cambio promedio en la variable de
respuesta Y cuando X se incrementa en una
𝑏0 = 𝑦 − 𝑏1 𝑥
unidad.
Enfoque del Análisis de Varianza para la prueba de significancia de la regresión
i. Planteamiento de hipótesis:
H0: El modelo de regresión lineal simple no es significativo.
H1: EL modelo de regresión lineal simple es significativo.
ii. Nivel de significancia: (0.01, 0.05, 0.10, etc) Donde:

SCTotal: Suma de cuadrados del total.
iii. Estadístico de prueba:
SCReg: Suma de cuadrados de la regresión.
SCE: Suma de cuadrados del error.

SCE = SCTotal – SCReg
CMReg = SCReg/Grados de Libertad=1

iv. Valor crítico: FT = F(1, n-2, α) CME = SCE/Grados de libertad=n-2
v. Decisión y conclusion: Si: Fc > F(1, n-2, α), se rechaza H0 y se acepta H1.
Enfoque del Estadístico T para la prueba de significancia de la regresión
Unilateral a la izquierda Bilateral Unilateral a la derecha
Planteamiento de
hipótesis:
Nivel de significancia: α (0.01, 0.05; 0.10, etc)
Estadístico de prueba:
Valor(es) crítico(s): T(n-2;α) T(n-2;α/2) y T(n-2;1-α/2) T(n-2;1-α)
Decisión y conclusión: Tc < T(n-2;α) Tc <T(n-2;α); T(n-2;1-α/2)> Tc > T(n-2;1-α)

Se rechaza H0, si:
Observación: Para verificar si el modelo es significativo, se usará la prueba bilateral

considerando el valor para β0 igual a 0.
Medidas de bondad de ajuste
a. Error Estándar de la Estimación: Es una medida de variabilidad alrededor de la línea de regresión. Su
fórmula esta dado por:
b. Coeficiente de determinación: Mide la variación total en Y explicada por el modelo de regresión o indica
en que porcentaje la variable independiente explica a la variable respuesta. Su fórmula esta dado por:
Propiedad: 0 < R2 ≤ 1
c. Coeficiente de determinación ajustado o corregido: El R2 ajustado es el porcentaje de variación en la

variable de respuesta que es explicado por su relación con una o más variables predictoras, ajustado para el
número de predictores en el modelo. Se utiliza el R2 ajustado para determinar qué tan bien se ajusta el modelo
ajusta a los datos cuando desee ajustar el número de predictores del modelo.
Estimación de una respuesta promedio y predicción de una nueva respuesta
Se distinguen dos tipos de problemas:
i. Estimar el valor medio o promedio de la variable Y para cierto valor de X = X0.

ii. Predecir el valor que tomará la variable Y para cierto valor de X = X 0.
Intervalo de confianza para la respuesta promedio

Un intervalo de confianza del 100(1-α)% para el valor medio de todos los valores Y dado que X = X 0 está dado por:
Predicción para una nueva respuesta

Un intervalo de confianza del 100(1-α) % para el valor predicho de Y dado que X = X0 es de la forma:
Hipótesis del modelo de regresión lineal simple
Residual Plots for Ventas

Normal Probability Plot Versus Fits
99 4
N 10
AD 0.221
90 2
P-Value 0.769
Residual
Percent
0
50
-2
10
-4
1
-5.0 -2.5 0.0 2.5 5.0 5 10 15 20
Residual Fitted Value
Histogram Versus Order

4
2.0
2
1.5
Frequency
Residual
0
1.0
-2
0.5
-4
0.0
-4 -3 -2 -1 0 1 2 3 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
Residual Plots for Ventas
Normal Probability Plot Versus Fits
99
Prueba de normalidad: Se utiliza la prueba de Anderson Darling para la verificación de
4
N 10
AD 0.221
90 2
P-Value 0.769
este supuesto. Esta prueba, grafica los residuales arrojados en el análisis y los ajusta a
Residual
Percent
0
50
una línea recta. Si los datos se ajustan a la línea se puede afirmar que el error o residual
-2
l Plots for Ventas

10
sigue una distribución normal.
-4 Residual Plots for Ventas
1
-5.0 -2.5 0.0 2.5 5.0 5 10 15 20
Versus Fits Normal Probability Plot Versus Fits
Residual Fitted Value
4 99 4
10 N 10
0.221
2 Histogram Versus Order 90
AD 0.221
Prueba de igualdad de varianzas: Esta prueba gráfica los residuales versus los valores
e 0.769 P-Value 0.769
2
Residual
Residual
Percent
0 2.0 0
predichos,
-2 1.5
trata de comparar que no
2 existe un patrón en los
50
valores predichos como
Frequency
-2
Residual
agotamientos.
-41.0 Los puntos deben estar
0 dispersos alrededor de10cero en los residuales. -4
Residual Plots for
5 10 15 20 -2 1
0.5 -5.0 -2.5 0.0 2.5 5.0 5 Normal Probability
10 Plot
15 20
Fitted Value -4 Residual 99 Fitted Value 4
N 10
0.0
-4 -3 -2 -1 0 1 2 3 1 2 3 4 5 6 7 8 9 10 AD 0.221
Versus Order Histogram
90
Versus Order P-Value 0.769
2
Residual
Residual Percent
4
Prueba de independencia de2.0 los errores: Se muestra mediante 4
50 una gráfica que compara 0
los residuales con respecto 1.5al orden de los datos en que fueron tomados. Se revisa que
2 2 -2
Frequency
Residual
10
0
los datos no presenten ningún
1.0 patrón en la distribución de 1los
0
datos, de 2.5
lo contrario se -4
-2 -2 -5.0 -2.5 0.0 5.0
-4
concluiría que existen errores
0.5 sistemáticos y que se deberían
-4
eliminarResidual para realizar el
3 1 2 3 4 5 6 7 8 9 10 análisis. 0.0
-4 -3 -2 -1 0 1 2 3 1 2 3 4 Histogram
5 6 7 8 9 10
Observation Order Residual Observation Order 4
2.0
2
1.5
Frequency
Residual
0
1.0
Histograma de los errores: Se utiliza para determinar si los datos son asimétricos o si -2
0.5
existen valores atípicos en los datos. -4
0.0
-4 -3 -2 -1 0 1 2 3 1
Residual
Por ejemplo:
Ejercicio resuelto
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana le gustaría
determinar el tiempo que llevaría transportar pasajeros desde varios lugares al aeropuerto del
Callao durante las horas no pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día
en particular en las horas no pico, con los siguientes resultados:
Distancia en
km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
a) Verifique los supuestos para realizar una regresión lineal simple.

b) Determine la línea de regresión que permita estimar el tiempo de transporte en base a la distancia recorrida. Interprete
el coeficiente de regresión estimado.
c) Con un nivel de significancia de 5%, ¿se puede afirmar que el modelo de regresión lineal es significativo? Use el
enfoque por el Análisis de Varianza y con el Estadístico T.
d) ¿Qué porcentaje de la variabilidad del tiempo de transporte está explicado por la distancia recorrida?
e) Estime el tiempo de transportar al pasajero que se espera obtener si se ha recorrido 20.6 kilómetros.
f) Con un 95% de confianza, estime el tiempo promedio de transportar al pasajero si se ha recorrido 20.6 kilómetros.
g) Con un 95% de confianza, estime el tiempo de transportar al pasajero si se ha recorrido 20.6 kilómetros.
Utilice los resultados obtenidos de minitab:
Regression Analysis: Y versus X
Residual Plots for Y Analysis of Variance

Normal Probability Plot Versus Fits Source DF Adj SS Adj MS F-Value P-Value
99 5.0
N 12 Regression 1 741.26 741.258 111.43 0.000
AD 0.445
90
P-Value 0.234 2.5 X 1 741.26 741.258 111.43 0.000
Residual
Error 10 66.52 6.652
Percent
50 0.0
Total 11 807.78
10 -2.5
1 -5.0
Model Summary
-5.0 -2.5 0.0 2.5 5.0 20 25 30 35 40
Residual Fitted Value S R-sq R-sq(adj) R-sq(pred)
2.57924 91.76% 90.94% 87.65%
Histogram Versus Order
5.0
4
Coefficients
3 2.5
Frequency
Residual
2 0.0 Term Coef SE Coef T-Value P-Value VIF

Constant 3.37 2.61 1.29 0.225
-2.5
1 X 1.461 0.138 10.56 0.000 1.00
0 -5.0
-4 -2 0 2 4 1 2 3 4 5 6 7 8 9 10 11 12
Regression Equation
Y = 3.37 + 1.461 X
Durbin-Watson Statistic
Durbin-Watson Statistic = 1.71293
Prediction for Y
Regression Equation
Y = 3.37 + 1.461 X
Variable Setting
X 20.6
Fit SE Fit 95% CI 95% PI

33.4763 0.822523 (31.6436, 35.3090) (27.4442, 39.5083)
Ejemplo 2
Para determinar la relación entre la velocidad (X) y el rendimiento de la gasolina (Y) en automóviles de determinada
marca, se tomo una muestra de 6 automóviles y se obtuvieron los siguientes resultados:
X: Velocidad (km/h) 60 70 75 80 90 100

Y: Rendimiento (km/galón) 55 45 52 50 45 40
a) Halle la ecuación de regresión e interpretar sus coeficientes.

b) Calcule el coeficiente de determinación e interpretarlo.
c) Utilice el modelo de regresión desarrollado para predecir el rendimiento de gasolina para una
velocidad de 120 Km/h.
d) Plantee las hipótesis respectivas y decir si el modelo obtenido es
significativo a un nivel de significancia del 5%.
e) Evalue los supuestos
a) Halle la ecuación de regresión e interpretar sus coeficientes.
𝒏
= = =38625 =13879 ∑ 𝒙 𝒊 𝒚 𝒊=¿𝟐𝟐𝟒𝟎𝟎 ¿
𝒊=𝟏
= 38625 – 6 (79.17)2 =1020.517
𝒏
𝑺𝑪 ( 𝒚 ) =∑ 𝒚 − 𝒏 𝒚 =𝟏𝟑𝟖𝟕𝟗 −𝟔 ( 𝟒𝟕.𝟖𝟑 ) =𝟏𝟓𝟏.𝟎𝟐𝟓
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏
= 22400 – 6(79.17*47.83)= -320.771
− 320.771 = 47.833 – (– 0.31*79.167 )=72.691

𝑏1= =−0.314
1020.517
La ecuación de regresión es: Y = 72.691 - 0.314 X
Donde: b1 = -0.314: Si se aumenta la velocidad en un kilómetro por hora, el rendimiento de

la gasolina disminuirá en 0.314 kilómetros por galón.
b) Calcule el coeficiente de determinación e interpretarlo.
= 22400 – 6(79.17*47.833)= -320.771
− 320.771
𝑏1= =−0.314
1020.517
= -0.314*(-320.771)= 100.722
= SCTotal
𝒏
𝑺𝑪 ( 𝒚 ) =∑ 𝒚 − 𝒏 𝒚 =𝟏𝟑𝟖𝟕𝟗 −𝟔 ( 𝟒𝟕.𝟖𝟑 ) =𝟏𝟓𝟏. 𝟎𝟐𝟓
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏
= 0.67
Por lo tanto, la variabilidad del rendimiento de la gasolina es explicado por el modelo

regresión lineal en un 67%.
c) Utilice el modelo de regresión desarrollado para predecir el rendimiento de gasolina para una velocidad de
120 Km/h.
Dato: Velocidad = X = 120 km/h
Estimando el rendimiento de la gasolina:
𝒀 = 72.691 −𝟎.𝟑𝟏𝟒(𝟏𝟐𝟎)=𝟑𝟓.𝟎11 𝒌𝒎/𝒈𝒂𝒍ó𝒏

d) Plantee las hipótesis respectivas y decir si el modelo obtenido es
significativo a un nivel de significancia del 5%.
1.- Planteamiento de hipótesis 4.- Valor crítico: F1,4,0.05 = 7.709

H0: El modelo no es significativo
H1: El modelo es significativo 5.- Decisión
2.- Nivel de significación α =0.05 Como Fcal = 8.01>FT rechaza H0. Es

decir, el modelo es significativo.
3.- Estadística de prueba: Fcal
SCT = Σy2 – ny2 = 13879 – 6(47.833)2 =151.025
SCR = b1xSP(X,Y) = -0.314*(-320.771)= 100.722
SCE = 151.025 – 100.722 = 50.303
Análisis de varianza
Fuente GL SC CM Fcal P
Regresión 1 100.722 100.722 8.01 0.047
Error 4 50.303 12.58
Total 5 151.025
d) Plantee las hipótesis respectivas y decir si el modelo obtenido es significativo a
un nivel de significancia del 5%.
1.- Planteamiento de hipótesis H0: β1 = 0 (El modelo no es significativo
H1: β1 ≠ 0 (El modelo es significativo)
2.- Nivel de significación α =0.05
=
3.- Estadística de prueba
Tt = Tn2;1/ 2 = T4,0.975  2.776

4.- Valor crítico
5.- Decisión
Como Tcal = -2.84 > TT = -2.776, se rechaza H0. Es
decir, el modelo es significativo.
 2.776 2.776
PRUEBA DURBIN -
WATSON
El Test de Durbin-Watson permite evaluar si existe autocorrelación en una
Regresión lineal, sea simple o múltiple. Con ello se pretende ver si los valores
presentan algún tipo de dependencia en cuanto al orden de obtención.
1.- Planteamiento de hipótesis
H 0:  = 0 H 1:  ≠ 0
2.- Nivel de Significancia: α

3.- Estadística Prueba (Minitab)
4.- Decisión:
Haciendo uso de la tabla Durbin – Watson con  de nivel de significancia.
Si:d  d , Se rechaza H d  d , Se rechaza H
L 0 U 0
d L  d  dU , No se rechaza H0
Ejemplo 3 Verifique si existe autocorrelación en los errores
1.- Planteamiento de hipótesis H0:  = 0 ( existe autocorrelación)

H1:  ≠ 0
2.- Nivel de Significancia: α
3.- Estadística Prueba (Minitab)
Durbin Watson 2.551
4.- Decisión:
Haciendo uso de la tabla Durbin – Watson con 5% de nivel de significancia.
d L  0.61 , d u 
1.4
Como d > dU, entonces se rechaza H0. Existe autocorrelación entre las
variables.
Retroalimentación
Suponga que para hacer un estudio sobre los gastos de consumo familiar
mensual en relación con el ingreso familiar mensual, se eligieron 10 familias al
azar encontrándose la siguiente información:
Ingreso familiar ($) ( X ) 80 100 120 140 160 180 200 220 240 260
Gasto de consumo familiar 75 65 90 95 110 115 120 140 155 150

($) ( Y )
a) Calcule la recta de regresión.

b) Es posible afirmar que si el ingreso familiar se incrementa en un dólar, el
consumo familiar se incrementa en promedio, en $ 0.4050.
c) Determine si el modelo puede considerarse significativo
Referencias Bibliográficas
1. Devore, J. (2008) Probabilidad y Estadística para Ingeniería y

Ciencias. Cengage Learning 7ma. Edición. México.
2. Mendehall, W. (2010) Introducción a la Probabilidad y

Estadística. Cengage Learning 13a Edición. México.

Semana 7 - Correlación y Regresión Lineal

Cargado por

Copyright:

Formatos disponibles

Semana 7 - Correlación y Regresión Lineal

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Semana 7 - Correlación y Regresión Lineal

Cargado por

Copyright:

Formatos disponibles

FACULTAD DE INGINIERIA

Correlación y regresión lineal

Mg. Julio Cesar Enriquez Alva

• Coeficiente de correlación de Pearson.

Determine un modelo de regresión lineal simple del tiempo de transportar

¿El tiempo dependerá de la distancia?

• El diagrama de dispersión representa el grado

• En el eje de las abscisas se representa los

• En el eje de la ordenada los valores de la

• En otras palabras, si dos variables aleatorias generalmente se mueven en la misma

También, se puede calcular

Esto es; si:

• La correlación indica la fuerza y dirección de la asociación entre dos variables

a) Interprete el diagrama de dispersión.

Diagrama de dispersión entre la distancia y el tiempo de transporte

Se observa una tendencia creciente (positiva), a mayor distancia, mayor es

Existe muy buena relación entre la distancia recorrida y el tiempo de transporte.

En el caso de dos variables, se cumple la siguiente función de regresión:

Y = 0 + 1X+ i → se llama: Regresión Lineal Simple

Características de la regresión lineal simple

ii. Nivel de significancia: (0.01, 0.05, 0.10, etc) Donde:

SCE: Suma de cuadrados del error.

CMReg = SCReg/Grados de Libertad=1

Nivel de significancia: α (0.01, 0.05; 0.10, etc)

Valor(es) crítico(s): T(n-2;α) T(n-2;α/2) y T(n-2;1-α/2) T(n-2;1-α)

Decisión y conclusión: Tc < T(n-2;α) Tc <T(n-2;α); T(n-2;1-α/2)> Tc > T(n-2;1-α)

Observación: Para verificar si el modelo es significativo, se usará la prueba bilateral

c. Coeficiente de determinación ajustado o corregido: El R2 ajustado es el porcentaje de variación en la

i. Estimar el valor medio o promedio de la variable Y para cierto valor de X = X0.

Intervalo de confianza para la respuesta promedio

Predicción para una nueva respuesta

Residual Plots for Ventas

Histogram Versus Order

l Plots for Ventas

-2 -2 -5.0 -2.5 0.0 5.0

a) Verifique los supuestos para realizar una regresión lineal simple.

Residual Plots for Y Analysis of Variance

2 0.0 Term Coef SE Coef T-Value P-Value VIF

Fit SE Fit 95% CI 95% PI

X: Velocidad (km/h) 60 70 75 80 90 100

a) Halle la ecuación de regresión e interpretar sus coeficientes.

= 22400 – 6(79.17*47.83)= -320.771

− 320.771 = 47.833 – (– 0.31*79.167 )=72.691

Donde: b1 = -0.314: Si se aumenta la velocidad en un kilómetro por hora, el rendimiento de

= 22400 – 6(79.17*47.833)= -320.771

Por lo tanto, la variabilidad del rendimiento de la gasolina es explicado por el modelo

Dato: Velocidad = X = 120 km/h

Estimando el rendimiento de la gasolina:

𝒀 = 72.691 −𝟎.𝟑𝟏𝟒(𝟏𝟐𝟎)=𝟑𝟓.𝟎11 𝒌𝒎/𝒈𝒂𝒍ó𝒏

1.- Planteamiento de hipótesis 4.- Valor crítico: F1,4,0.05 = 7.709

2.- Nivel de significación α =0.05 Como Fcal = 8.01>FT rechaza H0. Es

Tt = Tn2;1/ 2 = T4,0.975  2.776

2.- Nivel de Significancia: α

1.- Planteamiento de hipótesis H0:  = 0 ( existe autocorrelación)

2.- Nivel de Significancia: α

3.- Estadística Prueba (Minitab)

Durbin Watson 2.551

Gasto de consumo familiar 75 65 90 95 110 115 120 140 155 150