Semana 7 - Correlación y Regresión Lineal
Semana 7 - Correlación y Regresión Lineal
Semana 7 - Correlación y Regresión Lineal
INDUSTRIAL
Estadística y Probabilidades
Semana N ° 7
• Retroalimentación.
• Autoevaluación
Cierre
Motivación
El gerente de una agencia de alquiler de limusinas que opera en Lima
Metropolitana le gustaría determinar el tiempo que llevaría transportar pasajeros
desde varios lugares al aeropuerto del Callao durante las horas no pico. Se
seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las
horas no pico, con los siguientes resultados:
Distancia en
km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
Aplica la técnica de
regresión lineal simple Analiza el
en problemas comportamie Aplica la regresión
contextualizados nto de dos lineal simple en
utilizando el software variables problemas
estadístico Excel. cuantitativas contextualizados.
Realiza pruebas de
hipótesis para verificar los
supuestos mediante los
errores.
I. Definiciones básicas
VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser descrita como el resultado de un
valor conocido de la variable independiente. La variable dependiente es aleatoria, es decir por cada valor
dado de la variable independiente, existen muchos valores para la variable dependiente. También, se
conoce como la variable respuesta. Se denota por la letra Y.
VARIABLE INDEPENDIENTE
La variable independiente proporciona la base para la estimación. Es la variable predictora o
regresora. Se denota por la letra X.
RESIDUAL iésimo
Diferencia que existe entre el valor observado de la variable dependiente y el valor pronosticado
empleando la ecuación de regresión estimada; para la observación iésima, el residual iésimo es .
ANÁLISIS RESIDUAL
Es la herramienta principal para determinar si el modelo de regresión empleado es apropiado.
Diagrama de dispersión
• La covarianza se mide como el valor que se espera de los productos de las desviaciones
de dos variables aleatorias respecto a sus correspondientes medias. Una varianza es
un caso especial de covarianza.
Cálculo de la covarianza
𝒏
∑ ( 𝒙𝒊 − 𝒙 ) ( 𝒚 𝒊 − 𝒚 )
𝒊=𝟏
𝑪𝒐𝒗 ( 𝒙 , 𝒚 ) =
𝒏− 𝟏
Donde:
: Tamaño de la muestra.
Interpretación de la covarianza
• Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a grandes valores de X corresponden
grandes valores de Y.
• Si Cov(x,y) = 0, Una covarianza (0) se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.
• Si Cov(x,y) < 0, hay dependencia inversa o negativa es decir, a grandes valores de X corresponden
pequeños valores de Y.
III. Coeficiente de correlación de Pearson (r)
Mide el grado de asociación entre dos variables cuantitativas relacionadas linealmente.
Se calcula mediante la siguiente fórmula:
Sx: Desviación estándar de la variable x.
Donde:
𝑐𝑜𝑣 ( 𝑥 , 𝑦 ) Sy: Desviación estándar de la variable y.
𝑟=
√ √
𝑠𝑥 𝑠𝑦 𝑛 𝑛
∑ ( 𝑥𝑖 − 𝑥 ) 2
∑ ( 𝑦 𝑖 − 𝑦 )2
𝑖=1 𝑖 =1
𝑠𝑥 = ; 𝑠 𝑦=
𝑛 −1 𝑛− 1
• La covarianza es una medida de la variación común a dos variables y, por tanto, una
medida del grado y tipo de su relación.
• El análisis de varianza sirve para comparar si los valores de un grupos de datos son
diferentes significativamente a los valores de otro u otros grupos de datos.
Ejercicio resuelto 1
El gerente de una agencia de alquiler de limusinas que opera en Lima
Metropolitana le gustaría determinar el tiempo que llevaría transportar
pasajeros desde varios lugares al aeropuerto del Callao durante las horas no
pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día en
particular en las horas no pico, con los siguientes resultados:
Viaje 1 2 3 4 5 6 7 8 9 10 11 12
Distancia en km.
(X) 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos (Y) 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
40
Tiempo de transporte
35
30
25
20
15
10
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Distancia en kilómetros
Viaje X Y XY X2 Y2 Donde:
1 10.3 19.71 203 106.1 388.5
2 11.6 18.15 210.5 134.6 329.4
3 12.1 21.88 264.7 146.4 478.7
4 14.3 24.21 346.2 204.5 586.1
5 15.7 27.08 425.2 246.5 733.3
6 16.1 22.96 369.7 259.2 527.2
7 18.4 29.38 540.6 338.6 863.2
8 20.2 37.24 752.2 408 1387
9 21.8 36.84 803.1 475.2 1357
10 24.3 40.59 986.3 590.5 1648
11 25.4 41.21 1047 645.2 1698
12 26.7 38.19 1020 712.9 1458
Total 216.9 357.4 6968 4268 11455
Solución
b) Determine la dirección de la relación entre las variables.
𝑛
∑ ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 )
Se calcula la Covarianza; para ello, se necesita:𝐶𝑜𝑣 ( 𝑥 , 𝑦 )= 𝑖=1
𝑛 −1
Calculando:
Reemplazando:
Por lo tanto, Cov(x,y) > 0, hay dependencia directa (positiva); es decir, a mayor distancia
corresponden mayores tiempo de transportar a pasajeros desde el aeropuerto del Callao.
Solución
a) Determine el grado de relación entre las variables.
𝑐𝑜𝑣 ( 𝑥 , 𝑦 )
Se calcula el coeficiente de correlación; para ello, se necesita:𝑟 =
𝑠𝑥 𝑠𝑦
Calculando:
𝐶𝑜𝑣(𝑥 , 𝑦) 46.117
Reemplazando: 𝑟= = =0.958
𝑆𝑥 𝑆 𝑦 (5.618)(8.569)
Donde:
b1: Coeficiente de regresión estimado, se Interpretación de los valores estimados:
calcula de la siguiente manera:
bo: Indica el valor promedio de la variable de
respuesta Y cuando X es cero.
b0: Constante del modelo de regresión
lineal, se calcula de la siguiente manera: b1: Indica el cambio promedio en la variable de
respuesta Y cuando X se incrementa en una
𝑏0 = 𝑦 − 𝑏1 𝑥
unidad.
Enfoque del Análisis de Varianza para la prueba de significancia de la regresión
i. Planteamiento de hipótesis:
H0: El modelo de regresión lineal simple no es significativo.
H1: EL modelo de regresión lineal simple es significativo.
v. Decisión y conclusion: Si: Fc > F(1, n-2, α), se rechaza H0 y se acepta H1.
Enfoque del Estadístico T para la prueba de significancia de la regresión
Unilateral a la izquierda Bilateral Unilateral a la derecha
Planteamiento de
hipótesis:
Estadístico de prueba:
b. Coeficiente de determinación: Mide la variación total en Y explicada por el modelo de regresión o indica
en que porcentaje la variable independiente explica a la variable respuesta. Su fórmula esta dado por:
Propiedad: 0 < R2 ≤ 1
Residual
Percent
0
50
-2
10
-4
1
-5.0 -2.5 0.0 2.5 5.0 5 10 15 20
Residual Fitted Value
2
1.5
Frequency
Residual
0
1.0
-2
0.5
-4
0.0
-4 -3 -2 -1 0 1 2 3 1 2 3 4 5 6 7 8 9 10
Residual Observation Order
Residual Plots for Ventas
Normal Probability Plot Versus Fits
99
Prueba de normalidad: Se utiliza la prueba de Anderson Darling para la verificación de
4
N 10
AD 0.221
90 2
P-Value 0.769
este supuesto. Esta prueba, grafica los residuales arrojados en el análisis y los ajusta a
Residual
Percent
0
50
una línea recta. Si los datos se ajustan a la línea se puede afirmar que el error o residual
-2
Prueba de igualdad de varianzas: Esta prueba gráfica los residuales versus los valores
e 0.769 P-Value 0.769
2
Residual
Residual
Percent
0 2.0 0
predichos,
-2 1.5
trata de comparar que no
2 existe un patrón en los
50
valores predichos como
Frequency
-2
Residual
agotamientos.
-41.0 Los puntos deben estar
0 dispersos alrededor de10cero en los residuales. -4
Residual Plots for
5 10 15 20 -2 1
0.5 -5.0 -2.5 0.0 2.5 5.0 5 Normal Probability
10 Plot
15 20
Fitted Value -4 Residual 99 Fitted Value 4
N 10
0.0
-4 -3 -2 -1 0 1 2 3 1 2 3 4 5 6 7 8 9 10 AD 0.221
Versus Order Histogram
90
Versus Order P-Value 0.769
2
Residual Observation Order
Residual
Residual Percent
4
Prueba de independencia de2.0 los errores: Se muestra mediante 4
50 una gráfica que compara 0
los residuales con respecto 1.5al orden de los datos en que fueron tomados. Se revisa que
2 2 -2
Frequency
Residual
10
0
los datos no presenten ningún
1.0 patrón en la distribución de 1los
0
datos, de 2.5
lo contrario se -4
-4
concluiría que existen errores
0.5 sistemáticos y que se deberían
-4
eliminarResidual para realizar el
3 1 2 3 4 5 6 7 8 9 10 análisis. 0.0
-4 -3 -2 -1 0 1 2 3 1 2 3 4 Histogram
5 6 7 8 9 10
Observation Order Residual Observation Order 4
2.0
2
1.5
Frequency
Residual
0
1.0
Histograma de los errores: Se utiliza para determinar si los datos son asimétricos o si -2
0.5
existen valores atípicos en los datos. -4
0.0
-4 -3 -2 -1 0 1 2 3 1
Residual
Por ejemplo:
Ejercicio resuelto
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana le gustaría
determinar el tiempo que llevaría transportar pasajeros desde varios lugares al aeropuerto del
Callao durante las horas no pico. Se seleccionó una muestra aleatoria de 12 viajes durante un día
en particular en las horas no pico, con los siguientes resultados:
Distancia en
km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
Residual
Error 10 66.52 6.652
Percent
50 0.0
Total 11 807.78
10 -2.5
1 -5.0
Model Summary
-5.0 -2.5 0.0 2.5 5.0 20 25 30 35 40
Residual Fitted Value S R-sq R-sq(adj) R-sq(pred)
2.57924 91.76% 90.94% 87.65%
Histogram Versus Order
5.0
4
Coefficients
3 2.5
Frequency
Residual
Y = 3.37 + 1.461 X
Durbin-Watson Statistic
Durbin-Watson Statistic = 1.71293
Prediction for Y
Regression Equation
Y = 3.37 + 1.461 X
Variable Setting
X 20.6
𝒏
= = =38625 =13879 ∑ 𝒙 𝒊 𝒚 𝒊=¿𝟐𝟐𝟒𝟎𝟎 ¿
𝒊=𝟏
= 38625 – 6 (79.17)2 =1020.517
𝒏
𝑺𝑪 ( 𝒚 ) =∑ 𝒚 − 𝒏 𝒚 =𝟏𝟑𝟖𝟕𝟗 −𝟔 ( 𝟒𝟕.𝟖𝟑 ) =𝟏𝟓𝟏.𝟎𝟐𝟓
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏
− 320.771
𝑏1= =−0.314
1020.517
= -0.314*(-320.771)= 100.722
= SCTotal
𝒏
𝑺𝑪 ( 𝒚 ) =∑ 𝒚 − 𝒏 𝒚 =𝟏𝟑𝟖𝟕𝟗 −𝟔 ( 𝟒𝟕.𝟖𝟑 ) =𝟏𝟓𝟏. 𝟎𝟐𝟓
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏
= 0.67
Análisis de varianza
Fuente GL SC CM Fcal P
Regresión 1 100.722 100.722 8.01 0.047
Error 4 50.303 12.58
Total 5 151.025
d) Plantee las hipótesis respectivas y decir si el modelo obtenido es significativo a
un nivel de significancia del 5%.
1.- Planteamiento de hipótesis H0: β1 = 0 (El modelo no es significativo
H1: β1 ≠ 0 (El modelo es significativo)
2.- Nivel de significación α =0.05
=
3.- Estadística de prueba
5.- Decisión
Como Tcal = -2.84 > TT = -2.776, se rechaza H0. Es
decir, el modelo es significativo.
2.776 2.776
PRUEBA DURBIN -
WATSON
El Test de Durbin-Watson permite evaluar si existe autocorrelación en una
Regresión lineal, sea simple o múltiple. Con ello se pretende ver si los valores
presentan algún tipo de dependencia en cuanto al orden de obtención.
1.- Planteamiento de hipótesis
H 0: = 0 H 1: ≠ 0
4.- Decisión:
Haciendo uso de la tabla Durbin – Watson con de nivel de significancia.
Si:d d , Se rechaza H d d , Se rechaza H
L 0 U 0
d L d dU , No se rechaza H0
Ejemplo 3 Verifique si existe autocorrelación en los errores
4.- Decisión:
Haciendo uso de la tabla Durbin – Watson con 5% de nivel de significancia.
d L 0.61 , d u
1.4
Como d > dU, entonces se rechaza H0. Existe autocorrelación entre las
variables.
Retroalimentación
Suponga que para hacer un estudio sobre los gastos de consumo familiar
mensual en relación con el ingreso familiar mensual, se eligieron 10 familias al
azar encontrándose la siguiente información:
Ingreso familiar ($) ( X ) 80 100 120 140 160 180 200 220 240 260