Regresion y correlacion lineal
1. La empresa LUZANDINA de la ciudad de piura, esta haciendo un estudio sobre los
consumos de energia( en miles de kilowatts – hora) y el numero de habitaciones en
uina residencia privada multifamiliar. Para este estudio se selecciona una muestra
aleatoria de 10 residencias multifamiliares, en la cual se obtuvo los siguientes
resultados:
N° de Número de Consumo de energía
casa habitaciones (miles de kW) 𝑋𝑌 𝑋2 𝑌2
1 12 9 108 144 81
2 9 7 63 81 49
3 14 10 140 196 100
4 6 5 30 36 25
5 10 8 80 100 64
6 8 6 48 64 36
7 10 8 80 100 64
8 10 10 100 100 100
9 5 4 20 25 16
10 7 7 49 49 49
∑ 91 74 718 895 584
𝑋̅ = 9.1 𝑌̅ = 7.4
Solución:
a. Determine la variable dependiente(y) y la variable independiente(x):
Y = consumo de energía
X = número de habitaciones
b. Estime la ecuación de la regresión lineal 𝑌 = 𝐴 + 𝐵𝑋:
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −∑𝑖=1 𝑋𝑖 ∑𝑖=1 𝑌𝑖
𝐵= 2
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑋𝑖 − (∑𝑖=1 𝑋𝑖 )
10 ∗ 718 − 91 ∗ 74
𝐵=
10 ∗ 895 − (91)2
𝐵 = 0.67
𝐴 = 𝑌̅ − 𝐵𝑋̅
𝐴 = 7.4 − (0.67) ∗ 9.1
𝐴 = 1.303
𝒀 = 𝟏. 𝟑𝟎𝟑 + 𝟎. 𝟔𝟕𝑿
Interpretación:
El coeficiente A significa que mi consumo mínimo de energía cuando
no tenga ninguna habitación es de 1.303 miles de kW/h.
En el coeficiente B significa por cada incremento en el número de
habitaciones el consumo de energía varia en 0.67.
c. Evalué el consumo (en miles de kilowatts – hora), para una casa de 11 habitaciones.
𝑌 = 1.303 + 0.67𝑋
𝑌 = 1.303 + 0.67(11)
𝑌 = 8.673
El consumo para una casa de 11 habitaciones es de 8.673 miles de
kW/h.
d. Determine e interprete el coeficiente de determinación y de correlación.
𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − ∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1 𝑌𝑖
𝑟=
√𝑛 ∗ ∑𝑛𝑖=1 𝑋𝑖2 − (∑𝑛𝑖=1 𝑋𝑖 )2 ∗ √𝑛 ∗ ∑𝑛𝑖=1 𝑌𝑖2 − (∑𝑛𝑖=1 𝑌𝑖 )2
10 ∗ 718 − 91 ∗ 74
𝑟=
√10 ∗ 895 − 912 ∗ √10 ∗ 584 − 742
𝑟 = 0.904
Dado que el coeficiente de correlación resulta 0.904 entonces decimos
que la relación que existe entre el número de habitaciones y el
consumo de energía es alta.
𝑅2 = 𝑟 2 ∗ 100
𝑅2 = (0.904)2 ∗ 100
𝑅2 = 81.72 %
obtenido el coeficiente de determinación nos proporciona la siguiente
interpretación que el número de habitaciones nos explica en un 81.72%
el consumo de energía.
e. Diagrama de dispersión de tendencia creciente
Gráfico N°01 – Diagrama de dispersión N° de Habitaciones/ consumo de
energía.
Diagrama de dispersion
12
y = 0.6667x + 1.3333
10
CONSUMO DE ENERGIA
0
0 2 4 6 8 10 12 14 16
NUMERO DE HABITACIONES
Fuente: Estudio de la empresa LUZANDINA
2. El gerente de una empresa está haciendo un estudio entre el numero de contactos
que tienen sus vendedores y sus ventas en miles de dólares. Para esto recurre al
departamento de ventas y contabilidad y obteniendo la siguiente información:
Números de Ventas (en miles de
𝑋𝑌 𝑋2 𝑌2
N° contactos dólares)
1 14 24 336 196 576
2 12 14 168 144 196
3 20 28 560 400 784
4 16 30 480 256 900
5 46 80 3680 2116 6400
6 23 30 690 529 900
7 48 90 4320 2304 8100
8 50 85 4250 2500 7225
9 55 120 6600 3025 14400
10 50 110 5500 2500 12100
∑ 334 611 26584 13970 51581
𝑋̅ = 33.4 𝑌̅ = 61.1
Solución:
a. Determine la variable dependiente(y) y la variable independiente(x):
Y = ventas en miles de dólares
X = numero de contactos
b. Estime la ecuación de la regresión lineal 𝑌 = 𝐴 + 𝐵𝑋:
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −∑𝑖=1 𝑋𝑖 ∑𝑖=1 𝑌𝑖
𝐵= 2
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑋𝑖 − (∑𝑖=1 𝑋𝑖 )
10 ∗ 26584 − 334 ∗ 611
𝐵=
10 ∗ 13970 − (334)2
𝐵 = 2.195
𝐴 = 𝑌̅ − 𝐵𝑋̅
𝐴 = 61.1 − (2.195) ∗ 33.4
𝐴 = −12.213
𝒀 = −𝟏𝟐. 𝟐𝟏𝟑 + 𝟐. 𝟏𝟗𝟓𝑿
Interpretación:
El coeficiente A significa que mis ventas serán de 12.213 miles de
dólares en pérdidas cuando no disponga de ningún contacto.
En el coeficiente B significa por cada aumento en el numero de
contactos las ventas varían en un 2.195.
c. Evalué las ventas estimadas si se contacta, o comunica, con 40 clientes.
𝑌 = −12.213 + 2.195𝑋
𝑌 = −12.213 + 2.195(40)
𝑌 = $75.587
Las ventas estimadas son de $75.587 cuando se contacta con 40
clientes.
d. Determine e interprete el coeficiente de determinación y de correlación.
𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − ∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1 𝑌𝑖
𝑟=
√𝑛 ∗ ∑𝑛𝑖=1 𝑋𝑖2 − (∑𝑛𝑖=1 𝑋𝑖 )2 ∗ √𝑛 ∗ ∑𝑛𝑖=1 𝑌𝑖2 − (∑𝑛𝑖=1 𝑌𝑖 )2
10 ∗ 26584 − 334 ∗ 611
𝑟=
√10 ∗ 13970 − 3342 ∗ √10 ∗ 51581 − 6112
𝑟 = 0.975
Dado que el coeficiente de correlación resulta 0.975 entonces decimos
que la relación que existe entre el numero de contactos y las ventas
estimadas es alta.
𝑅2 = 𝑟 2 ∗ 100
𝑅2 = (0.975)2 ∗ 100
𝑅2 = 95.06 %
obtenido el coeficiente de determinación nos proporciona la siguiente
interpretación que el número de contactos nos explica en un 95.06%
las ventas obtenidas en la empresa.
e. Diagrama de dispersión con tendencia decreciente
Gráfico N°01 – Diagrama de dispersión N° de contactos/ ventas
Diagrama de dispersion
25
y = 2.195x - 12.213
20
Ventas(miles de dolares)
15
10
0
0 10 20 30 40 50 60 70
-5
N° de Contactos
Fuente: Estudio de la empresa
3. El departamento de producción de una fábrica desea explorar la relación entre el
número de obreros que ensamblan y la cantidad de artículos producidos. Como
experimento se asignaron grupos de trabajadores para verificar su producción y los
resultados obtenidos fueron los siguientes:
Numero de Producción en 𝑋𝑌 𝑋2 𝑌2
N° ensambladores (unidades)
1 2 15 30 4 225
2 4 25 100 16 625
3 1 10 10 1 100
4 5 40 200 25 1600
5 3 30 90 9 900
∑ 15 120 430 55 3450
𝑋̅ = 3 𝑌̅ = 24
Solución:
a. Determine la variable dependiente(y) y la variable independiente(x):
Y = la producción de artículos
X = numero de ensambladores
b. Estime la ecuación de la regresión lineal 𝑌 = 𝐴 + 𝐵𝑋:
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −∑𝑖=1 𝑋𝑖 ∑𝑖=1 𝑌𝑖
𝐵= 2
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑋𝑖 − (∑𝑖=1 𝑋𝑖 )
5 ∗ 430 − 15 ∗ 120
𝐵=
5 ∗ 55 − (15)2
𝐵=7
𝐴 = 𝑌̅ − 𝐵𝑋̅
𝐴 = 24 − (7) ∗ 3
𝐴= 3
𝒀 = 𝟑 + 𝟕𝑿
Interpretación:
El coeficiente A significa que la producción mínima de artículos
cuando no tenga ningún ensamblador es de 3 unidades.
En el coeficiente B significa por cada incremento en el numero de
ensambladores la variación en la producción es de 7.
c. Para 6 operarios ¿Cuál es la producción esperada?
𝑌 = 3 + 7𝑋
𝑌 = 3 + 7(6)
𝑌 = 45
La producción estimada es de 45 unidades cuando se cuenta con 6
ensambladores.
d. Determine e interprete el coeficiente de determinación y de correlación.
𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − ∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1 𝑌𝑖
𝑟=
√𝑛 ∗ ∑𝑛𝑖=1 𝑋𝑖2 − (∑𝑛𝑖=1 𝑋𝑖 )2 ∗ √𝑛 ∗ ∑𝑛𝑖=1 𝑌𝑖2 − (∑𝑛𝑖=1 𝑌𝑖 )2
5 ∗ 430 − 15 ∗ 120
𝑟=
√5 ∗ 55 − 152 ∗ √5 ∗ 3450 − 1202
𝑟 = 0.927
Dado que el coeficiente de correlación resulta 0.927 entonces decimos
que la relación que existe entre el número de ensambladores y la
producción estimada es alta.
𝑅2 = 𝑟 2 ∗ 100
𝑅2 = (0.927)2 ∗ 100
𝑅2 = 85.93 %
obtenido el coeficiente de determinación nos proporciona la siguiente
interpretación que el número de ensambladores nos explica en un
85.93% la producción obtenida en la fábrica.
e. Diagrama de dispersión con tendencia creciente
Gráfico N°02 – Diagrama de dispersión N° de ensambladores/ producción
Diagrama de dispersion
45
40
y = 7x + 3
Produccion(unidades)
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6
N° de ensambladores
Fuente: Estudio del Departamento de Producción de una fábrica.
4. El jefe de personal de una empresa cree que existe una relación entre la ausencia al
trabajo y la edad del empleado. Con el propósito de estudiar el problema tomo en
cuenta la edad de diez trabajadores escogidos al azar y contabilizo los días de
ausencia durante el año. Los resultados fueron como se observa en la tabla que
sigue:
𝑋𝑌 𝑋2 𝑌2
N° Edad en años Ausencia en días
1 25 20 500 625 400
2 50 5 250 2500 25
3 35 10 350 1225 100
4 20 20 400 400 400
5 45 8 360 2025 64
6 50 2 100 2500 4
7 30 15 450 900 225
8 40 12 480 1600 144
9 62 1 62 3844 1
10 40 8 320 1600 64
∑ 397 101 3272 17219 1427
𝑋̅ = 39.7 𝑌̅ = 10.1
a. Construya el diagrama de dispersión
Diagrama de dispersión con tendencia decreciente
Gráfico N°03 – Diagrama de dispersión Edad en años/ Ausencia en días
Diagrama de dispersion
25
20
y = -0.51x + 30.35
15
EDAD (años)
10
0
0 10 20 30 40 50 60 70
-5
Ausencia en dias
Fuente: Estudio del jefe de personal de una empresa
b. Obtenga la ecuación de la recta de regresión.
𝑛 ∑𝑛 𝑛 𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −∑𝑖=1 𝑋𝑖 ∑𝑖=1 𝑌𝑖
𝐵= 2
𝑛 ∑𝑛 2 𝑛
𝑖=1 𝑋𝑖 − (∑𝑖=1 𝑋𝑖 )
10 ∗ 3272 − 397 ∗ 101
𝐵=
10 ∗ 17219 − (397)2
𝐵 = −0.51
𝐴 = 𝑌̅ − 𝐵𝑋̅
𝐴 = 10.1 − (−0.51) ∗ 39.7
𝐴 = 30.35
𝑌 = 30.35 − 0.51𝑋
Interpretación:
El coeficiente A significa que cuando no exista personal los días de
ausencia estarán entre 30-31 días.
En el coeficiente B significa por cada incremento en los días de
ausencia del personal la variación en las edades es de -0.51.
c. Si un trabajador tiene 38 años, ¿cuántos días se espera que falte al año?
𝑌 = 30.35 − 0.51𝑋
𝑌 = 30.35 − 0.51(38)
𝑌 = 10.97 ≈ 11 𝑑𝑖𝑎𝑠
Un trabajador con 38 años se ausentará 11 días durante el año.
d. Si un trabajador falto 3 días al año ¿Qué edad se puede esperar que tenga este
trabajador?
𝑌 = 30.35 − 0.51𝑋
3 = 30.35 − 0.51𝑋
𝑋 = 54 𝑎ñ𝑜𝑠
Un trabajador con 54 años puede faltar 3 días al año.
e. Determine e interprete el coeficiente de determinación y de correlación.
𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − ∑𝑛𝑖=1 𝑋𝑖 ∑𝑛𝑖=1 𝑌𝑖
𝑟=
√𝑛 ∗ ∑𝑛𝑖=1 𝑋𝑖2 − (∑𝑛𝑖=1 𝑋𝑖 )2 ∗ √𝑛 ∗ ∑𝑛𝑖=1 𝑌𝑖2 − (∑𝑛𝑖=1 𝑌𝑖 )2
10 ∗ 3272 − 397 ∗ 101
𝑟=
√10 ∗ 17219 − 3972 ∗ √10 ∗ 1427 − 1012
𝑟 = −0.958
Dado que el coeficiente de correlación resulta -0.958 entonces decimos
que la relación que existe entre la edad en años y la ausencia en días
es alta inversa.
𝑅2 = 𝑟 2 ∗ 100
𝑅2 = (−0.958)2 ∗ 100
𝑅2 = 91.78 %
obtenido el coeficiente de determinación nos proporciona la siguiente
interpretación que la edad de los empleados nos explica en un 91.78%
la ausencia en días de estos a la empresa.