Regresión y Correlación
Regresión y Correlación
Regresión y Correlación
Existen dos técnicas estadísticas que sirven para analizar la relación entre dos o más
variables, la relación puede ser del tipo funcional, si esta relación es entre una variable
cuantitativa y otra u otras variables también cuantitativas entonces, el análisis se llama
regresión, que a su vez puede ser lineal o no lineal, simple o múltiple; en cambio si el
análisis es para determinar el grado de asociación entre dos o más variables entonces, el
análisis se llama correlación.
1. CORRELACIÓN
El análisis de correlación es el procedimiento mediante el cual se determina el grado de
asociación entre dos o más variables, en ese sentido la correlación es una medida de la
relación (covariación) lineal entre dos variables cuantitativas continuas (x, y) y se
mide con el llamado coeficiente de correlación de Pearson. Si la medida de la relación es
entre variables cualitativas medidas en escala ordinal el coeficiente se llama de
Spearman, la correlación indica la fuerza y la dirección o naturaleza de una relación
lineal. La manera más sencilla de saber si dos variables están correlacionadas es
determinar si co-varíanza (variación conjuntamente). Es importante hacer notar que
esta covariación no implica necesariamente causalidad, pues la correlación puede ser
fortuita, como en el caso clásico de la correlación entre el número de helados vendidos y
los incendios ocurridos, debido al efecto de una tercera variable, que es la temperatura
ambiental.
REGRESIÓN Y CORRELACIÓN
La correlación se refiere a que si existe un vínculo entre dos o más variables.
Una de las herramientas que nos permite inferir si existe dicho vínculo es
justamente el análisis de correlación. Este procedimiento tiene por objetivo
indicar si existe relación entre dos variables, así como la naturaleza de dicha
relación, y la fuerza de dicha relación. Para poder realizar un análisis de
correlación confiable, lo primero que se necesita es realizar muchas
observaciones de dos variables en forma pareada. Un ejemplo sería visitar
muchos supermercados y revisar tanto el precio de cierta fruta como el precio
de un litro de jugo, otro ejemplo es relacionar la edad de los niños con el peso,
así como su estatura. La colección de datos que se obtenga para aquellas
observaciones puede expresarse en forma de una matriz (o tabla), que puede
someterse a análisis utilizando software de estadístico
REGRESIÓN Y CORRELACIÓN
La correlación es en esencia una medida normalizada de asociación o covariación lineal
entre dos variables. Esta medida o índice de correlación r puede variar entre -1 y +1, ambos
extremos indicando correlaciones perfectas, negativa y positiva respectivamente. Un valor de r =
0 indica que no existe relación lineal entre las dos variables. Una correlación positiva indica que
ambas variables varían en el mismo sentido, es decir son directamente proporcionales. Una
correlación negativa significa que ambas variables varían en sentidos opuestos, son
inversamente proporcionales. Lo interesante del índice de correlación es que r es en sí mismo
una medida del tamaño del efecto, que suele interpretarse de la siguiente manera:
No existe correlación si r = 0
correlación despreciable o casi nula si: r < |0.1|
correlación baja si : |0.1| < r ≤ |0.3|
correlación mediana o regular si: |0.3| < r ≤ |0.7|
correlación fuerte o alta si: 0.7 < r ≤|0.8|
correlación muy fuerte o muy alta si: 0.8 < r ≤|0.9|
correlación casi perfecta si: r → 1.0
correlación perfecta si r = 1.0
Por otro lado, la correlación se refiere a que si existe un vínculo entre dos o más variables. Una
de las herramientas que nos permite inferir si existe dicho vínculo es justamente el análisis de
correlación. Este procedimiento tiene por objetivo indicar si existe relación entre dos variables,
así como la naturaleza de dicha relación, y la fuerza de dicha relación. Para poder realizar un
análisis de correlación confiable, lo primero que se necesita es realizar muchas observaciones
de dos variables en forma pareada.
REGRESIÓN Y CORRELACIÓN
COEFICIENTE DE CORRELACIÓN DE PEARSON
𝝆 = coeficiente de correlación poblacional
𝑪𝒐𝒗(𝒙,𝒚)
𝝆= 𝝈𝒙 𝝈𝒚
; -1 ≤ 𝝆 ≤ 𝟏
𝐸 𝑋, 𝑌 − 𝐸 𝑋 𝐸(𝑌)
𝜌=
𝐸 𝑋2 − 𝐸 𝑋 2 [𝐸 𝑌 2 − 𝐸(𝑌)2 ]
𝑋𝑌 −𝑛 𝑋 𝑌
𝑟=
[ 𝑋 2 −𝑛 𝑋 2 ][ 𝑌 2 −𝑛 𝑌 2 ]
𝑆𝑥𝑦
r=
𝑆𝑥𝑥 𝑆𝑦𝑦
1) Ho: 𝜌 = 0
H1: 𝜌 ≠ 0
2) α = 0.05
3) El estadístico es una t con 15-2 = 13 grados de libertad
4) los puntos críticos son: ± 2.16, si te es mayor que 2.16 o menor que -2.16 se rechazará
Ho
0.967 15−3
5) te = = 13.6848
1−(0.967)2
6) como 13.6848 es mayor a 2.16 se rechaza Ho, en consecuencia, el coeficiente de
correlación es bastante diferente de cero.
REGRESIÓN Y CORRELACIÓN
Cuando se quiere probar que 𝜌 tiene un valor distinto de cero y cuando se quiere
construir un intervalo de confianza para estimar 𝜌, se usa lo que se llama la
transformación z, es decir, se puede hacer una transformación de la distribución de r en
una distribución aproximadamente normal con la siguiente expresión.
1 1+𝑟
Zr = ln
( )
2 1−𝑟
Este Zr tiene una distribución aproximadamente normal con E(Zr) = Z𝜌 y el error estándar
1 1 1+𝜌
estimado es 𝜎𝑧 = y Z𝜌 = 𝑙𝑛
𝑛−3 2 1−𝜌
𝑧 𝑟 −𝑧𝜌
Para el valor experimental se usa la siguiente expresión Z = 𝜎𝑧
→N(0,1)
Ejemplo usar los datos del ejemplo anterior
1) Ho: 𝜌 = 0.90
H1: 𝜌 ≠ 0.90
2) α = 0.05
3) El estadístico z tiene distribución normal N(0,1)
4) los puntos críticos son: ± 1.96, si ze es mayor que 1.96 o menor que -1.96 se rechazará
Ho
2.043878628 −1.47221949 0.571659138
5) ze = = = 1.98
1/ 15−3 0.288675
1 1+0.967 1 1+0.9 1
Zr = 2 ln
(1−0.967 ) = 2.043878628; Z𝜌 = 2 ln
(1−0.9) = 1.47221949; 𝜎𝑧 = 15−3
=1/ 12 =
0.288675
6) Como 1.98 es mayor que 1.96 se rechaza Ho, en consecuencia, el coeficiente de
correlación es diferente de 0.90, más específicamente mayor que 0.90
REGRESIÓN Y CORRELACIÓN
INTERVALOS CONFIDENCIALES PARA 𝝆
Los intervalos confidenciales para estimar 𝑍𝜌 con un 95% de seguridad es como sigue:
En ambos casos el r es negativo por lo tanto hay una relación inversa, eso indica que cuando aumenta la
edad el EEG disminuye, en cuanto a fuerza de la relación es alta o buena.
REGRESIÓN Y CORRELACIÓN
xx
N° Edad (X) EEG(Y) X2 Y2 XY R(X) R(Y) d d2
1 20 98 400 9604 1960 1 19 -18 324
2 21 75 441 5625 1575 2 15 -13 169
3 22 95 484 9025 2090 3 17 -14 196
4 24 100 576 10000 2400 4 20 -16 256
5 27 97 729 9409 2619 5 18 -13 169
6 30 65 900 4225 1950 6 7 -1 1
7 31 64 961 4096 1984 7 6 1 1
8 33 70 1089 4900 2310 8 12 -4 16
9 35 85 1225 7225 2975 9 16 -7 49
10 38 74 1444 5476 2812 10 14 -4 16
11 40 68 1600 4624 2720 11 10 1 1
12 42 66 1764 4356 2772 12 8 4 16
13 44 71 1936 5041 3124 13 13 0 0
14 46 62 2116 3844 2852 14 4 10 100
15 48 69 2304 4761 3312 15 11 4 16
16 51 54 2601 2916 2754 16 2 14 196
17 53 63 2809 3969 3339 17 5 12 144
18 54 52 2916 2704 2808 18 1 17 289
19 58 67 3364 4489 3886 19 9 10 100
20 63 55 3969 3025 3465 20 3 17 289
T 780 1450 33628 109314 53707 2348
REGRESIÓN Y CORRELACIÓN
Ejemplo 3
Los siguientes datos corresponden a una muestra aleatoria de 12 estudiantes para
quienes un juez asignó un puntaje ordinal en base a la hostilidad que manifiestan hacia
su profesor y a sus compañeros de clase, siendo 1 una menor hostilidad y 12 la mayor
hostilidad, determine el nivel de relación que hay entre estas dos variables usando el
coeficiente de correlación de Spearman.
Host. Prof. 2 8 12 3 1 6 7 10 4 9 11 5
Host. Comp. 6 5 10 7 3 4 9 8 1 11 12 2
Solución
N° X Y R(X) R(Y) d d2
1 2 6 2 6 -4 16
2 8 5 8 5 3 9
3 12 10 12 10 2 4
4 3 7 3 7 -4 16
5 1 3 1 3 -2 4
6 6 4 6 4 2 4
7 7 9 7 9 -2 4
8 10 8 10 8 2 4
9 4 1 4 1 3 9
10 9 11 9 11 -2 4
11 11 12 11 12 -1 1
12 5 2 5 2 3 9
T 84
6(84)
R=1- 12(144 −1)
= 1 – 0.2937 = 0.7063
Se nota que hay una alta correlación directa entre las hostilidades hacia el profesor y a
V.A. BIDIMENSIONALES
Función de Cuantía Conjunta: P(X,Y), o función de masa conjunta es una función definida
para variables aleatorias discretas, para lo cual debe cumplir dos condiciones:
a) P(X,Y) ≥ 0; b) ∀𝑥 ∀𝑦 𝑃 𝑋, 𝑌 = 1
Función de Densidad Conjunta: f(X,Y), es una función definida para variables aleatorias
continuas, para lo cual debe cumplir dos condiciones:
𝐿𝑠 𝑥 𝐿𝑠 𝑦
a) f(X,Y) ≥ 0; b) 𝑋 𝑓 𝑦 𝑖𝐿 𝑥 𝑖𝐿, 𝑌 𝑑𝑥𝑑𝑦 = 1
𝑏 𝑑
P(a< 𝑥 < 𝑏, 𝑐 < 𝑦 < 𝑑 = 𝑋 𝑓 𝑐 𝑎, 𝑌 𝑑𝑥𝑑𝑦
Función de Distribución F(X,Y)
F(Xo,Yo) = P(X ≤ 𝑋𝑜, 𝑌 ≤ 𝑌𝑜
𝑋𝑜 𝑌𝑜
P(X ≤ 𝑋𝑜, 𝑌 ≤ 𝑌𝑜 = 𝐿𝑖 𝑥 𝐿𝑖 𝑦 𝑃 𝑋, 𝑌 caso discreto
𝑋𝑜 𝑌𝑜
P(X ≤ 𝑋𝑜, 𝑌 ≤ 𝑌𝑜 = 𝑋 𝑓 𝑦 𝑖𝐿 𝑥 𝑖𝐿, 𝑌 𝑑𝑥𝑑𝑦 caso continuo
Nota.
Tiene las mismas propiedades de una función de distribución unidimensional.
𝑑2 𝐹 𝑋,𝑌
= f(X,Y)
𝑑𝑥𝑑𝑦
V.A. BIDIMENSIONALES
Funciones Marginales.
V.A. Discretas. V.A. Continuas
𝑳𝒔 𝒚
P(X) = ∀𝒚 𝑷 𝑿, 𝒀 f(X) = 𝑿 𝒇 𝒚 𝒊𝑳, 𝒀 𝒅𝒚
𝑳𝒔 𝒙
P(Y) = ∀𝒙 𝑷 𝑿, 𝒀 f(Y) = 𝑿 𝒇 𝒙 𝒊𝑳, 𝒀 𝒅𝒙
Funciones Condicionales
𝑷 𝑿,𝒀 𝑷 𝑿,𝒀 𝑬 𝑿,𝒀
P(X/Y) = ; P(Y/X) = E(X/Y) = caso discreto
𝑷 𝒀 𝑷 𝑿 𝑬 𝒀
𝒇 𝑿,𝒀 𝒇 𝑿,𝒀 𝑬 𝑿,𝒀
f(X/Y) = ; f(Y/X) = E(Y/X) = caso continuo
𝒇 𝒀 𝒇 𝑿 𝑬 𝑿
Probabilidades Condicionales
𝑷 𝑿,𝒀 𝑷 𝑿,𝒀
P(X/Y) = ; P(Y/X) = para ambos casos
𝑷 𝒀 𝑷 𝑿
𝑪𝒐𝒗 𝑿,𝒀
V(X±Y) = V(X) + V(Y) ±𝟐 𝑪𝒐𝒗 𝑿, 𝒀 𝒓= r muestral (Pearson)
𝑺𝒙 𝑺𝒚
Cov(X,Y) = E(X,Y) – E(X)E(Y);
E(X,Y) = ∀𝒙 ∀𝒚 𝑿𝒀𝑷 𝑿, 𝒀 caso discreto
𝑳𝒔 𝒙 𝑳𝒔 𝒚
E(X,Y) = 𝑿 𝒇𝒀𝑿 𝒚 𝒊𝑳 𝒙 𝒊𝑳, 𝒀 𝒅𝒙𝒅𝒚 caso continuo
Sí las v.a. son independientes entonces:
E(X,Y) = E(X)E(Y), también f(x,y) = f(x)f(y); P(x,y) = P(x)P(y); y Cov(x,y) = 0
REGRESIÓN Y CORRELACIÓN
Ejemplo 4
El siguiente cuadro representa la distribución de probabilidades conjunta de las
variables X e Y, que indican el número de paralizaciones durante un día de trabajo de las
2 máquinas que tiene una fábrica.
X 1 2 3 4
Y
1 0,10 0,10 0,05 0,05
2 0,05 0,10 0,05 0,10
3 0,05 0,05 0,20 0,10
Hallar: a) V(x + y) y b) el coeficiente de correlación de Pearson.
Solución.
a)
X P(x) XP(x) X2P(x)
1 0,20 0,20 0,20
2 0,25 0,50 1,00
3 0,30 0,90 2,70
4 0,25 1,00 4,00
Total 1,00 2,60 7,90
E(x) = 2,60
V(x) = 7,90 – (2,6)2 = 1,14
REGRESIÓN Y CORRELACIÓN
Y P(y) YP(y) Y2P(y)
1 0,30 0,30 0,30
2 0,30 0,60 1,20
3 0,40 1,20 3,60
Total 1,00 2,10 5,10
E(y) = 2,10
V(x) = 5,10 – (2,1)2 = 0,69
XY P(x, y) XYP(x, y)
1 0,10 0,10
2 0,15 0,30
3 0,10 0,30
4 0,15 0,60
6 0,10 0,60
8 0,10 0,80
9 0,20 1,80
12 0,10 1,20
Total 1,00 5,70
E(x, y) = 5,70
Cov(x, y) = 5,70 – (2,6)(2,1) = 0,24
REGRESIÓN Y CORRELACIÓN
Sea z = x + y, entonces:
Z P(z) ZP(z) Z2P(z)
2 0,10 0,20 0,40
3 0,15 0,45 1,35
4 0,20 0,80 3,20
5 0,15 0,75 3,75
6 0,30 1,80 10,80
7 0,10 0,70 4,90
Total 1,00 4,70 24,40
E(z) = 4,70
V(z) = 24,40 – (4,7)2 = 2,31
V(x + y) = 1,14 + 0,69 + 2(0,24) = 2,31
b) 0,24
r 0,2706
(1,14)(0,69 )
En este caso existe una correlación positiva entre las variables, es decir a medida que
aumenta las paralizaciones de una de las máquinas las paralizaciones de la otra
también aumentan, en tanto que la fuerza de correlación es regular.
REGRESIÓN Y CORRELACIÓN
Ejemplo 5.
Un fabricante de muebles está interesado en el número de muebles que le serán entregados
durante los meses de enero (X) y febrero (Y), por estadísticas sabe que el cuadro de distribución
de probabilidades conjunta está dada según el siguiente cuadro.
X 0 1 2 3 4 5
Y
0 0,00 0,01 0,03 0,05 0,07 0,09
1 0,01 0,02 0,04 0,05 0,06 0,08
2 0,01 0,03 0,05 0,05 0,05 0,06
3 0,01 0,02 0,04 0,06 0,06 0,05
E(x) = 3,39
REGRESIÓN Y CORRELACIÓN
V(x) = 13,45 – (3,39)2 = 1,9579
Sx = 1,39925
E(y) = 1,48
Sy = 1,1088733
XY P(x, y) XYP(x, y)
0 0,28 0,00
1 0,02 0,02
2 0,07 0,14
3 0,07 0,21
4 0,11 0,44
5 0,08 0,40
6 0,09 0,54
8 0,05 0,40
9 0,06 0,54
10 0,06 0,60
12 0,06 0,72
15 0,05 0,752
Total 1,00 4,76
E(x; y) = 4,76
REGRESIÓN Y CORRELACIÓN
Cov(x; y) = 4,76 – (3,39)(1,48) = -0,2572
Si, x + y = z
c) r 0,2572
0,16577
(1,39925)(1,1088733)
2( x y 2 xy ) 0 x 1, 0 y 1
f ( x, y )
0 en otro caso
Solución:
P( x 1 / 2, y 1 / 2) = 3 / 16
P( x 1 / 2 / y 1 / 2) ) 3/8
P( y 1 / 2) 1/ 2
1 1
P( x 1 / 2, y 1 / 2) (2 x 2 y 4 xy )dxdy
1/ 2 1/ 2
1 1 1 1 1 1
= 2 xdx dy 2 dx y dy 4 xdx y dy
1/ 2 1/ 2 1/ 2 1/ 2 1/ 2 1/ 2
= 3/16
REGRESIÓN Y CORRELACIÓN
1 1 1
f ( x) 2 x dy 2 ydy 4 x ydy 1 0 x 1, 0 en otro caso.
0 0 0
1 1 1
f ( y) 2 xdx 2 y dx 4 y xdx 1 0 y 1, 0 en otro caso
0 0 0
1 1 1 1 1 1 𝟏
𝟏
P( y 1/ 2) 2 xdx dy 2 dx ydy 4 xdx ydy 1/ 2 = 𝟏/𝟐 𝒅𝒚 = y/𝟏/𝟐 = 1 – ½ = 1/2
0 1/ 2 0 1/ 2 0 1/ 2
1
E ( x) xdx 1 / 2
0
1
E ( y ) ydy 1 / 2
0
1
E ( x ) x 2dx 1 / 3
2
1
E ( y ) y 2dy 1 / 3
2
0
REGRESIÓN Y CORRELACIÓN
V(x) = 1/3 – 1/4 = 1/12
1 1 1 1 1 1
𝐸 𝑥, 𝑦 = 2 0 𝑥 2𝑑𝑥 0 𝑦𝑑𝑦 + 2 0 𝑥𝑑𝑥 0 𝑦 2𝑑𝑦 − 4 0 𝑥 2𝑑𝑥 0 𝑦 2𝑑𝑦 = 2/9
−1/36
𝑟= = −1/3 = -0.333, esto implica que las variables son inversamente proporcionales, pero
1/12
la fuerza de la relación es regular
REGRESIÓN Y CORRELACIÓN
Ejemplo 7
(3 / 28)( xy y 2 ) 0 x 2, 0 y 2
f ( x, y )
0 en otro caso
Solución:
P( x 1, y 1) = 37 / 112
P( x 1 / y 1) 37 / 92
P( y 1) 92 / 112
1 2 1 2 1 2
3 3 3
P( x 1, y 1) ( xy y )dxdy 28
xdx ydy dx y dy
2 2
28 0 1 0 1
28 0 1
= 37/112
2 2
3 3 2 2 3 2 2
P( y 1) ( xy y )dxdy xdx y dy
2
dx y dy
2
28 28 0 1 28 0 1
0 1
= 23/28 = 92/112
2 2 2
3 3 3 = 3x/14 + 2/7
f ( x) ( xy y )dy x ydy
28
2
y 2 dy
28 0
28 0 0
2 2
3 2
E ( x ) x3dx x 2dx 34 / 21
2
14 0 70
Sx = 0,5594
2 2 2
3 3 3y 2 2)
f ( y) ( xy y )dx y xdx
2
dx = (3/14)(y + y
28 0 28 0 28 0
2 2
3 3
E( y ) y 4 dy 78 / 35
2 3
y dy
14 0 14 0
Sy = 0,43331
2 2 2 2
= 3 x 2 dx y 2 dy 3 xdx y 3 dy
2 2
3
E ( x, y )
28 0 0
xy ( xy y 2 )dxdy 28 0 0 28 0 0
= 34/21
r = -0,0136/(0,5594)(0,43331) = - 0,056
180
160
140
120
Cantidad
100
80
60
40
20
0
0 10 20 30 40 50 60 70 80
Precio en soles
REGRESIÓN Y CORRELACIÓN
15𝑥71000 −600 𝑥1570
b= 15𝑥27550 −(600 )2
= 123000/53250 = 2.30986 = 2.31
a = 104.667 – 2.31x40 = 12.2723
= 12.27 + 2.31X
𝑌
Ejemplo. Si el precio es de 80 soles la demanda será de
= 12.27 + 2.31(80) = 197 artículos
𝑌
COEFICIENTE DE DETERMINACIÓN: R2
Es una medida que sirve para determinar el grado de ajuste de los puntos observados
con la ecuación de regresión estimada, se puede expresar en términos porcentuales
multiplicando el valor obtenido por cien, entonces indicará el porcentaje de puntos que
son colineales con la recta de regresión estimada y el resto corresponde al error, es decir
a los puntos no colineales.
2
𝑆𝑥𝑦 𝑆𝐶𝑅 𝐶𝑜𝑣 (𝑥,𝑦 )2
R2 = = = ; 0 ≤ 𝑅2 ≤ 1
𝑆𝑥𝑥 𝑆𝑦𝑦 𝑆𝐶𝑇 𝑉 𝑋 𝑉(𝑌)
+2 𝑛
𝑖 =1(𝑌𝑖 − 𝑌𝑖 )(𝑌𝑖 − 𝑌 )
𝑛
𝑖=1 (𝑌𝑖 − 𝑌 )2 = 𝑛 2
𝑖=1 (𝑌𝑖 − 𝑌𝑖 ) + 𝑛
𝑖=1 (𝑌𝑖 − 𝑌 )
2
𝑦 = 𝑎 + 𝑏𝑥
(X,Y)
𝑦 = 61 + 1.48𝑥
y
y-𝑦
y-𝑦
𝑌 𝑦-𝑦
∆𝑌
∆𝑋
∆𝑌
b=
a ∆𝑋
x X
REGRESIÓN Y CORRELACIÓN
Ejemplo 3. Usar los mismos datos del ejemplo anterior para calcula el coeficiente de
determinación
𝑛 𝑛 2
SCT = 𝑆𝑦𝑦 = 𝑖=1(𝑌𝑖 − 𝑌 )2 = 𝑖=1 𝑌𝑖 - n𝑌 2 = 184600 – 15(1570/15)2 = 20273.3333
V(Y) = 20273.333/15 = 1351.555; SCE = 1332.417
SCR = SCT – SCE = 20273.333 – 1332.417 = 18940.916
2
SCR = 𝑆𝑋𝑌 / 𝑆𝑥𝑥 = b2𝑆𝑥𝑥 = (8200)2/3550 = 18940.845, comparado con el anterior es una
buena aproximación. QQ
b = 𝑆𝑥𝑦 /𝑆𝑥𝑥 = 8200/3550 = 2.31
𝑛 𝑛
𝑆𝑥𝑦 = 𝑖=1[ 𝑋𝑖 − 𝑋 𝑌𝑖 − 𝑌 ] = 𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋 𝑌
𝑆𝑥𝑦 = 71000 – 15(40)(1570/15) = 71000 – 62800 = 8200 → Cov(x,y) = 8200/15 = 546.6667
𝑆𝑥𝑥 = 𝑛𝑖=1(𝑋𝑖 − 𝑋)2 = 𝑛𝑖=1 𝑋𝑖2 - n𝑋 2 = 27550 – 15(40)2 = 3550 → V(X) = 3550/15 =
236.6667
R2 = SCR/SCT = 18940.916/20273.333 = 0.934
2
𝑆𝑥𝑦
R2 =𝑆 = (8200)2/(3550)(20273.333) = 0.934
𝑥𝑥 𝑆𝑦𝑦
(𝑪𝒐𝒗(𝒙,𝒚)𝟐 (𝟓𝟒𝟔.𝟔𝟔𝟔𝟕)𝟐
R2 = 𝑽 𝑿 𝑽(𝒀)
= (𝟐𝟑𝟔.𝟔𝟔𝟔𝟕)(𝟏𝟑𝟓𝟏.𝟓𝟓𝟓𝟔) = 0.934
Como se puede apreciar se obtiene el mismo valor
REGRESIÓN Y CORRELACIÓN
Ejemplo 4.
Una empresa de reparto de encomiendas a domicilio estudia la relación entre la
distancia de las entregas (X) y el tiempo empleado (Y), con el fin de pronosticar el tiempo
de entrega de acuerdo a la distancia de entrega, para lo cual observó 10 entregas, los
resultado son los siguientes, con los cuales estime la recta de regresión para pronosticar
el tiempo de entrega de una encomienda que dista 20 km, asimismo obtenga el
coeficiente de determinación y el coeficiente de correlación de Pearson y de Spearman.
X (km) 28 14 12 31 30 19 24 15 16 11
Y(min) 60 23 12 75 70 40 55 24 25 16
Solución.
N° X (km) Y (min) XY X2 Y2 R(Xi) R(Yi) di 𝒅𝟐𝒊
1 28 60 1680 784 3600 8 8 0 0
2 14 23 322 196 529 3 3 0 0
3 12 12 144 144 144 2 1 1 1
4 31 75 2325 961 5625 10 10 0 0
5 30 70 2100 900 4900 9 9 0 0
6 19 40 760 361 1600 6 6 0 0
7 24 55 1320 576 3025 7 7 0 0
8 15 24 360 225 576 4 4 0 0
9 16 25 400 256 625 5 5 0 0
10 11 16 176 121 256 1 2 -1 1
T 200 400 9587 4524 20880 - - - 2
REGRESIÓN Y CORRELACIÓN
𝑿 = 200/10 = 20 km; 𝑌 = 400/10 = 40 min
Sxx = 4524 – 10x(20)2 = 524
Syy = 20880 – 10x(40)2 = 4880
Sxy = 9587 – 10x20x40 = 1587
b = 1587/524 = 3.02863
a = 40 – 3.02863x20 = - 20.5725
𝑌 = -20.5725 + 3.02863X
Para X = 20 km; = 𝑌 = -20.5725 + 3.02863x20 = 40 min.
2
𝑆𝑥𝑦 (1587 )2
R2 = 𝑆𝑥𝑥 𝑆𝑦𝑦
= (524)(4880 ) = 0.9849
r de Pearson
r = 0.9849
r = 0.9924
r de Spearman
6𝑥2
r = 1 - 10 3 −10 = 1 – 12/990 = 1 – 0.00202 = 0.99394
REGRESIÓN
Ejemplo 5.
El siguiente conjunto de datos corresponde a las ventas realizadas de un producto por un distribuidor, durante 12 años:
estime la cantidad de productos que se venderían en el año 2025, obtenga el coeficiente de determinación e interprételo.
𝒏 𝟐 𝑛 2
𝟐 𝒊=𝟏 𝒆𝒊 𝑖=1 (𝑌 𝑖 −𝑌 𝑖 )
𝝈 = =
𝒏−𝟐 𝒏−𝟐
𝟏𝟑𝟑𝟐.𝟒𝟏𝟕
𝝈𝟐 = 𝟏𝟓−𝟐
= 102.4936
𝑺𝟐
𝒙𝒚
𝑺𝒚𝒚 −
𝑺𝒙𝒙
𝝈𝟐 =
𝒏−𝟐
(𝟖𝟐𝟎𝟎)𝟐
𝟐𝟎𝟐𝟕𝟑.𝟑𝟑𝟑−
𝝈𝟐 = 𝟐𝟓𝟓𝟎
= 102.499
𝟏𝟓−𝟐
𝝈 = 10.124
Los estimadores a y b de α y β son estimadores MELI, por lo tanto son insesgados; es
decir, E(a) = α y E(b) = β, también los estimadores de sus varianzas deben ser insesgados
𝒏 𝟐
𝝈𝟐 𝒊=𝟏 𝑿𝒊
𝜎𝑎2 =
𝑛 𝑆𝑥𝑥
𝝈𝟐
𝜎𝑏2 =
𝑆𝑥𝑥
(102 .499)(27550 )
𝜎𝑎2 = = 53.03 → 𝜎𝑎 = 7.282
15(3550 )
a) Ho: α = 0, Ho: β = 0
H1: α ≠ 0, Ho: β ≠ 0
RR = 0.025 RR = 0.025
Región de no rechazo de Ho
-2.16 2.16
12.27 2.31
e) para α, el te es te = = 1.685; para β, el te es te = 0.16992 = 13.595
7.282
f) Como 1.685 cae dentro de la región de no rechazo de Ho, entonces no hay evidencia
suficiente para rechazarlo, en consecuencia, el parámetro α no es significativo en el
modelo. En cambio, 13.595 cae fuera de la región de no rechazo, es decir cae en la región
de rechazo, por lo tanto, se rechaza Ho y en consecuencia el parámetro β si es
significativo en el modelo.
REGRESIÓN Y CORRELACIÓN
PRUEBA F
RNR = 0.95
RR = 0.05
Región de no rechazo de Ho
0 4.67
REGRESIÓN Y CORRELACIÓN
e) Cuadro del ANVA
F. de V. g. de l. Suma de cuadrados Cuadrados M. Fe
Del ejemplo
F. de V. g. de l. Suma de cuadrados Cuadrados M. Fe
Total 14 20273.333 -- --
Ejemplo.
P[12.27 – 2.16(7.282) ≤ 𝛼 ≤ 12.27 + 2.16(7.282)] = 0.95
P[12.27 – 15.73 ≤ 𝛼 ≤ 12.27 + 15.73] = 0.95
P[-3.46 ≤ 𝛼 ≤ 28] = 0.95
P[2.31 – 2.16(0.16992) ≤ β ≤ 2.31 + 2.16(0.16992)] = 0.95
P[2.31 – 0.367 ≤ β ≤ 2.31 + 0.367] = 0.95
P[1.943 ≤ β ≤ 2.677] = 0.95
REGRESIÓN Y CORRELACIÓN
ESTIMACIÓN INTERVÁLICA PARA (𝛼 + 𝛽𝑋)
Para obtener una estimación interválica para cualquier punto de la recta de regresión,
Xo es necesario tener la desviación estándar del predictor ep, la cual es la siguiente
expresión.
1 (𝑋𝑜 −𝑋)
V(𝑒𝑝 ) = 𝜎𝑝2 = 𝜎 2 [𝑛 + 𝑆𝑥𝑥
]
1 (𝑋𝑜 −𝑋 )
𝜎𝑝 = 𝜎 𝑛
+ 𝑆𝑥𝑥
Ejemplo. Obtenga una estimación interválica con un 95% de seguridad para la oferta de
un artículo cuyo precio es de 50 soles (ejemplo 1).
Solución.
Estimación puntual
𝑌𝑜 = 12.27 + 2.31(50) = 127.77 ~ 128 artículos
REGRESIÓN Y CORRELACIÓN
Estimación interválica
1 (50−40)
𝜎𝑝 = 10.124 + = 2.67
15 3550
𝑌1 𝑒1
𝑌2 𝑒2
𝛽𝑂
𝑌 𝑒3
Para Y = 3 Para 𝛽 = 𝛽1 para e = .
.
. 𝛽2 .
𝑌𝑛 𝑒𝑛
REGRESIÓN Y CORRELACIÓN
Ejemplo. Se tiene el consumo por familia de un producto por mes, así como
el precio del producto en soles con que compra la familia y el ingreso
mensual en miles de soles de dichas familias, con los cuales estime el
modelo de regresión correspondiente.
𝑋2 = 60/12 = 5
∆ = 12(114x326 – 1692) – 36(36x326 – 60x169) + 60(36x169 – 60x114)
= 103236 - 57456 – 45360 = 420
8603 − 1596 − 756 𝑦 96
1
(𝑋 ′ 𝑋)−1 = −1596 312 132 X’Y = 𝑥1 𝑦 = 264
420
−756 132 72 𝑥2 𝑦 523
96
𝛽′𝑋′𝑌 = [21.8, -4.314, -0.171] 264 = 864.2
523
SCE = 878 – 864.2 = 13.8
SCT = 878 – 12(8)2 = 110 = Syy
𝑋′𝑌 - n𝑌 2 = 864.2 – 12(8)2 = 96.2
SCR = 𝛽′
SCR = SCT – SCE = 110 – 13.8 = 96.2
R2 = SCR/SCT = 96.2/110 = 0.8745 → 87.45% de ajuste
R = r = 0.8745 = 0.935 alta correlación positiva
𝜎 2 = SCE/(n-3) = 13.8/9 = 1.533
REGRESIÓN Y CORRELACIÓN
PRUEBA F PARA EL MODELO
c) El estadístico de una F con dos y n-3 grados de libertad, en el ejemplo es con dos y 9
grados de libertad
RNR = 0.95
RR = 0.05
Región de no rechazo de Ho
0 4.26
REGRESIÓN Y CORRELACIÓN
e) Cuadro del ANVA
F. de V. g. de l. Suma de cuadrados Cuadrados M. Fe
K = Nº de parámetros
Del ejemplo
F. de V. g. de l. Suma de cuadrados Cuadrados M. Fe
Total 11 110.0 -- --
GRACIAS