Análisis de Correlación en Un Ámbito Múltiple - Version Revisada
Análisis de Correlación en Un Ámbito Múltiple - Version Revisada
Análisis de Correlación en Un Ámbito Múltiple - Version Revisada
Xk
X1
▪
▪
▪
X3 X2
En este ámbito, es siempre posible estimar coeficientes de correlación lineal simple entre
los posibles pares de variables.
Por ejemplo, es posible estimar el coeficiente de correlación lineal simple entre la variable
dependiente Y y la variable independiente X1,
Parámetro:
𝝆𝒀,𝑿𝟏
1
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Recuerde que este parámetro mide el grado o el nivel de dependencia o de relación lineal existente
entre la variable dependiente Y y la variable independiente X1.
Estimador:
𝑺𝒚𝒙𝟏
𝑹𝒀,𝑿𝟏 =
√𝑺𝒚𝒚 𝑺𝒙𝟏 𝒙𝟏
∑ 𝑌𝑖 ∑ 𝑋1𝑖
𝑆𝑦𝑥1 = ∑ 𝑌𝑖 𝑋1𝑖 −
𝑛
(∑ 𝑌𝑖 )2
𝑆𝑦𝑦 = ∑ 𝑌𝑖2 −
𝑛
2
(∑ 𝑋1𝑖 )
𝑆𝑥1𝑥1 = ∑ 𝑋12𝑖 −
𝑛
Valor estimado:
𝒓𝒀,𝑿𝟏
Parámetro:
𝝆𝒀,𝑿𝟑
Recuerde que este parámetro mide el grado o el nivel de dependencia o de relación lineal existente
entre la variable dependiente Y y la variable independiente X3.
Estimador:
𝑺𝒚𝒙𝟑
𝑹𝒀,𝑿𝟑 =
√𝑺𝒚𝒚 𝑺𝒙𝟑 𝒙𝟑
∑ 𝑌𝑖 ∑ 𝑋3𝑖
𝑆𝑦𝑥3 = ∑ 𝑌𝑖 𝑋3𝑖 −
𝑛
(∑ 𝑌𝑖 )2
𝑆𝑦𝑦 = ∑ 𝑌𝑖2 −
𝑛
2
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
2
(∑ 𝑋3𝑖 )
𝑆𝑥3𝑥3 = ∑ 𝑋32𝑖 −
𝑛
Valor estimado:
𝒓𝒀,𝑿𝟑
Parámetro:
𝝆𝑿𝟏 ,𝑿𝟑
Recuerde que este parámetro mide el grado o el nivel de dependencia o de relación lineal existente
entre la variable independiente X1 y la variable independiente X3.
Estimador:
𝑺𝒙𝟏 𝒙𝟑
𝑹𝑿𝟏 ,𝑿𝟑 =
√𝑺𝒙𝟏 𝒙𝟏 𝑺𝒙𝟑 𝒙𝟑
∑ 𝑋1𝑖 ∑ 𝑋3𝑖
𝑆𝑥1𝑥3 = ∑ 𝑋1𝑖 𝑋3𝑖 −
𝑛
2
(∑ 𝑋1𝑖 )
𝑆𝑥1𝑥1 = ∑ 𝑋12𝑖 −
𝑛
2
(∑ 𝑋3𝑖 )
𝑆𝑥3𝑥3 = ∑ 𝑋32𝑖 −
𝑛
Valor estimado:
𝒓𝑿𝟏,𝑿𝟑
Es bueno recordar que el coeficiente de correlación lineal de una variable consigo misma
es siempre igual a uno (1). Como ejemplo, considere el siguiente caso:
𝑆𝑦𝑦
𝑅𝑌,𝑌 = =1
√𝑆𝑦𝑦 𝑆𝑦𝑦
3
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Una vez estimados los coeficientes de correlación lineal simple entre todos los posibles
pares de variables, es posible volcar los resultados obtenidos en una matriz denominada
matriz de correlación lineal simple, tal como se muestra a continuación:
𝑌 𝑋1 𝑋2 ⋯ 𝑋𝑘
Parámetro:
2
𝜌𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘
Estimador:
Valor medido: Yi ○ 𝑌̂ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2
SSE
SSR
Media: 𝑌̅
●
X2 (X1i,X2i ) X1
𝑺𝑺𝑹
𝑹𝟐𝒀;𝑿𝟏,𝑿𝟐,⋯,𝑿𝒌 =
𝑺𝑺𝑻
4
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Valor estimado:
2
𝑟𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘
Estimador 1:
𝑺𝑺𝑹
𝑹𝒀;𝑿𝟏,𝑿𝟐,⋯,𝑿𝒌 = √
𝑺𝑺𝑻
Estimador 2:
En el gráfico superior se observa que,
2
2
𝑆𝑆𝑅 ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅)
𝑅𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘
= =
𝑆𝑆𝑇 ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2
De donde,
2
∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅ )
𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = √
∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅ )2
5
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = 𝜌𝑌,𝑌̂
Esta igualdad es muy importante para la inferencia estadística en el marco del análisis de
correlación lineal múltiple, ya que se podrán utilizar los estadísticos desarrollados en el
análisis de correlación lineal simple.
Estimador 3:
Retomando la expresión,
𝑆𝑦𝑦̂
𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 =
√𝑆𝑦𝑦 𝑆𝑦̂𝑦̂
Se tiene que,
Es posible demostrar que 𝑌̅ = 𝑌̅̂ ; en palabras, la media de los valores medidos es igual a la
media de los valores estimados.
̂ 𝒊 − 𝒏𝒀
∑𝒏𝒊=𝟏 𝒀𝒊 𝒀 ̅𝟐
𝑹𝒀;𝑿𝟏,𝑿𝟐,⋯,𝑿𝒌 =
̅ 𝟐 )(∑𝒏𝒊=𝟏 𝒀
√(∑𝒏𝒊=𝟏 𝒀𝟐𝒊 − 𝒏𝒀 ̂ 𝟐𝒊 − 𝒏𝒀
̅𝟐)
El coeficiente de correlación lineal parcial simple es una medida del grado o nivel de
dependencia, asociación o relación lineal existente entre dos variables luego de controlar
(remover o quitar) de esta correlación los efectos de otras variables.
Si las variables de interés son X y Y , y los efectos controlados corresponden a las variables
Z1, Z2,…, Zp; el coeficiente de correlación lineal parcial de Y y X luego de controlar los
efectos de Z1, Z2, …, Zp, denotado por 𝝆𝒀,𝑿⁄𝒁𝟏 ,𝒁𝟐 ,⋯𝒁𝒑 , mide grado o nivel de dependencia,
6
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
asociación o relación lineal existente entre las variables Y y X luego de controlar (remover
o quitar) de esta correlación los efectos de las variables Z1, Z2, …, Zp.
El orden de una correlación lineal parcial simple depende del número de variables de
control.
𝝆𝒀,𝑿⁄𝒁𝟏
𝝆𝒀,𝑿⁄𝒁𝟏 ,𝒁𝟐
Parámetro:
𝝆𝒀,𝑿⁄𝒁
Estimador:
Valor estimado:
𝒓𝒀,𝑿⁄𝒁
Nótese que, para estimar un coeficiente de correlación lineal parcial simple, se requiere
conocer la matriz de correlación lineal simple.
7
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Parámetro:
𝝆𝒀,𝑿⁄𝒁,𝑾
Estimador:
Valor estimado:
𝒓𝒀,𝑿⁄𝒁,𝑾
Nótese que para estimar coeficientes de correlación lineal parcial simple de segundo orden
se requiere conocer coeficientes de correlación lineal parcial simple de primer orden.
De esta manera esta manera es posible estimar coeficientes de correlación lineal parcial
simple de diferente orden.
Xk
X1
▪
▪
▪
X3 X2
8
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
A continuación, se muestra una matriz de correlación lineal parcial simple donde la variable
de control es X1.
𝑌 𝑋2 𝑋3 ⋯ 𝑋𝑘
5. Ejercicio 1
Problema:
i Y X1 X2 X3
1 64 57 8 64
2 71 59 10 100
3 53 49 6 36
4 67 62 11 121
5 55 51 8 64
6 58 50 7 49
7 77 55 10 100
8 57 48 9 81
9 56 42 10 100
10 51 42 6 36
11 76 61 12 144
12 68 57 9 81
Σ 753 633 106 976
9
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Solución:
X1
X3 X2
a)
Parámetro:
𝜌𝑌,𝑋1
Estimador:
𝑆𝑦𝑥1
𝑅𝑌,𝑋1 =
√𝑆𝑦𝑦 𝑆𝑥1𝑥1
Valor estimado:
10
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
∑ 𝑌𝑖 ∑ 𝑋1𝑖 753(633)
𝑆𝑦𝑥1 = ∑ 𝑌𝑖 𝑋1𝑖 − = 40270 − = 549,250
𝑛 12
(∑ 𝑌𝑖 )2 7532
𝑆𝑦𝑦 = ∑ 𝑌𝑖2 − = 48139 − = 888,250
𝑛 12
2
(∑ 𝑋1𝑖 ) 6332
𝑆𝑥1𝑥1 = ∑ 𝑋12𝑖 − = 33903 − = 512,25
𝑛 12
Por tanto,
549,250
𝑟𝑌,𝑋1 = = 0,814
√888,250(512,250)
𝑌 𝑋1 𝑋2 𝑋3
b)
Parámetro:
𝜌𝑌;𝑋1,𝑋2,𝑋3
11
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Estimador:
∑𝑛𝑖=1 𝑌𝑖 𝑌̂𝑖 − 𝑛𝑌̅ 2
𝑅𝑌;𝑋1,𝑋2,𝑋3 =
√(∑𝑛𝑖=1 𝑌𝑖2 − 𝑛𝑌̅ 2 )(∑𝑛𝑖=1 𝑌̂𝑖2 − 𝑛𝑌̅ 2 )
Valor estimado:
Es importante aclarar que para obtener los valores estimados (𝑌̂), es necesario estimar
inicialmente los parámetros del siguiente modelo de regresión lineal múltiple:
𝜇𝑌⁄𝑋1,𝑋2,𝑋3 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3
i Y Y2 ̂
𝒀 ̂𝟐
𝒀 ̂
𝒀𝒀
1 64 4096 64,234 4126,007 4110,976
2 71 5041 69,724 4861,436 4750,404
3 53 ▪ ▪ ▪ ▪
4 67 ▪ ▪ ▪ ▪
5 55 ▪ ▪ ▪ ▪
6 58
7 77
8 57
9 56
10 51
11 76
12 68
Σ 753 48139 752,918 47932,411 47938,11
Nótese que,
12
1 753
𝑌̅ = ∑ 𝑌𝑖 = = 62,75
𝑛 12
𝑖=1
Por tanto,
47938,11 − 12(62,75)2
𝑟𝑌;𝑋1,𝑋2,𝑋3 =
√[48139 − 12(62,75)2 ][47932,411 − 12(62,75)2 ]
𝑟𝑌;𝑋1,𝑋2,𝑋3 = 0,883
12
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
c)
Por ejemplo,
Parámetro:
𝜌𝑌,𝑋2⁄𝑋1
Estimador:
Valor estimado:
Por tanto,
0,770 − 0,814(0,614)
𝑟𝑌,𝑋2⁄𝑋1 = = 0,589
√(1 − 0,8142 )(1 − 0,6142 )
De manera similar son estimados los demás elementos de la matriz, la misma que al final
resulta ser,
𝑌 𝑋2 𝑋3
𝑌 1 0,589 0,580
𝑋2 ( . 1 0,991)
𝑋3 . . 1
d)
Parámetro:
Estimador:
13
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Valor estimado:
Por tanto,
0,580 − 0,589(0,991)
𝑟𝑌,𝑋3⁄𝑋1,𝑋2 = = −0,035
√(1 − 0,5892 )(1 − 0,9912 )
𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = 𝜌𝑌,𝑌̂
H0: 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = 0
H1: 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 ≠ 0
3.
Estadístico de prueba
𝑅𝑌;𝑋1,𝑋2,⋯𝑋𝑘 √𝑛 − 𝑘 − 1
𝑇= ~𝑡𝑛−𝑘−1
2
√1 − 𝑅𝑌;𝑋1 ,𝑋2 ,⋯𝑋𝑘
14
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Criterio de rechazo de H0
-t0 0 t0 𝑻~ 𝒕𝒏−𝒌−𝟏
4.
𝑟𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 √𝑛 − 𝑘 − 1
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
2
√1 − 𝑟𝑌;𝑋1 ,𝑋2 ,⋯𝑋𝑘
1.
H0: 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = ρ0
H1: 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 ≠ ρ0
3.
Estadístico de prueba
15
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Criterio de rechazo de H0
fZ(z)
-z0 0 z0 𝒁~𝑵(𝟎, 𝟏)
4.
√𝑛 − 3 (1 + 𝑟𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 )(1 − 𝜌0 )
𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝐿𝑛 [ ]
2 (1 − 𝑟𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 )(1 + 𝜌0 )
fZ(z)
1-α
α/2 Nivel de α/2
Confiabilidad
-z0 0 z0 𝒁~𝑵(𝟎, 𝟏)
𝑃(−𝑧0 ≤ 𝑍 ≤ 𝑧0 ) = 1 − 𝛼
√𝑛 − 3 1 + 𝑅𝑌;𝑋1,𝑋2,⋯𝑋𝑘 1 + 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘
𝑃 [−𝑧0 ≤ {𝐿𝑛 ( ) − 𝐿𝑛 ( )} ≤ 𝑧0 ] = 1 − 𝛼
2 1 − 𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 1 − 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘
16
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
1 1 + 𝑟𝑌;𝑋1 ,𝑋2,⋯𝑋𝑘 𝑧0
𝐵 = 𝐿𝑛 ( )+
2 1 − 𝑟𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘 √𝑛 − 3
1 1 + 𝐿𝐼 1 1 + 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 1 1 + 𝐿𝑆
𝑃 [ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )] = 1 − 𝛼 (∗∗)
2 1 − 𝐿𝐼 2 1 − 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 2 1 − 𝐿𝑆
Donde, LI y LS son los límites inferior y superior del intervalo de confiabilidad que se busca
1 1 + 𝐿𝐼
𝐴 = 𝐿𝑛 ( )
2 1 − 𝐿𝐼
1 1 + 𝐿𝑆
𝐵 = 𝐿𝑛 ( )
2 1 − 𝐿𝑆
17
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
3.
Estadístico de prueba
𝑆𝑆𝑅(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 , 𝑋) − 𝑆𝑆𝑅(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 )
𝐹= ~ 𝐹1;𝑛−𝑞−2
𝑆𝑆𝐸(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 , 𝑋)
𝑛−𝑞−2
Donde:
n = Tamaño de la muestra
q = Número de variables que se controlan (quitan, retiran) de la correlación
Criterio de rechazo de H0
fF(.)
0 F0 𝐹 ~ 𝐹1;𝑛−𝑞−2
4. Para obtener el valor calculado del estadístico de prueba se requiere obtener las
siguientes tablas de análisis de varianza (ANOVA´s):
Luego,
𝑆𝑆𝑅(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 , 𝑋) − 𝑆𝑆𝑅(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 )
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
𝑆𝑆𝐸(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 , 𝑋)
𝑛−𝑞−2
18
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
En esta expresión,
1 1 + 𝑟𝑌,𝑋⁄𝑍1,𝑍2,⋯,𝑍𝑞 𝑧0
𝐴 = 𝐿𝑛 ( )−
2 1 − 𝑟𝑌,𝑋⁄𝑍1 ,𝑍2,⋯,𝑍𝑞 √𝑛 − 3
1 1 + 𝑟𝑌,𝑋⁄𝑍1,𝑍2 ,⋯,𝑍𝑞 𝑧0
𝐵 = 𝐿𝑛 ( )+
2 1 − 𝑟𝑌,𝑋⁄𝑍1 ,𝑍2,⋯𝑍𝑞 √𝑛 − 3
1 1 + 𝐿𝐼 1 1 + 𝜌𝑌,𝑋⁄𝑍1 ,𝑍2,⋯,𝑍𝑞 1 1 + 𝐿𝑆
𝑃 [ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )] = 1 − 𝛼
2 1 − 𝐿𝐼 2 1 − 𝜌𝑌,𝑋⁄𝑍1 ,𝑍2,⋯,𝑍𝑞 2 1 − 𝐿𝑆
Donde, LI y LS son los límites inferior y superior del intervalo de confiabilidad que se busca
Comparando las dos últimas ecuaciones, es posible establecer las siguientes igualdades,
1 1 + 𝐿𝐼
𝐴 = 𝐿𝑛 ( )
2 1 − 𝐿𝐼
1 1 + 𝐿𝑆
𝐵 = 𝐿𝑛 ( )
2 1 − 𝐿𝑆
19
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
8. Ejercicio 2
Problema:
i Y X1 X2 X3
1 12,8 5,8 2,3 9,5
2 10,1 4,9 1,9 12,3
3 17,0 7,3 6,4 7,4
4 12,5 4,8 8,3 13,2
5 14,6 9,7 4,4 6,8
6 15,2 6,5 3,7 7,8
7 15,5 10,6 4,8 9,2
8 12,1 5,5 2,2 8,9
Solución:
a)
Parámetro:
𝜌𝑌;𝑋1,𝑋2
Estimador:
𝑆𝑆𝑅
𝑅𝑌;𝑋1,𝑋2 = √
𝑆𝑆𝑇
Valor estimado:
𝜇𝑌⁄𝑋1,𝑋2 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
El resultado es el siguiente:
SSR 20,360
SSE 14,595
SST 34,955
20
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Por tanto,
20,360
𝑟𝑌;𝑋1,𝑋2 = √ = 0,763
34,955
1.
H0: 𝜌𝑌;𝑋1,𝑋2 = 0
H1: 𝜌𝑌;𝑋1,𝑋2 ≠ 0
2. α = 0,05
3.
Estadístico de prueba
𝑅𝑌;𝑋1,𝑋2,⋯𝑋𝑘 √𝑛 − 𝑘 − 1
𝑇= ~𝑡𝑛−𝑘−1
2
√1 − 𝑅𝑌;𝑋1 ,𝑋2 ,⋯𝑋𝑘
Criterio de rechazo de H0
n = 8; k = 2
4.
𝑟𝑌;𝑋1,𝑋2 √𝑛 − 𝑘 − 1 0,763√5
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = = 2,641
√1 − 2
𝑟𝑌;𝑋 √1 − 0,7632
1 ,𝑋2
5. Para α = 0,05
RECHAZAR H0 → Aceptar H1
→ 𝜌𝑌;𝑋1,𝑋2 ≠ 0
21
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
b)
fZ(z)
1-α
α/2 Nivel de α / 2 = 0,05
Confiabilidad
0,90
Por tanto,
1 1 + 𝐿𝐼
0,267 = 𝐿𝑛 ( )
2 1 − 𝐿𝐼
De donde,
𝐿𝐼 = 0,261
1 1+𝐿𝑆
1,739 = 𝐿𝑛 ( )
2 1−𝐿𝑆
De donde,
𝐿𝑆 = 0,940
Finalmente,
c)
22
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Parámetro:
𝜌𝑌;𝑋1,𝑋2,𝑋3
Estimador:
𝑆𝑆𝑅
𝑅𝑌;𝑋1,𝑋2,𝑋3 = √
𝑆𝑆𝑇
Valor estimado:
𝜇𝑌⁄𝑋1,𝑋2,𝑋3 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3
El resultado es el siguiente:
SSR 30,564
SSE 4,391
SST 34,955
Por tanto,
30,564
𝑟𝑌;𝑋1,𝑋2,𝑋3 = √ = 0,935
34,955
1.
H0: 𝜌𝑌;𝑋1,𝑋2,𝑋3 = 0,95
H1: 𝜌𝑌;𝑋1,𝑋2, 𝑋3 > 0,95
2. α = 0,05
3.
Estadístico de prueba
23
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Criterio de rechazo de H0
fZ(z)
0 z0=1,645 𝒁~𝑵(𝟎, 𝟏)
4.
5. Para α = 0,05
ACEPTAR H0 → 𝜌𝑌;𝑋1,𝑋2,𝑋3 = 0,95
9. Ejercicio
Problema:
i Y X1 X2
1 79 112 5
2 75 114 6
3 97 126 13
4 95 128 12
5 51 100 3
6 55 102 4
7 65 114 7
8 62 116 6
9 82 112 11
10 80 110 12
11 93 121 9
12 90 120 11
13 81 110 8
14 78 108 7
15 38 103 4
16 36 101 3
17 60 111 6
18 58 112 5
19 86 124 2
20 84 122 3
24
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Donde,
Solución:
1.
𝐻0 : 𝜌𝑌; 𝑋1⁄𝑋2 = 0
𝐻1 : 𝜌𝑌; 𝑋1⁄𝑋2 ≠ 0
2.
𝛼 = 0,05
3.
Estadístico de prueba
𝑆𝑆𝑅(𝑋1 , 𝑋2 ) − 𝑆𝑆𝑅(𝑋2 )
𝐹= ℎ ~ 𝐹𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 )
𝑛 − (𝑝 + ℎ + 1)
Criterio de rechazo de 𝐻0
𝑓𝐹 (. )
𝑛 = 20; ℎ = 1; 𝑝 = 1
𝛼 = 0,05
25
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
4.
Para obtener 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 se requieren las siguientes 𝐴𝑁𝑂𝑉𝐴′𝑠; las mismas han sido
obtenidas siguiendo las expresiones señaladas en el tema anterior. Los resultados
obtenidos son:
Por tanto,
4835,154 − 2604,509
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 1 = 26,47
1432,596
17
5.
Para 𝛼 = 0,05
RECHAZAR 𝐻0 → ACEPTAR 𝐻1
→ 𝜌𝑌; 𝑋1⁄𝑋2 ≠ 0
Para que un modelo de regresión lineal sea considerado el mejor, debe cumplir
básicamente dos requisitos, a saber:
• Debe ser sencillo; vale decir, contener el menor número posible de variables
independientes.
• Tener alto poder predictivo.
26
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
10.1. Ejercicio
Problema:
i Y X1 X2 X3 X4
1 45 5,3 3 2 5
2 43 4,7 5 1 6
3 41 3,0 8 2 10
4 47 5,8 2 1 4
5 63 8,7 2 4 3
6 54 7,3 4 3 2
7 87 10,1 10 5 1
8 42 3,6 7 2 4
9 63 6,3 10 3 1
10 38 5,3 2 3 2
11 32 4,7 1 2 1
12 29 1,7 4 3 8
13 57 4,2 12 1 7
14 29 3,0 3 4 5
15 53 7,3 2 2 3
16 39 4,2 5 1 2
17 76 10,1 4 3 1
18 94 11,0 10 6 4
Obtener el mejor modelo de regresión lineal de primer grado para predecir la variable
dependiente Y. Utilizar α = 0,01 cuando sea necesario.
Solución:
𝑌 𝑋1 𝑋2 𝑋3 𝑋4
𝜇𝑌⁄𝑋1 = 𝛽0 + 𝛽1 𝑋1
27
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
H0: β1 = 0
H1: β1 ≠ 0
2. α = 0,01
3.
Estadístico de prueba
𝑆𝑆𝑅
𝐹= ~ 𝐹1; 𝑛−2
𝑆𝑆𝐸
𝑛−2
Criterio de rechazo de H0
4.
ANOVA
5. Para α = 0,01
RECHAZAR H0 → Aceptar H1
→ β1 ≠ 0
→ El modelo tiene poder predictivo
28
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
𝑌 𝑋2 𝑋3 𝑋4
𝜇𝑌⁄𝑋1,𝑋2 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
H0: 𝛽2 = 0
H1: 𝛽2 ≠ 0
H0: 𝜌𝑌,𝑋2⁄𝑋1 = 0
H1: 𝜌𝑌,𝑋2⁄𝑋1 ≠ 0
2. 𝛼 = 0,01
3.
Estadístico de prueba
𝑆𝑆𝑅(𝑋1 , 𝑋2 ) − 𝑆𝑆𝑅(𝑋1 )
𝐹= ℎ ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 )
𝑛 − (𝑝 + ℎ + 1)
29
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Criterio de rechazo de H0
fF(.)
n = 18; p = 1; h = 1
5. Para α = 0,01
RECHAZAR H0 → Aceptar H1
→ 𝛽2 ≠ 0
→ 𝜌𝑌,𝑋2⁄𝑋1 ≠ 0
→ La adición de X2 mejora la predicción de Y
𝑌 𝑋3 𝑋4
𝑌 1 0,111 0,636
𝑋3 (. 1 0,106)
𝑋4 . . 1
30
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
𝜇𝑌⁄𝑋1,𝑋2 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽4 𝑋4
H0: 𝛽4 = 0
H1: 𝛽4 ≠ 0
H0: 𝜌𝑌,𝑋4⁄𝑋1, 𝑋2 = 0
H1: 𝜌𝑌,𝑋4⁄𝑋1,𝑋2 ≠ 0
2.
𝛼 = 0,01
3.
Estadístico de prueba
𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋4 ) − 𝑆𝑆𝑅(𝑋1 , 𝑋2 )
𝐹= ℎ ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 , 𝑋4 )
𝑛 − (𝑝 + ℎ + 1)
Criterio de rechazo de H0
fF(.)
n = 18; p = 2; h = 1
31
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
5. Para α = 0,01
RECHAZAR H0 → Aceptar H1
→ 𝛽4 ≠ 0
→ 𝜌𝑌,𝑋4⁄𝑋1, 𝑋2 ≠ 0
→ La adición de X4 mejora la predicción de Y
H0: 𝛽3 = 0
H1: 𝛽3 ≠ 0
3.
Estadístico de prueba
𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋4 , 𝑋3 ) − 𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋4 )
𝐹= ℎ ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 , 𝑋4 , 𝑋3 )
𝑛 − (𝑝 + ℎ + 1)
Criterio de rechazo de H0
𝑓𝐹 (. )
n = 18; p = 3; h = 1
32
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
5. Para α = 0,01
ACEPTAR H0
→ 𝛽3 = 0
→ 𝜌𝑌,𝑋3⁄𝑋1, 𝑋2,𝑋4 = 0
→ La adición de X3 no mejora la predicción de Y
Por tanto, el mejor modelo de regresión lineal de primer grado, en este caso, es:
𝜇𝑌⁄𝑋1 ,𝑋2 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽4 𝑋4
Y su estimación es:
11. Ejercicio
Problema:
𝒊 𝒀 𝑿𝟏 𝑿𝟐 𝑿𝟑
33
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
𝐴𝑁𝑂𝑉𝐴′𝑠
(𝑋1 ) (𝑋1 , 𝑋2 ) (𝑋1 , 𝑋2 , 𝑋3 )
𝑆𝑆𝑅 118,444
𝑆𝑆𝐸 12,641 9,728
𝑆𝑆𝑇
Modelo 1: 𝜇𝑌⁄𝑋1 = 𝛽0 + 𝛽1 𝑋1
Modelo 2: 𝜇𝑌⁄𝑋1 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2
Modelo 3: 𝜇𝑌⁄𝑋1 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3
Solución:
Se conoce que,
10 2
(∑12
𝑖=1 𝑌𝑖 ) 177,42
𝑆𝑆𝑇 = 𝑆𝑦𝑦 = ∑ 𝑌𝑖2 − = 3275,20 − = 128,124
𝑛 10
𝑖=1
𝒊 𝒀 𝒀𝟐
1 11,2 125,44
2 14,5 210,25
3 17,2
4 17,8
5 19,3
6 24,5
7 21,2
8 16,9
9 14,8
10 20,0
Σ 177,40 3275,20
34
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
Finalmente,
𝐴𝑁𝑂𝑉𝐴′𝑠
(𝑋1 ) (𝑋1 , 𝑋2 ) (𝑋1 , 𝑋2 , 𝑋3 )
𝑆𝑆𝑅 115,483 118,396 118,444
𝑆𝑆𝐸 12,641 9,728 9,680
𝑆𝑆𝑇 128,124 128,124 128,124
a)
1.
𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽2 ≠ 0
2.
𝛼 = 0,05
3.
Estadístico de prueba
𝑆𝑆𝑅(𝑋1 , 𝑋2 ) − 𝑆𝑆𝑅(𝑋1 )
𝐹= ℎ ~𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 )
𝑛 − (𝑝 + ℎ + 1)
Criterio de rechazo de H0
𝑓𝐹 (. )
𝑛 = 10; 𝑝 = 1; ℎ = 1
35
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
4.
118,396 − 115,483
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 1 = 2,09
9,728
7
5.
Para 𝛼 = 0,05
ACEPTAR 𝐻0 → 𝛽2 = 0 → La adición de la variable 𝑋2 a un modelo de regresión
que ya incluye a la variable 𝑋1 no mejora la predicción de 𝑌.
1.
𝐻0 : 𝛽2 = 𝛽3 = 0
𝐻1 : 𝛽2 𝑦⁄𝑜 𝛽3 ≠ 0
2.
𝛼 = 0,05
3.
Estadístico de prueba
𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋3 ) − 𝑆𝑆𝑅(𝑋1 )
𝐹= ℎ ~𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2, 𝑋3 )
𝑛 − (𝑝 + ℎ + 1)
Criterio de rechazo de H0
𝑓𝐹 (. )
𝑛 = 10; 𝑝 = 1; ℎ = 2
36
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
4.
118,444 − 115,483
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2 = 0,917
9,680
6
5.
Para 𝛼 = 0,05
ACEPTAR 𝐻0 → 𝛽2 = 𝐵3 = 0 → La adición de las variables 𝑋2 y 𝑋3 a un modelo de
regresión que ya incluye a la variable 𝑋1 no mejora
la predicción de 𝑌.
b)
1.
𝐻0 : 𝜌𝑌; 𝑋1,𝑋2 = 0
𝐻1 : 𝜌𝑌; 𝑋1,𝑋2 ≠ 0
2.
𝛼 = 0,05
3.
Estadístico de prueba:
𝑅𝑌;𝑋1,𝑋2 √𝑛 − 𝑘 − 1
𝑇= ~𝑡𝑛−𝑘−1
2
√1 − 𝑅𝑌;𝑋1 ,𝑋2
Criterio de rechazo de H0
𝑓𝑇 (. )
𝑛 = 10; 𝑘 = 2
𝜶⁄𝟐 = 𝟎, 𝟎𝟐𝟓
37
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
4.
𝑆𝑆𝑅 118,396
𝑟𝑌;𝑋1,𝑋2 = √ =√ = 0,961
𝑆𝑆𝑇 128,124
0,961√7
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = 9,21
√1 − 0,9612
5.
Para 𝛼 = 𝑜, 05
RECHAZAR 𝐻0 → ACEPTAR 𝐻1
→ 𝜌𝑌; 𝑋1,𝑋2 ≠ 0
c)
1.
𝐻0 : 𝜌𝑌;𝑋3⁄𝑋1,𝑋2 = 0
𝐻1 : 𝜌𝑌;𝑋3⁄𝑋1,𝑋2 ≠ 0
2.
𝛼 = 0,05
3.
Estadístico de prueba
𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋3 ) − 𝑆𝑆𝑅(𝑋1 , 𝑋2 )
𝐹= ℎ ~𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2, 𝑋3 )
𝑛 − (𝑝 + ℎ + 1)
Criterio de rechazo de H0
𝑓𝐹 (. )
𝑛 = 10; 𝑝 = 2; ℎ = 1
38
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.
4.
118,444 − 118,396
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 1 = 0,030
9,680
6
5.
Para 𝛼 = 0,05
ACEPTAR 𝐻0 → 𝜌𝑌;𝑋3⁄𝑋1,𝑋2 = 0
Ejercicio propuesto
Dada la siguiente muestra:
i X1 X2 X3 Y
1 7,8 4,3 11,5 14,8
2 6,9 3,9 14,3 12,1
3 9,3 8,4 9,4 19,0
4 6,8 10,3 15,2 14,5
5 11,7 6,4 8,8 16,6
6 8,5 5,7 9,8 17,2
7 12,6 6,8 11,2 17,5
8 7,5 4,2 10,9 14,1
9 8,4 7,3 14,7 13,8
10 11,3 8,8 15,1 14,7
a) Estimar 𝜌𝑌;𝑋1,𝑋2,𝑋3
b) Obtener la matriz de correlación lineal parcial simple, tomando como variable de
control X1
c) Con α = 0,05, averiguar si 𝜌𝑌;𝑋1,𝑋2 = 0
d) Obtener un intervalo de confiabilidad del 90% para 𝜌𝑌;𝑋1,𝑋2
39