Análisis de Correlación en Un Ámbito Múltiple - Version Revisada

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 39

Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

ANÁLISIS DE CORRELACIÓN LINEAL EN UN ÁMBITO


MÚLTIPLE

Se va a entender como ámbito múltiple aquel en el que además de la variable dependiente


(Y) se tiene al menos dos (2) variables independientes; vale decir,

Xk
X1



X3 X2

En este ámbito es posible definir:

• El coeficiente de correlación lineal simple


• El coeficiente de correlación lineal múltiple
• El coeficiente de determinación múltiple
• El coeficiente de correlación lineal parcial simple

Existen otros conceptos de correlación lineal en este ámbito.

1. Coeficiente de correlación lineal simple

En este ámbito, es siempre posible estimar coeficientes de correlación lineal simple entre
los posibles pares de variables.

Por ejemplo, es posible estimar el coeficiente de correlación lineal simple entre la variable
dependiente Y y la variable independiente X1,

Parámetro:

𝝆𝒀,𝑿𝟏

1
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Recuerde que este parámetro mide el grado o el nivel de dependencia o de relación lineal existente
entre la variable dependiente Y y la variable independiente X1.

Estimador:

𝑺𝒚𝒙𝟏
𝑹𝒀,𝑿𝟏 =
√𝑺𝒚𝒚 𝑺𝒙𝟏 𝒙𝟏

Donde, como se sabe,

∑ 𝑌𝑖 ∑ 𝑋1𝑖
𝑆𝑦𝑥1 = ∑ 𝑌𝑖 𝑋1𝑖 −
𝑛

(∑ 𝑌𝑖 )2
𝑆𝑦𝑦 = ∑ 𝑌𝑖2 −
𝑛

2
(∑ 𝑋1𝑖 )
𝑆𝑥1𝑥1 = ∑ 𝑋12𝑖 −
𝑛

Valor estimado:

𝒓𝒀,𝑿𝟏

También es posible estimar el coeficiente de correlación lineal simple entre la variable


dependiente Y y la variable independiente X3

Parámetro:

𝝆𝒀,𝑿𝟑

Recuerde que este parámetro mide el grado o el nivel de dependencia o de relación lineal existente
entre la variable dependiente Y y la variable independiente X3.

Estimador:

𝑺𝒚𝒙𝟑
𝑹𝒀,𝑿𝟑 =
√𝑺𝒚𝒚 𝑺𝒙𝟑 𝒙𝟑

Donde, como se sabe,

∑ 𝑌𝑖 ∑ 𝑋3𝑖
𝑆𝑦𝑥3 = ∑ 𝑌𝑖 𝑋3𝑖 −
𝑛

(∑ 𝑌𝑖 )2
𝑆𝑦𝑦 = ∑ 𝑌𝑖2 −
𝑛

2
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

2
(∑ 𝑋3𝑖 )
𝑆𝑥3𝑥3 = ∑ 𝑋32𝑖 −
𝑛

Valor estimado:

𝒓𝒀,𝑿𝟑

Igualmente, es posible estimar el coeficiente de correlación lineal simple entre variables


independientes; por ejemplo entre la variable independiente X1 y la variable independiente
X3,

Parámetro:

𝝆𝑿𝟏 ,𝑿𝟑

Recuerde que este parámetro mide el grado o el nivel de dependencia o de relación lineal existente
entre la variable independiente X1 y la variable independiente X3.

Estimador:

𝑺𝒙𝟏 𝒙𝟑
𝑹𝑿𝟏 ,𝑿𝟑 =
√𝑺𝒙𝟏 𝒙𝟏 𝑺𝒙𝟑 𝒙𝟑

Donde, como se sabe,

∑ 𝑋1𝑖 ∑ 𝑋3𝑖
𝑆𝑥1𝑥3 = ∑ 𝑋1𝑖 𝑋3𝑖 −
𝑛
2
(∑ 𝑋1𝑖 )
𝑆𝑥1𝑥1 = ∑ 𝑋12𝑖 −
𝑛
2
(∑ 𝑋3𝑖 )
𝑆𝑥3𝑥3 = ∑ 𝑋32𝑖 −
𝑛

Valor estimado:

𝒓𝑿𝟏,𝑿𝟑

Es bueno recordar que el coeficiente de correlación lineal de una variable consigo misma
es siempre igual a uno (1). Como ejemplo, considere el siguiente caso:

𝑆𝑦𝑦
𝑅𝑌,𝑌 = =1
√𝑆𝑦𝑦 𝑆𝑦𝑦

3
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Una vez estimados los coeficientes de correlación lineal simple entre todos los posibles
pares de variables, es posible volcar los resultados obtenidos en una matriz denominada
matriz de correlación lineal simple, tal como se muestra a continuación:

Matriz de correlación lineal simple

𝑌 𝑋1 𝑋2 ⋯ 𝑋𝑘

𝑌 1 𝑟𝑌,𝑋1 𝑟𝑌,𝑋2 ⋯ 𝑟𝑌,𝑋𝑘


𝑋1 . 1 𝑟𝑋1,𝑋2 ⋯ 𝑟𝑋1,𝑋𝑘
𝑋2 . . 1 ⋯ 𝑟𝑋2,𝑋𝑘
⋮ ⋮ ⋮ ⋱ ⋯ ⋮
𝑋𝑘 ( . . . ⋯ 1 )

2. Coeficiente de determinación lineal múltiple

El coeficiente de determinación lineal múltiple de la variable dependiente Y y las


2
variables independientes X1, X2, … , Xk, denotado por 𝜌𝑌;𝑋 1 ,𝑋2 ,⋯𝑋𝑘
,mide cuanto de la
variación total de la variable dependiente es explicada por la linealidad existente entre la
variable dependiente y las variables independientes. Esto es,

Parámetro:
2
𝜌𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘

Estimador:

Solamente por razones de representación gráfica, se asume que k = 2.

Valor medido: Yi ○ 𝑌̂ = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2

SSE

Valor estimado: 𝑌̂i SST

SSR

Media: 𝑌̅


X2 (X1i,X2i ) X1

𝑺𝑺𝑹
𝑹𝟐𝒀;𝑿𝟏,𝑿𝟐,⋯,𝑿𝒌 =
𝑺𝑺𝑻

4
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Valor estimado:
2
𝑟𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘

3. Coeficiente de correlación lineal múltiple


El coeficiente de correlación lineal múltiple de la variable dependiente Y con las
variables independientes X1, X2, …,Xk, denotado por 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 , es una medida de grado
o nivel de dependencia, asociación o relación existente entre la variable dependiente Y y
las variables independientes X1, X2, …,Xk consideradas simultáneamente. Esto es,
Parámetro:
𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘

Estimador 1:
𝑺𝑺𝑹
𝑹𝒀;𝑿𝟏,𝑿𝟐,⋯,𝑿𝒌 = √
𝑺𝑺𝑻

Estimador 2:
En el gráfico superior se observa que,
2
2
𝑆𝑆𝑅 ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅)
𝑅𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘
= =
𝑆𝑆𝑇 ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2

De donde,

2
∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅ )
𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = √
∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅ )2

Luego de algunos pasos más, se llega a la siguiente expresión:

∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)(𝑌̂𝑖 − 𝑌̅̂ )


𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 =
2
√∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2 ∑𝑛𝑖=1(𝑌̂𝑖 − 𝑌̅̂ )

En términos de la notación adoptada en el inicio del Tema 1, esta expresión puede


reescribirse como:
𝑺𝒚𝒚̂
𝑹𝒀;𝑿𝟏,𝑿𝟐,⋯,𝑿𝒌 = = 𝑹𝒀,𝒀̂
√𝑺𝒚𝒚 𝑺𝒚̂𝒚̂

5
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

En términos de parámetros, este último estimador puede traducirse en la siguiente


expresión:

𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = 𝜌𝑌,𝑌̂

En palabras, el coeficiente de correlación lineal múltiple de la variable dependiente Y


con las variables independientes X1, X2, …,Xk, es también un coeficiente de correlación
lineal simple de valores medidos y valores estimados.

Esta igualdad es muy importante para la inferencia estadística en el marco del análisis de
correlación lineal múltiple, ya que se podrán utilizar los estadísticos desarrollados en el
análisis de correlación lineal simple.

Estimador 3:

Retomando la expresión,

𝑆𝑦𝑦̂
𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 =
√𝑆𝑦𝑦 𝑆𝑦̂𝑦̂

Se tiene que,

∑𝑛𝑖=1 𝑌𝑖 ∑𝑛𝑖=1 𝑌̂𝑖


∑𝑛𝑖=1 𝑌𝑖 𝑌̂𝑖 −
𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = 𝑛
2 2
(∑𝑛 𝑌𝑖 ) (∑𝑛 𝑌̂𝑖 )
√(∑𝑛𝑖=1 𝑌𝑖2 − 𝑖=1 ) (∑𝑛𝑖=1 𝑌̂𝑖2 − 𝑖=1 )
𝑛 𝑛

Es posible demostrar que 𝑌̅ = 𝑌̅̂ ; en palabras, la media de los valores medidos es igual a la
media de los valores estimados.

Finalmente, se tiene que,

̂ 𝒊 − 𝒏𝒀
∑𝒏𝒊=𝟏 𝒀𝒊 𝒀 ̅𝟐
𝑹𝒀;𝑿𝟏,𝑿𝟐,⋯,𝑿𝒌 =
̅ 𝟐 )(∑𝒏𝒊=𝟏 𝒀
√(∑𝒏𝒊=𝟏 𝒀𝟐𝒊 − 𝒏𝒀 ̂ 𝟐𝒊 − 𝒏𝒀
̅𝟐)

4. Coeficiente de correlación lineal parcial simple

El coeficiente de correlación lineal parcial simple es una medida del grado o nivel de
dependencia, asociación o relación lineal existente entre dos variables luego de controlar
(remover o quitar) de esta correlación los efectos de otras variables.

Si las variables de interés son X y Y , y los efectos controlados corresponden a las variables
Z1, Z2,…, Zp; el coeficiente de correlación lineal parcial de Y y X luego de controlar los
efectos de Z1, Z2, …, Zp, denotado por 𝝆𝒀,𝑿⁄𝒁𝟏 ,𝒁𝟐 ,⋯𝒁𝒑 , mide grado o nivel de dependencia,

6
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

asociación o relación lineal existente entre las variables Y y X luego de controlar (remover
o quitar) de esta correlación los efectos de las variables Z1, Z2, …, Zp.

4.1. Orden de un coeficiente de correlación lineal parcial simple

El orden de una correlación lineal parcial simple depende del número de variables de
control.

Coeficiente de correlación lineal parcial simple de primer orden:

Contiene una variable de control, por ejemplo:

𝝆𝒀,𝑿⁄𝒁𝟏

Coeficiente de correlación lineal parcial simple de segundo orden:

Incluye dos variables de control, por ejemplo:

𝝆𝒀,𝑿⁄𝒁𝟏 ,𝒁𝟐

Coeficiente de correlación lineal parcial simple de p-ésimo orden:

Incluye p variables de control, por ejemplo:

𝝆𝒀,𝑿⁄𝒁𝟏 ,𝒁𝟐 ,⋯𝒁𝒑

4.2. Estimación de un coeficiente de correlación lineal parcial


simple

Coeficiente de correlación lineal parcial simple de primer orden:

Parámetro:

𝝆𝒀,𝑿⁄𝒁

Estimador:

𝑹𝒀,𝑿 − 𝑹𝒀,𝒁 𝑹𝑿,𝒁


𝑹𝒀,𝑿⁄𝒁 =
√(𝟏 − 𝑹𝟐𝒀,𝒁 )(𝟏 − 𝑹𝟐𝑿,𝒁 )

Valor estimado:

𝒓𝒀,𝑿⁄𝒁

Nótese que, para estimar un coeficiente de correlación lineal parcial simple, se requiere
conocer la matriz de correlación lineal simple.

7
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Coeficiente de correlación lineal parcial simple de segundo orden:

Parámetro:

𝝆𝒀,𝑿⁄𝒁,𝑾

Estimador:

𝑹𝒀,𝑿/𝒁 − 𝑹𝒀,𝑾/𝒁 𝑹𝑿,𝑾/𝒁 𝑹𝒀,𝑿/𝑾 − 𝑹𝒀,𝒁/𝑾 𝑹𝑿,𝒁/𝑾


𝑹𝒀,𝑿⁄𝒁,𝑾 = =
√(𝟏 − 𝑹𝟐𝒀,𝑾/𝒁 )(𝟏 − 𝑹𝟐𝑿,𝑾/𝒁 ) √(𝟏 − 𝑹𝟐𝒀,𝒁/𝑾 )(𝟏 − 𝑹𝟐𝑿,𝒁/𝑾 )

Valor estimado:

𝒓𝒀,𝑿⁄𝒁,𝑾

Nótese que para estimar coeficientes de correlación lineal parcial simple de segundo orden
se requiere conocer coeficientes de correlación lineal parcial simple de primer orden.

De esta manera esta manera es posible estimar coeficientes de correlación lineal parcial
simple de diferente orden.

4.3. Matriz de correlación lineal parcial simple

Los coeficientes de correlación lineal parcial simple se presentan generalmente en forma


de una matriz

Considere el siguiente ámbito:

Xk
X1



X3 X2

8
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

A continuación, se muestra una matriz de correlación lineal parcial simple donde la variable
de control es X1.

Matriz de correlación lineal parcial simple


Variable de control: X1

𝑌 𝑋2 𝑋3 ⋯ 𝑋𝑘

𝑌 𝑟𝑌,𝑋2⁄𝑋1 𝑟𝑌,𝑋3⁄𝑋1 ⋯ 𝑟𝑌,𝑋𝑘⁄𝑋1


1
𝑋2 𝑟𝑋2,𝑋3⁄𝑋1 ⋯ 𝑟𝑋2,𝑋𝑘⁄𝑋1
.. 1. ⋯
𝑋3 1 𝑟𝑋3,𝑋𝑘⁄𝑋1
⋮ ⋮ ⋮ ⋮ ⋯ ⋮
𝑋𝑘 ( . . . ⋯ 1 )

5. Ejercicio 1

Problema:

Dada la siguiente muestra:

i Y X1 X2 X3
1 64 57 8 64
2 71 59 10 100
3 53 49 6 36
4 67 62 11 121
5 55 51 8 64
6 58 50 7 49
7 77 55 10 100
8 57 48 9 81
9 56 42 10 100
10 51 42 6 36
11 76 61 12 144
12 68 57 9 81
Σ 753 633 106 976

a) Obtener la matriz de correlación lineal simple


b) Estimar el coeficiente de correlación lineal múltiple de Y con X1, X2, X3
c) Obtener la matriz de correlación lineal parcial simple, considerando a X1 como
variable de control.
d) Estimar 𝜌𝑌,𝑋3 ⁄𝑋1 ,𝑋2

9
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Solución:

X1

X3 X2

a)

Parámetro:

𝜌𝑌,𝑋1

Estimador:

𝑆𝑦𝑥1
𝑅𝑌,𝑋1 =
√𝑆𝑦𝑦 𝑆𝑥1𝑥1

Valor estimado:

Las sumatorias requeridas han sido obtenidas de la tabla superior y la siguiente:

10
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

i Y2 X1Y X12 X22 X1X2


1 4096 3648 3249 64 456
2 5041 4189 3481 100 590
3 ▪ ▪ ▪ ▪ ▪
4 ▪ ▪ ▪ ▪ ▪
5 ▪ ▪ ▪ ▪ ▪
6
7
8
9
10
11
12
Σ 48139 40270 33903 976 5679

∑ 𝑌𝑖 ∑ 𝑋1𝑖 753(633)
𝑆𝑦𝑥1 = ∑ 𝑌𝑖 𝑋1𝑖 − = 40270 − = 549,250
𝑛 12

(∑ 𝑌𝑖 )2 7532
𝑆𝑦𝑦 = ∑ 𝑌𝑖2 − = 48139 − = 888,250
𝑛 12
2
(∑ 𝑋1𝑖 ) 6332
𝑆𝑥1𝑥1 = ∑ 𝑋12𝑖 − = 33903 − = 512,25
𝑛 12

Por tanto,

549,250
𝑟𝑌,𝑋1 = = 0,814
√888,250(512,250)

Los restantes coeficientes de correlación lineal simple se obtienen de similar manera y la


matriz de correlación lineal simple resulta ser:

Matriz de correlación lineal simple

𝑌 𝑋1 𝑋2 𝑋3

𝑌 1 0,814 0,770 0,767


𝑋1 . 1 0,614 0,615
(. . )
𝑋2 1 0,994
𝑋3 . . . 1

b)

Parámetro:
𝜌𝑌;𝑋1,𝑋2,𝑋3

11
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Estimador:
∑𝑛𝑖=1 𝑌𝑖 𝑌̂𝑖 − 𝑛𝑌̅ 2
𝑅𝑌;𝑋1,𝑋2,𝑋3 =
√(∑𝑛𝑖=1 𝑌𝑖2 − 𝑛𝑌̅ 2 )(∑𝑛𝑖=1 𝑌̂𝑖2 − 𝑛𝑌̅ 2 )

Valor estimado:

Es importante aclarar que para obtener los valores estimados (𝑌̂), es necesario estimar
inicialmente los parámetros del siguiente modelo de regresión lineal múltiple:

𝜇𝑌⁄𝑋1,𝑋2,𝑋3 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3

La estimación obtenida es,

𝑌̂ = 3,438 + 0,724𝑋1 + 2,777𝑋2 − 0,042𝑋3

Así, por ejemplo,

𝑌̂1 = 3,438 + 0,724(57) + 2,777(8) − 0,042(64) = 64,234

Los restantes resultados se muestran en la siguiente tabla:

i Y Y2 ̂
𝒀 ̂𝟐
𝒀 ̂
𝒀𝒀
1 64 4096 64,234 4126,007 4110,976
2 71 5041 69,724 4861,436 4750,404
3 53 ▪ ▪ ▪ ▪
4 67 ▪ ▪ ▪ ▪
5 55 ▪ ▪ ▪ ▪
6 58
7 77
8 57
9 56
10 51
11 76
12 68
Σ 753 48139 752,918 47932,411 47938,11

Nótese que,

12
1 753
𝑌̅ = ∑ 𝑌𝑖 = = 62,75
𝑛 12
𝑖=1

Por tanto,

47938,11 − 12(62,75)2
𝑟𝑌;𝑋1,𝑋2,𝑋3 =
√[48139 − 12(62,75)2 ][47932,411 − 12(62,75)2 ]

𝑟𝑌;𝑋1,𝑋2,𝑋3 = 0,883

12
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

c)

Por ejemplo,

Parámetro:

𝜌𝑌,𝑋2⁄𝑋1

Estimador:

𝑅𝑌,𝑋2 − 𝑅𝑌,𝑋1 𝑅𝑋2,𝑋1


𝑅𝑌,𝑋2⁄𝑋1 =
2
√(1 − 𝑅𝑌,𝑋1
)(1 − 𝑅𝑋22,𝑋1 )

Valor estimado:

Los coeficientes de correlación lineal simple se obtienen de la matriz de correlación lineal


simple obtenida en el inciso a)

Por tanto,

0,770 − 0,814(0,614)
𝑟𝑌,𝑋2⁄𝑋1 = = 0,589
√(1 − 0,8142 )(1 − 0,6142 )

De manera similar son estimados los demás elementos de la matriz, la misma que al final
resulta ser,

Matriz de correlación lineal parcial simple


Variable de control: X1

𝑌 𝑋2 𝑋3
𝑌 1 0,589 0,580
𝑋2 ( . 1 0,991)
𝑋3 . . 1

d)

Parámetro:

𝜌𝑌,𝑋3 ⁄𝑋1 ,𝑋2

Estimador:

𝑅𝑌,𝑋3⁄𝑋1 − 𝑅𝑌,𝑋2⁄𝑋1 𝑅𝑋3,𝑋2⁄𝑋1


𝑅𝑌,𝑋3⁄𝑋1 ,𝑋2 =
2
√(1 − 𝑅𝑌,𝑋2⁄𝑋1
)(1 − 𝑅𝑋23 ,𝑋2⁄𝑋1 )

13
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Valor estimado:

Los coeficientes de correlación lineal parcial simple requeridos, se obtienen de la matriz de


correlación lineal simple obtenida en el inciso c)

Por tanto,

0,580 − 0,589(0,991)
𝑟𝑌,𝑋3⁄𝑋1,𝑋2 = = −0,035
√(1 − 0,5892 )(1 − 0,9912 )

6. Inferencia estadística relacionada con 𝝆𝒀;𝑿𝟏 ,𝑿𝟐,⋯,𝑿𝒌

Es importante recordar que,

𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = 𝜌𝑌,𝑌̂

En palabras, el coeficiente de correlación lineal múltiple de la variable dependiente Y


con las variables independientes X1, X2, …,Xk, es a su vez un coeficiente de correlación
lineal simple de valores medidos y valores estimados.

Este hecho es destacable ya que en la inferencia estadística relacionada con el coeficiente


de correlación lineal múltiple será posible recurrir a los estadísticos desarrollados para la
inferencia estadística relacionada con el coeficiente de correlación lineal simple.

6.1. Prueba de hipótesis relacionada con 𝝆𝒀;𝑿𝟏 ,𝑿𝟐,⋯,𝑿𝒌

1. H0: No existe correlación lineal entre Y y X1, X2, … , Xk


H1: Existe correlación lineal entre Y y X1, X2, … , Xk

H0: 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = 0
H1: 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 ≠ 0

2. Definir un valor para α (probabilidad de cometer el error tipo I

3.
Estadístico de prueba

𝑅𝑌;𝑋1,𝑋2,⋯𝑋𝑘 √𝑛 − 𝑘 − 1
𝑇= ~𝑡𝑛−𝑘−1
2
√1 − 𝑅𝑌;𝑋1 ,𝑋2 ,⋯𝑋𝑘

14
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Criterio de rechazo de H0

α/2 α/2 Rechazar H0 si, |Tcalculado| > t0

-t0 0 t0 𝑻~ 𝒕𝒏−𝒌−𝟏

4.
𝑟𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 √𝑛 − 𝑘 − 1
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
2
√1 − 𝑟𝑌;𝑋1 ,𝑋2 ,⋯𝑋𝑘

5. Tomar la decisión que corresponda

6.2. Prueba de hipótesis relacionada con 𝝆𝒀;𝑿𝟏 ,𝑿𝟐,⋯,𝑿𝒌

1.

H0: 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 = ρ0
H1: 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 ≠ ρ0

(ρ0 es un valor específico para 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 ; por ejemplo, ρ0 = 0,5)

2. Definir un valor para α (probabilidad de cometer el error tipo I)

3.

Estadístico de prueba

√𝑛 − 3 (1 + 𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 )(1 − 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 )


𝑍= 𝐿𝑛 [ ] ~ 𝑁(0,1)
2 (1 − 𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 )(1 + 𝜌𝑌;𝑋1,𝑋2,⋯𝑋𝑘 )

Este estadístico fue obtenido en el Tema 2 Análisis de correlación lineal simple

15
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Criterio de rechazo de H0

fZ(z)

α/2 α/2 Rechazar H0, si |Zcalculado| > z0

-z0 0 z0 𝒁~𝑵(𝟎, 𝟏)

4.

√𝑛 − 3 (1 + 𝑟𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 )(1 − 𝜌0 )
𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝐿𝑛 [ ]
2 (1 − 𝑟𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 )(1 + 𝜌0 )

5. Tomar la decisión que corresponda

6.3. Intervalo de confiabilidad para 𝝆𝒀;𝑿𝟏,𝑿𝟐,⋯,𝑿𝒌

El estadístico a utilizarse para este propósito es el mismo del punto anterior.

fZ(z)

1-α
α/2 Nivel de α/2
Confiabilidad

-z0 0 z0 𝒁~𝑵(𝟎, 𝟏)

En el gráfico se puede ver que,

𝑃(−𝑧0 ≤ 𝑍 ≤ 𝑧0 ) = 1 − 𝛼

Reemplazando el estadístico, se tiene,

√𝑛 − 3 1 + 𝑅𝑌;𝑋1,𝑋2,⋯𝑋𝑘 1 + 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘
𝑃 [−𝑧0 ≤ {𝐿𝑛 ( ) − 𝐿𝑛 ( )} ≤ 𝑧0 ] = 1 − 𝛼
2 1 − 𝑅𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 1 − 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘

Operando en esta doble desigualdad es posible llegar a la siguiente expresión:

16
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

1 1 + 𝑟𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 𝑧0 1 1 + 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 1 1 + 𝑟𝑌;𝑋1,𝑋2,⋯𝑋𝑘 𝑧0


𝑃 [ 𝐿𝑛 ( )− ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )+ ] = 1 − 𝛼 (∗)
2 1 − 𝑟𝑌;𝑋1,𝑋2,⋯𝑋𝑘 √𝑛 − 3 2 1 − 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 2 1 − 𝑟𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 √𝑛 − 3

En esta expresión se va a denominar,

1 1 + 𝑟𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘 𝑧0


𝐴 = 𝐿𝑛 ( )−
2 1 − 𝑟𝑌;𝑋1 ,𝑋2,⋯𝑋𝑘 √𝑛 − 3

1 1 + 𝑟𝑌;𝑋1 ,𝑋2,⋯𝑋𝑘 𝑧0
𝐵 = 𝐿𝑛 ( )+
2 1 − 𝑟𝑌;𝑋1 ,𝑋2 ,⋯,𝑋𝑘 √𝑛 − 3

Nótese que 𝐴 y 𝐵 son valores numéricos

Por otro lado, es posible escribir la siguiente expresión,

1 1 + 𝐿𝐼 1 1 + 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 1 1 + 𝐿𝑆
𝑃 [ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )] = 1 − 𝛼 (∗∗)
2 1 − 𝐿𝐼 2 1 − 𝜌𝑌;𝑋1,𝑋2,⋯,𝑋𝑘 2 1 − 𝐿𝑆

Donde, LI y LS son los límites inferior y superior del intervalo de confiabilidad que se busca

Comparando las ecuaciones (∗) 𝑦 (∗∗), se tiene que

1 1 + 𝐿𝐼
𝐴 = 𝐿𝑛 ( )
2 1 − 𝐿𝐼

1 1 + 𝐿𝑆
𝐵 = 𝐿𝑛 ( )
2 1 − 𝐿𝑆

Resolviendo estas ecuaciones para LI y LS, finalmente se logra el siguiente intervalo de


confiabilidad para 𝜌𝑌;𝑋1,𝑋2,⋯𝑋𝑘 ; vale decir,

𝑷[𝑳𝑰 ≤ 𝝆𝒀;𝑿𝟏,𝑿𝟐,⋯𝑿𝒌 ≤ 𝑳𝑺] = 𝟏 − 𝜶

7. Inferencia estadística relacionada con el coeficiente de


correlación lineal parcial simple

7.1. Prueba de hipótesis relacionada con el coeficiente de


correlación lineal parcial simple

1. H0: No existe correlación lineal entre la variable dependiente Y y la variable


independiente X; luego de controlar (quitar, retirar) de esta correlación los efectos
de las variables independientes Z1, Z2, . . . Zq

H1: Existe correlación lineal entre la variable dependiente Y y la variable


independiente X; luego de controlar (quitar, retirar) de esta correlación los efectos
de las variables independientes Z1, Z2, . . . Zq

17
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

H0: 𝜌𝑌,𝑋⁄𝑍1 ,𝑍2,⋯𝑍 = 0


𝑞
H1: 𝜌𝑌,𝑋⁄𝑍1 ,𝑍2,⋯𝑍 ≠ 0
𝑞

2. Definir un valor para α (Probabilidad de cometer el error tipo I)

3.

Estadístico de prueba

𝑆𝑆𝑅(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 , 𝑋) − 𝑆𝑆𝑅(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 )
𝐹= ~ 𝐹1;𝑛−𝑞−2
𝑆𝑆𝐸(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 , 𝑋)
𝑛−𝑞−2

Donde:

n = Tamaño de la muestra
q = Número de variables que se controlan (quitan, retiran) de la correlación

Criterio de rechazo de H0

fF(.)

Rechazar H0 si Fcalculado > F0

0 F0 𝐹 ~ 𝐹1;𝑛−𝑞−2

4. Para obtener el valor calculado del estadístico de prueba se requiere obtener las
siguientes tablas de análisis de varianza (ANOVA´s):

ANOVA (Z1, Z2, … , Zq, X) ANOVA(Z1, Z2, … , Zq)


SSR SSR
SSE SSE
SST SST

Luego,

𝑆𝑆𝑅(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 , 𝑋) − 𝑆𝑆𝑅(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 )
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
𝑆𝑆𝐸(𝑍1 , 𝑍2 , ⋯ , 𝑍𝑞 , 𝑋)
𝑛−𝑞−2

5. Tomar la decisión que corresponda.

18
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

7.2. Intervalo de confiabilidad para 𝝆𝒀,𝑿⁄𝒁𝟏 ,𝒁𝟐,⋯𝒁𝒒

Es posible utilizar la siguiente expresión:

1 1 + 𝑟𝑌,𝑋⁄𝑍1,𝑍2 ,⋯,𝑍𝑞 𝑧0 1 1 + 𝜌𝑌,𝑋⁄𝑍1,𝑍2,⋯,𝑍𝑞 1 1 + 𝑟𝑌,𝑋⁄𝑍1,𝑍2,⋯,𝑍𝑞 𝑧0


𝑃 [ 𝐿𝑛 ( )− ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )+ ]=1−𝛼
2 1 − 𝑟𝑌,𝑋⁄𝑍1,𝑍2,⋯,𝑍𝑞 √𝑛 − 3 2 1 − 𝜌𝑌;𝑋⁄𝑍1,𝑍2,⋯,𝑍𝑞 2 1 − 𝑟𝑌,𝑋⁄𝑍1,𝑍2 ,⋯𝑍𝑞 √𝑛 − 3

En esta expresión,

1 1 + 𝑟𝑌,𝑋⁄𝑍1,𝑍2,⋯,𝑍𝑞 𝑧0
𝐴 = 𝐿𝑛 ( )−
2 1 − 𝑟𝑌,𝑋⁄𝑍1 ,𝑍2,⋯,𝑍𝑞 √𝑛 − 3

1 1 + 𝑟𝑌,𝑋⁄𝑍1,𝑍2 ,⋯,𝑍𝑞 𝑧0
𝐵 = 𝐿𝑛 ( )+
2 1 − 𝑟𝑌,𝑋⁄𝑍1 ,𝑍2,⋯𝑍𝑞 √𝑛 − 3

Por otro lado, recuerde que si,

1 1 + 𝐿𝐼 1 1 + 𝜌𝑌,𝑋⁄𝑍1 ,𝑍2,⋯,𝑍𝑞 1 1 + 𝐿𝑆
𝑃 [ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )] = 1 − 𝛼
2 1 − 𝐿𝐼 2 1 − 𝜌𝑌,𝑋⁄𝑍1 ,𝑍2,⋯,𝑍𝑞 2 1 − 𝐿𝑆

Donde, LI y LS son los límites inferior y superior del intervalo de confiabilidad que se busca

Comparando las dos últimas ecuaciones, es posible establecer las siguientes igualdades,

1 1 + 𝐿𝐼
𝐴 = 𝐿𝑛 ( )
2 1 − 𝐿𝐼

1 1 + 𝐿𝑆
𝐵 = 𝐿𝑛 ( )
2 1 − 𝐿𝑆

Resolviendo estas ecuaciones para LI y LS, finalmente se logra el intervalo de confiabilidad


deseado.

𝑷 [𝑳𝑰 ≤ 𝝆𝒀,𝑿⁄𝒁𝟏 ,𝒁𝟐,⋯,𝒁𝒒 ≤ 𝑳𝑺] = 𝟏 − 𝜶

19
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

8. Ejercicio 2

Problema:

Dada la siguiente muestra:

i Y X1 X2 X3
1 12,8 5,8 2,3 9,5
2 10,1 4,9 1,9 12,3
3 17,0 7,3 6,4 7,4
4 12,5 4,8 8,3 13,2
5 14,6 9,7 4,4 6,8
6 15,2 6,5 3,7 7,8
7 15,5 10,6 4,8 9,2
8 12,1 5,5 2,2 8,9

a) Con α = 0,05 averiguar si 𝜌𝑌;𝑋1,𝑋2 = 0


b) Obtener un intervalo de confiabilidad del 90% para 𝜌𝑌;𝑋1,𝑋2
c) Con α = 0,05 averiguar si 𝜌𝑌;𝑋1,𝑋2,𝑋3 > 0,95

Solución:

a)

Inicialmente se estima 𝜌𝑌;𝑋1,𝑋2

Parámetro:

𝜌𝑌;𝑋1,𝑋2

Estimador:

𝑆𝑆𝑅
𝑅𝑌;𝑋1,𝑋2 = √
𝑆𝑆𝑇

Valor estimado:

Para aplicar el estimador señalado, es necesario obtener la tabla de análisis de varianza


(ANOVA) correspondiente al siguiente modelo de regresión:

𝜇𝑌⁄𝑋1,𝑋2 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2

El resultado es el siguiente:

SSR 20,360
SSE 14,595
SST 34,955

20
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Por tanto,

20,360
𝑟𝑌;𝑋1,𝑋2 = √ = 0,763
34,955

Ahora es posible efectuar la prueba de hipótesis solicitada.

1.
H0: 𝜌𝑌;𝑋1,𝑋2 = 0
H1: 𝜌𝑌;𝑋1,𝑋2 ≠ 0

2. α = 0,05

3.
Estadístico de prueba

𝑅𝑌;𝑋1,𝑋2,⋯𝑋𝑘 √𝑛 − 𝑘 − 1
𝑇= ~𝑡𝑛−𝑘−1
2
√1 − 𝑅𝑌;𝑋1 ,𝑋2 ,⋯𝑋𝑘

Criterio de rechazo de H0

n = 8; k = 2

α/2 α / 2 = 0,025 Rechazar H0 si, |Tcalculado| > 2,571

-t0 0 t0 = 2,571 𝑻~ 𝒕𝒏−𝒌−𝟏 ~ 𝒕𝟓

4.
𝑟𝑌;𝑋1,𝑋2 √𝑛 − 𝑘 − 1 0,763√5
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = = 2,641
√1 − 2
𝑟𝑌;𝑋 √1 − 0,7632
1 ,𝑋2

5. Para α = 0,05
RECHAZAR H0 → Aceptar H1
→ 𝜌𝑌;𝑋1,𝑋2 ≠ 0

21
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

b)

Se debe utilizar la siguiente expresión:

1 1 + 𝑟𝑌;𝑋1,𝑋2 𝑧0 1 1 + 𝜌𝑌;𝑋1,𝑋2 1 1 + 𝑟𝑌;𝑋1,𝑋2 𝑧0


𝑃 [ 𝐿𝑛 ( )− ≤ 𝐿𝑛 ( ) ≤ 𝐿𝑛 ( )+ ]=1−𝛼
2 1 − 𝑟𝑌;𝑋1,𝑋2 √𝑛 − 3 2 1 − 𝜌𝑌;𝑋1,𝑋2 2 1 − 𝑟𝑌;𝑋1,𝑋2 √𝑛 − 3

fZ(z)

1-α
α/2 Nivel de α / 2 = 0,05
Confiabilidad
0,90

-z0 0 z0=1,645 𝒁~𝑵(𝟎, 𝟏)

1 1 + 𝑟𝑌;𝑋1,𝑋2 𝑧0 1 1 + 0,763 1,645


𝐴 = 𝐿𝑛 ( )− = 𝐿𝑛 ( )− = 0,267
2 1 − 𝑟𝑌;𝑋1,𝑋2 √𝑛 − 3 2 1 − 0,763 √5

1 1 + 𝑟𝑌;𝑋1,𝑋2 𝑧0 1 1 + 0,763 1,645


𝐵 = 𝐿𝑛 ( )+ = 𝐿𝑛 ( )+ = 1,739
2 1 − 𝑟𝑌;𝑋1,𝑋2 √𝑛 − 3 2 1 − 0,763 √5

Por tanto,

1 1 + 𝐿𝐼
0,267 = 𝐿𝑛 ( )
2 1 − 𝐿𝐼

De donde,

𝐿𝐼 = 0,261

1 1+𝐿𝑆
1,739 = 𝐿𝑛 ( )
2 1−𝐿𝑆

De donde,

𝐿𝑆 = 0,940

Finalmente,

𝑃(0,261 ≤ 𝜌𝑌;𝑋1,𝑋2 ≤ 0,940) = 0,90

c)

Inicialmente se estima 𝜌𝑌;𝑋1,𝑋2;𝑋3

22
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Parámetro:

𝜌𝑌;𝑋1,𝑋2,𝑋3

Estimador:

𝑆𝑆𝑅
𝑅𝑌;𝑋1,𝑋2,𝑋3 = √
𝑆𝑆𝑇

Valor estimado:

Para aplicar el estimador señalado, es necesario obtener la tabla de análisis de varianza


(ANOVA) correspondiente al siguiente modelo de regresión:

𝜇𝑌⁄𝑋1,𝑋2,𝑋3 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3

El resultado es el siguiente:

SSR 30,564
SSE 4,391
SST 34,955

Por tanto,

30,564
𝑟𝑌;𝑋1,𝑋2,𝑋3 = √ = 0,935
34,955

Ahora es posible efectuar la prueba de hipótesis solicitada.

1.
H0: 𝜌𝑌;𝑋1,𝑋2,𝑋3 = 0,95
H1: 𝜌𝑌;𝑋1,𝑋2, 𝑋3 > 0,95

(Es una prueba de una cola)

2. α = 0,05

3.
Estadístico de prueba

√𝑛 − 3 (1 + 𝑅𝑌;𝑋1,𝑋2,𝑋3 )(1 − 𝜌𝑌;𝑋1,𝑋2,𝑋3 )


𝑍= 𝐿𝑛 [ ] ~ 𝑁(0,1)
2 (1 − 𝑅𝑌;𝑋1,𝑋2,𝑋3 )(1 + 𝜌𝑌;𝑋1,𝑋2,𝑋3 )

23
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Criterio de rechazo de H0

fZ(z)

α = 0,05 Rechazar H0, si Zcalculado > 1,645

0 z0=1,645 𝒁~𝑵(𝟎, 𝟏)

4.

√𝑛 − 3 (1 + 𝑟𝑌;𝑋1,𝑋2,𝑋3 )(1 − 𝜌0 ) √5 (1 + 0,935)(1 − 0,95)


𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝐿𝑛 [ ]= 𝐿𝑛 [ ] = −0,299
2 (1 − 𝑟𝑌;𝑋1,𝑋2,𝑋3 )(1 + 𝜌0 ) 2 (1 − 0,935)(1 + 0,95)

5. Para α = 0,05
ACEPTAR H0 → 𝜌𝑌;𝑋1,𝑋2,𝑋3 = 0,95

9. Ejercicio

Problema:

Dada la siguiente muestra,

i Y X1 X2
1 79 112 5
2 75 114 6
3 97 126 13
4 95 128 12
5 51 100 3
6 55 102 4
7 65 114 7
8 62 116 6
9 82 112 11
10 80 110 12
11 93 121 9
12 90 120 11
13 81 110 8
14 78 108 7
15 38 103 4
16 36 101 3
17 60 111 6
18 58 112 5
19 86 124 2
20 84 122 3

24
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Donde,

𝑌= Calificación obtenida en un examen


𝑋1 = Coeficiente intelectual
𝑋2 = Horas de estudio

Con 𝛼 = 0,05 averiguar si 𝜌𝑌; 𝑋1⁄𝑋2 = 0

Solución:

1.

𝐻0 : 𝜌𝑌; 𝑋1⁄𝑋2 = 0

𝐻1 : 𝜌𝑌; 𝑋1⁄𝑋2 ≠ 0

2.

𝛼 = 0,05

3.

Estadístico de prueba

La hipótesis nula 𝐻0 es equivalente a averiguar si la variable independiente 𝑋1 debe ser


incluida a un modelo de regresión que ya incluye a la variable independiente 𝑋2 .
Consecuentemente, el estadístico de prueba a utilizarse es:

𝑆𝑆𝑅(𝑋1 , 𝑋2 ) − 𝑆𝑆𝑅(𝑋2 )
𝐹= ℎ ~ 𝐹𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 )
𝑛 − (𝑝 + ℎ + 1)

Criterio de rechazo de 𝐻0

𝑓𝐹 (. )
𝑛 = 20; ℎ = 1; 𝑝 = 1

Rechazar 𝐻0 𝑠𝑖 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 4,45

𝛼 = 0,05

0 𝐹0 = 4,45 𝐹 ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1) ~𝐹1;17

25
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

4.

Para obtener 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 se requieren las siguientes 𝐴𝑁𝑂𝑉𝐴′𝑠; las mismas han sido
obtenidas siguiendo las expresiones señaladas en el tema anterior. Los resultados
obtenidos son:

𝐴𝑁𝑂𝑉𝐴 (𝑋1 , 𝑋2 ) 𝐴𝑁𝑂𝑉𝐴(𝑋2 )

𝑆𝑆𝑅 4835,154 2604,509


𝑆𝑆𝐸 1432,596 3663,241
𝑆𝑆𝑇 6267,750 6267,750

Por tanto,

4835,154 − 2604,509
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 1 = 26,47
1432,596
17

5.

Para 𝛼 = 0,05
RECHAZAR 𝐻0 → ACEPTAR 𝐻1
→ 𝜌𝑌; 𝑋1⁄𝑋2 ≠ 0

10. Búsqueda del mejor modelo de regresión de primer grado

Para que un modelo de regresión lineal sea considerado el mejor, debe cumplir
básicamente dos requisitos, a saber:

• Debe ser sencillo; vale decir, contener el menor número posible de variables
independientes.
• Tener alto poder predictivo.

A continuación, se desarrolla un ejercicio de búsqueda del mejor modelo de regresión lineal


aunque limitado a modelos de primer grado (exponente igual a uno (1) en las variables
independientes).

Obviamente, para ser efectivos en esta búsqueda es recomendable recurrir a un software


estadístico.

26
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

10.1. Ejercicio

Problema:

Dada la siguiente muestra:

i Y X1 X2 X3 X4
1 45 5,3 3 2 5
2 43 4,7 5 1 6
3 41 3,0 8 2 10
4 47 5,8 2 1 4
5 63 8,7 2 4 3
6 54 7,3 4 3 2
7 87 10,1 10 5 1
8 42 3,6 7 2 4
9 63 6,3 10 3 1
10 38 5,3 2 3 2
11 32 4,7 1 2 1
12 29 1,7 4 3 8
13 57 4,2 12 1 7
14 29 3,0 3 4 5
15 53 7,3 2 2 3
16 39 4,2 5 1 2
17 76 10,1 4 3 1
18 94 11,0 10 6 4

Obtener el mejor modelo de regresión lineal de primer grado para predecir la variable
dependiente Y. Utilizar α = 0,01 cuando sea necesario.

Solución:

a) Inicialmente, obtener la matriz de correlación lineal simple.

Matriz de correlación lineal simple

𝑌 𝑋1 𝑋2 𝑋3 𝑋4

𝑌 1 0,909 0,530 0,604 −0,362


𝑋1 . 1 0,148 0,599 −0,590
𝑋2 . . 1 0,211 0,201
𝑋3 . . . 1 −0,254
𝑋4 ( . . . . 1 )

Nótese que la variable independiente mejor correlacionada con la variable dependiente Y es


X1. Esta es la primera variable que debería ingresar al modelo de regresión . Por tanto, el
modelo de regresión inicial es:

𝜇𝑌⁄𝑋1 = 𝛽0 + 𝛽1 𝑋1

27
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

b) Averiguar si este modelo inicial tiene poder predictivo


1. H0: El modelo no tiene poder predictivo
H1: El modelo si tiene poder predictivo

H0: β1 = 0
H1: β1 ≠ 0

2. α = 0,01

3.
Estadístico de prueba

𝑆𝑆𝑅
𝐹= ~ 𝐹1; 𝑛−2
𝑆𝑆𝐸
𝑛−2

Criterio de rechazo de H0

Rechazar H0 si Fcalculado > 8,53


α = 0,01

0 F0=8,53 𝐹 ~ 𝐹1;𝑛−2 ~ 𝐹1;16

4.
ANOVA

Fuente de Sumas de Grados de Cuadrado medio Fcalculado


variación cuadrados libertad
Regresión 4986,961 1 4986,961 76,126
Error 1048,150 16 65,509
Total 6035,111 17

5. Para α = 0,01
RECHAZAR H0 → Aceptar H1
→ β1 ≠ 0
→ El modelo tiene poder predictivo

c) Averiguar cuál es la siguiente variable que podría ingresar al modelo

Para el efecto, es necesario obtener la matriz de correlación lineal parcial simple


tomando como variable de control a X1 que ya está en el modelo. El resultado es el
siguiente:

28
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Matriz de correlación lineal parcial simple


Variable de control: X1

𝑌 𝑋2 𝑋3 𝑋4

𝑌 1 0,958 0,172 0,516


𝑋2 . 1 0,154 0,362
(. . )
𝑋3 1 0,153
𝑋4 . . . 1

Nótese que estando ya en el modelo la variable X1, la variable independiente


mejor relacionada con Y es X2, constituyéndose en la siguiente variable que
podría ingresar al modelo de regresión . Por tanto, el nuevo modelo sería:

𝜇𝑌⁄𝑋1,𝑋2 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2

d) Averiguar si la adición de X2 al modelo de regresión que ya incluye a X1, mejora la


predicción de Y

1. H0: La adición de X2 a un modelo de regresión que ya incluye a X1, no mejora la


predicción de Y
H1: La adición de X2 a un modelo de regresión que ya incluye a X1, si mejora la
predicción de Y

H0: 𝛽2 = 0
H1: 𝛽2 ≠ 0

Una hipótesis equivalente es:

H0: 𝜌𝑌,𝑋2⁄𝑋1 = 0
H1: 𝜌𝑌,𝑋2⁄𝑋1 ≠ 0

2. 𝛼 = 0,01

3.
Estadístico de prueba

𝑆𝑆𝑅(𝑋1 , 𝑋2 ) − 𝑆𝑆𝑅(𝑋1 )
𝐹= ℎ ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 )
𝑛 − (𝑝 + ℎ + 1)

29
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

Criterio de rechazo de H0

fF(.)

n = 18; p = 1; h = 1

Rechazar H0 si Fcalculado > 8,68


α = 0,01

0 F0=8,68 𝐹 ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1) ~ 𝐹1;15

4. Las ANOVA´s requeridas son las siguientes:

ANOVA (X1) ANOVA (X1, X2)


SSR 4986,961 SSR 5949,441
SSE 1048,150 SSE 85,671
SST 6035,111 SST 6035,111

𝑆𝑆𝑅(𝑋1 , 𝑋2 ) − 𝑆𝑆𝑅(𝑋1 ) 5949,441 − 4986,961


𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = ℎ = 1 = 168,53
𝑆𝑆𝐸(𝑋1 , 𝑋2 ) 85,671
𝑛 − (𝑝 + ℎ + 1) 15

5. Para α = 0,01
RECHAZAR H0 → Aceptar H1
→ 𝛽2 ≠ 0
→ 𝜌𝑌,𝑋2⁄𝑋1 ≠ 0
→ La adición de X2 mejora la predicción de Y

e) Averiguar cuál es la siguiente variable que podría ingresar al modelo

Para el efecto, es necesario obtener la matriz de correlación lineal parcial simple


tomando como variables de control a X1 y X2 que ya están en el modelo. El resultado
es el siguiente:

Matriz de correlación lineal parcial simple


Variables de control: X1, X2

𝑌 𝑋3 𝑋4
𝑌 1 0,111 0,636
𝑋3 (. 1 0,106)
𝑋4 . . 1

Nótese que estando ya en el modelo las variables X1 y X2, la variable independiente


mejor relacionada con Y es X4, constituyéndose en la siguiente variable que

30
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

podría ingresar al modelo de regresión . Por tanto, el nuevo modelo sería:

𝜇𝑌⁄𝑋1,𝑋2 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽4 𝑋4

f) Averiguar si la adición de X4 al modelo de regresión que ya incluye a X1 y X2 mejora


la predicción de Y

1. H0: La adición de X4 a un modelo de regresión que ya incluye a X1 y X2, no mejora


la predicción de Y
H1: La adición de X4 a un modelo de regresión que ya incluye a X1 y X2, si mejora
la predicción de Y

H0: 𝛽4 = 0
H1: 𝛽4 ≠ 0

Una hipótesis equivalente es:

H0: 𝜌𝑌,𝑋4⁄𝑋1, 𝑋2 = 0
H1: 𝜌𝑌,𝑋4⁄𝑋1,𝑋2 ≠ 0
2.
𝛼 = 0,01

3.
Estadístico de prueba

𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋4 ) − 𝑆𝑆𝑅(𝑋1 , 𝑋2 )
𝐹= ℎ ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 , 𝑋4 )
𝑛 − (𝑝 + ℎ + 1)

Criterio de rechazo de H0

fF(.)

n = 18; p = 2; h = 1

Rechazar H0 si Fcalculado > 8,88


α = 0,01

0 F0=8,88 𝐹 ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1) ~ 𝐹1;14

4. Las ANOVA´s requeridas son las siguientes:

ANOVA (X1, X2, X4) ANOVA (X1, X2)


SSR 5984,113 SSR 5949,441
SSE 50,998 SSE 85,671
SST 6035,111 SST 6035,111

31
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋4 ) − 𝑆𝑆𝑅(𝑋1 , 𝑋2 ) 5984,113 − 5949,441


𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = ℎ = 1 = 9,51
𝑆𝑆𝐸(𝑋1 , 𝑋2 , 𝑋4 ) 50,998
𝑛 − (𝑝 + ℎ + 1) 14

5. Para α = 0,01
RECHAZAR H0 → Aceptar H1
→ 𝛽4 ≠ 0
→ 𝜌𝑌,𝑋4⁄𝑋1, 𝑋2 ≠ 0
→ La adición de X4 mejora la predicción de Y

g) Averiguar si la variable que queda (X3) debería ingresar al modelo de regresión

1. H0: La adición de X3 a un modelo de regresión que ya incluye a X1, X2, X4 no


mejora la predicción de Y
H1: La adición de X4 a un modelo de regresión que ya incluye a X1, X2 y X4 si
mejora la predicción de Y

H0: 𝛽3 = 0
H1: 𝛽3 ≠ 0

Una hipótesis equivalente es:

H0: 𝜌𝑌,𝑋3⁄𝑋1, 𝑋2,𝑋4 = 0


H1: 𝜌𝑌,𝑋3⁄𝑋1,𝑋2,𝑋4 ≠ 0
2.
𝛼 = 0,01

3.
Estadístico de prueba

𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋4 , 𝑋3 ) − 𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋4 )
𝐹= ℎ ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 , 𝑋4 , 𝑋3 )
𝑛 − (𝑝 + ℎ + 1)

Criterio de rechazo de H0

𝑓𝐹 (. )

n = 18; p = 3; h = 1

Rechazar H0 si Fcalculado > 9,07


α = 0,01

0 F0=9,07 𝐹 ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1) ~ 𝐹1;13

32
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

4. Las ANOVA´s requeridas son las siguientes:

ANOVA (X1, X2, X4) ANOVA (X1, X2, X4, X3)


SSR 5984,113 SSR 5984,282
SSE 50,998 SSE 50,829
SST 6035,111 SST 6035,111

𝑆𝑆𝑅 (𝑋1 , 𝑋2 , 𝑋4 , 𝑋3 ) − 𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋4 ) 5984,282 − 5984,113


𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = ℎ = 1 = 0,043
𝑆𝑆𝐸(𝑋1 , 𝑋2 , 𝑋4 , 𝑋3 ) 50,829
𝑛 − (𝑝 + ℎ + 1) 13

5. Para α = 0,01
ACEPTAR H0
→ 𝛽3 = 0
→ 𝜌𝑌,𝑋3⁄𝑋1, 𝑋2,𝑋4 = 0
→ La adición de X3 no mejora la predicción de Y

Por tanto, el mejor modelo de regresión lineal de primer grado, en este caso, es:

𝜇𝑌⁄𝑋1 ,𝑋2 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽4 𝑋4

Y su estimación es:

𝑌̂ = 0,385 + 6,411𝑋1 + 2,060𝑋2 + 0,724𝑋4

11. Ejercicio

Problema:

Dada la siguiente muestra aleatoria y algunas tablas de análisis de varianza (𝐴𝑁𝑂𝑉𝐴′𝑠),

𝒊 𝒀 𝑿𝟏 𝑿𝟐 𝑿𝟑

1 11,2 56,5 71,0 38,5


2 14,5 59,5 72,5 38,2
3 17,2 69,2 76,0 42,5
4 17,8 74,5 79,5 43,4
5 19,3 81,2 84,0 47,5
6 24,5 88,0 86,2 47,4
7 21,2 78,2 80,5 44,5
8 16,9 69,0 72,0 41,8
9 14,8 58,1 68,0 42,1
10 20,0 80,5 85,0 48,1

33
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

𝐴𝑁𝑂𝑉𝐴′𝑠
(𝑋1 ) (𝑋1 , 𝑋2 ) (𝑋1 , 𝑋2 , 𝑋3 )
𝑆𝑆𝑅 118,444
𝑆𝑆𝐸 12,641 9,728
𝑆𝑆𝑇

a) Con 𝛼 = 0,05 elegir el mejor modelo de regresión para predecir la variable


dependiente 𝑌, entre los siguientes

Modelo 1: 𝜇𝑌⁄𝑋1 = 𝛽0 + 𝛽1 𝑋1

Modelo 2: 𝜇𝑌⁄𝑋1 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2

Modelo 3: 𝜇𝑌⁄𝑋1 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3

b) Con 𝛼 = 0,05 averiguar si 𝜌𝑌;𝑋1,𝑋2 = 0

c) Con 𝛼 = 0,05 averiguar si 𝜌𝑌;𝑋3⁄𝑋1,𝑋3 = 0

Solución:

Inicialmente, es importante llenar las tablas 𝐴𝑁𝑂𝑉𝐴.

Se conoce que,

10 2
(∑12
𝑖=1 𝑌𝑖 ) 177,42
𝑆𝑆𝑇 = 𝑆𝑦𝑦 = ∑ 𝑌𝑖2 − = 3275,20 − = 128,124
𝑛 10
𝑖=1

𝒊 𝒀 𝒀𝟐
1 11,2 125,44
2 14,5 210,25
3 17,2
4 17,8
5 19,3
6 24,5
7 21,2
8 16,9
9 14,8
10 20,0
Σ 177,40 3275,20

𝑆𝑆𝑅 = 𝑆𝑆𝑇 − 𝑆𝑆𝐸

𝑆𝑆𝑅 = 128,124 − 12,641 = 115,483

𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑅

34
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

𝑆𝑆𝐸 = 128,124 − 118,444 = 9,680

Finalmente,

𝐴𝑁𝑂𝑉𝐴′𝑠
(𝑋1 ) (𝑋1 , 𝑋2 ) (𝑋1 , 𝑋2 , 𝑋3 )
𝑆𝑆𝑅 115,483 118,396 118,444
𝑆𝑆𝐸 12,641 9,728 9,680
𝑆𝑆𝑇 128,124 128,124 128,124

a)

Inicialmente, corresponde averiguar si el Modelo 2 es mejor que el Modelo 1 para predecir


𝑌.

1.

𝐻0 : La adición de 𝑋2 a un modelo de regresión que ya incluye a 𝑋1 , no mejora la


predicción de 𝑌
𝐻1 : La adición de 𝑋2 a un modelo de regresión que ya incluye a 𝑋1 , mejora la
predicción de 𝑌

𝐻0 : 𝛽2 = 0
𝐻1 : 𝛽2 ≠ 0

2.

𝛼 = 0,05

3.

Estadístico de prueba

𝑆𝑆𝑅(𝑋1 , 𝑋2 ) − 𝑆𝑆𝑅(𝑋1 )
𝐹= ℎ ~𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2 )
𝑛 − (𝑝 + ℎ + 1)

Criterio de rechazo de H0

𝑓𝐹 (. )

𝑛 = 10; 𝑝 = 1; ℎ = 1

𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝑠𝑖 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 5,59


𝛼 = 0,05

0 𝐹0 = 5,59 𝐹 ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1) ~ 𝐹1;7

35
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

4.

118,396 − 115,483
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 1 = 2,09
9,728
7

5.

Para 𝛼 = 0,05
ACEPTAR 𝐻0 → 𝛽2 = 0 → La adición de la variable 𝑋2 a un modelo de regresión
que ya incluye a la variable 𝑋1 no mejora la predicción de 𝑌.

Ahora, corresponde averiguar si el Modelo 3 es mejor que el Modelo 1 para predecir 𝑌.

1.

𝐻0 : La adición de 𝑋2 y 𝑋3 a un modelo de regresión que ya incluye a 𝑋1 , no mejora la


predicción de 𝑌
𝐻1 : La adición de 𝑋2 y 𝑋3 a un modelo de regresión que ya incluye a 𝑋1 , mejora la
predicción de 𝑌

𝐻0 : 𝛽2 = 𝛽3 = 0
𝐻1 : 𝛽2 𝑦⁄𝑜 𝛽3 ≠ 0

2.

𝛼 = 0,05

3.

Estadístico de prueba

𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋3 ) − 𝑆𝑆𝑅(𝑋1 )
𝐹= ℎ ~𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2, 𝑋3 )
𝑛 − (𝑝 + ℎ + 1)

Criterio de rechazo de H0

𝑓𝐹 (. )

𝑛 = 10; 𝑝 = 1; ℎ = 2

𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝑠𝑖 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 5,14


𝛼 = 0,05

0 𝐹0 = 5,14 𝐹 ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1) ~ 𝐹2;6

36
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

4.

118,444 − 115,483
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2 = 0,917
9,680
6

5.

Para 𝛼 = 0,05
ACEPTAR 𝐻0 → 𝛽2 = 𝐵3 = 0 → La adición de las variables 𝑋2 y 𝑋3 a un modelo de
regresión que ya incluye a la variable 𝑋1 no mejora
la predicción de 𝑌.

Consecuentemente, el mejor modelo para predecir 𝑌 es el Modelo 1

b)

1.

𝐻0 : 𝜌𝑌; 𝑋1,𝑋2 = 0

𝐻1 : 𝜌𝑌; 𝑋1,𝑋2 ≠ 0

2.

𝛼 = 0,05

3.

Estadístico de prueba:

𝑅𝑌;𝑋1,𝑋2 √𝑛 − 𝑘 − 1
𝑇= ~𝑡𝑛−𝑘−1
2
√1 − 𝑅𝑌;𝑋1 ,𝑋2

Criterio de rechazo de H0

𝑓𝑇 (. )

𝑛 = 10; 𝑘 = 2

𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝑠𝑖 |𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 | > 2,365

𝜶⁄𝟐 = 𝟎, 𝟎𝟐𝟓

−𝑧0 0 𝒛𝟎 = 𝟐, 𝟑𝟔𝟓 𝑻~𝒕𝒏−𝒌−𝟏 ~ 𝒕𝟕

37
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

4.

𝑆𝑆𝑅 118,396
𝑟𝑌;𝑋1,𝑋2 = √ =√ = 0,961
𝑆𝑆𝑇 128,124

0,961√7
𝑇𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = 9,21
√1 − 0,9612

5.

Para 𝛼 = 𝑜, 05
RECHAZAR 𝐻0 → ACEPTAR 𝐻1
→ 𝜌𝑌; 𝑋1,𝑋2 ≠ 0

c)

1.
𝐻0 : 𝜌𝑌;𝑋3⁄𝑋1,𝑋2 = 0
𝐻1 : 𝜌𝑌;𝑋3⁄𝑋1,𝑋2 ≠ 0

2.

𝛼 = 0,05

3.

Estadístico de prueba

𝑆𝑆𝑅(𝑋1 , 𝑋2 , 𝑋3 ) − 𝑆𝑆𝑅(𝑋1 , 𝑋2 )
𝐹= ℎ ~𝐹ℎ;𝑛−(𝑝+ℎ+1)
𝑆𝑆𝐸(𝑋1 , 𝑋2, 𝑋3 )
𝑛 − (𝑝 + ℎ + 1)

Criterio de rechazo de H0

𝑓𝐹 (. )

𝑛 = 10; 𝑝 = 2; ℎ = 1

𝑅𝑒𝑐ℎ𝑎𝑧𝑎𝑟 𝐻0 𝑠𝑖 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 5,99


𝛼 = 0,05

0 𝐹0 = 5,99 𝐹 ~ 𝐹ℎ;𝑛−(𝑝+ℎ+1) ~ 𝐹1;6

38
Análisis de correlación en un ámbito múltiple Rubén Medinaceli O.

4.

118,444 − 118,396
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 1 = 0,030
9,680
6

5.

Para 𝛼 = 0,05
ACEPTAR 𝐻0 → 𝜌𝑌;𝑋3⁄𝑋1,𝑋2 = 0

Ejercicio propuesto
Dada la siguiente muestra:

i X1 X2 X3 Y
1 7,8 4,3 11,5 14,8
2 6,9 3,9 14,3 12,1
3 9,3 8,4 9,4 19,0
4 6,8 10,3 15,2 14,5
5 11,7 6,4 8,8 16,6
6 8,5 5,7 9,8 17,2
7 12,6 6,8 11,2 17,5
8 7,5 4,2 10,9 14,1
9 8,4 7,3 14,7 13,8
10 11,3 8,8 15,1 14,7

a) Estimar 𝜌𝑌;𝑋1,𝑋2,𝑋3
b) Obtener la matriz de correlación lineal parcial simple, tomando como variable de
control X1
c) Con α = 0,05, averiguar si 𝜌𝑌;𝑋1,𝑋2 = 0
d) Obtener un intervalo de confiabilidad del 90% para 𝜌𝑌;𝑋1,𝑋2

39

También podría gustarte