Regresión Lineal Simple, de Las Páginas 360 A La 366
Regresión Lineal Simple, de Las Páginas 360 A La 366
Regresión Lineal Simple, de Las Páginas 360 A La 366
Uso educativo
En esta sección veremos el problema de regresión lineal de una variable dependiente (Y) y otra indepen-
diente (X), con fines de predicción y estimación. Sin embargo, una vez que se obtiene la ecuación de regresión
lineal, ésta se tiene que evaluar o validar para ver qué tanta fidelidad se le puede poner al modelo para usos de
predicción. Esto se logra utilizando enfoques objetivos y subjetivos. Por ejemplo, el enfoque objetivo se logra haciendo
pruebas estadísticas de inferencia. Este enfoque se complementa usando enfoques subjetivos, es decir, analizando las grá-
ficas de los residuales estandarizados o no estandarizados (crudos), es decir, a través de inspecciones visuales.
8.1.2 A
plicación de análisis objetivos estadísticos para la evaluación
del modelo de regresión
En cuanto al enfoque objetivista (estadística inferencial), para la validación del modelo de regresión, éste se
relaciona con el uso de estadísticas como el coeficiente de determinación múltiple R2 (o r 2), el coeficiente de
determinación ajustado R2ajustada, el error estándar estimado s, tablas de análisis de varianza, pruebas de t de Stu-
dent, intervalos de confianza, el criterio de Mallow de Cp, PRESS, y así sucesivamente. De esta manera, cuando
se habla de coeficientes en el modelo de regresión múltiple, existen cuatro tipos:
a) El coeficiente de determinación múltiple (R2).
b) El coeficiente de correlación múltiple (R).
c) El coeficiente de determinación ajustado (R2ajustada).
d) El coeficiente parcial de correlación múltiple (Rij.k ).
El coeficiente de determinación múltiple R2 es, tal vez, la medida estadística más popular usada para
medir el grado de ajuste del modelo de regresión con los datos de la muestra. El coeficiente R2 es el coeficiente
entre la variación de Y debida al modelo de regresión lineal entre la variación total de Y. Este término toma
valores entre 0 y 1, y multiplicado por 100 determina el porcentaje de variación debido al modelo de regresión.
Si el valor de R2 está cercano a cero, esto indica que no hay una relación lineal entre Y y las X, mientras que,
un valor cercano a uno, indica un ajuste perfecto. Sin embargo, el valor del coeficiente R2 no debe de interpretarse
ligeramente, sin el apoyo del error estándar estimado, del residual (PRESS), del criterio de Mallow (Cp) o de los factores
de variación inflados (variance inflation factors, VIF). Además, la validación del modelo debe estar apoyada por los
análisis de los gráficos subjetivos.
De acuerdo con la lógica del programa de computadora NCSS, los siguientes enunciados dan algunas
calificaciones de la interpretación de R2.
a) El valor de R2 puede incrementarse agregando más variables independientes, pero esto puede causar
un aumento en el error del cuadrado medio, especialmente, cuando la muestra es pequeña.
b) La magnitud de R2 está influenciada por el rango de cada variable independiente. R2 aumenta a medi-
da que el rango de las X se incrementa y viceversa.
c) El valor de R2 no mide la magnitud de las pendientes.
d) La magnitud de R2 no mide la aptitud del modelo lineal; mide la fuerza lineal del componente del
modelo.
e) Un valor grande de R2 no necesariamente significa una predicción grande. Lo opuesto también es
correcto. Todo esto tiene que ser complementado o corroborado por otras funciones estadísticas y por
el análisis gráfico subjetivo.
f ) El valor de R2 es altamente sensible al número de observaciones. Entre más grande sea el tamaño de
la muestra, más alto será el valor de R2.
362 | Estadística para ingeniería y ciencias
Más adelante hay lo que se llama el valor ajustado del coeficiente de determinación múltiple ajustado
(R ajustada). Este coeficiente de determinación múltiple ajustado R2ajustada es una versión ajustada de R2, la cual
2
busca remover la distorsión causada por un tamaño de muestra pequeño. Igualmente, también hay lo que se
llama PRESS (predicted sum of squares), que se usa para validar el modelo de regresión en términos de predic-
ción. Aquí, entre más pequeño sea el valor de PRESS, mejor será el modelo candidato.
En forma análoga, también hay lo que se llama el coeficiente de correlación múltiple R. Este coeficiente
R mide la fuerza de la relación lineal entre la variable dependiente Y y las variables independientes X1, X2, X3,
. . . , Xk. En contraste con el coeficiente de correlación lineal simple, el rango de este coeficiente de correlación
múltiple es de 0 # R # 1. Esto se debe a que R no indica la pendiente de la ecuación de regresión debido a que
no es posible indicar los signos de todos los coeficientes de regresión que relacionan la variable dependiente Y
a la variable independiente Xi. Así como en el caso de la correlación lineal, la medición de R2 es más fácil de
interpretar que el coeficiente de correlación múltiple, R.
Otro tipo de correlación relacionado con regresión y correlación múltiple es lo que se llama coeficiente
parcial de correlación múltiple. Este coeficiente mide la fuerza de la relación lineal entre la variable dependien-
te Y y las variables independientes X1, X2, X3, . . . , Xk. Este coeficiente se puede expresar como Rij.k, que es el
estimador del coeficiente de correlación múltiple poblacional ρij.k. Rij.k se puede usar para ver la relación causal
entre Y y una de las variables independientes, manteniendo las demás constantes. Este coeficiente, también se
puede usar para ver la relación entre dos variables independientes.
Prosiguiendo dentro de la categoría de análisis objetivos de estadística inferencial relacionados con regre-
sión múltiple, tenemos lo que se llama análisis de varianza (ANOVA) discutido en el capítulo 7; en forma aná-
loga como el uso de R2, este análisis es un método complementario para revisar las suposiciones del modelo de
regresión. La fidelidad de los resultados del ANOVA está mancomunada a la suposición de que los residuales
están normalmente distribuidos. El uso de ANOVA prueba los promedios poblacionales donde se analiza la variación
total. ANOVA evalúa la utilidad del modelo de regresión probando la hipótesis nula de que todos los coeficientes (βi) de
la ecuación de regresión (pendientes) son iguales a cero. Los componentes del análisis de varianza o de ANOVA son
parecidos a los del análisis de varianza simple dados en capítulos anteriores. Los componentes son la fuente
de variación, los grados de libertad, la suma de los cuadrados, el cuadrado del promedio, la prueba de F y el
nivel de probabilidad. Por ejemplo, la fuente de variación representa las particiones de la variación en Y. Hay
cuatro fuentes de variación: intercepto, modelo, residuo o error y total ajustado. La prueba de inferencia con
la estadística F se usa para probar la hipótesis de todas las βi 5 0.
Más importante todavía es el cálculo del nivel de probabilidad p. El valor de p es la probabilidad de ob-
tener un estadístico de prueba, al menos tan contradictorio o más extremo para H0:, como el valor observado
que se obtuvo, asumiendo que H0: es verdadera. Si el valor de p es menor qué, digamos α 5 0.05, la hipótesis
nula se rechaza; de otra manera se retiene. Entre más pequeño sea el valor de p, más certidumbre habrá en la
hipótesis alternativa, Ha:.
Otras funciones estadísticas usadas en la evaluación de la utilidad del modelo de regresión son los llama-
dos VIF (por sus siglas en inglés de Variance Inflation Factors), la estadística Cp de Mallow y la estadística de
Durbin-Watson. Los factores de varianza inflada (VIF) están relacionados con problemas de multicolineali-
dad, los cuales causan toda clase de problemas con el análisis de regresión. En forma análoga, el diagnóstico
Cp da el número óptimo de variables para el modelo de regresión. De manera semejante, la estadística Durbin-
Watson está relacionada con la autocorrelación. Usualmente, este criterio se usa para probar por correlación
en serie de primer orden positiva o negativa.
Otros estadísticos objetivistas para validar el modelo de regresión son las pruebas individuales de t de
Student para probar la hipótesis de que β1, β2, β3, βk son iguales a cero. Además, se pueden usar los intervalos
de confianza. Por ejemplo, en regresión múltiple el valor de t de Student se usa para probar la hipótesis de
que uno de los coeficientes es igual a cero, después de remover la influencia de los otros. Los investigadores
Capítulo 8 Regresión lineal simple y múltiple | 363
Paffenberger et al. (1987) dan la función para el intervalo de confianza para βi. Sin embargo, si se concluye que
β1 o βk no son igual a cero esto no necesariamente dice que el modelo de regresión es útil para predicción. En
verdad, para determinar si el modelo es apropiado, en lugar de probar que β1 5 0 y β2 5 0, separadamente
(usando la prueba de t), se usa una prueba conjunta, como el análisis de varianza (ANOVA).
8.1.3 A
plicación de análisis gráficos subjetivos para la evaluación
del modelo de regresión
En cuanto al uso de análisis de gráficos para evaluar la utilidad del modelo de regresión, esto se logra anali-
zando los gráficos de los residuales crudos o estandarizados. Los residuales estandarizados son los residuales
ei divididos entre una estimación de su desviación estándar. Estos residuales estandarizados toman en consi-
deración que los residuales pueden tener diferentes varianzas, lo cual hace que sea más fácil detectar valores
inusuales extremos. El programa Minitab considera valores extremos aquellos residuales mayores que 2 o
menores que 22. Los residuales crudos o regulares son la diferencia entre la respuesta actual (Y ) y el valor
estimado del modelo.
De acuerdo con la lógica del programa de computadora Minitab los diagnósticos gráficos subjetivos se
dan como:
a) Histograma de residuales
b) Gráfica normal de residuales
c) Gráfica de residuales en función de los valores ajustados
d) Gráfica de residuales versus órdenes
El histograma de residuales son herramientas exploratorias para analizar las características de los datos
como valores inusuales, variación y forma. Cuando el error de la variable es aproximadamente normal, el
histograma tiene forma de campana.
Con respecto a la gráfica normal de residuales, los puntos en ésta, por lo general, deberán formar una
línea recta, si los residuales están normalmente distribuidos. Si no es así, la suposición de normalidad puede
invalidarse. Así, los valores de la variable aleatoria estadística ei deben estar normalmente distribuidos. Para
lograr esto, se grafican los residuales de la variable dependiente en función de los valores de z o normales
esperados. Para que se reúna la condición de normalidad de los datos, todos los puntos deben estar dentro
de las bandas de confianza muy cercanos a la línea de regresión. Además, si los términos del error ei están
normalmente distribuidos, los residuales deberán estar, de manera aproximada, de acuerdo con las reglas del
68%, 95% y 99.7%. Esto quiere decir que el 68% de los residuales deberán estar entre z 5 61; el 95% entre z
5 62 y, finalmente, el 99.7% de los residuales entre z 5 63.
Con relación a la gráfica de residuales, en función de valores ajustados, ésta debe mostrar aleatoriedad de
los residuales con, aproximadamente, el mismo número de residuales positivos y negativos, sin tendencias de-
finidas que indiquen colinealidad o correlación en serie, es decir, falta de independencia entre las variables.
Por último, la gráfica de los residuales versus órdenes está relacionada con todos los residuales en el orden
en que los datos se coleccionaron y se usa para encontrar errores no aleatorios, especialmente de efectos rela-
cionados con el tiempo.
Otros factores que tienen que revisarse es lo que se llama homoscedasticidad o sea cuando la variable
aleatoria ei tiene la misma varianza, lo cual se hace graficando los residuales contra cada valor de las variables
independientes (Xi). Aquí, tiene que haber la misma cantidad de valores positivos y negativos expresados en la
gráfica, lo cual se denomina homoscedasticidad. Sin embargo, de no ser así, existe el problema de heteroscedasti-
cidad, mismo que se retomará en el capítulo de regresión polinomial.
364 | Estadística para ingeniería y ciencias
Recapitulando lo anterior, las condiciones o suposiciones requeridas para validar el modelo, subjetiva-
mente, se hacen a través de los análisis de los residuales crudos o no estandarizados. Como se dijo antes, los
llamados residuales se definen como las diferencias entre el valor actual de Y y el valor pronosticado de Y por
el modelo de regresión estimado. Los residuales se denotan por ei, esto es, ei 5 Yi 2 Y9i. Las gráficas de los resi-
duales dan información muy importante acerca de la naturaleza y fuerza de la relación entre las variables. La figura 8.1
muestra los residuales que son las diferencias entre los valores de Y1, Y2, Y3, . . . , Yk y los valores observados
de Y91, Y92, Y93, . . . , Y9k de la línea de regresión de la muestra. Por otra parte, los residuales estandarizados se
obtienen dividiéndolos entre sus respectivas desviaciones estándares.
50 y1 y 1
40
30 y2 y 2
y3 y 3 y4 y 4
20
10 y5 y 5 y6 y 6
x
0 5 10 15 20
Σ Y Σ X Σ X Σ XY n Σ X Σ X X
n n i 512i Σ 2 i 5 1 Σ n 2 i5n 2
222
Y i5 1n Σ X 2
n2 i 5 1 Σ X XY 1 Σ
n X i 5 1 Σ
51 i 5 1 i 51 i 5 1 1
i 5
Intercepto 5 a 5 i Σ Y Σ X
Σ
i 51 i 51
2 X
i 51
Σ
XY n Σ
X Σ
i 5 1
2 X
51 i 51 i 5 1
n n n n n n2 n n 2
2
– n–Σ XY
n
n
5n Y 2bX nn Σ XY 2 n2 Σ X X
i 5 1 i 5 1 i 5 1i Σ iΣ YnY
5 1 Σ
n i Σ n1 XΣ X
5n
2 2 Σ X
2 2
i 5 1 Σ X (8-5)
5 1 i 51 2
i 5 1 i 5 1
n
i 51Σ XY 2 Σ X Σ
i5 1 i 5 1 Y n Σ X Σ
i 5 1
2 X
2
i 51
n
n2 n n 2
n Sxx 5 Sxxi Σn X
55 1 Σ X
22 2 Σ X
2i 5 1 Σ X n n
2 i 51 i 51
n n n
Σ XY 5 a ΣX 1 b Σ X
i 51 i 51 i 51
nnn nn
ΣΣ YY
n
12bb ΣΣ nCapítulo 8 n | 365
2
5 2 ymúltiple
n n n n
5an an1 Regresión lineal simple
i Σ Y111 Σ X i2 5111 Σ X
i 5 1 i Σ XY n Σ X 2 Σ X
i 5 1
iii5
55 ii55
nnn
51 i 51
nn
51 i 51
n nnn
ΣΣ XY XY5 5aaΣΣX X1 1bb ΣΣ X X
iii5
n 55111
n iii55 5111
iii5
n 55111
n
n
2
Pendiente 5 b 5 n Σ XY 2 ΣnnnX Σ Y nnn nnn Σ X 2 2 Σ X nn 222 (8-6)
i 5 1 nnn 222 n 222 n
nn
ΣΣ YY ΣΣ X ΣΣ XY
i 5 1 i 5 1 ni 5 1 i 5 1
X 2
2 Σ Σ XX XY nn Σ Σ XX 22 Σ
Σ X X
Sxyii/i555S111xx iii555111 2 iii555111 iii555111 iii555111 iii555111 (8-7)
n
n
Donde: Sxx 5 ΣnnnX 2 2 Σ nnnX n
i 521se dan por n 222
Σxy y Σx i5 1 ecuaciones n
n n nnn nn
Σ nnni iΣ Σ XY XY2 2 ΣΣlas X X ΣΣ YY (8-8) nn ΣyΣ (8-9).
XX2222 2 ΣΣ X X
5
i 515 1 1 i 5 1 i 5 1 i 5 1
n i i
5 5 1 1 i i
5 5 11 i i
5 5 11 iii555111
• Las siguientes ecuaciones son S
muy 5importantes.
Σ XY 2 Σ X ΣY n
xy i 51 i 51 222
nnn
2 nnn
8.2.2 C
álculo del coeficiente de correlación R de la muestra
que estima a r, el coeficiente de correlación poblacional
Como se dijo antes, el coeficiente de correlación R, que estima a ρ, también se llama coeficiente de correla-
ción de Pearson. Este coeficiente es un índice de la fuerza de la asociación lineal entre las variables X y Y. El
coeficiente de correlación R es:
Sxy
(8-14)
R
Sxx Syy
Donde Sxy , Sxx , Syy se dan por las ecuaciones (8-8), (8-9) y (8-10).
366 | Estadística para ingeniería y ciencias
Nota: El coeficiente de correlación R explica el grado de asociación entre las variables X y Y. Este
coeficiente R varía de 21 a 0, si la correlación es negativa, con pendiente negativa. Pero, si la
correlación es positiva, entonces, R varía de 0 a 1. Así, a medida que R se aproxima a 61, mejor
asociación habrá entre las variables X, Y y σ2 será igual a 0. Nótese que, en caso de la regresión li-
neal múltiple, hay lo que se llaman coeficientes parciales de regresión para medir la relación lineal
entre la variable dependiente Y y la variable independiente especificada.
x x x x x x x x x
a) a) a) b) b) b) c) c) c)
x x x x x x x x x
a) a) a) b) b) b) c) c) c)
d) e) f)
y y y y y y y y y
y y y y y y y y y
x x x x x x x x x