Apunte Regresion Lineal Szretter
Apunte Regresion Lineal Szretter
Apunte Regresion Lineal Szretter
Índice
1 Correlación 1
1.1 Grácos de dispersión (o scatter plots) . . . . . . . . . . . . . . . . 1
1.1.1 Desventajas de los scatter plots . . . . . . . . . . . . . . . . 5
1.2 Coeciente de correlación de Pearson . . . . . . . . . . . . . . . . . 6
1.2.1 Denición del coeciente de correlación . . . . . . . . . . . . 6
1.2.2 Propiedades del coeciente de correlación muestral (y tam-
bién de ρ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.3 Inferencia de ρ . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Coeciente de correlación de Spearman . . . . . . . . . . . . . . . . 21
1.4 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1
2 María Eugenia Szretter
3 Diagnóstico en Regresión 82
3.1 Medidas de diagnóstico . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.1.1 Leverage de una observación . . . . . . . . . . . . . . . . . . 82
3.1.2 Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.1.3 Residuos estandarizados . . . . . . . . . . . . . . . . . . . . 84
3.1.4 Los residuos cuando el modelo es correcto . . . . . . . . . . 84
3.1.5 Los residuos cuando el modelo es incorrecto . . . . . . . . . 85
3.1.6 Los residuos en el ejemplo . . . . . . . . . . . . . . . . . . . 87
3.1.7 ¾Cómo detectar (y resolver) la curvatura? . . . . . . . . . . 87
3.1.8 ¾Qué hacer si la varianza no es constante? . . . . . . . . . . 88
3.1.9 ¾Cómo validamos la independencia? . . . . . . . . . . . . . . 90
3.1.10 ¾Cómo validamos la normalidad? . . . . . . . . . . . . . . . 90
3.2 Outliers y observaciones inuyentes . . . . . . . . . . . . . . . . . . 91
3.2.1 Outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.2.2 Un test para encontrar outliers . . . . . . . . . . . . . . . . 91
3.2.3 Observaciones inuyentes . . . . . . . . . . . . . . . . . . . . 95
3.2.4 Alternativa: comparación con un ajuste robusto . . . . . . . 100
3.2.5 ¾Cómo medir la inuencia de una observación? . . . . . . . . 105
3.2.6 Instrucciones de R para diagnóstico . . . . . . . . . . . . . . 108
3.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
A Talleres 233
A.1 Taller 1: Coeciente de Correlación y Regresión Lineal Simple . . . 233
A.2 Ejercicio domiciliario . . . . . . . . . . . . . . . . . . . . . . . . . . 235
A.3 Taller 2: Regresión Lineal: medidas de diagnóstico y transformaciones236
A.4 Taller 3: Regresión Lineal Múltiple . . . . . . . . . . . . . . . . . . 238
ii María Eugenia Szretter
Prefacio
Las notas de regresión lineal que componen estas páginas fueron escritas como
material teórico y práctico para el curso Regresión Lineal de la Carrera de Espe-
cialización en Estadística para Ciencias de la Salud, que se dicta en la Facultad
de Ciencias Exactas y Naturales, de la Universidad de Buenos Aires que tuve la
alegría de dar durante algo más de dos meses, en 2011 y luego cada dos años hasta
2017. Presuponen un conocimiento estadístico obtenido en un curso básico y hacen
énfasis en un enfoque aplicado de la regresión lineal, para un público que viene,
en general, de las ciencias médicas o biológicas. La información sigue un programa
estándar en el tema: correlación, regresión lineal simple y regresión lineal múltiple
y representa una primera introducción al tema. La idea es hacer un énfasis en los
modelos y la interpretaciones, sin perder (del todo) el entusiasmo en el camino. En
esa dirección, estas notas buscan presentar al modelo lineal como el primer mode-
lo estadístico a estudiar en detalle, e intenta mostrar cuáles de las herramientas
presentadas se generalizan a otros modelos estadísticos. En cada capítulo, además,
se incluyen una serie de ejercicios que (espero) complementen el aprendizaje.
Los grácos y las salidas que acompañan las notas fueron realizados usando el
paquete R, R Core Team [2015]. El resto de las guras fueron extraidas de varios
buenos textos disponibles sobre el tema (y debidamente citados). Quizá la mejor
hoja de estas notas sea la bibliografía. Esta versión 2017 de las notas incorpora
además de varias correcciones, la introducción de los comandos de R en el texto,
así como varios nuevos ejercicios y los scripts en R para resolverlos.
Finalmente quiero agradecer a varios colegas las conversaciones y opiniones
sobre los temas que aparecen a continuación, que ayudaron a dar (esta) forma a
estas notas, en especial a Liliana Orellana y a Andrés Farall.
Este material puede descargarse de la web de la siguiente dirección
http://mate.dm.uba.ar/~meszre/apunte_regresion_lineal_szretter.pdf
En la misma dirección, hay una carpeta con todos los archivos de datos mencio-
nados en el texto, o necesarios para los ejercicios. Dicha carpeta contiene también
R que resuelven los ejercicios. La dirección de
scripts en la carpeta es
http://mate.dm.uba.ar/~meszre/datos_regresion
1. Correlación 1
1. Correlación
Tabla 2: Datos para 20 países en los que se midieron dos variables, X: porcentaje
de niños vacunados a la edad de un año en cada país, Y : es la tasa de mortalidad
infantil de niños menores de 5 años en cada país. Archivo: paises.txt.
estaban vacunados contra la DPT y (en el año 1992) 118 niños menores de 5 años
murieron por cada 1000 niños nacidos vivos.
entre X e Y. Para este caso vemos que a medida que aumenta el porcentaje de niños
inmunizados, decrece la tasa de mortalidad. ¾Qué otras cosas podríamos observar?
En la Figura 2 ilustramos algunas posibilidades, que describimos a continuación.
puntos: los valores bajos de X pueden aparecer asociados tanto con valores
altos de Y como con valores bajos de Y. Lo mismo para los valores altos de
X. Lo mismo para los valores intermedios de X.
• lineal
• ausencia de relación
• no asociación
la fuerza de la asociación, esto tiene que ver con la dispersión de los datos.
Si el vínculo puede resumirse con una recta o una curva, cuán alejados de
dicha recta (o curva) están los datos. Esto suele resumirse cualitativamente:
diremos que la asociación es fuerte, moderada o débil, de acuerdo a si los
puntos gracados presentan poca, moderada o mucha dispersión de la recta
(o curva) que los describe.
2. Sólo se pueden visualizar los vínculos entre dos variables. En grácos tri-
dimensionales se podrían gracar hasta tres variables, y luego habría que
elegir con mucho cuidado el punto de vista del observador para exhibir las
características más sobresalientes del gráco. Cuando el interés está puesto
en estudiar varias variables simultáneamente, pueden hacerse varios grácos
de dispersión simultáneos. Es decir, cuando tenemos las variables (X, Y, Z)
haremos tres grácos: Y versus X, Z versus X, y Z versus Y. Los haremos
en la Sección 5.1.1.
Figura 3: Dos conjuntos de datos con asociación lineal entre X e Y : el gráco (a)
muestra asociación lineal positiva, el (b) muestra asociación lineal negativa entre
ambas.
escribimos
n
1X
bX = X n =
µ Xi ,
n i=1
v
u n
u 1 X 2
σ
bX = SX = t Xi − X .
n − 1 i=1
X − µX Y − µY
ρXY = E
σX σY
cov (X, Y )
= ,
σX σY
1
Pn
n−1 i=1 Xi − X Yi − Y
r= .
SX · SY
separado
v
u n
u 1 X 2
SX = t Xi − X
n − 1 i=1
v
u n
u 1 X 2
SY = t Yi − Y .
n − 1 i=1
Pn
i=1 X i − X Yi − Y
r = rh .
P n 2 i hPn 2 i
i=1 Xi − X i=1 Yi − Y
Pn
Observemos que el numerador i=1 Xi − X Yi − Y puede ser positivo o nega-
rh
Pn 2 i hPn 2 i
tivo, pero el denominador i=1 Xi − X i=1 Y i − Y siempre es posi-
tivo. Luego el signo de r está determinado por el del numerador. Veamos de qué
depende.
+ si Xi es más grande que X
signo de Xi − X =
− Xi X
si es más chico que
y también
+ si Yi es más grande que Y
signo de Yi − Y =
− Yi Y
si es más chico que
Luego, el
+ si ++ ó − −
signo de Xi − X Yi − Y =
− si +− ó −+
hay una asociación positiva entre las variables (cuando una crece, la otra también
lo hace).
Si r da negativo, en cambio, tenemos una indicación de mayor número de
observaciones en los otros cuadrantes marcados con fondo blanco en la Figura 5,
y se invierten las situaciones descriptas anteriormente. Es decir, que cuando los
valores de las X suelen estar por encima del promedio ocurre, simultáneamente,
que los valores de Y están por debajo de su promedio. Análogamente, cuando en
un individuo el valor de X está por debajo del promedio, ocurre lo inverso con
su valor de Y, que superará a su promedio. En general, un valor negativo de r
es indicador de asociación negativa entre las variables (cuando una crece, la otra
decrece).
Ejemplo 1.2 Veamos qué ocurre en nuestro ejemplo. Calculamos los promedios
12 María Eugenia Szretter
X = 77,4
Y = 59
y le superponemos al scatter plot dos líneas rectas, una vertical que corta al eje x
en 77,4 y otra horizontal que corta al eje y en Y = 59. Las Figuras 4 y 5 muestran
el gráco de esta situación. Observamos que en los dos cuadrantes coloreados hay
muy pocas observaciones (exactamente 3 de un total de 20).
El coeciente de correlación muestral en este caso da −0,791, un valor negativo,
lo cual hubiéramos podido anticipar ya que la mayoría de los términos involucrados
en el cálculo de r (17 de los 20 sumandos) serán menores o iguales a cero.
4. El caso r=1 indica asociación lineal perfecta. O sea que los puntos están
ubicados sobre una recta de pendiente (o inclinación) positiva.
6. El signo de r indica que hay asociación positiva entre las variables (si r > 0);
o asociación negativa entre ellas (si r < 0).
7. r = 0,90 indica que los puntos están ubicados muy cerca de una recta cre-
ciente.
8. r = 0,80 indica que los puntos están cerca, pero no tanto, de una recta
creciente. En la Figura 6 se pueden ver distintos grados de correlación, que
están comentados más abajo.
1.2 Coeciente de correlación de Pearson 13
1.2.3. Inferencia de ρ
La pregunta que nos hacemos en esta sección es la clásica pregunta de inferencia
estadística, ¾qué podemos decir de ρ a partir de r?
Queremos sacar conclusiones acerca del parámetro poblacional ρ a partir de la
muestra de observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) . En el ejemplo, la pregunta que
podríamos hacer es ¾qué podemos decir del vínculo entre inmunización contra la
DPT y la tasa de mortalidad infantil para menores a cinco años? Sólo contamos
14 María Eugenia Szretter
(a) (b)
● ● ●
● ● ● ● ●
●● ● ● ●
●
● ● ● ● ● ● ● ●
● ● ● ●● ●
● ● ●● ●● ●
●● ● ●● ●
VEF (l)
● ● ● ● ●
● ●● ● ● ● ●
● ● ● ● ● ●
●● ● ● ● ● ● ● ● ● ●
●● ●● ● ●● ●● ●
● ● ● ● ● ●
● ● ●● ●● ●● ●●●● ●
● ●
● ● ● ● ●
● ●
● ●●
● ● ●
● ● ●● ● ● ● ●●
● ● ● ●● ● ● ●
● ●● ● ● ●● ●
● ● ●
● ● ●● ● ● ●
● ● ● ●
● ● ● ● ●● ●
● ●
● ●
●● ● ● ●● ● ●
● ●
● ● ● ● ●
●
● ● ●
● ● ● ●
●● ● ● ●
● ●
● ●
●
●
●
(c) (d)
Pulso en reposo (lat/min)
● ●
●
●
● ● ● ● ●
● ●
● ●
● ● ● ●
● ● ●● ● ●
● ● ●
● ●
●
● ●● ● ● ●
●● ● ● ● ● ● ● ●
● ●
VEF (l)
●
●● ● ● ● ● ● ●● ● ● ●
● ● ●
● ● ● ●
● ●● ● ● ● ●
● ● ● ●● ● ●
● ● ● ● ●
●
●● ● ● ● ●
● ● ● ●● ● ● ● ● ●
●
● ● ●
● ● ●● ● ● ●●
● ● ●● ● ● ● ●
●
● ● ● ●●
● ●● ●
●●● ● ● ● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ●●● ●● ● ●
● ● ● ●
● ● ● ● ●●
● ●
●● ● ● ●
● ● ● ● ● ●
● ● ●
●
● ● ●
● ● ● ●
●
●
●
con observaciones de 20 países en 1992. El test que más nos interesará es el que
tiene las siguientes hipótesis
H0 : ρ = 0
H1 : ρ 6= 0,
Test para ρ = 0 Los supuestos para llevar a cabo el test son que los pares de
observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre sí, idénticamente
distribuidos, y tengan distribución (conjunta) normal bivariada (ver la denición
de esto en la Observación 1.1). En particular, esto implica que cada una de las
muestras X1 . . . , Xn e Y1 . . . , Yn tengan distribución normal. Si la hipótesis nula es
verdadera, entonces el estadístico
r
T =q
1−r2
n−2
que no es más que ρb dividido por un estimador de su desvío estándar, tiene distri-
bución t de Student con n − 2 grados de libertad, lo cual notaremos
T ∼ tn−2 bajo H0 .
T ≥ tn−2,1− α2 ó T ≤ −tn−2,1− α2
Ejemplo 1.3 En la Tabla 3 aparece la salida del software libre R R Core Team
[2015] para los datos del Ejemplo 1.1. Hemos llamado immunized al porcentaje
de chicos vacunados contra la DPT y under5 a la tasa de mortalidad para chicos
menores a 5 años. Vemos que en este caso el p−valor del test resulta ser menor
a 0,05, por lo que rechazamos la hipótesis nula y concluimos que el coeciente de
16 María Eugenia Szretter
Observación 1.1 ¾Qué quiere decir que las observaciones (X1 , Y1 ) , . . . , (Xn , Yn )
tengan distribución conjunta normal bivariada? Es un término técnico. Decir que
un vector aleatorio (X, Y ) tenga dicha distribución conjunta quiere decir que exis-
ten cinco números reales µ1 , µ2 , σ1 > 0, σ2 > 0 y −1 < ρ < 1 tales que la función
1.2 Coeciente de correlación de Pearson 17
Es decir, se calcula hallando el área bajo la función fXY denida en (1) y sobre
la región A. En la Figura 9 puede verse el gráco de la densidad conjunta, que es
una supercie en el espacio tridimensional. A los números µ1 , µ2 , σ1 , σ2 y ρ se los
denomina parámetros de la distribución normal bivariada (ya que una vez que se
ja sus valores numéricos, la densidad queda determinada).
Como ya mencionamos, puede probarse que cuando (X, Y ) tiene distribución
normal bivariada, entonces cada una de las variables X e Y tienen distribución
2
normal. Más aún, µ1 es la media de X y σ1 es su varianza, lo cual notamos X ∼
18 María Eugenia Szretter
0.012
0.020
0.008
Density
Density
0.010
0.004
0.000
0.000
immunized under5
Figura 9: Densidad conjunta normal bivariada, denida en (1.1) construida con los
valores de parámetros especicados más abajo (µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ =
0,5).
µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1, ρ = 0.5
0.15
0.10
0.05
2
0.00
−2 0y
x0 −2
2
H0 : ρ = ρ0
H1 : ρ 6= ρ0 .
Por supuesto, esto no ocurre muy frecuentemente, pero puede surgir una pregunta
de este tipo en algunas aplicaciones. La cuestión es que cuando ρ = ρ0 el estadístico
T descripto en la sección anterior no tiene distribución t de Student, sino que tiene
una distribución sesgada.
Para testear las hipótesis recién propuestas, está el test basado en la trans-
formación z de Fisher. Como en el anterior se requiere que las observaciones
(X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre sí, idénticamente distribuidos y
20 María Eugenia Szretter
Figura 10: Grácos de dispersión de datos bivariados con distribución normal bi-
variada con parámetros: µ1 = 0, µ2 = 0, σ1 = 1, σ2 = 1 y distintos valores de ρ,
que se indican en cada gráco.
4
●
●
● ● ●
2
2
●● ● ●
●●
●
● ● ●●● ● ● ●● ●● ●
●● ● ●
●
●●
● ● ●
● ● ●
● ● ● ● ● ● ●
● ●● ●●●● ● ● ●● ●●●●
●● ●
●●
● ●●●● ● ● ● ● ●
●●
●● ● ●● ● ●● ●●● ●●
0
0
● ●
● ● ● ● ●
●●
● ● ●● ●
● ●●●● ● ●
● ● ● ●
●● ● ●
●
● ● ● ● ●● ●●●●
●● ● ● ●
●● ●
● ● ●
● ● ● ●● ●
● ●● ● ●
● ●●●●● ●●● ● ● ● ● ●
●●● ●
● ● ● ●
● ● ● ●●
● ●●● ●● ●
●● ●
−2
−2
● ● ●
●
●
−4
−4
−4 −2 0 2 4 −4 −2 0 2 4
ρ=0 ρ = 0.5
4
4
● ●
●●
2
● ● ● ●
● ●●
●● ● ● ●
●● ● ● ●
● ● ● ●
● ● ●●
●● ● ● ● ● ● ● ●●● ● ●●
● ● ● ●●
●
●● ● ● ●● ● ● ● ●
● ● ●
● ● ●● ● ●● ●● ●● ●
● ● ●●● ● ● ●●
●
● ●●●●● ● ● ●
0
● ● ●
● ● ● ● ●● ● ● ● ●●● ●
●●● ● ● ● ●● ● ● ● ● ●
●●● ●●● ●●
●● ● ● ● ● ●● ● ● ●●
●
●
● ●● ●● ●● ● ● ●●
●● ●● ● ●
● ● ●●● ●●
● ● ●● ● ● ● ●
●● ● ● ● ● ● ●
● ● ●
−2
−2
● ● ● ●
●● ●
●
−4
−4
−4 −2 0 2 4 −4 −2 0 2 4
ρ = 0.8 ρ = −0.3
1 1 + ρ0 1
N ln , .
2 1 − ρ0 n−3
Luego, esta distribución se utiliza para calcular el p-valor del test, o dar la re-
gión de rechazo de nivel α. El p-valor se obtendrá estandarizando el valor de z
observado y calculando la probabilidad de obtener un valor tan alejado del cero o
más alejado aún como el observado, usando la función de distribución acumulada
1.3 Coeciente de correlación de Spearman 21
1 + 2 + 3 + · · · + n = n(n+1)
2
).
Tabla 4: Datos para los 20 países, con las variables, X : porcentaje de niños
vacunados a la edad de un año en cada país, rangos de la X : ranking que ocupa
la observación en la muestra ordenada de las X `s, Y : tasa de mortalidad infantil
de niños menores de 5 años en cada país, rangos de la Y : posición que ocupa la
observación en la muestra ordenada de las Y 's.
Figura 11: Gráco de dispersión entre los rangos de Y (es decir, los rangos de la
tasa de mortalidad menor a 5 años) y los rangos de X (es decir, del porcentaje de
niños menores a un año vacunados contra la DPT). Se ve una asociación negativa,
aunque no muy estrecha.
los valores más grandes de X se apareen con los valores más grandes
que, bajo H0 , para cada rango de Xi , R (Xi ) , todos los rangos de Yi son igualmente
probables, siempre que no haya asociación entre ambas variables. El p−valor puede
calcularse de manera exacta si n < 10 y no hay empates en la muestra, y de manera
aproximada para n mayores.
Si n es muy grande, se utiliza la misma distribución t de la Sección ante-
rior, tn−2 . La ventaja de este test por sobre el test de Pearson es que requiere
menos supuestos para llevarlo a cabo. Basta con que los pares de observaciones
(X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre sí e idénticamente distribuidos.
No es necesario asumir nada respecto de la distribución de cada muestra, de hecho
basta que la escala de las observaciones sea ordinal para poder aplicarlo. Puede
utilizarse si hay observaciones atípicas. La desventaja radica en la potencia del
test. El test de Spearman tiene una potencia menor en el caso en el que ambas
muestras son normales (en cualquier otro caso, el de Pearson no puede aplicarse).
Pero, por supuesto que si con el test de Spearman se logra rechazar la hipótesis
nula, ya no es necesario preocuparse por la potencia, ni utilizar el coeciente de
Pearson, que resulta más eciente.
En el ejemplo vemos que el p−valor del test de Spearman es 0,013 que al ser
menor a 0,05 nos permite rechazar la hipótesis nula y concluir que la verdadera
correlación poblacional entre el porcentaje de niños vacunados y la tasa de morta-
lidad menor a 5 años, es distinta de cero.
Otra medida no paramétrica de asociación entre dos variables está dada por
el τ de Kendall. Resume la asociación a través de los rangos de las observaciones
26 María Eugenia Szretter
1.4. Ejercicios
Con R hacer scatterplots es muy sencillo. Además es tan útil lo que puede
aprenderse de los datos que vale la pena entrenarse exponiéndose a muchos ejem-
plos. Con el tiempo se gana familiaridad con los tipos de patrones que se ven. De
a poco uno aprende a reconocer cómo los diagramas de dispersión pueden revelar
la naturaleza de la relación entre dos variables.
En esta ejercitación trabajaremos con algunos conjuntos de datos que están
disponibles a través del paquete openintro de R. Brevemente:
mammals: El conjunto de datos de mamíferos contiene información sobre 62
especies diferentes de mamíferos, incluyendo su peso corporal, el peso del cerebro,
el tiempo de gestación y algunas otras variables.
bdims: El conjunto de datos bdims contiene medidas de circunferencia del
cuerpo y diámetro esquelético para 507 individuos físicamente activos.
smoking: El conjunto de datos smoking contiene información sobre los hábitos
de fumar de 1.691 ciudadanos del Reino Unido.
cars: El conjunto de datos cars está compuesto por la información de 54
autos modelo 1993. Se relevan 6 variables de cada uno (tamaño, precio en dólares,
rendimiento en ciudad (millas por galón), tipo de tracción, cantidad de pasajeros,
peso).
Para ver una documentación más completa, utilice las funciones ? ó help(),
una vez cargado el paquete. Por ejemplo, help(mammals). Esta práctica se resuelve
con el script_correlacion.R
Ejercicio 1.2 Medidas del cuerpo, Parte I. Utilizando el conjunto de datos bdims,
realizar un diagrama de dispersión que muestre cómo el peso de una persona (wgt)
varía en función de su altura (hgt). Identique el género de las observaciones en
el scatterplot, para ello pinte de rojo a las mujeres y de azul a los hombres, use
la instrucción col de R. Observar que en esta base de datos, sex = 1 para los
hombres y sex = 0 para las mujeres.
Ejercicio 1.4 Utilizando el conjunto de datos cars, realizar un scatter plot del
rendimiento del auto en la ciudad (mpgCity) en función del peso del auto (weight).
Ejercicio 1.5 Para cada uno de los cuatro scatterplots anteriores describa la for-
ma, la dirección y la fuerza de la relación entre las dos variables involucradas.
Respuestas posibles:
Ejercicio 1.6 ¾Para cuáles de los 4 conjuntos de datos tiene sentido resumir la
relación entre ambas variables con el coeciente de correlación muestral de Pear-
son? Para los casos en los cuales contestó que era apropiado,
H0 : ρ = 0
H1 : ρ 6= 0
(b) Identique las dos observaciones que tienen valores de peso corporal y cerebral
más grandes que el resto. Realice un scatter plot de las restantes 60 variables.
¾Cómo podría describir este gráco? Calcule el coeciente de correlación
muestral de Pearson para estas 60 observaciones.
(c) El gráco hecho en el ítem anterior no corrige el problema original del to-
do. La forma general podría describirse como un abanico: claramente las
variables están asociadas, la asociación es positiva (ambas crecen simultá-
neamente) pero la dispersión de los datos parece aumentar a medida que
ambas variables aumentan. Esta forma es frecuente en los conjuntos de da-
tos, suelen corresponder a observaciones que están medidas en escalas que
no son comparables entre sí y suele corregirse al tomar logaritmo en ambas
variables. Para ver el efecto de transformar las variables, realice un scatter-
plot con todas las observaciones, del logaritmo (en base 10, o en base e) del
peso del cerebro en función del logaritmo del peso corporal. Observe el grá-
co. ¾Cómo lo describiría? Calcule la correlación de Pearson para los datos
transformados.
(d) Para ambos conjuntos de datos (transformados por el logaritmo y sin trans-
formar) calcule la correlación de Spearman.
2.1. Introducción
Antes de presentar el modelo lineal, comencemos con un ejemplo.
Ejemplo 2.1 Datos publicados en Leviton, Fenton, Kuban, y Pagano [1991], tra-
tados en el libro de Pagano et al. [2000].
Los datos corresponden a mediciones de 100 niños nacidos con bajo peso (es
decir, con menos de 1500g.) en Boston, Massachusetts. Para dichos bebés se miden
varias variables. La variable que nos interesa es el perímetro cefálico al nacer
(medido en cm.). Los datos están en el archivo low birth weight infants.txt,
la variable headcirc es la que contiene los datos del perímetro cefálico. No tiene
sentido tipear los 100 datos, pero al menos podemos listar algunos, digamos los
primeros 14 datos: 27, 29, 30, 28, 29, 23, 22, 26, 27, 25, 23, 26, 27, 27. La
lista completa está en el archivo. Asumamos que entra ahora una madre con su
bebé recién nacido en mi consultorio de niños de bajo peso, y quiero predecir su
perímetro cefálico, con la información que me proporciona la muestra de los 100
bebés. ¾Cuál debiera ser el valor de perímetro cefálico que le predigo? O sea, me
estoy preguntando por el mejor estimador del perímetro cefálico medio de un bebé
de bajo peso, sin otra información a mano más que la muestra de 100 bebés antes
descripta. Si llamamos Y a la variable aleatoria:
Luego, nuestro valor predicho será 26,45 cm. de perímetro cefálico. El desvío
estándar muestral es 2,53. Más aún, podríamos dar un intervalo de conanza para
la media poblacional, basado en la muestra (ver la Tabla 7).
30 María Eugenia Szretter
Tabla 7: Intervalo de conanza para el perímetro cefálico medio, basado en los 100
datos disponibles (calculado con R).
> t.test(headcirc)
data: headcirc
Ejemplo 2.2 Por lo tanto, el intervalo de conanza para E (Y ) resulta ser [25,95,
26,95], ver la Tabla 7.
El scatter plot del perímetro cefálico versus la edad gestacional sugiere que el
perímetro cefálico aumenta al aumentar la edad gestacional. Y que dicho aumento
pareciera seguir un patrón lineal.
Figura 12: Gráco de dispersión de perímetro cefálico versus edad gestacional, para
100 bebés de bajo peso.
Y = β0 + β1 X + ε, (2)
donde ε es el término del error. Esto es que para cada valor de X, la correspon-
diente observación Y consiste en el valor β0 + β1 X más una cantidad ε, que puede
ser positiva o negativa, y que da cuenta de que la relación entre X e Y no es exac-
tamente lineal, sino que está expuesta a variaciones individuales que hacen que el
2.2 Modelo lineal simple 33
> cor.test(gestage,headcirc)
sample estimates:
cor
0.7806919
par observado (X, Y ) no caiga exactamente sobre la recta, sino cerca de ella, como
puede anticiparse viendo el scatter plot de los datos que usualmente se modelan
con este modelo (ver, por ejemplo, la Figura 12). En el modelo (2) los números
β0 y β1 son constantes desconocidas que se denominan parámetros del modelo, o
coecientes de la ecuación. El modelo se denomina lineal pues propone que la Y
depende linealmente de X. Además, el modelo es lineal en los parámetros: los β 0s
no aparecen como exponentes ni multiplicados o divididos por otros parámetros.
Los parámetros se denominan
β0 = ordenada al origen
β1 = pendiente.
Yi = β0 + β1 Xi + εi , (3)
y = 2x + 3
x y
0 3
1 5
2 7
3 9
Graquemos. Nos basta ubicar dos puntos sobre la misma, por ejemplo el (0, 3) y
el (1, 5) .
[2 (x + 1) + 3] − [2x + 3] = 2x + 2 + 3 − 2x − 3
=2
2.4 Supuestos del modelo lineal 35
El hecho de que los errores no estén correlacionados con las variables expli-
cativas apunta a que el modelo esté identicado. Observemos que estos cuatro
supuestos pueden resumirse en la siguiente expresión
εi ∼ N 0, σ 2 ,
1 ≤ i ≤ n, independientes entre sí. (5)
E (Y | X) = β0 + β1 X (6)
E (Y | X = xi ) = β0 + β1 xi (7)
V ar (Y | X = xi ) = σ 2 ,
1 En realidad, se pueden hacer supuestos más débiles aún: asumir que E (εi | Xi ) = 0, y
V ar (εi | Xi ) = σ 2 . Para los test se asume que εi | Xi ∼ N 0, σ 2 , 1 ≤ i ≤ n, ver Wasserman
[2010].
38 María Eugenia Szretter
es decir, la suma de los cuadrados de las distancias entre cada observación y el valor
que la recta candidata y = a + bx propone para ajustar dicha observación. Esta
expresión puede pensarse como una función g que depende de a y b, y que toma
a los valores (X1 , Y1 ) , . . . , (Xn , Yn ) como números jos. Cuánto más cerca esté la
recta de ordenada al origen a y pendiente b, menor será el valor de g evaluado en
2.5 Estimación de los parámetros β0 y β1 39
n
∂g (a, b) X
= 2 (Yi − (a + bXi )) (−1)
∂a i=1
n
∂g (a, b) X
= 2 (Yi − (a + bXi )) (−Xi )
∂b i=1
Las igualamos a cero para encontrar βb0 y βb1 , sus puntos críticos. Obtenemos
n
X
Yi − βb0 + βb1 Xi =0 (9)
i=1
n
X
Yi − βb0 + βb1 Xi Xi = 0. (10)
i=1
Las dos ecuaciones anteriores se denominan las ecuaciones normales para regresión
lineal. Despejamos de ellas las estimaciones de los parámetros que resultan ser
Pn
i=1 Xi − X Yi − Y
βb1 = Pn 2 , (11)
i=1 Xi − X
βb0 = Y − βb1 X. (12)
1
Pn
n−1 i=1 Xi − X Yi − Y cov
c (X, Y )
βb1 = Pn 2 = ,
1
n−1 i=1 Xi − X Vdar (X)
que este procedimiento hace que el par βb0 y βb1 no sea sólo un punto crítico, sino
también un mínimo. Afortunadamente, en la práctica, los cálculos para hallar a βb0
y βb1 son realizados por un paquete estadístico.
n
X
g (a, b) = ρ (Yi − (a + bXi )) ,
i=1
donde ρ es una función muy parecida al cuadrado para valores muy cercanos al
cero, pero que crece más lentamente que la cuadrática para valores muy grandes.
Estos últimos se denominan M-estimadores de regresión, y, en general, están
programados en los paquetes estadísticos usuales.
Denición 2.1 El valor Ybi = βb0 + βb1 Xi calculado para el valor Xi observado se
denomina (valor) predicho o ajustado i-ésimo.
ei = Yi − Ybi
= Yi − βb0 − βb1 Xi
(Xi , Yi ) y el punto predicho por el modelo ajustado, Xi , Ybi , como puede ob-
servarse en la Figura 15. Los residuos reejan la inherente asimetría en los roles
de las variables predictora y respuesta en los problemas de regresión. Hay herra-
mientas estadísticas distintas para tratar problemas donde no se da esta asimetría,
hemos visto el coeciente de correlación como una de ellas. Las herramientas del
análisis multivariado (no se verán en este curso), en general, se abocan a modelar
problemas en los que no está presente esta asimetría.
2.6 Recta ajustada, valores predichos y residuos 41
Yi = β0 + β1 Xi + εi .
Ajustemos el modelo de regresión lineal simple a los datos. Presentamos la
tabla de coecientes estimados en la Tabla 10.
La recta ajustada a esos datos es
Yb = 3,9143 + 0,7801 · X,
a veces se anota de la siguiente forma, para enfatizar el nombre de las variables
Tabla 10: Coecientes estimados para el modelo de regresión lineal aplicado a los
datos de bebés recién nacidos.
Coefficients:
(Intercept) gestage
3.9143 0.7801
y el residuo sería
e6 = Y6 − Yb6 = 23 − 23,417 = −0,417
Si quisiéramos predecir el valor del perímetro cefálico medio para un bebé con 29
semanas de gestación (i = 1), nuestro valor predicho sería
y el residuo sería
e1 = Y1 − Yb1 = 27 − 26,537 = 0,463
2.6 Recta ajustada, valores predichos y residuos 43
Figura 16: Gráco de dispersión del perímetro cefálico versus la edad gestacional,
con la recta ajustada por mínimos cuadrados.
Si quisiéramos predecir el valor del perímetro cefálico medio para un bebé con 33
semanas de gestación (i = 3), nuestro valor predicho sería
y el residuo sería
Tabla 11: Tres datos de los bebés de bajo peso analizados en el texto, con el valor
predicho y el residuo respectivo
esta predicción? Para contestar a esta pregunta, tenemos que estimar la varianza
2
condicional de Y , es decir, σ .
Ejercicio 2.1 Medidas del cuerpo, Parte II. Datos publicados en Heinz, Peterson,
Johnson, y Kerk [2003], base de datos bdims del paquete openintro.
(b) ¾Cómo cambiaría la relación si el peso se midiera en libras mientras que las
unidades para la circunferencia de la cadera permanecieran en centímetros?
(c) Ajuste un modelo lineal para explicar el peso por la circunferencia de cadera,
con las variables en las unidades originales. Escriba el modelo (con papel y lá-
piz, con betas y epsilones). Luego, escriba el modelo ajustado (sin epsilones).
Interprete la pendiente estimada en términos del problema. Su respuesta de-
bería contener una frase que comience así: "Si una persona aumenta un cm.
de contorno de cadera, en promedio su peso aumentará ... kilogramos".
(e) Elegimos una persona adulta físicamente activa entre los estudiantes de pri-
mer año de la facultad. Su contorno de cadera mide 100 cm. Prediga su peso
en kilogramos.
(g) Estime el peso esperado para la población de adultos cuyo contorno de cadera
mide 100 cm.
Ejercicio 2.2 Medidas del cuerpo, Parte III. Base de datos bdims del paquete
openintro.
(a) Realizar un diagrama de dispersión que muestre la relación entre el peso
medido en kilogramos (wgt) y la altura (hgt).
(b) Ajuste un modelo lineal para explicar el peso por la altura. Escriba el modelo
(con papel y lápiz, con betas y epsilones). Luego, escriba el modelo ajustado
(sin epsilones). Interprete la pendiente estimada en términos del problema.
Interprete la pendiente. ¾Es razonable el signo obtenido para la pendiente
estimada? Superponer al scatterplot anterior la recta estimada.
(c) La persona elegida en el ejercicio anterior, medía 187 cm. de alto, y pesaba
81 kg. Prediga su peso con el modelo que tiene a la altura como covariable.
Calcule el residuo de dicha observación.
Ejercicio 2.3 Mamíferos, Parte III. Base de datos mammals del paquete openintro.
(a) Queremos ajustar un modelo lineal para predecir el peso del cerebro de un
mamífero (BrainWt) a partir del peso corporal (BodyWt) del animal. Había-
mos visto en el Ejercicio 1.7 que si gracamos el peso del cerebro en función
del peso corporal, el gráco era bastante feo. Y que todo mejoraba tomando
logaritmo (en cualquier base, digamos base 10) de ambas variables. Ajuste un
modelo lineal para explicar a log10 (BrainWt) en función del log10 (BodyWt) .
Como antes, escriba el modelo teórico y el ajustado. Una observación: en el
help del openitro se indica que la variable BrainWt está medida en kg., sin
embargo, esta variable está medida en gramos.
2.8. Estimación de σ2
Escribamos nuevamente el modelo poblacional y el modelo ajustado
ya que los residuos se denen por ei = Yi − Ybi . El error iésimo (εi ) es la variable
aleatoria que representa la desviación (vertical) que tiene el i-ésimo par observado
(Xi , Yi ) respecto de la recta poblacional o teórica que asumimos es el modelo
correcto para nuestros datos (ecuación (13)). El residuo i-ésimo (ei ) , en cambio, es
la variable aleatoria que representa la desviación (vertical) que tiene el i-ésimo par
observado (Xi , Yi ) respecto de la recta ajustada que calculamos en base a nuestros
datos (ecuación (14)). Recordemos que uno de los supuestos del modelo es que la
2 2
varianza de los errores es σ , V ar (εi ) = σ . Si pudiéramos observar los errores,
entonces podríamos construir un estimador de la varianza a partir de ellos, que
sería
n
1 X
(εi − ε)2 .
n − 1 i=1
Pero los errores (εi ) no son observables, lo que podemos observar son su correla-
to empírico, los residuos (ei ). Desafortunadamente, el residuo i-ésimo no es una
estimación del error i-ésimo: en estadística sabemos estimar números jos que lla-
mamos parámetros. El error, sin embargo, es una variable aleatoria, así que no lo
podemos estimar. Tanto los εi como los ei son variables aleatorias, pero muchas
de las cualidades de los errores no las heredan los residuos. Los errores εi son in-
dependientes, pero los residuos ei no lo son. De hecho, suman 0. Esto puede verse
si uno escribe la primera ecuación normal que vimos en la Sección 2.5, la ecuación
(9) en términos de los ei
n
X n
X
0= Yi − βb0 + βb1 Xi = ei . (15)
i=1 i=1
2.8 Estimación de σ 2 47
Pn
Luego, e=
i=1 ei = 0. Si escribimos la segunda ecuación normal en términos de
los residuos vemos también que
n
X
0 = Yi − βb0 + βb1 Xi Xi
i=1
n
X n
X n
X
= ei Xi = (ei − e) Xi = (ei − e) Xi − X (16)
i=1 i=1 i=1
La segunda igualdad de (16) se debe a que por (15) el promedio de los residuos e, es
igual a cero, y la tercera puede vericarse haciendo la distributiva correspondiente.
Observemos que si calculamos el coeciente de correlación muestral entre las Xi y
los ei , el numerador de dicho coeciente es el que acabamos de probar que vale 0,
es decir,
Pn
i=1 (ei − e) X i − X
r = r ((X1 , ei ) , . . . , (Xn , en )) = qP q 2 = 0.
n 2 Pn
i=1 (ei − e) i=1 Xi − X
Luego, los residuos satisfacen dos ecuaciones lineales (las dadas por (15) y (16))
y por lo tanto, tienen más estructura que los errores. Además, los errores tienen
todos la misma varianza, pero los residuos no. Más adelante las calcularemos.
2
El estimador de σ que usaremos será
n n n
1 X 1 X 2 1 X 2
b2 =
σ (ei − e)2 = ei = Yi − Ybi . (17)
n − 2 i=1 n − 2 i=1 n − 2 i=1
Tabla 12: Salida del ajuste de regresión lineal, con p-valores, para los 100 bebés
de bajo peso.
> ajuste<-lm(headcirc~gestage)
> summary(ajuste)
Call:
lm(formula = headcirc ~ gestage)
Residuals:
Min 1Q Median 3Q Max
-3.5358 -0.8760 -0.1458 0.9041 6.9041
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.91426 1.82915 2.14 0.0348 *
gestage 0.78005 0.06307 12.37 <2e-16 ***
---
Signif. codes: 0 `***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Yi = β0 + β1 Xi + ε.
2.9 Inferencia sobre β1 49
βb − β βb − β1
r 1 1 = 1
seβb1
Vdar βb1
por lo que usamos el símbolo seβb1 para el error estándar de βb1 , o sea seβb1 es un
α
donde es el percentil 1 −
tn−2 ,1− α2 de la distribución tn−2 (el valor que deja a su
2
α 3
izquierda un área 1 − ) . Esto también permite realizar tests para la pendiente.
2
La forma general de las hipótesis para estos tests es
H0 : β1 = b
H1 : β1 6= b.
donde b es un valor jado de antemano. Sin embargo, el test de mayor interés para
el modelo lineal es el que permite decidir entre estas dos hipótesis
H0 : β1 = 0 (19)
H1 : β1 6= 0,
(es decir, tomar b = 0 como caso particular). Si β1 = 0, las Yi no dependen
de las Xi , es decir, no hay asociación lineal entre X e Y , en cambio, la hipótesis
alternativa indica que sí hay un vínculo lineal entre ambas variables. Para proponer
un test, debemos dar la distribución de un estadístico basado en el estimador bajo
2
la hipótesis nula. En este caso resulta que, bajo H0 , Yi | Xi ∼ N (β0 , σ ) , es decir,
son variables aleatorias independientes e idénticamente distribuidas. Como además
el estimador de β1 (y también el de β0 ) puede escribirse como una combinación
lineal de los Yi :
Pn n
i=1 Yi − Y
Xi − X 1 X
βb1 = Pn 2 = Pn 2 Xi − X Yi
j=1 Xj − X j=1 Xj − X i=1
n n
X Xi − X X
= Pn 2 Yi = ci Y i (20)
i=1 j=1 Xj − X i=1
donde
Xi − X Xi − X
ci = Pn 2 = , (21)
Xj − X SXX
j=1
n
X 2
SXX = Xj − X .
j=1
tiene distribución tn−2 . Finalmente, un test de nivel α para las hipótesis (19)
rechazará H0 cuando el valor de T observado en la muestra sea mayor que el
α α
percentil 1 − de la distribución tn−2 , es decir, tn−2 ,1− α , o menor que tn−2 , =
2 2 2
−tn−2 ,1− 2 , según la Figura 17.
α
Figura 17: Región de rechazo y aceptación para el test t para la pendiente del
modelo lineal simple, se graca la densidad de una t de Student con n−2 grados
de libertad. Fuente Rosner [2006], pág. 442.
donde Tobs es el valor del estadístico T denido en (22) calculado en base a las
observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) . O bien, se puede calcular el p − valor del
test de la siguiente forma
p − valor = 2P (T ≥ |Tobs |) ,
52 María Eugenia Szretter
ya que se trata de un test a dos colas. Reportar el p-valor cuando uno realiza un
test sobre un conjunto de datos siempre permite al lector elegir su punto de corte
respecto de aceptar o rechazar una hipótesis.
Un comentario nal. Hay una importante distinción entre signicatividad esta-
dística, es decir, la observación de un p-valor sucientemente pequeño, y la signi-
catividad cientíca (médica, biológica, económica, dependiendo del contexto) en el
hecho de considerar signicativo un efecto de una cierta magnitud. La signicati-
vidad cientíca requerirá examinar, en la mayoría de las aplicaciones, el contexto,
la evidencia cientíca existente, las magnitudes de las variables relacionadas, el
estado del arte en el tema en cuestión, más que sólo un p-valor.
seβb1 = 0,063.
r
Pn 2
i=1 (Xi −X )
En la segunda vemos que
n−1
= 2,534 que es el desvío estándar
0
muestral de las X s. De aquí obtenemos
n
X 2
SXX = Xi − X = 2,5342 (n − 1) = 2,5342 (99) = 635,69
i=1
2.9 Inferencia sobre β1 53
Finalmente,
s s
SSRes/ (n − 2) 247,883/98
seβb1 = Pn 2 =
635,69
i=1 Xi − X
r
2,529418
= = 0,06307941
635,69
El percentil resulta ser tn−2;1− α2 = t98,0,975 = 1,984467. Luego, un intervalo de
conanza de nivel 0,95 = 1 − α para β1 será
βb1 ± tn−2;1− α2 · seβb1
0,7801 ± 1,984467 · 0,06307941
[0,654921, 0,905279]
Es decir, como el intervalo está íntegramente contenido en los reales positivos, el
verdadero valor de la pendiente, β1 , será positivo, conrmando que la asociación
positiva que encontramos en la muestra se verica a nivel poblacional. Observemos
también que el intervalo es bastante preciso, esto se debe a que la muestra sobre la
que sacamos las conclusiones es bastante grande. Notemos que la variabilidad de βb1
disminuye (la estimación es más precisa o el intervalo de conanza más pequeño),
ver la expresión (18) cuando:
b2
σ b2
σ 1
se2βb1 = Pn 2 = hPn i· .
/ (n − 1) (n − 1)
2
i=1 Xi − X i=1 Xi − X
σ2
El primer factor convergerá a si las X‘s son una muestra al azar.
V ar(X)
Como el segundo factor tiende a cero, el producto tiende a cero al aumentar
el n.
Si en vez del intervalo de conanza queremos hacer un test de nivel 0,05 para
las hipótesis siguientes
H0 : β1 = 0
H1 : β1 6= 0,
54 María Eugenia Szretter
Para decidir la conclusión del test debemos comparar el valor Tobs con el percentil
t
n−2;1− α
2
= t98,0,975 = 1,984467. Como claramente Tobs = 12,367 > t98,0,975 =
1,984, entonces rechazamos H0 , concluyendo que el parámetro poblacional que
mide la pendiente del modelo lineal es distinto de cero. Como sabemos, una forma
alternativa de llevar a cabo este test es calcular el p − valor, que en este caso será
como gura en la última columna de la Tabla 12. Como p−valor < 0,05, se rechaza
la hipótesis nula.
H0 : β1 = b
H1 : β1 6= b.
la hipótesis nula será rechazada para todo b jo que no quede contenido en el
intervalo [0,655, 0,905] en base a la muestra observada (esto es lo que se conoce
como dualidad entre intervalos de conanza y tests).
Tabla 13: Intervalos de conanza de nivel 0,95 para los coecientes lineales del
ajuste en R, para los 100 bebés de bajo peso.
> ajuste<-lm(headcirc~gestage)
> confint(ajuste, level = 0.95)
2.5 % 97.5 %
(Intercept) 0.2843817 7.5441466
gestage 0.6548841 0.9052223
2.10 Inferencia sobre β0 55
Nuevamente, las conclusiones son condicionales a los valores de los X‘s observados.
La varianza puede estimarse por
2
!
1 X
d b2
V ar βb0 = σ + 2
n Pn Xj − X
j=1
βb − β
r 0 0 ∼ tn−2
V ar βb0
Esto quiere decir que el (1 − α) · 100 por ciento de los intervalos construidos de
esta forma contendrán al verdadero valor β0 con el que fueron generados los datos.
Ejemplo 2.3 Para el ejemplo de los 100 bebés vemos en la Tabla 12 que el esta-
dístico T observado en este caso vale 2,14 y el p-valor para testear
H0 : β0 = 0
H1 : β0 6= 0,
es 0,035, indicando que se rechaza la H0 y la ordenada al origen poblacional es no
nula. También en la Tabla 13 puede observarse el intervalo de conanza de nivel
0,95 para β0 que resulta ser [0,284, 7,544] .
56 María Eugenia Szretter
E (Yh | X = xh ) = β0 + β1 xh .
y por cuan lejos está ese valor particular de xh (de X) del promedio observado
en la muestra X.
Figura 19: Dos rectas ajustadas por mínimos cuadrados para dos muestras con los
mismos Xi , ambas pasan por el mismo X, Y , se observa la variabilidad mayor
en el valor predicho (o ajustado) para E (Y | X = x2 ) que para E (Y | X = x1 ) si
la distancia al X es mayor para x2 que para x1 .
Y será parecido en las diversas muestras. Todas las rectas ajustadas por mínimos
cuadrados pasarán por sus respectivos centros X, Y , que al no diferir demasiado
en su valor en Y , darán una estimación más precisa de E (Yh | X = xh ) cuando xh
esté cerca de X que cuando esté lejos, ver la Figura 19.
(Xi −X )
con ci = SXX
. De la normalidad de los errores se deduce la normalidad de Ybh .
Luego, un intervalo de conanza (que abreviaremos IC) de nivel 1 − α para E (Yh )
resulta ser
v
u 2
u1 xh − X
Ybh ± tn−2;1− α2 ·σ
b· t + . (24)
n Pn Xi − X 2
i=1
Predicción (es decir, el cálculo del intervalo de predicción de una nueva ob-
servación Yh(nueva) medida cuando X = xh ): Es una regla para calcular a partir
de los datos un valor que nos permita adivinar el valor que puede tomar una
variable aleatoria.
Nuestra mejor predicción es nuevamente
En R: Creamos un vector con todos los valores de xh para los cuales queremos
hallar los intervalos de conanza, lo llamamos xx en la lista de comandos que sigue.
En R, el nivel de los intervalos, por default, es 0.95.
60 María Eugenia Szretter
> ajuste<-lm(headcirc~gestage)
> xx<-c(23,25,28,29,33,35)
> IC<-predict(ajuste,newdata=data.frame(gestage=xx),
interval="confidence",level=0.95)
> IP<-predict(ajuste,newdata=data.frame(gestage=xx),
interval="prediction",level=0.95)
> IC
fit lwr upr
1 21.85549 21.05352 22.65745
2 23.41559 22.83534 23.99584
3 25.75575 25.42106 26.09045
4 26.53581 26.21989 26.85172
5 29.65602 29.05247 30.25956
6 31.21612 30.38878 32.04347
> IP
fit lwr upr
1 21.85549 18.59907 25.11190
2 23.41559 20.20657 26.62461
3 25.75575 22.58193 28.92957
4 26.53581 23.36391 29.70770
5 29.65602 26.44271 32.86933
Hagamos las cuentas en detalle para xh = 29. Sabemos que Ybh = 26,537. La
2.12 Intervalo de Predicción de una nueva observación Y medida cuando X = xh 61
teoría nos dice que el IC de nivel 0,95 para E (Yh | X = xh ) se obtiene por
v
u 2
u1 x h − X
Ybh ± tn−2;1− α2 ·σ
b · t + Pn 2
n Xi − X
i=1
X = 28,89
SXX = 635,69
n = 100
La varianza estimada por la regresión es
SS Res
b2 =
σ = 2,529
n−2
de dónde surge
p
σ
b=s= 2,529 = 1,5903
y
tn−2;1− α2 = t98;0,975 = 1,984467.
Luego, el intervalo de conanza de nivel 0,95 para E (Yh | X = 29) se obtiene por
s
1 (xh − x)2
Ybh ± tn−2; α2 · σ
b· + Pn 2
n i=1 (xi − x)
s
1 (29 − 28,89)2
26,537 ± 1,984467 · 1,5903 · +
100 635,69
26,537 ± 0,3159
[26,22; 26,85]
que coincide con lo hallado por el R: [26,21989; 26,85172] .
En cuanto al intervalo de predicción para una nueva observación de períme-
tro cefálico a realizarse en un bebé de 29 semanas de gestación, el intervalo de
predicción de nivel 1 − α = 0,95 resulta ser
s
1 (xh − x)2
Ybh ± tn−2; α2 · σ
b·
1 + + Pn
n (xi − x)2
si=1
1 (29 − 28,89)2
26,537 ± 1,984467 · 1,5903 · 1 + +
100 635,69
26,537 ± 3,1717
[23,365; 29,709]
62 María Eugenia Szretter
●
34
●
32
● ● ●
Perimetro cefalico
30
● ●
● ● ● ●
28
● ● ● ● ● ●
● ● ● ● ●
26
● ● ● ● ●
● ● ● ● ●
24
● ● ● ● ●
● ● ● ● ●
22
● ● ● ●
24 26 28 30 32 34
Edad gestacional
v
u 2
u1 x h − X
Ybh ± W · σ
b · t + Pn 2 . (25)
n Xi − X
i=1
donde
p
W = 2F1−α,2,n−2 ,
donde F1−α,2,n−2 1−α de una distribución F de Fisher con 2 grados de
es el cuantil
libertad en el numerador y (n − 2) en el denominador, que en R se calcula usando
el comando qf(1 − α,df1= 2,df2= n − 2). Observemos que la fórmula (25) tiene la
misma forma que (24) para el intervalo de conanza para la esperanza condicional
de Y cuando X = xh , excepto que el cuantil t se modica por el de la distribución
W , que es más grande y cubre el nivel simultáneo. Si los comparamos para el
ejemplo de 100 niños de bajo peso (n = 100), tomando nivel 1 − α = 0,95 tenemos
●
Recta ajustada
34
Banda W−H
IC basado en t ●
32
● ● ●
Perimetro cefalico
30
● ●
● ● ● ●
28
● ● ● ● ● ●
● ● ● ● ●
26
● ● ● ● ●
● ● ● ● ●
24
● ● ● ● ●
● ● ● ● ●
22
● ● ● ●
24 26 28 30 32 34
Edad gestacional
> library(investr)
2.14 Descomposición de la suma de cuadrados (ANOVA para regresión) 65
ui ∼ N 0, σY2 ,
Modelo A: Yi = µ + u i con 1 ≤ i ≤ n,
independientes entre sí.
Si ahora usamos los pares (X1 , Y1 ) , . . . , (Xn , Yn ) para estimar la recta de re-
66 María Eugenia Szretter
n n
1 X 2 1 X 2 1
ei = Yi − Yi =
b SSRes
n − 2 i=1 n − 2 i=1 n−2
Si todas las Yi cayeran sobre la recta, SSResiduos sería igual a cero. Cuánto
mayor sea la variación de las Yi alrededor de la recta ajustada, mayor será la
SSResiduos.
¾Cuál de las dos será mayor: SSTotal o SSRes? Vale que
SSRes ≤ SSTotal
pues βb0 y βb1 son los estimadores de mínimos cuadrados, es decir, son aquellos valo-
res de ordenada al origen a y pendiente b que minimizan la suma de los cuadrados
siguiente
n
X
g (a, b) = (Yi − (a + bXi ))2 .
i=1
2.14 Descomposición de la suma de cuadrados (ANOVA para regresión) 67
Figura 22: Las dos esperanzas o medias condicionales ajustadas bajo ambos mo-
delos, para un conjunto de veinte datos
Por lo tanto,
Xn n
2 X 2
SSRes = g β0 , β1 =
b b Yi − Yi =
b Yi − β0 + β1 Xi
b b
i=1 i=1
n
X
≤ g (a, b) = (Yi − (a + bXi ))2 para todo a y b. (27)
i=1
2
g Y , 0 = ni=1 Yi − Y
P
En particular, tomando a=Y y b=0 tenemos y de
(27) tenemos
n
X 2
SSRes ≤ Yi − Y = SSTo. (28)
i=1
Podemos interpretar a SSTo como una medida de la variabilidad de las Y que
no queda explicada por el modelo A. Es una medida del desajuste del modelo A
a los datos. Lo mismo puede decirse de SSRes: es una medida de la variabilidad
68 María Eugenia Szretter
Yi − Y = Y − Yb + Yb − Y (29)
| {z } | i {z }i | i {z }
desviación total
desvío alrededor desvío de los predichos
de la recta de regresión respecto de la media
ajustada
recta horizontal que corta al eje vertical en Y , Yi − Ybi mide la distancia vertical
(con signo, es decir puede ser positivo o negativo, según dónde esté ubicada la
Figura 23: Los tres términos que aparecen en la igualdad (29) para una observación.
Sin embargo, puede probarse que vale la siguiente igualdad, cuando sumamos sobre
todas las observaciones
n n 2 n 2
X 2 X X
Yi − Y = Yi − Ybi + Ybi − Y . (30)
i=1 i=1 i=1
Figura 24: El primer gráco contiene las distancias (con signo) que intervienen
en la SSTo, es decir, las diferencias entre los valores observados de Y y la media
muestral Y, el segundo tiene las diferencias entre las observaciones y los valores
predichos por la recta ajustada, que conforman la SSRes y el tercer gráco muestra
la diferencia entre los valores predichos por el modelo lineal y el promedio Y, que
forman la SSReg o SSM. Fuente: Field [2005], pág. 149.
n 2 n n 2
X X 2 X
SSReg = Ybi − Y = Yi − Y − Yi − Ybi
i=1 i=1 i=1
= SSTo − SSRes.
En la Figura 24 pueden verse los tres sumandos de esta descomposición en forma
gráca para un conjunto de datos.
Como la SSReg queda completamente determinada al quedar determinada la
inclinación de la recta (recordemos que los valores de Xi están jos), es decir, la
pendiente de la recta, decimos que la SSReg tiene un sólo grado de libertad.
Con estas cantidades se construye la tabla de análisis de la varianza que aparece
en la salida de cualquier paquete estadístico en lo que se conoce como tabla de
ANOVA (Analysis of Variance table ). Resumimos esta información en la Tabla 14
Tabla 15: Tabla de ANOVA, salida de R con el comando anova, para los 100 bebés
con bajo peso.
> ajuste<-lm(headcirc~gestage)
> anova(ajuste)
Analysis of Variance Table
Response: headcirc
Df Sum Sq Mean Sq F value Pr(>F)
gestage 1 386.87 386.87 152.95 < 2.2e-16 ***
Residuals 98 247.88 2.53
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
que sin conocer el valor de X, entonces las variables están asociadas. Para ello
usaremos la descomposición de la suma de cuadrados vista en la sección anterior.
72 María Eugenia Szretter
Por lo descripto allí, la mejora en el ajuste a los datos conseguida por la inclusión
del modelo B resulta ser SSTo − SSRes. ¾Cuánto de la variabilidad total de las
Y queda explicada por la regresión? Podemos plantear la siguiente regla de tres
simple:
100 % de variabilidad SSTo
SSTo − SSRes
× 100 %.
SSTo
A la cantidad
SSTo − SSRes SSReg
=
SSTo SSTo
se la denomina R , o
2
coeciente de determinación
.
2
R nos dice qué proporción de la variabilidad total en la variable Y puede ser
explicada por la variable regresora, en consecuencia es una medida de la capacidad
de predicción del modelo.
R2 también puede verse como una medida de la fuerza de la asociación lineal
entre X e Y. (Hacemos énfasis en la palabra lineal porque fue obtenido bajo un
modelo lineal).
2.15.1. Propiedades de R2
0 ≤ R2 ≤ 1
Mientras mayor sea R2 menor es la SSRes y por lo tanto, más cercanos están
los puntos a la recta.
Ejemplo 2.5 Para los datos de la regresión de perímetro cefálico versus edad ges-
tacional, en la salida del modelo lineal en la Tabla 12, vemos que
R2 = 0,6095
Este valor implica una relación lineal moderadamente fuerte entre la edad gestacio-
nal y el perímetro cefálico. En particular, el 60,95 % de la variabilidad observada
en los valores de perímetro cefálico queda explicada por la relación lineal entre el
perímetro cefálico y la edad gestacional. El restante
El R2 no se usa para testear hipótesis del modelo sino como una medida de la
capacidad predictiva de la relación lineal ajustada.
SSReg
MSReg 1 SSReg
F = = SSRes =
MSRes
n−2
SSRes/ (n − 2)
Puede probarse que, bajo los supuestos del modelo lineal y cuando H0 es ver-
dadera, F tiene distribución de Fisher con 1 grado de libertad en el numerador y
n−2 grados de libertad en el denominador. Por lo tanto, un test de nivel α para
H0 : β1 = 0
H1 : β1 6= 0
rechazará la hipótesis nula si el valor del estadístico observado Fobs cumple que
Fobs > F1,n−2,1−α . O cuando su p-valor es menor a α, siendo
Observación 2.5 El test F que obtendremos aquí es el mismo que el test t presen-
tado en la Sección 2.9 para testear la hipótesis H0 : β1 = 0, ya que F se dene como
el cuadrado del estadístico empleado en el test t. Para comprobarlo, observemos que
a partir de la ecuación que dene a βb0 (12) tenemos
βb0 = Y − βb1 X.
X n n
2 X 2
MSReg = SSReg = Yi − Y =
b β0 + β1 Xi − Y
b b
i=1 i=1
n
X 2 n
X 2
= Y − βb1 X + βb1 Xi − Y = −βb1 X + βb1 Xi
i=1 i=1
n
X 2
= βb12 Xi − X
i=1
SSRes
MSRes =
n−2
Luego, si recordamos el estadístico T denido en las ecuaciones (22) para testear
la hipótesis de pendiente igual a cero, tenemos
vemos que
F = T2
y el p-valor del test t se calculaba
= P (F ≥ Fobs )
Ejemplo 2.6 Si miramos la tabla de ANOVA para el ejemplo de los 100 bebés
(Figura 15), vemos que el estadístico del test F toma el valor
F = 152,947.
√
Su raíz cuadrada es 152,947 = 12,367, que es el valor del estadístico T para
testear si la pendiente es o no nula, como puede verse en la Tabla 12.
Ejercicio 2.5 Medidas del cuerpo, Parte IV. Base de datos bdims del paquete
openintro.
(a) Compare los ajustes realizados en los ejercicios 2.1 y 2.2. En ambos se ajusta
un modelo lineal para explicar el peso medido en kilogramos (wgt): en el ejer-
cicio 2.1 por la circunferencia de la cadera medida en centímetros (hip.gi),
en el ejercicio 2.2 por la altura media en centímetros (hgt). ¾Cuál de los dos
covariables explica mejor al peso? ¾Qué herramienta utiliza para comparar-
los?
(b) Para el ajuste del peso usando la circunferencia de cadera como única co-
variable, halle un intervalo de conanza de nivel 0.95 cuando el contorno
de cadera mide 100 cm. Compárelo con el intervalo de predicción para ese
mismo contorno de cadera.
(c) Para el ajuste del peso usando la altura como única covariable, halle un
intervalo de conanza de nivel 0.95 cuando la altura es de 176 cm. Compárelo
con el intervalo de predicción para esa misma altura. ¾Cuál de los dos modelos
da un intervalo de predicción más útil?
76 María Eugenia Szretter
(e) Construya los intervalos de predicción para el peso esperado cuando de nivel
(individual) 0.95 cuando el contorno de cintura es de 80cm., 95cm. y 125cm.
Compare las longitudes de estos tres intevalos entre sí. Compárelos con los
IC de nivel individual.
(h) Realice un scatterplot del peso en función del contorno de cintura. Superponga
los IC y los IP al gráco, de nivel 0.95 (no simultáneo).
Ejercicio 2.6 (Del Libro de Weisberg [2005]) Uno de los primeros usos de la
regresión fue estudiar el traspaso de ciertos rasgos de generación en generación.
Durante el período 18931898, E. S. Pearson organizó la recolección de las alturas
de n = 1375 madres en el Reino Unido menores de 65 años y una de sus hijas
adultas mayores de 18 años. Pearson y Lee (1903) publicaron los datos, y usaremos
estos datos para examinar la herencia. Los datos (medidos en pulgadas) pueden
verse en el archivo de datos heights.txt del paquete alr3 de R. Nos interesa
estudiar el traspaso de madre a hija, así que miramos la altura de la madre, llamada
Mheight, como la variable predictora y la altura de la hija, Dheight, como variable
de respuesta. ¾Será que las madres más altas tienden a tener hijas más altas? ¾Las
madres más bajas tienden a tener hijas más bajas?
(a) Realice un scatterplot de los datos, con la altura de las madres en el eje
horizontal.
ii. Si cada madre e hija tuvieran exactamente la misma altura que su hija,
¾cómo luciría este scatterplot? Resuma lo que observa en este gráco.
Superpóngale la gura que describió como respuesta a la pregunta ante-
rior. ¾Describe esta gura un buen resumen de la relación entre ambas
variables?
2.17 Ejercicios (segunda parte) 77
(b) Ajuste el modelo lineal a los datos. Indique el valor de la recta ajustada.
Superpóngala al scatter plot. ¾Presenta visualmente un mejor ajuste que la
recta identidad postulada en el ítem anterior? Dé los estimadores de los co-
ecientes de la recta, sus errores estándares, el coeciente de determinación,
estime la varianza de los errores. Halle un intervalo de conanza de nivel
0.95 para la pediente. Testee la hipótesis E(Dheight | Mheight) = β0 ver-
sus la alternativa que E (Dheight | Mheight) = β0 + β1 Mheight. Escriba su
conclusión al respecto en un par de renglones.
(c) Prediga y obtenga un intervalo de predicción para la altura de una hija cuya
madre mide 64 pulgadas. Observe que para que esta predicción sea razonable,
hay que pensar que la madre vivía en Inglaterra a nes del siglo XIX.
Y = 10 + 5X + ε, (31)
ii. Inventamos los valores de X . Para eso, generamos 22 valores con distri-
bución uniforme entre 0 y 10, con la instrucción runif. Para no trabajar
con tantos decimales, redondeamos estos valores a dos decimales, con
la instrucción round().
iii. Ahora sí, denimos las Y usando todo lo anterior:
Yi = 10 + 5Xi + εi ,
para cada 1 ≤ i ≤ n = 22. Observar que nos hemos conseguido obser-
vaciones {(Xi , Yi )}1≤i≤n independientes que siguen el modelo
Y = β0 + β1 X + ε.
¾Cuánto valen los verdaderos β0 y β1 ?
Ejercicio 2.8 Simulación 2. Ahora hacemos un upgrade del desafío. Vamos a re-
petir lo hecho en el ejercicio 2.7 muchas veces, digamos lo replicaremos B = 1000
veces. Llamaremos replicación a cada repetición del ejercicio anterior. ¾Qué repli-
camos? Repetimos generar n = 22 observaciones del modelo (31) con errores nor-
males (lo que llamamos elegir una muestra), ajustamos el modelo lineal, guardamos
la pendiente estimada y nos jamos si el 5 pertenece al intervalo de conanza para
la pendiente.
2.17 Ejercicios (segunda parte) 79
(a) ¾Puede usted anticipar, desde la teoría las respuestas de las preguntas que
siguen?
ii. ¾Alrededor de qué número variarán las pendientes estimadas en las 1000
replicaciones?
(c) Los valores de X1 , . . . , X22 los dejaremos siempre jos, en los valores que
tomamos en el ejercicio 2.7. En cada replicación elegimos nuevos valores pa-
ra los errores, y consecuentemente, nuevos valores para la variable respuesta
Y1 , . . . , Y22 . No nos interesará guardar ni a los errores ni a las Y. Para cada
muestra, corra el ajuste lineal y guarde la pendiente estimada y la respuesta
en forma de true o false respecto de si el intervalo de conanza para la pen-
diente contiene al verdadero valor de la pendiente. Todo esto puede realizarse
con la instrucción for del R, que no es la manera óptima de programar, pero
sí es la más comprensible.
Ejercicio 2.9 Mamíferos, Parte IV. conjunto de datos mammals del paquete openintro.
Vimos, en los ejercicios 1.7 y 2.3, que el scatter plot de los datos originales no tie-
ne la forma elipsoidal (o de pelota de rugby, más o menos achatada) que podemos
describir con un modelo de regresión lineal. Por ello, ajustamos un modelo lineal
para explicar a log10 (BrainWt) en función del log10 (BodyWt) ,
Una observación: en el help del openitro se indica que la variable BrainWt está
medida en kg., sin embargo, esta variable está medida en gramos.
E [g (Y )] 6= g (E [Y ]) .
Ejercicio 2.10 (Del Libro de Weisberg [2005]) La perca americana o lubina (small-
mouth bass) es un pez que vive en lagos y cuya pesca constituye una actividad bas-
tante difundida. En Estados Unidos, para garantizar un equilibrio saludable entre
2.17 Ejercicios (segunda parte) 81
(b) Calcule las medias y los desvíos estándares muestrales para cada uno de
las ocho subpoblaciones de los datos de las percas. Dibuje un boxplot de la
longitud para cada edad de las percas, todos en la misma escala. Describa
lo que ve. La longitud, ¾parece aumentar con la edad? La dispersión de la
longitud, ¾parece mantenerse más o menos constante con la edad? ?¾O crece?
¾O decrece?
3. Diagnóstico en Regresión
Las técnicas del diagnóstico en regresión se abocan a validar que los supuestos
realizados por el modelo sean apropiados para los datos con los que se cuenta.
Son realizadas a posteriori del ajuste (aunque losócamente se deberían realizar
antes) y están basadas en general en los residuos (o versiones apropiadamente es-
caladas) de ellos. Constan principalmente de técnicas grácas, aunque también en
la exhibición de algunas medidas de bondad de ajuste. Si el modelo propuesto, una
vez ajustado a los datos, no proporciona residuos que parezcan razonables, enton-
ces comenzamos a dudar de que algun aspecto del modelo (o todos) sea apropiado
para nuestros datos. Un tema relacionado es asegurarse que la estimación realizada
no sea tremendamente dependiente de un sólo dato (o un pequeño subconjunto de
datos) en el sentido en que si no se contara con dicho dato las conclusiones del estu-
dio serían completamente diferentes. La identicación de estos puntos inuyentes
forma parte relevante del diagnóstico (y de esta sección).
donde
1 Xi − X Xk − X
hik = +
n SXX
2
1 Xi − X
hii = + . (34)
n SXX
n
X 2
SXX = Xk − X .
k=1
3.1 Medidas de diagnóstico 83
Vale que
n
X n
X
hik = 1, hik = 1 (35)
k=1 i=1
Xn
hii = 2
i=1
1 1
≤ hii ≤ ≤ 1. (36)
n s
donde s es la cantidad de observaciones con predictor igual a Xi en la muestra.
La cantidad hii se denomina leverage del dato i-ésimo. Es una medida que resume
cuán lejos cae el valor de Xi de la media muestral de las X. Mide, de alguna
manera, cuánto es el aporte de la observación i-ésima a la varianza muestral de las
X (que es Sn−1
XX
). La traducción de leverage al castellano es usualmente palanca, o
inuencia. Observemos que es un concepto que no depende del valor Yi observado.
3.1.2. Residuos
Dijimos en la Sección 2.8 que los residuos son cantidades observables, que
representan de alguna manera el correlato empírico de los errores. Para vericar
los supuestos del modelo lineal, suelen usarse métodos grácos que involucran a
los residuos. El modelo lineal
Y = β0 + β1 X + ε
supone que los errores ε tienen media poblacional cero y varianza constante (que
2
denominamos σ ), y que son indendientes para distintas observaciones. Sin embar-
go, ya hemos visto que no ocurre lo mismo con los residuos. Vimos que los residuos
no son independientes. Además, puede probarse que
E (ei ) = 0
V ar (ei ) = σ 2 (1 − hii ) (37)
2
1 (Xi −X )
donde hii =n
+ SXX , es el leverage de la observación i-ésima. En consecuencia
la varianza del residuo de un dato depende del valor de la covariable, y los residuos
de distintos casos tienen diferentes varianzas. De la ecuación (37) vemos que cuánto
mayor sea hii , menor será la varianza del ei : mientras más cercano a uno sea hii
más cercana a cero será la varianza del residuo de la observación i-ésima. Esto
quiere decir que para observaciones con gran hii , Ybi tenderá a estar cerca del valor
observado Yi , sin importar cuánto sea el valor Yi observado. En el caso extremo
e hipotético en que hii = 1, la recta ajustada sería forzada a pasar por el valor
observado (Xi , Yi ).
84 María Eugenia Szretter
SS Res
b2 =
σ
n−2
Puede probarse que los residuos estandarizados tienen media poblacional cero
(igual que los residuos), y varianza poblacional igual a uno, es decir
E (resti ) = 0
V ar (resti ) = 1, para todo i.
Figura 25: Grácos de residuos: (a) nube de datos sin estructura, (b) varianza que
crece con X (forma de megáfono abierto a la derecha), (c) varianza que decrece
con X (forma de megáfono abierto a la izquierda), (d) varianza que depende de la
covariable, (e)-(f ) no linealidad, (g)-(h) combinación de no linealidad y función de
varianza no constante. Fuente: Weisberg [2005], pág. 172.
3.1 Medidas de diagnóstico 87
un valor mucho menor que el observado, por lo tanto el residuo resulta grande
Podemos probar sacar este punto de la muestra, volver a realizar el ajuste y luego
comparar los dos modelos para medir el efecto del punto en la estimación de los
coecientes de la recta. No lo haremos aquí puesto que en las secciones subsiguien-
tes propondremos otros modelos que ajustarán mejor a nuestros datos. En cuanto
al gráco de residuos, este no muestra evidencia de que el supuesto de homosce-
dasticidad sea violado, o que haya algun tipo de curvatura en el vínculo entre los
residuos y los predichos, indicando que el modelo ajusta bien a los datos.
Figura 26: Gráco de residuos versus valores ajustados para el ajuste lineal de
perímetro cefálico en función de la edad gestacional, en el caso de los 100 bebés
de bajo peso.
E (Y | X) = β0 + β1 X + β2 X 2 .
Es posible estudiar estos modelos como un caso particular de los modelos de regre-
2
sión lineal, pero con dos covariables (X y X ), lo cual nos lleva a tratarlos dentro
de los modelos de regresión múltiple, que presentaremos más adelante.
E (Y | X = xi ) = β0 + β1 xi ,
σ2
V ar (Y | X = xi ) = V ar (εi ) =
wi
donde w1 , . . . , w n
son números positivos conocidos. La función de varianza todavía
2
queda caracterizada por un único parámetro desconocido σ , pero las varianzas
pueden ser distintas para distintos valores de X. Esto nos lleva al método de
mínimos cuadrados pesados o ponderados (en inglés weighted least squares, o wls)
en vez del método usual de mínimos cuadrados (ordinary least squares, ols) para
obtener estimadores. En este caso, se buscan los valores de los parámetros que
minimizan la función
n
X
gwls (a, b) = wi (Yi − (a + bXi ))2 .
i=1
Existen expresiones explícitas para los parámetros estimados con este método, y
los softwares más difundidos realizan el ajuste. En las aplicaciones, por supuesto, se
agrega la complejidad extra de elegir los pesos wi que en general no vienen con los
datos. Muchas veces se usan pesos empíricos, que se deducen de algunos supuestos
teóricos que se tengan sobre las variables, por ejemplo. Si hubiera replicaciones,
es decir varias mediciones de la variable respuesta realizadas para el mismo valor
de la covariable, podría estimarse la varianza dentro de cada grupo y conseguirse
de este modo pesos aproximados. También es posible usar modelos de mínimos
cuadrados generalizados, en los que se estiman simultáneamente los parámetros
del modelo y los pesos, que exceden por mucho estas notas (consultar por ejemplo
Pinheiro y Bates [2000], Sección 5.1.2).
La tercera posibilidad es no hacer nada. Los estimadores de los parámetros,
ajustados considerando una función de varianza incorrecta o mal especicada, son
de todos modos insesgados, aunque inecientes. Los tests e intervalos de conanza
calculados con la función de varianza errada serán inexactos, pero se puede recurrir
a métodos de bootstrapping para obtener resultados más precisos.
90 María Eugenia Szretter
4. Escribamos
Yi − Ybi(i)
ti = r ,
ar Yi − Ybi(i)
Vd
los anteriores tests), y rechazar cuando este valor sea demasiado grande o
demasiado pequeño.
Ejemplo 3.1 En el caso de los 100 bebés, para detectar outliers a nivel 0,05 debe-
mos computar el residuo estudentizado para cada caso, y compararlo con el percentil
α 0,05
1− =1− = 0,99975
2n 2 · 100
94 María Eugenia Szretter
de una t97 , que resulta ser 3,602. El único residuo estudentizado cuyo valor abso-
luto sobrepasa este punto de corte es el correspondiente a la observación 31, que
es 4,857. En la Figura 28 pueden verse los boxplots de los residuos, los residuos
estandarizados y los residuos estudentizados para el ajuste de perímetro cefálico en
función de la edad gestacional.
Figura 28: Los boxplots de los residuos, los residuos estandarizados y los residuos
estudentizados para el ajuste de perímetro cefálico en función de la edad gestacio-
nal en el ejemplo.
Este test ubica un outlier, pero no nos dice qué hacer con él. Cuando detectamos
un outlier, sobre todo si es severo, es importante investigarlo. Puede tratarse de
un dato mal registrado, o que fue mal transcripto a la base de datos. En tal caso
podremos eliminar el outlier (o corregirlo) y analizar los casos restantes. Pero si
el dato es correcto, quizás sea diferente de las otras observaciones y encontrar las
causas de este fenómeno puede llegar a ser la parte más interesante del análisis.
Todo esto depende del contexto del problema que uno esté estudiando. Si el dato es
3.2 Outliers y observaciones inuyentes 95
correcto y no hay razones para excluirlo del análisis entonces la estimación de los
parámetros debería hacerse con un método robusto, que a diferencia de mínimos
cuadrados, no es tan sensible a observaciones alejadas de los demás datos.
Antes de terminar, correspondería hacer un alerta. Los residuos estudentizados
son una herramienta más robusta que los residuos estandarizados para evaluar si
una observación tiene un residuo inusualmente grande. Éste método para detectar
outliers parece una estrategia muy apropiada. Y lo es... siempre que en la mues-
tra haya a lo sumo un outlier. Pero, como todos los procedimientos de leave one
out, puede conducirnos a conclusiones erradas si en la muestra hubiera más de un
dato atípico, pues en tal caso, al calcular el residuo estudentizado de la observa-
ción i-ésima, la otra (u otras) observaciones atípicas aún presentes en la muestra
podrían tergiversar el ajuste del modelo Ybi(i) o la estimación del desvío estándar
σ
b(i) , alterando la distribución de los residuos estudentizados resultantes. Por eso,
una estrategia todavía mejor para detectar la presencia de outliers que el estudio
de los residuos estudentizados, es comparar el ajuste obtenido por cuadrados mí-
nimos con el ajuste al modelo lineal que proporciona un método robusto, como
describiremos en la Sección 3.2.4.
ciones 3.1.1 y 3.1.2 el leverage de ambas será bastante alto. Mientras mayor sea el
leverage de la observación, menor será la variabilidad del residuo, esto quiere decir
que para observaciones con gran leverage, el valor predicho tendrá que estar cerca
del valor observado. Por eso se dice que tienen un alto grado de apalancamiento, o
que cada uno de ellos es un punto de alta palanca. Luego la recta ajustada se ve-
rá matemáticamente obligada a acercarse a dichas observaciones, alejándose para
ello, de los demás datos.
En la Figura 29 (3) aparece una observación indicada con B. Esta observación
será inuyente en el ajuste, pero como sigue el patrón lineal de los datos (o sea,
sigue la estructura de esperanza condicional de Y cuando X es conocida que tienen
el resto de los datos) no hará que la recta estimada cuando el punto está en la
muestra varíe mucho respecto de la recta estimada en la situación en la que no
está, pero reforzará (quizá articialmente) la fuerza del ajuste observado: reforzará
la signicatividad de los tests que se hagan sobre los parámetros.
La Figura 29 (4) presenta la observación C. Esta observación será muy inu-
yente en el ajuste, arrastrando a la recta estimada a acercarse a ella. Como no sigue
la misma estructura de esperanza condicional que el resto de las observaciones, la
recta ajustada en este caso diferirá mucho de la que se ajusta a los datos de la
Figura 29 (1). Sin embargo, si una vez realizado el ajuste intentamos identicar
este punto mirando las observaciones de mayores residuos (o residuos estandariza-
dos) es posible que no la detectemos (dependerá de cuán extrema sea) ya que al
arrastrar la recta hacia ella, tendrá un residuo mucho menor que el que tendría si
usáramos la recta que ajusta a los datos del gráco (1).
Constatemos que lo armado antes es cierto, buscando la recta que mejor ajusta
a cada conjunto de datos, por mínimos cuadrados. A continuación guran las
salidas del R a los cuatro ajustes, y en la Figura 30 nuevamente los scatter plots
de los cuatro conjuntos de datos, con las rectas ajustadas superpuestas.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.4063 2.0364 3.146 0.00625
xx 2.3987 0.3038 7.895 6.58e-07
> confint(lm(yy~xx))
3.2 Outliers y observaciones inuyentes 97
2.5 % 97.5 %
(Intercept) 2.089294 10.723305
xx 1.754633 3.042795
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.8387 3.6856 2.127 0.049338
xx 2.3281 0.5469 4.257 0.000602
98 María Eugenia Szretter
> confint(lm(yy~xx))
2.5 % 97.5 %
(Intercept) 0.02561661 15.651834
xx 1.16881319 3.487375
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.2614 1.7778 3.522 0.00283
xx 2.4242 0.2412 10.049 2.57e-08
> confint(lm(yy~xx))
2.5 % 97.5 %
(Intercept) 2.492573 10.03017
xx 1.912797 2.93559
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 17.8872 3.8042 4.702 0.00024
xx 0.4471 0.4933 0.906 0.37823
> confint(lm(yy~xx))
2.5 % 97.5 %
(Intercept) 9.8226420 25.951836
xx -0.5986414 1.492747
3.2 Outliers y observaciones inuyentes 99
Figura 30: Nuevamente los scatter plots de los 4 conjunto de datos, esta vez con
las rectas ajustadas.
Una vez realizado el ajuste vemos que se verica lo anticipado. Las pendientes
de las rectas estimadas en los 3 primeros grácos no dieren demasiado entre sí, en
el gráco (2) la ordenada al origen es mayor ya que la observación A está ubicada
muy por encima de los datos. La recta estimada en (3) pasa casi exactamente
por el dato B y la signicatividad del test para la pendiente aumenta en este caso,
comparada con la del gráco (1). Además también se incrementa el R cuadrado, que
pasa de 0,79 en (1) a 0,86 en (3). En el gráco (4) vemos que la recta ajustada diere
completamente de la recta estimada para el conjunto (1), de hecho la pendiente
que era signicativa para los datos del gráco (1) deja de serlo en este caso. Vemos
que la observación C arrastró la recta hacia ella. La observación C es la que más
tergiversó las conclusiones del ajuste lineal.
Un comentario más que habría que hacer con respecto a la inuencia es que
100 María Eugenia Szretter
en este caso hemos presentado un ejemplo muy sencillo donde para cada conjunto
de datos hay un sólo dato sospechoso. En las situaciones prácticas, cuando hay
más de un dato anómalo en un conjunto de datos, esta presencia simultánea puede
enmascararse: la técnica de sacar las observaciones de a una muchas veces no logra
detectar los problemas. En regresión simple nos salva un poco el hecho de que po-
demos gracar muy bien los datos. No será esta la situación en regresión múltiple,
por lo que se vuelve importante tener medidas cuantitativas que permitan medir
el grado de inuencia (al menos potencial) que tiene cada dato en un conjunto de
datos.
n
X Yi − (a + bXi )
g (a, b) = ρ (40)
i=1
sn
3.2 Outliers y observaciones inuyentes 101
Figura 31: Ejemplo de una función ρ en la familia bicuadrada (en negro) compa-
rada con la cuadrática (en rojo).
3.0
ρ
x2
2.5
2.0
1.5
ρ
1.0
0.5
0.0
−4 −2 0 2 4
Tabla 16: Ajuste robusto dado por la función lmrob del paquete robustbase, a
los datos de la Figura 29 (4)
> library(robustbase)
> summary(lmrob(yy~xx))
\--> method = "MM"
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.5147 1.8381 3.544 0.0027 **
xx 2.3721 0.2676 8.866 1.43e-07 ***
---
Robustness weights:
observation 18 is an outlier with |weight| = 0 ( < 0.0056);
3 weights are ~= 1. The remaining 14 ones are summarized as
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6463 0.9142 0.9431 0.9167 0.9897 0.9959
> confint(lmrob(yy~xx))
2.5 % 97.5 %
(Intercept) 2.618108 10.411366
xx 1.804946 2.939334
> boxplot(residuals(lm(yy~xx)),studres(lm(yy~xx)),
residuals(lmrob(yy~xx)),names=c("residuos lm","res lm
estudentizados" ,"residuos lmrob"))
Figura 32: Boxplot de los residuos para los datos de la Figura 29 (4), a la izquierda
los residuos del ajuste por regresión lineal (lm), en el centro los residuos estudenti-
zados del ajuste lineal (lm) y a la derecha los residuos del ajuste robusto propuesto
(lmrob). El ajuste de lm arrastra la recta hacia el dato C enmascarando la presen-
cia del outlier. El ajuste del lmrob, al no dejarse inuenciar por una observación
atípica permite identicar un outlier severo al estudiar los residuos.
104 María Eugenia Szretter
10
●
●
−10
−20
−30
res lm
residuos lm estudentizados residuos lmrob
Tabla 17: Ajuste de mínimos cuadrados pesados a los datos de la Figura 29 (4),
con los pesos calculados por el lmrob.
> ajusro<-(lmrob(yy~xx))
> robpesos<-ajusro$rweights
3.2 Outliers y observaciones inuyentes 105
> robpesos
1 2 3 4 5 6
0.9921401 0.9231724 0.9959484 0.9133037 0.9738549 0.9381117
7 8 9 10 11 12
0.9935094 0.9992255 0.9170598 0.6463435 0.9825457 0.7538439
13 14 15 16 17 18
0.9921665 0.9994115 0.9481115 0.9996075 0.8634395 0.0000000
> summary(lm(yy~xx,weights=robpesos))
Weighted Residuals:
Min 1Q Median 3Q Max
-4.6502 -2.1647 0.2717 0.9219 5.2523
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.5147 1.9697 3.307 0.00479 **
xx 2.3721 0.2896 8.191 6.44e-07 ***
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Pn 2
Teniendo en cuenta que i=1 hii = 2 y por lo tanto el promedio h = n ,
un criterio es considerar potencialmente inuyentes las observaciones con
hii > n4 .
Figura 33: Boxplot e histograma para los leverage de los datos (4) gracados en la
Figura 29.
Figura 34: Histogramas de los leverage para los cuatro conjuntos de datos graca-
dos en la Figura 29.
1 hii
Di = (resti )2 .
2 1 − hii
La distancia de Cook se compara con los percentiles de la distribución F de Fisher
con 2 y n−2 grados de libertad en el numerador y denominador, respectivamente
(2 porque estamos estimando dos parámetros beta). El criterio para decidir si una
observación es inuyente es el siguiente:
#residuos
rr1<-residuals(ajuste)
#residuos estandarizados
rr2<-rstandard(ajuste)
#residuos estudentizados
rr3<-rstudent(ajuste)
3.2 Outliers y observaciones inuyentes 109
Figura 35: Histogramas de las distancias de Cook para los datos de la Figura 29
############################################
# test para encontrar outliers
ene<-length(rr3)
corte<-qt(1-0.05/(2*ene),df=ene-3)
(rr3 > corte)
sum(rr3 > corte)
110 María Eugenia Szretter
#cuales son?
(1:ene)[rr3 > corte]
#leverage
hatvalues(ajuste)
hist(hatvalues(ajuste))
#un criterio
(1:ene)[lev > 0.2]
#distancias de cook
dcook <- cooks.distance(ajuste)
hist(dcook)
#punto de corte
corted <- qf(0.5,2,ene-2)
(1:nn)[dcook > corted]
library(car)
outlierTest(ajuste) # da pval de Bonferoni para obs mas extremas
qqPlot(ajuste, main="QQ Plot") #qq plot de los resid studentizados,
#con la t de student apropiada
3.3 Ejercicios 111
##############################################
# ajuste robusto
library(robustbase)
ajusterob <- lmrob(yy ~ xx)
summary(ajusterob)
#residuos
resrob <- residuals(ajusterob)
boxplot(resrob,residuals(ajuste))
#pesos
hist(ajusterob$rweights)
boxplot(ajusterob$rweights)
3.3. Ejercicios
Estos ejercicios se resuelven con el archivo script_diagnostico.R
Ejercicio 3.1 Madres e hijas II. Archivo de datos heights.txt del paquete alr3.
Continuando con el ejercicio 2.6, en el que proponemos ajustar el modelo lineal
simple para explicar la altura de la hija, Dheight, a partir de la altura de la madre,
llamada Mheight, como la variable predictora.
(a) Hacer grácos para evaluar la adecuación del modelo linel para explicar los
datos.
Ejercicio 3.2 Medidas del cuerpo V. Base de datos bdims del paquete openintro.
(a) Realice grácos de que le permitan evaluar los ajustes realizados en los ejer-
cicios 2.1 y 2.2 con esta base de datos, tanto para explicar el peso por el
contorno de cintura como el ajuste para explicar el peso por la altura. ¾Lo
conforman estos modelos ajustados?
112 María Eugenia Szretter
(b) Compare el ajuste clásico del modelo lineal con el ajuste robusto. ¾Cambian
mucho los modelos ajustados? ¾Qué indica esto? No se desanime, este ejer-
cicio sigue en el capítulo próximo.
(a) En el ejercicio 1.7 observamos que el scatter plot del peso del cerebro de un
mamífero (BrainWt) en función de su peso corporal (BodyWt) no se podía
describir como una pelota de rugby más o menos achatada. Supongamos que
no hubiéramos hecho el gráco de dispersión, e intentemos ajustar un modelo
lineal a los datos. Ajuste el modelo lineal simple que explica BrainWt en fun-
ción de BodyWt. Luego realice el gráco de residuos versus valores predichos.
El gráco de residuos estandarizados versus valores predichos. El de residuos
estudentizados versus valores predichos. ¾Dieren mucho entre sí?
(b) Use el test de outliers basado en los residuos estudentizados. Indique cuáles
son las observaciones candidatas a outliers.
(c) Calcule los leverages. Identique las observaciones candidatas a más inu-
yentes según este criterio. Calcule las distancias de Cook, vea cuáles son las
observaciones inuyentes.
Ejercicio 3.4 Hacer un ajuste robusto a los datos de perímetro cefálico y edad
gestacional. Comparar con el ajuste clásico. Identicar la presencia de outliers.
¾Son muy inuyentes en el ajuste? Recordar que de todos modos este no es el
último modelo que probaremos sobre estos datos.
El modelo de regresión lineal múltiple es uno de los modelos más utilizados entre
todos los modelos estadísticos.
En la mayoría de las situaciones prácticas en las que se quiere explicar una variable
continua Y se dispone de muchas potenciales variables predictoras. Usualmente,
el modelo de regresión lineal simple (es decir, con una sola variable predictora)
provee una descripción inadecuada de la respuesta ya que suele suceder que son
muchas las variables que ayudan a explicar la respuesta y la afectan de formas dis-
tintas e importantes. Más aún, en general estos modelos suelen ser muy imprecisos
como para ser útiles (tienen mucha variabilidad). Entonces es necesario trabajar
con modelos más complejos, que contengan variables predictoras adicionales, para
proporcionar predicciones más precisas y colaborar en la cuanticación del vínculo
entre ellas. En este sentido, el modelo de regresión múltiple es una extensión natu-
ral del modelo de regresión lineal simple, aunque presenta características propias
que es de interés estudiar en detalle.
El modelo de regresión múltiple se puede utilizar tanto para datos observacionales
como para estudios controlados a partir de ensayos aleatorizados o experimentales.
4.1. El modelo
La regresión múltiple es un modelo para la esperanza de una variable conti-
nua Y cuando se conocen variables explicativas o predictoras que denotaremos
X1 , X2 , . . . , Xp−1 . Antes de formularlo en general, describiremos a modo ilustrati-
vo la situación en la que se tienen dos variables predictoras (i.e. p = 3). En este
caso, proponemos el siguiente modelo para la esperanza condicional de Y dado X1
y X2
E (Y | X1 , X2 ) = β0 + β1 X1 + β2 X2 (41)
Por supuesto, la única situación en la que podemos gracar es cuando p≤3 (dos
o menos variables explicativas), es por eso que hemos comenzado con este caso.
Figura 36: En regresión lineal con dos variables explicativas la función de respuesta
es un plano. Fuente Kutner et al. [2005], pág. 215.
blemente bien por planos para valores limitados (o acotados) de las covariables X1
y X2 .
donde β0 , β1 , . . . , βp−1 son parámetros (es decir, números) desconocidos, Xi1 , Xi2 ,
. . . , Xip−1 son los valores de las variables predictoras medidas en el i-ésimo indivi-
duo (o i-ésima repetición del experimento o i-ésima unidad experimental, según el
caso) con 1 ≤ i ≤ n, n es el tamaño de muestra, Yi es la variable respuesta medida
en el i-ésimo individuo (observado) y εi es el error para el individuo i-ésimo, que
no es observable. Haremos supuestos sobre ellos:
εi ∼ N 0, σ 2 , 1 ≤ i ≤ n,
independientes entre sí. (45)
Es decir,
- los εi son independientes entre sí, e independientes de las covariables Xi1 , Xi2 ,
. . . , Xip−1 .
Observemos que del hecho de que los εi son independientes y tienen distri-
2
bución N (0, σ ) y de (44) se deduce que, condicional a X1 , . . . , Xp−1 , Yi ∼
4.3 Modelo de Regresión Lineal Múltiple 117
P
p−1
N j=0 βj Xij , σ 2 independientes entre sí. Tomando esperanza (condicional) en
(44) obtenemos
Yi = β0 + β1 Xi + β2 Xi2 + εi
se estudia y ajusta como un modelo de regresión lineal en dos variables: Xi y Xi2 ,
(aunque matemáticamente se trate de una función cuadrática en una sola variable).
Un ejemplo de modelo no lineal es el siguiente
Yi = β0 exp (β1 Xi ) + εi
puesto que no puede expresarse de la forma (44). Varios libros tratan el tema de
regresión no lineal, por ejemplo Kutner et al. [2005], parte III.
118 María Eugenia Szretter
Y=X β + ε
n×1 n×pp×1 n×1
donde
Y es un vector de respuestas
β es un vector de parámetros
X es una matriz de covariables
ε es un vector de variables aleatorias normales independientes con esperanza
E (ε) = 0 y matriz de varianzas y covarianzas
σ2 0 · · · 0
0 σ2 · · · 0
2
V ar (ε) = .. . = σ I.
.
. . .
. .
0 0 · · · σ2
4.5 Estimación de los Parámetros (Ajuste del modelo) 119
Entonces tomando a las variables equis como jas, o, lo que es lo mismo, condicional
a las variables equis, la esperanza de Y resulta ser
E (Y | X) = Xβ
V ar (Y | X) = σ 2 I.
Al igual que hicimos con el modelo de regresión simple, muchas veces omitiremos
la condicionalidad a las equis en la notación, es decir, como es bastante habitual
en la literatura, escribiremos E (Y) en vez de E (Y | X) .
n
X
g (b0 , b1 , . . . , bp−1 ) = (Yi − b0 Xi0 − b1 Xi1 − b2 Xi2 − · · · − bp−1 Xip−1 )2 (47)
i=1
y los estimadores βb0 , βb1 , . . . , βbp−1 serán aquellos valores de b0 , b1 , . . . , bp−1 que mi-
nimicen a g. Los denominamos estimadores de mínimos cuadrados. Denotaremos
al vector de coecientes estimados por β.
b
βb0
βb
1
β = .
b
p×1 ..
βbp−1
−1
b = Xt X
β Xt Y
−1
Y b = X Xt X
b = Xβ Xt Y
que son los valores que están en la supercie de respuesta ajustada (o sea, en el
plano ajustado en el caso p = 3). Los residuos se escriben matricialmente como
e = Y−Yb = Y − Xβ b
−1 t
= Y − X Xt X XY
t
−1 t
= I−X X X X Y
Llamando
−1
H = X Xt X Xt ∈ Rn×n (48)
Y
b = HY
y
e = (I − H) Y.
La matriz de varianzas de los residuos es
V ar (e) = σ 2 (I − H) . (49)
4.6 Valores Ajustados y Residuos 121
Observación 4.5 (residuos) El modelo de regresión lineal impone que los erro-
res εi sean independientes, normales y tengan todos la misma varianza. Como ya
hemos dicho, los errores no son observables. Los residuos ei , que son el correlato
empírico de los errores, son observables. Sin embargo, los residuos no son inde-
pendientes entre sí y sus varianzas no son iguales. Veámoslo.
Por (49), la varianza de ei es el elemento que ocupa el lugar ii de la matriz
σ 2 (I − H) . Si la matriz H fuera igual a cero (que no tendría sentido para el mode-
2
lo de regresión lineal), todos los residuos tendrían la misma varianza σ (igual que
la varianza de los errores). Sin embargo esto no sucede. Calculemos el elemento
2
que ocupa el lugar ii de la matriz σ (I − H) .
V ar (ei ) = σ 2 (1 − hii )
donde hii representa el elemento que ocupa el lugar ii de la matriz H. Pero sabemos
que
−1 t −1
hij = X Xt X X = [la i de X] Xt X [la j de X]t
ij
−1
= xti Xt X xj
−1 t
V ar (ei ) = σ 2 (1 − hii ) = σ 2 1 − xi Xt X xi
Yb = 3,9143 + 0,7801X1
Nos preguntamos ahora si el perímetro cefálico también dependerá del peso del
niño al nacer. Veamos un scatter plot (gráco de dispersión) del perímetro cefálico
versus el peso al nacer, para los 100 niños. El scatter plot de la Figura 37 sugiere
que el perímetro cefálico aumenta al aumentar el peso. Pero una vez que hayamos
ajustado por la edad gestacional, ¾será que el conocimiento del peso al nacer
mejorará nuestra habilidad para predecir el perímetro cefálico de un bebé?
Para responder a esta pregunta ajustamos un modelo de regresión lineal múltiple
con dos variables predictoras. Sean
Yi = β0 + β1 Xi1 + β2 Xi2 + εi .
Para darnos una idea de las herramientas con las que trabaja la computadora que
ajustará el modelo, listamos los primeros siete datos en la Tabla 18.
Figura 37: Perímetro cefálico versus peso al nacer para la muestra de 100 bebés
de bajo peso.
caso en el que el valor del coeciente estimado es tan pequeño, puede tener más
sentido expresar el resultado aumentando las unidades involucradas, por ejemplo
decir: si la edad gestacional no cambia, cada incremento de 10 g. en el peso al
nacer redunda en un aumento de 0,047 cm. en el perímetro cefálico, en promedio.
t 1 t t 1
SSTo = Y Y − Y JY = Y I − J Y,
n n
4.8 Resultados de Análisis de la Varianza (y estimación de σ 2 ) 125
Tabla 19: Ajuste del modelo lineal para los datos de bebés de bajo peso, headcirc
con dos explicativas continuas: gestage y birthwt
> ajuste2<-lm(headcirc~gestage+birthwt)
>
> summary(ajuste2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3080154 1.5789429 5.262 8.54e-07
gestage 0.4487328 0.0672460 6.673 1.56e-09
birthwt 0.0047123 0.0006312 7.466 3.60e-11
---
Xn 2 Xn
= Yi − Yi =
b e2i
i=1 i=1
t
= e t e = Y − Xβ
b Y − Xβ
b
b t Xt Y = Yt [I − H] Y
= Yt Y−β
que en términos matriciales se escribe
SSRes b t Xt Y = Yt [I − H] Y
= Yt Y−β
y
Xn 2
= Yi − Y ,
b
i=1
y vale
t t 1 t t 1
SSReg = β X Y− Y JY = Y
b H − J Y.
n n
126 María Eugenia Szretter
n
X
(Yi − µ)2 ,
i=1
sin tener en cuenta para nada los valores de las covariables (X1 , . . . , Xp−1 ). Es un
resultado de un curso inicial de estadística que el valor de µ que minimiza dicha
suma es el promedio de las Ys es decir, µ = Y. Esencialmente, estamos tomando
como medida de cuan bien ajusta un modelo, a la suma de los cuadrados; en
general
X
∆modelo = (observados − modelo)2 (50)
será pequeña comparada con lo que era la SSTo. Esto es un poco abstracto así que
mejor lo miramos en un ejemplo.
Imaginemos que nos interesa predecir el perímetro cefálico de un niño al nacer (Y )
a partir de la edad gestacional del bebé (X1 ) y de su peso al nacer (X2 ) . ¾Cuánto
será el perímetro cefálico de un bebé con 33 semanas de edad gestacional y que
pesa 1490 gramos al nacer? Si no tuviéramos un modelo preciso de la relación entre
las tres variables en niños nacidos con bajo peso, ¾cuál podría ser nuestro mejor
pronóstico? Bueno, posiblemente la mejor respuesta sea dar el número promedio de
perímetros cefálicos en nuestra base de datos, que resulta ser 26,45 cm. Observemos
4.8 Resultados de Análisis de la Varianza (y estimación de σ 2 ) 127
que la respuesta sería la misma si ahora la pregunta fuera: ¾cuánto será el perímetro
cefálico de un niño con 25 semanas de gestación y que pesó 680 g. al nacer?
Nuevamente, en ausencia de un vínculo preciso, nuestro mejor pronóstico sería dar
el promedio observado de perímetros cefálicos, o sea 26,45 cm. Claramente hay
un problema: no importa cual es la edad gestacional o el peso al nacer del niño,
siempre predecimos el mismo valor de perímetro cefálico. Debería ser claro que
la media es poco útil como modelo de la relación entre dos variables, pero es el
modelo más básico del que se dispone.
Repasemos entonces los pasos a seguir. Para ajustar el modelo más básico, pre-
decimos el outcome Y por Y, luego calculamos las diferencias entre los valores
observados y los valores que da el modelo (Y siempre para el modelo básico) y la
ecuación (50) se convierte en la SSTo (es decir, SSTo es la cantidad total de diferen-
cias presentes cuando aplicamos el modelo básico a los datos). La SSTo representa
una medida del desajuste que surge de usar el promedio como único resumen de
los datos observados. En un segundo paso ajustamos el modelo más sosticado a
los datos (el modelo de regresión lineal múltiple con dos predictores). Este modelo
permite pronosticar un valor distinto para cada combinación de covariables. A este
valor lo hemos llamado valor predicho y resulta ser
Hemos visto que el modelo de regresión lineal múltiple encuentra los valores de
βb0 , βb1 y βb2 por el método de mínimos cuadrados, es decir minimizando las dife-
rencias entre el modelo ajustado a los datos y los propios datos. Sin embargo, aun
en este modelo optimizado hay todavía imprecisiones que se representan por las
diferencias entre cada valor observado
(Yi ) y cada valor predicho por la regresión
Ybi . Como antes, calculamos esas diferencias, elevamos al cuadrado cada una de
ellas y las sumamos (si las sumáramos sin elevarlas al cuadrado la suma terminaría
dando cero). El resultado se conoce como la suma de los cuadrados de los residuos
(SSRes). Este valor representa el grado de imprecisión del modelo lineal con estas
dos covariables ajustado a los datos. Podemos usar estos dos valores para calcu-
lar cuanto mejor es usar la supercie de respuesta estimada en vez de la media
como modelo (es decir, ¾cuánto mejor es el mejor modelo posible comparado con
el peor?) La mejora en predicción resultante al usar el mejor modelo en vez de la
128 María Eugenia Szretter
media se calcula al hacer la resta entre SSTo y SSRes. Esta diferencia nos mues-
tra la reducción en la imprecisión que se obtiene por usar un modelo de regresión
lineal. Como en el caso de regresión lineal simple, puede verse que esta resta da
SSReg, es decir
Figura 38: Distancias que intervienen en las sumas de cuadrados para una obser-
vación. Fuente: Rosner [2006], pág. 473.
SSReg SSRes
R2 = =1− .
SSTo SSTo
De igual modo que para el modelo de regresión lineal simple, R (la raíz cuadrada
2
de R ) resulta ser la correlación de Pearson entre los valores observados de (Yi )
y los valores predichos Ybi sin tener en cuenta el signo. Por lo tanto los valores
SSRes
n−p n−1 SSRes
Ra2 = 1 − SSTo = 1 −
n−1
n−p SSTo
Desde esta óptica, otra interpretación del R2 es pensar que un buen modelo debería
producir valores predichos altamente correlacionados con los valores observados.
4.8 Resultados de Análisis de la Varianza (y estimación de σ 2 ) 131
Figura 39: Función raíz cuadrada comparada con la función elevar al cuadrado y la
identidad en el intervalo (0, 1) . Están gracadas las imágenes del x√= 0,4, con tres
2
puntos cuyas alturas son (en orden ascendente) 0,4 = 0,16; 0,4 y 0,4 = 0,632.
Esta es otra manera de visualizar por qué un R2 alto es, en general, una buena
señal de ajuste.
4.8.3. Test F
Como en el modelo de regresión lineal simple, una segunda forma de usar las su-
mas de cuadrados para evaluar la bondad de ajuste del modelo de regresión lineal
múltiple a los datos es a través de un test F. Este test se basa en el cociente de la
mejora debida al modelo (SSReg) y la diferencia entre el modelo y los datos obser-
vados (SSRes). La Tabla 21 resume la información que involucra a la construcción
del test F. De hecho, en vez de utilizar las sumas de cuadrados por sí mismas,
132 María Eugenia Szretter
tomamos lo que se denominan los cuadrados medios (MS mean squares o sumas
medias de cuadrados o cuadrados medios). Para trabajar con ellos, es necesario
primero dividir a las sumas de cuadrados por sus respectivos grados de libertad.
Para la SSReg, los grados de libertad son simplemente el número de covariables
en el modelo, es decir,p− 1. Del
mismo modo que sucedía con la regresión lineal
bi − Y quedan determinadas al jar los p − 1 coecientes
simple, las diferencias Y
que acompañan a las p − 1 covariables, luego las diferencias Ybi − Y tienen p − 1
grados de libertad.
Tabla 21: Tabla de ANOVA para el modelo de Regresión Lineal General (44)
Fuente de variación SS g.l. MS
Pn b 2
SSReg
Regresión SSReg = i=1 Yi − Y p−1 MSReg = p−1
Pn 2
SSRes
Residuos SSRes = i=1 Yi − Yi n−p MSRes =
b
n−p
Pn 2
Total SSTo = i=1 Y i − Y n−1
SSReg
MSReg p−1 SSReg (n − p)
F = = SSRes = . (51)
MSRes SSRes (p − 1)
n−p
4.8 Resultados de Análisis de la Varianza (y estimación de σ 2 ) 133
H0 : β1 = β2 = · · · = βp−1 = 0
H1 : no todos los βk (k = 1, 2, . . . , p − 1) son iguales a 0
Observemos que H0 dice que no hay vínculo entre la variable respuesta y las
regresoras. En cambio, H1 dice que al menos una de las variables regresoras sirve
para predecir aY . La distribución de F cuando H0 es cierta es la distribución F (de
Snedecor o de Fisher) con p − 1 grados de libertad en el numerador y n − p grados
4
de libertad en el denominador . Esto es porque bajo el supuesto de normalidad de
los errores, se tiene que
SSRes ∼ χ2n−p
y si además H0 es verdadera, entonces
SSReg ∼ χ2p−1
y además SSRes y SSReg son independientes. El test rechaza H0 cuando F >
Fp−1,n−p,1−α , el 1−α percentil de la distribución válida cuando H0 es verdadera.
Para valores grandes de F (es decir, p-valores pequeños) el test rechaza H0 y
concluye que no todos los coecientes que acompañan a las covariables del modelo
de regresión lineal son nulos.
Usualmente, como ya hemos visto en el modelo lineal simple, estos valores aparecen
en la salida de cualquier paquete estadístico en lo que se conoce como tabla de
ANOVA (Analysis of Variance table, que presentamos en la Tabla 21.
Usualmente la tabla se completa con dos últimas columnas que se denominan F y
p-valor. La columna F tiene un único casillero completo (el correspondiente a la
primer la) con el valor del estadístico, es decir
MSReg
Fobs = .
MSRes
La columna p-valor tiene también un único casillero con el p-valor del test, que es
la probabilidad, calculada asumiendo que H0 es verdadera, de observar un valor
del estadístico F tan alejado de lo esperado como el observado en la muestra, o
más alejado aún, o sea
4.8.4. Estimación de σ2
El modelo de regresión lineal dado en (44) y (45) impone que los erroresε1 , . . . , ε n
2
sean variables aleatorias independientes con esperanza cero y V ar (εi ) = σ . Si
2
tuviéramos los errores, sabemos que un estimador insesgado de σ es
n
1 X
(εi − ε)2 .
n − 1 i=1
los podemos reemplazar por sus correlatos empíricos, los residuos e1 , . . . , en . Pero,
como ya vimos en la Observación 4.5 los residuos no son independientes. En el
caso del modelo lineal simple habíamos visto que los residuos están ligados entre
sí ya que satisfacen dos ecuaciones lineales (las dos ecuaciones normales):
En el caso de regresión lineal múltiple con p−1 variables predictoras, los residuos
están ligados entre sí de una manera más estrecha, ya que satisfacen p ecuaciones
lineales (linealmente independientes): como e = (I − H) Y y H es una matriz de
proyección de rango p resulta que He = 0. Una de ellas es, también, que la suma de
los residuos vale cero. Informalmente se dice que los residuos tienen n−p grados de
libertad. Esto quiere decir que conociendo n − p de ellos, podemos deducir cuánto
valen los p restantes despejándolos de las ecuaciones normales. Luego, el estimador
2
de σ se basará en los residuos de la siguiente forma
n n
1 X 2 1 X
σ 2
b = (ei − e) = (ei )2
n − p i=1 n − p i=1
n
1 X 2 SSRes
= Yi − Yi =
b
n − p i=1 n−p
= MSRes. (52)
βb − β
r k k ∼ tn−p para k = 0, 1, . . . , p − 1.
Vdar βbk
r
βbk ± tn−p,1− α2 Vd
ar βbk . (53)
H0 : βk = 0
H1 : βk 6= 0
usamos el estadístico
βbk
T =r
Vd
ar βbk
136 María Eugenia Szretter
Observemos que cuando realizamos este test asumimos que en el modelo aparecen
todas las restantes covariables. Se puede calcular la potencia de este test.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3080154 1.5789429 5.262 8.54e-07
gestage 0.4487328 0.0672460 6.673 1.56e-09
birthwt 0.0047123 0.0006312 7.466 3.60e-11
Luego,
βb0 = 8,3080 βb1 = 0,4487 βb2 = 0,0047
y sus errores estándares respectivos resultan ser
r
Vd
ar βb0 = s βb0 = 1,5789 s βb1 = 0,0672 s βb2 = 0,00063
βb1 − 0 0,4487
T =r = 0,0672 = 6,67
Vd ar βb1
cuando k=1 y
βb2 − 0 0,0047
T =r = 0,00063 = 7,46
Vd ar βb2
4.9 Inferencias sobre los parámetros de la regresión 139
cuando k = 2. En ambos casos, los p-valores resultan ser menores que 0,001.
Observemos que en la salida de cualquier paquete estadístico guran tanto las
estimaciones de los betas, como sus desvíos estándares estimados, los valores de
t observados y los p-valores respectivos. En ambos casos rechazamos las hipótesis
nulas a nivel 0,05 y concluimos que β1 es distinta de cero cuando en el modelo
aparece X2 como explicativa (en el primer test) y que β2 es distinta de cero cuando
en el modelo aparece X1 como explicativa (en el segundo test). Como además
ambos estimadores son positivos, concluimos que el perímetro cefálico aumenta
cuando aumenta tanto la edad gestacional como cuando aumenta el peso al nacer.
Debemos tener presente, sin embargo, que varios tests de hipótesis basados en los
mismos datos no son independientes; si cada test se realiza a nivel de signicación
α, la probabilidad global de cometer un error de tipo I o rechazar la hipótesis
nula cuando es verdadera es, de hecho, mayor que α. Para eso se pueden realizar
los tests simultáneos presentados, como los de Bonferroni.
Los intervalos de conanza para ambos parámetros de la regresión resultan ser
r
βb1 ± t97,0,975 V ar βb1
d
y
r
βb2 ± t97,0,975 ar βb2
Vd
α 0,05
1− =1− = 0,99167
2g 2·3
de una t97, es decir, t97,0,9917 = 2,43636 en vez de t97,0,975 = 1,9847, que nos da-
rá intervalos más anchos, como puede observarse comparando los intervalos de
conanza de las Tablas 22 y 23, la primera contiene a los intervalos de conanza
de nivel 0,95 cada uno, y la segunda contiene los intervalos de conanza de nivel
simultáneo 0,95.
2
Si calculamos el R para este modelo (que gura en la Tabla 19) vemos que es
R2 = 0,752, luego el modelo que contiene a la edad gestacional y el peso al nacer
140 María Eugenia Szretter
Tabla 22: Intervalos de conanza de nivel 0,95 para β0 , β1 y β2 para los datos de
niños de bajo peso al nacer
> confint(ajuste2)
2.5 % 97.5 %
(Intercept) 5.174250734 11.441780042
gestage 0.315268189 0.582197507
birthwt 0.003459568 0.005964999
Tabla 23: Intervalos de conanza de nivel simultáneo 0,95 para β0 , β1 y β2 para los
datos de niños de bajo peso al nacer, construidos con el método de Bonferroni
> confint(ajuste2,level=(1-(0.05/3)))
0.833 % 99.167 %
(Intercept) 4.461384677 12.154646098
gestage 0.284907765 0.612557932
birthwt 0.003174601 0.006249966
> 0.05/(2*3)
[1] 0.008333333
una comparación más justa entre modelos que contienen diferente número de co-
2
variables. Como el coeciente de determinación, el R ajustado es una estimación
2
del coeciente de correlación poblacional ρ; a diferencia del R , sin embargo, no
puede ser directamente interpretado como la proporción de la variabilidad de los
2
valores Y que queda explicada por el modelo de regresión. En este ejemplo, el R
ajustado resulta ser 0,7469 (ver nuevamente la Tabla 19) que al ser mayor que el
R2 ajustado del modelo con sólo una variable explicativa, la edad gestacional (era
Ra2 = 0,6055) indica que la inclusión del peso al nacer en el modelo, mejora nuestra
capacidad para predecir el perímetro cefálico del niño.
Finalmente, la tabla ANOVA para estos datos aparece en la Figura 40 con el SPSS
y en la Tabla 24 con el R.
Figura 40: Tabla de ANOVA para los datos de niños de bajo peso al nacer
Tabla 24: Tabla de Anova para los datos de bebés de bajo peso, en R.
> ajuste2<-lm(headcirc~gestage+birthwt)
> ajuste1<-lm(headcirc~1)
> anova(ajuste1,ajuste2)
Analysis of Variance Table
Model 1: headcirc ~ 1
Model 2: headcirc ~ gestage + birthwt
Res.Df RSS Df Sum of Sq F Pr(>F)
1 99 634.75
2 97 157.42 2 477.33 147.06 < 2.2e-16 ***
---
142 María Eugenia Szretter
n
1 X
SSRes
2
MSRes = = Yi − Ybi = 1,62, (54)
n−p n − p i=1
Ybh = Xth β
b = βb0 + βb1 Xh1 + βb2 Xh2 + · · · + βbp−1 Xh,p−1 .
Para el modelo de errores normales (45) la distribución de Ybh será normal, con
media
E Ybh = Xth β = E (Yh ) (55)
y varianza
2 t t
−1 t
V ar Yh = σ Xh X X
b Xh = Xh V ar β
b Xh .
4.10 Estimación de la Respuesta Media 143
Como
la esperanza del predicho es igual a lo que queremos estimar, es decir,
E Ybh = E (Yh ), el estimador resulta ser insesgado. La varianza estimada resulta
ser
−1
Vdar Ybh = MSRes · Xth Xt X Xh = Xth Vdar βb Xh . (56)
r
Ybh ± W · Vd
ar Ybh .
donde
W 2 = pFp,n−p;1−α . (58)
Puede probarse que eligiendo este percentil, la región resultante cubrirá a la su-
percie de regresión para todas las combinaciones posibles de las variables
X (dentro de los límites observados), con nivel 1 − α. Es por eso que esta región
de conanza tiene nivel simultáneo o global 1 − α, como discutimos en la Sección
4.9.3.
r
Ybh ± W · Vd
ar Ybh .
144 María Eugenia Szretter
donde Ybh , W y Vd
ar Ybh están denidos respectivamente en (55), (58) y
r
Ybh ± B · V ar Ybh .
d
donde
B = tn−p,1− 2gα .
E (Yh ) ± 3σ
28,44 ± 3 · 1,25
Como el 99,7 por ciento del área en una distribución de probabilidad normal cae
dentro de los tres desvíos estándares de la media, hay una probabilidad de 0,997
de que este intervalo de predicción dé una predicción correcta para el perímetro
cefálico del bebé en cuestión, con 30 semanas de gestación y que pesó 1360g. al
nacer. Los límites de predicción en este caso son bastante amplios, por lo que la
predicción no es muy precisa, sin embargo, el intervalo de predicción indica que el
bebé tendrá un perímetro cefálico mayor a 24 cm., por ejemplo.
La idea básica de un intervalo de predicción es, pues, elegir un rango en la distri-
bución de Y en donde la mayoría de las observaciones caerá, y luego, declarar que
la observación siguiente caerá en este rango. La utilidad del intervalo de predicción
146 María Eugenia Szretter
Figura 41: Distribución de Yh cuando Xth = (1, 30, 1360) . Fuente: Kutner et al.
[2005], pág. 57.
depende, como siempre, del ancho del intervalo y de la necesidad de precisión por
parte del usuario.
En general, cuando los parámetros del modelo de regresión con errores normales
son conocidos, los límites de la predicción de la Yh(nueva) son
Figura 42: Predicción de Yh(nueva) cuando los parámetros son desconocidos. Fuente:
Kutner et al. [2005], pág 58.
148 María Eugenia Szretter
Yh(nueva) − Y
ch
∼ tn−p (60)
s (pred)
2
s (pred) = MSRes + V ar Ybh
d
−1
= MSRes · 1 + X0h (X0 X) Xh ,
s2 (pred) = MSRes + Vd
ar Ybh .
Por supuesto, como este estimador es siempre mayor que Vdar Ybh , que aparece
en el intervalo de conanza (57), el intervalo de predicción de la Yh(nueva) corres-
pondiente a Xh de nivel 1 − α siempre será más largo que el intervalo de conanza
de nivel 1 − α para E (Yh ) , la respuesta media esperada cuando las covariables son
Xh .
Tabla 25: Intervalos de conanza y predicción de nivel 0,95 para los datos de niños
de bajo peso al nacer, para edad gestacional de 30 semanas y peso al nacer de
1360g.
> vcov(sal2)
(Intercept) gestage birthwt
(Intercept) 2.4930607944 -9.986181e-02 3.714576e-04
gestage -0.0998618122 4.522022e-03 -2.801056e-05
birthwt 0.0003714576 -2.801056e-05 3.983870e-07
150 María Eugenia Szretter
Recordemos que Vd
ar Ybh está denida en (56), luego
Vd
ar Ybh
= Xth Vd
β ar
b Xh
−2
3,714576 × 10−4
2,4930607944 −9,986181 × 10−3 1
−2,801056 × 10−5 30
= 1 30 1360 −0,0998618122 4,522022 × 10
0,0003714576 −2,801056 × 10−5 3,983870 × 10−7 1360
= 0,032731
Como
Como
MSRes = 1,62,
el intervalo de predicción de la Yh(nueva) resulta ser
p
28,178 ± 1,984723 · 1,62 + 0,032731
28,178 ± 2,551 5
es decir,
[25,62; 30,730] .
4.12 Ejercicios (primera parte) 151
(a) En el ejercicio 2.1 explicamos el peso de las personas registradas en esta base
de datos, por el contorno de la cadera y en el ejercicio 2.2 la explicamos
con un modelo con la altura como covariable. Proponga un modelo de regre-
sión múltiple que explique el peso medido en kilogramos (wgt) utilizando el
contorno de la cadera medida en centímetros (hip.gi) y la altura media en
centímetros (hgt) como covariables. Escriba el modelo que está ajustando.
Realice el ajuste con el R.
(c) Evalúe la bondad del ajuste realizado, a través del R2 . Indique cuánto vale y
qué signica. Se quiere comparar este ajuste con el que dan los dos modelos
lineales simples propuestos en los ejercicios 2.1 y 2.2. ¾Es correcto comparar
2
los R de los tres ajustes? ¾Qué valores puedo comparar? ¾Es mejor este
ajuste múltiple?
152 María Eugenia Szretter
(d) Estime la varianza de los errores. Compare este estimador con los obtenidos
en los dos ajustes simples.
(e) Estime el peso esperado para la población de adultos cuyo contorno de cadera
mide 100 cm y su altura es de 174cm. Dé un intervalo de conanza de nivel
0.95 para este valor esperado.
Hay muchas maneras de codicar numéricamente las clases de una variable cuali-
tativa. Usaremos variables indicadoras que valen 0 ó 1. Estas variables indicadoras
son fáciles de usar y son ampliamente utilizadas, pero de ninguna manera son la
única forma de cuanticar una variable cualitativa. En la Observación 4.12 co-
mentamos una propuesta alternativa de codicación. Para el ejemplo, denimos la
variable indicadora (o binaria, o dummy) por
si el iésimo paciente hace actividad física
1
(al menos 3 veces por semana)
Xi1 = (61)
0 si no
Yi = β0 + β1 Xi1 + εi
154 María Eugenia Szretter
E (Y | X1 ) = β0 + β1 X1 . (62)
E (Y ) = β0 + β1 0 = β0 no ejercita
Tabla 26: Ajuste de la regresión para la variable glucosa con ejercicio como expli-
cativa.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 98.9143 0.8512 116.212 < 2e-16 ***
ejercicio -7.4273 1.1773 -6.309 1.54e-09 ***
---
Observación 4.11 ¾Qué pasa si ponemos dos variables binarias para modelar
ejercicio? O sea, si denimos X1 como antes,
1 si la iésima persona ejercita
Xi1 =
0 si no
y
1 si la iésima persona no ejercita
Xi2 =
0 si no
Acá decimos que ejercita si hace actividad física más de tres veces por semana.
Entonces el modelo sería
Esta manera intuitiva de incorporar una variable indicadora para cada clase de la
predictora cualitativa, desafortunadamente, conduce a problemas tanto estadísti-
cos (de identicación de parámetros) como computacionales. Para verlo, supon-
gamos que tuviéramos n = 4 observaciones, las primeras dos compuestas por
personas que ejercitan (X1 = 1, X2 = 0 ) y las dos segundas que no lo hacen
156 María Eugenia Szretter
Figura 44: Boxplot del bmi, separados por niveles de la variable ejercicio, para
los datos del archivo azucar.
●
●
●
45
40
●
● ●
●
●
●
35
30
25
20
15
ejercicio=0 ejercicio=1
X1 X2
1 1 0
1 1 0
X=
1
0 1
1 0 1
serio en la matriz X t X.
1 1 0
1 1 1 1 4 2 2
1 1 0
X tX = 1 1 0 0 ·
1
= 2 2 0
0 1
0 0 1 1 2 0 2
1 0 1
Vemos que la primer columna de la matriz X tX es igual a la suma de las últimas
dos, de modo que las columnas son linealmente dependientes. Luego, la matriz
X t X no tiene inversa, y por lo tanto, no se pueden hallar únicos estimadores de
los coecientes de regresión. De hecho, no hay unicidad tampoco en los parámetros
del modelo (lo que en estadística se conoce como identicabilidad de los parámetros)
puesto que la función de respuesta para el modelo (63) es
β0 + β1 si ejercita
E (Y | X1 , X2 ) = β0 + β1 X1 + β2 X2 =
β0 + β2 si no ejercita
En particular, tomando
β0 = a
β1 = b
β2 = c
o bien
β0 = a − b
β1 = 2b
β2 = c
resulta, en ambos casos
a+b si ejercita
E (Y | X1 , X2 ) =
a+c si no ejercita
para cualesquiera números reales a, b, c. Una salida simple a este problema es des-
prenderse de una de las variables indicadoras. En nuestro ejemplo nos deshacemos
de X2 . Esta forma de resolver el problema de identicabilidad no es la única pe-
ro, como hemos visto, permite una interpretación sencilla de los parámetros. Otra
posibilidad en este caso consiste en eliminar β0 y proponer el modelo
β1 si ejercita
E (Y | X1 , X2 ) = β1 X1 + β2 X2 =
β2 si no ejercita
158 María Eugenia Szretter
Comparemos este modelo lineal con una sola regresora dicotómica con el test t para
comparar las medias de dos poblaciones, a través de dos muestras independientes.
Sean W1 , . . . , Wn1 variables aleatorias independientes idénticamente distribuidas
con E (Wi ) = µ0 e independientes de Z1 , . . . , Zn2 que a su vez son variables aleato-
rias independientes entre sí e idénticamente distribuidas con E (Zi ) = µ1 . El test
t permite decidir entre las hipótesis
H0 : µ0 = µ1
H1 : µ0 6= µ1
Tabla 27: Test t para dos muestras normales independientes, datos azucar.
√ W n1 − Z n2
n1 + n2 ∼ tn1 +n2 −2
Sp Bajo H0
4.13 Predictores Categóricos 159
"n n2
#
1
1 X 2 X 2
Sp2 =
Wi − W n1 + Zj − Z n2
n1 + n2 i=1 j=1
> summary(ejercicio)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.0000 1.0000 0.5227 1.0000 1.0000
E (Y ) = β0 + β3 ,
y para las que no ejercitan (X3 = 2) es
E (Y ) = β0 + 2β3 .
Nuevamente, la diferencia entre ambas medias es el coeciente β correspondiente,
en este caso β3 . Luego el coeciente β3 conserva su interpretación como la dife-
rencia en el nivel medio de glucosa entre grupos, pero ahora entre las personas que
no hacen ejercicio, comparadas con aquellas que sí lo hacen, una manera menos
intuitiva de pensarlo. De hecho, β0 sólo no tiene una interpretación directa, y el
valor promedio de la variable binaria no es igual a la proporción de observaciones
de la muestra que caen en ninguno de los dos grupos. Observar que, sin embargo,
en general el ajuste del modelo, es decir, los valores ajustados, los errores estánda-
res, y los p-valorespara evaluar la diferencia de la glucosa en ambos grupos serán
iguales con cualquier codicación.
datos,
Xi2 = BMI de la persona iésima.
Yi = β0 + β1 Xi1 + β2 Xi2 + εi .
4.13 Predictores Categóricos 161
Interpretemos los parámetros. Para las personas que no hacen ejercicio (X1 = 0)
la función de respuesta es
E (Y ) = β0 + β1 0 + β2 X2 = β0 + β2 X2 no ejercita (65)
O sea, la función de respuesta para la glucosa media de las personas que no ejercitan
es una línea recta con ordenada al origen β0 y pendiente β2 .
Para las que sí hacen ejercicio (X1 = 1) la función de respuesta (64) se convierte
en
E (Y ) = β0 + β1 1 + β2 X2 = (β0 + β1 ) + β2 X2 ejercita (66)
Esta función también es una línea recta, con la misma pendiente β2 pero con
ordenada al origen (β0 + β1 ) . En la Figura 45 se gracan ambas funciones.
Figura 45: Signicado de los coecientes del modelo de regresión (64) con una va-
riable indicadora X1 de ejercicio y una variable continua X2 = bmi (datos azucar).
jado el BMI. Luego β1 mide el efecto diferencial por ejercitar. Como el ejercicio
debiera reducir el nivel de glucosa, esperamos que β1 sea menor que cero y que
la recta de valores de glucosa esperados para personas que ejercitan (66) esté por
debajo de las que no lo hacen (65). En general, β1 muestra cuánto más baja (o más
alta) se ubica la recta de respuesta media para la clase codicada por 1 respecto
de la recta de la clase codicada por 0, para cualquier nivel jo de X2 .
Tabla 29: Ajuste de la regresión para la variable glucosa con ejercicio y bmi
como explicativas
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 84.4141 3.2336 26.105 < 2e-16 ***
ejercicio -6.4879 1.1437 -5.673 4.46e-08 ***
bmi 0.5227 0.1128 4.633 6.20e-06 ***
---
> confint(ajuste2)
2.5 % 97.5 %
(Intercept) 78.0408659 90.7873793
ejercicio -8.7421142 -4.2336953
bmi 0.3003302 0.7449921
Luego, con el 95 por ciento de conanza concluimos que las personas que ejercitan
tienen un nivel de glucosa entre 4,23 8,74 mg/dL, más bajo que las
y que no lo
hacen, en promedio, para un cada nivel de bmi jo. Un test formal de
H0 : β1 = 0
H1 : β1 6= 0
Observación 4.13 ¾Por qué no ajustar dos regresiones lineales separadas (una
para las personas que ejercitan y otra para las que no) en vez de hacer un ajuste
con el total de datos? O sea, ajustar
(0) (0)
E (Y | X2 ) = β0 + β2 X2 no ejercitan (67)
(1) (1)
E (Y | X2 ) = β0 + β2 X2 ejercitan (68)
- Usando el modelo (64) otras inferencias, como por ejemplo las realizadas so-
bre β0 y β1 resultarán más precisas pues se dispone de más observaciones
para estimarlos y estimar a σ 2 (lo que se traduce en más grados de libertad
en el MSRes). De todos modos, en este ejemplo donde hay doscientas obser-
vaciones, tenemos grados de libertad sucientes para proponer dos modelos
si creyéramos que el modelo (64) no describe bien a los datos.
164 María Eugenia Szretter
Observación 4.14 Los modelos de regresión múltiple en los que todas las varia-
bles explicativas son cualitativas se suelen denominar modelos de análisis de
la varianza (ANOVA). Los modelos que contienen algunas variables explicati-
vas cuantitativas y otras variables explicativas cualitativas, para los que la variable
explicativa de interés principal es cualitativa (por ejemplo, tipo de tratamiento que
recibe el paciente) y las variables cuantitativas se introducen primariamente para
reducir la varianza de los términos del error, se suelen denominar modelos de
análisis de la covarianza (ANCOVA).
Tabla 30: Niveles de la variable peso.evo, que codica la evolución del peso en el
último año.
Las variables categóricas de más de dos niveles también puede ser nominales, en
el sentido que no haya un orden intrínseco en las categorías. Etnia, estado civil,
ocupación y región geográca son ejemplos de variables nominales. Con las varia-
bles nominales es aún más claro que la codicación numérica usada habitualmente
4.14 Predictores Cualitativos con más de dos clases 165
para representar a la variable en la base de datos no puede ser tratada como los
valores de una variable numérica como nivel de glucosa en sangre.
Las categorías se suelen crear para ser mutuamente excluyentes y exhaustivas,
por lo que que cada miembro de la población se encuentra en una y sólo una
categoría. En este sentido, tanto las categorías ordinales como las nominales denen
subgrupos de la población.
Es secillo acomodar ambos tipos de variables tanto en la regresión lineal múltiple
como en otros modelos de regresión, usando variables indicadoras o dummies.
Como en las variables binarias, donde dos categorías se representan en el modelo
con una sola variable indicadora, las variables categóricas con K ≥ 2 niveles se
representan por K−1 indicadoras, una para cada nivel de la variable, excepto
el nivel de referencia o basal. Supongamos que elegimos el nivel 1 como nivel
de referencia. Entonces para k = 2, 3, ..., K, la k -ésima variable indicadora toma
el valor 1 para las observaciones que pertenecen a la categoría k, y 0 para las
observaciones que pertenecen a cualquier otra categoría. Observemos que para
K =2 esto también describe el caso binario, en el cual la respuesta no dene
el nivel basal o de referencia y la variable indicadora toma el valor 1 sólo para el
grupo sí .
Traduzcamos todo al ejemplo. Como la variable ordinal peso.evo tiene 3 catego-
rías, necesitamos denir 2 variables dummies. Las llamamos Ievo2 e Ievo3. En la
Tabla 31, observamos los valores para las dos variables indicadoras correspondien-
tes a la variable categórica peso.evo. Cada nivel de peso.evo queda denidio por
una combinación única de las dos variables indicadoras.
Tabla 31: Codicación de las variables indicadoras para una variable categórica
multinivel
Variables indicadoras
peso.evo Ievo2 Ievo3 Categoría
1 0 0 bajó de peso
2 1 0 mantuvo su peso
3 0 1 aumentó de peso
X = (Ievo2, Ievo3) .
166 María Eugenia Szretter
Para tener mayor claridad, en (69) hemos indexado a los β 0s en concordancia con
los niveles de peso.evo, de modo que β1 no aparece en el modelo. Si dejamos que
las dos indicadoras tomen el valor 0 ó 1 de manera de denir los tres (¾por qué no
cuatro?) niveles de peso.evo, obtenemos
β0 si peso.evo = 1, o sea Ievo2 = 0 e Ievo3 = 0
E (Y | X) = β0 + β2 si peso.evo = 2, o sea Ievo2 = 1 e Ievo3 = 0 (70)
β0 + β3 si peso.evo = 3, o sea Ievo2 = 0 e Ievo3 = 1
- Los parámetros del modelo (y por lo tanto las dummies que los acompañan)
pueden ser denidos para que sean iguales a la media poblacional de cada
grupo o, sino, para que sean las diferencias entre las medias poblacionales de
dos grupos distintos, como en (70). Por ejemplo, la diferencia en los niveles
medios de la variable Y entre los grupos aumentó de peso (peso.evo = 3)
y mantuvo su peso (peso.evo = 2) está dada por β3 − β2 (chequearlo).
Todos los paquetes estadísticos permiten calcular de manera directa estima-
dores y tests de hipótesis acerca de estos contrastes lineales. Esto implica
que la elección del grupo de referencia es, en algun sentido, arbitraria. Mien-
tras que alguna elección en particular puede ser la mejor para facilitar la
presentación, posiblemente porque los contrastes con el grupo de referencia
seleccionado sean los de mayor interés, cuando se toman grupos de referencia
alternativos, esencialmente se está deniendo el mismo modelo.
4.14 Predictores Cualitativos con más de dos clases 167
Tabla 32: Ajuste de regresión lineal múltiple para explicar a la variable glucosa
con la evolución del peso como categórica, Ievo (datos de la base azucar). El R
produce las dos binarias de forma automática (Ievo2 e Ievo3).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 88.273 1.564 56.449 < 2e-16 ***
Ievo2 6.283 1.888 3.327 0.00103 **
Ievo3 8.997 1.774 5.072 8.45e-07 ***
---
Residual standard error: 8.983 on 217 degrees of freedom
Multiple R-squared: 0.1071, Adjusted R-squared: 0.09884
F-statistic: 13.01 on 2 and 217 DF, p-value: 4.607e-06
La Tabla 32 muestra los resultados para el modelo con peso.evo tratada como una
variable categórica, utilizando de nuevo los datos del archivo azucar. La estimación
de β
b0 es 88,273 mg / dL, esta es la estimación del nivel de glucosa medio para el
grupo que bajó de peso (grupo de referencia). Las diferencias entre los niveles de
glucosa del grupo de referencia y los otros dos grupos (de distinta evolución del
peso) resultan ser estadísticamente signicativas; como todas dan positivas indican
que la glucosa estaría relacionada con la evolución del peso. Por ejemplo, el nivel
promedio de glucosa en el grupo subió de peso (Ievo3) es 8,997 mg / dL mayor
que la del grupo bajó de peso (peso.evo = 1) (t = 5,072, p-valor = 8,45 · 10−7 ).
En la Figura 46 vemos un boxplot de los datos de glucosa separados según sus
niveles de peso.evo, donde se aprecia esta diferencia.
Es de interés testear si la variable peso.evo sirve para explicar al nivel de glucosa.
Para evaluarla en su conjunto se utiliza el test F que describiremos en la Sec-
ción 4.14.4. Antes de hacerlo discutamos otra manera de introducir a la variable
peso.evo en el modelo.
168 María Eugenia Szretter
Figura 46: Boxplot de los datos de glucosa, según sus niveles de peso.evo.
1 2 3
Yi = β0 + β1 Zi + εi (71)
peso.evo Z
Bajó de peso 1
Mantuvo su peso 2
Aumentó de peso 3
E (Y | peso.evo = 2) − E (Y | peso.evo = 1)
= E (Y | peso.evo = 3) − E (Y | peso.evo = 2)
= β1
4.14.4. El test F
A pesar de que todos los contrastes entre los niveles de una variable explicativa
categórica están disponibles para ser estimados y comparados luego de ajustar un
modelo de regresión, los test t para estas comparaciones múltiples en general no
proporcionan una evaluación conjunta de la importancia de la variable categórica
para predecir a la variable respuesta, o más precisamente no permiten realizar un
único test de la hipótesis nula de que el nivel medio de la variable respuesta es el
mismo para todos los niveles de este predictor. En el ejemplo, esto es equivalente
a un test de si alguno de los dos coecientes correspondientes a Ievo2 o Ievo2
dieren de cero. El resultado que aparece en la Tabla 32 (Fobs = 13,01, con 2 grados
−6
de libertad en el numerador y 217 en el denominador, p-valor = 4,6 · 10 < 0,05)
muestra que los niveles medios de glucosa son claramente diferentes entre los grupos
denidos por peso.evo. Las hipótesis que chequea este test en este caso son
H0 : β2 = β3 = 0 (72)
En este caso se rechaza la hipótesis nula (p-valor = 4,6 · 10−6 < 0,05) y se concluye
que no todos los βi con i entre 2 y 3 son simultáneamente iguales a cero. Luego
la evolución del peso es útil para predecir el nivel de glucosa. En general este
resultado puede leerse en la tabla de ANOVA del ajuste.
Es por este motivo que conviene ingresar en la base de datos a la variable peso.evo
con sus tres niveles y pedirle al software que compute las dos variables dicotómicas,
en vez de ponerlas a mano en el archivo, pues en tal caso no hay cómo decirle al
paquete que las dos variables están vinculadas de esta forma.
1. Los p-valores que aparecen en la columna de la derecha son válidos para cada
comparación individual.
2. Cuando la variable categórica tiene más de dos niveles, dicha tabla no nos
da información de todas las comparaciones de a pares de forma directa. En
el ejemplo de azucar, vemos en la Tabla 32 que nos falta la comparación
entre los niveles 2 y 3 de la variable evolución de peso.
Con la primera limitación veníamos trabajando desde el modelo lineal simple, pero
en el caso de regresión con covariables categóricas se hace particularmente seria
por la gran cantidad de comparaciones que tienen interés para el experimentador.
Cuando se realizan varios tests con los mismos datos, tanto el nivel de signica-
tividad como la potencia de las conclusiones acerca de la familia de tests se ve
afectada. Consideremos por ejemplo, la realización de tres tests de t, cada uno a
nivel α = 0,05, para testear las hipótesis
(1) (1)
H0 : µ2 − µ1 = 0 versus H1 : µ2 − µ1 6= 0
(2) (2)
H0 : µ3 − µ1 = 0 versus H1 : µ3 − µ1 6= 0
(3) (3)
H0 : µ3 − µ2 = 0 versus H1 : µ3 − µ2 6= 0
172 María Eugenia Szretter
La probabilidad de que los tres tests concluyan que las tres hipótesis nulas H0 son
verdaderas cuando en realidad las tres H0 son verdaderas, asumiendo independen-
cia de los tests, será
0,953 = 0,857.
Luego, la probabilidad de concluir H1 para al menos una de las tres comparaciones
es 1 − 0,857 = 0,143 en vez de 0,05. Vemos que el nivel de signicatividad de una
familia de tests no es el mismo que para un test individual. Lo mismo pasa para
los intervalo de conanza.
El objetivo de hacer estas comparaciones múltiples de manera justa es mantener
el error de tipo I acotado, sin inarlo por sacar muchas conclusiones con el mismo
conjunto de datos. Es decir, queremos un test de nivel 0,05 para las hipótesis
µ2 − µ1 = 0
H0 : µ3 − µ1 = 0 versus H1 : alguna de las 3 igualdades no vale.
µ3 − µ2 = 0
E (Y | peso.evo = 2) − E (Y | peso.evo = 1) = 0
H0 : E (Y | peso.evo = 3) − E (Y | peso.evo = 1) = 0
E (Y | peso.evo = 3) − E (Y | peso.evo = 2) = 0
Para eso, primero hay que mirar el resultado del test conjunto F que evalúa la
signicatividad conjunta de la variable categórica para explicar a la respuesta. Si
este test no resulta signicativo, suele descartarse la variable categórica de entre
las covariables de interés, y se la excluye del modelo. Si este test resulta esta-
dísticamente signicativo, entonces suelen mirarse con más detalle cuáles de las
comparaciones entre grupos son estadísticamente signicativas, para proporcionar
un mejor análisis de los datos en consideración. Hay diversas propuestas para llevar
estas comparaciones a cabo, de acuerdo esencialmente a cuáles son las compara-
ciones que resultan más interesantes al experimentador.
¾Qué pasa si alguna de las comparaciones llevadas a cabo resulta no signicativa?
¾Conviene redenir las categorías? La recomendación general es que si esto pasa-
ra, de todos modos conviene mantener las categorías originales puesto que de esta
2
forma se estimará mejor a la varianza σ de los errores (resultará menor), y por
lo tanto las conclusiones que se obtendrán serán más potentes. Además, cuando el
interés esté puesto en la conclusión respecto de una comparación entre dos catego-
rías en particular, el hecho de mantener las grupos originales permitirá clasicar
bien a cada observación permitiendo mantener clara la diferencia que se está bus-
cando establecer. No conviene recodicar a posteriori del análisis, es mejor dejar
4.15 Una predictora cualitativa y una numérica 173
En este caso, X = (Ievo2, Ievo3, bmi) . Para entender este modelo, nuevamente
dejamos que las indicadoras tomen el valor 0 ó 1 de manera de denir los tres
174 María Eugenia Szretter
$Ievo
diff lwr upr p adj
2-1 6.282828 1.8263489 10.739308 0.0029505
3-1 8.996838 4.8103925 13.183283 0.0000025
3-2 2.714010 -0.4718461 5.899865 0.1121165
es decir, que este modelo propone ajustar una recta distinta para la glucosa media
de cada grupo, todas con igual pendiente que en este caso hemos denominado
βBM I , y tres ordenadas al origen diferentes, una por cada grupo. Como vemos,
estamos ajustando tres rectas paralelas. Acá β2 indica cuánto aumenta (o dismi-
nuye, dependiendo del signo) el valor medio de glucosa para las personas cuyo nivel
de evolución del peso es 2 (las personas que mantuvieron su peso) respecto de
aquellas cuyo nivel de evolución del peso es 1 (las personas que bajaron de peso).
En la Figura 47 puede verse el gráco que proponemos para el valor esperado de
la glucosa en función de la evolución del peso y del BMI. Como esperamos que a
medida que la evolución del peso aumente (o sea, a medida que el paciente aumente
de peso) el nivel de glucosa aumente, hemos acomodado las rectas de manera que
vayan aumentando al aumentar la variable que codica esta evolución. Así mismo,
es de esperar que a mayor BMI aumente el nivel de glucosa, por eso en el dibujo
proponemos una pendiente (común a todos los grupos) positiva, como ya vimos
que pasaba en el ajuste anterior.
La Tabla 36 exhibe el modelo ajustado.
En este caso vemos que cuando incorporamos la variable BMI al modelo, todos
los coecientes asociados a la variable peso.evo siguen siendo signicativos. El
test de, por ejemplo, H0 : β2 = 0 da signicativo (t = 3,82, p-valor = 0,000177)
4.15 Una predictora cualitativa y una numérica 175
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
2 - 1 == 0 6.283 1.888 3.327 0.00286 **
3 - 1 == 0 8.997 1.774 5.072 < 1e-04 ***
3 - 2 == 0 2.714 1.350 2.010 0.10977
---
> confint(tu.otro)
Simultaneous Confidence Intervals
Multiple Comparisons of Means: Tukey Contrasts
Quantile = 2.35
95% family-wise confidence level
Linear Hypotheses:
Estimate lwr upr
2 - 1 == 0 6.2828 1.8450 10.7206
3 - 1 == 0 8.9968 4.8280 13.1657
3 - 2 == 0 2.7140 -0.4585 5.8865
176 María Eugenia Szretter
Figura 47: Modelo propuesto para explicar la glucosa con una covariable explica-
tiva categórica (peso.evo) con tres niveles y otra continua (bmi).
95
90
85
peso.evo = 1
peso.evo = 2
peso.evo = 3
15 20 25 30 35 40 45 50
BMI
indicando que hay diferencia signicativa en los niveles medios de glucosa para
personas que no bajaron de peso con respecto a las que sí bajaron (grupo basal).
Lo mismo sucede al testear la comparación entre la glucosa esperada del grupo que
aumentó de peso y el que bajó de peso, cuando en el modelo se ajusta por BMI
(t = 5,074, p-valor = 8,38 · 10−7 ) . Es decir que los niveles medios de glucosa en
los distintos grupos denidos por la evolución del peso dieren del basal. Además,
como sus coecientes estimados crecen al aumentar el peso, vemos que los valores
estimados son consistentes con lo que bosquejamos a priori en la Figura 47. Antes
de comparar los niveles medios de los distintos grupos entre sí observemos que si
queremos evaluar a la variable peso.evo en su conjunto, debemos recurrir a un
test F que evalue las hipótesis (72), cuando además en el modelo aparece BMI
4.15 Una predictora cualitativa y una numérica 177
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 72.0993 3.3764 21.354 < 2e-16 ***
Ievo2 6.8023 1.7823 3.817 0.000177 ***
Ievo3 8.4963 1.6744 5.074 8.38e-07 ***
bmi 0.6068 0.1140 5.324 2.54e-07 ***
---
En forma análoga a la descripta en la Sección 4.8.1, pueden usarse las sumas de cua-
drados para comparar el ajuste proporcionado por dos modelos lineales distintos.
Esto puede hacerse de manera general, para diversos modelos. Lo describiremos
con cierto detalle para la situación que nos interesa ahora. En el caso de los datos
de azucar queremos testear si la variable categórica que describe la actividad física
es signicativa para explicar el nivel de glucosa cuando en el modelo tenemos
a BMI como explicativa. Es decir, para el modelo (64)
E (Y | X) = β0 + β2 Ievo2 + β3 Ievo3 + βBM I bmi
H0 : β2 = β3 = 0 (74)
Para ello, ajustamos dos modelos lineales a los datos y usaremos la suma de cua-
drados propuesta en (50) como medida de cuan bueno es cada ajuste, es decir,
calcularemos y compararemos las
X
∆modelo = (observados − modelo)2
para cada uno de dos modelos. En este caso el modelo básico será el que vale si
H0 es verdadera, el modelo lineal simple que tiene a BMI como única explicativa
del nivel medio de glucosa:
Yi = β0básico + βBM
básico
I bmii + εi .
n 2
Yi − Ybibásico .
X
∆modelo básico =
i=1
Nuevamente se estiman los parámetros bajo este modelo obteniéndose βb0comp , βb2comp ,
βb3comp y
comp
βbBM I, con ellos se calculan los predichos para este modelo
y la suma de cuadrados que mide el desajuste que tienen los datos a este modelo
complejo
n 2
Yi − Ybicomp
X
∆modelo complejo = .
i=1
Por supuesto, como el modelo complejo tiene al modelo básico como caso par-
ticular, resulta que el ajuste del modelo complejo a los datos será siempre tan
satisfactorio como el del modelo básico o más satisfactorio aún, de modo que
∆modelo complejo ≤ ∆modelo básico . Es de interés observar que la estimación del coe-
ciente que acompaña al BMI depende de qué covariables hay en el modelo, excepto
cuando todas las covariables presentes en el modelo sean no correlacionadas con
BMI, lo cual ocurrirá las menos de las veces: en general las variables explicativas
4.15 Una predictora cualitativa y una numérica 179
están vinculadas entre sí de manera más o menos estrecha, eso signica que en
general estarán (linealmente) correlacionadas.
Nuevamente se puede construir una tabla de ANOVA para resumir la información
descripta hasta ahora. En la Tabla 37 describimos la forma en la que se presenta
la información.
La resta ∆modelo básico −∆modelo complejo mide la mejora en el ajuste debida al modelo
más complejo respecto del más sencillo. Los grados de libertad de esta resta será la
resta de los grados de libertad de los dos ajustes, en el ejemplo (n − 4) − (n − 2) =
2. Esta cuenta da siempre la diferencia entre el número de coecientes del modelo
más complejo respecto del más básico. El test F se basa en la comparación de la
mejora en el ajuste debido al modelo más complejo respecto del simple relativa al
ajuste proporcionado por el modelo complejo (el mejor ajuste disponible), ambos
divididos por sus grados de libertad. El test F para las hipótesis (74) rechaza H0
cuando F > F2,n−4,α (el percentil 1−α de la distribución F con 2 grados de libertad
en el numerador yn−4 grados de libertad en el denominador) o, equivalentemente,
cuando el p− valor calculado como P (F2,n−4 > Fobs ) es menor que α. En general,
cuando se comparan
p−1
c
βkc Xik + εi
X
Modelo complejo: Yi = β0 + (75)
k=1
q−1
Yi = β0s + βks Xik + εi
X
Modelo simple:
k=1
H0 : βq = βq+1 = · · · = βp−1 = 0
H1 : al menos uno de los βk con k entre q y p−1 es tal que βk 6= 0
el nivel de evolución del peso de cada paciente resulta signicativo. Luego la evo-
lución del peso es útil para predecir el nivel de glucosa, aún cuando controlamos
por el BMI.
El estimador puntual de esta cantidad es, por supuesto, βb3 − βb2 , y la varianza
estimada de este estimador es
V ar β3 − β2 = V ar β3 + V ar β2 + 2Cov β3 , β2 .
d b b d b d b d b b
4.15 Una predictora cualitativa y una numérica 181
$Ievo
diff lwr upr p adj
2-1 6.827351 2.627495 11.027207 0.0004795
3-1 8.472188 4.526816 12.417560 0.0000026
3-2 1.644837 -1.357564 4.647237 0.4007100
Linear Hypotheses:
Estimate lwr upr
2 - 1 == 0 6.8023 2.6123 10.9923
3 - 1 == 0 8.4963 4.5599 12.4327
3 - 2 == 0 1.6940 -1.3305 4.7186
Figura 48: Intervalos de conanza de nivel simultáneo para las diferencias de los
niveles medios de glucosa de cada grupo, controlados por el BMI.
0 2 4 6 8 10 12
El modelo (77) es un caso particular del modelo de regresión lineal múltiple. Sea
Xi3 = Xi1 · Xi2 el producto entre las variables X1 y X2 medidas en el iésimo
individuo, entonces el modelo (77) puede escribirse de la forma
Como ya vimos en la Sección 4.13.2, este modelo sin interacción propone que el
pulso medio post-ejercicio es una función lineal del pulso pre-ejercicio, con dos
4.16 Modelos con interacción entre variables cuantitativas y cualitativas 185
Figura 49: Gráco de dispersión del pulso post-ejercicio versus el pulso pre-
ejercicio, para 40 adultos. Archivo: pulso.txt
rectas diferentes para las mujeres y los hombres, pero estas rectas tienen la misma
pendiente. O sea, la ecuación (78) propone que para las mujeres, (o sea, cuando
X2 = 1)
E (Y | X1 , X2 = 1) = β0 + β1 X1 + β2
= (β0 + β2 ) + β1 X1
E (Y | X1 , X2 = 0) = β0 + β1 X1 .
La salida del ajuste del modelo está en la Tabla 39. De acuerdo a ella, la recta
ajustada es
Figura 50: Gráco de dispersión del pulso post-ejercicio versus el pulso pre-
ejercicio, identicando el sexo de cada observación.
H0 : β2 = 0 versus H0 : β2 6= 0
Tabla 39: Ajuste del modelo lineal múltiple Yi = β0 + β1 Xi1 + β2 Xi2 + εi , donde
X1 = pulso pre ejercicio (Pulso1), X2 = indicador de mujer (mujer), Y = pulso
post ejercicio (Pulso2).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 93.0970 12.5157 7.438 7.44e-09
Pulso1 0.5157 0.1715 3.007 0.004725
mujer 12.7494 3.2468 3.927 0.000361
Para entender mejor este modelo escribimos las dos rectas ajustadas en cada caso.
El modelo ajustado para las mujeres, (X2 = 1) es
Yb = 93,0970 + 0,5157 · X1 .
Las dos rectas están gracadas en la Figura 51, junto con las observaciones iden-
ticadas por sexo. Observemos que ambas rectas son paralelas: en ambos grupos
una unidad (un latido por minuto) de aumento en el pulso en reposo está asociado
con un incremento en 0,5157 latidos por minuto de la frecuencia cardíaca post
ejercicio, en promedio. Esto es consecuencia del modelo propuesto.
Ahora queremos proponer un modelo con interacción para estos datos. Es decir
proponemos el modelo
Figura 51: Rectas ajustadas para los dos g éneros (modelo sin interacción).
E (Y | X) = β0 + β1 X1 + β2 1 + β1:2 X1 · 1
= (β0 + β2 ) + (β1 + β1:2 ) X1 mujeres
E (Y | X) = β0 + β1 X1 + β2 0 + β1:2 X1 · 0
= β0 + β1 X1 hombres
Es decir que para cada grupo estamos proponiendo ajustar dos rectas distintas.
Observemos que estas rectas no están atadas (como sí lo estaban en el modelo
aditivo con una explicativa binaria y una continua, en el que ajustábamos dos
4.16 Modelos con interacción entre variables cuantitativas y cualitativas 189
rectas paralelas). Por otro lado, la interpretación de los coecientes del modelo
cambia. Analicemos cada uno. El coeciente de X1 (β1 ) es la pendiente del pulso1
en el grupo de hombres. Indica que por cada aumento en una unidad en el pulso
en reposo entre los hombres, el pulso medio post ejercicio aumenta (o disminuye,
según el signo) β1 unidades. El coeciente de la interacción (β1:2 ) representa el
aumento (o la disminución) de la pendiente en el grupo de las mujeres con respecto
al de los hombres. Si β1:2 = 0 esto signicaría que ambas rectas son paralelas. Los
distintos valores que pueden tomar β1 y β1:2 dan lugar a distintos posibles tipos
de interacción entre las variables, según se ve en la Figura 52.
El ajuste
Los del modelo
coecientes en el con interacción
modelo a losser
no resultan datos se signicativos.
todos muestra en laDe
Tabla 40. el test
hecho,
de
H0 : β1:2 = 0 versus H0 : β1:2 6= 0
asumiendo que el modelo contiene al pulso en reposo y a la indicadora de mujer,
tiene por estadístico tobs = 0,211 y p−valor = 0,834. Esto nos dice que esta muestra
190 María Eugenia Szretter
Tabla 40: Ajuste del modelo lineal con interacción entre X1 = pulso pre ejercicio
(Pulso1), X2 = indicador de mujer (mujer), Y = pulso post ejercicio (Pulso2).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 95.42838 16.80929 5.677 1.88e-06
Pulso1 0.48334 0.23157 2.087 0.044
mujer 7.05575 27.14749 0.260 0.796
Pulso1:mujer 0.07402 0.35033 0.211 0.834
Figura 53: Rectas ajustadas por mínimos cuadrados para distintos niveles de sexo,
con el término de interacción incluido.
¾Por qué sucede esto? Muchas vece sucede que al incorporar una nueva variable
al modelo ajustado, se pierde la signicatividad de alguna o varias variables ya
incluidas previamente. Si además de suceder esto aparece una inestabilidad de los
coecientes estimados, diriendo sustancialmente los valores estimados de algunos
coecientes en los dos modelos, y en particular, se observa un aumento grosero de
los errores estándares: esto suele ser un síntoma de colinealidad o multicolinealidad
entre los predictores. La colinealidad ocurre cuando dos o más variables explica-
tivas están altamente correlacionadas, a tal punto que, esencialmente, guardan la
misma información acerca de la variabilidad observada de Y. En la Sección 5.3.1
presentaremos algunas maneras de detectar y resolver la multicolinealidad.
En este caso, la variable articial Pulso1 · mujer está fuertemente correlacionada
con mujer ya que el coeciente de correlación de Pearson es rmujer,Pulso1·mujer = 0,99,
como aparece en la Tabla 42. Como la correlación entre las variables es tan grande,
la capacidad explicativa de Pulso1 · mujer cuando mujer está en el modelo es
pequeña.
Tabla 41: Tabla comparativa de los ajustes con y sin interacción para las covariables
Pulso1 y mujer.
Y = β0 + β1 X1 + β2 X2 + ε. (80)
El modelo ajustado gura en la Tabla 19, página 125. La supercie ajustada resultó
ser
Yb = 8,3080 + 0,4487X1 + 0,0047X2 .
Cuando controlamos por X2 (peso al nacer), la ecuación (parcial) ajustada que
relaciona el perímetro cefálico y la edad gestacional es
Para cada nivel posible de peso al nacer, por cada unidad de aumento en la edad
gestacional se espera un aumento de 0,448 unidades (cm.) en el perímetro cefálico
al nacer. Grácamente, esto se ve representado en la Figura 54. Lo mismo sucedería
si controláramos por X1 en vez de X2 : tendríamos rectas paralelas, de pendiente
0,0047.
Este modelo asume que no existe interacción entre las variables. El modelo (80)
fuerza a que los efectos de las covariables en la variable dependiente sean aditivos,
es decir, el efecto de la edad gestacional será el mismo para todos los valores del
peso al nacer, y viceversa, porque el modelo no le permitirá ser de ninguna otra
forma. A menudo este modelo es demasiado simple para ser adecuado, aunque en
194 María Eugenia Szretter
Y = β0 + β1 X1 + β2 X2 + β3 X3 + ε
Y = β0 + β1 X1 + β2 X2 + β1:2 X1 · X2 + ε (81)
En general
E (Y | X1 , X2 ) = β0 + β1 X1 + β2 X2 + β1:2 X1 X2
= β0 + β2 X2 + (β1 + β1:2 X2 )X1 (82)
| {z } | {z }
ordenada al origen pendiente
Y = variable respuesta
Proponemos un modelo con interacción para los datos, que guran en el archivo
ejemploint.txt. Antes de ajustar un modelo, veamos los estadísticos descriptivos
de las dos variables, en la Tabla 43. Ajustamos el modelo (81). En la Tabla 44
aparece la salida. Vemos que el coeciente asociado al término de interacción
> summary(drogaA)
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.207 4.449 7.744 8.107 11.100 13.590
> summary(drogaB)
Min. 1st Qu. Median Mean 3rd Qu. Max.
10.18 38.44 63.02 59.58 82.61 93.76
Call:
lm(formula = YY ~ drogaA * drogaB)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -53.92176 42.27242 -1.276 0.21027
drogaA 16.59288 4.92500 3.369 0.00181
drogaB 6.22153 0.63436 9.808 1.04e-11
drogaA:drogaB 2.77152 0.07774 35.651 < 2e-16
---
cantidad de droga B consumida. Para los tres valores gracados, tendríamos tres
respuestas distintas: 17,3, 25,61 y 36,69 (para drogaA = 4, 7 y 11, respectivamen-
te).
Hay que tener mucho cuidado en la interpretación de los coecientes de cada co-
variable cuando el modelo contiene interacciones. Este modelo es mucho más com-
plicado que el aditivo. Por esta razón, cuando se ajusta un modelo con interacción
y no se rechaza la hipótesis de que la interacción sea cero, es mejor eliminar el
término de interacción del modelo antes de interpretar los efectos parciales de ca-
da variable. Sin embargo, cuando existe clara evidencia de interacción (se rechaza
H0 : β1:2 = 0), hay que conservar los términos asociados a las variables originales
en el modelo lineal, aún cuando no resulten ser signicativos, ya que el efecto de
cada variable cambia según el nivel de las otras variables, ver (82). Es decir, si en
el ajuste presentado en la Tabla 44 la interacción hubiera resultado signicativa y
el efecto de la droga A no hubiera resultado signicativo, de todos modos, debería
conservarse la droga A como covariable en el modelo, puesto que se conservará la
interacción.
Veamos un ejemplo donde el efecto de la interacción es más fuerte aún.
198 María Eugenia Szretter
Tabla 45: Modelo ajustado para los datos del archivo ejemploint3.txt, con las
variables explicativas X1 = drogaA y X2 = drogaB y la interacción entre ellas,
para explicar a Y.
> summary(ajuste7)
Call:
lm(formula = Y7 ~ drogaA * drogaB)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2488.19403 31.27861 79.55 < 2e-16
drogaA 151.87124 3.64415 41.67 < 2e-16
drogaB 4.92268 0.46938 10.49 1.71e-12
drogaA:drogaB -3.00872 0.05752 -52.30 < 2e-16
---
Residual standard error: 32.59 on 36 degrees of freedom
Multiple R-squared: 0.9965, Adjusted R-squared: 0.9962
F-statistic: 3427 on 3 and 36 DF, p-value: < 2.2e-16
vemos que el vínculo entre drogaA y la respuesta desaparece, ya que la recta parece
horizontal (la pendiente estimada es exactamente cero cuando drogaB = 50,47703).
Las tres rectas gracadas son
una unidad de una covariable sin necesidad de conocer siquiera el valor de la otra
covariable, mientras se mantuviera constante. Decíamos, en el ejemplo de los bebés
de bajo peso, que manteniendo el peso constante, el aumento de una semana en la
edad gestacional de un bebé repercutía en un aumento de 0,45 cm. del perímetro
cefálico esperado del bebé al nacer. Esto vale tanto para bebés que pesan 600 g.,
900 g. o 1200 g. al nacer. Cuando hay interacción, esta interpretación se diculta.
Ejemplo 4.4 A cuarenta personas se les miden el pulso antes y después de ejer-
citar, junto con otras covariables. Estos datos fueron presentados en el Ejemplo
4.1. Para cada individuo, se midieron las siguientes variables
El modelo (aditivo) es
Tabla 46: Modelo de regresión lineal múltiple aditivo para el pulso post-ejercicio
con covariables X2 = mujer y X3 = fuma.
Grupo X2 = mujer X3 = fuma E (Y | X2 , X3 )
1 0 0 β0
2 0 1 β0 + βF
3 1 0 β0 + βM
4 1 1 β0 + βF + βM
Nuevamente, en la Tabla 47, escribimos el signicado del modelo para las cuatro
combinaciones posibles de los valores de X2 = mujer y X3 = fuma.
Hagamos las mismas comparaciones que hicimos en el modelo aditivo. Compara-
mos el valor medio de la variable respuesta del grupo 2 con el del grupo 1:
Tabla 47: Modelo de regresión lineal múltiple con interacción, para el pulso post-
ejercicio con covariables X2 = mujer y X3 = fuma.
Grupo X2 = mujer X3 = fuma X2 · X3 E (Y | X2 , X3 )
1 0 0 0 β0
2 0 1 0 β0 + βF
3 1 0 0 β0 + βM
4 1 1 1 β0 + βF + βM + βM :F
Yi1 ∼ N µ1 , σ 2
(1 ≤ i ≤ n1 ) grupo 1 (hombres no fumadores) (85)
2
Yi2 ∼ N µ2 , σ (1 ≤ i ≤ n2 ) grupo 2 (hombres fumadores)
2
Yi3 ∼ N µ3 , σ (1 ≤ i ≤ n3 ) grupo 3 (mujeres fumadoras)
2
Yi4 ∼ N µ4 , σ (1 ≤ i ≤ n4 ) grupo 4 (mujeres no fumadoras).
204 María Eugenia Szretter
Todas las observaciones son independientes entre sí. Este modelo propone ajustar
4 parámetros que dan cuenta de la media (uno para cada grupo, que hemos deno-
minado µk que se estimarán con las observaciones del respectivo grupo k− ésimo)
y un parámetro que da cuenta de la varianza de cada observación en el modelo ho-
2
moscedástico (σ que se estimará de forma conjunta con todas las n1 + n2 + n3 + n4
observaciones). Si comparamos este modelo con el propuesto en (84), vemos que
ambos tienen 4 parámetros para las medias. Más aún, resultará que se vinculan
de la siguiente forma, por lo desarrollado en la Tabla 47.
µ1 = β0 (86)
µ2 = β0 + βF
µ3 = β0 + βM
µ4 = β0 + βF + βM + βF :M .
Vemos pues que ambos modelos (84) y (85) son equivalentes, ya que conociendo
los parámetros de uno de ellos (los µk por ejemplo) podemos despejar los valores
del otro (los βh por ejemplo) por medio de las ecuaciones (86). O al revés, obtener
los µk a partir de los βh . La varianza del error se estimará en forma conjunta en
ambos modelos. La diferencia está en el signicado de los parámetros. En el modelo
(85), µk representa el valor esperado de la variable respuesta en el grupo k−ésimo,
mientras que en el modelo (84) los βh representan (algunas de) las diferencias entre
los valores de las respuestas medias entre los distintos grupos.
En las Tablas 48 y 49 se muestran los valores ajustados de los modelos aditivos
(83) y con interacción (84).
Analicemos primero el modelo con interacción. En la salida vemos que el coeciente
de la interacción no resulta signicativo (el p−valor es 0,245 que no es menor
a 0,05), por lo tanto concluimos que el efecto de fumar en el pulso medio post-
ejercicio de mujeres y varones es el mismo. Luego, para los datos del pulso el modelo
apropiado es el aditivo (83). En dicho ajuste vemos que todos los coecientes son
signicativos, y que el hecho de fumar aumenta el pulso post-ejercicio en 7,36
pulsaciones por minuto, cuando uno controla por sexo. Es interesante gracar
4.18 Interacción entre dos variables cualitativas 205
Tabla 48: Ajuste del modelo lineal múltiple aditivo Yi = β0 + βM Xi2 + βF Xi3 + εi ,
donde X2 = indicador de mujer (mujer), X3 = indicador de fumar (fuma), e Y =
pulso post ejercicio (Pulso2).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 126.926 2.452 51.754 < 2e-16
mujer 18.064 3.027 5.967 6.96e-07
fuma 7.362 3.074 2.395 0.0218
---
las cuatro medias muestrales y los cuatro valores esperados bajo el modelo. Esos
valores guran en la Tabla 50.
Mirando la Tabla 50 podemos corroborar que los estimadores obtenidos con el
modelo con interacción son los mismos que obtendríamos si estimáramos las medias
de cada grupo por separado. En este caso además, vemos que el ajuste obtenido por
el modelo sin interacción no diere demasiado del con interacción, en sus valores
ajustados, es por eso que la interacción no resulta signicativa en este modelo. El
Gráco 57 permite visualizar más claramente la situación. En él vemos que al pasar
del grupo de no fumadores al grupo de fumadores, aumenta el pulso medio post-
ejercicio, tanto en hombres como en mujeres, siempre en una cantidad parecida
(tan parecida, que la diferencia entre ambos no es estadísticamente signicativa).
Este gráco suele llamarse gráco de interacción. Sirve para evaluar si tiene sentido
ajustar un modelo con interacción a nuestros datos. Si dicho gráco resultara como
se muestra en alguno de los dos de la Figura 58, entonces se justicaría agregar el
término de interacción al modelo con dos covariables categóricas. En el gráco A
vemos un ejemplo donde al pasar del grupo no fumador al grupo fumador, para
las mujeres se produce un aumento de la respuesta media, y para los hombres
una disminución de la respuesta media. Para este ejemplo, tiene sentido incluir
el término de la interacción, ya que la respuesta cambia de sentido para distintas
combinaciones de las dos explicativas. En el gráco B sucede algo parecido: cuando
controlamos por el sexo de la persona, el efecto de fumar es diferente en los dos
206 María Eugenia Szretter
Tabla 49: Ajuste del modelo lineal múltiple con interacción Yi = β0 + βM Xi2 +
βF Xi3 +βM :F Xi2 ·Xi3 +εi , donde X2 = indicador de mujer (mujer), X3 = indicador
de fumar (fuma), Y = pulso post ejercicio (Pulso2).
grupos, para las mujeres aumenta la media de la respuesta, para los hombres la
deja igual.
E (Y | X1 , X2 , X3 ) = β0 + β1 X1 + β2 X2 + β3 X3
+β1:2 X1 · X2 + β1:3 X1 · X3 + β2:3 X2 · X3
Tabla 50: Medias muestrales calculadas por grupos, comparadas con el ajuste de
los modelos sin y con interacción, para el pulso post-ejercicio con covariables X2 =
mujer y X3 = fuma.
Grupo X2 X3 Media muestral E (Y | X2 , X3 ) sin interacción
1 0 0 128,3333 βb0 = 126,926
2 0 1 132,6 βb0 + βbF = 126,926 + 7,362 = 134,29
3 1 0 143,5833 βb0 + βbM = 126,926 + 18,064 = 144,99
4 1 1 155,1667 βb0 + βbF + βbM = 126,926 + 7,362
+18,064 = 152,35
Figura 57: Gráco de las medias muestrales de los cuatro grupos, de los datos de
pulso-post ejercicio.
Figura 58: Grácos de las medias de una variable respuesta Y para dos ejemplos
cticios, en las guras A y B.
Figura 59: Matriz de scatter plots para los datos de bebés con bajo peso, con las
covariables edad gestacional y peso
5.1 Diagnóstico del modelo: deniciones y grácos 211
> cor(low)
headcirc gestage birthwt
headcirc 1.0000000 0.7806919 0.7988372
gestage 0.7806919 1.0000000 0.6599376
birthwt 0.7988372 0.6599376 1.0000000
par(mfrow=c(2,2))
plot(ajuste4)
38 ● 38 ●
3
● 125 125 ●
Standardized residuals
20
●● ● ●
● ● ●●●
●● ●●●
2
● ●●
●● ●● ●● ●●
●●
●●
● ●● ● ● ●● ● ●
●
●
10
● ●
●
Residuals
● ● ● ●● ●●
●
●
●
●● ● ●●
●
● ● ● ●● ●● ● ● ●
1
●
● ● ●● ●
●●●● ● ●
● ●● ●●
●
● ● ● ●●●
●●● ●●● ● ●●
●
●●
●
● ●
●
●●●
● ● ● ●
●
●●
●
●●
●
● ● ●●●● ●
●● ●● ● ●
●
●●
●● ● ●●
●●● ●● ●●●● ● ●
●
●
●
●
●
0
● ●●
●
● ● ● ●
●● ●●● ● ● ● ●
●
●●
●
●
0
● ● ●● ●● ● ● ●●● ● ●
●
●●
●● ● ● ●● ● ●
●● ●
●
●●
●
●
●●
●
● ● ●●
●● ●● ● ●
●
●●
● ●● ●● ● ●● ●● ● ● ● ●
●
●
●
●
●
● ●●
● ●● ● ● ● ●●
●
●
●●
−20 −10
●
●
●●
●
●●● ●● ●●● ● ● ●
●●
●
●
−1
● ● ●
●●
●
● ●●● ● ●
● ●● ●
● ● ●
●
●
●●
●
●●
●
●● ●
●●
●●
●
●
● ● ● ●
●●
●●
●● ● ●●
−2
198 ●●
● ●●
● 198
●
1.5
●
Standardized residuals
●198●●
Standardized residuals
●
● ●● ●● ●● ● ●
●
● ● ●
●●
●
● ●●● ●●
2
● ● ●
● ● ●●● ● ●● ●
●● ● ● ●
●
●●●●●
● ● ●
●● ●
● ●
● ● ● ● ●● ●● ● ● ● ●● ●
● ● ● ● ●●●
206 ●
● ● ● ● ●● ● ●● ● ●●
1.0
● ●● ● ●
●● ●● ●
● ● ●● ●
●● ● ●●●●● ● ● ● ● ●●
●● ●●
●
●●
● ●
●
●
●● ● ●
●●● ● ●
●
●
●●
● ●● ● ●
●
● ● ●
● ● ●● ● ● ● ●● ● ● ●● ● ● ●●
● ●●● ●●●● ●●●● ●
● ●
●
●●●
●
● ●● ● ●● ●
● ●● ● ●
●
● ●
● ●●● ●●● ●
0
● ●●●● ● ● ●
●●● ● ●● ● ● ●●
● ●
●● ● ● ●
●● ●
●●●● ●● ● ●
● ●● ● ● ● ●
●● ●●● ●● ● ● ●
● ● ● ●● ●● ●● ● ●●●
●●●●● ●● ● ●●
●●● ●●●● ●● ● ●●
● ●
0.5
●● ● ●
●●● ●● ●●●
−1
● ● ●● ● ● ● ●
● ●
● ● ●
●●● ●
● ●● ● ● ● ● ●● ● ● ●●
● ●●● ●
● ● ●● ●
●● ●●
●●●● ● 54
●● ● ●●
−2
● ● ●● ●
● ● ● ● ●8
●● ●● Cook's distance
0.0
Como vimos para regresión lineal simple, el problema de las observaciones atípicas
en un conjunto de datos es que su presencia puede inuir de manera dramática
sobre el ajuste del modelo propuesto, incluso llegando a tergiversar por comple-
to las conclusiones que se pueden extraer de él cuando el ajuste se lleva a cabo
usando estimadores de mínimos cuadrados. Esta distorsión de los valores ajustados
además tiene la potencia de enmascarar las observaciones atípicas y muchas veces
disimularlas entre los datos, dicultando el buen funcionamiento de las herramien-
tas de detección de atipicidad más difundidas en el área: leverage, distancias de
Cook, dts, etc. Como ya dijimos en la Sección 3.2.4, una forma automática de
evitar estos problemas consiste en cambiar el método de estimación de mínimos
cuadrados por un ajuste robusto de los coecientes. Los MM-estimadores de re-
gresión son una buena alternativa. El ajuste que presentamos en la Sección 3.2.4 a
traves de la rutina lmrob de la librería robustbase se extiende trivialmente para
el caso de regresión lineal múltiple. A modo de ejemplo, en la Tabla 51 vemos el
ajuste de dicha rutina a los datos del archivo azucar considerados previamente, el
mismo ajuste de mínimos cuadrados gura en la Tabla 36.
Si el ajuste robusto y el clásico (o sea el de mínimos cuadrados) no dieren, esta
es una señal de que no hay observaciones atípicas en el conjunto de datos con
el que se trabaja. Como el ajuste por mínimos cuadrados es el más difundido en
estadística, cuando el interés del análisis incluya la comunicación de los resultados
a otros especialistas, es recomendable reportar la salida obtenida con el ajuste
clásico. Esto es lo que sucede para el ajuste de los datos de azucar.
En cambio, cuando el ajuste robusto y el clásico dieren entre sí, esto se deberá
a la presencia de datos atípicos. Con el ajuste robusto estos se podrán detectar
claramente: corresponderán a aquellas observaciones cuyos pesos (robustos) asig-
nados por el ajuste del lmrob sean muy chicos (pesos cero o muy cercanos a él).
Estos se calculan como ajusterob$rweights para el ajuste presentado en la Tabla
51. Como los pesos, que van entre 0 y 1, se calculan en función de los residuos,
un criterio equivalente será investigar aquellas observaciones con residuos grandes
del ajuste robusto. En el caso de los datos de azucar, vemos que el menor peso
corresponde a 0,24. La instrucción plot aplicada al ajuste robusto dado por lmrob
proporciona 5 grácos que permite visualizar las observaciones extremas, basadas
en el cómputo del leverage robusto (robust distances ) y que pueden verse en la
Figura 61 para el ajuste robusto de los datos de azucar. Una descripción más de-
tallada de los estimadores robustos disponibles puede consultarse en los Capítulos
4 y 5 de Maronna et al. [2006].
5.2 Identicación de outliers y puntos de alto leverage 215
> library(robustbase)
> Ievo<-factor(peso.evo)
> ajusterob <- lmrob(glucosa ~ bmi + Ievo, data = azucar)
> summary(ajusterob)
\--> method = "MM"
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 70.6589 3.7731 18.727 < 2e-16 ***
bmi 0.6552 0.1356 4.832 2.56e-06 ***
Ievo2 7.2255 1.3691 5.278 3.18e-07 ***
Ievo3 7.9919 1.4531 5.500 1.07e-07 ***
---
Robust residual standard error: 7.721
Multiple R-squared: 0.2222, Adjusted R-squared: 0.2114
Convergence in 12 IRWLS iterations
Robustness weights:
18 weights are ~= 1. The remaining 202 ones are summarized as
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.2452 0.8557 0.9502 0.8921 0.9815 0.9990
5.2.2. Leverage
Vimos en la Observación 4.5, en la Sección 4.6 que los residuos no son homoscedás-
ticos. Y además vimos que la varianza dependía del leverage de una observación,
que también denimos en esa sección a partir de la matriz de proyección o hat
matrix H. El leverage de la i-ésima observación será el elemento hii de la matriz
de proyección, y en general será calculado por el software. En el caso de regresión
múltiple, sin embargo, es mucho más importante asegurarse que no haya obser-
vaciones potencialmente inuyentes, o si uno sospecha de algunas, estudiar cómo
cambia el ajuste cuando esa observación es eliminada de la base de datos. Para la
detección de observaciones potencialmente inuyentes en regresión lineal simple,
muchas veces basta mirar con cuidado el scatter plot de los datos. El problema que
aparece aquí es que no podemos, en general, dibujar el scatter plot de los datos,
por lo que tendremos que calcular el leverage de cada observación. El criterio para
216 María Eugenia Szretter
Figura 61: Salida de plot(ajusterob) para los datos de azucar, cuyo ajuste gura
en la Tabla 51.
Standardized residuals vs. Robust Distances Normal Q−Q vs. Residuals Response vs. Fitted Values
4
38 ● 38 ●
●
120
● 125
● 38 125 ● ●
● 125
3
20
●
● 189 ●
●
●●●
189 ● ●● 189
●● ●
●
●● ● ●
● ●●
● ● ●
● ●●
● ●
110
● ● ●●
● ● ●
2
● ● ● ●
● ●● ● ●
Robust Standardized residuals
●●
● ●
● ●●● ●● ●
● ● ●
●
●
● ● ●● ●
●
10
● ●● ● ●
● ● ●
●
● ●
●
●
● ● ● ● ● ● ●●
● ●
●
●●
● ● ● ● ●
● ●
● ● ● ●
●
●●
● ● ● ● ● ●
● ● ●●● ●
1
●
●
● ● ●
● ● ●● ●
Response
●
Residuals
● ●● ● ● ●
●
● ●
● ● ●● ● ● ● ● ●
●
● ●● ● ● ●●
100
●● ● ●
●
●●● ●● ●
●
●● ● ● ●● ●
●●●●●
● ● ●
●
● ●● ● ● ●
●● ● ●●●● ●●●●
● ●● ● ● ●●
● ●●● ● ● ● ●
●● ●●● ● ●
●
● ●● ●
●
● ●●●●● ●
●● ●●● ● ●
●
● ●●● ●
●● ● ● ●
● ●● ● ●● ●●
0
● ●
●●
●● ●● ●
0
●
●● ● ●
●● ●
●● ●● ● ●●
●
● ● ● ● ●●
● ● ●●●●● ● ● ●●
●● ●● ●● ●
●
●
●
●
● ● ●●●● ●
●● ●● ● ● ●● ●
●
●
● ●● ●● ● ●● ●●●● ● ● ●
●●●● ●● ●
● ● ●● ●
●●
●
●● ● ●●●●●
● ●
●●● ●●● ● ●
●
●
90
● ●●
● ●●●●● ● ●●
●
●
●
●
● ●● ● ●● ● ●● ● ● ●
●● ●
●
−1
● ●
● ●● ●●● ●●
● ● ●
●●
●
●
● ● ●● ● ●
● ● ●●
●
● ● ●● ● ● ● ●
●
● ●● ● ● ●●
●
● ●
● ●● ●●
● ● ●●
● ●●
−10
●●●
● ●
●●
● ● ● ● ●●● ●
● ●
●●
● ●● ●● ●
●● ● ● ●●● ●
●●
●● ●
●
●●
● ● ● ●
−2
●●
●●
● ●● ● ● ● ●
80
●● ● ●●● ● ●
● ● ●●
● ●
● ●
●●●
●●
● ● ●
−3
−20
125 ● 125 ●
20
● 189 ● 189
● ● ●●
●● ●● ● ● ●
● ● ●● ● ●
●
● ●
4
● ●● ● ●●
● ●
●● ●
●● ● ● ● ●
● ●
● ● ● ●
● ● ●● ●
● ●● ● ● ●● ●
● ● ●●
10
● ●● ●
Sqrt of abs(Residuals)
● ● ● ● ● ●
● ●
● ●
● ●●● ● ● ●● ● ● ● ● ●●● ●
● ● ●
● ● ● ● ●●
3
●● ● ● ●
Residuals
● ●
●● ● ●
● ● ●● ●● ●● ● ● ● ● ●● ●
● ● ●● ● ● ● ●
●●●●
● ●
● ●●●
● ● ●● ●
● ● ● ● ● ●●●●
● ●● ● ●
●
●● ● ●● ● ●●●● ● ● ● ●
●
● ● ● ●
● ● ●● ● ● ●● ●● ● ● ● ●
● ● ● ● ●●●● ● ●●●●● ●
● ●
0
● ● ● ●
● ● ●● ● ● ● ●● ● ●
● ●● ●● ●● ●
●
●● ● ●
● ● ●●
●
● ● ● ● ●●● ●● ●
●●
2
● ● ● ● ●
● ● ●
●● ● ● ● ● ● ●
● ●● ● ● ● ● ● ●● ● ●
●● ● ●● ●● ● ● ● ●
● ● ●
● ● ● ●●●● ● ● ●● ● ●●
● ●● ● ●● ● ● ● ●●
●● ●● ● ●●
● ● ● ● ●●●
● ● ● ●
●
● ●● ●●● ●● ●
−10
●
● ● ● ●
●
● ● ● ●● ● ●
● ●
●
●
1
●● ● ●●
●● ● ●● ● ●
● ● ● ●●
●● ● ● ● ● ●
● ● ●●
● ● ● ● ●
● ●
● ● ●
● ● ●
−20
n
X
0 ≤ hii ≤ 1 hii = p
i=1
Figura 62: Contornos de leverage constante en dos dimensiones. Las elipses más
pequeñas representan un menor leverage. Vemos una observación identicada con
el nombre A que tiene alto leverage y no sigue el patrón de las restantes. Fuente:
Weisberg [2005], pág. 170
Los dos criterios para evaluar si una observación tiene alta palanca presentados en
el caso de regresión lineal simple se extienden sin grandes modicaciones al caso
múltiple. Ellos son
t
−1
hnue = Xnue Xt X Xnue
donde la matriz X tiene dimensión n × p y se armó en base a la muestra con la que
se calculó el modelo ajustado, ver (46), en la página 118. Si hnue está bien incluida
dentro del rango de leverages observados en el conjunto de datos disponibles, es-
tamos seguros de que no hay extrapolación involucrada. Si, por el contrario, hnue
es mucho mayor que los leverages observados, entonces no debería llevarse a cabo
la estimación o predicción para esta combinación Xnue de covariables.
Pn 2
j=1 Ybj − Ybj(i)
Di =
pM S Res
donde Ybj es el valor ajustado para la j-ésima observación, cuando se usaron las
todas menos la i-ésima. Esto se repite para cada observación, para poder calcular
todas las Distancias de Cook. Afortunadamente, las Di pueden ser calculadas sin
necesidad de ajustar una nueva función de regresión cada vez, en la que se deja una
observación distinta afuera del conjunto de datos. Esto es porque puede probarse
la siguiente igualdad que permite calcular las distancias de Cook
e2i
hii
Di = .
pM S Res (1 − hii )2
Cuanto más grande sean ei o hii , mayor será Di . Luego el i-ésimo caso puede ser
inuyente por
2. o bien por tener un alto valor de leverage hii con sólo un moderado valor de
residuo ei ,
3. o bien por tener tanto un alto valor de leverage hii como un alto valor de
residuo ei .
Los puntos de corte sugeridos para detectar una observación inuyente con la
Distancia de Cook suelen ser percentiles de la distribución F de Fisher con p grados
de libertad en el numerador y n−p en el denominador. Si la Di ≥ F (p, n − p, 0,50)
la observación i-ésima es considerada inuyente.
El residuo estudentizado (o estudentizado eliminado) se dene por
Yi − Ybi(i)
restudi = M S Res(i)
,
1−hii
donde Ybi(i) es el valor ajustado para la i-ésima observación, cuando se usaron n−1
observaciones en el ajuste del modelo, todas menos la i-ésima y M S Res(i) es el
cuadrado medio de los residuos cuando el caso i-ésimo es omitido en el ajuste de la
regresión lineal. Nuevamente, no necesitamos ajustar las regresiones excluyendo los
casos de a uno por vez, pues una expresión alternativa para el residuo estudentizado
es
1/2
n−p−1
restudi = ei
SS Res (1 − hii ) − e2i
220 María Eugenia Szretter
Los puntos de corte sugeridos para detectar una observación inuyente con el resi-
duo estudentizado están dados por el criterio de Bonferroni y consiste en declarar
inuyente a una observación si
3. Los coecientes pueden ser no signicativos aún cuando exista una asociación
verdadera entre la variable de respuesta y el conjunto de variables regresoras.
Aunque este último diagnóstico parece ser el modo más simple de detectar multi-
colinealidad, adolece de un problema: al calcular los coecientes de correlación de
Pearson de todas las variables regresoras tomadas de a pares sólo estamos miran-
do los vínculos lineales entre dos covariables. El problema es que podría haber un
vínculo lineal muy estrecho entre una colección de variables y otra variable en parti-
cular. Un enfoque más apropiado es hacer una regresión de cada variable regresora
2
sobre las demás variables regresoras. Cuando el R de alguna de estas regresiones
sea cercano a 1, deberíamos preocuparnos por el efecto de la multicolinealidad.
Finalmente diremos que la interpretación de los coecientes se vuelve dudosa cuan-
do existe multicolinealidad. Recordemos que en regresión múltiple (aditiva) cada
coeciente representa el efecto de la variable regresora cuando todas las demás
variables se mantienen constantes. Pero si dos variables regresoras, por ejemplo
X1 y X2 , están fuertemente correlacionadas tiene poco sentido pensar en el efecto
de X1 sobre Y cuando X2 se mantiene constante.
1
V IFk = , 1 ≤ k ≤ p − 1,
1 − Rk2
donde Rk2 es el coeciente de determinación múltiple cuando Xk es regresado en
las p − 2 restantes covariables X en el modelo.
2
El VIFk es igual a uno si Rk = 0, es decir si la k−ésima covariable no está
2
correlacionada con las restantes covariables. Cuando Rk 6= 0, el VIFk es mayor
2
a uno. Cuando Rk está muy cerca de uno, el VIFk se vuelve un número enorme.
Para un conjunto de datos, el mayor VIF observado se usa como medida de diag-
nóstico. Si el máximo VIF es mayor a 10, eso es señal de multicolinealidad. Otro
criterio es que cuando el promedio de los VIF es considerablemente mayor a uno
se está frente a problemas de multicolinealidad.
más utilizados son los estimadores ridge o los lasso, y una combinación de
ambos que se denominan elastic net. El libro de James, Witten, Hastie,
y Tibshirani [2013] constituye una fuente muy accesible y actualizada, que
además comenta los comandos de R para apropiados para implementarlos. Un
enfoque más técnico por los mismos autores es Friedman, Hastie, y Tibshirani
[2008]. No nos ocuparemos de estos temas en el curso.
Rp2 o SS Resp :
Un primer criterio para comparar modelos es mirar el R
2
2
obtenido con cada uno de ellos y elegir aquél con mayor R . Usamos el
0
subíndice p para indicar la cantidad de parámetros β s hay en el modelo (es
decir, p−1 covariables). Como tenemos que
SS Resp
Rp2 = 1 − ,
SST otal
resulta que comparar modelos usando el criterio de elegir aquél cuyo Rp2 sea
lo más grande posible equivale a elegir aquel que tenga la menor suma de
cuadrados de residuos SS Resp (ya que la suma de cuadrados total SST otal =
Pn 2
i=1 Yi − Y no depende de las covariables del modelo ajustado y por eso
2
permanece constante). Pero como ya observamos, el R aumenta al aumentar
p − 1, el número de covariables, sean estas apropiadas para ajustar los datos
o no. Es por eso que el criterio no es identicar el modelo con mayor R2 (ese
será siempre el modelo con todas las covariables disponibles) sino encontrar
el punto a partir del cual no tiene sentido agregar más variables ya que estas
2
no inciden en un aumento importante del R . Muchas veces esto sucede
cuando se han incorporado unas pocas variables al modelo de regresión. Por
supuesto, encontrar el punto donde este aumento se empieza a estancar es
un asunto de criterio individual. Suele ser bastante informativo gracar el
2
mejor Rp en función de p y evaluar grácamente cuándo el crecimiento en el
2
R es tan poco que no justica la inclusión de la covariable adicional.
2
Ra,p o M SEp : Como el Rp2 no toma en cuenta el número de parámetros en el
modelo de regresión, un criterio de decisión mucho más objetivo y automati-
2
zable es calcular y comparar modelos por medio del Ra . Lo subindicaremos
2 0
como Ra,p para indicar la cantidad de coecientes β s presentes en el modelo.
Recordemos que
2 n−1 SSResp M SResp
Ra,p =1− = 1 − SST otal .
n−p SST otal n−1
SST otal
Como está jo en un conjunto de datos dado (sólo depende de las
n−1
2
Y observadas), el Ra,p aumenta si y sólo si el M SResp disminuye. Luego, el
2
coeciente de determinación múltiple ajustado Ra,p y el cuadrado medio del
error M SResp , proveen información equivalente acerca del ajuste obtenido.
5.4 Selección de modelos 225
Cp de Mallows : Para utilizar esta medida hay que asumir que en el modelo
con el total de las K covariables (el más grande posible) están todas las
covariables importantes de modo que en ese modelo completo, la estimación
2
de la varianza del error, σ , es insesgada. El valor del Cp se dene por
SSResp
Cp = − (n − 2p)
M SRes (X1 , . . . , XK )
donde SS Resp es la suma de los cuadrados de los errores del modelo con
p parámetros (es decir, con p−1
covariables) y M SRes (X1 , . . . , XK ) es el
2
estimador de la varianza del error σ , calculado bajo el modelo con todas
las posibles covariablesX1 , . . . , XK . Cuando se usa el Cp como criterio, se
busca aquel subconjunto de p covariables X que tengan un Cp pequeño, lo
más cercano a p posible. Es fácil ver que para el modelo completo, CK = K.
A continuación los describimos. Asumimos que n>K (o sea, que tenemos más
observaciones que covariables).
quean de acuerdo a algún criterio de bondad de ajuste. Por supuesto, esto involucra
K
hacer 2 regresiones. Siempre que sea posible es aconsejable usar este procedimien-
to ya que es el único método que garantiza que se obtendrá el modelo nal que
2
realmente optimice la búsqueda con el criterio elegido: por ejemplo mayor Ra , o
mejor Cp , etc. Es decir, garantiza que el modelo nal es el mejor para el presente
conjunto de datos y para los criterios utilizados.
5.4 Selección de modelos 227
Una vez que todos los modelos han sido ajustados, en general el paquete exhibe
los 10 (o una cantidad prejable) mejores modelos de acuerdo al criterio elegido,
entre todos los que tienen el mismo número de variables.
Cuando la cantidad original de potenciales covariables es muy grande, K mayor a
40, por ejemplo, no es posible ajustar todos los modelos posibles ya que 240 = 1 099
511 627 776. Se vuelve necesario usar otro tipo de procedimientos, computacional-
mente más realizables, que buscan elegir un modelo luego de una búsqueda que
explora una sucesión de modelos de regresión que en cada paso agrega o quita una
covariable X . El criterio para agregar o quitar una covariable, en el caso secuencial,
puede escribirse equivalentemente en términos de la suma de los cuadrados de los
residuos, los estadísticos F parciales, el estadístico t asociado a un coeciente, o el
Ra2 . Son los tres procedimientos que describimos a continuación.
1. El modelo inicial contiene todos los potenciales predictores (que hemos de-
nominado K ).
2. Si todas las variables producen una contribución parcial signicativa (es de-
cir, un estadístico t con p−valor < α) entonces el modelo completo es el
modelo nal.
1. Primero se ajustan todos los modelos de regresión lineal simple con Y como
respuesta y una sola covariable explicativa. Se elige la que tiene el mayor
valor del estadístico F o, equivalentemente, el menor p−valor del estadístico
t asociado al coeciente, siempre que dicho p−valor sea inferior a α, sino el
procedimiento termina y se elige el modelo sin covariables
2. En el segundo paso, se busca elegir entre todos los modelos de dos covariables
que tienen a la que fue seleccionada en el primer paso aquél para el cuál el test
F parcial dé mas signicativo. El test F parcial es el que compara el ajuste del
modelo con dos variables con el ajuste del modelo con una variable elegido en
el primer paso. Es decir, es el test que mide la signicatividad de la segunda
variable a ser incorporada en el modelo cuando la primera ya está en él. Para
aquel modelo que tenga el F parcial más signicativo o, equivalentemente, el
test t asociado al coeciente de la variable a ser incorporada más signicativo,
o sea, el menor p−valor, se compara a dicho p−valor con el valor crítico α.
Si el p−valor es menor que α se elige dicho modelo, si el p−valor supera el
valor crítico, el procedimiento se detiene, y el output del proceso es el modelo
que tiene una única covariable signicativa, que fue seleccionada en el paso
1.
3. Ahora se calculan los estadísticos F parciales de todos los modelos con tres
covariables, que tienen a las dos covariables ya elegidas e incorporan una
tercera. Se continua de esta manera (como en el paso 2) hasta que ninguna
variable produce un F parcial (o t) signicativo.
Si se usa un punto de corte muy exigente (digamos α < 0,01) serán incluídas
menos variables y existe la posibilidad de perder covariables importantes. Si se usa
un punto de corte menos exigente (α < 0,20) es menos probable que se pierdan
covariables explicativas importantes pero el modelo contendrá más variables.
Una vez que el procedimiento naliza, no todas las variables en el modelo necesa-
riamente tendrán coecientes parciales signicativos.
(mayor p−valor) en el punto de corte para que una variable salga del modelo una
vez que ingresó, o usar el mismo valor para ambos.
Este procedimiento, en general produce modelos con menos variables que la selec-
ción forward.
Una vez que hemos seleccionado un modelo nal usando cualquier procedi-
sólo aproxi-
miento de selección, la inferencia realizada sobre ese modelo es
mada. En particular, los p−valores serán menores y los intervalos de conan-
za más angostos que lo que deberían ser, puesto que el modelo seleccionado
230 María Eugenia Szretter
es aquél que más fuertemente reeja los datos. (Hemos hecho uso y abuso
de nuestros datos para obtener un modelo, es de esperar que otra muestra
aleatoria de observaciones del mismo tipo a la que se le ajuste este modelo
tenga menor capacidad predictiva).
¾Por qué podría dejarse en el modelo nal una variable que no resulta es-
tadísticamente signicativa? Muchas veces pueden aparecer variables en el
modelo seleccionado para las cuáles el p−valor del test t no es menor que
0,05. Esto puede deberse a que haya motivos teóricos que indican que la
respuesta depende de dicha covariable y que tal vez el tamaño de muestra
no haya sido lo sucientemente grande como para comprobarse la signi-
catividad estadística. Se deja para que el modelo no resulte sesgado. Los
estimadores de los coecientes son insesgados si el modelo es correcto (es
decir, contiene todas las covariables apropiadas en la forma correcta, dejar
covariables con sustento teórico para que estén permite que los estimadores
de los efectos de otras covariables sean insesgados). Otro motivo para dejar-
la puede ser porque su presencia ayuda a reducir la varianza estimada del
error, permitiendo que otros coecientes resulten signicativos. Y también
pueden dejarse covariables aunque no sean signicativas pero que permitan
comparar el modelo presentado con otros modelos publicados con antelación.
A. Talleres
T1.Ej2. Abra y examine las variables del archivo ingresos.txt. éste corresponde a
una base de datos de 40 individuos, para los que se registraron las variables:
Id (identicador, un número entre 1 y 40 que identica al número de observa-
ción), nivelEduc (nivel educativo), edad y salario. La variable nivelEduc está
codicada de 1 a 10, donde 1 corresponde al menor nivel educativo alcanzado
y 10 al mayor. La variable salario corresponde al salario bruto mensual (es
decir, antes de impuestos), en dólares. La variable edad está medida en años.
Suponga, siempre que lo necesite, que los datos tienen distribución normal.
e) Para cada edad, ajuste una recta de cuadrados mínimos con sal100
como variable respuesta y nivelEduc como variable explicativa. ¾Qué
signica el coeciente de la variable explicativa en cada una de las re-
gresiones ajustadas?
A.2 Ejercicio domiciliario 235
2
5. Estime la varianza del error (σ ).
6. Interprete los parámetros estimados (en su respuesta a esta pregunta debería
aparecer una frase que comience más o menos así: Por cada aumento de 1g.
en la cantidad de grasas totales....)
12. Ídem la pregunta anterior pero para un paquete de galletitas producidas con
90g. de grasas totales. Con el ajuste obtenido, ¾se puede realizar este cálculo?
14. ¾Para cuál de los valores posibles para X la pregunta anterior el intervalo a
calcular resultará más corto? ¾Para cuál (o cuáles) más largo?
5 Pagano, M., Gauvreau, K. (2000) Principles of Biostatistics, Second Edition, Duxbury Thom-
son Learning.
A.3 Taller 2: Regresión Lineal: medidas de diagnóstico y transformaciones 237
T2.Ej2. Abra el archivo gross national product.txt", que corresponde a los datos tra-
tados en el libro, ya mencionado, de Pagano y Gauvreau, capítulo 18. Las
238 María Eugenia Szretter
variables son tasa de natalidad por 1000 habitantes (birthrt ) y producto na-
cional bruto expresado en dólares estadounidenses (gnp ). Las observaciones
conciernen a 143 países distintos.
T3.Ej2. La idea de este ejercicio es discutir qué signican distintos modelos de regre-
sión múltiple. Probaremos distintos modelos en un solo conjunto de datos.
Retomamos el Ejercicio T1.Ej2 del Taller 1. Eran datos guardados en el ar-
chivo ingresos.txt". Consistían en 40 datos de salarios (ingresos), niveles de
educación y edad. Para modelar esos datos, propusimos ajustar dos modelos,
que recordamos ahora:
E(salario|nivelEduc) = β0 + β1 · nivelEduc .
a) ¾Cuáles son los supuestos necesarios en el Modelo B para que sean váli-
das las conclusiones respecto de los tests y los intervalos de conanza?
Interprete los parámetros del modelo.
6
cualitativa) cuando en el modelo aparece la variable nivelEduc . Indique
si los coecientes son signicativos. Evalúe la adecuación del modelo con
2
el R . ¾Qué porcentaje de variabilidad del salario queda explicada por
el modelo que tiene a nivelEduc y a edad como explicativas? ¾Con cuál
de los modelos se quedaría?
Referencias
Field, A. (2005). Discovering statistics with spss. SAGE publications Ltd London,
UK.
Kutner, M. H., Nachtsheim, C., Neter, J., y Li, W. (2005). Applied linear statistical
models. McGraw-Hill Irwin.
Leviton, A., Fenton, T., Kuban, K. C., y Pagano, M. (1991). Labor and deliver
characteristics and the risk of germinal matrix hemorrhage in low birth weight
infants. Journal of child neurology , 6 (1), 3540.
Maronna, R., Martin, R. D., y Yohai, V. (2006). Robust statistics. John Wiley &
Sons, Chichester. ISBN.
McCullagh, P., y Nelder, J. (1989). Generalized linear models (2nd. edn. ed.).
Chapman-Hall, London.
Pagano, M., Gauvreau, K., y Pagano, M. (2000). Principles of biostatistics (Vol. 2).
Duxbury Pacic Grove, CA.
Seber, G. A., y Lee, A. J. (1977). Linear regression analysis. Wiley, New York.
Weisberg, S. (2005). Applied linear regression (3rd. ed. ed.). John Wiley & Sons.