FULL Modelos
FULL Modelos
FULL Modelos
2018
INTRODUCCIÓN
Motivación: Frecuentemente, el objetivo de la ciencia es encontrar, describir o predecir relaciones entre eventos en el
mundo en que vivimos.
En particular, muchas veces esto corresponde a buscar una fórmula o ecuación que relacione cantidades.
Relaciones básicas:
Un modelo poblacional para relacionar una variable aleatoria Y con la variable x corresponde a:
µ(x) = βx
Las funciones que no tienen por qué ser lineales en el predictor. Se llama lineal, si el modelo es lineal en los beta.
Recolección de datos
Valores de la variable independiente: Suponga un modelo para explicar la presión arterial en términos de la edad de las
personas, x. El modelo se asume válido para 20 ≤ x ≤ 75.
Recolección de los datos: Se dispone de grupos de personas para ciertas edades entre 20 y 75 años: 20, 35, 50, 60, 70 y
75 años. En cada grupo de edad, se escoge de manera aleatoria una persona a quien se medirá la presión arterial. La
muestra a observar corresponde a:
Supuestos:
Sea x = (x1, . . . , xp−1) un vector no aleatorio con valores en un conjunto D. El modelo lineal (poblacional) general dice que:
μ(x) es una función de (p-1) variables no aleatorias reales x1, . . . , xp−1 con dominio D
Supuestos:
Para un conjunto de valores x1, . . . , xp−1 en D, se dispone de un grupo de unidades muestrales. Desde cada uno de estos
grupos, se elige una unidad de manera aleatoria, y se medirá la variable Y. El modelo lineal (muestral) general dice que:
Tipos de Error
Errores de Medición: Suponga dos variables no aleatorias que representan medidas de dos cantidades del mundo real,
relacionadas de manera funcional por:
(Ejemplo: s corresponde a la distancia que cae una partícula en el vacío en un intervalo de tiempo de longitud t. Se
relacionan por s = 1/2gt2, donde g corresponde a la aceleración de gravedad).
Suponga que z no es observable, pero existe una variable aleatoria Y tal que Y = z +∊, con E(∊) = 0. Luego, se cumple que
Errores de Ecuación: ∊ representa que me faltan predictores (puede venir de lo que no pude medir (de mi función que no
es lineal).
Considere z: rendimiento de una plantación de trigo. Se sabe que este rendimiento depende de la cantidad de fertilizante
utilizado, temperatura ambiente, lluvia caída, luminosidad, calidad del suelo, y muchos otros factores. Si consideramos x1,
. . . , xk como la totalidad de los factores que afectan al rendimiento del trigo, podemos escribir:
Ejemplo 1: Considere la distancia s que se traslada una partícula desde un punto de referencia, en un tiempo t. Se postula
la relación determinística:
Sin embargo, no es posible medir la distancia s con exactitud y, en cambio, se mide Y = s + ∊, con E(∊) = 0.
El modelo es válido para 0 ≤ t ≤ 100 segundos. Para obtener una muestra, se toman tiempos fijos t1, . . . , tn y, para cada
uno de ellos, se mide la distancia que se traslada la partícula. El modelo muestral corresponde a:
con E(∊) = 0. El modelo es válido para 50 ≤ x ≤ 300 kilómetros. Se obtiene mediciones cada 50 kilómetros desde la fuente,
x1 = 50, x2 = 100, . . . , x6 = 300. ¿A qué tipo de error corresponde ∊ en este caso?
Si es un error en la ecuación, hay otras variables que no considero en la esfericidad, no sólo cuenta de distancia viajada
por la roca.
Ejemplo 3: La variable aleatoria Y corresponde al porcentaje de impurezas en cierto químico al producir x lotes de este, x
= 1, . . . , 10. El modelo corresponde a:
con E(∊) = 0. A modo de ejemplo, µ(4) = β0 + 4β1 corresponde al porcentaje de impurezas promedio de todos los días en
que se producen 4 lotes.
Ejemplo 4: Se desea estudiar la relación entre la temperatura, x1, y la presión x2 a las que se produce cierto material, y su
dureza, Y. Se postula el modelo lineal:
con E(∊(x1,x2)) = 0. El modelo es válido para 500 ≤ x1 ≤ 1500 (grados Celsius) y 1.000 ≤ x2 ≤ 2.000 (libras por pulgada
cuadrada).
Se obtiene mediciones cada 100 grados Celsius y cada 100 libras por pulgada cuadrada.
El modelo de regresión lineal múltiple corresponde a un caso particular del modelo lineal general, y puede escribirse como:
EPG3318 Modelos Lineales 07.08.2018
Paso 1) Simétrica: matriz es simétrica si lo que tengo sobre la diagonal es igual a lo que tengo sobre la diagonal.
Paso 2) Positiva: matriz es definida positiva, si el determinante (producto de la diagonal) debe ser positivo.
La única restricción es que debe tener tanto elementos como la variable aleatoria.
Resumiendo: La esperanza de los εi es cero, todos los errores tienen la misma varianza y son independientes.
Distribución Normal Multivariada
Definición: Se dice que el vector aleatorio Y ∈ ℝn tiene una distribución Normal Multivariada de parámetros µ y Σn×n
matriz definida positiva, si su función de densidad está dada por:
Recuerdo :
Entonces
con
Resultado: La matriz H es una matriz de proyección ortogonal sobre el espacio generado por las columnas de X y tiene
rango p.
Resultado:
La matriz (I − H) es una matriz de proyecci´on ortogonal sobre un espacio ortogonal al espacio generado por las columnas
de X y tiene rango (n − p)
Interpretación gráfica:
EPG3318 Modelos Lineales 14.08.2018
El modelo de Regresión Lineal Múltiple
Modelo: Sean Y1, . . . , Yn observaciones independientes de una variable respuesta Y, y los valores del predictor x1, . . . , xn
asociados a cada una de ellas. El modelo de regresión lineal múltiple corresponde a un caso particular del modelo lineal
general, y dice que:
Donde Y(nx1) corresponde al vector de respuestas, X(n×p) a la matriz de diseño que contiene los valores que toman los
predictores, β(p×1) al vector de los parámetros, y ∊(n×1) al vector de errores del modelo.
Forma Lineal: Sean Y un vector aleatorio de dimensiones n × 1, b un vector determinístico de dimensiones r × 1, y B una
matriz determinística de dimensiones r × n. El vector aleatorio:
Distribución de una forma lineal: Sea Y un vector aleatorio de dimensiones n × 1 y sea W = BY + b una forma lineal en él.
Si Y ∈ ℝn sigue una distribución Normal (µ, Σ), entonces:
Ejercicio 1: Encuentre la distribución de Y en el modelo de regresión lineal múltiple.
Ejemplo (Recuerdo)
EPG3318 Modelos Lineales 14.08.2018
Herramientas de Cálculo Diferencial: Dadas las características de la función S(β), podemos encontrar el valor de β que la
minimiza encontrando el valor anula su diferencial, y demostrando que su matriz Hessiana es definida positiva.
Estrategia:
Paso siguiente: Debo demostrar que esto es un mínimo (para eso debo derivar). Falta diferencia nuevamente obteniendo
la matriz H de segundas derivadas y demostrar que ella es definida positiva.
Paso siguiente: Debo demostrar que esto es un mínimo (para eso debo volver a derivar)
Falta diferenciar nuevamente obteniendo matriz H de segundas derivadas y demostrar que ella es definida positiva.
Ejercicio 3: Considere los datos en el archivo biomasa.txt que contiene la biomasa y algunas características del suelo,
�.
como sus contenidos de potasio y de calcio y su pH entre otras. Utilice R para verificar la expresión encontrada para 𝜷𝜷
n= 45 p-1 = 5 predictores
Importante:
¿Qué pasa si XtX no tiene inversa? Ahí nos quedamos sin 𝜷𝜷 � . El software se cae. ¿Cuándo esa inversa no existe? Cuando
una de las columnas se puede escribir como una combinación lineal de otra, hay una columna que sobra, porque todo
lo que está en ella lo podría haber calculado si conozco las otras. Cuando eso pasa uno se da cuenta que el rango de la
matriz es menor que p y ahí XtX NO es invertible.
Ejercicio 4: Construya en R una matriz de diseño tal que XtX sea no invertible.
Una compañía productora de cereales desea estudiar si existe asociación entre el diseño utilizado en los envases de sus
cereales y las ventas de estos. Para ello registra, en cada uno de 5 supermercados escogidos de manera aleatoria, las
ventas del mes de un mismo tipo cereal envasado cada uno de tres diseños de envase (A, B y C). Los datos pueden
denotarse como:
donde Yij corresponde a la venta mensual del i-ésimo diseño en el j-ésimo supermercado, i = 1, 2, 3, j = 1, . . . , 5.
con
Vector de residuos del modelo: Los residuos del modelo corresponden a:
Ejercicio 9: Verifique lo anterior de manera numérica en R utilizando los datos en el archivo biomasa.txt.
Verificar en R.
EPG3318 Modelos Lineales 14.08.2018
Matriz de Proyección Ortogonal
Las matrices H e (I − H) poseen importantes propiedades geométricas que permiten visualizar residuos y valores ajustados.
Matriz de Proyección Ortogonal: Sea b un vector en un espacio de dimensión n y sea la matriz P = A(AtA)−1A, con A de
dimensiones n × p y rango p. Entonces, Pb corresponde a la proyección ortogonal del vector b sobre el espacio vectorial
generado por las columnas de A. El rango de P es igual a p.
corresponde a la proyección ortogonal de Y sobre el espacio vectorial generado por las columnas de la matriz de diseño
X. El rango de H es igual a p.
EPG3318 Modelos Lineales 14.08.2018
Resultado 2: La matriz (I − H) es a una matriz de proyección tal que:
corresponde a la proyección ortogonal de Y sobre el espacio vectorial perpendicular al espacio generado por las columnas
de la matriz de diseño X. El rango de (I − H) es igual a (n − p).
Interpretación Gráfica:
Ejercicio 10: Verifique en R que los valores en la diagonal de la matriz H corresponden a la palanca de las observaciones,
hii
Ejercicio 11: Encuentre la distribución del vector de valores ajustados por el modelo.
Ejercicio 12: Encuentre la distribución del vector de residuos del modelo.
EPG3318 Modelos Lineales 21.08.2018
Modelos Lineales
Teorema: Sea Yn×1 un vector aleatorio con distribución Normal (µ, Σ). Las formas lineales L1 = B1Y + b1 y L2 = B2Y + b2 son
independientes ssi:
Ejercicio 1: Demuestre que los vectores de valores ajustados y de residuos son independientes. Relaciónelo con las
propiedades de las matrices H e (I − H).
Descomposición de la Varianza
EPG3318 Modelos Lineales 21.08.2018
Sumas Cuadradas: Sabemos que es posible descomponer la variabilidad total de la respuesta como:
Notemos que:
Formas Cuadráticas
Definición: Sea Yn×1 un vector aleatorio, y An×n una matriz simétrica con elementos reales. La variable aleatoria:
Distribución Chi-Cuadrado:
Definición: Sea Yn×1un vector aleatorio con distribución Normal (µ, I). Se dice que la variable aleatoria Q = Yt Y sigue una
distribución Chi-Cuadrado con n grados de libertad y parámetro de no centralidad λ. Se escribe:
Teorema: Sean Σn×n una matriz simétrica definida positiva, y A una matriz simétrica de rango m, tales que (AΣ)2 = AΣ. Si el
vector aleatorio Ynx1 sigue una distribución Normal (µ, Ʃ) entonces:
I=Identidad
Ejercicio 2: Muestre que
EPG3318 Modelos Lineales 21.08.2018
donde
Ho: βj = 0 H1: βj ≠ 0
para un valor fijo de j = 0, . . . , p − 1. Construiremos un pivote para βj. El punto de partida será que:
Teorema: Sea Ynx1un vector aleatorio con distribución Normal (µ, Σ), con Σ matriz simétrica definida positiva. Sean las
matrices reales Aq×n y Bn×n, con esta última, simétrica. (Teorema usado para que denominador y numerador fueran
independientes). Entonces:
Ssi
EPG3318 Modelos Lineales 21.08.2018
�𝑠𝑠�𝛽𝛽̂𝑗𝑗 � corresponde al error estándar de 𝛽𝛽̂𝑗𝑗 donde σ2 ha sido estimado por 𝜎𝜎� 2 .
corresponde a un pivote para βj, donde 𝑒𝑒.
En base a dicho pivote, encuentre una región de rechazo de significancia α para las hipótesis de interés.
EPG3318 Modelos Lineales 21.08.2018
Ejercicio 5: Considere los datos en el archivo biomasa.txt. En R, verifique el valor de t0 y su valor-p, para las hipótesis
Ho: βj = 0 H1: βj ≠ 0
El test-T: no toma en cuenta la presencia de otros predictores. Me obliga a hacer varios en forma paralela.
EPG3318 Modelos Lineales 28.08.2018
Test F de la Tabla ANOVA
Mostraremos que, bajo la hipótesis nula, este estadístico sigue una distribución Fisher central.
Distribución de F (Fisher):
Sea la variable aleatoria X con distribución 𝒳𝒳𝑛𝑛2 (𝜆𝜆) independiente de la variable aleatoria Y con distribución 𝒳𝒳𝑚𝑚
2
(0). Se dice
que la variable aleatoria:
𝑋𝑋
𝐹𝐹 = 𝑛𝑛
𝑌𝑌
𝑚𝑚
sigue una distribución F (Fisher) con n y m grados de libertad, y parámetro de no centralidad λ.
Argumentaremos que:
2
1) SCReg/σ2 sigue una distribución 𝒳𝒳𝑝𝑝−1 (𝜆𝜆) y que bajo Ho, λ = 0.
2
2) SCE/σ2 sigue una distribución 𝒳𝒳𝑛𝑛−𝑝𝑝 central.
Luego, bajo H0, el estadístico F0 sigue una distribución Fisher central, con (p − 1) y (n − p) grados de libertad.
Distribución de SCReg bajo H0: Se puede mostrar que, para cierta matriz A simétrica:
Sea Ynx1 vector aleatorio con distribución Normal (µ, Σ), y sean Aq×n y Bn×n matrices reales simétricas. Las variables
aleatorias:
Ejercicio 7: Derive la distribución del estadístico F0 de la tabla ANOVA bajo la hipótesis nula.
Ejercicio 8: Utilice lo anterior para verificar el test F en los datos del archivo biomasa.txt.
EPG3318 Modelos Lineales 28.08.2018
Modelo ANOVA
Considere el siguiente problema: Un aditivo es agregado en la alimentación habitual de ciertas aves, con el propósito de
promover su crecimiento. Interesa evaluar el efecto de este aditivo y, en particular, interesa la comparación de los
siguientes tratamientos:
Cada tratamiento es observado en grupos de 8 aves en cada uno de ellos. Después de un periodo de tiempo, se registra
su aumento de peso.
ANOVA de un factor (modelo simple): caso particular de modelo de regresión lineal múltiple de un factor. Significa
que el predictor es variable cualitativa (o categórica).
Ejercicio 1: Asumiendo que, en el archivo de datos, las observaciones se encuentran ordenadas de modo que las
observaciones 1 a 8 corresponden a aves que no recibieron aditivo, las siguientes 8 a aves que recibieron bajas dosis y las
observaciones 17 a 24 a aves que recibieron dosis altas.
1. Construya la matriz de diseño X para estas observaciones, utilizando el tratamiento sin aditivos como tratamiento
de control (o grupo de comparación).
2. Encuentre en R los parámetros estimados. Interprete los valores obtenidos.
3. Obtenga el estadístico del test F. Concluya sobre la validez del modelo.
¿Se puede invertir? No, porque una columna es combinación lineal de otra.
La matriz X propuesta no es de rango completo, es decir, estamos tratando de estimar más parámetros de lo que permiten
los datos. Se debe imponer restricción:
EPG3318 Modelos Lineales 28.08.2018
Un boxplot con ocho datos es muy engañoso: tengo que dejar fijos cinco, pero si le puedo creer a la mediana (OJO con
uso de boxplot si tengo pocas observaciones)
Esta parametrización se usa cuando no se puede identificar claramente un grupo control, ya que aquí se compara entre
todos.
EPG3318 Modelos Lineales 28.08.2018
Ejercicio 3: El archivo munich.txt contiene información sobre los precios de arriendo de 200 hogares en la ciudad de
Munich. El archivo contiene el valor del arriendo, el área total del inmueble, si posee o no calefacción central y la ubicación
dentro de la ciudad.
¿Qué representa β2? β2 es cuanto aumenta por estar en ubicación 2 versus punto de referencia (ubicación 1) dejando
todo lo demás constante.
β2 es el aumento (o disminución) del valor del arriendo al cambiarse desde ubicación 1 a la ubicación 2, manteniendo el
área y la condición de calefacción constante.
En el modelo sobre el valor de los arriendos en Munich, una manera de evaluar la inclusión de la ubicación de la vivienda
corresponde a testear, de manera conjunta, las hipótesis β2 = 0 y β3 = 0. Estas hipótesis pueden escribirse de manera
conjunta en la forma:
Ventaja sobre el test-t: puedo testear dos hipótesis juntas y asegurar que la significancia es 0.5 con el test-t no puedo
estar segura. Se forma combinaciones lineales de los coeficientes betas (no tienen necesariamente que ser la misma
variable como en este ejemplo, en que eran ubicaciones).
EPG3318 Modelos Lineales 28.08.2018
muestre que:
Si el punto de corte es 0.05: la ubicación 3 no aportaría {agregar 1 no aporta, porque penalizo por ese parámetro}.
Por lo tanto, no podemos rechazar Ho (debiésemos eliminar la variable ubicación del modelo)- ANOVA-Test F secuencial
dejando ubicación al final, debería darme los mismos valores.
Ejercicio 7: Muestre que bajo la hipótesis , el parámetro de no centralidad se anula y, de acuerdo a esto,
encuentre la región de rechazo del test.
EPG3318 Modelos Lineales 28.08.2018
Ejercicio 8: En los datos sobre valores de arriendos en Munich, utilice el resultado anterior para docimar si la ubicación de
la vivienda debe ser incluida en el modelo.
EPG3318 Modelos Lineales 04.09.2018
Estimación del modelo por Máxima Verosimilitud
Un criterio muy utilizado para estimar los parámetros del modelo corresponde al método de Máxima
Verosimilitud, que consiste en encontrar los valores de los parámetros que maximizan la probabilidad de haber observado
los datos de interés.
Cuando los datos siguen una distribución continua, el método de Máxima Verosimilitud busca los valores de los
parámetros que maximizan la función de densidad conjunta de las observaciones.
Pero después le colocamos normalidad para testear probabilidad. Todos los test de hipótesis necesitan normalidad.
Este problema fue resuelto al encontrar el estimador de mínimos cuadrados ordinarios.
El archivo munich.txt contiene información sobre los precios de arriendo de 200 hogares en la ciudad de
Munich. El archivo contiene el valor del arriendo, el área total del inmueble, si posee o no calefacción central y la ubicación
dentro de la ciudad.
Se desea construir un intervalo de confianza para el valor medio del arriendo de una vivienda en Munich, que no
posee calefacción, ubicada en el sector 2, y que tiene un área de 80m2.
Para construir un intervalo de confianza basado en este estimador necesitamos construir un pivote que lo contenga.
Pivote: algo que depende del parámetro que me interesa estimar, de la muestra y no debe depender de nada desconocido.
Ejercicio 1:
4. Utilice dicho pivote para construir un intervalo de confianza para 𝒙𝒙𝑡𝑡0 𝛽𝛽̂
Ejercicio 2: Obtenga un intervalo de 95% de confianza para el valor del arriendo de una vivienda en Munich con las
características de interés.
Problema: Un estudiante de posgrado en Munich quisiera arrendar una vivienda sin calefacción, ubicada en el sector 2, y
de 80 m2. El encontró una vivienda con dichas características en el diario, pero no se ha publicado el valor del arriendo. El
estudiante desearía tener una predicción para dicho valor antes de visitarla. ¿En qué se diferencia este problema del
problema planteado inicialmente?
El estudiante busca predecir una variable aleatoria, una sola vivienda. Intervalo de predicción para una nueva observación.
Suponga que en el futuro se observará una realización de una variable aleatoria con distribución Normal de media
µ y varianza σ2, con ambos parámetros conocidos. ¿Entre qué valores usted predeciría que estará dicha observación, si
desea estar un “95% seguro” de su predicción?
Tengo una variable que aún no he observado, pero a la cual le conozco la distribución. Ejemplo: Predecir altura de
alumno que entra a la sala. Sé que es distribución normal. Si una conoce la distribución busca intervalo que tenga área de
95%. Elegí el centro, porque aquí puedo tener un intervalo más angosto.
Si me corro más al lado, me tocaría tomar un intervalo de confianza más ancho, porque la altura de esa área es
menor.
Ejercicio 3: ¿Qué distribución tiene el valor del arriendo de la vivienda que visitará el estudiante? ¿Es completamente
conocida?
Ejercicio 4: Se propone utilizar la variable aleatoria:
1. Encuentre la distribución de W.
2. Demuestre que W es independiente de SCE y construya con ellos un estadístico que siga una distribución tn−p.
3. Construya un intervalo de predicción para W y, en base a él, derive el intervalo de predicción deseado para Y0.
Este intervalo es más ancho que , porque tengo un solo valor. Siempre mi intervalo de una media es menos volátil
que trabajar con una sola observación.
Ejercicio 5: Obtenga un intervalo de predicción para el valor de la vivienda que visitará el estudiante.
Recordemos el problema: Se desear modelar el gasto en gasolina en 48 localidades, en términos del porcentaje de sus
habitantes que poseen licencia de conducir, el impuesto a la gasolina, el ingreso medio de los habitantes y los kilómetros
de carretera construidos.
Recordemos que ajustar un modelo con varios predictores no es equivalente a ajustar modelos de regresión
simple por separado y luego combinar sus coeficientes estimados.
Objetivo es ajustar con dos predictores. Interesa el modelo gasolina ∼ licencias+ impuestos
2. Para evaluar el ingreso de la variable impuestos, obtenga los residuos de las regresiones gasolina ∼
licencias e impuestos ∼ licencias. Grafique los primeros residuos versus los segundos.
Suponga que lo hago con software que sólo hace modelos univariados.
3. Ajuste el modelo de regresión entre los residuos anteriores y registre el valor de la pendiente estimada.
4. Ajuste el modelo de regresión múltiple con dos predictores, licencias e impuestos, y compare el valor del
coeficiente estimado de impuestos con el obtenido en el apartado anterior.
Descomponer la Suma cuadrática de la Regresión (SCReg) para limpiar del efecto de la constante.
Partiremos desde la igualdad:
Descomposición de la matriz H:
Para separar el efecto de la constante, se muestra que es posible descomponer la matriz H en la forma:
donde ambas matrices corresponden a matrices de proyección ortogonal, y la primera de ellas, H0, se construye en base
a la columna de 1’s de la matriz de diseño:
Las matrices de proyección proyectan sobre un vector (columna). Primero voy a proyectar sobre la constante
(Primera componente de la matriz de diseño). H* va a proyectar sobre los residuos (me dice cuál es el aporte de mi
modelo).
EPG3318 Modelos Lineales 04.09.2018
Volviendo atrás a
¿Qué hay en H* si saqué la constante? Saco columna 1 y las otras de los demás predictores los centro, porque la constante
ya está en el modelo.
Recapitulando (25/09/2018)
EPG3318 Modelos Lineales 25.09.2018
Ejercicio 7: Encuentre la forma de la matriz H0, reemplácela en la expresión anterior para YtY y ordene los términos de
modo de visibilizar SCT y SCE. ¿A qué corresponde entonces SCReg?
¿Qué es proyectar sobre la constante? HoY: proyección de Y sobre el espacio generado por la constante. Lo que digo es
que le voy a restar su media (tomo la primera columna y le resto la media)
Forma de H∗: La matriz de proyección H∗, de dimensiones (p − 1) × (p − 1), se genera en base a los (p − 1) predictores,
descontado el aporte de la constante, es decir, tomando los residuos:
resid(xj ∼ 1) = xj − 𝑥𝑥�𝚥𝚥
j = 1, . . . , p − 1. Es decir, la matriz H∗ se genera en base a una matriz X∗ que contiene a los predictores previamente
centrados.
Centrado → C1<-licencias-mean(licencias)
Coloco todo como columna en la matriz H* y con eso hago la suma cuadrática del error.
Tabla ANOVA: la suma cuadrática del error (sumo suma cuadrada de cada predictor) =287448+40084+69532+2252
Vamos ahora a ver de dónde sale cada uno de los aportes, al descomponer H*
Se puede demostrar que la matriz H∗ puede, a su vez, descomponerse en términos de (p − 1) matrices de proyección como:
H∗ = H1 + . . . + Hp−1
donde Hj se construye en base a un vector columna que contiene los residuos de la regresión:
xj ∼ x1 + . . . + xj−1
De este modo, el aporte del j-ésimo predictor, cuando los primeros (j − 1) predictores ya se encuentran en el modelo,
corresponde a:
SCRegj = YtHjY
Descomposición de la matriz H*: La matriz H* se relaciona con el aporte de todos los predictores descontando el efecto
de la constante. Dado un orden arbitrario de los predictores, el aporte de xj es medido, necesariamente, como el aporte
adicional a lo que aportaron 1+x1+…+xj-1 y esto se hace a través de la matriz Hj construido en base a
resid(xj~ 1+x1+…+xj-1)
NO es posible descomponer SCReg en los aportes absoutos de cada uno de los predictores.
EPG3318 Modelos Lineales 25.09.2018
Ejercicio 9: Verifique el resultado anterior con los datos del consumo de gasolina.
j Variable SCRegj
1 Lic 287.448 *
2 Imp 40.084
3 Ingreso 69532
4 carreteras 2252
SCReg2 = YtH2Y
Si cambio orden SCT suma lo mismo, pero se reparten distinto los valores en SCRegi
RECUERDE: ¡La Suma Cuadrada asociada a un predictor dado depende de su orden de ingreso en el modelo!
EPG3318 Modelos Lineales 25.09.2018
Ejercicio 1: En el problema sobre arriendos de viviendas en Munich, encuentre el coeficiente de correlación lineal parcial
entre el monto del arriendo y el área de la vivienda, descontando el efecto de los predictores restantes.
Era cor(arriendo,área)
Cuando hay independencia entre los predictores “área y calefacción” (no muy relacionado) y “área y ubicación” (no muy
relacionado)
EPG3318 Modelos Lineales 25.09.2018
Ejercicio 2: Realice una simulación para estudiar el comportamiento del coeficiente de correlación lineal parcial cuando
los predictores son colineales.
set.seed(3)
h<-80
lambda<-1
x1<-rexp(n,lambda)
x2<-5*x1+3
plot(x1,x2) (muy correlacionado)
Invento modelo
Y<-beta0+beta1*x1+beta2*x2+rnorm(0,)
beta0<-1
beta1<-2
beta2<-3
#Efecto de x2
plot(x2,Y)
cor(Y,x2) =0.89
# si x1
r1<-resid(lm(Y~x1))
r2<-resid(lm(x2~x1))
plot(r2,r1)
round(r2,10) : r1 se explica perfecto en r2 (totalmente colineales)
En el ejercicio 1
¿Esto implica que debe tener baja asociación entre área y los dos predictores restantes?
EPG3318 Modelos Lineales 02.10.2018
Tests F secuenciales:
Considere un problema de regresión con (p − 1) predictores, x1, . . . , xp−1 y suponga que los predictores x1, . . . , xj−1 ya han
sido incluidos en el modelo. Para decidir la inclusión del predictor xj, se propone utilizar el coeficiente de correlación lineal
parcial entre la respuesta, Y, y xj, descontando el efecto de los predictores ya incluidos. Se plantean las hipótesis:
El predictor xj será incluido en el modelo solo si se encuentra evidencia significativa de que H1 es cierta.
Tests F parciales
Considere un problema de regresión con (p − 1) predictores, x1, . . . , xp−1 y suponga que todos los predictores ya han sido
incluidos en el modelo. Para decidir la eliminación del predictor xj, se propone utilizar el coeficiente de correlación lineal
parcial entre la respuesta, Y, y xj, descontando el efecto de todos los predictores restantes. Se plantean las hipótesis:
El predictor xj será eliminado del modelo si no se encuentra evidencia significativa de que H1 es cierta.
Utilizando matrices de proyección, se puede demostrar que, bajo la hipótesis nula, el estadístico:
sigue una distribución Fisher con 1 y (n − p) grados de libertad, donde p corresponde al número de coeficientes del modelo
completo.
Con significancia α, no podemos rechazar H0, y eliminamos el predictor xj del modelo, si o si:
La primera variable tiene mayor correlación con variable respuesta, pero con variables categóricas no se puede
calcular correlación. Encontrar el valor p más chico para todos los predictores.
Se ajustan las (p − 1) regresiones lineales simples, e ingresa al modelo el predictor con el menor valor-p asociado
al test F, si éste es menor a un valor α, preespecificado. En caso de no existir, finaliza el procedimiento y se reporta el
modelo nulo.
Se ajustan las (p − 2) regresiones lineales con dos predictores: el predictor ya ingresado y cada uno de los
predictores restantes y se obtiene el valor-p de cada test F secuencial. Ingresa al modelo el predictor con el menor valor-
p, si éste es menor a un valor α, preespecificado. En caso de no existir, finaliza el procedimiento y se reporta el modelo
con un predictor.
Segundo Paso
SCReg = Yt Hj Y
Ubicación tiene dos columnas de 0 y unos. La primera si estoy en la ubicación 2 y la segunda si estoy en la ubicación 3.
resid(ubic2~1+área)
Xf* → Hj ambos son columnas
resid(ubic3+1+área+ubic2)
con estas columnas se construye la matriz H que se puede construir con cualquier cosa.
𝑆𝑆𝑆𝑆𝑆𝑆 𝑜𝑜𝑜𝑜 𝑠𝑠𝑠𝑠. 171877
= = 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆
𝑑𝑑𝑑𝑑 2
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 171.877
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = = =
2 2
𝑆𝑆𝑆𝑆𝑆𝑆 4.6 ∗ 106
𝑀𝑀𝑀𝑀𝑀𝑀 = =
𝑛𝑛 − 𝑝𝑝 200 − 4
Modelo: cte,área, 2 parámetros x ubicación = total 4 parámetros
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝐹𝐹 = = 3.65 valor-p = 1-pf(3.65,2.196)
𝑀𝑀𝑀𝑀𝑀𝑀
Entraría calefacción en el segundo paso.
Ahora al revés me fijo lo que no es significativo. Tengo ubicación los otros dos quedan signigicativos en el modelo.
Se ajusta el modelo completo obteniéndose los (p − 1) valores-p asociados a los tests F parciales de los (p − 1)
predictores. Se elimina del modelo el predictor con el mayor valor-p, si éste mayor a un valor α, preespecificado. En caso
de no existir, finaliza el procedimiento y se reporta el modelo completo.
Se ajustan el modelo con (p − 2) predictores, obteniéndose los (p − 2) valores-p asociados a sus tests F parciales.
Se elimina del modelo el predictor con el mayor valor-p asociado su test F, si éste mayor a un valor α, preespecificado. En
caso de no existir, finaliza el procedimiento y se reporta el modelo con (p − 2) predictores.
Forward: se revisa que cuando agrego una beta1 que ya no sea significativo F parciales (drop1).
En cada paso, todos los predictores introducidos en el modelo se re-evalúan a través de sus tests F parciales. Un
predictor añadido en un paso anterior puede ahora ser redundante debido a relaciones entre éste y el nuevo predictor
añadido.
R2
CpMallows
AIC
EPG3318 Modelos Lineales 02.10.2018
Criterios de Comparación de Modelos
Suponga que se dispone de un grupo de potenciales predictores y se quiere encontrar un modelo adecuado para
explicar la variable respuesta. Algunos estadísticos para evaluar la calidad de un modelo corresponden a:
1. R2 Ajustado
2. Cp de Mallows.
3. Estadístico Press de Validación Cruzada
4. Criterio de Información de Akaike (AIC)
5. Criterio de Información Bayesiano (BIC)
R2-ajustado
Recordemos que:
representa el porcentaje de variación de la respuesta que es explicada por la regresión y que, en principio, buscamos
modelos con valores altos, cercanos a 1. Números entre 0 y 1 que porcentaje de la variabilidad total el modelo es capaz
de explicar?
El problema de este estadístico es que él crece al aumentar el número de coeficientes en el modelo, no importando la
calidad de los mismos.
Penalización: Modelos son penalizados por el número de coeficientes que utilizan, p. Se define el estadístico R2-ajustado
como:
cor(area,arriendo)
¿Cómose tabula?
O en casos extremos siempre mayor que cero por construcción matemática de R2 siempre crece. Pagar el precio de tener
otro parámetro
Summary:
Cp de Mallows
Dados los predictores disponibles, se compara con el modelo más chico. Dado los predictores disponibles, el
modelo más grande que podemos construir tiene m coeficientes. Queremos evaluar modelo con p coeficiente completo.
p =m
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆
𝐶𝐶𝐶𝐶 = + 2𝑚𝑚 − 𝑛𝑛
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝑛𝑛 − 𝑚𝑚
=n-m+2m-n =m Definición del algoritmo
Hay un modelo “verdadero” (supuesto) E(Cp) = P (número de coeficientes del modelo ( por construcción no se prefiere)
En general buscamos modelos cuyo CP aprox p (notando eso sí que CP de Mallows de modelo completo SIEMPRE es
igual a su número de parámetros).
Suponga que se tiene un modelo con p coeficientes, anidado en un modelo con un total de m coeficientes, que
utiliza la totalidad de los predictores disponibles. Se define el coeficiente Cp de Mallows como:
donde:
• SCEp corresponde a la suma cuadrada del error del modelo que está siendo evaluado
EPG3318 Modelos Lineales 02.10.2018
�2
• 𝜎𝜎𝑚𝑚 corresponde a la media cuadrática del error del modelo completo, con m coeficientes
• el término 2p es una penalización por el número de coeficientes del modelo
• el término n se utiliza por conveniencia
Resultado importante:
Luego, se busca modelos tales que su coeficiente Cp de Mallows sea, a lo más, su número de coeficientes, p.
En R: Función Leaps: evalúa todos los modelos. Prueba muchos predictores ordenadospor Cp, por R2
N =200
Cp =
El estadístico Press se utiliza cuando se desea encontrar un modelo con buenas cualidades predictivas y, por ello,
se basa en los errores de predicción.
El i-ésimo error de predicción, e(i), corresponde a la diferencia entre la i-ésima observación y su valor predicho
cuando se ajusta el modelo sin ella. Es decir,
donde ei corresponde al i-ésimo residuo del modelo, y hii a la palanca de la i-ésima observación.
Si el modelo es correcto la verosimiltud debiese ser grande. Se evalúa teta en el estimador máximo Verosimil.
donde 𝜃𝜃� corresponde al estimador de máxima verosimilitud de θ y k al número de parámetros del modelo.
Valores pequeños de este estadístico representan modelos con alta verosimilitud y pocos parámetros y, por tanto,
son deseables.
Ejercicio 1: Muestre que, para un modelo de regresión lineal múltiple con p coeficientes, el estadístico AIC corresponde
a:
Matriz de diseño: columnas p = ncol(x) = p
Valores pequeños de este estadístico representan modelos con alta verosimilitud y pocos parámetros y, por tanto, son
deseables.
M1, M2, . . . , Mk, con parámetros θ1, . . . , θk, respectivamente. A modo de ejemplo:
En este caso,
Se desea elegir el modelo que tenga la mayor probabilidad de ser cierto a la luz de los datos, es decir, el modelo que
maximiza:
Si, antes de ver los datos, se estima que todos los modelos tienen la misma probabilidad, entonces se puede demostrar
que:
Luego, elegir el modelo con el menor estadístico BIC es equivalente a elegir el modelo con la mayor probabilidad de ser
cierto a la luz de los datos.
EPG3318 Modelos Lineales 09.10.2018
Diagnósticos de un Modelo Ajustado
Si se ven los puntos, en los cuatro se ve la misma recta y la misma media cuadrática del error y R2.
• gráfico b) curvatura, pero pasos no pasan por la recta. La media no sería lineal en el predictor.
• gráfico c) punto de palanca que está lejos del centro de los datos.
• gráfico d) Hay un punto que tiene una gran palanca en la derecha. La recta depende mucho de un sólo punto.
Este es un problema de la recolección de datos.
• gráfico a) el mejor.
Revisión de supuestos:
Se debe revisar: (Todos los supuestos los puedo revisar en los errores)
Distribución de los errores: Los supuestos del modelo se relacionan directamente con los supuestos sobre los errores. El
modelo afirma que:
Encuentre la distribución de los residuos, asumiendo que se cumplen los supuestos del modelo. Compárela con la
distribución de los errores.
EPG3318 Modelos Lineales 09.10.2018
Tener bien clara la diferencia entre errores y residuos. Tengo que hacerle ciertas adaptaciones a los residuos. Ahora vamos
a ver los residuos studentizados.
donde 𝜎𝜎�(𝑖𝑖) corresponde al estimador de σ al ajustar el modelo sin la i-ésima observación. Si los supuestos sobre los errores
son válidos, se cumple que:
Sigma cuadrado remuevo la observación que puede ser outlier. Con estas herramientas vamos a chequear los supuestos.
Validación del modelo a través de los residuos
Se busca que no existan patrones o formas. En caso de existir, se debe explorar transformaciones de las
variables (más sobre esto en Sesión 9).
Buscamos un patrón en los gráficos. Si están bien identificadas o no. Graficamos residuos versus predictores
(varios gráficos) o gráfico errores con valores ajustados.
Se busca que las amplitudes verticales en las figuras sean similares en la medida en que se recorre el eje de las
abscisas. En caso de no ser así, se debe considerar ajustar el modelo utilizando Mínimos Cuadrados Ponderados (más
sobre esto en Sesión 10).
ri o ti tienen que tener la misma varianza. Busco la amplitud vertical similar. Más que corregirlo, lo tomo en cuenta
cuando tomo los beta gorro. No necesariamente hay que transformar la variables.
Ejercicio 2: Los siguientes gráficos representan el comportamiento de residuos estandarizados. Utilícelos para evaluar los
supuestos del modelo.
EPG3318 Modelos Lineales 09.10.2018
Busco si la media está bien especificada. Que no haya una forma o figura.
• gráfico a) no se ven patrones. Está bien identificada la media, Varianza, las amplitudes arriba y abajo son similares.
• Gráfico b) la varianza crece con el predictor.
• Gráfico c) La varianza decrece con el predictor
• Gráfico d) La varianza crece y decrece.
• En ningún gráfico hay problemas de media.
• gráfico e) una curvatura muy clara. Los predictores no son lineales. La media está mal especificada. No hay
problema de variabilidad.
• gráfico f) varianza ok, pero media mal especificada, porque veo patrón.
• Gráfico g) varianza no está bien distribuida. Todos los positivos y los negativos después es por un problema de
media
• gráfico h) problema de media igual que en g. Varianza se va ampliando.
Si ordenamos los residuos estandarizados de menor a mayor, r(1), . . . , r(n), buscamos los cuantiles de la distribución
Normal equivalentes a ellos:
Podemos comparar cada r(i) con el valor z(i) asociado. El gráfico de éstos se denomina qqplot.
Se busca que los puntos en el gráfico desplieguen una figura cercana a una recta. Pequeñas desviaciones en las colas son
aceptables.
También pueden realizarse prueba de Normalidad como las de Kolmogorov-Smirnov, Shapiro-Wilk o Anderson-Darling.
Vemos el qqplot.
i) pongo todas las observaciones co una misma distribucion (estandarizo los residuos)
El test de Durbin-Watson está diseñado para detectar correlación temporal en los errores, en la forma:
En este caso,
Aquí es difícil saber. Porque los test de independencia son para casos muy particulares. Durbin Watson, sólo chequea
si a matriz de varianza es la que se muestra en la diapo.
Durbin Watson: mide si el error de hoy depende del de ayer. Esto es de arrastre a través del tiempo y la correlación
va decreciendo.
Si Ho: rho =0. Sólo se usa el test de Darwin Watson para series de tiempo. Sino no me sirve.
Si el modelo es cierto, los residuos estandarizados siguen una distribución aproximadamente Normal, y los
residuos studentizados una distribución aproximadamente t-student.
Un outlier debe ser reportado. Sin embargo, no siempre corresponde a una observación problemática. Esto ocurre
cuando, además, la observación es influyente.
EPG3318 Modelos Lineales 09.10.2018
Chequeo los outliers. Ver si todos los residuos estandarizados son consistentes con una normal, 0, 1 o tienen colas.
47 min.....
Medidas de influencia
Observaciones extremas: Corresponden a observaciones en que el predictor está muy alejado de los valores de los
predictores del grueso de las observaciones, como la observación a la derecha en cada una de las figuras:
modelo<-lm(numero~area+elevación)
e<- resid(modelo)
R<-ls.diag(modelo$st.res ## residuos estandarizados
t<-ls.diag(modelo)$stud.res ###residuos studentizados
plot(area,e)
abline(h=0)
plot(elevación, e)
abline(h=0)
plot(fitted(modelo),e)
de la derecha es influyente (tira la recta hacia abajo). Palanca y efecto residuos grandes es peligroso.
Puntos de influencia:
Donde
Luego, los coeficientes hii, denominados palanca, representan el peso que tiene cada observación para
determinar su valor ajustado.
Se demuestra que luego, si todos los puntos tienen igual influencia en el ajuste del modelo,
entonces
Es decir, la palanca de una observación crece en la medida en que los valores de sus predictores se alejan del
vector de promedios.
En qué casos a palanca es grande. El tener o no palanca depende sólo de los valores del predictor.
Distancias de Cook:
Diseñadas para medir el cambio en los valores estimados de las observaciones cuando una observación particular es
omitida de la muestra. Se define como:
Miden la influencia de cada observación sobre sus valores ajustados. Se define como:
Cuando no está el valor, como cambia el valor ajustado de sí misma (cuando ella está o no está).
Ver porque puntos 4 y 114 son tan distintos. Investigar un poco por qué. Caso a caso, y ahí se eliminó tengo que
hacer un análisis previo a eliminar el dato. Lo saco si su comportamiento no se ajusta a lo que es general. Si es un outlier
es poco probable que sea problema de un modelo más especificado. Si hay muchos, ahí si es posible que sea porque, por
ejemplo, no consideré todas las variables.
DFBETASj(i): Mide el efecto de cada observación sobre el estimador del j-ésimo coeficiente.
COVRATIO: Mide el efecto de cada observación sobre la matriz de varianzas-covarianzas de los parámetros estimados.
EPG3318 Modelos Lineales 16.10.2018
Transformación de Variables
Situación 1: En Chile, la industria del salmón ha alcanzado altos niveles de producción y exportación, abasteciendo a más
de 70 mercados en el mundo. Un aspecto importante corresponde a la predicción del peso de salmón extraído. La figura
muestra el peso de los salmones versus su longitud, en una muestra de 56 de ellos.
Situación 2: En un estudio morfológico de las especies, se intenta explicar el peso del cerebro (en gramos) de 62
mamíferos en términos del peso de su cuerpo (en kilos).
Exploración de transformaciones:
Se requiere de estrategias sistemáticas para determinar transformaciones adecuadas.
EPG3318 Modelos Lineales 16.10.2018
Estrategias de búsqueda
Transformación de Box-Cox
El método de Box-Cox para buscar transformaciones adecuadas, explora la familia de potencias y logaritmo, de las
formas:
El método de Box-Cox:
Encuentra la función de verosimilitud de los datos, Y, multiplicando la función de verosimilitud de U por el determinante
del Jacobiano de la transformación.
Trabaja esta función de verosimilitud de forma que ésta queda expresada en términos de la Suma Cuadrada del Error de
una regresión de la forma:
Z~X
𝑼𝑼
Donde 𝒁𝒁 = con G media geométrica de los datos:
𝐺𝐺 𝜆𝜆−1
Luego:
1. Recorre valores de λ, ajustando la regresión de Z y obteniendo su Suma Cuadrada del Error. Se muestra que
maximizar la función de verosimilitud es equivalente a minimizar esta Suma Cuadrada.
2. Encuentra numéricamente el valor de λ que la minimiza.
Ejercicio 1: Se piensa que, para ciertas iglesias correspondientes a una misma escuela arquitectónica, existe una estrecha
relación entre su perímetro y su área. Para estudiar esta conjetura se cuenta con observaciones referentes a 25 iglesias.
Ajuste un modelo de regresión lineal a los datos y visualice el comportamiento de los residuos. Utilice el método de Box-
Cox para determinar una transformación de la variable respuesta que mejore este comportamiento.
Un intervalo de confianza (1 - α)100% está dado por todos los valores de λ tales que:
donde 𝜆𝜆̂ corresponde al valor que minimiza SCE(Z(λ)) o, equivalentemente, maximiza la función lmax. Note que el valor
𝜆𝜆̂ = 1corresponde a no realizar transformación a los datos.
Ejercicio 2: Encuentre un intervalo de confianza para _ en el modelo para las áreas de las iglesias.
Ejercicio 3: Transforme los datos según sugerido por el método de Box-Cox y evalúe nuevamente la pertinencia del
supuesto de linealidad de la (nueva) media.
Transformación de Atkinson
Características de la propuesta:
Si escribimos:
entonces:
Ejercicio 4: Utilice el método de Atkinson para buscar una posible trasformación al peso de los salmones, para ser
explicado en términos de su longitud, en el problema planteado al comienzo de la clase.
Ejercicio 5: Utilice el método de Atkinson para buscar una posible trasformación al área de las iglesias, para ser explicada
en términos de su perímetro.
En el primero, la respuesta alcanza un máximo en el rango de los predictores. En este caso, usamos potencias enteras: 𝑥𝑥12 , 𝑥𝑥13 ,etc. Es decir, hacemos
transformaciones a regresiones polinomiales.
Alternativamente, la respuesta puede ser monótona, en dicho caso, otras potencias en el rango (-2; 2) pueden ser utilizadas.
es decir, exploramos transformaciones análogas a las transformaciones de la variable respuesta propuestos por Box-Cox
y Atkinson.
Consideremos ahora el modelo que incluye una relación no lineal entre Y y x1:
Para linealizar este modelo, utilizaremos la expansión de Taylor de primer orden para v(α) en torno a α = 1:
El modelo queda:
con:
El procedimiento propuesto consiste en estimar β1 por Mínimos Cuadrados en la regresión que sólo incluye el término lineal en x1, 𝛽𝛽1
� , y luego
ajustar el modelo en la ecuación (3) para obtener 𝜂𝜂̂ . De este modo, estimamos α por:
Esto permite obtener un intervalo de confianza para α y realizar un test de hipótesis para determinar la necesidad de transformación.
Ejercicio 6: Con el objeto de explicar el contenido de mercurio detectado en róbalos de lago en términos de las características del agua, entre agosto
de 1990 y marzo de 1991 fueron tomadas muestras de agua de la superficie de 53 lagos, midiéndose, entre otras variables, la alcalinidad del agua,
expresada por el contenido de carbonato de calcio (mg/lt), y el contenido de mercurio en el tejido muscular en una muestra de peces en cada lago
(en partes por millón). Los datos corresponden a los promedios observados en cada lago. Explore una posible transformación del predictor para
mejorar la calidad del modelo.
M ODELOS L INEALES
Sesión 9
Modelos Lineales 1 / 24
Transformación de variables
Situación 1:
En Chile, la industria del salmón ha alcanzado altos niveles de producción y
exportación, abasteciendo a más de 70 mercados en el mundo. Un aspecto
importante corresponde a la predicción del peso de salmón extraı́do. La figura muestra
el peso de los salmones versus su longitud, en una muestra de 56 de ellos.
Modelos Lineales 2 / 24
¿Está bien especificada la media de las observaciones?
Se ajusó el modelo de regresión lineal:
peso ∼ longitud.
Modelos Lineales 3 / 24
Situación 2:
En un estudio morfológico de las especies, se intenta explicar el peso del cerebro (en
gramos) de 62 mamı́feros en términos del peso de su cuerpo (en kilos).
Modelos Lineales 4 / 24
Exploración de transformaciones:
1 1
∼
peso cerebro peso cuerpo
Modelos Lineales 5 / 24
(peso cerebro)1/3 ∼ (peso cuerpo)1/3
Modelos Lineales 6 / 24
log(peso cerebro) ∼ log(peso cuerpo)
Modelos Lineales 7 / 24
Estrategias de búsqueda
Modelos Lineales 8 / 24
Transformación de Box-Cox
Modelos Lineales 9 / 24
El método de Box-Cox:
1 Encuentra la función de verosimilitud de los datos, Y, multiplicando la función de
verosimilitud de U por el determinante del Jacobiano de la transformación.
Z ∼ X,
λ−1
donde Z = U/G , con G media geométrica de los datos:
n
Y 1/n
G= Yi .
i=1
Modelos Lineales 10 / 24
Luego:
1 Recorre valores de λ, ajustando la regresión de Z y obteniendo su Suma
Cuadrada del Error. Se muestra que maximizar la función de verosimilitud es
equivalente a minimizar esta Suma Cuadrada.
Modelos Lineales 11 / 24
Ejercicio 1:
Se piensa que, para ciertas iglesias correspondientes a una misma escuela
arquitectónica, existe una estrecha relación entre su perı́metro y su área. Para
estudiar esta conjetura se cuenta con osbervaciones referentes a 25 iglesias. Ajuste
un modelo de regresión lineal a los datos y visualice el comportamiento de los
residuos. Utilice el método de Box-Cox para determinar una transformación de la
variable respuesta que mejore este comportamiento.
Modelos Lineales 12 / 24
Intervalo de confianza para λ:
Un intervalo de confianza (1 − α)100% está dado por todos los valores de λ tales que:
1
lmax (λ) ≥ lmax (λ̂) − χ21,1−α ,
2
donde λ̂ corresponde al valor que minimiza SCE(Z(λ)) o, equivalentemente, maximiza
la función lmax . Note que el valor λ̂ = 1 corresponde a no realizar transformación a los
datos.
Ejercicio 2:
Encuentre un intervalo de confianza para λ en el modelo para las áreas de las iglesias.
Ejercicio 3:
Transforme los datos según sugerido por el método de Box-Cox y evalúe nuevamente
la pertinencia del supuesto de linealidad de la (nueva) media.
Modelos Lineales 13 / 24
Transformación de Atkinson
Caracterı́sticas de la propuesta:
La búsqueda de transformaciones se realiza dentro de la familia de potencias y
logaritmo.
Modelos Lineales 14 / 24
Propuesta:
Considere la familia de transformaciones dada por:
λ
Y −1
λGλ−1 ,
λ 6= 0
Z(λ) =
G log Y, λ = 0.
Modelos Lineales 15 / 24
Si escribimos:
Y
u(Y) = Y log −1 ,
G
entonces:
Z(λ) ≈ c + Y + (λ − 1)u(Y),
Y = Xβ + (1 − λ) u(Y) +
= Xβ + γ u(Y) + , (1)
Modelos Lineales 16 / 24
Atkinson propone estimar el modelo en la expresión (1) a través de Mı́nimos
Cuadrados, y estimar λ por λ̂ = 1 − γ̂.
El gráfico:
resid(Y ∼ x) ∼ resid(u(Y) ∼ x)
puede ser de utilidad para detectar la necesidad de transformación.
Modelos Lineales 17 / 24
Ejercicio 4:
Utilice el método de Atkinson para buscar una posible trasformación al peso de los
salmones, para ser explicado en términos de su longitud, en el problema planteado al
comienzo de la clase.
Ejercicio 5:
Utilice el método de Atkinson para buscar una posible trasformación al área de las
iglesias, para ser explicada en términos de su perı́metro.
Modelos Lineales 18 / 24
Transformación de los Predictores
Modelos Lineales 19 / 24
Consideremos el modelo lineal:
p−1
X
Y = β0 + βj xj + (2)
j=1
Modelos Lineales 20 / 24
Consideremos ahora el modelo que incluye una relación no lineal entre Y y x1 :
p−1
X
Y = β0 + β1 v(α) + βj xj + .
j=2
Para linealizar este modelo, utilizaremos la expansión de Taylor de primer orden para
v(α) en torno a α = 1:
v(α) ≈ x1 + (x1 log x1 )(α − 1).
Modelos Lineales 21 / 24
El modelo queda:
p−1
X
Y = β0 + βj xj + β1 (α − 1)(x1 log x1 ) +
j=1
p−1
X
= β0 + βj xj + ηv(x1 ) + , (3)
j=1
con:
v(x1 ) = x1 log x1 ,
y η = β1 (α − 1).
Modelos Lineales 22 / 24
El procedimiento propuesto consiste en estimar β1 por Mı́nimos Cuadrados en la
regresión que sólo incluye el término lineal en x1 , β̂1 , y luego ajustar el modelo en la
ecuación (3) para obtener η̂. De este modo, estimamos α por:
η̂
α̂ = + 1.
β̂1
Esto permite obtener un intervalo de confianza para α y realizar un test de hipótesis
para determinar la necesidad de transformación.
Modelos Lineales 23 / 24
Ejercicio 6:
Con el objeto de explicar el contenido de mercurio detectado en róbalos de lago en
términos de las caracterı́sticas del agua, entre agosto de 1990 y marzo de 1991 fueron
tomadas muestras de agua de la superficie de 53 lagos, midiéndose, entre otras
variables, la alcalinidad del agua, expresada por el contenido de carbonato de calcio
(mg/lt), y el contenido de mercurio en el tejido muscular en una muestra de peces en
cada lago (en partes por millón). Los datos corresponden a los promedios observados
en cada lago.
Explore una posible transformación del predictor para mejorar la calidad del modelo.
Modelos Lineales 24 / 24
M ODELOS L INEALES
Sesión 10
Modelos Lineales 1 / 14
El Modelo Heterocedástico
Situaciones frecuentes:
La variabilidad de la respuesta suele variar con la magnitud de sı́ misma o de los
predictores.
Modelos Lineales 2 / 14
Gráficamente
Modelos Lineales 3 / 14
Mejores estimadores lineales insesgados
Teorema de Gauss-Markov
Considere el modelo de regresión lineal con:
E(i ) = 0, Var(i ) = σ 2
Problema:
Esta condición se pierde cuando el modelo es heterocedástico o cuando las
observaciones no son no correlacionadas.
Modelos Lineales 4 / 14
Mı́nimos Cuadrados Ponderados
Modelos Lineales 5 / 14
Ejercicio 1:
Se desea utilizar un modelo de regresión lineal para estudiar el efecto de la capacidad
de las refinerı́as de petróleo sobre el volumen de agua utilizado mensualmente.
Se cree que la variabilidad del volumen del agua crece al considerar refinerı́as de
mayor capacidad, cumpliéndose una relación de la forma:
Ejercicio 2:
Estudie la manera de utilizar un software que realice el ajuste de un modelo
homocedástico, para estimar los coeficientes en la relación lineal entre la capacidad
de la refinerı́a y el volumen de agua utilizado.
Modelos Lineales 6 / 14
Ejercicio 3:
Se postula que el volumen de agua utilizado puede ser explicado además por la
capacidad de las torres de enfriamiento, en un modelo sin constante.
1 Transforme las variables de modo de obtener un modelo homocedástico e indique
la manera de ajustar el modelo original utilizando un software que solo entregue
los estimadores de Mı́nimos Cuadrados Ordinarios.
Modelos Lineales 7 / 14
Segunda interpretación del método de Mı́nimos Cuadrados Ponderados:
El método propuesto corresponde al método de Mı́nimos Cuadrados Ordinarios con
función objetivo modificada.
la que es equivalente a:
n
X
SMCP (β0 , β1 ) = ωi (Yi − β0 − β1 xi )2 ,
i=1
con:
1
ωi = , i = 1, . . . , n.
xi2
Modelos Lineales 8 / 14
Método de Mı́nimos Cuadrados Ponderados
El procedimiento corresponde a estimar el vector de coeficientes β minimizando la
función:
donde:
W = diag(ωi ),
1
ωi = , i = 1, . . . , n.
vi
donde los vi son tales que Var(Yi ) = vi σ 2 . La solución a este problema de
minimización corresponde a:
Modelos Lineales 9 / 14
Teorema de Gauss-Markov
Considere el modelo lineal heterocedástico con
Var(i ) = vi σ 2 ,
β̂ MCP = (X t WX)−1 X t WY
W = diag(ωi ),
1
ωi = , i = 1, . . . , n,
vi
corresponde al estimador de menor varianza dentro de la familia de los estimadores
lineales insesgados para β (BLUE: best Linear Unbiased Estimator).
Modelos Lineales 10 / 14
Distribución de β̂ MCP :
donde:
Var (β̂ MCP ) = (X t WX)−1 σ 2 .
En la tabla ANOVA:
Modelos Lineales 11 / 14
Ejercicio 4:
Un investigador de la salud está interesado en estudiar la relación entre la presión
sanguı́nea sistólica y la edad de las mujeres adultas sanas entre 20 y 60 años de
edad.
Para estudiar esta relación se cuenta con datos correspondientes a 54 mujeres sanas
dentro de dicho rango de edad. Los datos se encuentran en el archivo presion.txt.
Estime el modelo por Mı́nimos Cuadrados Ponderados, suponiendo:
1 Var (i ) = xi σ 2
Modelos Lineales 12 / 14
Mı́nimos Cuadrados Generalizados
Sea el modelo lineal heterocedástico:
Y ∼ Normal(Xβ, σ 2 V),
β̂ MCG = (X t V −1 X)−1 X t V −1 Y.
donde:
Var (β̂ MCG ) = (X t V −1 X)−1 σ 2 .
Modelos Lineales 13 / 14
Teorema de Gauss-Markov
Considere el modelo lineal heterocedástico con
Var() = σ 2 V,
β̂ MCG = (X t V −1 X)−1 X t V −1 Y
Modelos Lineales 14 / 14
M ODELOS L INEALES
Sesión 11
Modelos Lineales 1 / 27
Colinealidad entre los predictores
Definición:
Decimos que estamos en presencia de colinealidad si:
Existe dependencia lineal aproximada entre todos o algún subconjunto de
predictores, es decir, existe un vector c = (c0 , c1 , c2 , . . . , cp−1 ) tal que
ct Xt ≈ 0.
Modelos Lineales 2 / 27
Posibles causas:
Observacionales
Estudiaremos:
Consecuencias
Modelos Lineales 3 / 27
Consecuencias de colinealidad entre los predictores
Y = β1 x1 + β2 x2 + .
Sea r12 la correlación muestral entre x1 y x2 , y sean r1Y y r2Y las correlaciones
muestrales de cada predictor con la variable respuesta.
Modelos Lineales 4 / 27
Estimadores de los coeficientes:
Los estimadores de Mı́nimos Cuadrados Ordinarios corresponden a:
β̂1 1 1 −r12 r1y
=
β̂2 2
1 − r12 −r12 1 r2y
Modelos Lineales 5 / 27
Gráficamente
Los pares (x1 , x2 ), que se muestran como cruces en el plano inferior, despliegan una zona amplia:
el plano se regresión tiene bastante “apoyo”.
Modelos Lineales 6 / 27
Peor escenario: predictores exactamente colineales
Los pares (x1 , x2 ) despliegan una recta perfecta. El plano de regresión es inestable (existen
infinitas soluciones al problema de minimización).
Modelos Lineales 7 / 27
Escenario intermedio: colinealidad débil
Los pares (x1 , x2 ) no despliegan una recta perfecta, por lo que la solución al problema de
minimización es única. Sin embargo, el plano de regresión tiene poco “apoyo”.
Modelos Lineales 8 / 27
Escenario ideal: predictores ortogonales
La SCE corresponde a una superficie similar a un bowl con un mı́nimo bien definido. (Note que
los ejes corresponden a pares de valores (β1 , β2 )).
Modelos Lineales 9 / 27
Peor escenario: preditores exactamente colineales
Modelos Lineales 10 / 27
Escenario intermedio: colinealidad débil
Modelos Lineales 11 / 27
Efecto sobre la varianza de los estimadores:
La varianza de los estimadores corresponde a
1 1
Var (β̂1 ) = 2
σ2 = σ2 ,
1 − r12 1 − R2
x1 ∼ x2 ,
o viceversa.
Modelos Lineales 12 / 27
Efecto sobre la significancia de los predictores:
Se tiene 10 observaciones sobre un problema con 2 predictores, y correlaciones
r1Y = 0, 85, r2Y = 0, 78, r12 = 0, 95.
Y ∼ x1 Y ∼ x2
Coef Estimación test-t Coef Estimación test-t
β1 0.850 4.56∗ β2 0.780 3.52∗
σ2 0.035 − σ2 0.049 −
Modelos Lineales 13 / 27
Otro ejemplo:
Los siguientes estadı́sticos se obtuvieron del ajuste de un modelo de regresión lineal
para explicar el porcentaje de porcentaje corporal en términos del ancho de un pliegue
de piel, la circunsferencia de un muslo y la circunsferencia de un brazo.
Matriz de correlaciones:
piel pierna brazo porcentaje
piel 1.000 0.924 0.458 0.843
pierna 1.000 0.085 0.878
brazo 1.000 0.148
porcentaje 1.000
Modelos Lineales 14 / 27
Tabla ANOVA:
Fuente gl SC MC F valor-p
Modelo 3 396.98 132.33 21.52 0.0001
Residuos 16 98.40 6.15
Total 19 495.39 26.07
Modelos Lineales 15 / 27
Tests t:
Modelos Lineales 16 / 27
Gráficamente, la situación corresponde a:
Modelos Lineales 17 / 27
Efecto sobre las predicciones:
Considere un problema con 2 predictores y los datos en la figura:
Modelos Lineales 18 / 27
Predicción en (x1 , x2 ) = (0.5, 0.5)
Modelo Centrado en Amplitud
x1 + x2 0.418 0.475
x1 0.425 0.404
x2 0.390 0.404
Modelos Lineales 19 / 27
Indicadores de colinealidad
Modelos Lineales 20 / 27
Factor de Inflación de la Varianza:
Sabemos que
Var (β̂ s ) = (Xts Xs )−1 σ 2 .
Se define el Factor de Inflación de la Varianza del j-ésimo predictor VIFj como:
VIFj = rjj ,
Si R2j > 0.95, VIFj > 10: decimos que estamos en presencia de colinealidad.
Modelos Lineales 21 / 27
Ejercicio 1:
Considere los datos en el archivo porcentaje.txt, con los que se intenta explicar el
porcentaje de grasa corporal de los individuos en términos de la medida de un pliegue
de su piel y sus circunsferencias de pierna y de brazo.
Modelos Lineales 22 / 27
Efecto del Factor de Inflación de la Varianza sobre el ECM de β̂ s :
Modelos Lineales 23 / 27
Número de condicionamiento:
Consideremos el ejemplo original donde
1 r12
Xts Xs = .
r12 1
λ1 = 1 + r12 λ2 = 1 − r12 .
Luego, si r12 ≈ 1,
det(Xts Xs ) = λ1 λ2 ≈ 0.
Vemos que el concepto de colinealidad se relaciona con valores y vectores propios.
Modelos Lineales 24 / 27
En general:
Sean P y λj , j = 1, . . . , p − 1, vectores y valores propios de la matriz Xts Xs , de modo que
λ1 0 . . . 0
0 λ2 . . . 0
Pt (Xts Xs )P = . . . .. .
.. .. .. .
0 0 . . . λp−1
Xs pj ≈ 0.
Modelos Lineales 25 / 27
Ejercicio 2:
Retomemos el caso: porcentaje ∼ piel + pierna + brazo.
Modelos Lineales 26 / 27
P
Dado que se tiene la relación j λj = p − 1, definimos como medida de colinealidad el
número de condicionamiento: r
λmax
κ= .
λmin
Consideramos que estamos en presencia de colinealidad cuando
κ > 30.
Ejercicio 3:
Determine el número de condicionamiento en el problema sobre grasa corporal.
Modelos Lineales 27 / 27
M ODELOS L INEALES
Sesión 12
Modelos Lineales 1 / 11
Regresión Ridge
En particular,
1
ECM(β̂ s ) > σ 2 ,
λp−1
donde λp−1 corresponde al menor valor propio de Xst Xs . En presencia de colinealidad,
λp−1 ≈ 0, lo que aumenta fuertemente el error cuadrático medio de β̂ s .
Modelos Lineales 2 / 11
t
Efecto de la colinealidad sobre β̂ s β̂ s como estimador de β t β
t
Efecto de la colinealidad sobre β̂ s β̂ s como estimador de β t β:
Desarrollando término a término el error cuadrático medio de β̂, se obtiene:
Modelos Lineales 3 / 11
Mı́nimos Cuadrados Ordinarios
Se basa en estimar β de manera insesgada. En presencia de colinealidad, puede
tener gran varianza.
Regresión Ridge
Intenta disminuir el error cuadrático medio del estimador de β s . Esto equivale a
t
disminuir el sesgo de β̂ s β̂ s como estimador de β ts β s y también a acortar el largo del
vector de estimadores. Permite estimadores sesgados.
Modelos Lineales 4 / 11
Estimador Ridge:
El estimador ridge, β̂ R , de β corresponde al valor de β que minimiza la función:
n p−1
X X
(Yi − xti β)2 + λ βj2 ,
i=1 j=1
β̂ R = (X t X + λI)−1 X t Y.
Notemos qiue:
1 Cuando λ tiende a cero, β̂ R tiende a β̂ MCO .
Modelos Lineales 5 / 11
Unicidad de β̂ R :
Se puede demostrar que, para toda matrix de diseño X, la matriz (X t X + λI) es
invertible, de modo que siempre hay una única solución al problema de minimización.
Propiedades de β̂ R :
Sea:
W = (X t X − λI)−1 .
El sesgo de β̂ R está dado por:
−λWβ,
y su varianza corresponde a:
Var(β̂ R ) = WX t XWσ 2 .
Modelos Lineales 6 / 11
Grados de libertad del error:
Si consideramos que los valores ajustados se obtienen como:
Ŷ R = X β̂ R = X(X t X + λI)−1 X t Y,
HR = X(X t X + λI)−1 X t .
Modelos Lineales 7 / 11
Ejercicio 1:
Realice un estudio de simulación bajo colinealidad comparando el comportamiento del
estimador de mı́nimos cuadrados ordinarios con el estimador ridge.
Ejercicio 2:
Estime el modelo de regresión lineal para el problema sobre porcentaje de grasa
corporal utilizando mı́nimos cuadrados ordinarios y regresión ridge. Compare sus
resultados.
Modelos Lineales 8 / 11
Resultado:
Se puede mostrar que la varianza total,
p−1
X
Var(β̂ R,j ),
j=1
Teorema de existencia:
Siempre existe un valor de λ tal que el Error Cuadrático Medio de β̂ R es menor que el
de β̂ MCO .
Modelos Lineales 9 / 11
Validación cruzada para determinar el valor de λ
Modelos Lineales 10 / 11
Estadı́stico de validación cruzada en regresión ridge:
Se define como:
n 2
X ei
CV = ,
i=1
1 − hR,ii
Ejercicio 3:
Encuentre el valor óptimo de λ en el problema referido a porcentaje de grasa corporal,
según el criterio de minimización del error de predicción.
Modelos Lineales 11 / 11
M ODELOS L INEALES
Sesión 13
Modelos Lineales 1 / 15
Modelos con Errores en las Variables
Modelos Lineales 2 / 15
Modelo con errores en las variables:
Suponga que se desea explicar el comportamiento de la variable Y en términos de una
variable aleatoria X que corresponde a una medida con error de una variable aleatoria
latente. El modelo corresponde a:
Yt = β0 + β1 xt + et
Xt = xt + ut , t = 1, . . . , n,
Interpretación de xt
1 xt fijo: La cantidad de nitrógeno disponible en el suelo queda determinada por los
resultados de un experimento donde el experimentador conoce las
concentraciones de fertilizante utilizado.
Supuestos distribucionales:
xt µx σxx 0 0
et ∼ Normal 0 , 0 σee 0
ut 0 0 0 σuu
Modelos Lineales 4 / 15
Estimador de Mı́nimos Cuadrados Ordinarios de la pendiente es sesgado:
Sea γ1 la pendiente en el modelo de regresión lineal simple, y γ̂1 su estimador de
mı́nimos cuadrados ordinarios,
Pn
t=1 (Xt − X̄)(Yt − Ȳ)
γ̂1 = Pn .
t=1 (Xt − X̄)
2
Se demuestra que:
σxx
E(γ̂1 ) = β1 ,
σxx + σuu
donde el factor:
σxx
κxx =
σxx + σuu
se denomina coeficiente de atenuación o confiabilidad.
Modelos Lineales 5 / 15
Identificabilidad del modelo
Definición:
Un modelo, parametrizado por θ ∈ Θ se dice identificable si no existen dos valores
posibles de θ que lleven a la misma distribución muestral.
Este concepto se relaciona con la habilidad de los datos de estimar todas las
componentes de θ.
En el modelo en cuestón:
Dada la Normalidad, la distribución queda especificada por el estadı́stico suficiente:
Modelos Lineales 6 / 15
Ejemplo:
Dos parámetros diferentes: θ 1 = (1, 1, 1, 1, 1, 1) y θ 2 = (1, 2, 1.5, 0, 1.5, 0.5) conducen a
la misma distribución:
Yt 2 2 1
∼ Normal ,
Xt 1 1 2
Se requieren restricciones o condiciones sobre los parámetros para que ellos queden
determinados unı́vocamente por la muestra.
Modelos Lineales 7 / 15
Caso κxx conocido
Situaciones:
1 Existen áreas del conocimiento en que estos valores pueden ser bien
aproximados o conocidos, como sociologı́a o sicologı́a.
Modelos Lineales 8 / 15
Estimadores y propiedades:
Un estimador insesgado para β̂1 está dado por:
γ̂1
β̂1 = .
κxx
β̂0 = Ȳ − β̂1 X̄
Modelos Lineales 9 / 15
Caso σuu conocido
Situaciones:
En ocasiones es posible realizar un gran número de medidas repetidas de Xt para un
mismo xt .
Estimadores
Se derivan estimadores de momentos para los 5 parámetros restantes del modelo.
Algunos resultados:
√
β̂0 − β0 D
0
n −→ Normal , τ
β̂1 − β1 0
X̄ 2 V̂ar(β̂1 ) + n1 Svv
−X̄ V̂ar(β̂1 )
V̂ar((β̂0 , β̂1 )t ) =
−X̄ V̂ar(β̂1 ) V̂ar(β̂1 )
Modelos Lineales 10 / 15
Más resultados:
Es posible estimar σxx y σee .
El estadı́stico:
t = (V̂ar(β̂1 ))−1/2 (β̂1 − β1 )
distribuye aproximadamente Normal (0, 1). Suele utilizarse la distribución tn−2 .
Modelos Lineales 11 / 15
Valores de xt
Dos enfoques:
1 xt fijos pero desconocidos: deben ser estimados
2 xt variables aleatorias: deben ser predichas
Esta ecuación puede ser vista como un caso de regresión lineal heterocedástico, con
pendiente xt , dos observaciones, y matriz de covarianzas dada por:
Modelos Lineales 12 / 15
Caso 2: xt aleatorio
En ese caso, se considera que:
2
Yt β0 + β1 µx β1 σxx + σee β1 σxx + σeu β1 σxx
Xt ∼ Normal µx , β1 σxx + σeu σxx + σuu σxx
xt µx β1 σxx σxx σxx
Modelos Lineales 13 / 15
Revisión del modelo
vt = et − β1 ut ∼ xt .
En este caso, para evaluar la calidad del modelo puede utilizarse que Var(vt |xt ) es
constante y que E(vt |xt ) = 0. Sin embargo, tanto vt como xt son no observables.
La alternativa es graficar:
V̂ar(vt )1/2 v̂t ∼ x̂t ,
o, en su defecto, v̂t ∼ x̂t .
Modelos Lineales 14 / 15
Otros escenarios, otros aspectos
Modelos Lineales 15 / 15