FULL Modelos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 179

EPG3318 Modelos Lineales 07.08.

2018
INTRODUCCIÓN

Motivación: Frecuentemente, el objetivo de la ciencia es encontrar, describir o predecir relaciones entre eventos en el
mundo en que vivimos.

En particular, muchas veces esto corresponde a buscar una fórmula o ecuación que relacione cantidades.

A modo de ejemplo, puede buscarse relaciones entre:

• temperatura y presión en un proceso químico


• número de manzanas de un árbol y cantidad de fertilizante utilizado precio y demanda de un producto
• dosis de una vacuna y presencia de una enfermedad
• lluvia caída, temperatura y humedad
• rendimiento de diferentes variedades de trigo, etc.

Modelo Lineal General

Relaciones básicas:

Un modelo poblacional para relacionar una variable aleatoria Y con la variable x corresponde a:

La función µ(x) es determinística Y corresponde a la variable dependiente o respuesta


Y es aleatorio debido a la aleatoriedad del error.

x a la variable independiente o predictor Ɛ corresponde a una medida de error aleatorio no


observable
Usualmente, la forma funcional de µ(x) se asume conocida, pero depende de parámetros desconocidos.

No es lo mismo que modelo de regresión.

Diferenciamos entre modelo poblacional y muestral.

El caso lineal: En ocasiones, la función µ(x) es lineal en (k + 1) parámetros:

donde las funciones qj( · ), j = 1, . . . , k, son conocidas, y x no contiene parámetros desconocidos.

Algunos ejemplos corresponden a:

µ(x) = β0 + β1x + β2x2 + β3x3

µ(x) = βx

µ(x) = β0 + β1x + β2 exp{x}.

En el caso del modelo lineal µ(x) es lineal.

Las funciones que no tienen por qué ser lineales en el predictor. Se llama lineal, si el modelo es lineal en los beta.
Recolección de datos

Valores de la variable independiente: Suponga un modelo para explicar la presión arterial en términos de la edad de las
personas, x. El modelo se asume válido para 20 ≤ x ≤ 75.

Recolección de los datos: Se dispone de grupos de personas para ciertas edades entre 20 y 75 años: 20, 35, 50, 60, 70 y
75 años. En cada grupo de edad, se escoge de manera aleatoria una persona a quien se medirá la presión arterial. La
muestra a observar corresponde a:

(20, Y1), (35, Y2), . . . , (75, Y6)

bajo el modelo (muestral): Yi = β0 + β1xi + Ɛi E(Ɛi) = 0 i = 1, . . . , 6.

Ahora empiezan los supuestos de los errores.

El Modelo Lineal (poblacional) General

Supuestos:

Sea x = (x1, . . . , xp−1) un vector no aleatorio con valores en un conjunto D. El modelo lineal (poblacional) general dice que:

μ(x) es una función de (p-1) variables no aleatorias reales x1, . . . , xp−1 con dominio D

Para cada x en el conjunto D, ∊(x) es una variable aleatoria

Se deduce que: E(Y(x)) = μ(x) para cada x ∊ D.


EPG3318 Modelos Lineales 07.08.2018
El Modelo Lineal (muestral) General

Supuestos:

Para un conjunto de valores x1, . . . , xp−1 en D, se dispone de un grupo de unidades muestrales. Desde cada uno de estos
grupos, se elige una unidad de manera aleatoria, y se medirá la variable Y. El modelo lineal (muestral) general dice que:

Con i = 1, ..,n y donde:

Yi son variables aleatorias observables

Xi= (x1, . . . , xp−1) es un vector de variables no aleatorias observables, con dominio D.

β1, …, β2 corresponden a parámetros desconocidos con dominio Ωβ

∊i corresponden a variables aleatorias no observables con: Tipos de error

Tipos de Error

Hay dos tipos de Error:

Errores de Medición: Suponga dos variables no aleatorias que representan medidas de dos cantidades del mundo real,
relacionadas de manera funcional por:

(Ejemplo: s corresponde a la distancia que cae una partícula en el vacío en un intervalo de tiempo de longitud t. Se
relacionan por s = 1/2gt2, donde g corresponde a la aceleración de gravedad).

Suponga que z no es observable, pero existe una variable aleatoria Y tal que Y = z +∊, con E(∊) = 0. Luego, se cumple que
Errores de Ecuación: ∊ representa que me faltan predictores (puede venir de lo que no pude medir (de mi función que no
es lineal).

Considere z: rendimiento de una plantación de trigo. Se sabe que este rendimiento depende de la cantidad de fertilizante
utilizado, temperatura ambiente, lluvia caída, luminosidad, calidad del suelo, y muchos otros factores. Si consideramos x1,
. . . , xk como la totalidad de los factores que afectan al rendimiento del trigo, podemos escribir:

donde µ(x) domina para determinar z. Entonces, podemos considerar

como el error del modelo.

Ejemplo 1: Considere la distancia s que se traslada una partícula desde un punto de referencia, en un tiempo t. Se postula
la relación determinística:

Sin embargo, no es posible medir la distancia s con exactitud y, en cambio, se mide Y = s + ∊, con E(∊) = 0.

El modelo es válido para 0 ≤ t ≤ 100 segundos. Para obtener una muestra, se toman tiempos fijos t1, . . . , tn y, para cada
uno de ellos, se mide la distancia que se traslada la partícula. El modelo muestral corresponde a:

¿A qué tipo de error corresponde ∊ en este caso?

El error del modelo corresponde a un error de medición.


EPG3318 Modelos Lineales 07.08.2018
Ejemplo 2: Cuando las rocas viajan arrastradas por un río, su forma se vuelve cada vez más redondeada. Si Y corresponde
a una medida de la esfericidad de una roca, se piensa que ella depende de la distancia x desde su fuente, en la forma:

con E(∊) = 0. El modelo es válido para 50 ≤ x ≤ 300 kilómetros. Se obtiene mediciones cada 50 kilómetros desde la fuente,
x1 = 50, x2 = 100, . . . , x6 = 300. ¿A qué tipo de error corresponde ∊ en este caso?

Si es un error de medición implica que la medida de esfericidad es una aproximación.

Si es un error en la ecuación, hay otras variables que no considero en la esfericidad, no sólo cuenta de distancia viajada
por la roca.

Probablemente en este caso es una mezcla de ambas cosas.

Ejemplo 3: La variable aleatoria Y corresponde al porcentaje de impurezas en cierto químico al producir x lotes de este, x
= 1, . . . , 10. El modelo corresponde a:

con E(∊) = 0. A modo de ejemplo, µ(4) = β0 + 4β1 corresponde al porcentaje de impurezas promedio de todos los días en
que se producen 4 lotes.
Ejemplo 4: Se desea estudiar la relación entre la temperatura, x1, y la presión x2 a las que se produce cierto material, y su
dureza, Y. Se postula el modelo lineal:

con E(∊(x1,x2)) = 0. El modelo es válido para 500 ≤ x1 ≤ 1500 (grados Celsius) y 1.000 ≤ x2 ≤ 2.000 (libras por pulgada
cuadrada).

Se obtiene mediciones cada 100 grados Celsius y cada 100 libras por pulgada cuadrada.

En este ejemplo hay dos variables independientes y una respuesta.

La diapo muestra el modelo poblacional.

¿Cómo paso de la poblacional a la muestral?

Tengo que hacer una grilla de valores.

Aquí el error probablemente es una mezcla de ambos tipos.

Modelo de Regresión Lineal (Múltiple) en Notación Matricial

El modelo de regresión lineal múltiple corresponde a un caso particular del modelo lineal general, y puede escribirse como:
EPG3318 Modelos Lineales 07.08.2018

Supuesto: Función de densidad simétrica y definida positiva. Para probar debo:

Paso 1) Simétrica: matriz es simétrica si lo que tengo sobre la diagonal es igual a lo que tengo sobre la diagonal.

la matriz tiene sólo ceros, por lo que es simétrica.

Paso 2) Positiva: matriz es definida positiva, si el determinante (producto de la diagonal) debe ser positivo.

El determinante al ser σ2*otros sigma al cuadrado, va a ser


positivo.

La única restricción es que debe tener tanto elementos como la variable aleatoria.

Resumiendo: La esperanza de los εi es cero, todos los errores tienen la misma varianza y son independientes.
Distribución Normal Multivariada

Definición: Se dice que el vector aleatorio Y ∈ ℝn tiene una distribución Normal Multivariada de parámetros µ y Σn×n
matriz definida positiva, si su función de densidad está dada por:

Y es un vector μ es un vector y representa el valor esperado de Y

Si al Modelo Lineal General (qué ya tenía esperanza de errores = 0) se le agrega la matriz


de varianza-covarianza y la Normalidad.
1) Normalidad
2) Var (εi) = σ2 i= 1, …, n
3) Cov (εi , εj) = 0 i ≠ j = 1, …, n (εi , εj independientes) Sólo en el caso normal puedo
concluir que los errores son independientes.

Entonces puedo hablar de un Modelo de Regresión Lineal (Múltiple)


EPG3318 Modelos Lineales 07.08.2018
Teorema: Sean B ∈ ℝ × ℝ y b ∈ ℝ . Si el vector aleatorio Y ∈ ℝ sigue una distribución Normal (µ, Σ), entonces:
r n n n

Si transformo, también se comporta normal.

B= matriz que multiplica a variable normal y b= vector

Este teorema es lo que me ayuda a buscar la distribución de Y.

Ejercicio 1: Encuentre la distribución de Y en el modelo de regresión lineal múltiple.


Estimación en el modelo de Regresión Lineal Múltiple

Estimación por Mínimos Cuadrados Ordinarios: Debemos minimizar:

Recuerdo :

Entonces

Ejercicio 2: Muestre que el estimador de Mínimos Cuadrados Ordinarios (EMCO) de β corresponde a:

Importante: ¿Cuándo XtX es invertible?


¿Qué pasa si no lo es?

Ejercicio 3: Encuentre la distribución de

Vector de valores ajustados: Los valores ajustados por el modelo corresponden a:

con

Resultado: La matriz H es una matriz de proyección ortogonal sobre el espacio generado por las columnas de X y tiene
rango p.

Vector de residuos: Los residuos del modelo corresponden a:

Resultado:
La matriz (I − H) es una matriz de proyecci´on ortogonal sobre un espacio ortogonal al espacio generado por las columnas
de X y tiene rango (n − p)

Interpretación gráfica:
EPG3318 Modelos Lineales 14.08.2018
El modelo de Regresión Lineal Múltiple

Modelo: Sean Y1, . . . , Yn observaciones independientes de una variable respuesta Y, y los valores del predictor x1, . . . , xn
asociados a cada una de ellas. El modelo de regresión lineal múltiple corresponde a un caso particular del modelo lineal
general, y dice que:

Esto equivale a afirmar que:

Donde Y(nx1) corresponde al vector de respuestas, X(n×p) a la matriz de diseño que contiene los valores que toman los
predictores, β(p×1) al vector de los parámetros, y ∊(n×1) al vector de errores del modelo.

Formas Lineales y su Distribución

Forma Lineal: Sean Y un vector aleatorio de dimensiones n × 1, b un vector determinístico de dimensiones r × 1, y B una
matriz determinística de dimensiones r × n. El vector aleatorio:

se denomina forma lineal en Y.

Distribución de una forma lineal: Sea Y un vector aleatorio de dimensiones n × 1 y sea W = BY + b una forma lineal en él.
Si Y ∈ ℝn sigue una distribución Normal (µ, Σ), entonces:
Ejercicio 1: Encuentre la distribución de Y en el modelo de regresión lineal múltiple.

Ejemplo (Recuerdo)
EPG3318 Modelos Lineales 14.08.2018

Estimación en el Modelo de Regresión Lineal Múltiple

Estimación por Mínimos Cuadrados Ordinarios: Encontrar estimador de mínimos cuadrados

Paso Previo – Debemos Minimizar


La función S(β) es del tipo:

Debemos encontrar las coordenadas del punto mínimo de esta figura.

Primer Paso: Estimar beta. Buscamos el plano tangencial. Calculando el diferencial.

Herramientas de Cálculo Diferencial: Dadas las características de la función S(β), podemos encontrar el valor de β que la
minimiza encontrando el valor anula su diferencial, y demostrando que su matriz Hessiana es definida positiva.

Estrategia:

Sea la función en t dada por:

Su diferencial puede obtenerse como:

Ejercicio 2: Estimador de Mínimos Cuadrados de β

Muestre que el estimador de Mínimos Cuadrados Ordinarios (EMCO) de β corresponde a:


EPG3318 Modelos Lineales 14.08.2018

Paso siguiente: Debo demostrar que esto es un mínimo (para eso debo derivar). Falta diferencia nuevamente obteniendo
la matriz H de segundas derivadas y demostrar que ella es definida positiva.

¿Qué pasa si el mismo paraboloide está dado vuelta?

Paso siguiente: Debo demostrar que esto es un mínimo (para eso debo volver a derivar)

Falta diferenciar nuevamente obteniendo matriz H de segundas derivadas y demostrar que ella es definida positiva.

Ejercicio 3: Considere los datos en el archivo biomasa.txt que contiene la biomasa y algunas características del suelo,
�.
como sus contenidos de potasio y de calcio y su pH entre otras. Utilice R para verificar la expresión encontrada para 𝜷𝜷

n= 45 p-1 = 5 predictores

Importante:

1) ¿Cuándo XtX es invertible?


2) ¿Qué pasa si no lo es?

¿Qué pasa si XtX no tiene inversa? Ahí nos quedamos sin 𝜷𝜷 � . El software se cae. ¿Cuándo esa inversa no existe? Cuando
una de las columnas se puede escribir como una combinación lineal de otra, hay una columna que sobra, porque todo
lo que está en ella lo podría haber calculado si conozco las otras. Cuando eso pasa uno se da cuenta que el rango de la
matriz es menor que p y ahí XtX NO es invertible.
Ejercicio 4: Construya en R una matriz de diseño tal que XtX sea no invertible.

Ejercicio 5: (Importante) Encuentre la distribución de 𝛽𝛽̂.

Ejercicio 6: Encuentre la distribución marginal de β1 en el modelo de regresión lineal simple.


EPG3318 Modelos Lineales 14.08.2018
Ejercicio 7: modelo de análisis de la varianza (ANOVA):

Una compañía productora de cereales desea estudiar si existe asociación entre el diseño utilizado en los envases de sus
cereales y las ventas de estos. Para ello registra, en cada uno de 5 supermercados escogidos de manera aleatoria, las
ventas del mes de un mismo tipo cereal envasado cada uno de tres diseños de envase (A, B y C). Los datos pueden
denotarse como:

donde Yij corresponde a la venta mensual del i-ésimo diseño en el j-ésimo supermercado, i = 1, 2, 3, j = 1, . . . , 5.

Postule un modelo de regresión lineal para estas observaciones.


Ejercicio 8: Estime el modelo propuesto en R, utilizando los datos que se encuentran en el archivo cereales.txt y la
función lm.

Vectores de Valores Ajustados y de Residuos

Vector de valores ajustados: Los valores ajustados por el modelo corresponden a:

con
Vector de residuos del modelo: Los residuos del modelo corresponden a:

Ejercicio 9: Verifique lo anterior de manera numérica en R utilizando los datos en el archivo biomasa.txt.
Verificar en R.
EPG3318 Modelos Lineales 14.08.2018
Matriz de Proyección Ortogonal

Las matrices H e (I − H) poseen importantes propiedades geométricas que permiten visualizar residuos y valores ajustados.

Matriz de Proyección Ortogonal: Sea b un vector en un espacio de dimensión n y sea la matriz P = A(AtA)−1A, con A de
dimensiones n × p y rango p. Entonces, Pb corresponde a la proyección ortogonal del vector b sobre el espacio vectorial
generado por las columnas de A. El rango de P es igual a p.

Resultado 1: La matriz H es a una matriz de proyección tal que:

corresponde a la proyección ortogonal de Y sobre el espacio vectorial generado por las columnas de la matriz de diseño
X. El rango de H es igual a p.
EPG3318 Modelos Lineales 14.08.2018
Resultado 2: La matriz (I − H) es a una matriz de proyección tal que:

corresponde a la proyección ortogonal de Y sobre el espacio vectorial perpendicular al espacio generado por las columnas
de la matriz de diseño X. El rango de (I − H) es igual a (n − p).

Interpretación Gráfica:

Ejercicio 10: Verifique en R que los valores en la diagonal de la matriz H corresponden a la palanca de las observaciones,
hii

Ejercicio 11: Encuentre la distribución del vector de valores ajustados por el modelo.
Ejercicio 12: Encuentre la distribución del vector de residuos del modelo.
EPG3318 Modelos Lineales 21.08.2018
Modelos Lineales

Independencia entre Formas Lineales:

Teorema: Sea Yn×1 un vector aleatorio con distribución Normal (µ, Σ). Las formas lineales L1 = B1Y + b1 y L2 = B2Y + b2 son
independientes ssi:

Ejercicio 1: Demuestre que los vectores de valores ajustados y de residuos son independientes. Relaciónelo con las
propiedades de las matrices H e (I − H).
Descomposición de la Varianza
EPG3318 Modelos Lineales 21.08.2018
Sumas Cuadradas: Sabemos que es posible descomponer la variabilidad total de la respuesta como:

Notemos que:

donde e corresponde al vector de residuos del modelo. De este modo,

Para realizar inferencias, necesitaremos la distribución de SCE.

Formas Cuadráticas

Definición: Sea Yn×1 un vector aleatorio, y An×n una matriz simétrica con elementos reales. La variable aleatoria:

se denomina forma cuadrática en Y.

Distribución Chi-Cuadrado:

Definición: Sea Yn×1un vector aleatorio con distribución Normal (µ, I). Se dice que la variable aleatoria Q = Yt Y sigue una
distribución Chi-Cuadrado con n grados de libertad y parámetro de no centralidad λ. Se escribe:

Teorema: Sean Σn×n una matriz simétrica definida positiva, y A una matriz simétrica de rango m, tales que (AΣ)2 = AΣ. Si el
vector aleatorio Ynx1 sigue una distribución Normal (µ, Ʃ) entonces:

I=Identidad
Ejercicio 2: Muestre que
EPG3318 Modelos Lineales 21.08.2018

Ejercicio 3: Muestre que

donde

Este último se conoce como estimador de Mínimos Cuadrados de σ2


Test t-student para los coeficientes

En el modelo de regresión lineal múltiple, considere las hipótesis:

Ho: βj = 0 H1: βj ≠ 0

para un valor fijo de j = 0, . . . , p − 1. Construiremos un pivote para βj. El punto de partida será que:

Independencia entre Formas Lineales y Cuadráticas

Teorema: Sea Ynx1un vector aleatorio con distribución Normal (µ, Σ), con Σ matriz simétrica definida positiva. Sean las
matrices reales Aq×n y Bn×n, con esta última, simétrica. (Teorema usado para que denominador y numerador fueran
independientes). Entonces:

Ssi
EPG3318 Modelos Lineales 21.08.2018

Ejercicio 4: Demuestre que

�𝑠𝑠�𝛽𝛽̂𝑗𝑗 � corresponde al error estándar de 𝛽𝛽̂𝑗𝑗 donde σ2 ha sido estimado por 𝜎𝜎� 2 .
corresponde a un pivote para βj, donde 𝑒𝑒.

En base a dicho pivote, encuentre una región de rechazo de significancia α para las hipótesis de interés.
EPG3318 Modelos Lineales 21.08.2018
Ejercicio 5: Considere los datos en el archivo biomasa.txt. En R, verifique el valor de t0 y su valor-p, para las hipótesis
Ho: βj = 0 H1: βj ≠ 0

El test-T: no toma en cuenta la presencia de otros predictores. Me obliga a hacer varios en forma paralela.
EPG3318 Modelos Lineales 28.08.2018
Test F de la Tabla ANOVA

Test de hipótesis para el vector de parámetros:

Considere las hipótesis:

Ho: β1 = … = βp-1 = 0 H1: al menos un coeficiente βj es diferente de cero, j = 1, . . . , p − 1.

Utilizamos comúnmente el estadístico:

Mostraremos que, bajo la hipótesis nula, este estadístico sigue una distribución Fisher central.

Distribución de F (Fisher):

Sea la variable aleatoria X con distribución 𝒳𝒳𝑛𝑛2 (𝜆𝜆) independiente de la variable aleatoria Y con distribución 𝒳𝒳𝑚𝑚
2
(0). Se dice
que la variable aleatoria:
𝑋𝑋
𝐹𝐹 = 𝑛𝑛
𝑌𝑌
𝑚𝑚
sigue una distribución F (Fisher) con n y m grados de libertad, y parámetro de no centralidad λ.
Argumentaremos que:
2
1) SCReg/σ2 sigue una distribución 𝒳𝒳𝑝𝑝−1 (𝜆𝜆) y que bajo Ho, λ = 0.
2
2) SCE/σ2 sigue una distribución 𝒳𝒳𝑛𝑛−𝑝𝑝 central.

3) SCReg y SCE son independientes.

Luego, bajo H0, el estadístico F0 sigue una distribución Fisher central, con (p − 1) y (n − p) grados de libertad.

Distribución de SCReg bajo H0: Se puede mostrar que, para cierta matriz A simétrica:

La matriz A es función de la matriz R(p−1)×p de la forma:

y tiene rango (p − 1).

Utilizando resultados sobre distribuciones de formas cuadráticas, se garantiza que:

donde, bajo H0, λ = 0.


EPG3318 Modelos Lineales 28.08.2018
Independencia de formas cuadráticas:

Sea Ynx1 vector aleatorio con distribución Normal (µ, Σ), y sean Aq×n y Bn×n matrices reales simétricas. Las variables
aleatorias:

y son independientes ssi

Ejercicio 6: Demuestre que SCReg y SCE son variables aleatorias independientes.

No se hizo, porque no tenemos la matriz A.

Ejercicio 7: Derive la distribución del estadístico F0 de la tabla ANOVA bajo la hipótesis nula.

Ejercicio 8: Utilice lo anterior para verificar el test F en los datos del archivo biomasa.txt.
EPG3318 Modelos Lineales 28.08.2018
Modelo ANOVA

Considere el siguiente problema: Un aditivo es agregado en la alimentación habitual de ciertas aves, con el propósito de
promover su crecimiento. Interesa evaluar el efecto de este aditivo y, en particular, interesa la comparación de los
siguientes tratamientos:

C : sin aditivo, L : baja dosis de aditivo, H : alta dosis de aditivo.

Cada tratamiento es observado en grupos de 8 aves en cada uno de ellos. Después de un periodo de tiempo, se registra
su aumento de peso.

ANOVA de un factor (modelo simple): caso particular de modelo de regresión lineal múltiple de un factor. Significa
que el predictor es variable cualitativa (o categórica).

Ejercicio 1: Asumiendo que, en el archivo de datos, las observaciones se encuentran ordenadas de modo que las
observaciones 1 a 8 corresponden a aves que no recibieron aditivo, las siguientes 8 a aves que recibieron bajas dosis y las
observaciones 17 a 24 a aves que recibieron dosis altas.

1. Construya la matriz de diseño X para estas observaciones, utilizando el tratamiento sin aditivos como tratamiento
de control (o grupo de comparación).
2. Encuentre en R los parámetros estimados. Interprete los valores obtenidos.
3. Obtenga el estadístico del test F. Concluya sobre la validez del modelo.
¿Se puede invertir? No, porque una columna es combinación lineal de otra.

Tengo que imponer restricciones a mi matriz.

Parametrización de R → Celda de Referencia → Asume (Comparo todos como sin aditivo).

La matriz X propuesta no es de rango completo, es decir, estamos tratando de estimar más parámetros de lo que permiten
los datos. Se debe imponer restricción:
EPG3318 Modelos Lineales 28.08.2018

Como son datos categóricos uso boxplot(Split(peso,trat))

Un boxplot con ocho datos es muy engañoso: tengo que dejar fijos cinco, pero si le puedo creer a la mediana (OJO con
uso de boxplot si tengo pocas observaciones)

¿Cuáles son las hipótesis del test de F?

Fo= 11.49 valor-p = 0.0004 < 5%

Concluimos que el uso de aditivo es significativo en el aumento de peso de las aves.


Ejercicio 2: El modelo ANOVA de un factor también puede ser parametrizado bajo la restricción suma. Esto es:

Construya la matriz de diseño de esta parametrización. Estime los parámetros e interprételos.

Estas restricciones se llaman contrastes en R → contrast(cont.sum)

Esta parametrización se usa cuando no se puede identificar claramente un grupo control, ya que aquí se compara entre
todos.
EPG3318 Modelos Lineales 28.08.2018
Ejercicio 3: El archivo munich.txt contiene información sobre los precios de arriendo de 200 hogares en la ciudad de
Munich. El archivo contiene el valor del arriendo, el área total del inmueble, si posee o no calefacción central y la ubicación
dentro de la ciudad.

1. Realice un análisis exploratorio de los datos.


2. Escriba un modelo para estos datos, definiendo variables indicatrices que utilicen
3. Construya la matriz de diseño.
4. Ajuste el modelo utilizando la función lm. Realice el test F y concluya.

Necesito cinco parámetros.

¿Qué representa β2? β2 es cuanto aumenta por estar en ubicación 2 versus punto de referencia (ubicación 1) dejando
todo lo demás constante.
β2 es el aumento (o disminución) del valor del arriendo al cambiarse desde ubicación 1 a la ubicación 2, manteniendo el
área y la condición de calefacción constante.

Paso 3: Construir la matriz de diseño (TAREA)

Tests sobre restricciones lineales sobre los coeficientes

En el modelo sobre el valor de los arriendos en Munich, una manera de evaluar la inclusión de la ubicación de la vivienda
corresponde a testear, de manera conjunta, las hipótesis β2 = 0 y β3 = 0. Estas hipótesis pueden escribirse de manera
conjunta en la forma:

Construiremos un estadístico para este tipo de hipótesis.

Ventaja sobre el test-t: puedo testear dos hipótesis juntas y asegurar que la significancia es 0.5 con el test-t no puedo
estar segura. Se forma combinaciones lineales de los coeficientes betas (no tienen necesariamente que ser la misma
variable como en este ejemplo, en que eran ubicaciones).
EPG3318 Modelos Lineales 28.08.2018

Ejercicio 4: Utilizando que:

muestre que:

donde r corresponde al rango de la matriz R.


Ejercicio 5 (propuesto): Muestre que el estadístico anterior es independiente de la Suma Cuadrada del Error. (difícil)

Si el punto de corte es 0.05: la ubicación 3 no aportaría {agregar 1 no aporta, porque penalizo por ese parámetro}.

Por lo tanto, no podemos rechazar Ho (debiésemos eliminar la variable ubicación del modelo)- ANOVA-Test F secuencial
dejando ubicación al final, debería darme los mismos valores.

Ejercicio 6: Muestre que el estadístico:

sigue una distribución Fisher con r y n − p grados de libertad y parámetro de no centralidad λ.

Ejercicio 7: Muestre que bajo la hipótesis , el parámetro de no centralidad se anula y, de acuerdo a esto,
encuentre la región de rechazo del test.
EPG3318 Modelos Lineales 28.08.2018

Ejercicio 8: En los datos sobre valores de arriendos en Munich, utilice el resultado anterior para docimar si la ubicación de
la vivienda debe ser incluida en el modelo.
EPG3318 Modelos Lineales 04.09.2018
Estimación del modelo por Máxima Verosimilitud

Método de máxima verosimilitud

Considere un conjunto de observaciones discretas y un modelo paramétrico para ellas.

Un criterio muy utilizado para estimar los parámetros del modelo corresponde al método de Máxima
Verosimilitud, que consiste en encontrar los valores de los parámetros que maximizan la probabilidad de haber observado
los datos de interés.

Cuando los datos siguen una distribución continua, el método de Máxima Verosimilitud busca los valores de los
parámetros que maximizan la función de densidad conjunta de las observaciones.

Pero después le colocamos normalidad para testear probabilidad. Todos los test de hipótesis necesitan normalidad.
Este problema fue resuelto al encontrar el estimador de mínimos cuadrados ordinarios.

En el modelo de regresión lineal múltiple: Considere el modelo para las observaciones:

Muestre que los estimadores de máxima verosimilitud corresponden a:

Luego ahora buscamos el valor de σ2 que maximiza


𝑛𝑛�
1 2 𝑛𝑛� −1 𝑆𝑆𝑆𝑆𝑆𝑆
� � (𝜎𝜎 2 )− 2 𝑒𝑒𝑒𝑒𝑒𝑒 � �
2𝜋𝜋 2 𝜎𝜎 2
1) Tomar logaritmo de la expresión para convertir productor en sumas y facilitar maximización.
EPG3318 Modelos Lineales 04.09.2018
EPG3318 Modelos Lineales 04.09.2018
Intervalo de confianza para una media

Retomemos el problema sobre viviendas en Munich:

El archivo munich.txt contiene información sobre los precios de arriendo de 200 hogares en la ciudad de
Munich. El archivo contiene el valor del arriendo, el área total del inmueble, si posee o no calefacción central y la ubicación
dentro de la ciudad.

Se desea construir un intervalo de confianza para el valor medio del arriendo de una vivienda en Munich, que no
posee calefacción, ubicada en el sector 2, y que tiene un área de 80m2.

Ahí reemplaza con los valores que me interesan.

Parámetro a estimar y estimador puntual: Se desea estimar algo de la forma:

Se propone el estimador puntual dado por:

Para construir un intervalo de confianza basado en este estimador necesitamos construir un pivote que lo contenga.

Pivote: algo que depende del parámetro que me interesa estimar, de la muestra y no debe depender de nada desconocido.
Ejercicio 1:

1. Encuentre la distribución de 𝒙𝒙𝑡𝑡0 𝛽𝛽̂

2. Demuestre que SCE y 𝛽𝛽̂ son independientes (propuesto)


3. Utilizando sus resultados anteriores, obtenga un pivote para 𝒙𝒙𝑡𝑡0 𝛽𝛽̂

4. Utilice dicho pivote para construir un intervalo de confianza para 𝒙𝒙𝑡𝑡0 𝛽𝛽̂

Reordenando las desigualdades


EPG3318 Modelos Lineales 04.09.2018
Intercept Calefacción 1 Ubicación 2 Ubicación 3 Área
Beta 58.202 164.085232 -11.779865 167.193952 3.644491
Lo = 275.6442 L1= 400.3199 Muy castigado por no tener calefacción.

Ejercicio 2: Obtenga un intervalo de 95% de confianza para el valor del arriendo de una vivienda en Munich con las
características de interés.

Intervalo de predicción para una nueva observación

Problema: Un estudiante de posgrado en Munich quisiera arrendar una vivienda sin calefacción, ubicada en el sector 2, y
de 80 m2. El encontró una vivienda con dichas características en el diario, pero no se ha publicado el valor del arriendo. El
estudiante desearía tener una predicción para dicho valor antes de visitarla. ¿En qué se diferencia este problema del
problema planteado inicialmente?

El estudiante busca predecir una variable aleatoria, una sola vivienda. Intervalo de predicción para una nueva observación.

Predicción de una observación cuando su distribución es completamente conocida:

Suponga que en el futuro se observará una realización de una variable aleatoria con distribución Normal de media
µ y varianza σ2, con ambos parámetros conocidos. ¿Entre qué valores usted predeciría que estará dicha observación, si
desea estar un “95% seguro” de su predicción?

Tengo una variable que aún no he observado, pero a la cual le conozco la distribución. Ejemplo: Predecir altura de
alumno que entra a la sala. Sé que es distribución normal. Si una conoce la distribución busca intervalo que tenga área de
95%. Elegí el centro, porque aquí puedo tener un intervalo más angosto.

Si me corro más al lado, me tocaría tomar un intervalo de confianza más ancho, porque la altura de esa área es
menor.

Ejercicio 3: ¿Qué distribución tiene el valor del arriendo de la vivienda que visitará el estudiante? ¿Es completamente
conocida?
Ejercicio 4: Se propone utilizar la variable aleatoria:

Me queda centrado en cero → es normal, porque ambos términos son normales

1. Encuentre la distribución de W.

¿La suma cuadrática está relacionada con Yo? No, Yo es independiente.

2. Demuestre que W es independiente de SCE y construya con ellos un estadístico que siga una distribución tn−p.

3. Construya un intervalo de predicción para W y, en base a él, derive el intervalo de predicción deseado para Y0.

Este intervalo es más ancho que , porque tengo un solo valor. Siempre mi intervalo de una media es menos volátil
que trabajar con una sola observación.

Ejercicio 5: Obtenga un intervalo de predicción para el valor de la vivienda que visitará el estudiante.

Descomposición de la Suma Cuadrada de la Regresión

Recordemos el problema: Se desear modelar el gasto en gasolina en 48 localidades, en términos del porcentaje de sus
habitantes que poseen licencia de conducir, el impuesto a la gasolina, el ingreso medio de los habitantes y los kilómetros
de carretera construidos.

Recordemos que ajustar un modelo con varios predictores no es equivalente a ajustar modelos de regresión
simple por separado y luego combinar sus coeficientes estimados.

Trabajaremos un camino para estimador F y predicción Backward y Forward.


EPG3318 Modelos Lineales 04.09.2018
Ejercicio 6:

1. Ajuste el modelo de regresión simple: gasolina ∼ licencias.

Objetivo es ajustar con dos predictores. Interesa el modelo gasolina ∼ licencias+ impuestos

2. Para evaluar el ingreso de la variable impuestos, obtenga los residuos de las regresiones gasolina ∼
licencias e impuestos ∼ licencias. Grafique los primeros residuos versus los segundos.

Suponga que lo hago con software que sólo hace modelos univariados.

i) Hago regresión gasolina ∼ licencias: Intercept = -227 Licencias =14


ii) Y tomo residuos (limpio datos) = resid(gasolina~licencias)
iii) Hago regresión impuestos ∼ licencias (limpia licencias)
Explicar con impuestos lo que licencia no pudo explicar
iv) Y tomo residuos (limpio efecto del primero (licencias) = resid(impuestos~licencias)
v) Hago regresión de residuos limpios

lm(y~x) hago regresión entre y = pendiente estimada: x = -32.07 intercept =2.51e-15

3. Ajuste el modelo de regresión entre los residuos anteriores y registre el valor de la pendiente estimada.
4. Ajuste el modelo de regresión múltiple con dos predictores, licencias e impuestos, y compare el valor del
coeficiente estimado de impuestos con el obtenido en el apartado anterior.

Para estimar coeficiente de licencias

resid(galosina~impuestos)~resid(licencias~impuestos) = pendiente estimada = 12.51

Intercept Licencias impuestos


108.97 12.51 -32.07
Mismos resultados que lm (gasolina~licencias+impuestos)

Expresión para la Suma Cuadrada de la Regresión utilizando matrices de proyección

Descomposición de la Suma de Cuadrados Total Recordemos que:

Descomponer la Suma cuadrática de la Regresión (SCReg) para limpiar del efecto de la constante.
Partiremos desde la igualdad:

Descomposición de la matriz H:

Recordemos que la matriz H se construye en base a la matriz de diseño X en la forma:

Para separar el efecto de la constante, se muestra que es posible descomponer la matriz H en la forma:

donde ambas matrices corresponden a matrices de proyección ortogonal, y la primera de ellas, H0, se construye en base
a la columna de 1’s de la matriz de diseño:

Las matrices de proyección proyectan sobre un vector (columna). Primero voy a proyectar sobre la constante
(Primera componente de la matriz de diseño). H* va a proyectar sobre los residuos (me dice cuál es el aporte de mi
modelo).
EPG3318 Modelos Lineales 04.09.2018

Volviendo atrás a

¿Qué hay en H* si saqué la constante? Saco columna 1 y las otras de los demás predictores los centro, porque la constante
ya está en el modelo.
Recapitulando (25/09/2018)
EPG3318 Modelos Lineales 25.09.2018
Ejercicio 7: Encuentre la forma de la matriz H0, reemplácela en la expresión anterior para YtY y ordene los términos de
modo de visibilizar SCT y SCE. ¿A qué corresponde entonces SCReg?

¿Qué significa descartar el efecto de la constante?

¿Qué hace la matriz Ho? ¿Qué hace la matiz H*?

Las matrices de proyección son nxn (todos) no (p-1)x(p-1)

¿Qué es proyectar sobre la constante? HoY: proyección de Y sobre el espacio generado por la constante. Lo que digo es
que le voy a restar su media (tomo la primera columna y le resto la media)

Vamos a ver que significa descartar el efecto de la constante

Forma de H∗: La matriz de proyección H∗, de dimensiones (p − 1) × (p − 1), se genera en base a los (p − 1) predictores,
descontado el aporte de la constante, es decir, tomando los residuos:

resid(xj ∼ 1) = xj − 𝑥𝑥�𝚥𝚥

j = 1, . . . , p − 1. Es decir, la matriz H∗ se genera en base a una matriz X∗ que contiene a los predictores previamente
centrados.

Restar el valor de la constante no es nada más que centrar.


Ejercicio 8: En el problema sobre consumo de gasolina, obtenga las matrices X∗ y H∗ y utilícelas para obtener la Suma
Cuadrada de la Regresión del modelo de regresión lineal múltiple completo.
Gasolina~lic + imp + ingreso + carretera

Centrado → C1<-licencias-mean(licencias)

Coloco todo como columna en la matriz H* y con eso hago la suma cuadrática del error.

Tabla ANOVA: la suma cuadrática del error (sumo suma cuadrada de cada predictor) =287448+40084+69532+2252

Vamos ahora a ver de dónde sale cada uno de los aportes, al descomponer H*

Descomposición de SCReg = YtH∗Y

Se puede demostrar que la matriz H∗ puede, a su vez, descomponerse en términos de (p − 1) matrices de proyección como:

H∗ = H1 + . . . + Hp−1

donde Hj se construye en base a un vector columna que contiene los residuos de la regresión:

xj ∼ x1 + . . . + xj−1

De este modo, el aporte del j-ésimo predictor, cuando los primeros (j − 1) predictores ya se encuentran en el modelo,
corresponde a:

SCRegj = YtHjY

SCReg = SCReg1 + . . . + SCRegp−1.

Descomposición de la matriz H*: La matriz H* se relaciona con el aporte de todos los predictores descontando el efecto
de la constante. Dado un orden arbitrario de los predictores, el aporte de xj es medido, necesariamente, como el aporte
adicional a lo que aportaron 1+x1+…+xj-1 y esto se hace a través de la matriz Hj construido en base a
resid(xj~ 1+x1+…+xj-1)
NO es posible descomponer SCReg en los aportes absoutos de cada uno de los predictores.
EPG3318 Modelos Lineales 25.09.2018
Ejercicio 9: Verifique el resultado anterior con los datos del consumo de gasolina.

j Variable SCRegj
1 Lic 287.448 *
2 Imp 40.084
3 Ingreso 69532
4 carreteras 2252

H1: matriz de proyección construido en base a (licencias -licencias)nx1 ↔ resid(licencias~1)


X1<-resid(lm(licencias~1))
H1<-X1%*%solve(t(X1)%*%X1)%*%t(X1)
SCReg1<- t(Y)%*%H1%*%Y =287.448
Escuchar aproximadamente minuto 40 (aclaración sobre código – 1 no se ve, sino coloco -1, etc).

SCReg2 = YtH2Y

H2 matriz de proyección construida en base a resid(impuesto~1+lic)

Si cambio orden SCT suma lo mismo, pero se reparten distinto los valores en SCRegi

RECUERDE: ¡La Suma Cuadrada asociada a un predictor dado depende de su orden de ingreso en el modelo!
EPG3318 Modelos Lineales 25.09.2018

Coeficiente de correlación lineal parcial

¿Cómo me ayuda a tomar decisiones?


Considere un problema de regresión con (p − 1) predictores, x1, . . . , xp−1. El coeficiente de correlación lineal parcial
entre la variable respuesta, Y, y el predictor xj, descontando el efecto de los predictores restantes, x(−j), corresponde al
coeficiente de correlación lineal entre:

resid(Y ∼ x(−j)) y resid(xj ∼ x(−j))


La anotaremos como: ρ(Y, xj | x(−j))

Ejercicio 1: En el problema sobre arriendos de viviendas en Munich, encuentre el coeficiente de correlación lineal parcial
entre el monto del arriendo y el área de la vivienda, descontando el efecto de los predictores restantes.

Y: arriendo (Euros) Predictores: Área, Calefacción, Ubicación

¿Es necesario ingresar el área cuando la calefacción y la ubicación ya están en el modelo?

Primero: hacer factores lo que son factores


Calefacción<-as.factor(calefacción)
Ubicación<-as.factor (ubicación)
R1<-resid(lm(arriendo~calefacción+ubicación))
R2<-resid(lm(area~calefacción+ubicación))
cor(r1,r2) = 0.506
Interesa la relación entre arriendo y área
R1<-resid(arriendo~calefacción+ubicación)
R2<-resid(area~calefacción+ubicación)

sin descontar efecto calefacción y ubicación de la correlación

Era cor(arriendo,área)

¿Cuándo espero que cambie ambas correlaciones, con y sin descontar?

¿Cuándo no aporta nada sobre lo que ya está?

Cuando hay independencia entre los predictores “área y calefacción” (no muy relacionado) y “área y ubicación” (no muy

relacionado)
EPG3318 Modelos Lineales 25.09.2018
Ejercicio 2: Realice una simulación para estudiar el comportamiento del coeficiente de correlación lineal parcial cuando
los predictores son colineales.
set.seed(3)
h<-80
lambda<-1
x1<-rexp(n,lambda)
x2<-5*x1+3
plot(x1,x2) (muy correlacionado)

Invento modelo
Y<-beta0+beta1*x1+beta2*x2+rnorm(0,)
beta0<-1
beta1<-2
beta2<-3
#Efecto de x2
plot(x2,Y)
cor(Y,x2) =0.89
# si x1
r1<-resid(lm(Y~x1))
r2<-resid(lm(x2~x1))
plot(r2,r1)
round(r2,10) : r1 se explica perfecto en r2 (totalmente colineales)

cor(r1,r2) =0.0011 (técnicamente 0, sólo por aproximación con decimales).

¿Qué gráfico podría mirar para que es el caso contrario? TAREA

En el ejercicio 1

¿Esto implica que debe tener baja asociación entre área y los dos predictores restantes?
EPG3318 Modelos Lineales 02.10.2018
Tests F secuenciales:

Inclusión de un nuevo predictor en el modelo:

Considere un problema de regresión con (p − 1) predictores, x1, . . . , xp−1 y suponga que los predictores x1, . . . , xj−1 ya han
sido incluidos en el modelo. Para decidir la inclusión del predictor xj, se propone utilizar el coeficiente de correlación lineal
parcial entre la respuesta, Y, y xj, descontando el efecto de los predictores ya incluidos. Se plantean las hipótesis:

El predictor xj será incluido en el modelo solo si se encuentra evidencia significativa de que H1 es cierta.

Tests F parciales

Eliminación de un predictor del modelo:

Considere un problema de regresión con (p − 1) predictores, x1, . . . , xp−1 y suponga que todos los predictores ya han sido
incluidos en el modelo. Para decidir la eliminación del predictor xj, se propone utilizar el coeficiente de correlación lineal
parcial entre la respuesta, Y, y xj, descontando el efecto de todos los predictores restantes. Se plantean las hipótesis:

El predictor xj será eliminado del modelo si no se encuentra evidencia significativa de que H1 es cierta.

Estadístico del test:

Utilizando matrices de proyección, se puede demostrar que, bajo la hipótesis nula, el estadístico:

donde MCE corresponde a la Media Cuadrática el Error del modelo completo,

con Hj la matriz de proyección construida a partir de los residuos de la regresión:

sigue una distribución Fisher con 1 y (n − p) grados de libertad, donde p corresponde al número de coeficientes del modelo
completo.

Con significancia α, no podemos rechazar H0, y eliminamos el predictor xj del modelo, si o si:

donde p corresponde al número de parámetros del modelo completo.


Selección de modelos Forward

La primera variable tiene mayor correlación con variable respuesta, pero con variables categóricas no se puede
calcular correlación. Encontrar el valor p más chico para todos los predictores.

Basada en test F secuenciales:

Se ajustan las (p − 1) regresiones lineales simples, e ingresa al modelo el predictor con el menor valor-p asociado
al test F, si éste es menor a un valor α, preespecificado. En caso de no existir, finaliza el procedimiento y se reporta el
modelo nulo.

Se ajustan las (p − 2) regresiones lineales con dos predictores: el predictor ya ingresado y cada uno de los
predictores restantes y se obtiene el valor-p de cada test F secuencial. Ingresa al modelo el predictor con el menor valor-
p, si éste es menor a un valor α, preespecificado. En caso de no existir, finaliza el procedimiento y se reporta el modelo
con un predictor.

Se prosigue hasta que:

• No existan tests F secuenciales significativos


• Hayan ingresado al modelo todos los predictores disponibles
• Se haya alcanzado un número máximo de predictores preespecificado
EPG3318 Modelos Lineales 02.10.2018

Segundo Paso

Modelo Inicial ~1+área

p= número total de parámetros en el modelo 1,2,3,4 =4

SCReg = Yt Hj Y

Hj : aporte de ubicación cuando ya está el área y la constante.

Ubicación tiene dos columnas de 0 y unos. La primera si estoy en la ubicación 2 y la segunda si estoy en la ubicación 3.
resid(ubic2~1+área)
Xf* → Hj ambos son columnas
resid(ubic3+1+área+ubic2)
con estas columnas se construye la matriz H que se puede construir con cualquier cosa.
𝑆𝑆𝑆𝑆𝑆𝑆 𝑜𝑜𝑜𝑜 𝑠𝑠𝑠𝑠. 171877
= = 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆
𝑑𝑑𝑑𝑑 2
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 171.877
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = = =
2 2
𝑆𝑆𝑆𝑆𝑆𝑆 4.6 ∗ 106
𝑀𝑀𝑀𝑀𝑀𝑀 = =
𝑛𝑛 − 𝑝𝑝 200 − 4
Modelo: cte,área, 2 parámetros x ubicación = total 4 parámetros
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝐹𝐹 = = 3.65 valor-p = 1-pf(3.65,2.196)
𝑀𝑀𝑀𝑀𝑀𝑀
Entraría calefacción en el segundo paso.

Ubicación de 0.06 > que 0.05 no entra

add1 = hacerle para el proyecto de modelos

Selección de modelos Backward

Ahora al revés me fijo lo que no es significativo. Tengo ubicación los otros dos quedan signigicativos en el modelo.

Basada en tests F parciales:

Se ajusta el modelo completo obteniéndose los (p − 1) valores-p asociados a los tests F parciales de los (p − 1)
predictores. Se elimina del modelo el predictor con el mayor valor-p, si éste mayor a un valor α, preespecificado. En caso
de no existir, finaliza el procedimiento y se reporta el modelo completo.

Se ajustan el modelo con (p − 2) predictores, obteniéndose los (p − 2) valores-p asociados a sus tests F parciales.
Se elimina del modelo el predictor con el mayor valor-p asociado su test F, si éste mayor a un valor α, preespecificado. En
caso de no existir, finaliza el procedimiento y se reporta el modelo con (p − 2) predictores.

Se prosigue hasta que:

• Todos los tests F parciales son significativos


• Se hayan eliminado todos los predictores (en cuyo caso, se reporta el modelo constante)
• Se haya alcanzado un número mínimo de predictores preespecificado

Selección de modelos Stepwise:

Forward: se revisa que cuando agrego una beta1 que ya no sea significativo F parciales (drop1).

Basada en tests F secuenciales y parciales:

Corresponde a una modificación del método de selección Forward

En cada paso, todos los predictores introducidos en el modelo se re-evalúan a través de sus tests F parciales. Un
predictor añadido en un paso anterior puede ahora ser redundante debido a relaciones entre éste y el nuevo predictor
añadido.

El método termina cuando:

• Se tenga un conjunto de predictores de tamaño predeterminado


• No haya más predictores candidatos a ser incluidos o a ser eliminadas según sus tests F secuenciales o
parciales, respectivamente.
modelo<-lm(arriendo~area+calefacción+ubicación)
drop1(modelo,test=”F”)
F value = F parcial

Si se quiere botar alguno y resulta no significativo, no se ingresa el que pensaba ingresar.

Test F para tomar decisiones, secuenciales, parciales.

R2

CpMallows

AIC
EPG3318 Modelos Lineales 02.10.2018
Criterios de Comparación de Modelos

Algunos estadísticos útiles para comparar modelos:

Suponga que se dispone de un grupo de potenciales predictores y se quiere encontrar un modelo adecuado para
explicar la variable respuesta. Algunos estadísticos para evaluar la calidad de un modelo corresponden a:

1. R2 Ajustado
2. Cp de Mallows.
3. Estadístico Press de Validación Cruzada
4. Criterio de Información de Akaike (AIC)
5. Criterio de Información Bayesiano (BIC)

R2-ajustado

Recordemos que:

representa el porcentaje de variación de la respuesta que es explicada por la regresión y que, en principio, buscamos
modelos con valores altos, cercanos a 1. Números entre 0 y 1 que porcentaje de la variabilidad total el modelo es capaz
de explicar?

R2 mejor que otro ¿Qué significa? R2 ajustado = coeficiente de determinación

SCT = SCReg +SCE

(coeficiente de correlación)2 (x,y) = R2 = cor2(x,y)

Problemas que puede tener el R2 y necesidad de ajuste.

El problema de este estadístico es que él crece al aumentar el número de coeficientes en el modelo, no importando la
calidad de los mismos.

Penalización: Modelos son penalizados por el número de coeficientes que utilizan, p. Se define el estadístico R2-ajustado
como:

Note que esta función es decreciente en p.

Ejercicio 1: modelo 1: simple


calefacción<-as.factor(calefacción)
ubicación<-as.factor(ubicación)
cor(arriendo, área)^2 arriendo es la respuesta y área el predictor. = 0.2407574 arriendo~area

R2 = 24% de la variabilidad de la respuesta es explicada por el modelo. Se cumple (0.49)2=0.24

cor(area,arriendo)
¿Cómose tabula?

Modelo R2 #coeficientes R2-ajustado


Área 24.08% 2 23.69%
Área+x2 243.36% 3 23.59%
ubicación 2 5.03%

O en casos extremos siempre mayor que cero por construcción matemática de R2 siempre crece. Pagar el precio de tener
otro parámetro

Summary:

Modelo 1 c/1 predictor R2 = 0.2408 a> p + la penalizo.

Modelo sólo tiene área = R2 ajustado = 0

Modelo sólo ubicación = R2 ajustado = 0.05036

Se prefieren modelos con R2 ajustado alto

Cp de Mallows

Dados los predictores disponibles, se compara con el modelo más chico. Dado los predictores disponibles, el
modelo más grande que podemos construir tiene m coeficientes. Queremos evaluar modelo con p coeficiente completo.

Y~x1+x2+..+xn-1 → SCEp p-1 ≤ m-1

¿Qué pasa si calculamos el modelo completo? ¿con su calidad?

p =m
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆
𝐶𝐶𝐶𝐶 = + 2𝑚𝑚 − 𝑛𝑛
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝑛𝑛 − 𝑚𝑚
=n-m+2m-n =m Definición del algoritmo

Hay un modelo “verdadero” (supuesto) E(Cp) = P (número de coeficientes del modelo ( por construcción no se prefiere)

En general buscamos modelos cuyo CP aprox p (notando eso sí que CP de Mallows de modelo completo SIEMPRE es
igual a su número de parámetros).

Suponga que se tiene un modelo con p coeficientes, anidado en un modelo con un total de m coeficientes, que
utiliza la totalidad de los predictores disponibles. Se define el coeficiente Cp de Mallows como:

donde:

• SCEp corresponde a la suma cuadrada del error del modelo que está siendo evaluado
EPG3318 Modelos Lineales 02.10.2018
�2
• 𝜎𝜎𝑚𝑚 corresponde a la media cuadrática del error del modelo completo, con m coeficientes
• el término 2p es una penalización por el número de coeficientes del modelo
• el término n se utiliza por conveniencia

Resultado importante:

1. Si el verdadero modelo tiene p coeficientes, entonces:

y se puede mostrar que, en ese caso, E(Cp) = p.

Luego, se busca modelos tales que su coeficiente Cp de Mallows sea, a lo más, su número de coeficientes, p.

En R: Función Leaps: evalúa todos los modelos. Prueba muchos predictores ordenadospor Cp, por R2

Sigma gorro = siempre es del modelo completo

P = número de coeficientes del modelo evaluado

N =200

Cp =

Estadístico Press de validación cruzada

El estadístico Press se utiliza cuando se desea encontrar un modelo con buenas cualidades predictivas y, por ello,
se basa en los errores de predicción.

El i-ésimo error de predicción, e(i), corresponde a la diferencia entre la i-ésima observación y su valor predicho
cuando se ajusta el modelo sin ella. Es decir,

El estadístico Press corresponde a:

donde ei corresponde al i-ésimo residuo del modelo, y hii a la palanca de la i-ésima observación.

Desearíamos que Press fuese pequeño.

Validación cruzada / predicción: depende del orden de amplitud la variable respuesta.


e1<-resid(modelo1)
h1<-ls.diag(modelo1)$hat
p1<-sym((e1/(1-h1))12)

Criterio de Información de Akaike, AIC

Para evaluar cualquier modelo, No sólo regresión.

Si el modelo es correcto la verosimiltud debiese ser grande. Se evalúa teta en el estimador máximo Verosimil.

Se penaliza por el número total de parámetros 2K.


EPG3318 Modelos Lineales 02.10.2018
AIC: Considere un modelo para datos x1, . . . , xn, con verosimilitud L(θ, x). El criterio de información de Akaike se define
como:

(lo más pequeño posible)

donde 𝜃𝜃� corresponde al estimador de máxima verosimilitud de θ y k al número de parámetros del modelo.

Valores pequeños de este estadístico representan modelos con alta verosimilitud y pocos parámetros y, por tanto,
son deseables.

Ejercicio 1: Muestre que, para un modelo de regresión lineal múltiple con p coeficientes, el estadístico AIC corresponde
a:
Matriz de diseño: columnas p = ncol(x) = p

Queremos AIC pequeño. Permite comparar modelos de distinto tipo.

Criterio de Información Bayesiano, BIC

BIC penaliza por (Log n)

log n = criterio de información Bayesiana

R -< BIC (modelo) lo da directamente

Dos modelos se elige el modelo más pequeño / por comparación


EPG3318 Modelos Lineales 02.10.2018
BIC: Este estadístico reemplaza el valor de la constante de penalización del estadístico AIC:

En el caso de regresión lineal múltiple esto queda:

Valores pequeños de este estadístico representan modelos con alta verosimilitud y pocos parámetros y, por tanto, son
deseables.

Una interpretación interesante del estadístico BIC:

Suponga que se desea comparar k potenciales modelos para los datos:

M1, M2, . . . , Mk, con parámetros θ1, . . . , θk, respectivamente. A modo de ejemplo:

En este caso,

Bajo el enfoque Bayesiano:

Se desea elegir el modelo que tenga la mayor probabilidad de ser cierto a la luz de los datos, es decir, el modelo que
maximiza:

Si, antes de ver los datos, se estima que todos los modelos tienen la misma probabilidad, entonces se puede demostrar
que:

Luego, elegir el modelo con el menor estadístico BIC es equivalente a elegir el modelo con la mayor probabilidad de ser
cierto a la luz de los datos.
EPG3318 Modelos Lineales 09.10.2018
Diagnósticos de un Modelo Ajustado

Diferentes situaciones, un mismo ajuste:

En todos los casos:

¿Cómo distinguir entre estas situaciones?

Si se ven los puntos, en los cuatro se ve la misma recta y la misma media cuadrática del error y R2.

• gráfico b) curvatura, pero pasos no pasan por la recta. La media no sería lineal en el predictor.
• gráfico c) punto de palanca que está lejos del centro de los datos.
• gráfico d) Hay un punto que tiene una gran palanca en la derecha. La recta depende mucho de un sólo punto.
Este es un problema de la recolección de datos.
• gráfico a) el mejor.

Selección de los modelos: que los residuos sean bonitos.

Revisión de supuestos:

Se debe revisar: (Todos los supuestos los puedo revisar en los errores)

1. ¿Está bien identificada la función para la media?


2. ¿Es constante la varianza?
3. ¿Es válido el supuesto de normalidad?
4. ¿Son independientes los errores?
5. ¿Vienen todos los datos del mismo modelo?
Los residuos como indicadores de ajuste: (Vamos a ver como deberían distribuir los residuos)

Distribución de los errores: Los supuestos del modelo se relacionan directamente con los supuestos sobre los errores. El
modelo afirma que:

Estudiaremos las propiedades de los residuos

para ayudar a revisar los supuestos.

Ejercicio 1: (distribución de los residuos)

Encuentre la distribución de los residuos, asumiendo que se cumplen los supuestos del modelo. Compárela con la
distribución de los errores.
EPG3318 Modelos Lineales 09.10.2018
Tener bien clara la diferencia entre errores y residuos. Tengo que hacerle ciertas adaptaciones a los residuos. Ahora vamos
a ver los residuos studentizados.

Residuos estandarizados (o internamente studentizados):

Para igualar varianzas, se definen los residuos estandarizados como:

donde hii corresponde al i-ésimo elemento en la diagonal de la matriz H. Se verifica que:

Si los supuestos sobre los errores son válidos,

Residuos (externamente) studentizados: Los residuos studentizados corresponden a:

donde 𝜎𝜎�(𝑖𝑖) corresponde al estimador de σ al ajustar el modelo sin la i-ésima observación. Si los supuestos sobre los errores
son válidos, se cumple que:

Sigma cuadrado remuevo la observación que puede ser outlier. Con estas herramientas vamos a chequear los supuestos.
Validación del modelo a través de los residuos

1. ¿Está bien identificada la función para la media?


Para verificar este supuesto, podemos analizar los gráficos:

Se busca que no existan patrones o formas. En caso de existir, se debe explorar transformaciones de las
variables (más sobre esto en Sesión 9).

Buscamos un patrón en los gráficos. Si están bien identificadas o no. Graficamos residuos versus predictores
(varios gráficos) o gráfico errores con valores ajustados.

2. ¿Es constante la varianza de los errores?

Para verificar este supuesto, podemos analizar los gráficos:

Se busca que las amplitudes verticales en las figuras sean similares en la medida en que se recorre el eje de las
abscisas. En caso de no ser así, se debe considerar ajustar el modelo utilizando Mínimos Cuadrados Ponderados (más
sobre esto en Sesión 10).

ri o ti tienen que tener la misma varianza. Busco la amplitud vertical similar. Más que corregirlo, lo tomo en cuenta
cuando tomo los beta gorro. No necesariamente hay que transformar la variables.

Ejercicio 2: Los siguientes gráficos representan el comportamiento de residuos estandarizados. Utilícelos para evaluar los
supuestos del modelo.
EPG3318 Modelos Lineales 09.10.2018
Busco si la media está bien especificada. Que no haya una forma o figura.

• gráfico a) no se ven patrones. Está bien identificada la media, Varianza, las amplitudes arriba y abajo son similares.
• Gráfico b) la varianza crece con el predictor.
• Gráfico c) La varianza decrece con el predictor
• Gráfico d) La varianza crece y decrece.
• En ningún gráfico hay problemas de media.
• gráfico e) una curvatura muy clara. Los predictores no son lineales. La media está mal especificada. No hay
problema de variabilidad.
• gráfico f) varianza ok, pero media mal especificada, porque veo patrón.
• Gráfico g) varianza no está bien distribuida. Todos los positivos y los negativos después es por un problema de
media
• gráfico h) problema de media igual que en g. Varianza se va ampliando.

Media mal especificada se refiere

3. ¿Es válido el supuesto de normalidad de los errores?

La distribución empírica de los residuos estandarizados corresponde a

Si ordenamos los residuos estandarizados de menor a mayor, r(1), . . . , r(n), buscamos los cuantiles de la distribución
Normal equivalentes a ellos:

Podemos comparar cada r(i) con el valor z(i) asociado. El gráfico de éstos se denomina qqplot.

Se busca que los puntos en el gráfico desplieguen una figura cercana a una recta. Pequeñas desviaciones en las colas son
aceptables.

También pueden realizarse prueba de Normalidad como las de Kolmogorov-Smirnov, Shapiro-Wilk o Anderson-Darling.

Vemos el qqplot.

i) pongo todas las observaciones co una misma distribucion (estandarizo los residuos)

4. ¿Son independientes los errores?

El test de Durbin-Watson está diseñado para detectar correlación temporal en los errores, en la forma:
En este caso,

y la matriz de varianzas y covarianzas de los errores corresponde a:

Aquí es difícil saber. Porque los test de independencia son para casos muy particulares. Durbin Watson, sólo chequea
si a matriz de varianza es la que se muestra en la diapo.

Durbin Watson: mide si el error de hoy depende del de ayer. Esto es de arrastre a través del tiempo y la correlación
va decreciendo.

Hipótesis del test: Interesa testear las hipótesis:

El estadístico del test está dado por:

Si Ho: rho =0. Sólo se usa el test de Darwin Watson para series de tiempo. Sino no me sirve.

En R es posible realizar este test a través de la función dwtest de la librería lmtest.

5. ¿Vienen todos los datos del mismo modelo?

Si el modelo es cierto, los residuos estandarizados siguen una distribución aproximadamente Normal, y los
residuos studentizados una distribución aproximadamente t-student.

Un residuo (estandarizado o studentizado) proveniente de las colas de su distribución asociada es indicación de


que la observación proviene de otro modelo, lo que la identifica como observación anómala o outlier.

Un outlier debe ser reportado. Sin embargo, no siempre corresponde a una observación problemática. Esto ocurre
cuando, además, la observación es influyente.
EPG3318 Modelos Lineales 09.10.2018
Chequeo los outliers. Ver si todos los residuos estandarizados son consistentes con una normal, 0, 1 o tienen colas.
47 min.....

Medidas de influencia

Observaciones extremas: Corresponden a observaciones en que el predictor está muy alejado de los valores de los
predictores del grueso de las observaciones, como la observación a la derecha en cada una de las figuras:

La observación en el gráfico a la derecha es considerada influyente (¿por qué?)

Datos islas galápagos


## Ver datos originales sin residuos
plot(area, número) ---punto arriba que detemrina mucho(gráfico no muy lindo)
plot(elevacion, número) ---- una recta que estaría más balanceada
plot(cercana, numero) ---

modelo<-lm(numero~area+elevación)
e<- resid(modelo)
R<-ls.diag(modelo$st.res ## residuos estandarizados
t<-ls.diag(modelo)$stud.res ###residuos studentizados

plot(area,e)
abline(h=0)
plot(elevación, e)
abline(h=0)
plot(fitted(modelo),e)

#### 1. está bien identificada la función de la media

###2. SCte la varianza


plot(area,r)
plot(fitted(modelo),r)
corro el mismo código, pero con los estudentizados (t)

###3. Válido supuesto normalidad


qqnorm(r)
qqnline(r)
Los puntos en las colas son los mismo outliers de siempre. Por tres outliers
no voy a invalidar el modelo. No se ve una curvatura tremenda en el centro. No se
ve que sea un problema de normalidad.
shapiro.test(r) #### p-value 0.006731 (rechaza normalidad, pero puede ser por
los outliers)

### viene todos los datos del mismo modelo


a<-max(abs(r),196)
Veo gráfico con barras para identificar outliers.
si saco los outliers y corro shapiro denuevo me da p-value =0.7438

de la derecha es influyente (tira la recta hacia abajo). Palanca y efecto residuos grandes es peligroso.

Puntos de influencia:

Notemos que los valores ajustados pueden expresarse como:

Donde

Luego, los coeficientes hii, denominados palanca, representan el peso que tiene cada observación para
determinar su valor ajustado.

Se demuestra que luego, si todos los puntos tienen igual influencia en el ajuste del modelo,

entonces

Una observación se considera influyente si:


EPG3318 Modelos Lineales 09.10.2018

¿En qué casos hii es grande?

Se puede demostrar que si 𝒙𝒙 � corresponde al vector de promedios de los (p − 1) predictores, y X corresponde a la


matriz de los (p − 1) predictores centrados,

Es decir, la palanca de una observación crece en la medida en que los valores de sus predictores se alejan del
vector de promedios.

En qué casos a palanca es grande. El tener o no palanca depende sólo de los valores del predictor.

Distancias de Cook:

Diseñadas para medir el cambio en los valores estimados de las observaciones cuando una observación particular es
omitida de la muestra. Se define como:

Una observación se considera influyente si:

Ve la influencia de cada observación sobre los valores ajustados


Dfits:

Miden la influencia de cada observación sobre sus valores ajustados. Se define como:

Se considera un indicio de influencia si:

Cuando no está el valor, como cambia el valor ajustado de sí misma (cuando ella está o no está).

Ver porque puntos 4 y 114 son tan distintos. Investigar un poco por qué. Caso a caso, y ahí se eliminó tengo que
hacer un análisis previo a eliminar el dato. Lo saco si su comportamiento no se ajusta a lo que es general. Si es un outlier
es poco probable que sea problema de un modelo más especificado. Si hay muchos, ahí si es posible que sea porque, por
ejemplo, no consideré todas las variables.

Saco sólo si es outlier e influencia, no sólo por ser outlier.


EPG3318 Modelos Lineales 09.10.2018

Otras medidas de influencia:

DFBETASj(i): Mide el efecto de cada observación sobre el estimador del j-ésimo coeficiente.

COVRATIO: Mide el efecto de cada observación sobre la matriz de varianzas-covarianzas de los parámetros estimados.
EPG3318 Modelos Lineales 16.10.2018
Transformación de Variables

Situación 1: En Chile, la industria del salmón ha alcanzado altos niveles de producción y exportación, abasteciendo a más
de 70 mercados en el mundo. Un aspecto importante corresponde a la predicción del peso de salmón extraído. La figura
muestra el peso de los salmones versus su longitud, en una muestra de 56 de ellos.

¿Está bien especificada la media de las observaciones?

Se ajustó el modelo de regresión lineal: peso ~ longitud

La figura muestra el comportamiento de los residuos:

Situación 2: En un estudio morfológico de las especies, se intenta explicar el peso del cerebro (en gramos) de 62
mamíferos en términos del peso de su cuerpo (en kilos).

Exploración de transformaciones:
Se requiere de estrategias sistemáticas para determinar transformaciones adecuadas.
EPG3318 Modelos Lineales 16.10.2018
Estrategias de búsqueda

Estudiaremos las siguientes alternativas:

1. Transformación de la variable respuesta: métodos de Box-Cox y de Atkinson


2. Transformación del (de los) predictor(es)

Transformación de Box-Cox

El método de Box-Cox para buscar transformaciones adecuadas, explora la familia de potencias y logaritmo, de las
formas:

Si la variable U = fλ(Y) es la transformación buscada, el modelo correcto corresponde a:

El método de Box-Cox:

Encuentra la función de verosimilitud de los datos, Y, multiplicando la función de verosimilitud de U por el determinante
del Jacobiano de la transformación.

Trabaja esta función de verosimilitud de forma que ésta queda expresada en términos de la Suma Cuadrada del Error de
una regresión de la forma:

Z~X
𝑼𝑼
Donde 𝒁𝒁 = con G media geométrica de los datos:
𝐺𝐺 𝜆𝜆−1

Luego:

1. Recorre valores de λ, ajustando la regresión de Z y obteniendo su Suma Cuadrada del Error. Se muestra que
maximizar la función de verosimilitud es equivalente a minimizar esta Suma Cuadrada.
2. Encuentra numéricamente el valor de λ que la minimiza.

Ejercicio 1: Se piensa que, para ciertas iglesias correspondientes a una misma escuela arquitectónica, existe una estrecha
relación entre su perímetro y su área. Para estudiar esta conjetura se cuenta con observaciones referentes a 25 iglesias.
Ajuste un modelo de regresión lineal a los datos y visualice el comportamiento de los residuos. Utilice el método de Box-
Cox para determinar una transformación de la variable respuesta que mejore este comportamiento.

Intervalo de confianza para λ:

Un intervalo de confianza (1 - α)100% está dado por todos los valores de λ tales que:
donde 𝜆𝜆̂ corresponde al valor que minimiza SCE(Z(λ)) o, equivalentemente, maximiza la función lmax. Note que el valor
𝜆𝜆̂ = 1corresponde a no realizar transformación a los datos.

Ejercicio 2: Encuentre un intervalo de confianza para _ en el modelo para las áreas de las iglesias.

Ejercicio 3: Transforme los datos según sugerido por el método de Box-Cox y evalúe nuevamente la pertinencia del
supuesto de linealidad de la (nueva) media.

Transformación de Atkinson
Características de la propuesta:

1. La búsqueda de transformaciones se realiza dentro de la familia de potencias y logaritmo.


2. Para encontrar la mejor transformación se requiere una única regresión.
3. Entrega un test de hipótesis para la necesidad de realizar una transformación y entrega un intervalo de confianza para el parámetro que la
determina.

Propuesta: Considere la familia de transformaciones dada por:

La expansión de Taylor de primer orden para Z, alrededor de λ= 1 corresponde a:

Si escribimos:

entonces:

donde c es una constante que no depende de Y. Igualando esta expansión de Z a Xβ + ϵ se obtiene:

donde γ= 1 - λ y la matriz X contiene la columna asociada al término constante.


EPG3318 Modelos Lineales 16.10.2018
• Atkinson propone estimar el modelo en la expresión (1) a través de Mínimos Cuadrados, y estimar λ
por 𝜆𝜆̂ = 1 − 𝛾𝛾�
• El gráfico: resid(Y ~ x) ~ resid(u(Y) ~ x)
puede ser de utilidad para detectar la necesidad de transformación.
• Es posible estimar γ por Mínimos Cuadrados, construir un intervalo de confianza para λ y realizar un test de
hipótesis para evaluar la necesidad de transformación.

Ejercicio 4: Utilice el método de Atkinson para buscar una posible trasformación al peso de los salmones, para ser
explicado en términos de su longitud, en el problema planteado al comienzo de la clase.

Ejercicio 5: Utilice el método de Atkinson para buscar una posible trasformación al área de las iglesias, para ser explicada
en términos de su perímetro.

Transformación de los Predictores


Distinguimos dos casos en la transformación de predictores.

En el primero, la respuesta alcanza un máximo en el rango de los predictores. En este caso, usamos potencias enteras: 𝑥𝑥12 , 𝑥𝑥13 ,etc. Es decir, hacemos
transformaciones a regresiones polinomiales.

Alternativamente, la respuesta puede ser monótona, en dicho caso, otras potencias en el rango (-2; 2) pueden ser utilizadas.

Consideremos el modelo lineal:

y consideremos transformaciones del predictor x1 del tipo

es decir, exploramos transformaciones análogas a las transformaciones de la variable respuesta propuestos por Box-Cox
y Atkinson.

Consideremos ahora el modelo que incluye una relación no lineal entre Y y x1:

Para linealizar este modelo, utilizaremos la expansión de Taylor de primer orden para v(α) en torno a α = 1:

El modelo queda:
con:

El procedimiento propuesto consiste en estimar β1 por Mínimos Cuadrados en la regresión que sólo incluye el término lineal en x1, 𝛽𝛽1
� , y luego
ajustar el modelo en la ecuación (3) para obtener 𝜂𝜂̂ . De este modo, estimamos α por:

Esto permite obtener un intervalo de confianza para α y realizar un test de hipótesis para determinar la necesidad de transformación.

Ejercicio 6: Con el objeto de explicar el contenido de mercurio detectado en róbalos de lago en términos de las características del agua, entre agosto
de 1990 y marzo de 1991 fueron tomadas muestras de agua de la superficie de 53 lagos, midiéndose, entre otras variables, la alcalinidad del agua,
expresada por el contenido de carbonato de calcio (mg/lt), y el contenido de mercurio en el tejido muscular en una muestra de peces en cada lago
(en partes por millón). Los datos corresponden a los promedios observados en cada lago. Explore una posible transformación del predictor para
mejorar la calidad del modelo.
M ODELOS L INEALES
Sesión 9

Ana Marı́a Araneda

Modelos Lineales 1 / 24
Transformación de variables

Situación 1:
En Chile, la industria del salmón ha alcanzado altos niveles de producción y
exportación, abasteciendo a más de 70 mercados en el mundo. Un aspecto
importante corresponde a la predicción del peso de salmón extraı́do. La figura muestra
el peso de los salmones versus su longitud, en una muestra de 56 de ellos.

Modelos Lineales 2 / 24
¿Está bien especificada la media de las observaciones?
Se ajusó el modelo de regresión lineal:

peso ∼ longitud.

La figura muestra el comportamiento de los residuos:

Modelos Lineales 3 / 24
Situación 2:
En un estudio morfológico de las especies, se intenta explicar el peso del cerebro (en
gramos) de 62 mamı́feros en términos del peso de su cuerpo (en kilos).

Modelos Lineales 4 / 24
Exploración de transformaciones:
1 1

peso cerebro peso cuerpo

Modelos Lineales 5 / 24
(peso cerebro)1/3 ∼ (peso cuerpo)1/3

Modelos Lineales 6 / 24
log(peso cerebro) ∼ log(peso cuerpo)

Se requiere de estrategias sistemáticas para determinar transformaciones adecuadas.

Modelos Lineales 7 / 24
Estrategias de búsqueda

Estudiaremos las siguientes alternativas:


1 Transformación de la variable respuesta: métodos de Box-Cox y de Atkinson

2 Transformación del (de los) predictor(es)

Modelos Lineales 8 / 24
Transformación de Box-Cox

El método de Box-Cox para buscar transformaciones adecuadas, explora la familia de


potencias y logaritmo, de las formas:
Y λ −1

λ , λ 6= 0
fλ (Y) =
log Y, λ=0
Si la variable U = fλ (Y) es la transformación buscada, el modelo correcto
corresponde a:
U ∼ Normal(Xβ, σ 2 I).

Modelos Lineales 9 / 24
El método de Box-Cox:
1 Encuentra la función de verosimilitud de los datos, Y, multiplicando la función de
verosimilitud de U por el determinante del Jacobiano de la transformación.

2 Trabaja esta función de verosimilitud de forma que ésta queda expresada en


términos de la Suma Cuadrada del Error de una regresión de la forma:

Z ∼ X,
λ−1
donde Z = U/G , con G media geométrica de los datos:
n
Y 1/n
G= Yi .
i=1

Modelos Lineales 10 / 24
Luego:
1 Recorre valores de λ, ajustando la regresión de Z y obteniendo su Suma
Cuadrada del Error. Se muestra que maximizar la función de verosimilitud es
equivalente a minimizar esta Suma Cuadrada.

2 Encuentra numéricamente el valor de λ que la minimiza.

Modelos Lineales 11 / 24
Ejercicio 1:
Se piensa que, para ciertas iglesias correspondientes a una misma escuela
arquitectónica, existe una estrecha relación entre su perı́metro y su área. Para
estudiar esta conjetura se cuenta con osbervaciones referentes a 25 iglesias. Ajuste
un modelo de regresión lineal a los datos y visualice el comportamiento de los
residuos. Utilice el método de Box-Cox para determinar una transformación de la
variable respuesta que mejore este comportamiento.

Modelos Lineales 12 / 24
Intervalo de confianza para λ:
Un intervalo de confianza (1 − α)100% está dado por todos los valores de λ tales que:
1
lmax (λ) ≥ lmax (λ̂) − χ21,1−α ,
2
donde λ̂ corresponde al valor que minimiza SCE(Z(λ)) o, equivalentemente, maximiza
la función lmax . Note que el valor λ̂ = 1 corresponde a no realizar transformación a los
datos.

Ejercicio 2:
Encuentre un intervalo de confianza para λ en el modelo para las áreas de las iglesias.

Ejercicio 3:
Transforme los datos según sugerido por el método de Box-Cox y evalúe nuevamente
la pertinencia del supuesto de linealidad de la (nueva) media.

Modelos Lineales 13 / 24
Transformación de Atkinson

Caracterı́sticas de la propuesta:
La búsqueda de transformaciones se realiza dentro de la familia de potencias y
logaritmo.

Para encontrar la mejor transformación se requiere una única regresión.

Entrega un test de hipótesis para la necesidad de realizar una transformación y


entrega un intervalo de confianza para el parámetro que la determina.

Modelos Lineales 14 / 24
Propuesta:
Considere la familia de transformaciones dada por:
 λ
Y −1
 λGλ−1 ,
 λ 6= 0
Z(λ) =

G log Y, λ = 0.

La expansión de Taylor de primer orden para Z, alrededor de λ = 1 corresponde a:


   
Y
Z(λ) ≈ (Y − 1) + Y log − 1 + (1 + log G) (λ − 1)
G
| {z }
dZ |
dλ λ=1

Modelos Lineales 15 / 24
Si escribimos:  
Y
u(Y) = Y log −1 ,
G
entonces:

Z(λ) ≈ c + Y + (λ − 1)u(Y),

donde c es una constante que no depende de Y. Igualando esta expansión de Z a


Xβ +  se obtiene:

Y = Xβ + (1 − λ) u(Y) + 
= Xβ + γ u(Y) + , (1)

donde γ = 1 − λ y la matriz X contiene la columna asociada al término constante.

Modelos Lineales 16 / 24
Atkinson propone estimar el modelo en la expresión (1) a través de Mı́nimos
Cuadrados, y estimar λ por λ̂ = 1 − γ̂.

El gráfico:
resid(Y ∼ x) ∼ resid(u(Y) ∼ x)
puede ser de utilidad para detectar la necesidad de transformación.

Es posible estimar γ por Mı́nimos Cuadrados, construir un intervalo de confianza


para λ y realizar un test de hipótesis para evaluar la necesidad de transformación.

Modelos Lineales 17 / 24
Ejercicio 4:
Utilice el método de Atkinson para buscar una posible trasformación al peso de los
salmones, para ser explicado en términos de su longitud, en el problema planteado al
comienzo de la clase.

Ejercicio 5:
Utilice el método de Atkinson para buscar una posible trasformación al área de las
iglesias, para ser explicada en términos de su perı́metro.

Modelos Lineales 18 / 24
Transformación de los Predictores

Distinguimos dos casos en la transformación de predictores.

En el primero, la respuesta alcanza un máximo en el rango de los predictores. En este


caso, usamos potencias enteras: x12 , x13 , etc. Es decir, hacemos transformaciones a
regresiones polinomiales.

Alternativamente, la respuesta puede ser monótona, en dicho caso, otras potencias en


el rango (−2, 2) pueden ser utilizadas.

Modelos Lineales 19 / 24
Consideremos el modelo lineal:
p−1
X
Y = β0 + βj xj +  (2)
j=1

y consideremos transformaciones del predictor x1 del tipo


(
x1α , α= 6 0
v(α) =
log x1 , α = 0,

es decir exploramos transformaciones análogas a las transformaciones de la variable


respuesta propuestos por Box-Cox y Atkinson.

Modelos Lineales 20 / 24
Consideremos ahora el modelo que incluye una relación no lineal entre Y y x1 :
p−1
X
Y = β0 + β1 v(α) + βj xj + .
j=2

Para linealizar este modelo, utilizaremos la expansión de Taylor de primer orden para
v(α) en torno a α = 1:
v(α) ≈ x1 + (x1 log x1 )(α − 1).

Modelos Lineales 21 / 24
El modelo queda:
p−1
X
Y = β0 + βj xj + β1 (α − 1)(x1 log x1 ) + 
j=1
p−1
X
= β0 + βj xj + ηv(x1 ) + , (3)
j=1

con:
v(x1 ) = x1 log x1 ,
y η = β1 (α − 1).

Modelos Lineales 22 / 24
El procedimiento propuesto consiste en estimar β1 por Mı́nimos Cuadrados en la
regresión que sólo incluye el término lineal en x1 , β̂1 , y luego ajustar el modelo en la
ecuación (3) para obtener η̂. De este modo, estimamos α por:
η̂
α̂ = + 1.
β̂1
Esto permite obtener un intervalo de confianza para α y realizar un test de hipótesis
para determinar la necesidad de transformación.

Modelos Lineales 23 / 24
Ejercicio 6:
Con el objeto de explicar el contenido de mercurio detectado en róbalos de lago en
términos de las caracterı́sticas del agua, entre agosto de 1990 y marzo de 1991 fueron
tomadas muestras de agua de la superficie de 53 lagos, midiéndose, entre otras
variables, la alcalinidad del agua, expresada por el contenido de carbonato de calcio
(mg/lt), y el contenido de mercurio en el tejido muscular en una muestra de peces en
cada lago (en partes por millón). Los datos corresponden a los promedios observados
en cada lago.

Explore una posible transformación del predictor para mejorar la calidad del modelo.

Modelos Lineales 24 / 24
M ODELOS L INEALES
Sesión 10

Ana Marı́a Araneda

Modelos Lineales 1 / 14
El Modelo Heterocedástico

Situaciones frecuentes:
La variabilidad de la respuesta suele variar con la magnitud de sı́ misma o de los
predictores.

Es posible identificar esta situación a través de gráficos de los residuos

En ocasiones, puede ser resuelto simultaneamente al tranformar la función de la


media.

Modelos Lineales 2 / 14
Gráficamente

Modelos Lineales 3 / 14
Mejores estimadores lineales insesgados

Teorema de Gauss-Markov
Considere el modelo de regresión lineal con:

E(i ) = 0, Var(i ) = σ 2

para todo i = 1, . . . , n, con los i no correlacionados. El estimador de Mı́nimos


Cuadrados Ordinarios,
β̂ = (X t X)−1 X t Y
corresponde al estimador de menor varianza dentro de la familia de los estimadores
lineales insesgados para β (BLUE: best Linear Unbiased Estimator).

Problema:
Esta condición se pierde cuando el modelo es heterocedástico o cuando las
observaciones no son no correlacionadas.

Modelos Lineales 4 / 14
Mı́nimos Cuadrados Ponderados

Primera interpretación del método de Mı́nimos Cuadrados Ponderados:


Este método de estimación puede verse como una transformación de las variables de
modo de obtener un modelo homocedástico.

Modelos Lineales 5 / 14
Ejercicio 1:
Se desea utilizar un modelo de regresión lineal para estudiar el efecto de la capacidad
de las refinerı́as de petróleo sobre el volumen de agua utilizado mensualmente.

Se cree que la variabilidad del volumen del agua crece al considerar refinerı́as de
mayor capacidad, cumpliéndose una relación de la forma:

Var (Yi ) = Var (i ) = xi2 σ 2 ,

con σ 2 constante desconocida. Considere la variable:


Yi
Zi = .
xi
Transforme la relación entre las variables de modo de obtener un modelo lineal
homocedástico.

Ejercicio 2:
Estudie la manera de utilizar un software que realice el ajuste de un modelo
homocedástico, para estimar los coeficientes en la relación lineal entre la capacidad
de la refinerı́a y el volumen de agua utilizado.
Modelos Lineales 6 / 14
Ejercicio 3:
Se postula que el volumen de agua utilizado puede ser explicado además por la
capacidad de las torres de enfriamiento, en un modelo sin constante.
1 Transforme las variables de modo de obtener un modelo homocedástico e indique
la manera de ajustar el modelo original utilizando un software que solo entregue
los estimadores de Mı́nimos Cuadrados Ordinarios.

2 Indique cómo obtener un intervalo de confianza para la media del volumen de


agua utilizado cuando la capacidad de la refinerı́a toma el valor x10 y la capacidad
de las torres de enfriamiento toma el valor x20 .

Modelos Lineales 7 / 14
Segunda interpretación del método de Mı́nimos Cuadrados Ponderados:
El método propuesto corresponde al método de Mı́nimos Cuadrados Ordinarios con
función objetivo modificada.

En el Ejercicio 1, la función objetivo de la regresión de Z corresponde a:


n
X
S(α0 , α1 ) = (Zi − α0 − α1 vi )2 ,
i=1

la que es equivalente a:
n
X
SMCP (β0 , β1 ) = ωi (Yi − β0 − β1 xi )2 ,
i=1

con:
1
ωi = , i = 1, . . . , n.
xi2

Modelos Lineales 8 / 14
Método de Mı́nimos Cuadrados Ponderados
El procedimiento corresponde a estimar el vector de coeficientes β minimizando la
función:

SMCP (β) = (Y − Xβ)t W(Y − Xβ),

donde:

W = diag(ωi ),
1
ωi = , i = 1, . . . , n.
vi
donde los vi son tales que Var(Yi ) = vi σ 2 . La solución a este problema de
minimización corresponde a:

β̂ MCP = (X t WX)−1 X t WY,

Modelos Lineales 9 / 14
Teorema de Gauss-Markov
Considere el modelo lineal heterocedástico con

Var(i ) = vi σ 2 ,

para todo i = 1, . . . , n, y los i no correlacionados. El estimador de Mı́nimos Cuadrados


Ponderados,

β̂ MCP = (X t WX)−1 X t WY
W = diag(ωi ),
1
ωi = , i = 1, . . . , n,
vi
corresponde al estimador de menor varianza dentro de la familia de los estimadores
lineales insesgados para β (BLUE: best Linear Unbiased Estimator).

Modelos Lineales 10 / 14
Distribución de β̂ MCP :

β̂ MCP ∼ Normal(β, Var (β̂ MCP )),

donde:
Var (β̂ MCP ) = (X t WX)−1 σ 2 .

En la tabla ANOVA:

SCE = (Y − X β̂ MCP )t W(Y − X β̂ MCP )


SCE
MCE =
n−p
σ̂ 2 = MCE
ˆ (β̂)
Var = (X t WX)−1 σ̂ 2 .

Modelos Lineales 11 / 14
Ejercicio 4:
Un investigador de la salud está interesado en estudiar la relación entre la presión
sanguı́nea sistólica y la edad de las mujeres adultas sanas entre 20 y 60 años de
edad.
Para estudiar esta relación se cuenta con datos correspondientes a 54 mujeres sanas
dentro de dicho rango de edad. Los datos se encuentran en el archivo presion.txt.
Estime el modelo por Mı́nimos Cuadrados Ponderados, suponiendo:
1 Var (i ) = xi σ 2

2 Var (i ) = xi2 σ 2

Modelos Lineales 12 / 14
Mı́nimos Cuadrados Generalizados
Sea el modelo lineal heterocedástico:

Y ∼ Normal(Xβ, σ 2 V),

con V matriz definida positiva arbitraria. El estimador de Mı́nimos Cuadrados


Generalizados de β corresponde al argumento que minimiza la función:

SMCG (β) = (Y − Xβ)t V −1 (Y − Xβ).

La solución a este problema de minimización corresponde a:

β̂ MCG = (X t V −1 X)−1 X t V −1 Y.

El estimador propuesto cumple con:

β̂ MCG ∼ Normal(β, Var (β̂ MCG )),

donde:
Var (β̂ MCG ) = (X t V −1 X)−1 σ 2 .
Modelos Lineales 13 / 14
Teorema de Gauss-Markov
Considere el modelo lineal heterocedástico con

Var() = σ 2 V,

con V matriz definida positiva arbitraria. El estimador de Mı́nimos Cuadrados


Generalizados,

β̂ MCG = (X t V −1 X)−1 X t V −1 Y

corresponde al estimador de menor varianza dentro de la familia de los estimadores


lineales insesgados para β (BLUE: best Linear Unbiased Estimator).

Modelos Lineales 14 / 14
M ODELOS L INEALES
Sesión 11

Ana Marı́a Araneda

Modelos Lineales 1 / 27
Colinealidad entre los predictores

Definición:
Decimos que estamos en presencia de colinealidad si:
Existe dependencia lineal aproximada entre todos o algún subconjunto de
predictores, es decir, existe un vector c = (c0 , c1 , c2 , . . . , cp−1 ) tal que

ct Xt ≈ 0.

Existe una regresión lineal significativa de uno de los predictores sobre un


subconjunto de otros.

Modelos Lineales 2 / 27
Posibles causas:
Observacionales

Existencia real de la relación entre los predictores

Estudiaremos:
Consecuencias

Métodos para detectarla

Algunas sugerencias para manejarla

Modelos Lineales 3 / 27
Consecuencias de colinealidad entre los predictores

Efecto sobre los estimadores de Mı́nimos Cuadrados Ordinarios:


Suponga un problema de regresión lineal con dos predictores, x1 y x2 . Por
conveniencia asumiremos que las variables han sido previamente estandarizadas, de
modo que:
x̄1 = x̄2 = ȳ = 0, y S11 = S22 = Syy = 1.
Dado que las variables han sido centradas, planteamos un modelo sin intercepto,

Y = β1 x1 + β2 x2 + .

Sea r12 la correlación muestral entre x1 y x2 , y sean r1Y y r2Y las correlaciones
muestrales de cada predictor con la variable respuesta.

Modelos Lineales 4 / 27
Estimadores de los coeficientes:
Los estimadores de Mı́nimos Cuadrados Ordinarios corresponden a:
     
β̂1 1 1 −r12 r1y
=
β̂2 2
1 − r12 −r12 1 r2y

¿Qué ocurre si si |r12 | ≈ 1?

Modelos Lineales 5 / 27
Gráficamente

Escenario ideal: predictores ortogonales

Los pares (x1 , x2 ), que se muestran como cruces en el plano inferior, despliegan una zona amplia:
el plano se regresión tiene bastante “apoyo”.

Modelos Lineales 6 / 27
Peor escenario: predictores exactamente colineales

Los pares (x1 , x2 ) despliegan una recta perfecta. El plano de regresión es inestable (existen
infinitas soluciones al problema de minimización).

Modelos Lineales 7 / 27
Escenario intermedio: colinealidad débil

Los pares (x1 , x2 ) no despliegan una recta perfecta, por lo que la solución al problema de
minimización es única. Sin embargo, el plano de regresión tiene poco “apoyo”.

Modelos Lineales 8 / 27
Escenario ideal: predictores ortogonales

La SCE corresponde a una superficie similar a un bowl con un mı́nimo bien definido. (Note que
los ejes corresponden a pares de valores (β1 , β2 )).

Modelos Lineales 9 / 27
Peor escenario: preditores exactamente colineales

La SCE tiene infinitos mı́nimos.

Modelos Lineales 10 / 27
Escenario intermedio: colinealidad débil

La SCE tiene un único mı́nimo, pero éste no es marcado

Modelos Lineales 11 / 27
Efecto sobre la varianza de los estimadores:
La varianza de los estimadores corresponde a
1 1
Var (β̂1 ) = 2
σ2 = σ2 ,
1 − r12 1 − R2

donde R2 corresponde al coeficiente de determinación de la regresión

x1 ∼ x2 ,

o viceversa.

¿Qué ocurre si |r12 | ≈ 1?

Modelos Lineales 12 / 27
Efecto sobre la significancia de los predictores:
Se tiene 10 observaciones sobre un problema con 2 predictores, y correlaciones
r1Y = 0, 85, r2Y = 0, 78, r12 = 0, 95.

Y ∼ x1 Y ∼ x2
Coef Estimación test-t Coef Estimación test-t
β1 0.850 4.56∗ β2 0.780 3.52∗
σ2 0.035 − σ2 0.049 −

Coef Estimador test-t test F


β1 1.118 1.78 9.46∗
Y ∼ x1 + x2
β2 −0.282 −0.45
σ2 0.039 −
En el modelo conjunto, el test F indica que al menos uno de los predictores es
adecuado para explicar la respuesta, sin embargo, ambos test t son no significativos.

: test es significativo.

Modelos Lineales 13 / 27
Otro ejemplo:
Los siguientes estadı́sticos se obtuvieron del ajuste de un modelo de regresión lineal
para explicar el porcentaje de porcentaje corporal en términos del ancho de un pliegue
de piel, la circunsferencia de un muslo y la circunsferencia de un brazo.

porcentaje ∼ piel + pierna + brazo.

Matriz de correlaciones:
piel pierna brazo porcentaje
piel 1.000 0.924 0.458 0.843
pierna 1.000 0.085 0.878
brazo 1.000 0.148
porcentaje 1.000

Modelos Lineales 14 / 27
Tabla ANOVA:

Fuente gl SC MC F valor-p
Modelo 3 396.98 132.33 21.52 0.0001
Residuos 16 98.40 6.15
Total 19 495.39 26.07

Modelos Lineales 15 / 27
Tests t:

Variable Estimador t valor-p


Intercepto 20.20 36.43 0.0001
piel 4.33 1.44 0.170
pierna -2.86 -1.11 0.285
brazo -2.18 -1.37 0.190

Modelos Lineales 16 / 27
Gráficamente, la situación corresponde a:

Región achurada corresponde a la región de aceptación de los tests t. Elipse corresponde a


región de aceptación del test F. Si un par de estimadores (β̂1 , β̂2 ) se ubica en el área achurada
fuera de la elipse, los tests t resultan no significativos (no rechazan H0 ), aun cuando el test F lo
sea. En la medida en que existe mayor correlación entre los predictores, la elipse se vuelve más
delgada y las zonas achuradas fuera de ella son mayores

Modelos Lineales 17 / 27
Efecto sobre las predicciones:
Considere un problema con 2 predictores y los datos en la figura:

Modelos Lineales 18 / 27
Predicción en (x1 , x2 ) = (0.5, 0.5)
Modelo Centrado en Amplitud
x1 + x2 0.418 0.475
x1 0.425 0.404
x2 0.390 0.404

Predicción en (x1 , x2 ) = (0.2, 0.7)


Modelo Centrado en Amplitud
x1 + x2 0.026 0.732
x1 0.170 0.372
x2 0.546 0.519

¿A qué se debe que las predicciones se comporten de manera diferente en ambos


casos?

Modelos Lineales 19 / 27
Indicadores de colinealidad

Matriz de correlaciones entre los predictores


Notemos que si tomamos la matriz de diseño centrada y estandarizada, Xs , se cumple
que:
cor(X) = Xts Xs .
Luego, el análisis de colinealidad se basará en la matriz Xs .

Modelos Lineales 20 / 27
Factor de Inflación de la Varianza:
Sabemos que
Var (β̂ s ) = (Xts Xs )−1 σ 2 .
Se define el Factor de Inflación de la Varianza del j-ésimo predictor VIFj como:

VIFj = rjj ,

donde rjj corresponde al j-ésimo elemento de la diagonal de la matriz (Xts Xs )−1 .

Relación con el coeficiente de determinación R2 :


Se puede demostrar que:
1
VIFj = .
1 − R2j
donde:
R2j = R2 (xsj ∼ xs1 + . . . + xs,j−1 , xs,j+1 + . . . + xs,p−1 ).

Si R2j > 0.95, VIFj > 10: decimos que estamos en presencia de colinealidad.
Modelos Lineales 21 / 27
Ejercicio 1:
Considere los datos en el archivo porcentaje.txt, con los que se intenta explicar el
porcentaje de grasa corporal de los individuos en términos de la medida de un pliegue
de su piel y sus circunsferencias de pierna y de brazo.

1 Estudie la relación entre la variable respuesta y los predictores.

2 Estudie la presencia de colinealidad entre los predictores.

3 Obtenga los factores de inflación de la varianza de los predictores y concluya.

Modelos Lineales 22 / 27
Efecto del Factor de Inflación de la Varianza sobre el ECM de β̂ s :

ECM(β̂ s ) = E [(β̂ s − β s )t (β̂ s − β s )]


p−1
X
= σ2 VIFj
i=1

Modelos Lineales 23 / 27
Número de condicionamiento:
Consideremos el ejemplo original donde
 
1 r12
Xts Xs = .
r12 1

Los valores propios de esta matriz corresponden a

λ1 = 1 + r12 λ2 = 1 − r12 .

Luego, si r12 ≈ 1,
det(Xts Xs ) = λ1 λ2 ≈ 0.
Vemos que el concepto de colinealidad se relaciona con valores y vectores propios.

Modelos Lineales 24 / 27
En general:
Sean P y λj , j = 1, . . . , p − 1, vectores y valores propios de la matriz Xts Xs , de modo que
 
λ1 0 . . . 0
 0 λ2 . . . 0 
Pt (Xts Xs )P =  . . . ..  .
 
 .. .. .. . 
0 0 . . . λp−1

Haciendo la multiplicación columna a columna obtenemos:

ptj (Xts Xs )pj = (Xs pj )t (Xs pj ) = λj , j = 1, . . . , p − 1.

Luego, si λj ≈ 0, se tiene la relación lineal aproximada:

Xs pj ≈ 0.

Modelos Lineales 25 / 27
Ejercicio 2:
Retomemos el caso: porcentaje ∼ piel + pierna + brazo.

1 Encuentre valores y vectores propios de la matriz Xst Xs .

2 Determine si existe alguna relación lineal aproximada entre los predictores


estandarizados. En caso de haberla, determı́nela.

3 En la situación anterior, encuentre una relación lineal aproximada entre los


predictores sin estandarizar.

Modelos Lineales 26 / 27
P
Dado que se tiene la relación j λj = p − 1, definimos como medida de colinealidad el
número de condicionamiento: r
λmax
κ= .
λmin
Consideramos que estamos en presencia de colinealidad cuando

κ > 30.

Ejercicio 3:
Determine el número de condicionamiento en el problema sobre grasa corporal.

Modelos Lineales 27 / 27
M ODELOS L INEALES
Sesión 12

Ana Marı́a Araneda

Modelos Lineales 1 / 11
Regresión Ridge

Error Cuadrático Medio del Estimador de Mı́nimos Cuadrados Ordinarios:


El error cuadrático medio de β̂ s , como estimador de β s puede ser expresado en
términos de los valores propios de la matriz Xst Xs , en la forma:
p−1
X
ECM(β̂ s ) = σ2 VIFj
j=1
p−1
X 1
= σ2
j=1
λ j

En particular,
1
ECM(β̂ s ) > σ 2 ,
λp−1
donde λp−1 corresponde al menor valor propio de Xst Xs . En presencia de colinealidad,
λp−1 ≈ 0, lo que aumenta fuertemente el error cuadrático medio de β̂ s .

Modelos Lineales 2 / 11
t
Efecto de la colinealidad sobre β̂ s β̂ s como estimador de β t β

t
Efecto de la colinealidad sobre β̂ s β̂ s como estimador de β t β:
Desarrollando término a término el error cuadrático medio de β̂, se obtiene:

ECM(β̂ s ) = E{(β̂ s − β s )t (β̂ s − β s )}


t
= E(β̂ s β̂ s ) − β ts β s .

Luego, en presencia de colinealidad, este sesgo puede ser muy grande.


t
Notemos que la expresión β̂ s β̂ s corresponde al largo (al cuadrado) del vector β̂ s .
Mientras mayor sea el largo esperado, mayor será el sesgo.

Modelos Lineales 3 / 11
Mı́nimos Cuadrados Ordinarios
Se basa en estimar β de manera insesgada. En presencia de colinealidad, puede
tener gran varianza.

Regresión Ridge
Intenta disminuir el error cuadrático medio del estimador de β s . Esto equivale a
t
disminuir el sesgo de β̂ s β̂ s como estimador de β ts β s y también a acortar el largo del
vector de estimadores. Permite estimadores sesgados.

Modelos Lineales 4 / 11
Estimador Ridge:
El estimador ridge, β̂ R , de β corresponde al valor de β que minimiza la función:
n p−1
X X
(Yi − xti β)2 + λ βj2 ,
i=1 j=1

con λ > 0. Se penaliza por el largo del vector β.

La solución a este problema de minimización está dada por:

β̂ R = (X t X + λI)−1 X t Y.

Notemos qiue:
1 Cuando λ tiende a cero, β̂ R tiende a β̂ MCO .

2 Cuando λ tiende a infinito, β̂ R tiende a 0.

Modelos Lineales 5 / 11
Unicidad de β̂ R :
Se puede demostrar que, para toda matrix de diseño X, la matriz (X t X + λI) es
invertible, de modo que siempre hay una única solución al problema de minimización.

Propiedades de β̂ R :
Sea:
W = (X t X − λI)−1 .
El sesgo de β̂ R está dado por:
−λWβ,
y su varianza corresponde a:

Var(β̂ R ) = WX t XWσ 2 .

Modelos Lineales 6 / 11
Grados de libertad del error:
Si consideramos que los valores ajustados se obtienen como:

Ŷ R = X β̂ R = X(X t X + λI)−1 X t Y,

podemos definir la matriz de proyección:

HR = X(X t X + λI)−1 X t .

Los grados de libertad de la SCE corresponden a la suma de los elementos en la


diagonal de la matriz HR .

Modelos Lineales 7 / 11
Ejercicio 1:
Realice un estudio de simulación bajo colinealidad comparando el comportamiento del
estimador de mı́nimos cuadrados ordinarios con el estimador ridge.

Ejercicio 2:
Estime el modelo de regresión lineal para el problema sobre porcentaje de grasa
corporal utilizando mı́nimos cuadrados ordinarios y regresión ridge. Compare sus
resultados.

Modelos Lineales 8 / 11
Resultado:
Se puede mostrar que la varianza total,
p−1
X
Var(β̂ R,j ),
j=1

es una secuencia monótona decreciente en λ, y que el sesgo cuadrado total,


p−1
X
sesgo2 (β̂R,j ),
j=1

es una secuencia monótona creciente en λ.

Teorema de existencia:
Siempre existe un valor de λ tal que el Error Cuadrático Medio de β̂ R es menor que el
de β̂ MCO .

Modelos Lineales 9 / 11
Validación cruzada para determinar el valor de λ

Validación cruzada por bloques


La estrategia corresponde a separar los datos en K bloques, y predecir los valores de
cada bloque ajustando el modelo con las observaciones en todos los bloques
restantes.

El estadı́stico de validación cruzada corresponde a la suma de los errores de


predicción. Lo usual es tomar k = 5, 10, n.

El estadı́stico obtenido con K = n se denomina estimador “leave-one-out ” y, en el


caso de Mı́nimos Cuadrados Ordinarios, corresponde al estadı́stico Press:
n n  2
X X ei
(Yi − Ŷ(−i) )2 = .
i=1 i=1
1 − hiii

Modelos Lineales 10 / 11
Estadı́stico de validación cruzada en regresión ridge:
Se define como:
n  2
X ei
CV = ,
i=1
1 − hR,ii

donde hR,ii corresponde al i-ésimo elemento de la diagonal de la matriz HR .

Estadı́stico de validación cruzada generalizado en regresión ridge:


Se define como:
n  2
X e
GCV = Pi .
i=1
1 − hR,ii /n)

Ejercicio 3:
Encuentre el valor óptimo de λ en el problema referido a porcentaje de grasa corporal,
según el criterio de minimización del error de predicción.

Modelos Lineales 11 / 11
M ODELOS L INEALES
Sesión 13

Ana Marı́a Araneda

Modelos Lineales 1 / 15
Modelos con Errores en las Variables

Situaciones nuevas del tipo:


Se desea estudiar la relación entre el rendimiento de una producción agrı́cola y la
cantidad de nitrógeno disponible en el suelo. Se piensa que existe una relación lineal
entre ambos. Sin embargo, el nitrógeno disponible en el suelo solo puede ser medido
con error a partir de un análisis de laboratorio.

Modelos Lineales 2 / 15
Modelo con errores en las variables:
Suponga que se desea explicar el comportamiento de la variable Y en términos de una
variable aleatoria X que corresponde a una medida con error de una variable aleatoria
latente. El modelo corresponde a:

Yt = β0 + β1 xt + et

Xt = xt + ut , t = 1, . . . , n,

donde et y ut corresponden a errores aleatorios.

Interpretación de xt
1 xt fijo: La cantidad de nitrógeno disponible en el suelo queda determinada por los
resultados de un experimento donde el experimentador conoce las
concentraciones de fertilizante utilizado.

2 xt aleatorio: Los terrenos donde se realizarán las mediciones corresponden a una


muestra aleatoria.
Modelos Lineales 3 / 15
Caso xt aleatorio

Supuestos distribucionales:
     
xt µx σxx 0 0
 et  ∼ Normal  0  ,  0 σee 0 
ut 0 0 0 σuu

En términos de las observaciones:


     2 
Yt β0 + β1 µx β1 σxx + σee β1 σxx
∼ Normal ,
Xt µx β1 σxx σxx + σuu

Modelos Lineales 4 / 15
Estimador de Mı́nimos Cuadrados Ordinarios de la pendiente es sesgado:
Sea γ1 la pendiente en el modelo de regresión lineal simple, y γ̂1 su estimador de
mı́nimos cuadrados ordinarios,
Pn
t=1 (Xt − X̄)(Yt − Ȳ)
γ̂1 = Pn .
t=1 (Xt − X̄)
2

Se demuestra que:
σxx
E(γ̂1 ) = β1 ,
σxx + σuu
donde el factor:
σxx
κxx =
σxx + σuu
se denomina coeficiente de atenuación o confiabilidad.

Modelos Lineales 5 / 15
Identificabilidad del modelo

Definición:
Un modelo, parametrizado por θ ∈ Θ se dice identificable si no existen dos valores
posibles de θ que lleven a la misma distribución muestral.

Este concepto se relaciona con la habilidad de los datos de estimar todas las
componentes de θ.

En el modelo en cuestón:
Dada la Normalidad, la distribución queda especificada por el estadı́stico suficiente:

T((Y, X))t = (X̄, Ȳ, mXX , mYY , mXY ),

donde mXX y mYY corresponden a las varianzas muestrales y mXY a la covarianza


muestral. El estadı́stico suficiente es de dimensión 5, sin embargo, θ pertenece un
espacio de dimensión 6:
θ t = (µx , β0 , β1 , σxx , σee ).

Modelos Lineales 6 / 15
Ejemplo:
Dos parámetros diferentes: θ 1 = (1, 1, 1, 1, 1, 1) y θ 2 = (1, 2, 1.5, 0, 1.5, 0.5) conducen a
la misma distribución:
     
Yt 2 2 1
∼ Normal ,
Xt 1 1 2

Se requieren restricciones o condiciones sobre los parámetros para que ellos queden
determinados unı́vocamente por la muestra.

Modelos Lineales 7 / 15
Caso κxx conocido

Situaciones:
1 Existen áreas del conocimiento en que estos valores pueden ser bien
aproximados o conocidos, como sociologı́a o sicologı́a.

2 La idea se relaciona al uso repetido de un mismo instrumento de medición, lo que


se traduce en una confiabilidad del instrumento.

Modelos Lineales 8 / 15
Estimadores y propiedades:
Un estimador insesgado para β̂1 está dado por:
γ̂1
β̂1 = .
κxx

β̂0 = Ȳ − β̂1 X̄

Es posible estimar la varianza de (β0 , β1 )t .


Aparecen términos:
vt = Yt − β0 − β1 Xt = et − ut β1
que jugarán un rol importante al representar a los residuos del modelo
Hipótesis lineales sobre β1 pueden traducirse en hipótesis sobre γ1 en el modelo
de regresión lineal.

Modelos Lineales 9 / 15
Caso σuu conocido

Situaciones:
En ocasiones es posible realizar un gran número de medidas repetidas de Xt para un
mismo xt .

Estimadores
Se derivan estimadores de momentos para los 5 parámetros restantes del modelo.

Algunos resultados:


    
β̂0 − β0 D
0
n −→ Normal , τ
β̂1 − β1 0

nV̂ar((β̂0 , β̂1 )t ) −→ τ , donde:

X̄ 2 V̂ar(β̂1 ) + n1 Svv
 
−X̄ V̂ar(β̂1 )
V̂ar((β̂0 , β̂1 )t ) =
−X̄ V̂ar(β̂1 ) V̂ar(β̂1 )

Modelos Lineales 10 / 15
Más resultados:
Es posible estimar σxx y σee .
El estadı́stico:
t = (V̂ar(β̂1 ))−1/2 (β̂1 − β1 )
distribuye aproximadamente Normal (0, 1). Suele utilizarse la distribución tn−2 .

Modelos Lineales 11 / 15
Valores de xt

Dos enfoques:
1 xt fijos pero desconocidos: deben ser estimados
2 xt variables aleatorias: deben ser predichas

Caso 1: fijos y desconocidos


Notamos que:
     
Yt − β0 β1 et
= xt +
Xt 1 ut

Esta ecuación puede ser vista como un caso de regresión lineal heterocedástico, con
pendiente xt , dos observaciones, y matriz de covarianzas dada por:

Σ = diag(σee , σuu ).

Se estima xt por Mı́nimos Cuadrados Ponderados, reemplazando los parámetros del


modelo por sus estimadores. Este estimador se denota por x̂t

Modelos Lineales 12 / 15
Caso 2: xt aleatorio
En ese caso, se considera que:
     2 
Yt β0 + β1 µx β1 σxx + σee β1 σxx + σeu β1 σxx
 Xt  ∼ Normal  µx  ,  β1 σxx + σeu σxx + σuu σxx 
xt µx β1 σxx σxx σxx

Se estima xt por su esperanza condicional dado (Yt , Xt )t . Esta y su error estándar


condicional corresponden a resultados estándar de la distribución Normal Multivariada.

Modelos Lineales 13 / 15
Revisión del modelo

Residuos versus predictor:


La situación ideal serı́a observar el gráfico

vt = et − β1 ut ∼ xt .

En este caso, para evaluar la calidad del modelo puede utilizarse que Var(vt |xt ) es
constante y que E(vt |xt ) = 0. Sin embargo, tanto vt como xt son no observables.

La alternativa es graficar:
V̂ar(vt )1/2 v̂t ∼ x̂t ,
o, en su defecto, v̂t ∼ x̂t .

Modelos Lineales 14 / 15
Otros escenarios, otros aspectos

Queda un mundo pendiente:


Caso razón de varianzas σee /σuu conocido ...
Regresión con errores en las variables múltiple
Revisión de supuestos del modelo y de influencia
Regresión con errores en las variables multivariada

Modelos Lineales 15 / 15

También podría gustarte