FULL Modelos

EPG3318 Modelos Lineales 07.08.
2018
INTRODUCCIÓN
Motivación: Frecuentemente, el objetivo de la ciencia es encontrar, describir o predecir relaciones entre eventos en el
mundo en que vivimos.
En particular, muchas veces esto corresponde a buscar una fórmula o ecuación que relacione cantidades.
A modo de ejemplo, puede buscarse relaciones entre:
• temperatura y presión en un proceso químico

• número de manzanas de un árbol y cantidad de fertilizante utilizado precio y demanda de un producto
• dosis de una vacuna y presencia de una enfermedad
• lluvia caída, temperatura y humedad
• rendimiento de diferentes variedades de trigo, etc.
Modelo Lineal General
Relaciones básicas:
Un modelo poblacional para relacionar una variable aleatoria Y con la variable x corresponde a:
La función µ(x) es determinística Y corresponde a la variable dependiente o respuesta

Y es aleatorio debido a la aleatoriedad del error.
x a la variable independiente o predictor Ɛ corresponde a una medida de error aleatorio no

observable
Usualmente, la forma funcional de µ(x) se asume conocida, pero depende de parámetros desconocidos.
No es lo mismo que modelo de regresión.
Diferenciamos entre modelo poblacional y muestral.
El caso lineal: En ocasiones, la función µ(x) es lineal en (k + 1) parámetros:
donde las funciones qj( · ), j = 1, . . . , k, son conocidas, y x no contiene parámetros desconocidos.
Algunos ejemplos corresponden a:
µ(x) = β0 + β1x + β2x2 + β3x3
µ(x) = βx
µ(x) = β0 + β1x + β2 exp{x}.
En el caso del modelo lineal µ(x) es lineal.
Las funciones que no tienen por qué ser lineales en el predictor. Se llama lineal, si el modelo es lineal en los beta.
Recolección de datos
Valores de la variable independiente: Suponga un modelo para explicar la presión arterial en términos de la edad de las
personas, x. El modelo se asume válido para 20 ≤ x ≤ 75.
Recolección de los datos: Se dispone de grupos de personas para ciertas edades entre 20 y 75 años: 20, 35, 50, 60, 70 y
75 años. En cada grupo de edad, se escoge de manera aleatoria una persona a quien se medirá la presión arterial. La
muestra a observar corresponde a:
(20, Y1), (35, Y2), . . . , (75, Y6)
bajo el modelo (muestral): Yi = β0 + β1xi + Ɛi E(Ɛi) = 0 i = 1, . . . , 6.
Ahora empiezan los supuestos de los errores.
El Modelo Lineal (poblacional) General
Supuestos:
Sea x = (x1, . . . , xp−1) un vector no aleatorio con valores en un conjunto D. El modelo lineal (poblacional) general dice que:
μ(x) es una función de (p-1) variables no aleatorias reales x1, . . . , xp−1 con dominio D
Para cada x en el conjunto D, ∊(x) es una variable aleatoria
Se deduce que: E(Y(x)) = μ(x) para cada x ∊ D.

EPG3318 Modelos Lineales 07.08.2018
El Modelo Lineal (muestral) General
Supuestos:
Para un conjunto de valores x1, . . . , xp−1 en D, se dispone de un grupo de unidades muestrales. Desde cada uno de estos
grupos, se elige una unidad de manera aleatoria, y se medirá la variable Y. El modelo lineal (muestral) general dice que:
Con i = 1, ..,n y donde:
Yi son variables aleatorias observables
Xi= (x1, . . . , xp−1) es un vector de variables no aleatorias observables, con dominio D.
β1, …, β2 corresponden a parámetros desconocidos con dominio Ωβ
∊i corresponden a variables aleatorias no observables con: Tipos de error
Tipos de Error
Hay dos tipos de Error:
Errores de Medición: Suponga dos variables no aleatorias que representan medidas de dos cantidades del mundo real,
relacionadas de manera funcional por:
(Ejemplo: s corresponde a la distancia que cae una partícula en el vacío en un intervalo de tiempo de longitud t. Se
relacionan por s = 1/2gt2, donde g corresponde a la aceleración de gravedad).
Suponga que z no es observable, pero existe una variable aleatoria Y tal que Y = z +∊, con E(∊) = 0. Luego, se cumple que
Errores de Ecuación: ∊ representa que me faltan predictores (puede venir de lo que no pude medir (de mi función que no
es lineal).
Considere z: rendimiento de una plantación de trigo. Se sabe que este rendimiento depende de la cantidad de fertilizante
utilizado, temperatura ambiente, lluvia caída, luminosidad, calidad del suelo, y muchos otros factores. Si consideramos x1,
. . . , xk como la totalidad de los factores que afectan al rendimiento del trigo, podemos escribir:
donde µ(x) domina para determinar z. Entonces, podemos considerar
como el error del modelo.
Ejemplo 1: Considere la distancia s que se traslada una partícula desde un punto de referencia, en un tiempo t. Se postula
la relación determinística:
Sin embargo, no es posible medir la distancia s con exactitud y, en cambio, se mide Y = s + ∊, con E(∊) = 0.
El modelo es válido para 0 ≤ t ≤ 100 segundos. Para obtener una muestra, se toman tiempos fijos t1, . . . , tn y, para cada
uno de ellos, se mide la distancia que se traslada la partícula. El modelo muestral corresponde a:
¿A qué tipo de error corresponde ∊ en este caso?
El error del modelo corresponde a un error de medición.

Ejemplo 2: Cuando las rocas viajan arrastradas por un río, su forma se vuelve cada vez más redondeada. Si Y corresponde
a una medida de la esfericidad de una roca, se piensa que ella depende de la distancia x desde su fuente, en la forma:
con E(∊) = 0. El modelo es válido para 50 ≤ x ≤ 300 kilómetros. Se obtiene mediciones cada 50 kilómetros desde la fuente,
x1 = 50, x2 = 100, . . . , x6 = 300. ¿A qué tipo de error corresponde ∊ en este caso?
Si es un error de medición implica que la medida de esfericidad es una aproximación.
Si es un error en la ecuación, hay otras variables que no considero en la esfericidad, no sólo cuenta de distancia viajada
por la roca.
Probablemente en este caso es una mezcla de ambas cosas.
Ejemplo 3: La variable aleatoria Y corresponde al porcentaje de impurezas en cierto químico al producir x lotes de este, x
= 1, . . . , 10. El modelo corresponde a:
con E(∊) = 0. A modo de ejemplo, µ(4) = β0 + 4β1 corresponde al porcentaje de impurezas promedio de todos los días en
que se producen 4 lotes.
Ejemplo 4: Se desea estudiar la relación entre la temperatura, x1, y la presión x2 a las que se produce cierto material, y su
dureza, Y. Se postula el modelo lineal:
con E(∊(x1,x2)) = 0. El modelo es válido para 500 ≤ x1 ≤ 1500 (grados Celsius) y 1.000 ≤ x2 ≤ 2.000 (libras por pulgada
cuadrada).
Se obtiene mediciones cada 100 grados Celsius y cada 100 libras por pulgada cuadrada.
En este ejemplo hay dos variables independientes y una respuesta.
La diapo muestra el modelo poblacional.
¿Cómo paso de la poblacional a la muestral?
Tengo que hacer una grilla de valores.
Aquí el error probablemente es una mezcla de ambos tipos.
Modelo de Regresión Lineal (Múltiple) en Notación Matricial
El modelo de regresión lineal múltiple corresponde a un caso particular del modelo lineal general, y puede escribirse como:
Supuesto: Función de densidad simétrica y definida positiva. Para probar debo:
Paso 1) Simétrica: matriz es simétrica si lo que tengo sobre la diagonal es igual a lo que tengo sobre la diagonal.
la matriz tiene sólo ceros, por lo que es simétrica.
Paso 2) Positiva: matriz es definida positiva, si el determinante (producto de la diagonal) debe ser positivo.
El determinante al ser σ2*otros sigma al cuadrado, va a ser

positivo.
La única restricción es que debe tener tanto elementos como la variable aleatoria.
Resumiendo: La esperanza de los εi es cero, todos los errores tienen la misma varianza y son independientes.
Distribución Normal Multivariada
Definición: Se dice que el vector aleatorio Y ∈ ℝn tiene una distribución Normal Multivariada de parámetros µ y Σn×n
matriz definida positiva, si su función de densidad está dada por:
Y es un vector μ es un vector y representa el valor esperado de Y
Si al Modelo Lineal General (qué ya tenía esperanza de errores = 0) se le agrega la matriz

de varianza-covarianza y la Normalidad.
1) Normalidad
2) Var (εi) = σ2 i= 1, …, n
3) Cov (εi , εj) = 0 i ≠ j = 1, …, n (εi , εj independientes) Sólo en el caso normal puedo
concluir que los errores son independientes.
Entonces puedo hablar de un Modelo de Regresión Lineal (Múltiple)

Teorema: Sean B ∈ ℝ × ℝ y b ∈ ℝ . Si el vector aleatorio Y ∈ ℝ sigue una distribución Normal (µ, Σ), entonces:
r n n n
Si transformo, también se comporta normal.
B= matriz que multiplica a variable normal y b= vector
Este teorema es lo que me ayuda a buscar la distribución de Y.
Ejercicio 1: Encuentre la distribución de Y en el modelo de regresión lineal múltiple.

Estimación en el modelo de Regresión Lineal Múltiple
Estimación por Mínimos Cuadrados Ordinarios: Debemos minimizar:
Recuerdo :
Entonces
Ejercicio 2: Muestre que el estimador de Mínimos Cuadrados Ordinarios (EMCO) de β corresponde a:
Importante: ¿Cuándo XtX es invertible?

¿Qué pasa si no lo es?
Ejercicio 3: Encuentre la distribución de
Vector de valores ajustados: Los valores ajustados por el modelo corresponden a:
con
Resultado: La matriz H es una matriz de proyección ortogonal sobre el espacio generado por las columnas de X y tiene
rango p.
Vector de residuos: Los residuos del modelo corresponden a:
Resultado:
La matriz (I − H) es una matriz de proyecci´on ortogonal sobre un espacio ortogonal al espacio generado por las columnas
de X y tiene rango (n − p)
Interpretación gráfica:
El modelo de Regresión Lineal Múltiple
Modelo: Sean Y1, . . . , Yn observaciones independientes de una variable respuesta Y, y los valores del predictor x1, . . . , xn
asociados a cada una de ellas. El modelo de regresión lineal múltiple corresponde a un caso particular del modelo lineal
general, y dice que:
Esto equivale a afirmar que:
Donde Y(nx1) corresponde al vector de respuestas, X(n×p) a la matriz de diseño que contiene los valores que toman los
predictores, β(p×1) al vector de los parámetros, y ∊(n×1) al vector de errores del modelo.
Formas Lineales y su Distribución
Forma Lineal: Sean Y un vector aleatorio de dimensiones n × 1, b un vector determinístico de dimensiones r × 1, y B una
matriz determinística de dimensiones r × n. El vector aleatorio:
se denomina forma lineal en Y.
Distribución de una forma lineal: Sea Y un vector aleatorio de dimensiones n × 1 y sea W = BY + b una forma lineal en él.
Si Y ∈ ℝn sigue una distribución Normal (µ, Σ), entonces:
Ejercicio 1: Encuentre la distribución de Y en el modelo de regresión lineal múltiple.
Ejemplo (Recuerdo)
Estimación en el Modelo de Regresión Lineal Múltiple
Estimación por Mínimos Cuadrados Ordinarios: Encontrar estimador de mínimos cuadrados
Paso Previo – Debemos Minimizar

La función S(β) es del tipo:
Debemos encontrar las coordenadas del punto mínimo de esta figura.
Primer Paso: Estimar beta. Buscamos el plano tangencial. Calculando el diferencial.
Herramientas de Cálculo Diferencial: Dadas las características de la función S(β), podemos encontrar el valor de β que la
minimiza encontrando el valor anula su diferencial, y demostrando que su matriz Hessiana es definida positiva.
Estrategia:
Sea la función en t dada por:
Su diferencial puede obtenerse como:
Ejercicio 2: Estimador de Mínimos Cuadrados de β
Muestre que el estimador de Mínimos Cuadrados Ordinarios (EMCO) de β corresponde a:

Paso siguiente: Debo demostrar que esto es un mínimo (para eso debo derivar). Falta diferencia nuevamente obteniendo
la matriz H de segundas derivadas y demostrar que ella es definida positiva.
¿Qué pasa si el mismo paraboloide está dado vuelta?
Paso siguiente: Debo demostrar que esto es un mínimo (para eso debo volver a derivar)
Falta diferenciar nuevamente obteniendo matriz H de segundas derivadas y demostrar que ella es definida positiva.
Ejercicio 3: Considere los datos en el archivo biomasa.txt que contiene la biomasa y algunas características del suelo,
�.
como sus contenidos de potasio y de calcio y su pH entre otras. Utilice R para verificar la expresión encontrada para 𝜷𝜷
n= 45 p-1 = 5 predictores
Importante:
1) ¿Cuándo XtX es invertible?

2) ¿Qué pasa si no lo es?
¿Qué pasa si XtX no tiene inversa? Ahí nos quedamos sin 𝜷𝜷 � . El software se cae. ¿Cuándo esa inversa no existe? Cuando
una de las columnas se puede escribir como una combinación lineal de otra, hay una columna que sobra, porque todo
lo que está en ella lo podría haber calculado si conozco las otras. Cuando eso pasa uno se da cuenta que el rango de la
matriz es menor que p y ahí XtX NO es invertible.
Ejercicio 4: Construya en R una matriz de diseño tal que XtX sea no invertible.
Ejercicio 5: (Importante) Encuentre la distribución de 𝛽𝛽̂.
Ejercicio 6: Encuentre la distribución marginal de β1 en el modelo de regresión lineal simple.

Ejercicio 7: modelo de análisis de la varianza (ANOVA):
Una compañía productora de cereales desea estudiar si existe asociación entre el diseño utilizado en los envases de sus
cereales y las ventas de estos. Para ello registra, en cada uno de 5 supermercados escogidos de manera aleatoria, las
ventas del mes de un mismo tipo cereal envasado cada uno de tres diseños de envase (A, B y C). Los datos pueden
denotarse como:
donde Yij corresponde a la venta mensual del i-ésimo diseño en el j-ésimo supermercado, i = 1, 2, 3, j = 1, . . . , 5.
Postule un modelo de regresión lineal para estas observaciones.

Ejercicio 8: Estime el modelo propuesto en R, utilizando los datos que se encuentran en el archivo cereales.txt y la
función lm.
Vectores de Valores Ajustados y de Residuos
Vector de valores ajustados: Los valores ajustados por el modelo corresponden a:
con
Vector de residuos del modelo: Los residuos del modelo corresponden a:
Ejercicio 9: Verifique lo anterior de manera numérica en R utilizando los datos en el archivo biomasa.txt.
Verificar en R.
Matriz de Proyección Ortogonal
Las matrices H e (I − H) poseen importantes propiedades geométricas que permiten visualizar residuos y valores ajustados.
Matriz de Proyección Ortogonal: Sea b un vector en un espacio de dimensión n y sea la matriz P = A(AtA)−1A, con A de
dimensiones n × p y rango p. Entonces, Pb corresponde a la proyección ortogonal del vector b sobre el espacio vectorial
generado por las columnas de A. El rango de P es igual a p.
Resultado 1: La matriz H es a una matriz de proyección tal que:
corresponde a la proyección ortogonal de Y sobre el espacio vectorial generado por las columnas de la matriz de diseño
X. El rango de H es igual a p.
Resultado 2: La matriz (I − H) es a una matriz de proyección tal que:
corresponde a la proyección ortogonal de Y sobre el espacio vectorial perpendicular al espacio generado por las columnas
de la matriz de diseño X. El rango de (I − H) es igual a (n − p).
Interpretación Gráfica:
Ejercicio 10: Verifique en R que los valores en la diagonal de la matriz H corresponden a la palanca de las observaciones,
hii
Ejercicio 11: Encuentre la distribución del vector de valores ajustados por el modelo.
Ejercicio 12: Encuentre la distribución del vector de residuos del modelo.
Modelos Lineales
Independencia entre Formas Lineales:
Teorema: Sea Yn×1 un vector aleatorio con distribución Normal (µ, Σ). Las formas lineales L1 = B1Y + b1 y L2 = B2Y + b2 son
independientes ssi:
Ejercicio 1: Demuestre que los vectores de valores ajustados y de residuos son independientes. Relaciónelo con las
propiedades de las matrices H e (I − H).
Descomposición de la Varianza
Sumas Cuadradas: Sabemos que es posible descomponer la variabilidad total de la respuesta como:
Notemos que:
donde e corresponde al vector de residuos del modelo. De este modo,
Para realizar inferencias, necesitaremos la distribución de SCE.
Formas Cuadráticas
Definición: Sea Yn×1 un vector aleatorio, y An×n una matriz simétrica con elementos reales. La variable aleatoria:
se denomina forma cuadrática en Y.
Distribución Chi-Cuadrado:
Definición: Sea Yn×1un vector aleatorio con distribución Normal (µ, I). Se dice que la variable aleatoria Q = Yt Y sigue una
distribución Chi-Cuadrado con n grados de libertad y parámetro de no centralidad λ. Se escribe:
Teorema: Sean Σn×n una matriz simétrica definida positiva, y A una matriz simétrica de rango m, tales que (AΣ)2 = AΣ. Si el
vector aleatorio Ynx1 sigue una distribución Normal (µ, Ʃ) entonces:
I=Identidad
Ejercicio 2: Muestre que
Ejercicio 3: Muestre que
donde
Este último se conoce como estimador de Mínimos Cuadrados de σ2

Test t-student para los coeficientes
En el modelo de regresión lineal múltiple, considere las hipótesis:
Ho: βj = 0 H1: βj ≠ 0
para un valor fijo de j = 0, . . . , p − 1. Construiremos un pivote para βj. El punto de partida será que:
Independencia entre Formas Lineales y Cuadráticas
Teorema: Sea Ynx1un vector aleatorio con distribución Normal (µ, Σ), con Σ matriz simétrica definida positiva. Sean las
matrices reales Aq×n y Bn×n, con esta última, simétrica. (Teorema usado para que denominador y numerador fueran
independientes). Entonces:
Ssi
Ejercicio 4: Demuestre que
�𝑠𝑠�𝛽𝛽̂𝑗𝑗 � corresponde al error estándar de 𝛽𝛽̂𝑗𝑗 donde σ2 ha sido estimado por 𝜎𝜎� 2 .
corresponde a un pivote para βj, donde 𝑒𝑒.
En base a dicho pivote, encuentre una región de rechazo de significancia α para las hipótesis de interés.
Ejercicio 5: Considere los datos en el archivo biomasa.txt. En R, verifique el valor de t0 y su valor-p, para las hipótesis
Ho: βj = 0 H1: βj ≠ 0
El test-T: no toma en cuenta la presencia de otros predictores. Me obliga a hacer varios en forma paralela.
Test F de la Tabla ANOVA
Test de hipótesis para el vector de parámetros:
Considere las hipótesis:
Ho: β1 = … = βp-1 = 0 H1: al menos un coeficiente βj es diferente de cero, j = 1, . . . , p − 1.
Utilizamos comúnmente el estadístico:
Mostraremos que, bajo la hipótesis nula, este estadístico sigue una distribución Fisher central.
Distribución de F (Fisher):
Sea la variable aleatoria X con distribución 𝒳𝒳𝑛𝑛2 (𝜆𝜆) independiente de la variable aleatoria Y con distribución 𝒳𝒳𝑚𝑚
2
(0). Se dice
que la variable aleatoria:
𝑋𝑋
𝐹𝐹 = 𝑛𝑛
𝑌𝑌
𝑚𝑚
sigue una distribución F (Fisher) con n y m grados de libertad, y parámetro de no centralidad λ.
Argumentaremos que:
2
1) SCReg/σ2 sigue una distribución 𝒳𝒳𝑝𝑝−1 (𝜆𝜆) y que bajo Ho, λ = 0.
2
2) SCE/σ2 sigue una distribución 𝒳𝒳𝑛𝑛−𝑝𝑝 central.
3) SCReg y SCE son independientes.
Luego, bajo H0, el estadístico F0 sigue una distribución Fisher central, con (p − 1) y (n − p) grados de libertad.
Distribución de SCReg bajo H0: Se puede mostrar que, para cierta matriz A simétrica:
La matriz A es función de la matriz R(p−1)×p de la forma:
y tiene rango (p − 1).
Utilizando resultados sobre distribuciones de formas cuadráticas, se garantiza que:
donde, bajo H0, λ = 0.

Independencia de formas cuadráticas:
Sea Ynx1 vector aleatorio con distribución Normal (µ, Σ), y sean Aq×n y Bn×n matrices reales simétricas. Las variables
aleatorias:
y son independientes ssi
Ejercicio 6: Demuestre que SCReg y SCE son variables aleatorias independientes.
No se hizo, porque no tenemos la matriz A.
Ejercicio 7: Derive la distribución del estadístico F0 de la tabla ANOVA bajo la hipótesis nula.
Ejercicio 8: Utilice lo anterior para verificar el test F en los datos del archivo biomasa.txt.
Modelo ANOVA
Considere el siguiente problema: Un aditivo es agregado en la alimentación habitual de ciertas aves, con el propósito de
promover su crecimiento. Interesa evaluar el efecto de este aditivo y, en particular, interesa la comparación de los
siguientes tratamientos:
C : sin aditivo, L : baja dosis de aditivo, H : alta dosis de aditivo.
Cada tratamiento es observado en grupos de 8 aves en cada uno de ellos. Después de un periodo de tiempo, se registra
su aumento de peso.
ANOVA de un factor (modelo simple): caso particular de modelo de regresión lineal múltiple de un factor. Significa
que el predictor es variable cualitativa (o categórica).
Ejercicio 1: Asumiendo que, en el archivo de datos, las observaciones se encuentran ordenadas de modo que las
observaciones 1 a 8 corresponden a aves que no recibieron aditivo, las siguientes 8 a aves que recibieron bajas dosis y las
observaciones 17 a 24 a aves que recibieron dosis altas.
1. Construya la matriz de diseño X para estas observaciones, utilizando el tratamiento sin aditivos como tratamiento
de control (o grupo de comparación).
2. Encuentre en R los parámetros estimados. Interprete los valores obtenidos.
3. Obtenga el estadístico del test F. Concluya sobre la validez del modelo.
¿Se puede invertir? No, porque una columna es combinación lineal de otra.
Tengo que imponer restricciones a mi matriz.
Parametrización de R → Celda de Referencia → Asume (Comparo todos como sin aditivo).
La matriz X propuesta no es de rango completo, es decir, estamos tratando de estimar más parámetros de lo que permiten
los datos. Se debe imponer restricción:
Como son datos categóricos uso boxplot(Split(peso,trat))
Un boxplot con ocho datos es muy engañoso: tengo que dejar fijos cinco, pero si le puedo creer a la mediana (OJO con
uso de boxplot si tengo pocas observaciones)
¿Cuáles son las hipótesis del test de F?
Fo= 11.49 valor-p = 0.0004 < 5%
Concluimos que el uso de aditivo es significativo en el aumento de peso de las aves.

Ejercicio 2: El modelo ANOVA de un factor también puede ser parametrizado bajo la restricción suma. Esto es:
Construya la matriz de diseño de esta parametrización. Estime los parámetros e interprételos.
Estas restricciones se llaman contrastes en R → contrast(cont.sum)
Esta parametrización se usa cuando no se puede identificar claramente un grupo control, ya que aquí se compara entre
todos.
Ejercicio 3: El archivo munich.txt contiene información sobre los precios de arriendo de 200 hogares en la ciudad de
Munich. El archivo contiene el valor del arriendo, el área total del inmueble, si posee o no calefacción central y la ubicación
dentro de la ciudad.
1. Realice un análisis exploratorio de los datos.

2. Escriba un modelo para estos datos, definiendo variables indicatrices que utilicen
3. Construya la matriz de diseño.
4. Ajuste el modelo utilizando la función lm. Realice el test F y concluya.
Necesito cinco parámetros.
¿Qué representa β2? β2 es cuanto aumenta por estar en ubicación 2 versus punto de referencia (ubicación 1) dejando
todo lo demás constante.
β2 es el aumento (o disminución) del valor del arriendo al cambiarse desde ubicación 1 a la ubicación 2, manteniendo el
área y la condición de calefacción constante.
Paso 3: Construir la matriz de diseño (TAREA)
Tests sobre restricciones lineales sobre los coeficientes
En el modelo sobre el valor de los arriendos en Munich, una manera de evaluar la inclusión de la ubicación de la vivienda
corresponde a testear, de manera conjunta, las hipótesis β2 = 0 y β3 = 0. Estas hipótesis pueden escribirse de manera
conjunta en la forma:
Construiremos un estadístico para este tipo de hipótesis.
Ventaja sobre el test-t: puedo testear dos hipótesis juntas y asegurar que la significancia es 0.5 con el test-t no puedo
estar segura. Se forma combinaciones lineales de los coeficientes betas (no tienen necesariamente que ser la misma
variable como en este ejemplo, en que eran ubicaciones).
Ejercicio 4: Utilizando que:
muestre que:
donde r corresponde al rango de la matriz R.

Ejercicio 5 (propuesto): Muestre que el estadístico anterior es independiente de la Suma Cuadrada del Error. (difícil)
Si el punto de corte es 0.05: la ubicación 3 no aportaría {agregar 1 no aporta, porque penalizo por ese parámetro}.
Por lo tanto, no podemos rechazar Ho (debiésemos eliminar la variable ubicación del modelo)- ANOVA-Test F secuencial
dejando ubicación al final, debería darme los mismos valores.
Ejercicio 6: Muestre que el estadístico:
sigue una distribución Fisher con r y n − p grados de libertad y parámetro de no centralidad λ.
Ejercicio 7: Muestre que bajo la hipótesis , el parámetro de no centralidad se anula y, de acuerdo a esto,
encuentre la región de rechazo del test.
Ejercicio 8: En los datos sobre valores de arriendos en Munich, utilice el resultado anterior para docimar si la ubicación de
la vivienda debe ser incluida en el modelo.
Estimación del modelo por Máxima Verosimilitud
Método de máxima verosimilitud
Considere un conjunto de observaciones discretas y un modelo paramétrico para ellas.
Un criterio muy utilizado para estimar los parámetros del modelo corresponde al método de Máxima
Verosimilitud, que consiste en encontrar los valores de los parámetros que maximizan la probabilidad de haber observado
los datos de interés.
Cuando los datos siguen una distribución continua, el método de Máxima Verosimilitud busca los valores de los
parámetros que maximizan la función de densidad conjunta de las observaciones.
Pero después le colocamos normalidad para testear probabilidad. Todos los test de hipótesis necesitan normalidad.
Este problema fue resuelto al encontrar el estimador de mínimos cuadrados ordinarios.
En el modelo de regresión lineal múltiple: Considere el modelo para las observaciones:
Muestre que los estimadores de máxima verosimilitud corresponden a:
Luego ahora buscamos el valor de σ2 que maximiza

𝑛𝑛�
1 2 𝑛𝑛� −1 𝑆𝑆𝑆𝑆𝑆𝑆
� � (𝜎𝜎 2 )− 2 𝑒𝑒𝑒𝑒𝑒𝑒 � �
2𝜋𝜋 2 𝜎𝜎 2
1) Tomar logaritmo de la expresión para convertir productor en sumas y facilitar maximización.
Intervalo de confianza para una media
Retomemos el problema sobre viviendas en Munich:
El archivo munich.txt contiene información sobre los precios de arriendo de 200 hogares en la ciudad de
Munich. El archivo contiene el valor del arriendo, el área total del inmueble, si posee o no calefacción central y la ubicación
dentro de la ciudad.
Se desea construir un intervalo de confianza para el valor medio del arriendo de una vivienda en Munich, que no
posee calefacción, ubicada en el sector 2, y que tiene un área de 80m2.
Ahí reemplaza con los valores que me interesan.
Parámetro a estimar y estimador puntual: Se desea estimar algo de la forma:
Se propone el estimador puntual dado por:
Para construir un intervalo de confianza basado en este estimador necesitamos construir un pivote que lo contenga.
Pivote: algo que depende del parámetro que me interesa estimar, de la muestra y no debe depender de nada desconocido.
Ejercicio 1:
1. Encuentre la distribución de 𝒙𝒙𝑡𝑡0 𝛽𝛽̂
2. Demuestre que SCE y 𝛽𝛽̂ son independientes (propuesto)

3. Utilizando sus resultados anteriores, obtenga un pivote para 𝒙𝒙𝑡𝑡0 𝛽𝛽̂
4. Utilice dicho pivote para construir un intervalo de confianza para 𝒙𝒙𝑡𝑡0 𝛽𝛽̂
Reordenando las desigualdades

Intercept Calefacción 1 Ubicación 2 Ubicación 3 Área
Beta 58.202 164.085232 -11.779865 167.193952 3.644491
Lo = 275.6442 L1= 400.3199 Muy castigado por no tener calefacción.
Ejercicio 2: Obtenga un intervalo de 95% de confianza para el valor del arriendo de una vivienda en Munich con las
características de interés.
Intervalo de predicción para una nueva observación
Problema: Un estudiante de posgrado en Munich quisiera arrendar una vivienda sin calefacción, ubicada en el sector 2, y
de 80 m2. El encontró una vivienda con dichas características en el diario, pero no se ha publicado el valor del arriendo. El
estudiante desearía tener una predicción para dicho valor antes de visitarla. ¿En qué se diferencia este problema del
problema planteado inicialmente?
El estudiante busca predecir una variable aleatoria, una sola vivienda. Intervalo de predicción para una nueva observación.
Predicción de una observación cuando su distribución es completamente conocida:
Suponga que en el futuro se observará una realización de una variable aleatoria con distribución Normal de media
µ y varianza σ2, con ambos parámetros conocidos. ¿Entre qué valores usted predeciría que estará dicha observación, si
desea estar un “95% seguro” de su predicción?
Tengo una variable que aún no he observado, pero a la cual le conozco la distribución. Ejemplo: Predecir altura de
alumno que entra a la sala. Sé que es distribución normal. Si una conoce la distribución busca intervalo que tenga área de
95%. Elegí el centro, porque aquí puedo tener un intervalo más angosto.
Si me corro más al lado, me tocaría tomar un intervalo de confianza más ancho, porque la altura de esa área es
menor.
Ejercicio 3: ¿Qué distribución tiene el valor del arriendo de la vivienda que visitará el estudiante? ¿Es completamente
conocida?
Ejercicio 4: Se propone utilizar la variable aleatoria:
Me queda centrado en cero → es normal, porque ambos términos son normales
1. Encuentre la distribución de W.
¿La suma cuadrática está relacionada con Yo? No, Yo es independiente.
2. Demuestre que W es independiente de SCE y construya con ellos un estadístico que siga una distribución tn−p.
3. Construya un intervalo de predicción para W y, en base a él, derive el intervalo de predicción deseado para Y0.
Este intervalo es más ancho que , porque tengo un solo valor. Siempre mi intervalo de una media es menos volátil
que trabajar con una sola observación.
Ejercicio 5: Obtenga un intervalo de predicción para el valor de la vivienda que visitará el estudiante.
Descomposición de la Suma Cuadrada de la Regresión
Recordemos el problema: Se desear modelar el gasto en gasolina en 48 localidades, en términos del porcentaje de sus
habitantes que poseen licencia de conducir, el impuesto a la gasolina, el ingreso medio de los habitantes y los kilómetros
de carretera construidos.
Recordemos que ajustar un modelo con varios predictores no es equivalente a ajustar modelos de regresión
simple por separado y luego combinar sus coeficientes estimados.
Trabajaremos un camino para estimador F y predicción Backward y Forward.

Ejercicio 6:
1. Ajuste el modelo de regresión simple: gasolina ∼ licencias.
Objetivo es ajustar con dos predictores. Interesa el modelo gasolina ∼ licencias+ impuestos
2. Para evaluar el ingreso de la variable impuestos, obtenga los residuos de las regresiones gasolina ∼
licencias e impuestos ∼ licencias. Grafique los primeros residuos versus los segundos.
Suponga que lo hago con software que sólo hace modelos univariados.
i) Hago regresión gasolina ∼ licencias: Intercept = -227 Licencias =14

ii) Y tomo residuos (limpio datos) = resid(gasolina~licencias)
iii) Hago regresión impuestos ∼ licencias (limpia licencias)
Explicar con impuestos lo que licencia no pudo explicar
iv) Y tomo residuos (limpio efecto del primero (licencias) = resid(impuestos~licencias)
v) Hago regresión de residuos limpios
lm(y~x) hago regresión entre y = pendiente estimada: x = -32.07 intercept =2.51e-15
3. Ajuste el modelo de regresión entre los residuos anteriores y registre el valor de la pendiente estimada.
4. Ajuste el modelo de regresión múltiple con dos predictores, licencias e impuestos, y compare el valor del
coeficiente estimado de impuestos con el obtenido en el apartado anterior.
Para estimar coeficiente de licencias
resid(galosina~impuestos)~resid(licencias~impuestos) = pendiente estimada = 12.51
Intercept Licencias impuestos

108.97 12.51 -32.07
Mismos resultados que lm (gasolina~licencias+impuestos)
Expresión para la Suma Cuadrada de la Regresión utilizando matrices de proyección
Descomposición de la Suma de Cuadrados Total Recordemos que:
Descomponer la Suma cuadrática de la Regresión (SCReg) para limpiar del efecto de la constante.
Partiremos desde la igualdad:
Descomposición de la matriz H:
Recordemos que la matriz H se construye en base a la matriz de diseño X en la forma:
Para separar el efecto de la constante, se muestra que es posible descomponer la matriz H en la forma:
donde ambas matrices corresponden a matrices de proyección ortogonal, y la primera de ellas, H0, se construye en base
a la columna de 1’s de la matriz de diseño:
Las matrices de proyección proyectan sobre un vector (columna). Primero voy a proyectar sobre la constante
(Primera componente de la matriz de diseño). H* va a proyectar sobre los residuos (me dice cuál es el aporte de mi
modelo).
Volviendo atrás a
¿Qué hay en H* si saqué la constante? Saco columna 1 y las otras de los demás predictores los centro, porque la constante
ya está en el modelo.
Recapitulando (25/09/2018)
Ejercicio 7: Encuentre la forma de la matriz H0, reemplácela en la expresión anterior para YtY y ordene los términos de
modo de visibilizar SCT y SCE. ¿A qué corresponde entonces SCReg?
¿Qué significa descartar el efecto de la constante?
¿Qué hace la matriz Ho? ¿Qué hace la matiz H*?
Las matrices de proyección son nxn (todos) no (p-1)x(p-1)
¿Qué es proyectar sobre la constante? HoY: proyección de Y sobre el espacio generado por la constante. Lo que digo es
que le voy a restar su media (tomo la primera columna y le resto la media)
Vamos a ver que significa descartar el efecto de la constante
Forma de H∗: La matriz de proyección H∗, de dimensiones (p − 1) × (p − 1), se genera en base a los (p − 1) predictores,
descontado el aporte de la constante, es decir, tomando los residuos:
resid(xj ∼ 1) = xj − 𝑥𝑥�𝚥𝚥
j = 1, . . . , p − 1. Es decir, la matriz H∗ se genera en base a una matriz X∗ que contiene a los predictores previamente
centrados.
Restar el valor de la constante no es nada más que centrar.

Ejercicio 8: En el problema sobre consumo de gasolina, obtenga las matrices X∗ y H∗ y utilícelas para obtener la Suma
Cuadrada de la Regresión del modelo de regresión lineal múltiple completo.
Gasolina~lic + imp + ingreso + carretera
Centrado → C1<-licencias-mean(licencias)
Coloco todo como columna en la matriz H* y con eso hago la suma cuadrática del error.
Tabla ANOVA: la suma cuadrática del error (sumo suma cuadrada de cada predictor) =287448+40084+69532+2252
Vamos ahora a ver de dónde sale cada uno de los aportes, al descomponer H*
Descomposición de SCReg = YtH∗Y
Se puede demostrar que la matriz H∗ puede, a su vez, descomponerse en términos de (p − 1) matrices de proyección como:
H∗ = H1 + . . . + Hp−1
donde Hj se construye en base a un vector columna que contiene los residuos de la regresión:
xj ∼ x1 + . . . + xj−1
De este modo, el aporte del j-ésimo predictor, cuando los primeros (j − 1) predictores ya se encuentran en el modelo,
corresponde a:
SCRegj = YtHjY
SCReg = SCReg1 + . . . + SCRegp−1.
Descomposición de la matriz H*: La matriz H* se relaciona con el aporte de todos los predictores descontando el efecto
de la constante. Dado un orden arbitrario de los predictores, el aporte de xj es medido, necesariamente, como el aporte
adicional a lo que aportaron 1+x1+…+xj-1 y esto se hace a través de la matriz Hj construido en base a
resid(xj~ 1+x1+…+xj-1)
NO es posible descomponer SCReg en los aportes absoutos de cada uno de los predictores.
Ejercicio 9: Verifique el resultado anterior con los datos del consumo de gasolina.
j Variable SCRegj
1 Lic 287.448 *
2 Imp 40.084
3 Ingreso 69532
4 carreteras 2252
H1: matriz de proyección construido en base a (licencias -licencias)nx1 ↔ resid(licencias~1)

X1<-resid(lm(licencias~1))
H1<-X1%*%solve(t(X1)%*%X1)%*%t(X1)
SCReg1<- t(Y)%*%H1%*%Y =287.448
Escuchar aproximadamente minuto 40 (aclaración sobre código – 1 no se ve, sino coloco -1, etc).
SCReg2 = YtH2Y
H2 matriz de proyección construida en base a resid(impuesto~1+lic)
Si cambio orden SCT suma lo mismo, pero se reparten distinto los valores en SCRegi
RECUERDE: ¡La Suma Cuadrada asociada a un predictor dado depende de su orden de ingreso en el modelo!
Coeficiente de correlación lineal parcial
¿Cómo me ayuda a tomar decisiones?

Considere un problema de regresión con (p − 1) predictores, x1, . . . , xp−1. El coeficiente de correlación lineal parcial
entre la variable respuesta, Y, y el predictor xj, descontando el efecto de los predictores restantes, x(−j), corresponde al
coeficiente de correlación lineal entre:
resid(Y ∼ x(−j)) y resid(xj ∼ x(−j))

La anotaremos como: ρ(Y, xj | x(−j))
Ejercicio 1: En el problema sobre arriendos de viviendas en Munich, encuentre el coeficiente de correlación lineal parcial
entre el monto del arriendo y el área de la vivienda, descontando el efecto de los predictores restantes.
Y: arriendo (Euros) Predictores: Área, Calefacción, Ubicación
¿Es necesario ingresar el área cuando la calefacción y la ubicación ya están en el modelo?
Primero: hacer factores lo que son factores

Calefacción<-as.factor(calefacción)
Ubicación<-as.factor (ubicación)
R1<-resid(lm(arriendo~calefacción+ubicación))
R2<-resid(lm(area~calefacción+ubicación))
cor(r1,r2) = 0.506
Interesa la relación entre arriendo y área
R1<-resid(arriendo~calefacción+ubicación)
R2<-resid(area~calefacción+ubicación)
sin descontar efecto calefacción y ubicación de la correlación
Era cor(arriendo,área)
¿Cuándo espero que cambie ambas correlaciones, con y sin descontar?
¿Cuándo no aporta nada sobre lo que ya está?
Cuando hay independencia entre los predictores “área y calefacción” (no muy relacionado) y “área y ubicación” (no muy
relacionado)
Ejercicio 2: Realice una simulación para estudiar el comportamiento del coeficiente de correlación lineal parcial cuando
los predictores son colineales.
set.seed(3)
h<-80
lambda<-1
x1<-rexp(n,lambda)
x2<-5*x1+3
plot(x1,x2) (muy correlacionado)
Invento modelo
Y<-beta0+beta1*x1+beta2*x2+rnorm(0,)
beta0<-1
beta1<-2
beta2<-3
#Efecto de x2
plot(x2,Y)
cor(Y,x2) =0.89
# si x1
r1<-resid(lm(Y~x1))
r2<-resid(lm(x2~x1))
plot(r2,r1)
round(r2,10) : r1 se explica perfecto en r2 (totalmente colineales)
cor(r1,r2) =0.0011 (técnicamente 0, sólo por aproximación con decimales).
¿Qué gráfico podría mirar para que es el caso contrario? TAREA
En el ejercicio 1
¿Esto implica que debe tener baja asociación entre área y los dos predictores restantes?
Tests F secuenciales:
Inclusión de un nuevo predictor en el modelo:
Considere un problema de regresión con (p − 1) predictores, x1, . . . , xp−1 y suponga que los predictores x1, . . . , xj−1 ya han
sido incluidos en el modelo. Para decidir la inclusión del predictor xj, se propone utilizar el coeficiente de correlación lineal
parcial entre la respuesta, Y, y xj, descontando el efecto de los predictores ya incluidos. Se plantean las hipótesis:
El predictor xj será incluido en el modelo solo si se encuentra evidencia significativa de que H1 es cierta.
Tests F parciales
Eliminación de un predictor del modelo:
Considere un problema de regresión con (p − 1) predictores, x1, . . . , xp−1 y suponga que todos los predictores ya han sido
incluidos en el modelo. Para decidir la eliminación del predictor xj, se propone utilizar el coeficiente de correlación lineal
parcial entre la respuesta, Y, y xj, descontando el efecto de todos los predictores restantes. Se plantean las hipótesis:
El predictor xj será eliminado del modelo si no se encuentra evidencia significativa de que H1 es cierta.
Estadístico del test:
Utilizando matrices de proyección, se puede demostrar que, bajo la hipótesis nula, el estadístico:
donde MCE corresponde a la Media Cuadrática el Error del modelo completo,
con Hj la matriz de proyección construida a partir de los residuos de la regresión:
sigue una distribución Fisher con 1 y (n − p) grados de libertad, donde p corresponde al número de coeficientes del modelo
completo.
Con significancia α, no podemos rechazar H0, y eliminamos el predictor xj del modelo, si o si:
donde p corresponde al número de parámetros del modelo completo.

Selección de modelos Forward
La primera variable tiene mayor correlación con variable respuesta, pero con variables categóricas no se puede
calcular correlación. Encontrar el valor p más chico para todos los predictores.
Basada en test F secuenciales:
Se ajustan las (p − 1) regresiones lineales simples, e ingresa al modelo el predictor con el menor valor-p asociado
al test F, si éste es menor a un valor α, preespecificado. En caso de no existir, finaliza el procedimiento y se reporta el
modelo nulo.
Se ajustan las (p − 2) regresiones lineales con dos predictores: el predictor ya ingresado y cada uno de los
predictores restantes y se obtiene el valor-p de cada test F secuencial. Ingresa al modelo el predictor con el menor valor-
p, si éste es menor a un valor α, preespecificado. En caso de no existir, finaliza el procedimiento y se reporta el modelo
con un predictor.
Se prosigue hasta que:
• No existan tests F secuenciales significativos

• Hayan ingresado al modelo todos los predictores disponibles
• Se haya alcanzado un número máximo de predictores preespecificado
Segundo Paso
Modelo Inicial ~1+área
p= número total de parámetros en el modelo 1,2,3,4 =4
SCReg = Yt Hj Y
Hj : aporte de ubicación cuando ya está el área y la constante.
Ubicación tiene dos columnas de 0 y unos. La primera si estoy en la ubicación 2 y la segunda si estoy en la ubicación 3.
resid(ubic2~1+área)
Xf* → Hj ambos son columnas
resid(ubic3+1+área+ubic2)
con estas columnas se construye la matriz H que se puede construir con cualquier cosa.
𝑆𝑆𝑆𝑆𝑆𝑆 𝑜𝑜𝑜𝑜 𝑠𝑠𝑠𝑠. 171877
= = 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆
𝑑𝑑𝑑𝑑 2
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 171.877
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 = = =
2 2
𝑆𝑆𝑆𝑆𝑆𝑆 4.6 ∗ 106
𝑀𝑀𝑀𝑀𝑀𝑀 = =
𝑛𝑛 − 𝑝𝑝 200 − 4
Modelo: cte,área, 2 parámetros x ubicación = total 4 parámetros
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝐹𝐹 = = 3.65 valor-p = 1-pf(3.65,2.196)
𝑀𝑀𝑀𝑀𝑀𝑀
Entraría calefacción en el segundo paso.
Ubicación de 0.06 > que 0.05 no entra
add1 = hacerle para el proyecto de modelos
Selección de modelos Backward
Ahora al revés me fijo lo que no es significativo. Tengo ubicación los otros dos quedan signigicativos en el modelo.
Basada en tests F parciales:
Se ajusta el modelo completo obteniéndose los (p − 1) valores-p asociados a los tests F parciales de los (p − 1)
predictores. Se elimina del modelo el predictor con el mayor valor-p, si éste mayor a un valor α, preespecificado. En caso
de no existir, finaliza el procedimiento y se reporta el modelo completo.
Se ajustan el modelo con (p − 2) predictores, obteniéndose los (p − 2) valores-p asociados a sus tests F parciales.
Se elimina del modelo el predictor con el mayor valor-p asociado su test F, si éste mayor a un valor α, preespecificado. En
caso de no existir, finaliza el procedimiento y se reporta el modelo con (p − 2) predictores.
Se prosigue hasta que:
• Todos los tests F parciales son significativos

• Se hayan eliminado todos los predictores (en cuyo caso, se reporta el modelo constante)
• Se haya alcanzado un número mínimo de predictores preespecificado
Selección de modelos Stepwise:
Forward: se revisa que cuando agrego una beta1 que ya no sea significativo F parciales (drop1).
Basada en tests F secuenciales y parciales:
Corresponde a una modificación del método de selección Forward
En cada paso, todos los predictores introducidos en el modelo se re-evalúan a través de sus tests F parciales. Un
predictor añadido en un paso anterior puede ahora ser redundante debido a relaciones entre éste y el nuevo predictor
añadido.
El método termina cuando:
• Se tenga un conjunto de predictores de tamaño predeterminado

• No haya más predictores candidatos a ser incluidos o a ser eliminadas según sus tests F secuenciales o
parciales, respectivamente.
modelo<-lm(arriendo~area+calefacción+ubicación)
drop1(modelo,test=”F”)
F value = F parcial
Si se quiere botar alguno y resulta no significativo, no se ingresa el que pensaba ingresar.
Test F para tomar decisiones, secuenciales, parciales.
R2
CpMallows
AIC
Criterios de Comparación de Modelos
Algunos estadísticos útiles para comparar modelos:
Suponga que se dispone de un grupo de potenciales predictores y se quiere encontrar un modelo adecuado para
explicar la variable respuesta. Algunos estadísticos para evaluar la calidad de un modelo corresponden a:
1. R2 Ajustado
2. Cp de Mallows.
3. Estadístico Press de Validación Cruzada
4. Criterio de Información de Akaike (AIC)
5. Criterio de Información Bayesiano (BIC)
R2-ajustado
Recordemos que:
representa el porcentaje de variación de la respuesta que es explicada por la regresión y que, en principio, buscamos
modelos con valores altos, cercanos a 1. Números entre 0 y 1 que porcentaje de la variabilidad total el modelo es capaz
de explicar?
R2 mejor que otro ¿Qué significa? R2 ajustado = coeficiente de determinación
SCT = SCReg +SCE
(coeficiente de correlación)2 (x,y) = R2 = cor2(x,y)
Problemas que puede tener el R2 y necesidad de ajuste.
El problema de este estadístico es que él crece al aumentar el número de coeficientes en el modelo, no importando la
calidad de los mismos.
Penalización: Modelos son penalizados por el número de coeficientes que utilizan, p. Se define el estadístico R2-ajustado
como:
Note que esta función es decreciente en p.
Ejercicio 1: modelo 1: simple

calefacción<-as.factor(calefacción)
ubicación<-as.factor(ubicación)
cor(arriendo, área)^2 arriendo es la respuesta y área el predictor. = 0.2407574 arriendo~area
R2 = 24% de la variabilidad de la respuesta es explicada por el modelo. Se cumple (0.49)2=0.24
cor(area,arriendo)
¿Cómose tabula?
Modelo R2 #coeficientes R2-ajustado

Área 24.08% 2 23.69%
Área+x2 243.36% 3 23.59%
ubicación 2 5.03%
O en casos extremos siempre mayor que cero por construcción matemática de R2 siempre crece. Pagar el precio de tener
otro parámetro
Summary:
Modelo 1 c/1 predictor R2 = 0.2408 a> p + la penalizo.
Modelo sólo tiene área = R2 ajustado = 0
Modelo sólo ubicación = R2 ajustado = 0.05036
Se prefieren modelos con R2 ajustado alto
Cp de Mallows
Dados los predictores disponibles, se compara con el modelo más chico. Dado los predictores disponibles, el
modelo más grande que podemos construir tiene m coeficientes. Queremos evaluar modelo con p coeficiente completo.
Y~x1+x2+..+xn-1 → SCEp p-1 ≤ m-1
¿Qué pasa si calculamos el modelo completo? ¿con su calidad?
p =m
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆
𝐶𝐶𝐶𝐶 = + 2𝑚𝑚 − 𝑛𝑛
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝑛𝑛 − 𝑚𝑚
=n-m+2m-n =m Definición del algoritmo
Hay un modelo “verdadero” (supuesto) E(Cp) = P (número de coeficientes del modelo ( por construcción no se prefiere)
En general buscamos modelos cuyo CP aprox p (notando eso sí que CP de Mallows de modelo completo SIEMPRE es
igual a su número de parámetros).
Suponga que se tiene un modelo con p coeficientes, anidado en un modelo con un total de m coeficientes, que
utiliza la totalidad de los predictores disponibles. Se define el coeficiente Cp de Mallows como:
donde:
• SCEp corresponde a la suma cuadrada del error del modelo que está siendo evaluado
�2
• 𝜎𝜎𝑚𝑚 corresponde a la media cuadrática del error del modelo completo, con m coeficientes
• el término 2p es una penalización por el número de coeficientes del modelo
• el término n se utiliza por conveniencia
Resultado importante:
1. Si el verdadero modelo tiene p coeficientes, entonces:
y se puede mostrar que, en ese caso, E(Cp) = p.
Luego, se busca modelos tales que su coeficiente Cp de Mallows sea, a lo más, su número de coeficientes, p.
En R: Función Leaps: evalúa todos los modelos. Prueba muchos predictores ordenadospor Cp, por R2
Sigma gorro = siempre es del modelo completo
P = número de coeficientes del modelo evaluado
N =200
Cp =
Estadístico Press de validación cruzada
El estadístico Press se utiliza cuando se desea encontrar un modelo con buenas cualidades predictivas y, por ello,
se basa en los errores de predicción.
El i-ésimo error de predicción, e(i), corresponde a la diferencia entre la i-ésima observación y su valor predicho
cuando se ajusta el modelo sin ella. Es decir,
El estadístico Press corresponde a:
donde ei corresponde al i-ésimo residuo del modelo, y hii a la palanca de la i-ésima observación.
Desearíamos que Press fuese pequeño.
Validación cruzada / predicción: depende del orden de amplitud la variable respuesta.

e1<-resid(modelo1)
h1<-ls.diag(modelo1)$hat
p1<-sym((e1/(1-h1))12)
Criterio de Información de Akaike, AIC
Para evaluar cualquier modelo, No sólo regresión.
Si el modelo es correcto la verosimiltud debiese ser grande. Se evalúa teta en el estimador máximo Verosimil.
Se penaliza por el número total de parámetros 2K.

AIC: Considere un modelo para datos x1, . . . , xn, con verosimilitud L(θ, x). El criterio de información de Akaike se define
como:
(lo más pequeño posible)
donde 𝜃𝜃� corresponde al estimador de máxima verosimilitud de θ y k al número de parámetros del modelo.
Valores pequeños de este estadístico representan modelos con alta verosimilitud y pocos parámetros y, por tanto,
son deseables.
Ejercicio 1: Muestre que, para un modelo de regresión lineal múltiple con p coeficientes, el estadístico AIC corresponde
a:
Matriz de diseño: columnas p = ncol(x) = p
Queremos AIC pequeño. Permite comparar modelos de distinto tipo.
Criterio de Información Bayesiano, BIC
BIC penaliza por (Log n)
log n = criterio de información Bayesiana
R -< BIC (modelo) lo da directamente
Dos modelos se elige el modelo más pequeño / por comparación

BIC: Este estadístico reemplaza el valor de la constante de penalización del estadístico AIC:
En el caso de regresión lineal múltiple esto queda:
Valores pequeños de este estadístico representan modelos con alta verosimilitud y pocos parámetros y, por tanto, son
deseables.
Una interpretación interesante del estadístico BIC:
Suponga que se desea comparar k potenciales modelos para los datos:
M1, M2, . . . , Mk, con parámetros θ1, . . . , θk, respectivamente. A modo de ejemplo:
En este caso,
Bajo el enfoque Bayesiano:
Se desea elegir el modelo que tenga la mayor probabilidad de ser cierto a la luz de los datos, es decir, el modelo que
maximiza:
Si, antes de ver los datos, se estima que todos los modelos tienen la misma probabilidad, entonces se puede demostrar
que:
Luego, elegir el modelo con el menor estadístico BIC es equivalente a elegir el modelo con la mayor probabilidad de ser
cierto a la luz de los datos.
Diagnósticos de un Modelo Ajustado
Diferentes situaciones, un mismo ajuste:
En todos los casos:
¿Cómo distinguir entre estas situaciones?
Si se ven los puntos, en los cuatro se ve la misma recta y la misma media cuadrática del error y R2.
• gráfico b) curvatura, pero pasos no pasan por la recta. La media no sería lineal en el predictor.
• gráfico c) punto de palanca que está lejos del centro de los datos.
• gráfico d) Hay un punto que tiene una gran palanca en la derecha. La recta depende mucho de un sólo punto.
Este es un problema de la recolección de datos.
• gráfico a) el mejor.
Selección de los modelos: que los residuos sean bonitos.
Revisión de supuestos:
Se debe revisar: (Todos los supuestos los puedo revisar en los errores)
1. ¿Está bien identificada la función para la media?

2. ¿Es constante la varianza?
3. ¿Es válido el supuesto de normalidad?
4. ¿Son independientes los errores?
5. ¿Vienen todos los datos del mismo modelo?
Los residuos como indicadores de ajuste: (Vamos a ver como deberían distribuir los residuos)
Distribución de los errores: Los supuestos del modelo se relacionan directamente con los supuestos sobre los errores. El
modelo afirma que:
Estudiaremos las propiedades de los residuos
para ayudar a revisar los supuestos.
Ejercicio 1: (distribución de los residuos)
Encuentre la distribución de los residuos, asumiendo que se cumplen los supuestos del modelo. Compárela con la
distribución de los errores.
Tener bien clara la diferencia entre errores y residuos. Tengo que hacerle ciertas adaptaciones a los residuos. Ahora vamos
a ver los residuos studentizados.
Residuos estandarizados (o internamente studentizados):
Para igualar varianzas, se definen los residuos estandarizados como:
donde hii corresponde al i-ésimo elemento en la diagonal de la matriz H. Se verifica que:
Si los supuestos sobre los errores son válidos,
Residuos (externamente) studentizados: Los residuos studentizados corresponden a:
donde 𝜎𝜎�(𝑖𝑖) corresponde al estimador de σ al ajustar el modelo sin la i-ésima observación. Si los supuestos sobre los errores
son válidos, se cumple que:
Sigma cuadrado remuevo la observación que puede ser outlier. Con estas herramientas vamos a chequear los supuestos.
Validación del modelo a través de los residuos
1. ¿Está bien identificada la función para la media?

Para verificar este supuesto, podemos analizar los gráficos:
Se busca que no existan patrones o formas. En caso de existir, se debe explorar transformaciones de las
variables (más sobre esto en Sesión 9).
Buscamos un patrón en los gráficos. Si están bien identificadas o no. Graficamos residuos versus predictores
(varios gráficos) o gráfico errores con valores ajustados.
2. ¿Es constante la varianza de los errores?
Para verificar este supuesto, podemos analizar los gráficos:
Se busca que las amplitudes verticales en las figuras sean similares en la medida en que se recorre el eje de las
abscisas. En caso de no ser así, se debe considerar ajustar el modelo utilizando Mínimos Cuadrados Ponderados (más
sobre esto en Sesión 10).
ri o ti tienen que tener la misma varianza. Busco la amplitud vertical similar. Más que corregirlo, lo tomo en cuenta
cuando tomo los beta gorro. No necesariamente hay que transformar la variables.
Ejercicio 2: Los siguientes gráficos representan el comportamiento de residuos estandarizados. Utilícelos para evaluar los
supuestos del modelo.
Busco si la media está bien especificada. Que no haya una forma o figura.
• gráfico a) no se ven patrones. Está bien identificada la media, Varianza, las amplitudes arriba y abajo son similares.
• Gráfico b) la varianza crece con el predictor.
• Gráfico c) La varianza decrece con el predictor
• Gráfico d) La varianza crece y decrece.
• En ningún gráfico hay problemas de media.
• gráfico e) una curvatura muy clara. Los predictores no son lineales. La media está mal especificada. No hay
problema de variabilidad.
• gráfico f) varianza ok, pero media mal especificada, porque veo patrón.
• Gráfico g) varianza no está bien distribuida. Todos los positivos y los negativos después es por un problema de
media
• gráfico h) problema de media igual que en g. Varianza se va ampliando.
Media mal especificada se refiere
3. ¿Es válido el supuesto de normalidad de los errores?
La distribución empírica de los residuos estandarizados corresponde a
Si ordenamos los residuos estandarizados de menor a mayor, r(1), . . . , r(n), buscamos los cuantiles de la distribución
Normal equivalentes a ellos:
Podemos comparar cada r(i) con el valor z(i) asociado. El gráfico de éstos se denomina qqplot.
Se busca que los puntos en el gráfico desplieguen una figura cercana a una recta. Pequeñas desviaciones en las colas son
aceptables.
También pueden realizarse prueba de Normalidad como las de Kolmogorov-Smirnov, Shapiro-Wilk o Anderson-Darling.
Vemos el qqplot.
i) pongo todas las observaciones co una misma distribucion (estandarizo los residuos)
4. ¿Son independientes los errores?
El test de Durbin-Watson está diseñado para detectar correlación temporal en los errores, en la forma:
En este caso,
y la matriz de varianzas y covarianzas de los errores corresponde a:
Aquí es difícil saber. Porque los test de independencia son para casos muy particulares. Durbin Watson, sólo chequea
si a matriz de varianza es la que se muestra en la diapo.
Durbin Watson: mide si el error de hoy depende del de ayer. Esto es de arrastre a través del tiempo y la correlación
va decreciendo.
Hipótesis del test: Interesa testear las hipótesis:
El estadístico del test está dado por:
Si Ho: rho =0. Sólo se usa el test de Darwin Watson para series de tiempo. Sino no me sirve.
En R es posible realizar este test a través de la función dwtest de la librería lmtest.
5. ¿Vienen todos los datos del mismo modelo?
Si el modelo es cierto, los residuos estandarizados siguen una distribución aproximadamente Normal, y los
residuos studentizados una distribución aproximadamente t-student.
Un residuo (estandarizado o studentizado) proveniente de las colas de su distribución asociada es indicación de

que la observación proviene de otro modelo, lo que la identifica como observación anómala o outlier.
Un outlier debe ser reportado. Sin embargo, no siempre corresponde a una observación problemática. Esto ocurre
cuando, además, la observación es influyente.
Chequeo los outliers. Ver si todos los residuos estandarizados son consistentes con una normal, 0, 1 o tienen colas.
47 min.....
Medidas de influencia
Observaciones extremas: Corresponden a observaciones en que el predictor está muy alejado de los valores de los
predictores del grueso de las observaciones, como la observación a la derecha en cada una de las figuras:
La observación en el gráfico a la derecha es considerada influyente (¿por qué?)
Datos islas galápagos

## Ver datos originales sin residuos
plot(area, número) ---punto arriba que detemrina mucho(gráfico no muy lindo)
plot(elevacion, número) ---- una recta que estaría más balanceada
plot(cercana, numero) ---
modelo<-lm(numero~area+elevación)
e<- resid(modelo)
R<-ls.diag(modelo$st.res ## residuos estandarizados
t<-ls.diag(modelo)$stud.res ###residuos studentizados
plot(area,e)
abline(h=0)
plot(elevación, e)
abline(h=0)
plot(fitted(modelo),e)
#### 1. está bien identificada la función de la media
###2. SCte la varianza

plot(area,r)
plot(fitted(modelo),r)
corro el mismo código, pero con los estudentizados (t)
###3. Válido supuesto normalidad

qqnorm(r)
qqnline(r)
Los puntos en las colas son los mismo outliers de siempre. Por tres outliers
no voy a invalidar el modelo. No se ve una curvatura tremenda en el centro. No se
ve que sea un problema de normalidad.
shapiro.test(r) #### p-value 0.006731 (rechaza normalidad, pero puede ser por
los outliers)
### viene todos los datos del mismo modelo

a<-max(abs(r),196)
Veo gráfico con barras para identificar outliers.
si saco los outliers y corro shapiro denuevo me da p-value =0.7438
de la derecha es influyente (tira la recta hacia abajo). Palanca y efecto residuos grandes es peligroso.
Puntos de influencia:
Notemos que los valores ajustados pueden expresarse como:
Donde
Luego, los coeficientes hii, denominados palanca, representan el peso que tiene cada observación para
determinar su valor ajustado.
Se demuestra que luego, si todos los puntos tienen igual influencia en el ajuste del modelo,
entonces
Una observación se considera influyente si:

¿En qué casos hii es grande?
Se puede demostrar que si 𝒙𝒙 � corresponde al vector de promedios de los (p − 1) predictores, y X corresponde a la

matriz de los (p − 1) predictores centrados,
Es decir, la palanca de una observación crece en la medida en que los valores de sus predictores se alejan del
vector de promedios.
En qué casos a palanca es grande. El tener o no palanca depende sólo de los valores del predictor.
Distancias de Cook:
Diseñadas para medir el cambio en los valores estimados de las observaciones cuando una observación particular es
omitida de la muestra. Se define como:
Una observación se considera influyente si:
Ve la influencia de cada observación sobre los valores ajustados

Dfits:
Miden la influencia de cada observación sobre sus valores ajustados. Se define como:
Se considera un indicio de influencia si:
Cuando no está el valor, como cambia el valor ajustado de sí misma (cuando ella está o no está).
Ver porque puntos 4 y 114 son tan distintos. Investigar un poco por qué. Caso a caso, y ahí se eliminó tengo que
hacer un análisis previo a eliminar el dato. Lo saco si su comportamiento no se ajusta a lo que es general. Si es un outlier
es poco probable que sea problema de un modelo más especificado. Si hay muchos, ahí si es posible que sea porque, por
ejemplo, no consideré todas las variables.
Saco sólo si es outlier e influencia, no sólo por ser outlier.

Otras medidas de influencia:
DFBETASj(i): Mide el efecto de cada observación sobre el estimador del j-ésimo coeficiente.
COVRATIO: Mide el efecto de cada observación sobre la matriz de varianzas-covarianzas de los parámetros estimados.
Transformación de Variables
Situación 1: En Chile, la industria del salmón ha alcanzado altos niveles de producción y exportación, abasteciendo a más
de 70 mercados en el mundo. Un aspecto importante corresponde a la predicción del peso de salmón extraído. La figura
muestra el peso de los salmones versus su longitud, en una muestra de 56 de ellos.
¿Está bien especificada la media de las observaciones?
Se ajustó el modelo de regresión lineal: peso ~ longitud
La figura muestra el comportamiento de los residuos:
Situación 2: En un estudio morfológico de las especies, se intenta explicar el peso del cerebro (en gramos) de 62
mamíferos en términos del peso de su cuerpo (en kilos).
Exploración de transformaciones:
Se requiere de estrategias sistemáticas para determinar transformaciones adecuadas.
Estrategias de búsqueda
Estudiaremos las siguientes alternativas:
1. Transformación de la variable respuesta: métodos de Box-Cox y de Atkinson

2. Transformación del (de los) predictor(es)
Transformación de Box-Cox
El método de Box-Cox para buscar transformaciones adecuadas, explora la familia de potencias y logaritmo, de las
formas:
Si la variable U = fλ(Y) es la transformación buscada, el modelo correcto corresponde a:
El método de Box-Cox:
Encuentra la función de verosimilitud de los datos, Y, multiplicando la función de verosimilitud de U por el determinante
del Jacobiano de la transformación.
Trabaja esta función de verosimilitud de forma que ésta queda expresada en términos de la Suma Cuadrada del Error de
una regresión de la forma:
Z~X
𝑼𝑼
Donde 𝒁𝒁 = con G media geométrica de los datos:
𝐺𝐺 𝜆𝜆−1
Luego:
1. Recorre valores de λ, ajustando la regresión de Z y obteniendo su Suma Cuadrada del Error. Se muestra que
maximizar la función de verosimilitud es equivalente a minimizar esta Suma Cuadrada.
2. Encuentra numéricamente el valor de λ que la minimiza.
Ejercicio 1: Se piensa que, para ciertas iglesias correspondientes a una misma escuela arquitectónica, existe una estrecha
relación entre su perímetro y su área. Para estudiar esta conjetura se cuenta con observaciones referentes a 25 iglesias.
Ajuste un modelo de regresión lineal a los datos y visualice el comportamiento de los residuos. Utilice el método de Box-
Cox para determinar una transformación de la variable respuesta que mejore este comportamiento.
Intervalo de confianza para λ:
Un intervalo de confianza (1 - α)100% está dado por todos los valores de λ tales que:
donde 𝜆𝜆̂ corresponde al valor que minimiza SCE(Z(λ)) o, equivalentemente, maximiza la función lmax. Note que el valor
𝜆𝜆̂ = 1corresponde a no realizar transformación a los datos.
Ejercicio 2: Encuentre un intervalo de confianza para _ en el modelo para las áreas de las iglesias.
Ejercicio 3: Transforme los datos según sugerido por el método de Box-Cox y evalúe nuevamente la pertinencia del
supuesto de linealidad de la (nueva) media.
Transformación de Atkinson
Características de la propuesta:
1. La búsqueda de transformaciones se realiza dentro de la familia de potencias y logaritmo.

2. Para encontrar la mejor transformación se requiere una única regresión.
3. Entrega un test de hipótesis para la necesidad de realizar una transformación y entrega un intervalo de confianza para el parámetro que la
determina.
Propuesta: Considere la familia de transformaciones dada por:
La expansión de Taylor de primer orden para Z, alrededor de λ= 1 corresponde a:
Si escribimos:
entonces:
donde c es una constante que no depende de Y. Igualando esta expansión de Z a Xβ + ϵ se obtiene:
donde γ= 1 - λ y la matriz X contiene la columna asociada al término constante.

• Atkinson propone estimar el modelo en la expresión (1) a través de Mínimos Cuadrados, y estimar λ
por 𝜆𝜆̂ = 1 − 𝛾𝛾�
• El gráfico: resid(Y ~ x) ~ resid(u(Y) ~ x)
puede ser de utilidad para detectar la necesidad de transformación.
• Es posible estimar γ por Mínimos Cuadrados, construir un intervalo de confianza para λ y realizar un test de
hipótesis para evaluar la necesidad de transformación.
Ejercicio 4: Utilice el método de Atkinson para buscar una posible trasformación al peso de los salmones, para ser
explicado en términos de su longitud, en el problema planteado al comienzo de la clase.
Ejercicio 5: Utilice el método de Atkinson para buscar una posible trasformación al área de las iglesias, para ser explicada
en términos de su perímetro.
Transformación de los Predictores

Distinguimos dos casos en la transformación de predictores.
En el primero, la respuesta alcanza un máximo en el rango de los predictores. En este caso, usamos potencias enteras: 𝑥𝑥12 , 𝑥𝑥13 ,etc. Es decir, hacemos
transformaciones a regresiones polinomiales.
Alternativamente, la respuesta puede ser monótona, en dicho caso, otras potencias en el rango (-2; 2) pueden ser utilizadas.
Consideremos el modelo lineal:
y consideremos transformaciones del predictor x1 del tipo
es decir, exploramos transformaciones análogas a las transformaciones de la variable respuesta propuestos por Box-Cox
y Atkinson.
Consideremos ahora el modelo que incluye una relación no lineal entre Y y x1:
Para linealizar este modelo, utilizaremos la expansión de Taylor de primer orden para v(α) en torno a α = 1:
El modelo queda:
con:
El procedimiento propuesto consiste en estimar β1 por Mínimos Cuadrados en la regresión que sólo incluye el término lineal en x1, 𝛽𝛽1
� , y luego
ajustar el modelo en la ecuación (3) para obtener 𝜂𝜂̂ . De este modo, estimamos α por:
Esto permite obtener un intervalo de confianza para α y realizar un test de hipótesis para determinar la necesidad de transformación.
Ejercicio 6: Con el objeto de explicar el contenido de mercurio detectado en róbalos de lago en términos de las características del agua, entre agosto
de 1990 y marzo de 1991 fueron tomadas muestras de agua de la superficie de 53 lagos, midiéndose, entre otras variables, la alcalinidad del agua,
expresada por el contenido de carbonato de calcio (mg/lt), y el contenido de mercurio en el tejido muscular en una muestra de peces en cada lago
(en partes por millón). Los datos corresponden a los promedios observados en cada lago. Explore una posible transformación del predictor para
mejorar la calidad del modelo.
M ODELOS L INEALES
Sesión 9
Ana Marı́a Araneda
Modelos Lineales 1 / 24
Transformación de variables
Situación 1:
En Chile, la industria del salmón ha alcanzado altos niveles de producción y
exportación, abasteciendo a más de 70 mercados en el mundo. Un aspecto
importante corresponde a la predicción del peso de salmón extraı́do. La figura muestra
el peso de los salmones versus su longitud, en una muestra de 56 de ellos.
¿Está bien especificada la media de las observaciones?
Se ajusó el modelo de regresión lineal:
peso ∼ longitud.
La figura muestra el comportamiento de los residuos:
Situación 2:
En un estudio morfológico de las especies, se intenta explicar el peso del cerebro (en
gramos) de 62 mamı́feros en términos del peso de su cuerpo (en kilos).
Exploración de transformaciones:
1 1
∼
peso cerebro peso cuerpo
(peso cerebro)1/3 ∼ (peso cuerpo)1/3
log(peso cerebro) ∼ log(peso cuerpo)
Se requiere de estrategias sistemáticas para determinar transformaciones adecuadas.
Estrategias de búsqueda
Estudiaremos las siguientes alternativas:

1 Transformación de la variable respuesta: métodos de Box-Cox y de Atkinson
2 Transformación del (de los) predictor(es)
Transformación de Box-Cox
El método de Box-Cox para buscar transformaciones adecuadas, explora la familia de

potencias y logaritmo, de las formas:
Y λ −1

λ , λ 6= 0
fλ (Y) =
log Y, λ=0
Si la variable U = fλ (Y) es la transformación buscada, el modelo correcto
corresponde a:
U ∼ Normal(Xβ, σ 2 I).
El método de Box-Cox:
1 Encuentra la función de verosimilitud de los datos, Y, multiplicando la función de
verosimilitud de U por el determinante del Jacobiano de la transformación.
2 Trabaja esta función de verosimilitud de forma que ésta queda expresada en

términos de la Suma Cuadrada del Error de una regresión de la forma:
Z ∼ X,
λ−1
donde Z = U/G , con G media geométrica de los datos:
n
Y 1/n
G= Yi .
i=1
Luego:
1 Recorre valores de λ, ajustando la regresión de Z y obteniendo su Suma
Cuadrada del Error. Se muestra que maximizar la función de verosimilitud es
equivalente a minimizar esta Suma Cuadrada.
2 Encuentra numéricamente el valor de λ que la minimiza.
Ejercicio 1:
Se piensa que, para ciertas iglesias correspondientes a una misma escuela
arquitectónica, existe una estrecha relación entre su perı́metro y su área. Para
estudiar esta conjetura se cuenta con osbervaciones referentes a 25 iglesias. Ajuste
un modelo de regresión lineal a los datos y visualice el comportamiento de los
residuos. Utilice el método de Box-Cox para determinar una transformación de la
variable respuesta que mejore este comportamiento.
Intervalo de confianza para λ:
Un intervalo de confianza (1 − α)100% está dado por todos los valores de λ tales que:
1
lmax (λ) ≥ lmax (λ̂) − χ21,1−α ,
2
donde λ̂ corresponde al valor que minimiza SCE(Z(λ)) o, equivalentemente, maximiza
la función lmax . Note que el valor λ̂ = 1 corresponde a no realizar transformación a los
datos.
Ejercicio 2:
Encuentre un intervalo de confianza para λ en el modelo para las áreas de las iglesias.
Ejercicio 3:
Transforme los datos según sugerido por el método de Box-Cox y evalúe nuevamente
la pertinencia del supuesto de linealidad de la (nueva) media.
Transformación de Atkinson
Caracterı́sticas de la propuesta:
La búsqueda de transformaciones se realiza dentro de la familia de potencias y
logaritmo.
Para encontrar la mejor transformación se requiere una única regresión.
Entrega un test de hipótesis para la necesidad de realizar una transformación y

entrega un intervalo de confianza para el parámetro que la determina.
Propuesta:
Considere la familia de transformaciones dada por:
 λ
Y −1
 λGλ−1 ,
 λ 6= 0
Z(λ) =

G log Y, λ = 0.

La expansión de Taylor de primer orden para Z, alrededor de λ = 1 corresponde a:

Y
Z(λ) ≈ (Y − 1) + Y log − 1 + (1 + log G) (λ − 1)
G
| {z }
dZ |
dλ λ=1
Si escribimos:
Y
u(Y) = Y log −1 ,
G
entonces:
Z(λ) ≈ c + Y + (λ − 1)u(Y),
donde c es una constante que no depende de Y. Igualando esta expansión de Z a

Xβ + se obtiene:
Y = Xβ + (1 − λ) u(Y) +
= Xβ + γ u(Y) + , (1)
donde γ = 1 − λ y la matriz X contiene la columna asociada al término constante.
Atkinson propone estimar el modelo en la expresión (1) a través de Mı́nimos
Cuadrados, y estimar λ por λ̂ = 1 − γ̂.
El gráfico:
resid(Y ∼ x) ∼ resid(u(Y) ∼ x)
puede ser de utilidad para detectar la necesidad de transformación.
Es posible estimar γ por Mı́nimos Cuadrados, construir un intervalo de confianza

para λ y realizar un test de hipótesis para evaluar la necesidad de transformación.
Ejercicio 4:
Utilice el método de Atkinson para buscar una posible trasformación al peso de los
salmones, para ser explicado en términos de su longitud, en el problema planteado al
comienzo de la clase.
Ejercicio 5:
Utilice el método de Atkinson para buscar una posible trasformación al área de las
iglesias, para ser explicada en términos de su perı́metro.
Transformación de los Predictores
Distinguimos dos casos en la transformación de predictores.
En el primero, la respuesta alcanza un máximo en el rango de los predictores. En este

caso, usamos potencias enteras: x12 , x13 , etc. Es decir, hacemos transformaciones a
regresiones polinomiales.
Alternativamente, la respuesta puede ser monótona, en dicho caso, otras potencias en

el rango (−2, 2) pueden ser utilizadas.
Consideremos el modelo lineal:
p−1
X
Y = β0 + βj xj + (2)
j=1
y consideremos transformaciones del predictor x1 del tipo

(
x1α , α= 6 0
v(α) =
log x1 , α = 0,
es decir exploramos transformaciones análogas a las transformaciones de la variable

respuesta propuestos por Box-Cox y Atkinson.
Consideremos ahora el modelo que incluye una relación no lineal entre Y y x1 :
p−1
X
Y = β0 + β1 v(α) + βj xj + .
j=2
Para linealizar este modelo, utilizaremos la expansión de Taylor de primer orden para
v(α) en torno a α = 1:
v(α) ≈ x1 + (x1 log x1 )(α − 1).
El modelo queda:
p−1
X
Y = β0 + βj xj + β1 (α − 1)(x1 log x1 ) +
j=1
p−1
X
= β0 + βj xj + ηv(x1 ) + , (3)
j=1
con:
v(x1 ) = x1 log x1 ,
y η = β1 (α − 1).
El procedimiento propuesto consiste en estimar β1 por Mı́nimos Cuadrados en la
regresión que sólo incluye el término lineal en x1 , β̂1 , y luego ajustar el modelo en la
ecuación (3) para obtener η̂. De este modo, estimamos α por:
η̂
α̂ = + 1.
β̂1
Esto permite obtener un intervalo de confianza para α y realizar un test de hipótesis
para determinar la necesidad de transformación.
Ejercicio 6:
Con el objeto de explicar el contenido de mercurio detectado en róbalos de lago en
términos de las caracterı́sticas del agua, entre agosto de 1990 y marzo de 1991 fueron
tomadas muestras de agua de la superficie de 53 lagos, midiéndose, entre otras
variables, la alcalinidad del agua, expresada por el contenido de carbonato de calcio
(mg/lt), y el contenido de mercurio en el tejido muscular en una muestra de peces en
cada lago (en partes por millón). Los datos corresponden a los promedios observados
en cada lago.
Explore una posible transformación del predictor para mejorar la calidad del modelo.
M ODELOS L INEALES
Sesión 10
El Modelo Heterocedástico
Situaciones frecuentes:
La variabilidad de la respuesta suele variar con la magnitud de sı́ misma o de los
predictores.
Es posible identificar esta situación a través de gráficos de los residuos
En ocasiones, puede ser resuelto simultaneamente al tranformar la función de la

media.
Gráficamente
Mejores estimadores lineales insesgados
Teorema de Gauss-Markov
Considere el modelo de regresión lineal con:
E(i ) = 0, Var(i ) = σ 2
para todo i = 1, . . . , n, con los i no correlacionados. El estimador de Mı́nimos

Cuadrados Ordinarios,
β̂ = (X t X)−1 X t Y
corresponde al estimador de menor varianza dentro de la familia de los estimadores
lineales insesgados para β (BLUE: best Linear Unbiased Estimator).
Problema:
Esta condición se pierde cuando el modelo es heterocedástico o cuando las
observaciones no son no correlacionadas.
Mı́nimos Cuadrados Ponderados
Primera interpretación del método de Mı́nimos Cuadrados Ponderados:

Este método de estimación puede verse como una transformación de las variables de
modo de obtener un modelo homocedástico.
Ejercicio 1:
Se desea utilizar un modelo de regresión lineal para estudiar el efecto de la capacidad
de las refinerı́as de petróleo sobre el volumen de agua utilizado mensualmente.
Se cree que la variabilidad del volumen del agua crece al considerar refinerı́as de
mayor capacidad, cumpliéndose una relación de la forma:
Var (Yi ) = Var (i ) = xi2 σ 2 ,
con σ 2 constante desconocida. Considere la variable:

Yi
Zi = .
xi
Transforme la relación entre las variables de modo de obtener un modelo lineal
homocedástico.
Ejercicio 2:
Estudie la manera de utilizar un software que realice el ajuste de un modelo
homocedástico, para estimar los coeficientes en la relación lineal entre la capacidad
de la refinerı́a y el volumen de agua utilizado.
Ejercicio 3:
Se postula que el volumen de agua utilizado puede ser explicado además por la
capacidad de las torres de enfriamiento, en un modelo sin constante.
1 Transforme las variables de modo de obtener un modelo homocedástico e indique
la manera de ajustar el modelo original utilizando un software que solo entregue
los estimadores de Mı́nimos Cuadrados Ordinarios.
2 Indique cómo obtener un intervalo de confianza para la media del volumen de

agua utilizado cuando la capacidad de la refinerı́a toma el valor x10 y la capacidad
de las torres de enfriamiento toma el valor x20 .
Segunda interpretación del método de Mı́nimos Cuadrados Ponderados:
El método propuesto corresponde al método de Mı́nimos Cuadrados Ordinarios con
función objetivo modificada.
En el Ejercicio 1, la función objetivo de la regresión de Z corresponde a:

n
X
S(α0 , α1 ) = (Zi − α0 − α1 vi )2 ,
i=1
la que es equivalente a:
n
X
SMCP (β0 , β1 ) = ωi (Yi − β0 − β1 xi )2 ,
i=1
con:
1
ωi = , i = 1, . . . , n.
xi2
Método de Mı́nimos Cuadrados Ponderados
El procedimiento corresponde a estimar el vector de coeficientes β minimizando la
función:
SMCP (β) = (Y − Xβ)t W(Y − Xβ),
donde:
W = diag(ωi ),
1
ωi = , i = 1, . . . , n.
vi
donde los vi son tales que Var(Yi ) = vi σ 2 . La solución a este problema de
minimización corresponde a:
β̂ MCP = (X t WX)−1 X t WY,
Considere el modelo lineal heterocedástico con
Var(i ) = vi σ 2 ,
para todo i = 1, . . . , n, y los i no correlacionados. El estimador de Mı́nimos Cuadrados

Ponderados,
β̂ MCP = (X t WX)−1 X t WY
W = diag(ωi ),
1
ωi = , i = 1, . . . , n,
vi
Distribución de β̂ MCP :
β̂ MCP ∼ Normal(β, Var (β̂ MCP )),
donde:
Var (β̂ MCP ) = (X t WX)−1 σ 2 .
En la tabla ANOVA:
SCE = (Y − X β̂ MCP )t W(Y − X β̂ MCP )

SCE
MCE =
n−p
σ̂ 2 = MCE
ˆ (β̂)
Var = (X t WX)−1 σ̂ 2 .
Ejercicio 4:
Un investigador de la salud está interesado en estudiar la relación entre la presión
sanguı́nea sistólica y la edad de las mujeres adultas sanas entre 20 y 60 años de
edad.
Para estudiar esta relación se cuenta con datos correspondientes a 54 mujeres sanas
dentro de dicho rango de edad. Los datos se encuentran en el archivo presion.txt.
Estime el modelo por Mı́nimos Cuadrados Ponderados, suponiendo:
1 Var (i ) = xi σ 2
2 Var (i ) = xi2 σ 2
Mı́nimos Cuadrados Generalizados
Sea el modelo lineal heterocedástico:
Y ∼ Normal(Xβ, σ 2 V),
con V matriz definida positiva arbitraria. El estimador de Mı́nimos Cuadrados

Generalizados de β corresponde al argumento que minimiza la función:
SMCG (β) = (Y − Xβ)t V −1 (Y − Xβ).
La solución a este problema de minimización corresponde a:
β̂ MCG = (X t V −1 X)−1 X t V −1 Y.
El estimador propuesto cumple con:
β̂ MCG ∼ Normal(β, Var (β̂ MCG )),
donde:
Var (β̂ MCG ) = (X t V −1 X)−1 σ 2 .
Considere el modelo lineal heterocedástico con
Var() = σ 2 V,
con V matriz definida positiva arbitraria. El estimador de Mı́nimos Cuadrados

Generalizados,
β̂ MCG = (X t V −1 X)−1 X t V −1 Y

M ODELOS L INEALES
Sesión 11
Colinealidad entre los predictores
Definición:
Decimos que estamos en presencia de colinealidad si:
Existe dependencia lineal aproximada entre todos o algún subconjunto de
predictores, es decir, existe un vector c = (c0 , c1 , c2 , . . . , cp−1 ) tal que
ct Xt ≈ 0.
Existe una regresión lineal significativa de uno de los predictores sobre un

subconjunto de otros.
Posibles causas:
Observacionales
Existencia real de la relación entre los predictores
Estudiaremos:
Consecuencias
Métodos para detectarla
Algunas sugerencias para manejarla
Consecuencias de colinealidad entre los predictores
Efecto sobre los estimadores de Mı́nimos Cuadrados Ordinarios:

Suponga un problema de regresión lineal con dos predictores, x1 y x2 . Por
conveniencia asumiremos que las variables han sido previamente estandarizadas, de
modo que:
x̄1 = x̄2 = ȳ = 0, y S11 = S22 = Syy = 1.
Dado que las variables han sido centradas, planteamos un modelo sin intercepto,
Y = β1 x1 + β2 x2 + .
Sea r12 la correlación muestral entre x1 y x2 , y sean r1Y y r2Y las correlaciones
muestrales de cada predictor con la variable respuesta.
Estimadores de los coeficientes:
Los estimadores de Mı́nimos Cuadrados Ordinarios corresponden a:

β̂1 1 1 −r12 r1y
=
β̂2 2
1 − r12 −r12 1 r2y
¿Qué ocurre si si |r12 | ≈ 1?
Gráficamente
Escenario ideal: predictores ortogonales
Los pares (x1 , x2 ), que se muestran como cruces en el plano inferior, despliegan una zona amplia:
el plano se regresión tiene bastante “apoyo”.
Peor escenario: predictores exactamente colineales
Los pares (x1 , x2 ) despliegan una recta perfecta. El plano de regresión es inestable (existen
infinitas soluciones al problema de minimización).
Escenario intermedio: colinealidad débil
Los pares (x1 , x2 ) no despliegan una recta perfecta, por lo que la solución al problema de
minimización es única. Sin embargo, el plano de regresión tiene poco “apoyo”.
Escenario ideal: predictores ortogonales
La SCE corresponde a una superficie similar a un bowl con un mı́nimo bien definido. (Note que
los ejes corresponden a pares de valores (β1 , β2 )).
Peor escenario: preditores exactamente colineales
La SCE tiene infinitos mı́nimos.
Escenario intermedio: colinealidad débil
La SCE tiene un único mı́nimo, pero éste no es marcado
Efecto sobre la varianza de los estimadores:
La varianza de los estimadores corresponde a
1 1
Var (β̂1 ) = 2
σ2 = σ2 ,
1 − r12 1 − R2
donde R2 corresponde al coeficiente de determinación de la regresión
x1 ∼ x2 ,
o viceversa.
¿Qué ocurre si |r12 | ≈ 1?
Efecto sobre la significancia de los predictores:
Se tiene 10 observaciones sobre un problema con 2 predictores, y correlaciones
r1Y = 0, 85, r2Y = 0, 78, r12 = 0, 95.
Y ∼ x1 Y ∼ x2
Coef Estimación test-t Coef Estimación test-t
β1 0.850 4.56∗ β2 0.780 3.52∗
σ2 0.035 − σ2 0.049 −
Coef Estimador test-t test F

β1 1.118 1.78 9.46∗
Y ∼ x1 + x2
β2 −0.282 −0.45
σ2 0.039 −
En el modelo conjunto, el test F indica que al menos uno de los predictores es
adecuado para explicar la respuesta, sin embargo, ambos test t son no significativos.
∗
: test es significativo.
Otro ejemplo:
Los siguientes estadı́sticos se obtuvieron del ajuste de un modelo de regresión lineal
para explicar el porcentaje de porcentaje corporal en términos del ancho de un pliegue
de piel, la circunsferencia de un muslo y la circunsferencia de un brazo.
porcentaje ∼ piel + pierna + brazo.
Matriz de correlaciones:
piel pierna brazo porcentaje
piel 1.000 0.924 0.458 0.843
pierna 1.000 0.085 0.878
brazo 1.000 0.148
porcentaje 1.000
Tabla ANOVA:
Fuente gl SC MC F valor-p
Modelo 3 396.98 132.33 21.52 0.0001
Residuos 16 98.40 6.15
Total 19 495.39 26.07
Tests t:
Variable Estimador t valor-p

Intercepto 20.20 36.43 0.0001
piel 4.33 1.44 0.170
pierna -2.86 -1.11 0.285
brazo -2.18 -1.37 0.190
Gráficamente, la situación corresponde a:
Región achurada corresponde a la región de aceptación de los tests t. Elipse corresponde a

región de aceptación del test F. Si un par de estimadores (β̂1 , β̂2 ) se ubica en el área achurada
fuera de la elipse, los tests t resultan no significativos (no rechazan H0 ), aun cuando el test F lo
sea. En la medida en que existe mayor correlación entre los predictores, la elipse se vuelve más
delgada y las zonas achuradas fuera de ella son mayores
Efecto sobre las predicciones:
Considere un problema con 2 predictores y los datos en la figura:
Predicción en (x1 , x2 ) = (0.5, 0.5)
Modelo Centrado en Amplitud
x1 + x2 0.418 0.475
x1 0.425 0.404
x2 0.390 0.404
Predicción en (x1 , x2 ) = (0.2, 0.7)

Modelo Centrado en Amplitud
x1 + x2 0.026 0.732
x1 0.170 0.372
x2 0.546 0.519
¿A qué se debe que las predicciones se comporten de manera diferente en ambos

casos?
Indicadores de colinealidad
Matriz de correlaciones entre los predictores

Notemos que si tomamos la matriz de diseño centrada y estandarizada, Xs , se cumple
que:
cor(X) = Xts Xs .
Luego, el análisis de colinealidad se basará en la matriz Xs .
Factor de Inflación de la Varianza:
Sabemos que
Var (β̂ s ) = (Xts Xs )−1 σ 2 .
Se define el Factor de Inflación de la Varianza del j-ésimo predictor VIFj como:
VIFj = rjj ,
donde rjj corresponde al j-ésimo elemento de la diagonal de la matriz (Xts Xs )−1 .
Relación con el coeficiente de determinación R2 :

Se puede demostrar que:
1
VIFj = .
1 − R2j
donde:
R2j = R2 (xsj ∼ xs1 + . . . + xs,j−1 , xs,j+1 + . . . + xs,p−1 ).
Si R2j > 0.95, VIFj > 10: decimos que estamos en presencia de colinealidad.
Ejercicio 1:
Considere los datos en el archivo porcentaje.txt, con los que se intenta explicar el
porcentaje de grasa corporal de los individuos en términos de la medida de un pliegue
de su piel y sus circunsferencias de pierna y de brazo.
1 Estudie la relación entre la variable respuesta y los predictores.
2 Estudie la presencia de colinealidad entre los predictores.
3 Obtenga los factores de inflación de la varianza de los predictores y concluya.
Efecto del Factor de Inflación de la Varianza sobre el ECM de β̂ s :
ECM(β̂ s ) = E [(β̂ s − β s )t (β̂ s − β s )]

p−1
X
= σ2 VIFj
i=1
Número de condicionamiento:
Consideremos el ejemplo original donde

1 r12
Xts Xs = .
r12 1
Los valores propios de esta matriz corresponden a
λ1 = 1 + r12 λ2 = 1 − r12 .
Luego, si r12 ≈ 1,
det(Xts Xs ) = λ1 λ2 ≈ 0.
Vemos que el concepto de colinealidad se relaciona con valores y vectores propios.
En general:
Sean P y λj , j = 1, . . . , p − 1, vectores y valores propios de la matriz Xts Xs , de modo que
 
λ1 0 . . . 0
 0 λ2 . . . 0 
Pt (Xts Xs )P =  . . . ..  .
 
 .. .. .. . 
0 0 . . . λp−1
Haciendo la multiplicación columna a columna obtenemos:
ptj (Xts Xs )pj = (Xs pj )t (Xs pj ) = λj , j = 1, . . . , p − 1.
Luego, si λj ≈ 0, se tiene la relación lineal aproximada:
Xs pj ≈ 0.
Ejercicio 2:
Retomemos el caso: porcentaje ∼ piel + pierna + brazo.
1 Encuentre valores y vectores propios de la matriz Xst Xs .
2 Determine si existe alguna relación lineal aproximada entre los predictores

estandarizados. En caso de haberla, determı́nela.
3 En la situación anterior, encuentre una relación lineal aproximada entre los

predictores sin estandarizar.
P
Dado que se tiene la relación j λj = p − 1, definimos como medida de colinealidad el
número de condicionamiento: r
λmax
κ= .
λmin
Consideramos que estamos en presencia de colinealidad cuando
κ > 30.
Ejercicio 3:
Determine el número de condicionamiento en el problema sobre grasa corporal.
M ODELOS L INEALES
Sesión 12
Regresión Ridge
Error Cuadrático Medio del Estimador de Mı́nimos Cuadrados Ordinarios:

El error cuadrático medio de β̂ s , como estimador de β s puede ser expresado en
términos de los valores propios de la matriz Xst Xs , en la forma:
p−1
X
ECM(β̂ s ) = σ2 VIFj
j=1
p−1
X 1
= σ2
j=1
λ j
En particular,
1
ECM(β̂ s ) > σ 2 ,
λp−1
donde λp−1 corresponde al menor valor propio de Xst Xs . En presencia de colinealidad,
λp−1 ≈ 0, lo que aumenta fuertemente el error cuadrático medio de β̂ s .
t
Efecto de la colinealidad sobre β̂ s β̂ s como estimador de β t β
t
Efecto de la colinealidad sobre β̂ s β̂ s como estimador de β t β:
Desarrollando término a término el error cuadrático medio de β̂, se obtiene:
ECM(β̂ s ) = E{(β̂ s − β s )t (β̂ s − β s )}

t
= E(β̂ s β̂ s ) − β ts β s .
Luego, en presencia de colinealidad, este sesgo puede ser muy grande.

t
Notemos que la expresión β̂ s β̂ s corresponde al largo (al cuadrado) del vector β̂ s .
Mientras mayor sea el largo esperado, mayor será el sesgo.
Mı́nimos Cuadrados Ordinarios
Se basa en estimar β de manera insesgada. En presencia de colinealidad, puede
tener gran varianza.
Regresión Ridge
Intenta disminuir el error cuadrático medio del estimador de β s . Esto equivale a
t
disminuir el sesgo de β̂ s β̂ s como estimador de β ts β s y también a acortar el largo del
vector de estimadores. Permite estimadores sesgados.
Estimador Ridge:
El estimador ridge, β̂ R , de β corresponde al valor de β que minimiza la función:
n p−1
X X
(Yi − xti β)2 + λ βj2 ,
i=1 j=1
con λ > 0. Se penaliza por el largo del vector β.
La solución a este problema de minimización está dada por:
β̂ R = (X t X + λI)−1 X t Y.
Notemos qiue:
1 Cuando λ tiende a cero, β̂ R tiende a β̂ MCO .
2 Cuando λ tiende a infinito, β̂ R tiende a 0.
Unicidad de β̂ R :
Se puede demostrar que, para toda matrix de diseño X, la matriz (X t X + λI) es
invertible, de modo que siempre hay una única solución al problema de minimización.
Propiedades de β̂ R :
Sea:
W = (X t X − λI)−1 .
El sesgo de β̂ R está dado por:
−λWβ,
y su varianza corresponde a:
Var(β̂ R ) = WX t XWσ 2 .
Grados de libertad del error:
Si consideramos que los valores ajustados se obtienen como:
Ŷ R = X β̂ R = X(X t X + λI)−1 X t Y,
podemos definir la matriz de proyección:
HR = X(X t X + λI)−1 X t .
Los grados de libertad de la SCE corresponden a la suma de los elementos en la

diagonal de la matriz HR .
Ejercicio 1:
Realice un estudio de simulación bajo colinealidad comparando el comportamiento del
estimador de mı́nimos cuadrados ordinarios con el estimador ridge.
Ejercicio 2:
Estime el modelo de regresión lineal para el problema sobre porcentaje de grasa
corporal utilizando mı́nimos cuadrados ordinarios y regresión ridge. Compare sus
resultados.
Resultado:
Se puede mostrar que la varianza total,
p−1
X
Var(β̂ R,j ),
j=1
es una secuencia monótona decreciente en λ, y que el sesgo cuadrado total,

p−1
X
sesgo2 (β̂R,j ),
j=1
es una secuencia monótona creciente en λ.
Teorema de existencia:
Siempre existe un valor de λ tal que el Error Cuadrático Medio de β̂ R es menor que el
de β̂ MCO .
Validación cruzada para determinar el valor de λ
Validación cruzada por bloques

La estrategia corresponde a separar los datos en K bloques, y predecir los valores de
cada bloque ajustando el modelo con las observaciones en todos los bloques
restantes.
El estadı́stico de validación cruzada corresponde a la suma de los errores de

predicción. Lo usual es tomar k = 5, 10, n.
El estadı́stico obtenido con K = n se denomina estimador “leave-one-out ” y, en el

caso de Mı́nimos Cuadrados Ordinarios, corresponde al estadı́stico Press:
n n 2
X X ei
(Yi − Ŷ(−i) )2 = .
i=1 i=1
1 − hiii
Estadı́stico de validación cruzada en regresión ridge:
Se define como:
n 2
X ei
CV = ,
i=1
1 − hR,ii
donde hR,ii corresponde al i-ésimo elemento de la diagonal de la matriz HR .
Estadı́stico de validación cruzada generalizado en regresión ridge:

Se define como:
n 2
X e
GCV = Pi .
i=1
1 − hR,ii /n)
Ejercicio 3:
Encuentre el valor óptimo de λ en el problema referido a porcentaje de grasa corporal,
según el criterio de minimización del error de predicción.
M ODELOS L INEALES
Sesión 13
Modelos con Errores en las Variables
Situaciones nuevas del tipo:

Se desea estudiar la relación entre el rendimiento de una producción agrı́cola y la
cantidad de nitrógeno disponible en el suelo. Se piensa que existe una relación lineal
entre ambos. Sin embargo, el nitrógeno disponible en el suelo solo puede ser medido
con error a partir de un análisis de laboratorio.
Modelo con errores en las variables:
Suponga que se desea explicar el comportamiento de la variable Y en términos de una
variable aleatoria X que corresponde a una medida con error de una variable aleatoria
latente. El modelo corresponde a:
Yt = β0 + β1 xt + et
Xt = xt + ut , t = 1, . . . , n,
donde et y ut corresponden a errores aleatorios.
Interpretación de xt
1 xt fijo: La cantidad de nitrógeno disponible en el suelo queda determinada por los
resultados de un experimento donde el experimentador conoce las
concentraciones de fertilizante utilizado.
2 xt aleatorio: Los terrenos donde se realizarán las mediciones corresponden a una

muestra aleatoria.
Caso xt aleatorio
Supuestos distribucionales:
     
xt µx σxx 0 0
 et  ∼ Normal  0  ,  0 σee 0 
ut 0 0 0 σuu
En términos de las observaciones:

2
Yt β0 + β1 µx β1 σxx + σee β1 σxx
∼ Normal ,
Xt µx β1 σxx σxx + σuu
Estimador de Mı́nimos Cuadrados Ordinarios de la pendiente es sesgado:
Sea γ1 la pendiente en el modelo de regresión lineal simple, y γ̂1 su estimador de
mı́nimos cuadrados ordinarios,
Pn
t=1 (Xt − X̄)(Yt − Ȳ)
γ̂1 = Pn .
t=1 (Xt − X̄)
2
Se demuestra que:
σxx
E(γ̂1 ) = β1 ,
σxx + σuu
donde el factor:
σxx
κxx =
σxx + σuu
se denomina coeficiente de atenuación o confiabilidad.
Identificabilidad del modelo
Definición:
Un modelo, parametrizado por θ ∈ Θ se dice identificable si no existen dos valores
posibles de θ que lleven a la misma distribución muestral.
Este concepto se relaciona con la habilidad de los datos de estimar todas las
componentes de θ.
En el modelo en cuestón:
Dada la Normalidad, la distribución queda especificada por el estadı́stico suficiente:
T((Y, X))t = (X̄, Ȳ, mXX , mYY , mXY ),
donde mXX y mYY corresponden a las varianzas muestrales y mXY a la covarianza

muestral. El estadı́stico suficiente es de dimensión 5, sin embargo, θ pertenece un
espacio de dimensión 6:
θ t = (µx , β0 , β1 , σxx , σee ).
Ejemplo:
Dos parámetros diferentes: θ 1 = (1, 1, 1, 1, 1, 1) y θ 2 = (1, 2, 1.5, 0, 1.5, 0.5) conducen a
la misma distribución:

Yt 2 2 1
∼ Normal ,
Xt 1 1 2
Se requieren restricciones o condiciones sobre los parámetros para que ellos queden
determinados unı́vocamente por la muestra.
Caso κxx conocido
Situaciones:
1 Existen áreas del conocimiento en que estos valores pueden ser bien
aproximados o conocidos, como sociologı́a o sicologı́a.
2 La idea se relaciona al uso repetido de un mismo instrumento de medición, lo que

se traduce en una confiabilidad del instrumento.
Estimadores y propiedades:
Un estimador insesgado para β̂1 está dado por:
γ̂1
β̂1 = .
κxx
β̂0 = Ȳ − β̂1 X̄
Es posible estimar la varianza de (β0 , β1 )t .

Aparecen términos:
vt = Yt − β0 − β1 Xt = et − ut β1
que jugarán un rol importante al representar a los residuos del modelo
Hipótesis lineales sobre β1 pueden traducirse en hipótesis sobre γ1 en el modelo
de regresión lineal.
Caso σuu conocido
Situaciones:
En ocasiones es posible realizar un gran número de medidas repetidas de Xt para un
mismo xt .
Estimadores
Se derivan estimadores de momentos para los 5 parámetros restantes del modelo.
Algunos resultados:
√

β̂0 − β0 D
0
n −→ Normal , τ
β̂1 − β1 0
nV̂ar((β̂0 , β̂1 )t ) −→ τ , donde:
X̄ 2 V̂ar(β̂1 ) + n1 Svv

−X̄ V̂ar(β̂1 )
V̂ar((β̂0 , β̂1 )t ) =
−X̄ V̂ar(β̂1 ) V̂ar(β̂1 )
Más resultados:
Es posible estimar σxx y σee .
El estadı́stico:
t = (V̂ar(β̂1 ))−1/2 (β̂1 − β1 )
distribuye aproximadamente Normal (0, 1). Suele utilizarse la distribución tn−2 .
Valores de xt
Dos enfoques:
1 xt fijos pero desconocidos: deben ser estimados
2 xt variables aleatorias: deben ser predichas
Caso 1: fijos y desconocidos

Notamos que:

Yt − β0 β1 et
= xt +
Xt 1 ut
Esta ecuación puede ser vista como un caso de regresión lineal heterocedástico, con
pendiente xt , dos observaciones, y matriz de covarianzas dada por:
Σ = diag(σee , σuu ).
Se estima xt por Mı́nimos Cuadrados Ponderados, reemplazando los parámetros del

modelo por sus estimadores. Este estimador se denota por x̂t
Caso 2: xt aleatorio
En ese caso, se considera que:
     2 
Yt β0 + β1 µx β1 σxx + σee β1 σxx + σeu β1 σxx
 Xt  ∼ Normal  µx  ,  β1 σxx + σeu σxx + σuu σxx 
xt µx β1 σxx σxx σxx
Se estima xt por su esperanza condicional dado (Yt , Xt )t . Esta y su error estándar

condicional corresponden a resultados estándar de la distribución Normal Multivariada.
Revisión del modelo
Residuos versus predictor:

La situación ideal serı́a observar el gráfico
vt = et − β1 ut ∼ xt .
En este caso, para evaluar la calidad del modelo puede utilizarse que Var(vt |xt ) es
constante y que E(vt |xt ) = 0. Sin embargo, tanto vt como xt son no observables.
La alternativa es graficar:
V̂ar(vt )1/2 v̂t ∼ x̂t ,
o, en su defecto, v̂t ∼ x̂t .
Otros escenarios, otros aspectos
Queda un mundo pendiente:

Caso razón de varianzas σee /σuu conocido ...
Regresión con errores en las variables múltiple
Revisión de supuestos del modelo y de influencia
Regresión con errores en las variables multivariada

FULL Modelos

Cargado por

Copyright:

Formatos disponibles

FULL Modelos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

FULL Modelos

Cargado por

Copyright:

Formatos disponibles

EPG3318 Modelos Lineales 07.08.

A modo de ejemplo, puede buscarse relaciones entre:

• temperatura y presión en un proceso químico

Modelo Lineal General

La función µ(x) es determinística Y corresponde a la variable dependiente o respuesta

x a la variable independiente o predictor Ɛ corresponde a una medida de error aleatorio no

No es lo mismo que modelo de regresión.

Diferenciamos entre modelo poblacional y muestral.

El caso lineal: En ocasiones, la función µ(x) es lineal en (k + 1) parámetros:

donde las funciones qj( · ), j = 1, . . . , k, son conocidas, y x no contiene parámetros desconocidos.

Algunos ejemplos corresponden a:

µ(x) = β0 + β1x + β2x2 + β3x3

µ(x) = β0 + β1x + β2 exp{x}.

En el caso del modelo lineal µ(x) es lineal.

(20, Y1), (35, Y2), . . . , (75, Y6)

bajo el modelo (muestral): Yi = β0 + β1xi + Ɛi E(Ɛi) = 0 i = 1, . . . , 6.

Ahora empiezan los supuestos de los errores.

El Modelo Lineal (poblacional) General

Para cada x en el conjunto D, ∊(x) es una variable aleatoria

Se deduce que: E(Y(x)) = μ(x) para cada x ∊ D.

Con i = 1, ..,n y donde:

Yi son variables aleatorias observables

Xi= (x1, . . . , xp−1) es un vector de variables no aleatorias observables, con dominio D.

β1, …, β2 corresponden a parámetros desconocidos con dominio Ωβ

∊i corresponden a variables aleatorias no observables con: Tipos de error

Hay dos tipos de Error:

donde µ(x) domina para determinar z. Entonces, podemos considerar

como el error del modelo.

¿A qué tipo de error corresponde ∊ en este caso?

El error del modelo corresponde a un error de medición.

Si es un error de medición implica que la medida de esfericidad es una aproximación.

Probablemente en este caso es una mezcla de ambas cosas.

En este ejemplo hay dos variables independientes y una respuesta.

La diapo muestra el modelo poblacional.

¿Cómo paso de la poblacional a la muestral?

Tengo que hacer una grilla de valores.

Aquí el error probablemente es una mezcla de ambos tipos.

Modelo de Regresión Lineal (Múltiple) en Notación Matricial

Supuesto: Función de densidad simétrica y definida positiva. Para probar debo:

la matriz tiene sólo ceros, por lo que es simétrica.

El determinante al ser σ2*otros sigma al cuadrado, va a ser

Y es un vector μ es un vector y representa el valor esperado de Y

Si al Modelo Lineal General (qué ya tenía esperanza de errores = 0) se le agrega la matriz

Entonces puedo hablar de un Modelo de Regresión Lineal (Múltiple)

Si transformo, también se comporta normal.

B= matriz que multiplica a variable normal y b= vector

Este teorema es lo que me ayuda a buscar la distribución de Y.

Ejercicio 1: Encuentre la distribución de Y en el modelo de regresión lineal múltiple.

Estimación por Mínimos Cuadrados Ordinarios: Debemos minimizar:

Ejercicio 2: Muestre que el estimador de Mínimos Cuadrados Ordinarios (EMCO) de β corresponde a:

Importante: ¿Cuándo XtX es invertible?

Ejercicio 3: Encuentre la distribución de

Vector de valores ajustados: Los valores ajustados por el modelo corresponden a:

Vector de residuos: Los residuos del modelo corresponden a:

Esto equivale a afirmar que:

Formas Lineales y su Distribución

se denomina forma lineal en Y.

Estimación en el Modelo de Regresión Lineal Múltiple

Estimación por Mínimos Cuadrados Ordinarios: Encontrar estimador de mínimos cuadrados

Paso Previo – Debemos Minimizar