0% encontró este documento útil (0 votos)
18 vistas14 páginas

Problemas

El laboratorio propone analizar un conjunto de datos usando regresión lineal múltiple. Los estudiantes deben identificar la variable respuesta, realizar un análisis exploratorio, ajustar un modelo, evaluar su significancia y ajuste, validar supuestos, verificar colinealidad y concluir si el modelo cumple las condiciones de la regresión lineal múltiple.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
18 vistas14 páginas

Problemas

El laboratorio propone analizar un conjunto de datos usando regresión lineal múltiple. Los estudiantes deben identificar la variable respuesta, realizar un análisis exploratorio, ajustar un modelo, evaluar su significancia y ajuste, validar supuestos, verificar colinealidad y concluir si el modelo cumple las condiciones de la regresión lineal múltiple.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 14

Problemas

Regresión Lineal Múltiple


Docente: Lina Lucia Hernández
E-mail: [email protected]
Facultad de Ciencias Básicas
Modelo de Regresión Lineal Múltiple
La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable
dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes
llamadas predictores (𝑋1 , 𝑋2 , … , 𝑋𝑝 ).

Variable Predictores
Error aleatorio
Respuesta
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑝 𝑋𝑝𝑖 + 𝜀𝑖
Intercepto
Coeficientes de Regresión

Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable
dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último
se debe analizar con cautela para no malinterpretar causa-efecto).
Condiciones de Regresión Lineal Múltiple
Para que el modelo propuesto sea de utilidad, es necesario que cumpla con las
siguientes condiciones:

1. Ser un modelo significativo.


2. Tener al menos un ajuste aceptable.
3. Ser un modelo válido, es decir, los errores deben :
• Tener media cero.
• Distribuirse de forma Normal.
• Tener varianza constante (homocedásticos)
• Ser independientes entre ellos.
4. Los predictores deben ser independientes entre ellos.
5. El modelo debe seguir el principio de parsimonia.
¿Qué hacer cuando alguna de
estas condiciones no se cumple?
¿Qué hacer si…?
1. El modelo no es significativo.
El modelo no es significativo si el p-valor de la prueba de significancia es mayor al α
considerado.

Problema: Que el modelo no sea significativo, nos dice que ninguna de las variables
explicativas o predictores que estamos usando se relacionan de forma lineal con la
variable respuesta (Y).
Solución: Si esto sucede, el modelo no tiene sentido pues no existe relación lineal
entre los predictores y la variable respuesta. Podría intentarse transformado las
variables buscando esa relación lineal.
¿Qué hacer si…?
2. El modelo tiene un mal ajuste.
El modelo tiene un mal ajuste cuando el coeficiente de determinación (R²) y/o
determinación ajustado (R²-adj ) es menor que 0.5.

Problema: Que el modelo esté mal ajustado significa que el modelo en cuestión no es
la mejor opción para describir o explicar el comportamiento de la variable respuesta
(Y).
Solución: Si esto sucede, se debe replantear la relación, ya sea la forma (no linear) o
incluir nuevos predictores.
¿Qué hacer si…?
3. El modelo no es válido.
El modelo no es válido si no cumple con al menos uno de los supuestos sobre los
errores.
• Errores no tienen media cero: Esto significaría que el modelo no es lineal.
• Errores correlacionados (no independientes): Esto significa que existe una
relación entre las observaciones de la variables respuesta (Y). Este supuesto
generalmente si incumple por la naturaleza de los datos.
Problema: El tiempo y/o el espacio son un factor relevante en la explicación de
la variabilidad de respuesta (Y), por lo que no puede ser ignorado.
Solución: Si esto sucede, se debe tratar a la variable Y como una serie
temporal, es decir, valores presentes de la variable son funciones de valores
pasados de la misma. En el caso espacial, deben considerarse modelos de
este tipo.
¿Qué hacer si…?
3. El modelo no es válido.
El modelo no es válido si no cumple con al menos uno de los supuestos sobre los
errores.
• Errores no tienen distribución Normal: Esto significaría que las conclusiones a
las que llegamos a partir del modelo no serían válidas
Problema: Si los errores no se distribuyen de forma normal, las estimaciones,
las pruebas de significancia del modelo y de cada variable no serían válidas.
Solución: Si esto sucede, se debe usar un modelo que no haga este
supuesto, como los modelo lineales generalizados o lo modelos no
paramétricos. También se puede transformar la variable buscando la
Normalidad.
¿Qué hacer si…?
3. El modelo no es válido.
El modelo no es válido si no cumple con al menos uno de los supuestos sobre los
errores.
• Errores no son homocedásticos: Esto significaría que el método de estimación
de los coeficientes de la regresión no es válido.
Problema: Si los errores no son homocedásticos, las estimaciones, las
pruebas de significancia del modelo y de cada variable no serían válidas.
Solución: Si esto sucede, se debe usar un método de estimación diferente
(Mínimos Cuadrados Generalizados), o estabilizar la variabilidad de las
observaciones a través de una transformación sobre la variable Y.
¿Qué hacer si…?
4. El modelo presenta multicolinealidad.
El modelo presenta multicolinealidad cuando encontramos predictores muy
relacionados de forma lineal entre ellos. En nuestro caso decimos que un predictor es
colineal cuando el valor del VIF es mayor o igual a 5.
Problema: Si hay predictores muy correlacionados, esto interfiere con el método de
estimación de los coeficientes, por lo que las estimaciones no serían correctas.
Solución: Si esto sucede, se debe procurar incluir variables que no estén muy
correlacionadas. También se puede usar otro método de estimación como el que se
usa en la regresión Ridge, la regresión LASSO o la regresión por componentes
principales. De todas estas la mejor sería la LASSO
Laboratorio 6
Instrucciones Laboratorio 6
1. El ejercicio a entregar se le asignará aleatoriamente a cada grupo.
2. Los grupos impares deben hacer el Laboratorio tipo A y los pares el tipo B.
3. Todos los miembros del grupo deben estar presentes para obtener nota en el
laboratorio. Las personas ausentes tendrán cero.
4. No se extenderá el tiempo del entrega. Al final de la clase el grupo deberá
entregar lo que haya alcanzado a hacer.
5. El desarrollo del laboratorio se calificará sobre 4.5. El 0.5 restante
corresponde a 0.08 por cada ítem que alcance a entregar a tiempo.
6. La entrega será vía Moodle.
Laboratorio (Tipo A)
Para el conjunto de datos que le corresponda según el script:

a) [0.5] Identifique la variable respuesta y realice un análisis exploratorio que le permita decir qué
variables, dentro de las disponibles, tienen más relación lineal con la variable respuesta.
b) [1.0] Ajuste un modelo de regresión con todas las variables disponibles. ¿Cuáles de estas
variables son significativas para explicar la variable respuesta usando α=0.04? Interprete SÓLO los
coeficientes de las variables que juzgue significativas.
c) [1.0] Diga si el modelo anterior es significativo (hipótesis y conclusión) y evalúe su ajuste
(interpretando el valor del 𝑅2 ).
d) [0.5] Realice la validación de los supuestos y concluya si el modelo es válido.
e) [0.5] Verifique que no haya presencia de colinealidad entre las variables explicativas.
f) [0.5] ¿Considera usted que el modelo cumple con las condiciones del modelo de regresión lineal
múltiple? Justifique
Laboratorio (Tipo B)
Para el conjunto de datos que le corresponda según el script:

a) [0.5] Identifique la variable respuesta y realice un análisis exploratorio que le permita decir qué
variables, dentro de las disponibles, tienen más relación lineal con la variable respuesta.
b) [1.0] Ajuste un modelo de regresión reducido usando la función STEP e interprete los coeficientes
asociados a las variables. ¿Son todos significativos al 6%?
c) [1.0] Diga si el modelo anterior es significativo (hipótesis y conclusión) y evalúe su ajuste
(interpretando el valor del 𝑅2 ).
d) [0.5] Realice la validación de los supuestos y concluya si el modelo propuesto es válido.
e) [0.5] Verifique que no haya presencia de colinealidad entre las variables explicativas.
f) [0.5] ¿Considera usted que el modelo que propuso cumple con las condiciones del modelo de
regresión lineal múltiple?

También podría gustarte