Ejercicios de Regresión Lineal
Ejercicios de Regresión Lineal
Ejercicios de Regresión Lineal
REGRESIÓN Y
CORRELACIÓN LINEAL
23 ENERO 2021
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
índice
INTRODUCCIÓN ........................................................................................................ 3
ENUNCIADO DEL PROBLEMA PROPUESTO........................................................... 4
DATOS ........................................................................................................................ 5
CUESTIONAMIENTOS ............................................................................................... 6
1. Usando una gráfica de dispersión, grafique los datos para los años 1969-1988.
¿Le parece que hay una relación lineal entre el número de autos importados y el
año? 6
1.1. Solución en Excel ........................................................................................... 6
1.2. Solución en Minitab ........................................................................................ 6
1.3. Interpretación ................................................................................................. 6
2. Use un paquete de software para hallar la recta de mínimos cuadrados para
predecir el número de autos importados como función del año para los años 1969-
1988. 7
2.1. Formulario ...................................................................................................... 7
2.2. Solución en Excel ........................................................................................... 7
2.3. Solución en Minitab ........................................................................................ 8
2.4. Interpretación ................................................................................................. 9
3. ¿Hay una relación lineal significativa entre el número de autos importados y el
año? 9
3.1. Prueba de hipótesis: Para el coeficiente de correlación poblacional simple .. 9
3.1.1. Hipótesis ..................................................................................................... 9
3.1.2. Estadístico de prueba ................................................................................. 9
3.1.3. Región de rechazo y regla de decisión ..................................................... 10
3.1.4. Experimentación, muestreo y cálculos ...................................................... 10
3.1.5. Decisión. ................................................................................................... 11
3.1.6. Conclusiones. ........................................................................................... 11
3.1.7. Supuestos. ................................................................................................ 11
3.1.8. Cuestionamientos adicionales. ................................................................. 11
3.2. Solución en Excel ......................................................................................... 11
3.3. Solución en Minitab ...................................................................................... 13
3.4. Interpretación ............................................................................................... 13
1
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
2
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
INTRODUCCIÓN
Dentro de las ramas de la estadística se encuentra la estadística inferencial, la cual
tiene como objetivo principal obtener los resultados necesarios a partir de la
información que se presenta en la muestra para realizar deducciones sobre una
totalidad. Esta se usa para modelar patrones y extraer inferencias de la muestra que
es objeto de estudio. Dentro de las técnicas de modelamiento se encuentran la
estimación, la correlación, el análisis de regresión y la prueba de hipótesis.
La regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la
relación de dependencia entre una variable dependiente Y, las variables
independientes Xᵢ y un término aleatorio ε.
En este documento se desarrolla el caso práctico del libro “Introducción a la
probabilidad y estadística” específicamente del capítulo 12 titulado “¿Su automóvil está
“Hecho en EUA”?”, en el que se aplican herramientas estadísticas como la relación
lineal y la predicción en una situación concreta como la importación automotriz en los
años que comprenden el periodo 1969 - 2009.
Las herramientas estadísticas se emplearon mediante la elaboración de tablas,
diagramas, regresiones y correlaciones para describir la relación que existe entre las
variables. Para esa finalidad se utilizaron dos métodos principales: El uso de Minitab
en su versión 17 y Excel 2008 sobre la plantilla “Clase ejemplo regresión” del curso de
Estadística en que esta enmarcada esta asignación.
De forma consecutiva se resolverán cuestionamientos bajo los siguientes conceptos:
relación lineal, recta de mínimos cuadrados, relación lineal significativa, intervalos de
predicción, análisis de predicciones, hipótesis sobre pendiente de una recta, modelos
alternativos que mejor se ajusten.
3
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
4
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
DATOS
Y= Número de Y= Número de
AÑO X AÑO X
autos importados autos importados
2009 40 1.8
5
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
CUESTIONAMIENTOS
1. Usando una gráfica de dispersión, grafique los datos para los años 1969-
1988. ¿Le parece que hay una relación lineal entre el número de autos
importados y el año?
1.1. Solución en Excel
Seleccionar datos de las columnas X , Y, del año 1969 al 1988 > Insertar > Insertar
grafico de dispersión > click sobre un punto de dispersión > botón derecho > agregar
línea de tendencia > opciones de línea de tendencia > lineal.
3
2
1
0
0 5 10 15 20
variable dependiente
3.0
Variable dependiente
2.5
2.0
1.5
1.0
0 5 10 15 20
Variable independiente
1.3. Interpretación
6
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
Una relación lineal es una tendencia en los datos que se puede modelar mediante una
línea recta. En las gráficas anteriores se puede observar una tendencia de los puntos
a aumentar simultáneamente a un ritmo constante lo que supone que existe una
relación lineal positiva
2.1. Formulario
𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥
𝛽̂0 = 𝑦̄ − 𝛽̂1 𝑥̄
𝑆𝑥𝑦
𝛽̂1 =
𝑆𝑥𝑥
𝑛 𝑛
(∑𝑛𝑖=1 𝑥𝑖 )2
𝑆𝑥𝑥 = ∑(𝑥𝑖 − 𝑥̄ )2 = ∑ 𝑥𝑖2 −
𝑛
𝑖=1 𝑖=1
𝑛 𝑛
(∑𝑛𝑖=1 𝑦𝑖 )2
𝑆𝑦𝑦 = ∑(𝑦𝑖 − 𝑦̄ )2 = ∑ 𝑦𝑖2 −
𝑛
𝑖=1 𝑖=1
𝑛 𝑛
(∑𝑛𝑖=1 𝑦𝑖 )(∑𝑛𝑖=1 𝑥𝑖 )
𝑆𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̄ )𝑦𝑖 = ∑ 𝑥𝑖 𝑦𝑖 −
𝑛
𝑖=1 𝑖=1
7
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
0
y = 0.0987x + 1.1671
0 5 10 15 20
variable dependiente
8
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
2.4. Interpretación
El valor esperado de la variable aleatoria y que representa el número de automóviles
importados vendidos en USA depende del año analizado (codificado en x). La recta de
mínimos cuadrados que mejor ajusta a los datos presentados es:
E(y/x) = ̂𝑦 = 1.1671 + 0.09872𝑥̂
9
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
𝑟√𝑛 − 2
𝑡= = 12.655
√1 − 𝑟 2
3.1.3. Región de rechazo y regla de decisión
Utilizaremos una prueba bilateral, para eso procedemos a graficar en Minitab, de la
siguiente manera:
Click en: Gráfica > Gráfica de Distribución de probabilidad > Ver probabilidad >
Distribución t > Grados de libertad = 18 > Área sombreada > Probabilidad > Ambas
colas > Probabilidad = 0.05
10
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
𝑆𝑥𝑦 65.65
𝑟= = = 0.948
√𝑆𝑥𝑥 𝑆𝑦𝑦 √665 ∗ 7.20
𝑅 2 = 𝑟 2 = 0.9482 = 0.898
𝑟√𝑛 − 2 0.948√20 − 2
𝑡= = = 12.655
√1 − 𝑟 2 √1 − 0.9482
𝑔. 𝑑. 𝑙 = 𝑛 − 2 = 20 − 2 = 18
3.1.5. Decisión.
Como el valor de prueba ( t= 12.655) > 2.101, se rechaza la hipótesis nula (H0).
3.1.6. Conclusiones.
Existe suficiente evidencia para afirmar que en la muestra de tamaño n=20 existe
correlación entre el número de autos importados y el año con un nivel de significancia
del 5%.
El valor R²=0.898, significa que 89.89% de la variación en y esta explicada por este
modelo.
3.1.7. Supuestos.
• Muestreo Aleatorio Simple
• Distribución aproximadamente normal
• La muestra es suficientemente grande para que la media muestral se distribuya
normalmente
• Se cumple el Teorema de limite central
11
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
12
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
Click sobre un punto de dispersión > botón derecho > agregar línea de tendencia >
presentar el valor R cuadrado en el gráfico.
1 R² = 0.899
0
0 5 y =100.0987x 15+ 1.167120
variable dependiente
3.4. Interpretación
El número de autos importados se explica con base en el año en un 89.9%. El valor
p<α por lo tanto se comprueba una vez más el rechazo de H0.
13
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑥
1 (𝑥𝑜 − 𝑥̄ )2
𝑦̂0 ± 𝑡𝛼/2,𝑛−2 √𝑀𝑆𝐸 [ + ]
𝑛 𝑆𝑥𝑥
1 (𝑥𝑜 − 𝑥̄ )2
𝑦̂0 ± 𝑡𝛼/2,𝑛−2 √𝑀𝑆𝐸 [1 + + ]
𝑛 𝑆𝑥𝑥
14
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
Gráficamente:
4
Diagrama de dispersión
3.5
y = 0.0987x + 1.1671
R² = 0.899
3
2.5
2
Y
1.5
Y
1
LIC
LSC
0.5
0
0 5 X10 15 20
15
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
4.4. Interpretación
Se estima que el número de autos que serán importados, en el año 2007 estará entre
4.281 y 5.555 dado que x= 38 con una confianza de 0.95.
Se estima que el número de autos que serán importados, en el año 2008 estará entre
4.368 y 5.666 dado que x= 39 con una confianza de 0.95.
Se estima que el número de autos que serán importados, en el año 2009 estará entre
4.454 y 5.777 dado que x= 40 con una confianza de 0.95.
5. Ahora vea los datos reales para los años 2007-2009. ¿Las predicciones
obtenidas en el paso 4 dan estimaciones precisas de los valores reales
observados en estos años? Explique.
16
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
17
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
0 y = 0.0077x + 1.8801
0 5 10 15 20 25 30 35 40
R² = 0.0333 45
6.3. Interpretación
El valor esperado de la variable aleatoria y que representa el número de automóviles
importados vendidos en USA depende del año analizado (codificado en x). La recta de
mínimos cuadrados que mejor ajusta a los datos presentados es:
E(y/x) = ̂𝑦 = 1.8801 + 0.0077𝑥̂
18
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
7. ¿Qué efecto tienen los nuevos puntos de datos sobre la pendiente? ¿Cuál es
el efecto en el SSE (sumatoria de cuadrados del error)?
7.1. Efectos sobre la pendiente
𝛽̂1 − 𝛽1
𝑡= = 1.159576963
𝑀𝑆
√ 𝐸
𝑆𝑥𝑥
7.1.3. Región de rechazo y regla de decisión
Utilizaremos una prueba bilateral, para eso procedemos a graficar en Minitab, de la
siguiente manera:
Click en: Gráfica > Gráfica de Distribución de probabilidad > Ver probabilidad >
Distribución t > Grados de libertad = 38 > Área sombreada > Probabilidad > Ambas
colas > Probabilidad = 0.05
Gráfica de distribución
T, df=38
0.4
0.3
Densidad
0.2
Zona de no rechazo
Zona de rechazo Zona de rechazo
0.1
0.025 0.025
0.0
-2.024 0 2.024
t
19
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
7.1.5. Decisión.
Como el valor de prueba ( t= 1.1595) < 2.101, no se rechaza la hipótesis nula (H0).
7.1.6. Conclusiones.
Existe suficiente evidencia para afirmar que los años censados no aportan buena
información sobre la predicción de los automóviles importados a USA.
7.1.7. Supuestos.
• Distribución aproximadamente normal
• La muestra es suficientemente grande para que la media muestral se distribuya
normalmente
20
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
21
IT Cd. Cuauhtémoc
Maestría En Ingeniería Administrativa
Estadística
7.4. Interpretación
La diferencia entre el SSE 1 (0.72841353) y SSE 2 (9.87183972) quiere decir que el
primer modelo explica (aproximadamente 13 veces) mejor que el segundo la relación
entre las variables años y autos importados a USA.
.
8. Dada la forma de la gráfica de dispersión para los años 1969-2009, ¿le parece
que una recta da un modelo preciso para los datos? ¿Qué otro tipo de modelo
podría ser más apropiado? (Use gráficas residuales para ayudar a contestar
esta pregunta.)
0
0 5 10 15 20 25 30 35 40 45
CONCLUSIONES
La correlación y la regresión lineal simple son métodos estadísticos que estudian la
relación lineal existente entre dos variables. Es importante destacar sus diferencias:
La correlación cuantifica como estan relacionadas dos variables, mientras que la
regresión lineal consiste en generar una ecuación (modelo) que, basándose en la
relación existente entre ambas variables, permita predecir el valor de una a partir de la
otra.
El cálculo de la correlación entre dos variables es independiente del orden o asignación
de cada variable a X e Y, mide únicamente la relación entre ambas sin considerar
dependencias. En el caso de la regresión lineal, el modelo varía según qué variable se
considere dependiente de la otra (lo cual no implica causa-efecto).
A nivel experimental, la correlación se suele emplear cuando ninguna de las variables
se ha controlado, simplemente se han medido ambas y se desea saber si están
relacionadas. En el caso de estudios de regresión lineal, es más común que una de
las variables se controle (tiempo, concentración de reactivo, temperatura…) y se mida
la otra.
Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.
Se observó en el desarrollo de este documento la importancia del método y sus muy
diversas y amplias aplicaciones y funciones.
BIBLIOGRAFÍA
Chapa D. (2020). Apuntes y video clases de estadística. Plataforma Moodle IT Cd.
Cuauhtémoc.
Laguna C. (s.f.) Correlación y relación lineal. Instituto Aragónes de Ciencias de la
salud.
Mendenhall, W., Beaver, R., Beaver, B., y Velázquez, J. (2015). Introducción a la
probabilidad y estadística. Editorial Cengage.
23