Acosta Anthony Estadistica U3 T2"
Acosta Anthony Estadistica U3 T2"
Acosta Anthony Estadistica U3 T2"
Desarrollo de la Ac,vidad
1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de
gasolina (en millas por galón) y desplazamiento del motor (en centímetros cúbicos) para
una muestra de 20 automóviles.
datos <- read.csv('reg1.csv', sep = ';',dec = ',')
a) Cree una variable Engine spIn 3 que contenga el desplazamiento del motor en
pulgadas
cúbicas. Una pulgada cúbica es equivalente a 16.3871 centímetros cúbicos. Redondee al
entero más cercano. datos <- datos %>% mutate(EngineDispIn3 =
round(EngineDisp/16.3871,0))
b) Construya el diagrama de dispersión para las dos variables mpg y Engine spIn
3Boxplot mpg boxplot(datos$MPG) # Box plot EngineDispIn3 boxplot(datos$EngineDispIn3)
c) Calcule el coeficiente de correlación entre las dos variables mpg y Engine spIn 3
cor(datos$MPG,df$EngineDispIn3)
d) Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al
desplazamiento del motor (x) utilizando mínimos cuadrados.
model <- lm(MPG~EngineDispIn3, data = datos)
summary(model)
e) Encuentre una estimación del rendimiento medio de kilometraje de gasolina en
carretera
para un automóvil con un desplazamiento del motor de 150 pulgadas cúbicas.
predict(model,data.frame('EngineDispIn3' = c(150)))
f ) Obtenga el valor ajustado de y del residuo correspondiente para un automóvil, el Ford
Escort, con un desplazamiento del motor de 114 pulgadas cúbicas.
UNIVERSIDAD POLITECNICA SALESIANA
des <- which(datos$EngineDispIn3 == 114) y <-
datos$MPG[des] y_1 <-
predict(model,data.frame('EngineDispIn3' = c(114))) cat('
Valor Verdadero : ',y,'\n',
'Valor Ajustado : ',y_1,'\n',
'Residuo : ',y-y_1)
2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales
para 24 casas.
d2 <- read.csv('reg2.csv',sep = ';', dec = ',')
a) Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de
mínimos cuadrados relacionando el precio de venta con impuestos pagados.
model2 <- lm(Precio_miles~Tax_miles,data = d2)
b) Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,
50.predict(model2,data.frame(Tax_miles = 7.5))
c) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el
residuocorrespondiente.
index <- which(d2$Tax_miles == 5.8980) y <-
d2$Precio_miles[index] y_h2 <-
predict(model2,data.frame(Tax_miles = 5.8980)) cat('
Valor Verdadero : ',y,'\n',
d) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego
3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta qu´ımica
est´a relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese
mes. El uso y la temperatura del año pasado se muestran en el archivo reg3.csv.
df3 <- read.csv('reg3.csv', sep = ';', dec = ',')
a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo de
regresión que relaciona el uso de vapor (y) con la temperatura media (x).
e) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego
construya una gráfica de ˆy versus el correspondiente valor observado yi .
y_hats3 <- predict(model3,data.frame(Temp = df3$Temp))
plot(df3$Libras_Miles,y_hats3)
4. A partir del archivo “todas 2018.csv ̧construya el ranking de las 1000 mejores empresas
de acuerdo a las utilidades.
df4 <- read.csv('todas2018.csv', encoding = 'utf8')
a) Realice un diagrama de dispersión del número de empleados contra la utilidad.
plot(df4$EMPLEADOS,df4$UTILIDAD)
b) Determine la correlación entre el número de empleados y la
utilidadcor(df4$EMPLEADOS,df4$UTILIDAD)
c) Establezca un modelo de regresión lineal simple donde la variable dependiente sea la
utilidad y la independiente sea el número de empleados. Interprete sus resultados.
Dado que en él los residuos no presenta un patrón definido podemos decir que se
cumple el supuesto de independencia entre los errores
Supuesto de Normalidad
Test de normalidad
shapiro.test(model5$residuals)
Considerando un nivel de significancia de 5%, podemos aceptar la hipótesis nula, lo que
implica que el modelo cumple con el supuesto de normalidad
Supuesto de Homocedasticidad o varianza constante
Test de homocedasticidad bptest(model5)
Dado que el nivel de significancia elegido es de 5%, no se rechaza la hipótesis nula, por
lo que se puede afirmar que el modelo cumple el supuesto de homocedasticidad
Test de multicolinealidad el modelo es univariado
Supuesto de no relación entre las variables explicativa y el error
plot(model5$residuals,df5$age)
No se muestra ningún patrón conocido se asume que se cumple este supuesto
b) Suponga que usted no está realmente satisfecho con su resultado, pensando que una
variable independiente puede no ser suficiente para explicar el gasto diario. Al entrar en
detalles se piensa que además de la edad, la satisfacción con la estación de esquí y la
duración de la estancia también pueden influir en el gasto diario. Ejecute el nuevo modelo
de regresión y verifique los supuestos.model5_b <- lm(expenses~age+satisfaction+stay,data =
df5)
Test de normalidad
shapiro.test(model5_b$residuals)
Supuesto de Homocedasticidad o varianza constante
Test de homocedasticidad
bptest(model5_b)
Test de multicolinealidad vif(model5_b)
Supuesto de Normalidad
Test de normalidad
shapiro.test(model5_c$residuals)
Supuesto de Homocedasticidad o varianza constante
Test de homocedasticidad
bptest(model5_c)
d) Finalmente a˜nada la variable sexo. Ejecute el nuevo modelo de regresión y verifique los
supuestos.
model5_d <- lm(expenses~age+satisfaction+stay+accommodation+sex,data = df5)
Supuesto de independencia
plot(model5_d$residuals)
Supuesto de Normalidad
Test de normalidad
shapiro.test(model5_d$residuals)
Supuesto de Homocedasticidad o varianza constante
Test de homocedasticidad
bptest(model5_d)
Test de multicolinealidad vif(model5_d)
Los supuesto de no relación entre las variables explicativa y el error
plot(model5_d$residuals,df5$age