Acosta Anthony Estadistica U3 T2"

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

Datos del alumno Fecha

Nombres: Widison Anthony

Apellidos: Acosta Rivers

Desarrollo de la Ac,vidad
1. Los datos que se muestran en el archivo reg1.csv son rendimiento de kilometraje de
gasolina (en millas por galón) y desplazamiento del motor (en centímetros cúbicos) para
una muestra de 20 automóviles.
datos <- read.csv('reg1.csv', sep = ';',dec = ',')
a) Cree una variable Engine spIn 3 que contenga el desplazamiento del motor en
pulgadas
cúbicas. Una pulgada cúbica es equivalente a 16.3871 centímetros cúbicos. Redondee al
entero más cercano. datos <- datos %>% mutate(EngineDispIn3 =
round(EngineDisp/16.3871,0))

b) Construya el diagrama de dispersión para las dos variables mpg y Engine spIn
3Boxplot mpg boxplot(datos$MPG) # Box plot EngineDispIn3 boxplot(datos$EngineDispIn3)

c) Calcule el coeficiente de correlación entre las dos variables mpg y Engine spIn 3
cor(datos$MPG,df$EngineDispIn3)
d) Ajuste un modelo lineal simple que relacione millas de carretera por galón (y) al
desplazamiento del motor (x) utilizando mínimos cuadrados.
model <- lm(MPG~EngineDispIn3, data = datos)
summary(model)
e) Encuentre una estimación del rendimiento medio de kilometraje de gasolina en
carretera
para un automóvil con un desplazamiento del motor de 150 pulgadas cúbicas.
predict(model,data.frame('EngineDispIn3' = c(150)))
f ) Obtenga el valor ajustado de y del residuo correspondiente para un automóvil, el Ford
Escort, con un desplazamiento del motor de 114 pulgadas cúbicas.
UNIVERSIDAD POLITECNICA SALESIANA
des <- which(datos$EngineDispIn3 == 114) y <-
datos$MPG[des] y_1 <-
predict(model,data.frame('EngineDispIn3' = c(114))) cat('
Valor Verdadero : ',y,'\n',
'Valor Ajustado : ',y_1,'\n',
'Residuo : ',y-y_1)

g) ¿cómo interpreta el coeficiente de determinación de este modelo?


summary(model)

Nos indica que la variable EngineDispIn3 explica el modelo en un 20.11% a la variable


dependiente es decir a MPG

2. En el archivo reg2.csv presenta datos sobre el precio de venta y los impuestos anuales
para 24 casas.
d2 <- read.csv('reg2.csv',sep = ';', dec = ',')
a) Suponiendo que un modelo de regresión lineal simple es apropiado, obtener el ajuste de
mínimos cuadrados relacionando el precio de venta con impuestos pagados.
model2 <- lm(Precio_miles~Tax_miles,data = d2)
b) Encuentre el precio de venta medio dado que los impuestos pagados son x = 7,
50.predict(model2,data.frame(Tax_miles = 7.5))
c) Calcule el valor ajustado de y correspondiente a x = 5,8980. Encuentre el
residuocorrespondiente.
index <- which(d2$Tax_miles == 5.8980) y <-
d2$Precio_miles[index] y_h2 <-
predict(model2,data.frame(Tax_miles = 5.8980)) cat('
Valor Verdadero : ',y,'\n',

'Valor Ajustado : ',y_h2,'\n',


'Residuo : ',y-y_h2)

d) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego

Universidad Politécnica Salesiana


UNIVERSIDAD POLITECNICA SALESIANA
construya una gráfica de ˆy versus el correspondiente valor observado yi .
y_hats2 <- predict(model2,data.frame(Tax_miles = d2$Tax_miles))
plot(d2$Precio_miles,y_hats2)

e) Encuentre los residuos para el modelo de mínimos cuadrados.


residuos2 <- d2$Precio_miles - y_hats2
f ) Elabore una gráfica de probabilidad normal de los residuales e interprete esta
presentación.

Universidad Politécnica Salesiana


UNIVERSIDAD POLITECNICA SALESIANA

model2_standares <- rstandard(model2)


qqnorm(model2_standares,

Universidad Politécnica Salesiana


UNIVERSIDAD POLITECNICA SALESIANA
xlab = 'Residuos Estandarizados',
ylab = 'Distribucion normal')
qqline(model2_standares)
El modelo que se observa se distribuyen como una normal dado que los residuos
estandarizados se

Están muy cercanos a la línea diagonal que representa a la distribución normal

g) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de


varianza constante? 3
par(mfrow = c(1,2))
plot(y_hats2,residuos2, xlab =
'Valores ajustados', ylab =
'Residuos')
plot(d22$Tax_miles,residuos2,
xlab = 'X', ylab = 'Residuos')
par(mfrow = c(1,1))
Dado que los puntos del gráfico de dispersión se encuentran muy dispersos es difícil.
Confirmar que la varianza se comporta como una constante.
Se debe realizar una prueba de homocedasticidad.

h) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?


summary(model2)

El modelo de regresión lineal explica el 76.73% de la

3. Se cree que la cantidad de libras de vapor utilizadas por mes por una planta qu´ımica
est´a relacionada con la temperatura ambiente promedio (en grados Farenheit) para ese
mes. El uso y la temperatura del año pasado se muestran en el archivo reg3.csv.
df3 <- read.csv('reg3.csv', sep = ';', dec = ',')
a) Suponiendo que un modelo de regresión lineal simple es apropiado, ajustar el modelo de
regresión que relaciona el uso de vapor (y) con la temperatura media (x).

Universidad Politécnica Salesiana


UNIVERSIDAD POLITECNICA SALESIANA
model3 <- lm(Libras_Miles~Temp,data = df3)
b) ¿Cuál es la estimaci´on del uso de vapor esperado cuando la temperatura promedio es
de 55 ◦F?
predict(model3, data.frame(Temp = 55))
c) ¿Qu´e cambio en el uso medio de vapor se espera cuando la temperatura promedio
mensual cambia en 1 ◦F?
model3$coefficients['Temp']
d) Suponga que la temperatura promedio mensual es 47 ◦F. Calcule el valor ajustado de y
yel residuo correspondiente.

index <- which(df3$Temp == 47) y <-


df3$Libras_Miles[index] y_hat <-
predict(model3,data.frame(Temp = 47)) cat('
Valor Verdadero : ',y,'\n',
'Valor Ajustado : ',y_hat,'\n',
'Residuo : ',y-y_hat)

e) Calcule el ˆy ajustado para cada valor de xi usado para ajustar el modelo. Luego
construya una gráfica de ˆy versus el correspondiente valor observado yi .
y_hats3 <- predict(model3,data.frame(Temp = df3$Temp))
plot(df3$Libras_Miles,y_hats3)

f ) Encuentre los residuos para el modelo de mínimos cuadrados.


residuos3 <- df3$Libras_Miles - y_hats3
g) Elabore una gráfica de probabilidad normal de los residuales e interprete esta
presentación.
qqnorm(model3_stdres, xlab =
'Residuos Estandarizados', ylab =
'Distribución normal')
qqline(model3_stdres)

Universidad Politécnica Salesiana


UNIVERSIDAD POLITECNICA SALESIANA
En la gráfica gran parte de los residuos no se encuentran sobre la línea
Diagonal lo que nos indica que no hay normalidad en los residuos

h) Grafique los residuos contra ˆy y contra x. ¿Parece que se cumple el supuesto de


varianza constante?
par(mfrow = c(1,2))
plot(y_hats3,residuos3, xlab
= 'Valores ajustados', ylab =
'Residuos')
plot(df3$Temp,residuos3,
xlab = 'X', ylab =
'Residuos') par(mfrow =
c(1,1))
De acuerdo a la gráfica realizada podemos observar que los puntos rondan un valor
constante

Como se muestra el comportamiento de diferentes por lo que se puede decir


Que se cumple el supuesto de varianza constante
i) ¿Qué proporción de la variabilidad total se explica por el modelo de regresión?
summary(model3)

El modelo explica el 99.99% de la variabilidad

4. A partir del archivo “todas 2018.csv ̧construya el ranking de las 1000 mejores empresas
de acuerdo a las utilidades.
df4 <- read.csv('todas2018.csv', encoding = 'utf8')
a) Realice un diagrama de dispersión del número de empleados contra la utilidad.
plot(df4$EMPLEADOS,df4$UTILIDAD)
b) Determine la correlación entre el número de empleados y la
utilidadcor(df4$EMPLEADOS,df4$UTILIDAD)
c) Establezca un modelo de regresión lineal simple donde la variable dependiente sea la
utilidad y la independiente sea el número de empleados. Interprete sus resultados.

Universidad Politécnica Salesiana


UNIVERSIDAD POLITECNICA SALESIANA
<- lm(UTILIDAD~EMPLEADOS,data = df4)
summary(model4_1)
Se observa que la variable independiente es significativa
Que tiene un p-valor menor al 5%, se observa que el modelo explica el 0.851% de la
variabilidad
Por otro lado, se puede decir que si la empresa contrata un empleado más la utilidad
Aumentará¡ en 202.01 unidades monetarias

d) Incluya en su modelo de regresi´on las ventas. Interprete sus resultadosmodel4_2 <-


lm(UTILIDAD~EMPLEADOS+VENTAS,data = df4) summary(model4_2)
#se puede observar que al ingresar la variable ventas, la variable empleados deja de ser
significativa, mientras que
La variable ventas si es significativa.
Por otro lado, si observamos el estadístico F, podemos decir que el modelo es
significativo de manera global
En cuanto al al r-cuadrado podemos observar que el modelo explica el 49.2% de la
variabilidad

e) Adicione en su modelo de regresión del literal anterior el sector productivo al


quepertenece la empresa. Interprete sus resultados.
model4_3 <- lm(UTILIDAD~EMPLEADOS+VENTAS+factor(SECTOR_PROD),data = df4)
summary(model4_3)
Las variables que son significativas para el modelo son Ventas, como las siguientes
Categorías de la variable sector productivo que son las categorías construccion e
inmobiliaria
El modelo explica el 49.27% de la variabilidad
5. Con el conjunto de datos tourism.csv realice los siguientes ejercicios. Para los ejercicios b,
c y d investigue sobre la regresi´on lineal múltiple. Adicionalmente investigue sobre los
supuestos de los modelos de regresión y como verificarlos en R.
df5 <-read.csv('tourism.csv', sep = ';')
a) Le gustaría saber si la edad de los huéspedes influye en la cantidad gastada por dıa
(conjunto de datos turismo.xlsx). Ejecute una regresi´on lineal con la edad como
independiente y los gastos como variable dependiente. Verifique el cumplimiento de los
supuestos.
model5 <- lm(expenses~age,data = df5)

Universidad Politécnica Salesiana


UNIVERSIDAD POLITECNICA SALESIANA
Supuesto de independencia plot(model5$residuals)

Dado que en él los residuos no presenta un patrón definido podemos decir que se
cumple el supuesto de independencia entre los errores
Supuesto de Normalidad
Test de normalidad
shapiro.test(model5$residuals)
Considerando un nivel de significancia de 5%, podemos aceptar la hipótesis nula, lo que
implica que el modelo cumple con el supuesto de normalidad
Supuesto de Homocedasticidad o varianza constante
Test de homocedasticidad bptest(model5)
Dado que el nivel de significancia elegido es de 5%, no se rechaza la hipótesis nula, por
lo que se puede afirmar que el modelo cumple el supuesto de homocedasticidad
Test de multicolinealidad el modelo es univariado
Supuesto de no relación entre las variables explicativa y el error
plot(model5$residuals,df5$age)
No se muestra ningún patrón conocido se asume que se cumple este supuesto

b) Suponga que usted no está realmente satisfecho con su resultado, pensando que una
variable independiente puede no ser suficiente para explicar el gasto diario. Al entrar en
detalles se piensa que además de la edad, la satisfacción con la estación de esquí y la
duración de la estancia también pueden influir en el gasto diario. Ejecute el nuevo modelo
de regresión y verifique los supuestos.model5_b <- lm(expenses~age+satisfaction+stay,data =
df5)

Supuesto de independencia plot(model5_b$residuals)


Supuesto de Normalidad

Test de normalidad
shapiro.test(model5_b$residuals)
Supuesto de Homocedasticidad o varianza constante
Test de homocedasticidad
bptest(model5_b)
Test de multicolinealidad vif(model5_b)

Supuesto de no relación entre las variables explicativa y el error


plot(model5_b$residuals,df5$age)
c) Al modelo del ejercicio anterior a˜nada la variable acomodación. Ejecuta el modelo de

Universidad Politécnica Salesiana


UNIVERSIDAD POLITECNICA SALESIANA
regresión y verifique los supuestos.
model5_c <- lm(expenses~age+satisfaction+stay+accommodation,data = df5)

Supuesto de independencia plot(model5_c$residuals)

Supuesto de Normalidad
Test de normalidad
shapiro.test(model5_c$residuals)
Supuesto de Homocedasticidad o varianza constante
Test de homocedasticidad
bptest(model5_c)

Test de multicolinealidad vif(model5_c)

Supuesto de no relación entes las variables explicativa y el error


plot(model5_c$residuals,df5$age)

d) Finalmente a˜nada la variable sexo. Ejecute el nuevo modelo de regresión y verifique los
supuestos.
model5_d <- lm(expenses~age+satisfaction+stay+accommodation+sex,data = df5)

Supuesto de independencia
plot(model5_d$residuals)

Supuesto de Normalidad
Test de normalidad
shapiro.test(model5_d$residuals)
Supuesto de Homocedasticidad o varianza constante
Test de homocedasticidad
bptest(model5_d)
Test de multicolinealidad vif(model5_d)
Los supuesto de no relación entre las variables explicativa y el error
plot(model5_d$residuals,df5$age

Universidad Politécnica Salesiana

También podría gustarte