Laboratorio Album de Estampas

Universidad del Valle de Guatemala.
Corporate Master in Applied Data Science

STATISTICAL ANALYSIS I
Ing. Antonio Medrano
José David Morales García | Carné: 22889
El objetivo de este laboratorio es mostrar la relación entre el análisis de datos y la simulación como una forma de enfrentar y resolver problemas
complejos. Para esto, se utilizará el caso del Álbum de Estampas que fue compartido y presentado en clase. El programa para simular el llenado del
álbum ya fue desarrollado por mí por lo que no necesitan preocuparse de esa parte. Solo deben ejecutarlo para obtener los resultados y las gráficas
correspondientes. También deberán utilizar el documento que contiene el detalle del caso como referencia.
Su trabajo consiste en analizar los datos obtenidos, tomar las decisiones pertinentes y responder a las preguntas que se plantean a continuación.
a) Después de ejecutar el script completo, usted obtendrá un juego de 4 gráficas. La primera (esq. Superior izquierda) representa el
promedio de estampas repetidas que se obtuvieron en las 1000 corridas (álbumes simulados) respecto a la cantidad de sobres que se
iban comprando. Como es de esperar, mientras más sobres se han comprado, mayor es la cantidad esperada de estampas repetidas en
cada sobre que se compre. Basado en esta gráfica, ¿en qué momento (a los cuantos sobres comprados) considera usted que es razonable
pensar en dejar de comprar sobres y pensar en comprar estampas sueltas?
Con reemplazo: cuando ya se tienen 4 estampas repetidas por sobre

Sin reemplazo: cuando ya se tiene 4 estampas repetidas por sobre
b) ¿Porqué? Justifique su respuesta. Debe indicar cuantos sobres máximos se deben comprar y cuál es la cantidad promedio de estampas
repetidas por sobre que corresponde a esa cantidad de sobres.
Validando la gráfica de repetidas vs sobres y el análisis previo podemos determinar que necesitamos 160 sobres para llegar a las 4
estampas repetidas.
c) La siguiente gráfica (esq. Superior derecha) representa el promedio de estampas repetidas de las 1000 corridas, respecto al % de llenado
del álbum. Nuevamente, mientras más lleno esté el álbum, se espera que la cantidad de estampas repetidas en los nuevos sobres que se
compren sea mayor. Basado en la respuesta que haya dado al inciso anterior, es decir, en qué momento debe dejar de comprar sobres,
busque el valor en el eje X correspondiente para saber cuál es el % de llenado que tendrá el álbum en ese momento y cuantas estampas
le faltarán por adquirir.
Con reemplazo cuando se tenga el 85% lleno (425) quedando restantes 75 estampas.
Sin reemplazo cuando se tenga el 80% lleno (400) quedando restantes 100 estampas.
d) Las dos gráficas en la parte inferior son los histogramas que representan la distribución de la cantidad de sobres necesarios para llenar el
álbum en las 1000 corridas y el costo total, suponiendo que el álbum se llena solamente comprando sobres. Los datos están contenidos
en las siguientes variables:
a. totsobres: Cantidad total de sobres para llenar el álbum (1000 valores) summary(totsobres)
b. costoalbum: Costo Total en quetzales para llenar el álbum comprando solo sobres (1000 valores)
Deberá hacer un análisis estadístico descriptivo de cada una de estas variables y discutir sobre:
 La forma de la distribución, máximo, mínimo, media, mediana, dispersión, etc. de sobres necesarios para llenar el
álbum.
Con reemplazo (totsobres)
Min 450 Max 1360 Mediana 659 Media 677.4 Variable discreta
Sin reemplazo (totsobres)
Min 441 Max 1129 Mediana 656.5 Media 676.3 Variable discreta
 La forma de la distribución máximo, mínimo, media, mediana, etc. del costo total de llenar el álbum solamente con
sobres.
Con reemplazo (costoalbum)

Min 2250 Max 6800 Mediana 3295 Media 3387 Variable discreta
Sin reemplazo (costoalbum)

Min 2205 Max 5645 Mediana 3282 Media 3382 Variable discreta
 Cuanto es lo MENOS que le costaría al 90% de personas llenar el álbum solo comprando sobres? (hint: use percentiles)
Con reemplazo 2684.5

Sin reemplazo 2675
 Cualquier otro análisis que considere interesante.

e) Para las primeras 2 gráficas, vamos a encontrar la ecuación que representa dichas gráficas, en el caso de la gráfica 1 (Repetidas vs. # de
Sobres comprados) se trata evidentemente de un modelo no lineal mientras que en el caso de la gráfica 2 (Repetidas vs. % lleno) se trata
de un modelo lineal. En el caso de la primera gráfica, vamos a ajustarla a un modelo de saturación Michaelis-Menten (buscar en google)
ax
que tiene la forma y= y cuya gráfica se asemeja mucho al comportamiento observado en los datos.
b+ x
Para esto, copie las siguientes líneas en el script y ejecútelas. Copie el párrafo completo. (solo debe ejecutar esas líneas, no todo el script)
y <- repprom
x <- 1:length(repprom)
mod1 <- nls(y~a*x/(b+x), start=list(a=1,b=1))
summary(mod1)
mod2 <- lm(repprom ~ promlleno)
summary(mod2)
par(mfrow=c(2,1))
plot(seq(1,minimo),repprom,type="l",col="blue",xaxp=c(0,450,45),main="Repetidas vs Sobres",xlab="# de sobres", ylab="Repetidas
prom/sobre")
lines(x,predict(mod1,x),col="red")
plot(promlleno,repprom,col="blue",type="l",xaxp=c(0,1,20),las=2,main="Repetidas vs % lleno ", xlab="Porc. Lleno", ylab="Repetidas
prom/sobre")
abline(mod2,col="red")
Como puede verse en las gráficas, los datos (en azul) y el modelo ajustado (en rojo) se asemejan bastante por lo que podemos usar dichos
ax
modelos matemáticos para hacer interpolaciones. Escriba las 2 ecuaciones, una de la forma y=a+bx y la otra de la forma y= . Los
b+ x
coeficientes los obtiene de la función summary() de cada modelo. Con esto usted puede determinar la cantidad esperada de estampas
repetidas (que ya tiene) por sobre en función del número de sobres comprados y en función del % de llenado del álbum. En función de
estos modelos y basado en su respuesta al inciso
a) indique cual sería el costo de llenar el álbum utilizando una combinación de sobres y estampas sueltas, recordando que el costo para
un sobre y una estampa suelta es de Q5. Por ejemplo, si decido dejar de comprar sobres cuando el promedio de estampas repetidas
por sobre es igual a 3, eso equivale a tener el álbum aprox. 60% lleno, para lo cual debo haber comprado aprox. 90 sobres, entonces
el costo de llenar el álbum será 90*5 + (1-0.6)*500*5 = Q1450 que es mucho menor al costo mínimo de llenar el álbum comprando
solamente sobres, sin embargo, todavía se puede obtener un costo menor (hint: pruebe con otros valores de estampas
Con reemplazo 5*160+(1-0.8) * 500 * 5 = Q1300

Sin reemplazo 5*160+(1-0.85) * 500 * 5 = Q1175
La ecuación de Costo Total comprando sobres y estampas sueltas es CT = Sobres*5 + (1 - % lleno)*500 * 5. El # de sobres en función del
prom. de estampas repetidas se puede obtener del modelo 1 y el % lleno en función del prom. de estampas repetidas se puede obtener
del modelo 2. Combinando ambas ecuaciones con la ecuación de costo se puede obtener un modelo que nos dé el costo en función del
promedio de estampas repetidas, este modelo es no lineal y puede usarse para encontrar el valor óptimo de repetidas que minimiza el
costo total aplicando el criterio de la primera derivada. A partir de ese valor, se regresa a los modelos originales y se determina el número
óptimo de sobres a comprar. Se deja como ejercicio para los curiosos, desocupados o locos como yo.
f) Finalmente, vaya a la línea 3 del script. La variable “repetidas_en_sobre” indica si es posible que en un mismo sobre salgan 2 o más
estampas iguales. El valor está seteado como FALSE, es decir, el proceso de llenado de sobres es un muestreo SIN reemplazo. Cambie el
valor a TRUE (muestreo CON reemplazo) y vuelva a ejecutar todo su análisis para ver si existe diferencia significativa en los resultados.
Discuta las diferencias, si las hay. (Recuerde que lo único que debe hacer es volver a ejecutar el script completo, incluyendo la parte
agregada por ustedes, para obtener los nuevos resultados.)
Como resumen de la actividad, obsérvese que partimos de un problema relativamente trivial, que era estudiar el proceso de llenado de un
álbum de estampas y sus costos asociados, proceso totalmente probabilístico, y mediante la modelación del problema, la simulación del
proceso, la generación de los resultados y su análisis posterior, fue posible obtener un conocimiento más profundo del fenómeno, que incluso
nos permitió desarrollar modelos matemáticos que permiten tomar decisiones para optimizar los recursos (modelos prescriptivos). Este es un
ejemplo sencillo pero enormemente ilustrativo de Computational Science y Data Science en acción. Computational Science desarrolla y simula
los modelos y Data Science analiza los datos a partir de la simulación para obtener insights sobre el problema bajo análisis. Ahora imagine el
potencial que estas metodologías presentan para estudiar problemas más complejos e importantes en el mundo de los negocios, en el campo
científico e industrial.

Laboratorio Album de Estampas

Cargado por

Copyright:

Formatos disponibles

Laboratorio Album de Estampas

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Laboratorio Album de Estampas

Cargado por

Copyright:

Formatos disponibles

Universidad del Valle de Guatemala.

Corporate Master in Applied Data Science

Con reemplazo: cuando ya se tienen 4 estampas repetidas por sobre

Con reemplazo (costoalbum)

Sin reemplazo (costoalbum)

Con reemplazo 2684.5

 Cualquier otro análisis que considere interesante.

Con reemplazo 5160+(1-0.8) 500 * 5 = Q1300

También podría gustarte