Laboratorio Album de Estampas
Laboratorio Album de Estampas
Laboratorio Album de Estampas
El objetivo de este laboratorio es mostrar la relación entre el análisis de datos y la simulación como una forma de enfrentar y resolver problemas
complejos. Para esto, se utilizará el caso del Álbum de Estampas que fue compartido y presentado en clase. El programa para simular el llenado del
álbum ya fue desarrollado por mí por lo que no necesitan preocuparse de esa parte. Solo deben ejecutarlo para obtener los resultados y las gráficas
correspondientes. También deberán utilizar el documento que contiene el detalle del caso como referencia.
Su trabajo consiste en analizar los datos obtenidos, tomar las decisiones pertinentes y responder a las preguntas que se plantean a continuación.
a) Después de ejecutar el script completo, usted obtendrá un juego de 4 gráficas. La primera (esq. Superior izquierda) representa el
promedio de estampas repetidas que se obtuvieron en las 1000 corridas (álbumes simulados) respecto a la cantidad de sobres que se
iban comprando. Como es de esperar, mientras más sobres se han comprado, mayor es la cantidad esperada de estampas repetidas en
cada sobre que se compre. Basado en esta gráfica, ¿en qué momento (a los cuantos sobres comprados) considera usted que es razonable
pensar en dejar de comprar sobres y pensar en comprar estampas sueltas?
b) ¿Porqué? Justifique su respuesta. Debe indicar cuantos sobres máximos se deben comprar y cuál es la cantidad promedio de estampas
repetidas por sobre que corresponde a esa cantidad de sobres.
Validando la gráfica de repetidas vs sobres y el análisis previo podemos determinar que necesitamos 160 sobres para llegar a las 4
estampas repetidas.
c) La siguiente gráfica (esq. Superior derecha) representa el promedio de estampas repetidas de las 1000 corridas, respecto al % de llenado
del álbum. Nuevamente, mientras más lleno esté el álbum, se espera que la cantidad de estampas repetidas en los nuevos sobres que se
compren sea mayor. Basado en la respuesta que haya dado al inciso anterior, es decir, en qué momento debe dejar de comprar sobres,
busque el valor en el eje X correspondiente para saber cuál es el % de llenado que tendrá el álbum en ese momento y cuantas estampas
le faltarán por adquirir.
Con reemplazo cuando se tenga el 85% lleno (425) quedando restantes 75 estampas.
Sin reemplazo cuando se tenga el 80% lleno (400) quedando restantes 100 estampas.
d) Las dos gráficas en la parte inferior son los histogramas que representan la distribución de la cantidad de sobres necesarios para llenar el
álbum en las 1000 corridas y el costo total, suponiendo que el álbum se llena solamente comprando sobres. Los datos están contenidos
en las siguientes variables:
a. totsobres: Cantidad total de sobres para llenar el álbum (1000 valores) summary(totsobres)
b. costoalbum: Costo Total en quetzales para llenar el álbum comprando solo sobres (1000 valores)
Deberá hacer un análisis estadístico descriptivo de cada una de estas variables y discutir sobre:
La forma de la distribución, máximo, mínimo, media, mediana, dispersión, etc. de sobres necesarios para llenar el
álbum.
Con reemplazo (totsobres)
Min 450 Max 1360 Mediana 659 Media 677.4 Variable discreta
Sin reemplazo (totsobres)
Min 441 Max 1129 Mediana 656.5 Media 676.3 Variable discreta
La forma de la distribución máximo, mínimo, media, mediana, etc. del costo total de llenar el álbum solamente con
sobres.
y <- repprom
x <- 1:length(repprom)
mod1 <- nls(y~a*x/(b+x), start=list(a=1,b=1))
summary(mod1)
mod2 <- lm(repprom ~ promlleno)
summary(mod2)
par(mfrow=c(2,1))
plot(seq(1,minimo),repprom,type="l",col="blue",xaxp=c(0,450,45),main="Repetidas vs Sobres",xlab="# de sobres", ylab="Repetidas
prom/sobre")
lines(x,predict(mod1,x),col="red")
plot(promlleno,repprom,col="blue",type="l",xaxp=c(0,1,20),las=2,main="Repetidas vs % lleno ", xlab="Porc. Lleno", ylab="Repetidas
prom/sobre")
abline(mod2,col="red")
Como puede verse en las gráficas, los datos (en azul) y el modelo ajustado (en rojo) se asemejan bastante por lo que podemos usar dichos
ax
modelos matemáticos para hacer interpolaciones. Escriba las 2 ecuaciones, una de la forma y=a+bx y la otra de la forma y= . Los
b+ x
coeficientes los obtiene de la función summary() de cada modelo. Con esto usted puede determinar la cantidad esperada de estampas
repetidas (que ya tiene) por sobre en función del número de sobres comprados y en función del % de llenado del álbum. En función de
estos modelos y basado en su respuesta al inciso
a) indique cual sería el costo de llenar el álbum utilizando una combinación de sobres y estampas sueltas, recordando que el costo para
un sobre y una estampa suelta es de Q5. Por ejemplo, si decido dejar de comprar sobres cuando el promedio de estampas repetidas
por sobre es igual a 3, eso equivale a tener el álbum aprox. 60% lleno, para lo cual debo haber comprado aprox. 90 sobres, entonces
el costo de llenar el álbum será 90*5 + (1-0.6)*500*5 = Q1450 que es mucho menor al costo mínimo de llenar el álbum comprando
solamente sobres, sin embargo, todavía se puede obtener un costo menor (hint: pruebe con otros valores de estampas
f) Finalmente, vaya a la línea 3 del script. La variable “repetidas_en_sobre” indica si es posible que en un mismo sobre salgan 2 o más
estampas iguales. El valor está seteado como FALSE, es decir, el proceso de llenado de sobres es un muestreo SIN reemplazo. Cambie el
valor a TRUE (muestreo CON reemplazo) y vuelva a ejecutar todo su análisis para ver si existe diferencia significativa en los resultados.
Discuta las diferencias, si las hay. (Recuerde que lo único que debe hacer es volver a ejecutar el script completo, incluyendo la parte
agregada por ustedes, para obtener los nuevos resultados.)
Como resumen de la actividad, obsérvese que partimos de un problema relativamente trivial, que era estudiar el proceso de llenado de un
álbum de estampas y sus costos asociados, proceso totalmente probabilístico, y mediante la modelación del problema, la simulación del
proceso, la generación de los resultados y su análisis posterior, fue posible obtener un conocimiento más profundo del fenómeno, que incluso
nos permitió desarrollar modelos matemáticos que permiten tomar decisiones para optimizar los recursos (modelos prescriptivos). Este es un
ejemplo sencillo pero enormemente ilustrativo de Computational Science y Data Science en acción. Computational Science desarrolla y simula
los modelos y Data Science analiza los datos a partir de la simulación para obtener insights sobre el problema bajo análisis. Ahora imagine el
potencial que estas metodologías presentan para estudiar problemas más complejos e importantes en el mundo de los negocios, en el campo
científico e industrial.