Tesis Roque Montalvo Irene
Tesis Roque Montalvo Irene
Tesis Roque Montalvo Irene
URBANISMO
ESCUELA ACADMICO PROFESIONAL DE
INGENIERIA DE SISTEMAS
TESIS
AUTOR
Asesor metodlogo
ii
DEDICATORIA
A:
Dios, por darme la oportunidad de vivir y por estar conmigo en cada paso
que doy, por fortalecer mi corazn e iluminar mi mente y por haber puesto en
mi camino a aquellas personas que han sido mi soporte y compaa durante
todo el periodo de estudio.
Mis padres, por haberme apoyado en todo momento, por sus consejos, sus
valores, por la motivacin constante que me ha permitido ser una persona de
bien, pero ms que nada, por su amor.
iii
AGRADECIMIENTOS
iv
ndice de Contenido
ndice de Grficos.................................................................................................... viii
RESUMEN.................................................................................................................... x
CAPTULO I: PROBLEMA DE LA INVESTIGACIN................................................. 14
1.1. Situacin Problemtica ............................................................................ 14
1.2. Formulacin del problema ...................................................................... 15
1.3. Delimitacin de la Investigacin ............................................................. 16
1.4. Justificacin e Importancia...................................................................... 16
1.5. Limitaciones de la Investigacin ............................................................ 17
1.6 Objetivos de la Investigacin .................................................................. 18
1.Objetivos de la Investigacin ..................................................................... 18
2.Objetivos especficos .................................................................................. 18
CAPTULO II: MARCO TERICO .............................................................................. 20
2.1. Antecedentes de estudios:...................................................................... 20
2.2. Estado del arte .......................................................................................... 25
2.3. Bases Terico Cientficas ....................................................................... 27
A. Proceso KDD para la obtencin del conocimiento .............................. 27
B. Minera de datos ....................................................................................... 30
C. Tcnicas de minera de datos: ............................................................... 31
D. Metodologa para minera de datos CRISP-DM .................................. 55
E. Herramientas para minera de datos ..................................................... 58
F. Libreras para minera de datos ............................................................. 59
G. Prediccin .................................................................................................. 60
H. Tcnicas de prediccin con minera de datos ..................................... 61
2.4. Definicin de trminos bsicos.......................................................... 62
A. Almacn de datos ...................................................................................... 62
B. Anlisis prospectivo de datos................................................................... 62
C. rbol de decisin ....................................................................................... 62
D. Mtodo ......................................................................................................... 62
E. Metodologa ................................................................................................ 62
F. Minera de datos ......................................................................................... 63
G.Modelo predictivo ........................................................................................ 63
H.Tcnicas de Prediccin .............................................................................. 63
I. Prediccin de ventas .................................................................................. 63
v
CAPTULO III: MARCO METODOLGICO ............................................................... 65
3.1.Tipo y Diseo de la Investigacin ............................................................... 65
3.2. Poblacin y muestra .................................................................................... 65
3.3. Hiptesis ........................................................................................................ 68
3.4. Variables Operacionalizacin ................................................................. 68
3.4.1. Variable Independiente ....................................................................... 68
3.4.2. Variable Dependiente .......................................................................... 68
3.5. Operacionalizacin ...................................................................................... 69
3.6. Mtodos, tcnicas e instrumentos de recoleccin de datos.................. 70
3.7. Procedimiento para la recoleccin de datos ............................................ 70
3.8. Anlisis estadstico e Interpretacin de los datos ................................... 70
3.9. Principios ticos ........................................................................................... 71
3.10. Criterios de rigor cientfico........................................................................ 71
3.11. Evaluacin econmica del software ....................................................... 72
CAPTULO IV: ANLISIS E INTERPRETACIN DE LOS DATOS ........................... 76
4.1. Resultados en tablas y grficos ................................................................. 76
4.2. Contrastacin de la hiptesis. .................................................................... 83
4.3. Discusin de los resultados. ...................................................................... 83
CAPITULO V: DESARROLLO DE LA PROPUESTA................................................. 86
5.1. Generalidades ........................................................................................... 86
5.2. Metodologa de desarrollo ......................................................................... 88
CAPITULO VI: CONCLUSIONES Y RECOMENDACIONES ................................... 126
6.1. Conclusiones........................................................................................... 126
6.2. Recomendaciones................................................................................... 128
BIBLIOGRAFA ........................................................................................................ 130
ANEXOS .................................................................................................................. 133
vi
ndice de Figuras
vii
ndice de Grficos
viii
ndice de Tablas
ix
RESUMEN
PALABRAS CLAVES
x
ABSTRACT
The problem is not about building a data mining model, if not assess
that algorithm and technique serves or has a better performance for a
given problem, since it is not the same criteria applied to series-type
forecasts sales that for series of weather, or other. Where each
algorithm has a degree of influence by the problem into focus.
The scope of this research focuses on the company "El Astro SAC" to
determine estimates of sales by volume generated monthly or quarterly,
one of the widely used algorithms for sales forecasts from a statistical
point of view is the Holtwinters, this research data analysis is performed
to compare this algorithm with other methods such as: Holt and ETS.
KEYWORDS
xi
INTRODUCCIN
xii
CAPITULO I
EL PROBLEMA DE
INVESTIGACIN
CAPTULO I: PROBLEMA DE LA INVESTIGACIN
Con el paso del tiempo se ha visto que para dar una adecuada
administracin de todas esas actividades y con el fin de evitar
muchos conflictos, en la mayora de los lugares como por
ejemplo en los hospitales, se realizan historial de visitas,
entradas y salidas de pacientes; en las estaciones de polica se
registran con hora y fecha exactas los hechos sucedidos; en
almacenes grandes se registran las transacciones en facturas
con fecha de compra, entre otros ejemplos; por lo que se
comienza a formar una generacin masiva de datos los cuales
llevan a la creacin de almacenes o bodegas de datos, algunos
con un crecimiento tan exagerado que hasta para las consultas
realizadas por lenguajes como SQL es imposible lograr
resultados eficientes (Garca Bermdez & Acevedo Ramrez,
2010).
14
Los algoritmos de Minera de Datos realizan en general tareas
de prediccin de informacin desconocida que puede estar
contenida en los datos, como tambin puede realizar la labor de
describir patrones de comportamiento de los datos.
15
mltiples estacionalidades multiplicativas en el cual se obtuvo un
85% de confiabilidad al utilizar el mtodo multiplicativo de
HoltWinters.
16
de datos, los cuales generan las reas operativas de cada
empresa; problema que puede ser resuelto con la aplicacin de
algoritmos de minera de datos. (Asencios, 2004).
17
1.6. Objetivos de la Investigacin
1. Objetivos de la Investigacin
2. Objetivos especficos
18
CAPITULO II
MARCO TERICO
19
CAPTULO II: MARCO TERICO
20
pronsticos pueden ser preferibles a los pronsticos individuales.
Por ltimo, en general, la informacin proporcionada por SVM
resulta de mayor utilidad cuando se consideran combinaciones
lineales de SVM y wavelets. No obstante, SVM puede superar a
UC y ARIMA.
21
C. TCNICAS DE MINERA DE DATOS APLICADAS A LA
CONSTRUCCIN DE MODELOS DE SCORE CREDITICIO
(Ramrez A., 2007) en su trabajo realizo la comparacin de
diferentes tcnicas como son las de redes neuronales, anlisis
discriminante, mquinas vectoriales de soporte, rboles de
decisiones y regresin logstica, las cuales son ms empleadas de
score crediticio para as determinar patrones de comportamiento de
un cliente como resultados se obtuvo que dentro de las tcnicas
tradicionales, la Regresin Lineal es la que mejor exactitud en
prediccin muestra. Sin embargo, las Redes Neuronales muestran
una mayor exactitud en cada una de las ejecuciones que los
autores realizan. En general, los modelos presentados predicen
mejor los buenos crditos que los malos con excepcin de dos
casos de Anlisis Discriminante (DA). El mejor predictor para la
clase buena (i.e. buen crdito) es una red neuronal probabilstica
(Probabilistic Neural Networks, PNN) mientras que una Red
Neuronal Multicapa Feed-Forward (Multi-Layer Feed Forward
Network, MLFN) predice mejor los crditos malos Por otra parte, se
ha realizado una comparacin entre los distintos modelos en donde
los modelos sobresalientes son las redes neuronales y las
mquinas vectoriales de soporte (SVM). Sin embargo, no se
desconoce el esfuerzo y la precisin presentada por modelos
hbridos. Estos modelos hbridos han mostrado mejores resultados
frente a modelos tradicionales, sin embargo dichos modelos no son
contundentes y la diferencia entre estos y los tradicionales suele
ser muy baja.
Por otra parte, de acuerdo a lo que han reportado varios autores,
las consideraciones importantes para construir un buen modelo
radica en la calidad de los datos escogidos y en la seleccin
adecuada de las variables que inuyen en los modelos.
22
D. APLICACIN DE MINERA DE DATOS PARA LA
EXPLORACIN Y DETECCIN DE PATRONES DELICTIVOS EN
ARGENTINA (Perversi, 2007) en su investigacin realizo la
identificacin y deteccin de patrones de homicidios dolosos
vinculados con el tipo de arma empleada, para tal cometido
utilizaron los algoritmos K-means (para agrupar los hechos segn
su similitud), Induccin, ID3, C4.5 (para identificar reglas de
pertenencia). Obtuvo como resultado que el 98,8% de instancias
bien clasificadas confirma que los clsteres determinados por K-
means responden a un criterio determinado subyacente a los
datos.
23
Luego de evaluar cada uno de los modelos segn la necesidad
esperada, se procede a revisar los resultados entregados por el
modelo, es de esta manera como se obtiene un mejor
acercamiento a los datos entregados. El modelo que mejor
comportamiento tiene en evaluar la variable Ataque vs las otras
variables de entrada fue el modelo CHAID. Las conclusiones a las
que llegaron es que la minera de datos basada en una
metodologa adecuada, puede ser muy til en el proceso de
exploracin de datos, toda vez que mediante tecnologas analticas
y procesos estadsticos nos permiti generar reglas que a partir de
datos histricos de capturas, para generar reglas y patrones que
permiten predecir intrusiones.
24
2.2. Estado del arte
25
ltimo, en general, la informacin proporcionada por SVM
resulta de mayor utilidad cuando se consideran combinaciones
lineales de SVM y wavelets. No obstante, SVM puede superar
a UC y ARIMA.
26
D. MODELOS DE ESPACIO DE ESTADOS SUBYACENTES AL
MTODO MULTIPLICATIVO DE HOLT-WINTERS CON
MLTIPLE ESTACIONALIDAD (Madrigal Espinoza, 2006)
Esta investigacin tuvo como objetivo desarrollar un mtodo de
pronstico basado en suavizacin exponencial que incorpore el
clculo de intervalos de prediccin, para una serie de tiempo
que presenta tendencia aditiva y mltiples estacionalidades
multiplicativas, aplicando el mtodo multiplicativo de Holt-
Winters los resultados obtenidos al minimizar la funcin
objetivo propuesta para el mtodo multiplicativo de Holt-Winters
de 2 y 8 semestres para el caso de errores aditivos ( = 0) y
multiplicativos ( = 1). Ambos criterios de seleccin favorecieron
al mismo modelo, que en este caso es el de errores aditivos; el
margen de error arrojado por este mtodo es cinco veces
menor al de errores multiplicativos llegando a la conclusin
que, el modelo con errores multiplicativos muestra muy buen
ajuste para los primeros datos. Sin embargo, a ms cantidad
de datos (24 periodos), deja de ajustarse con la precisin que
lo hizo al principio y de hecho, conforme pasa el tiempo, el
ajuste parece ir empeorando.
27
datos, la cual se encuentra presente de forma implcita,
previamente desconocida y potencialmente til para el usuario o
para el negocio. El objetivo principal de esta metodologa es
automatizar el procesamiento de los datos, permitiendo a los
usuarios dedicar ms tiempo a las tareas de anlisis y al
descubrimiento de relaciones entre los datos. El KDD es un
proceso que consta de una serie de etapas consecutivas, y
funciona de forma iterativa e interactiva. Iterativa, ya que es
posible regresar desde cualquier etapa a una anterior para
ajustar los parmetros o supuestos previos, e interactiva pues el
usuario experto del negocio tiene que estar presente para
aportar con su conocimiento en la preparacin de los datos y en
la validacin de los resultados que se obtengan durante el
proceso.
28
Las etapas de este proceso son:
Identificacin del problema en estudio, teniendo un objetivo
claro para el problema a resolver, entendiendo las metas del
proceso y cules son las preguntas que se quieren responder.
Seleccin e integracin de los datos, para contar con un
conjunto objetivo desde el cual obtener el conocimiento. Se
obtienen los datos desde los sistemas operacionales, los cuales
pueden venir en diferentes formatos y en algunas oportunidades
con errores, por lo cual es importante realizar una etapa de
procesamiento.
Preparacin de los datos (limpieza y pre-procesamiento), ya
que en general, como se dijo en la etapa anterior, los datos
provienen desde varias fuentes y en diferentes formatos. En
esta etapa se escogen tcnicas y estrategias para corregir
errores en el conjunto de datos seleccionado, tratar la
informacin faltante y unificar formatos.
Transformacin y almacenamiento de los datos, punto en el
que se pueden reducir o agrupar los datos en las caractersticas
de inters. Se consolida la informacin y escoge una
arquitectura acorde a las necesidades del problema que permita
almacenarla, por ejemplo, un Data Mart.
Seleccin y aplicacin de algoritmos de Data Mining,
utilizando tcnicas adecuadas segn la hiptesis planteada y el
anlisis que se quiera hacer. Las tcnicas seleccionadas
permitirn generar modelos de minera de datos, y con ello
descubrir patrones de informacin implcitos en los datos.
Interpretacin y evaluacin de los patrones encontrados,
identificando los nuevos conocimientos y apoyndose en los
expertos del negocio para ver si se pueden tomar acciones con
estos resultados. Para interpretarlos, es necesario visualizarlos
29
de diversas formas, validando los patrones y modelos de datos,
documentando los procedimientos y consideraciones de manera
que se generen propuestas de valor para el negocio.
B. Minera de datos
Segn (Dandretta, 2002) dice:
30
interpretados y validados para ver si responden a las consultas del
negocio, y si son aplicables en el mundo real.
31
Los modelos predictivos pueden ser descriptivos (hasta donde
sean comprensibles por personas) y los modelos descriptivos
pueden emplearse para realizar predicciones. De esta forma,
hay algoritmos o tcnicas que pueden servir para distintos
propsitos, por lo que la figura N 2 representa para qu
propsito son ms utilizadas las tcnicas. Por ejemplo, las redes
de neuronas pueden servir para prediccin, clasificacin e
incluso para aprendizaje no supervisado.
32
Si T = Z se dice que la serie de tiempo es discreta y si T = R se
dice que la serie de tiempo es continua.
MODELOS DE DESCOMPOSICIN
33
es un modelo multiplicativo . Es claro que este modelo puede
ser transformado en aditivo, tomando logaritmos. El problema
que se presenta, es modelar adecuadamente las componentes
de la serie.
34
3. T(t) = a + b ebt
bt
1. T(t) = a + bt (Lineal) 2.T(t) = a e (Exponencial)
(Exponencial modificada)
a) Aditivo
35
b) Mixto
36
- Si el modelo es aditivo representa
la serie con los efectos de tendencia removidos.
37
Para analizar la estacionalidad de una serie introduciremos un
concepto de gran inters en el anlisis de series temporales:
la funcin de autocorrelacin.
38
exceder la mitad de los valores observados, y es de gran
importancia para estudiar la estacionalidad de la serie, ya que si
sta existe, los valores separados entre s por intervalos iguales
al periodo estacional deben estar correlacionados de alguna
forma. Es decir que el coeficiente de autocorrelacin para un
retardo igual al periodo estacional debe ser significativamente
diferente de 0.
39
Tcnicas de Series de Tiempo en Minera de Datos
Dnde:
40
c. ARIMA: (Modelo autorregresivo integrado de media
mvil). Est compuesto por tres componentes:
C: la variable que define la serie temporal y t depende de
una constante C.
D: orden de diferenciacin.
41
d. HOLTWINTERS:
(Coghlan, 2015) El modelo Holt-Winters incorpora un conjunto
de procedimientos que conforman el ncleo de la familia de
series temporales de alisado exponencial. Holt-Winters puede
adaptarse fcilmente a cambios y tendencias, as como a
patrones estacionales. En comparacin con otras tcnicas,
como ARIMA, el tiempo necesario para calcular el pronstico
es considerablemente ms rpido. Esto significa que cualquier
usuario puede poner en prctica la tcnica de Holt-Winters.
Ms all de sus caractersticas tcnicas, su aplicacin en
entornos de negocio es muy comn. De hecho, Holt-Winters
se utiliza habitualmente por muchas compaas para
pronosticar la demanda a corto plazo cuando los datos de
venta contienen tendencias y patrones estacionales de un
modo subyacente.
Esta tcnica se basa en la atenuacin de los valores de la
serie de tiempo, obteniendo el promedio de estos de manera
exponencial; es decir, los datos se ponderan dando un mayor
peso a las observaciones ms recientes y uno menor a las
ms antiguas.
La expresin para realizar el clculo de la suavizacin exponencial
es:
Donde:
42
Mtodo aditivo Holt-Winters (Hyndman & Athanasopoulos,
2015). La forma de componentes para el mtodo aditivo es:
43
Holt-Winters mtodo multiplicativo (Hyndman & Athana-
sopoulos, 2015). La forma de componentes para el mtodo
multiplicativo es:
Ecuacin Pronstico
Ecuacin nivel
Ecuacin de tendencia.
44
de la serie en el tiempo t, es el parmetro de suavizado para
tendencia, 0 * 1.
Donde:
45
pronstico ms populares utilizados en los negocios y la
industria. Recientemente, suavizado exponencial ha
revolucionado con la introduccin de un marco de
modelizacin completa incorporando innovaciones modelos
de estado espacio, clculo de probabilidades, los intervalos de
prediccin y los procedimientos para la seleccin del modelo.
Los mtodos de suavizacin exponencial son algoritmos que
generan predicciones puntuales. Un modelo estadstico es un
estocstico (o aleatorio) proceso generador de datos que
puede producir una distribucin de toda previsin.
yt=t1+t (1.1)
t=t1+t. (1.2)
Nos referimos a (1.1) como la ecuacin de medicin (u
observacin) y (1.2) como la ecuacin de estado (o de
transicin). Estas dos ecuaciones, junto con la distribucin
estadstica de los errores, forman un modelo estadstico
completamente especificado. En concreto, estos constituyen
un modelo de espacio de innovaciones estado subyacente
suavizacin exponencial simple.
46
El trmino "innovaciones" proviene del hecho de que todas las
ecuaciones en este tipo de especificacin utilizan el mismo
proceso de error aleatorio, t. Por la misma razn tambin se
conoce esta frmula como una "fuente nica de error" modelo
en contraste con mltiples fuentes alternativas de
formulaciones de error.
La ecuacin de medicin muestra la relacin entre las
observaciones y los estados no observados. En este caso yt
observacin es una funcin lineal de la t-1 nivel, la parte
predecible de yt, y t error aleatorio, la parte impredecible de
yt. Para otros modelos espaciales innovaciones estatales,
esta relacin puede ser no lineal.
La ecuacin de transicin muestra la evolucin de la situacin
a travs del tiempo. La influencia del parmetro de suavizado
es el mismo que para los mtodos discutidos anteriormente.
Por ejemplo, regula el grado de cambio en los niveles
sucesivos. Cuanto mayor sea el valor de , ms rpido los
cambios en el nivel; cuanto menor es el valor de , ms suave
los cambios. En el extremo ms bajo, donde = 0, el nivel de
la serie no cambia con el tiempo. En el otro extremo, donde
= 1, el modelo se reduce a un modelo de paseo aleatorio, yt =
yt-1 + t.
47
Entonces podemos escribir la forma multiplicativa del modelo
de espacio de estado como:
g. Redes Neuronales
48
"algoritmo de aprendizaje" que minimiza una "funcin de
costos" como MSE. Por supuesto, en este sencillo ejemplo,
podemos utilizar la regresin lineal que es un mtodo mucho
ms eficiente para la formacin del modelo.
Figura 8: Una red neuronal con cuatro entradas y una capa oculta
con tres neuronas ocultas.
49
Esto se conoce como una red de alimentacin hacia adelante
de mltiples capas, donde cada capa de nodos recibe
entradas de las capas anteriores. Las salidas de los nodos de
una capa son entradas a la capa siguiente. Las entradas a
cada nodo se combinan utilizando una combinacin lineal
ponderada. El resultado es entonces modificado por una
funcin no lineal antes de ser salida. Por ejemplo, las
entradas a la neurona oculta j en la figura 8 se combinan
linealmente para dar:
z j = bj + i = 14wi, jxi.
En la capa oculta, este es entonces modificado usando una
funcin no lineal tal como una sigmoide,
s(z)=11+ez,
Para dar la entrada para la siguiente capa. Esto tiende a
reducir el efecto de valores de entrada extremos, con lo que la
red un poco robusta a los valores atpicos.
50
El nmero de capas ocultas, y el nmero de nodos en cada capa
oculta, se deben especificar con antelacin.
51
Operacin en tiempo real: los cmputos neuronales pueden
ser realizados en paralelo; para esto se disean y fabrican
mquinas con hardware especial para obtener esta capacidad.
52
Agrupamiento (clustering): Hace corresponder cada caso a una
clase, con la peculiaridad de que las clases se obtienen
directamente de los datos de entrada utilizando medidas de
similaridad. Es decir, agrupan a los datos bajo diferentes mtodos
y criterios. Las tcnicas ms usadas son las clsicas (distancia
mnima) y las redes neuronales (mtodo de Kohonen o mtodo de
Neural-Gas).
V=
53
Anlisis de Secuencias: Se intenta modelar la evolucin
temporal de alguna variable, con fines descriptivos o predictivos
(redes neuronales multicapas).
54
Figura 10: Estructura de un rbol de decisin
55
lo especfico): Fases, tareas genricas, tareas especializadas e
instancias de proceso.
56
sern el alimento de las herramientas de modelado) desde una
base en bruto. Es preferible que las tareas de preparacin de
datos se realicen varias veces y no en un orden preestablecido.
Estas tareas incluyen tabulacin, documentacin y seleccin de
atributos, tambin como transformacin y limpieza de datos para
las herramientas de modelado.
57
personalizacin en tiempo real de las pginas web o la
puntuacin repetida en bases de datos de mercadeo. Sin
embargo, dependiendo de los requerimientos, la fase de
despliegue puede ser tan simple como generar un reporte o tan
compleja como implementar un proceso repetible de minera de
datos a travs de la empresa. En muchos casos es el cliente, no
el analista de datos, quien realiza los pasos de despliegue. Sin
embargo, incluso si el analista no carga con el esfuerzo de
despliegue, es importante que el cliente entienda que acciones
deben ser llevadas a cabo para hacer uso de los modelos
creados.
58
Herramientas para limpiar datos: contiene
herramientas que puede utilizar para limpiar datos,
automatizar tareas como la creacin de predicciones y
actualizacin de modelos y para crear soluciones de
minera de datos de texto.
59
investigacin, por la comunidad estadstica, siendo adems
muy populares en el campo de la investigacin biomdica,
bioinformtica y las matemticas financieras.
R proporciona un amplio abanico de herramientas estadsticas
(modelos lineales y no lineales, test estadsticos, anlisis de
seriales temporales, algoritmos de clasificacin y agrupamiento,
etc.).
G. Prediccin
Segn (Bunge, 2001) dice:
El trmino prediccin puede referirse tanto a la accin y al
efecto de predecir como a las palabras que manifiestan
aquello que se predice; en este sentido, predecir algo es
anunciar por revelacin, ciencia o conjetura algo que ha de
suceder.
La prediccin constituye una de las esencias claves de
la ciencia, de una teora cientfica o de un modelo cientfico. As,
el xito se mide por el xito o acierto que tengan sus
predicciones.
60
probablemente ser rechazada. Las teoras que generan
muchas predicciones que resultan de gran valor (tanto por su
inters cientfico como por sus aplicaciones) se confirman o se
falsean fcilmente y, en muchos campos cientficos, las ms
deseables son aqullas que, con nmero bajo de principios
bsicos, predicen un gran nmero de sucesos.
H. Tcnicas de prediccin con minera de datos
61
buscar los grupos de individuos ms parecidos entre s,
segn una serie de variables mesuradas.
A. Almacn de datos
Es una coleccin de datos orientada a un determinado
mbito (empresa, organizacin, etc.), integrado, no voltil
y variable en el tiempo, que ayuda a la toma de
decisiones en la entidad en la que se utiliza. (Kimball,
1998).
C. rbol de decisin
Estructura en forma de rbol que representa un conjunto
de decisiones. Estas decisiones generan reglas para la
clasificacin de un conjunto de datos. (Asencios, 2004)
D. Mtodo
Modo ordenado y sistemtico de proceder para lograr un
fin / conjunto de reglas. (Getoor & Ben, 2007)
E. Metodologa
Conjunto de mtodos que se siguen en una disciplina
cientfica / ciencia del mtodo y de la sistematizacin
cientfica. (Grudnitsky, 1992)
62
F. Minera de datos
Descubrimiento de relaciones en grandes conjuntos de
datos. Conjunto de tcnicas aplicadas al proceso de
extraccin y presentacin de conocimiento que yace
implcito en grandes conjuntos de datos, que es
desconocido y til en trminos de negocios, y que permite
predecir en forma automatizada el comportamiento de los
clientes. (Valcrcel Asencios, 2004)
G. Modelo predictivo
Estructura y proceso para predecir valores de variables
especificadas en un conjunto de datos (Lezcano, 2010)
H. Tcnicas de Prediccin
Mtodos que tienen por finalidad obtener estimaciones o
pronsticos de valores futuros de una serie temporal a
partir de la informacin histrica contenida en la serie
observada hasta el momento actual. (Getoor & Ben, 2007)
I. Prediccin de ventas
Se llama previsin de ventas al clculo que hace el
departamento comercial de una compaa del volumen de
ventas que realizar el ao prximo. La realizacin de una
correcta previsin de ventas es vital para una empresa
pues de ella se deriva el presupuesto de ingresos y de
gastos y por consiguiente, las previsiones de fabricacin,
aprovisionamiento, logstica, recursos humanos.
(Schaefer, 2012).
63
CAPITULO III
MARCO
METODOLGICO
64
CAPTULO III: MARCO METODOLGICO
3.2.1 Poblacin
65
Tabla 1: Ventas - Ao 2011
AO MES COMPROBANTES
EMITIDOS
2011 AGOSTO 287
SEPTIEMBRE 991
OCTUBRE 983
NOVIEMBRE 841
DICIEMBRE 2012
TOTAL 5114
AO MES COMPROBANTES
EMITIDOS
2012 ENERO 1162
FEBRERO 1270
MARZO 1491
ABRIL 1114
MAYO 1120
JUNIO 1249
JULIO 1273
AGOSTO 1287
SEPTIEMBRE 1166
OCTUBRE 1121
NOVIEMBRE 1003
DICIEMBRE 2007
TOTAL 15263
66
Tabla 3: Ventas - Ao 2013
AO MES COMPROBANTES
EMITIDOS
2013 ENERO 1613
FEBRERO 1396
MARZO 1273
ABRIL 1075
MAYO 1383
JUNIO 1339
JULIO 1537
AGOSTO 1242
SEPTIEMBRE 1148
OCTUBRE 1214
NOVIEMBRE 1311
DICIEMBRE 2404
TOTAL 16935
AO MES COMPROBANTES
EMITIDOS
2014 ENERO 1612
FEBRERO 1550
MARZO 1755
ABRIL 1227
MAYO 1368
JUNIO 1298
TOTAL 8810
67
3.2.2 Muestra
3.3. Hiptesis
Prediccin de ventas
68
3.5. Operacionalizacin
Tiempo de
procesamiento
Tcnicas de Tiempo T1 / T2
del modelo
Minera de
Datos Nmero de
puntos mnimos
Datos MP1 / MP2
para el
procesamiento
de estimaciones
Tiempo para
Tiempo generar
TP
estimacin
(Sistema)
= 100 ( )
Prediccin de
ventas 100)
Confiabilidad de
los pronsticos PCPV: Porcentaje de
generados
Grado de confiabilidad de prediccin de
confiabilidad (Mide la
Ventas.
confiabilidad del
modelo con
MP: Monto pronosticado
respecto a las
predicciones
realizadas) MR: Monto real
N: Nmero de observaciones
Fuente: Elaboracin Propia
69
3.6. Mtodos, tcnicas e instrumentos de recoleccin de datos
3.6.1 Mtodos:
3.7.1 Observacin
70
3.8.2 Uso de grficos estadsticos, para evaluar resultados
de las tcnicas de minera de datos.
71
3.11. Evaluacin econmica del software
ANLISIS PRELIMINAR
DEFINICIN DE REQUERIMIENTOS:
Donde:
RS = 6
F = Funciones de Sistema:
F = 280 RS
MF = Miles de Funciones
F
MF =
1000
1680
MF =
1000
= .
72
ESF = Esfuerzo.
ESF = 2.4(MF)1.05
ESF = 2.4(1.68)1.05
= .
TDES = 2.5(ESF)0.38
TDES = 2.5(4.13795714)0.38
= .
CH = ESF/TDES
4.13795714
CH =
4.29
CH = 0.9645
CHM = 1 2400
CD = Costo de Desarrollo
CD = ESF CHM
CD = 4.138 2400
= S/. 9,931.20
73
Por las caractersticas del proyecto, los siguientes indicadores son:
Pequeo
Indicadores Modo
2 MF
Esfuerzo 5.00
Productividad 400.00
Orgnico
Tiempo de Desarrollo 4.60
Personal 1.10
Fuente: Elaboracin propia
74
CAPITULO IV
ANLISIS E
INTERPRETACIN DE
LOS RESULTADOS
75
CAPTULO IV: ANLISIS E INTERPRETACIN DE LOS DATOS
= 100 ( 100)
Consolidado
Meses HoltWinters Holt ETS
Venta Real
Evaluados (Soles) (Soles) (Soles)
(Soles)
ene-14 S/. 164.891,50 S/. 203.112,45 S/. 252.664,36 S/. 207.161,92
feb-14 S/. 194.987,90 S/. 217.362,01 S/. 222.369,47 S/. 205.319,15
mar-14 S/. 211.407,09 S/. 198.673,48 S/. 209.334,76 S/. 206.194,54
abr-14 S/. 164.574,00 S/. 200.435,65 S/. 171.514,71 S/. 186.049,64
may-14 S/. 200.738,60 S/. 229.804,80 S/. 172.390,20 S/. 186.415,82
jun-14 S/. 193.210,80 S/. 225.109,57 S/. 174.608,26 S/. 186.763,31
76
En la Tabla N 08 se muestra los resultados obtenidos del pronstico
S/. 250.000,00
Ventas
S/. 200.000,00
S/. 150.000,00
S/. 100.000,00
S/. 50.000,00
S/. 0,00
dic.-13 ene.-14 ene.-14 feb.-14 mar.-14 mar.-14 abr.-14 may.-14 may.-14 jun.-14
Meses evaluados
Consolidado Venta Real HoltWinters Holt ETS Lineal (Consolidado Venta Real
(Soles) (Soles) (Soles) (Soles) (Soles))
77
Tabla 9: Resultados obtenidos con la frmula aplicada
Meses
HoltWinters Holt ETS
Evaluados
ene-14 23,18 53,23 25,64
feb-14 11,47 14,04 5,30
mar-14 6,02 0,98 2,47
abr-14 21,79 4,22 13,05
may-14 14,48 14,12 7,14
jun-14 16,51 9,63 3,34
Total 15,58 16,04 9,49
Fuente: Elaboracin Propia
Grado de
Confianza HW= 84,42 % Holt= 83,96 % ETS=90,51 %
78
Tabla 10: Tiempo de Procesamiento entre HoltWinters, Holt y ETS
30,00
20,00
10,00
0,00
0 200 400 600 800 1000 1200
Iteraciones
79
Grfico 3: Tiempo Promedio entre HoltWinters, Holt y ETS
20
Tiempo en Segundos
15
10
0
Holtwinters Holt ETS
Mtodos
1 2 / 3
80
Tabla 11: Nmero de Meses Mnimos para el Procesamiento
de Estimaciones para HoltWinters, Holt y ETS
Escenario
HoltWinters Holt ETS
Nmero de
(Estado) (Estado) (Estado)
meses
35 1 1 1
34 1 1 1
33 1 1 1
32 1 1 1
31 1 1 1
30 1 1 1
29 1 1 1
28 1 1 1
27 1 1 1
26 1 1 1
25 1 1 1
24 1 0 0
Fuente: Elaboracin Propia
2
Estado
1
0
35 34 33 32 31 30 29 28 27 26 25 24
Escenarios: Nmero de Mess
HoltWinters Holt ETS
81
D. Tiempo para generar estimacin en el sistema
40
20
0
1 2 3 4 5 6 7 8 9 10
Escenarios evaluados
82
4.2. Contrastacin de la hiptesis.
83
lo que significa que en esta comparacin ETS es el que
mayor grado de confianza obtuvo.
84
CAPITULO V
DESARROLLO DE LA
PROPUESTA
85
CAPITULO V: DESARROLLO DE LA PROPUESTA
5.1. Generalidades
Es una solucin informtica que pretende validar certeramente la
estimacin de ventas de la empresa Astro S.A.C., a partir del
descubrimiento de patrones de ventas de cada cliente, los cuales
sern analizados aplicando para ello Minera de Datos.
Esta tesis adems plantea un anlisis descriptivo comparativo, de
las tcnicas a utilizar en la creacin del modelo predictivo,
analizando en primer orden el problema y las variables que se
consideran de ingreso y como estas tcnicas se utilizarn, adems
de evaluar los resultados de las mismas.
86
Grado de Confianza: Con la comparacin de los modelos
predictivos se obtendrn los resultados especficos y se estimar
el margen de error mnimo con las predicciones arrojadas, se
escoger el mejor modelo que brinde mejores resultados.
87
5.2. Metodologa de desarrollo
88
Tabla 13: Comparacin de Metodologas de Desarrollo de Modelo de Minera
de Datos
Procesos de Inteligencia de 2 0
Negocios
Tcnicas de ETL 2 2
usuario
Total 10 4
89
Figura 12: Metodologa de Trabajo
Metodologa de Trabajo
Etapa I - Metodologia Crisp DM para el Etapa II - Metodologia XP para el
Modelo de Minera de datos (80 % de desarrollo de la aplicacin web (20 %
objetivo) objetivo)
Herramientas Herramientas
R project PHP - JS - HTML5 - CSS
SQL Server SQL Server
90
1. Etapa I Diseo del modelo de Minera de datos
PERIODO VENTAS
b. Necesidades y Expectativas
91
c. Objetivos de Negocio
d. Criterios de xito
e. Evaluacin de la situacin
f. Requerimientos
92
g. Restricciones
g.1 Se requiere la base de datos de todas las ventas desde
hace 5 aos de antigedad como mnimo para los procesos
de entrenamiento y testeo del modelo.
93
Figura 13 : Series de Tiempo
Estacionalidad
Series de
tiempo
Variaciones
Tendencia
irregulares
a. Proceso de Adquisicin
94
proceso de entrenamiento del modelo creado con el software R-
Project.
d. Exploracin de Datos
La construccin del modelo de prediccin se desarrolla con
informacin obtenida desde el ao 2011 hasta el ao 2014.
Estos datos son los que ingresan en una pequea base de datos
obtenida por la migracin de datos en repositorios ofimticos a la
base de datos en el gestor SQL Server 2014 para que realice el
entrenamiento del modelo; de los cuales se utiliza el 70% para el
entrenamiento y el 30% para las pruebas de predicciones.
95
Figura 15: Entidades Ventas - DetalleVenta
Aos / Ene Feb Mar Abr May Jun Jul Ago Set Oct Nov Dic
Meses
2011 - - - - - - - 290 290 290 290 290
2012 290 290 290 290 290 290 230 309 221 272 269 346
2013 300 269 310 285 306 303 295 295 298 296 298 297
2014 296 296 149 288 290 277
96
C. Preparacin de los datos
c.1 Datos Seleccionados
De la base de datos obtenida, se obtienen diferentes tipos de
informacin con respecto a la venta de artculos deportivos, lo
cual son datos relevantes, para ello, se ha realizado un anlisis
de la data con los atributos a utilizar para el correcto
funcionamiento del modelo. Debe considerarse adems que se
ha analizado y utilizado los campos Anulada, para el proceso de
limpieza de datos.
97
muestra en la siguiente imagen. En esta fase preparamos los
datos para tener la forma:
Aos / Meses Ene Feb Mar Abr May Jun Jul Ago Set Oct Nov Dic
2011 - - - - - - - 290 290 290 290 290
2012 290 290 290 290 290 290 230 309 221 272 269 346
2013 300 269 310 285 306 303 295 295 298 296 298 297
2014 296 296 149 288 290 277
D. Modelado
Tabla 17: Evaluacin de las tcnicas de minera de datos
98
En este caso se propone construir un modelo de minera de datos de
pronsticos usando series de tiempo, por lo que se evaluarn las
siguientes tcnicas usadas en este rubro:
Modelo parametrizado SI SI SI SI
Datos estacionales SI SI SI SI
Mtodo estadstico SI SI SI SI
Capacidad iterativa NO NO NO NO
(Aprendizaje)
Cantidad de datos de la 24 25 25 80
serie
99
Se ha considerado usar HoltWinters, Holt y ETS por requerir un
nmero adecuado de meses, con la que se dispone en el histrico
de ventas, sin embargo para este caso debido a la cantidad de
datos se cuenta no es factible emplear el algoritmo ARIMA.
100
MTODO HOLTWINTERS
101
Donde:
Es la observacin en el periodo t.
Es el nivel medio desestacionalizado de la serie en el
periodo t.
Es la tendencia de la serie en el periodo t, es decir
incremento o decremento del nivel medio
desestacionalizado durante un periodo.
Es el componente estacional en el periodo t
Pronstico para el periodo t+k basado en datos
hasta t
( ) Son los parmetros de
suavizado, asociados con el nivel medio, la tendencia y la
estacionalidad respectivamente, siendo el nmero de
periodos que componen el ciclo estacional.
102
6. Los valores de los parmetros anteriormente descritos,
pueden ser asignados manualmente por el investigador
(ver columnas Dt, Ft, bt, It-p, It de anexo N 2)
103
El algoritmo inicial ser el de Holtwinters, esta es una tcnica
usada en pronsticos en negocios, da importancia a los meses
recientes, para el estudio la frecuencia de distribucin ser de 12
(Equivalente a los 12 meses de cada ao, como se determin la
matriz de ingreso en la preparacin de los datos).
104
En el grfico N 8 Se observa la representacin del histrico
real (color negro) y el entrenamiento generado por el modelo
(lnea roja), siendo que mientras la lnea roja tienda a
aproximarse a la real, el pronstico que genere este
aprendizaje tendr mayor confiabilidad.
105
En el grfico N 9, podemos observar valores de
entrenamiento nivel, tendencia y estacionalidad.
106
rango esperado, en el grafico N 11, se aplica el
entrenamiento para sacar pronstico de los prximos tres
meses.
107
1.
108
Grfico 12: Script del algoritmo Holt
109
Grfico 14: Valores de entrenamiento vs Valor Real usando Holt
110
En el grafico N 16, se muestra los coeficientes con los que trabaja
Holt.
111
procedimiento fcil de aprender y fcil de aplicar para el clculo
aproximado o recordar algn valor, o para hacer alguna
determinacin sobre la base de suposiciones previas por parte del
usuario, tales como la estacionalidad.
112
Para esta investigacin se usa el algoritmo suavizamiento
exponencial simple aditivo, con el siguiente cdigo:
113
En el grfico N 20 se puede apreciar la descomposicin estacional
que realiza el algoritmo ETS para el entrenamiento de la serie.
114
En el grafico N 22, se aplica el entrenamiento para obtener el
pronstico de los prximos tres meses
E. Evaluacin
e.1 Evaluar los resultados
e.2 Objetivos Criterios de Evaluacin del Negocio
e.2.1 Analizar tendencias de ventas:
El modelo permite generar grficos de series donde se
puede apreciar la tendencia de la variable ventas en los
aos y meses que se han pronosticado.
115
e.3 Objetivos - Criterios de Evaluacin del Proyecto
e.3.1 Se ha generado un modelo de series de tiempo, que
permite realizar pronsticos futuros a 3 saltos siguientes.
116
Datos Generados, simulacin entre datos histricos y estimaciones
realizadas con ambos algoritmos
1. CONSULTAR Y GENERAR
REPORTES DE ACTIVIDAD ALTA 3
MENSUAL Y ANUAL
2. GENERAR PROYECCIONES Y
ESTIMACIONES. ALTA 3
3. GESTION DE USUARIOS.
MEDIA 2
4. GESTION DE REPORTES
MEDIA 2
117
de usuario, que hacen referencia al tratamiento de los datos, dejando
de lado en menor grado a las siguientes historias como la gestin de
usuarios o la de reportes. Por lo que es necesario al finalizar la primera
iteracin que los entregables cuenten con un avance satisfactorio para
el cliente ofreciendo un producto funcional.
ACTIVIDADES TIEMPO
I1 I1 I1 I1 I1 I1 I1 I1 I1 I
HISTORIA DE
USUARIO 1
I1 I1 I1 I1 I1 I1 I1 I1 I1
HISTORIA DE
USUARIO 2
I1 I4
HISTORIA DE
USUARIO 3
I1 I4
HISTORIA DE
USUARIO 4
118
a.3 Historia de usuario detallado
Historia de Usuario
Entrevistado:
Descripcin:
El Jefe de departamento podr acceder al mdulo de monitoreo de
informacin anual.
Observaciones:
Descripcin:
El Gerente y jefe de departamento podrn acceder al mdulo de
proyecciones y estimaciones donde podrn simular con los datos cualquier
escenario posible que le permita el sistema de anlisis, puede visualizar el
modelo por defecto o generar nuevos valores a partir de simulaciones.
Observaciones:
119
Tabla 23: Requerimiento 03
Historia de Usuario
Entrevistado:
Descripcin:
El sistema contar con 2 niveles de usuario: Administrador y Operarios.
Cada uno de ellos tendr restricciones en el sistema.
Administrador: Acceso a todos los mdulos del sistema.
Operarios: Acceso a la visualizacin de reportes del modelo, que son los
resultados de las predicciones.
El sistema debe permitir, visualizar y estructurar nuevos reportes.
Observaciones:
Descripcin:
El administrador de sistema tiene potestad de dar de alta, edicin o baja
a los reportes del portal y establecer los permisos segn negocio donde
sean dirigidos.
Observaciones:
120
a.4 Requerimientos no funcionales
121
B. FASE II: Diseo
122
Con lo cual se obtuvo las siguientes interfaces.
123
Grfico 26: Resultados del modelo
124
CAPITULO VI
CONCLUSIONES Y
RECOMENDACIONES
125
CAPITULO VI: CONCLUSIONES Y RECOMENDACIONES
6.1. Conclusiones
126
el 83,96 % de grado de confianza de Holt y el 90,51% de
grado de confianza de ETS lo que significa que en esta
comparacin ETS es el que mayor grado de confianza
obtuvo.
En el tiempo de procesamiento al evaluar estas tcnicas se
obtuvo que con el mtodo Holt el tiempo promedio de
ejecucin es de 2.23 segundos siendo superior a diferencia
de HoltWinters, que tiene 7,01 segundos y ETS con 22,33
segundos.
127
6.2. Recomendaciones
128
BIBLIOGRAFA
129
BIBLIOGRAFA
Coghlan, A. (2015). A Little Book of R for Times Series. Cambrigde: Trust Sanger
Institute, Cambridge, U.K. .
E.Kendall, K., & Kendall, J. E. (2005). Anlisis y diseo de sistemas. Mxico: PEARSON
EDUCACIN.
Garca Bermdez, J. A., & Acevedo Ramrez, . M. (2010). Anlisis para Prediccin de
ventas utilizando minera de datos en Almacenes de grandes superficie.
Pereira: Universidad Tecnologica de Pereira.
130
Grudnitsky, B. J. (1992). Diseo de sistemas de informacin. Teora y Prctica.
Mxico: Megabyte Grupo Noriega.
Hyndman, R., & Athanasopoulos, G. (2015). Texts Online, Open - Access Textbooks.
Obtenido de Texts Online, Open - Access Textbooks: https://www.otexts.org/
Ma, N. (2013). Neural network algorithm based method for stock price trend
prediction. Beijing, China: Asian Network for Scientific Information.
Molina Lpez, J. M., & Garca Herrero, J. (2006). Tcnicas de Minera de Datos
basadas en Aprendizaje Automtico. Tcnicas de Anlisis de datos.
Universidad Carlos III de Madrid.
Nojek, S., Britos, P., Rossi, B., & Garca, M. R. (2008). Prnostico de Ventas:
Comparacin de Prediccin basada en Redes Neuronales versus Mtodo
Estadstico. Reportes Tcnicos en Ingenieria del Software, 1-12.
131
Perversi, I. (2007). Aplicacin de Minera de Datos para la Explotacin y Deteccin de
Patrones Delictivos en Argentina. XIII Congreso Argentino de Ciencias de la
Computacin.
Rowley. (1994). The Basics of Systems Anlisis and Design for Information Managers.
Londres: Clive Bingley.
Siccha Vega, H. W. (2012). Minera de Datos aplicados a las ventas con Tarjeta de
Crdito realizados en las tiendas Saga Falabella. Lima, Lima, Per:
Universidad Tecnolgica del Per.
Vallejo P., D., & Tenelanda V., G. (2012). Minera de datos aplicada en deteccin de
intrusos. Medelln: USBMed Vol. 3, N 1.
132
ANEXOS
ANEXOS
133