Documento - Base Trabajo de Grado

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 60

MEJORAMIENTO DE PROCESOS ANALITICOS TENIENDO COMO PRINCIPAL

ACTIVO LA INFORMACION UTILIZANDO TECNICAS DE CARGA,


EXTRACCION Y TRANSFORMACION DE LOS DATOS PARA ENTIDADES
FINANCIERAS

SEBASTIAN CAMILO ROCHA GRANADOS

PROGRAMA DE INGENIERÍA DE SISTEMAS


FACULTAD DE INGENIERÍA
UNIVERSIDAD CATÓLICA DE COLOMBIA
BOGOTÁ, MAYO
2021
MEJORAMIENTO DE PROCESOS ANALITICOS TENIENDO COMO PRINCIPAL
ACTIVO LA INFORMACION UTILIZANDO TECNICAS DE CARGA, EXTRACCION
Y TRANSFORMACION DE LOS DATOS PARA ENTIDADES FINANCIERAS

Sebastián Camilo Rocha Granados

Trabajo de Grado para optar al título de


INGENIERO DE SISTEMAS

PROGRAMA DE INGENIERÍA DE SISTEMAS


FACULTAD DE INGENIERÍA
UNIVERSIDAD CATÓLICA DE COLOMBIA
BOGOTÁ, mayo
2021
1
2
TABLA DE CONTENIDO

TABLA DE CONTENIDO
1. INTRODUCCIÓN ............................................................................................ 10
2. JUSTIFICACIÓN ............................................................................................. 12
3. PLANTEAMIENTO DEL PROBLEMA ............................................................. 13
4. OBJETIVOS.................................................................................................... 14
4.1 OBJETIVO GENERAL .............................................................................14
4.2 OBJETIVOS ESPECÍFICOS ....................................................................14
5. MARCOS DE REFERENCIA .......................................................................... 15
5.1 MARCO CONCEPTUAL ..........................................................................15
5.2 MARCO TEÓRICO...................................................................................23
6. ESTADO DEL ARTE....................................................................................... 29
7. METODOLOGÍA ............................................................................................. 33
7.1 METODOLOGÍA PROPUESTA................................................................33
7.2 TIPO DE INVESTIGACION ........................ Error! Bookmark not defined.
7.3 NIVEL DE INVESTIGACION ...................... Error! Bookmark not defined.
7.4 TECNICAS E INSTRUMENTOS ..............................................................34
7.5 SPRINT BACKLOG ..................................................................................35
7.6 RESULTADOS .........................................................................................36
8. ESPECIFICACIÓN ......................................................................................... 39
9. DISEÑO .......................................................................................................... 45
10. DESCRIPCIÓN............................................................................................ 52
11. CONCLUSIONES ........................................................................................ 55
12. BIBLIOGRAFÍA............................................................................................ 56

4
INDICE DE FIGURAS

Ilustración 1.Etapas de TDQM ............................................................................................. 26


Ilustración 2. Modelo CRISP-DP ......................................................................................... 26
Ilustración 3. Metodología de Inmon .................................... Error! Bookmark not defined.
Ilustración 4. Arquitectura de un Data Warehouse ............... Error! Bookmark not defined.
Ilustración 5. Modelo Gestión de Negocio ........................................................................... 31
Ilustración 6. Modelo Procesos ............................................ Error! Bookmark not defined.
Ilustración 7. Esquema General ............................................................................................ 45
Ilustración 8. Hitos Procesos ................................................ Error! Bookmark not defined.
Ilustración 9. General ETL ................................................... Error! Bookmark not defined.
Ilustración 10. Análisis A ..................................................... Error! Bookmark not defined.
Ilustración 11. ETL ESTRATEGICAS 1 ............................. Error! Bookmark not defined.
Ilustración 12. ETL ESTRATEGICAS 2 ............................ Error! Bookmark not defined.
Ilustración 13. ETL ESTRATEGICAS 3 ............................. Error! Bookmark not defined.
Ilustración 14. ETL ESTRATEGICAS 4 ............................. Error! Bookmark not defined.
Ilustración 15.Script .............................................................. Error! Bookmark not defined.
Ilustración 16. Tablero de Control ........................................ Error! Bookmark not defined.
Ilustración 17. Reporte Aliados ............................................ Error! Bookmark not defined.
Ilustración 18. Registro Procesos ......................................... Error! Bookmark not defined.
Ilustración 19. ETL Periódicas 1 .......................................... Error! Bookmark not defined.
Ilustración 20. ETL Periódicas 2 .......................................... Error! Bookmark not defined.
Ilustración 21. SFTP Validación........................................... Error! Bookmark not defined.
Ilustración 22. SFTP Validación 2 ........................................ Error! Bookmark not defined.
Ilustración 23. Análisis ......................................................... Error! Bookmark not defined.

5
INDICE DE TABLAS

Tabla 1. Ejemplos de PI's ..................................................................................................... 24


Tabla 2. Modelo De DQ ISO/IEC 25012 ............................................................................. 25

6
AGRADECIMIENTOS

Ya culmina una etapa en la cual obtuve muy valiosos conocimientos y habilidades


que me ayudaran a desenvolverme en el mundo laboral con las suficientes
fortalezas para enfrentar nuevos retos.

Por tal motivo agradezco a la Universidad Católica de Colombia, gran institución


que me dio la oportunidad de adquirir conocimientos, que me permitieron desarrollar
este proyecto de título.

Así mismo, agradecer a los profesores que me brindaron su sabiduría en varios


campos del conocimiento, en especial a mi profesor guía en este proyecto Sr.
Leonel José Paredes Madrid y a todos los decentes quienes me entregaron de su
valioso tiempo y apoyo en la confección de mi memoria de título.

Agradezco principalmente a mi padre Carlos Rocha y a mi madre Gloria Granados,


por su apoyo incondicional durante las etapas de mi vida y por su motivación en los
momentos más duros. También a mi familia por su constante presencia en este
periodo.

7
NOTA DE ACEPTACIÓN

Jurado

Jurado

Leonel José Paredes Madrid


Asesor

Bogotá, mayo 17 del 2021

8
GLOSARIO

 Big data: Grandes volúmenes de datos


 ETL: Extracción, transformación y carga
 Data Warehouse: Bodega de datos
 Business Intelligence: Inteligencia de negocio
 Data Mining: Minería de datos
 Database: Base de datos o colección de datos organizados
 DataMart: Pequeño deposito de base de datos que se enfoca en un tema en
especifico
 Visualización de datos: son los métodos que se utilizan para incorporar los
datos de forma visual
 Métrica: Medidas de rendimiento

9
RESUMEN

La ciencia de datos se basa en procesos y técnicas para comprender fenómenos a


través del análisis de datos, de esta manera y en base a estas herramientas la idea
de este estudio es mejorar las decisiones, ya que esto generalmente es de gran
interés para las empresas. Este análisis de los datos se realiza para la toma de
decisiones basada en datos (Data-Driven decision Making), que se refiere a la
práctica de basar las decisiones en el análisis de datos.
Los beneficios de la toma de decisiones basada en datos se han demostrado de
manera concluyente. (Feedback, 2014) El economista Erik Brynjolfsson y sus
colegas del MIT y la Penn & Wharton School realizaron recientemente un estudio
sobre como el DDD afecta el rendimiento de la empresa. En este libro se desarrolla
una medida que califica a las empresas según la intensidad con la que utilizan los
datos para tomar decisiones en todas las áreas de la empresa. Muestran
estadísticamente que cuanto más impulsada por los datos es una empresa, más
productiva es. Y las diferencias no son pequeñas, ya que también se ve beneficiado
el rendimiento, utilización y valor de los activos, el rendimiento del capital.
Actualmente, Business Intelligence ha modificado de forma organizacional las
compañías, mejorando la repartición de roles y apoyando el surgimiento de la
economía de datos. Sin las herramientas y sus capacidades de análisis y
representación gráfica, sería imposible tomar decisiones cotidianas, basadas en los
datos.
Por medio de estas herramientas es posible tener un control total de la información.
Lo que permite un mayor conocimiento de la propia empresa y así mejorar en la
toma de decisiones. La importancia de Business Intelligence en una empresa a la
hora de implementarlo, nos da a conocer las múltiples ventajas que posee, como el
ahorro de costos y tiempo, incrementando la productividad y la eficiencia. Además,
BI ofrece nuevas oportunidades de negocio, basándose en análisis de datos que
permiten descubrir nuevas vías de negocio, de esta manera facilita la visualización
de los datos, por medio de informes.

Palabras Claves: Ciencia de datos, Decisiones de datos, Inteligencia de negocios,


análisis de datos, Información
.

10
ABSTRACT

Data science is based on processes and techniques to understand phenomena


through data analysis, in this way and based on these tools the idea of this study is
to improve decisions, since this is generally of great interest to companies. This data
analysis is performed for data-based decision making (data-based decision making),
which refers to the practice of basing decisions on data analysis.
The benefits of data-based decision-making have been conclusively determined.
(Feedback, 2014) Economist Erik Brynjolfsson and his colleagues at MIT and the
Penn Wharton School recently succeeded in a study on how DDD affects the
company's performance. This book develops a measure that qualifies companies
according to the intensity with which they use the data to make decisions in all areas
of the company. Statistically shows what more data driven a company is, the more
productive it is. And the differences are not small, since the performance, utilization
and value of the assets, the return on capital is also benefited.
Currently, Business Intelligence has organizationally modified companies, improving
the distribution of roles and supporting the emergence of the data economy. Without
the tools and their analysis and graphic representation capabilities, it would be
impossible to make daily, data-based decisions.
Through these tools it is possible to have total control of the information. This allows
a greater knowledge of the company itself and thus improve decision making. The
importance of Business Intelligence in a company when implementing it, reveals the
multiple advantages it has, such as saving costs and time, increasing productivity
and efficiency. In addition, BI offers new business opportunities, access to data
analysis that allows discovering new business paths, thus facilitating the selection of
data, through reports.

Keywords: Data science, data decisions, Business Intelligence, Data analysis,


Information

11
1. INTRODUCCIÓN

La toma de decisiones basada en datos está generando un gran revuelo en el


mundo de los negocios, pero, por supuesto, el éxito de la toma de decisiones
basada en datos depende de la calidad de los datos recopilados y de los métodos
utilizados para analizarlos. La toma de decisiones basada en datos es muy
cuantitativa. Este enfoque posee muchos nombres, incluidos big data, análisis de
datos, inteligencia empresarial, análisis de diagnóstico, análisis de datos y
procesamiento analítico en línea.
La creencia de este enfoque se centra en que mejores datos, toman mejores
decisiones. Sin datos, las personas corren un riesgo mucho mayor de ser
influenciadas por prejuicios o actuar sobre suposiciones falsas.
Con DDDM (Data Driven Decision Making – Toma de decisiones basada en datos)
las organizaciones se vuelven más ágiles, detectan nuevas oportunidades de
negocio antes y responden a los cambios del mercado rápidamente. Con la
recopilación de datos casi en tiempo real, los gerentes pueden medir rápidamente
los resultados y crear un ciclo de retroalimentación rápido. Estas capacidades hacen
que las empresas basadas en datos estén excepcionalmente centradas en el cliente
y sean más competitivas.
De esta manera, las empresas evidencian mayor transparencia y responsabilidad,
y este enfoque puede mejorar el trabajo en equipo y la participación del personal,
impulsando a la organización de manera positiva porque los datos objetivos
respaldan las decisiones administrativas.
En las organizaciones la gestión del cambio está cada vez más impulsada por los
datos, y los análisis que utilizan este conjunto de datos complejos están jugando un
papel importante en la gestión eficaz del cambio organizacional. Este fenómeno
cada vez es más evidente a medida que los grandes datos facilitan procesos de
mejora continua en los que las empresas implementan cambios incrementales,
monitorean las métricas clave y luego realizan más ajustes basados en los
hallazgos. DDDM depende menos de la experiencia de en unos pocos líderes clave
y ofrece una toma de decisiones de mayor calidad basada en hechos, una mayor
capacidad para escalar cambios, agilidad en el modelado de escenarios de cambio
y el potencial para una implementación rápida.
DDDM puede funcionar para una organización de cualquier tamaño, desde gigantes
multinacionales hasta empresas familiares, siempre que exista un compromiso con
los principios del método. Las grandes compañías tecnológicas han sido pioneras y
perfeccionaron DDDM. Estas empresas poseen una combinación única de mentes
analíticas, experiencia técnica y cultura abierta que favorecen la toma de decisiones
basada en datos. Algunas empresas como Facebook, Netflix, Amazon o Google
utilizan DDDM para permitir a la empresa ser mucho más ágil y receptiva a los
cambios del mercado y al desarrollo de productos. En el caso de Netflix, la compañía
utilizo análisis de datos para crear una imagen muy detallada de los gustos de los
consumidores en los videos. Luego, invirtieron en el desarrollo de contenido que
marcaba las casillas de preferencia del espectador. Los algoritmos de marketing
12
internos de la plataforma permiten que el contenido tenga un ciclo de vida continuo
y llegue a nuevos espectadores a lo largo del tiempo, en lugar de tratar de llegar a
la mayor cantidad posible en el primer fin de semana como lo deben hacer los
estrenos tradicionales de taquilla.
A pesar de estas historias de éxito, el potencial para la toma de decisiones basada
en datos para tener un mayor impacto positivo sigue siendo grande para muchas
empresas. Aproximadamente seis de cada diez empresas dijeron que sus empresas
toman la mayoría de sus decisiones en función de su intuición y experiencia, en
lugar de datos e información. El 40 por ciento de las mejores empresas de su clase
toman decisiones basadas en la intuición o la experiencia mientras que, entre los
rezagados, la cifra aumenta al 70 por ciento. (Agarwal, 2019)
El siguiente trabajo tiene como objetivo principal comprender, analizar, estudiar y
aplicar los conceptos relacionados con bases de datos, análisis de datos y creación
de tableros de reporte.

13
2. JUSTIFICACIÓN

El trabajo investigativo es la oportunidad para aprender a gestionar los


conceptos aprendidos en la carrera universitaria en una compañía, además de
aplicar lo aprendido en un entorno real.
Además, se creará conciencia de las tareas en las que resulta más cómodo
trabajar, de esta manera se observa cómo va cambiando el rol en el equipo y la
relación con los compañeros según se vaya adquiriendo más experiencia y se
notara la evolución desde el inicio hasta el final del periodo de las prácticas
empresariales.
Con el trabajo que se realizará en este trabajo investigativo, se pretende
encontrar un ambiente, el cual fortalezca aspectos profesionales y personales,
teniendo como meta colaborar en la gerencia de Business Intelligence, en el
área de estrategias de información. Se desarrollarán competencias de trabajo
en equipo interdisciplinario que son indispensables para suplir la demanda actual
del entorno.
Las entidades financieras buscan fortalecer su área de BI, para esto necesita
monitorear y controlar los procesos que se manejan en el área, de esta manera
se mantiene la integridad de los datos, además, de realizar cambios en los
procesos que mejoren la eficiencia y se mantenga la veracidad de los datos.
Lo que se pretende hacer, por medio de las funciones asignadas, es automatizar,
diseñar, crear y analizar información que facilite la reducción de tiempos de
ejecución de los procesos.

14
3. PLANTEAMIENTO DEL PROBLEMA

Ahora mismo el área de Estrategias de la información se encuentra migrando


información de SQL Server a Oracle, además de migrar los datos (estructura de
tablas y su contenido), migra procedimientos almacenados (Store Procedures),
funciones, triggers, sinónimos y vistas. Para esto es necesario monitorear que todos
los procesos y la información sea verificada, de manera que se conserve la
integridad de los datos en cada paso.
La migración conlleva la creación de tablas o modificación de las existentes,
cambios en algunos tipos de datos que existen en una base de datos, pero no en
otras. En la actualidad, adquirir más capacidad de almacenamiento se ha hecho
mucho más fácil y su precio ha ido disminuyendo considerablemente. Sin embargo,
conforme el tiempo va avanzando la empresa cada vez necesita tener disponibles
volúmenes de datos muy grandes. Paralelamente a este crecimiento de datos debe
ir la escalabilidad y el rendimiento de los servidores y el rendimiento de las
aplicaciones, pues mientras más volúmenes de datos se estén manejando se
degrada el rendimiento.
Estas migraciones se realizarán por medio de ETL’s (Extracción, transformación y
carga), las cuales son las encargadas de extraer información de las bases de datos
fuentes y cargarlas en el Data Warehouse (Base de datos principal de Oracle), de
igual manera se actualiza la información periódicamente. Oracle se destaca por su
nueva arquitectura multinet, que simplifica el proceso de consolidación de bases de
datos en la nube, lo que permite administrar varias bases de datos como una base
de datos contenedor, logrando que las aplicaciones existentes puedan funcionar sin
cambios, ahorrando tiempo y costos. Mediante la consolidación de muchas bases
de datos en menos servidores, el hardware y el personal de operaciones pueden
ser utilizados más eficazmente. La arquitectura multinet ofrece aprovisionamiento
prácticamente instantáneo y clonación de bases de datos, lo que lo convierte en una
plataforma ideal para la base de datos de prueba y desarrollo nubes.

15
4. OBJETIVOS

4.1 OBJETIVO GENERAL


Realizar mejoras de eficiencia en los procesos del manejo de los datos en
entidades financieras empleando técnicas de inteligencia de negocios

4.2 OBJETIVOS ESPECÍFICOS

● Definir herramientas de software para la gestión de la inteligencia de


negocio
● Elaborar diagramas BPMN para la extracción y parametrización de los
procesos
● Realizar el seguimiento de los procesos que actualizan la información del
servidor de bases de datos.
● Implementar y desarrollar tableros de reporte, a partir de la información
suministrada por el servidor de bases de datos.
● Depurar la información a datos estructurados para efectuar el cargue a
los servidores principales

16
5. MARCOS DE REFERENCIA

5.1 MARCO CONCEPTUAL


5.1.1 DataOps (Operaciones de datos): Es una práctica colaborativa de
administración de datos enfocada en mejorar la comunicación, la integración
y la automatización de los flujos de datos entre los administradores y los
consumidores en toda la organización. Al igual que DevOps, DataOps no es
un dogma rígido, sino una práctica basada en cómo se pueden proporcionar
y actualizar los datos para satisfacer la necesidad de los consumidores de
datos de la compañía.
Según el vicepresidente de investigación de Gartner, Nick Heidecker:

Las compañías que usan datos para tomar decisiones tienden a tomar
mejores las empresas que se autodenominan basas en datos fueron 5%
más productivas y 6% más rentables que sus competidores, según
diversas investigaciones, DataOps es una nueva práctica sin estándares
ni frameworks. Actualmente un número creciente de proveedores de
tecnología han comenzado a utilizar el término cuando hablan de sus
ofertas. El bombo está presente y DataOps se moverá rápidamente
hacia arriba. (Pinkel et al., 2015)

DataOps es una nueva forma de administrar datos que promueve la


comunicación e integración de datos, equipos y sistemas. Aprovecha el
cambio de proceso, la realineación organizacional y la tecnología para
facilitar las relaciones entre todos los que manejan los datos, ya sea,
desarrolladores, ingenieros de datos, científicos de datos, analistas y/o
usuarios de negocios. DataOps conecta estrechamente a las personas que
recopilan y preparan los datos, los que analizan los datos y los que utilizan
los hallazgos de esos análisis para un buen uso comercial.

5.1.2 Data Cleaning or Cleansing: Es el acto de descubrimiento y corrección o


eliminación de registros de datos erróneos de una tabla o base de datos. El
proceso de limpieza de datos permite identificar datos incompletos,
incorrectos, inexactos, no pertinentes, etc. Y luego sustituir, modificar o
eliminar estos datos sucios. Después de la limpieza, la base de datos podrá
ser compatible con otras bases de datos similares en el sistema. Los datos,
deben tener exactitud, integridad, entereza, validez, consistencia,
uniformidad, densidad y unicidad. Con estos elementos el dato conserva su
calidad.
El proceso de limpieza de datos se compone por cuatro factores, el primero
denominado auditoría de datos se encarga de revisar los datos para de esta
17
manera poder descubrir anomalías y contradicciones, esto tarde o temprano
da una indicación de las características de las anomalías y sus posiciones.
Después se realiza la definición de Workflow (flujo de trabajo), cuya función
se basa en la detección y el retiro de anomalías, realizadas por una secuencia
de operaciones sobre los datos sabidos como el workflow. Se debe identificar
las causas de las anomalías y errores. Luego de definir el flujo de trabajo, se
debe ejecutar el mismo, en esta etapa el workflow es ejecutado después de
su especificación completa y su corrección es verificada. La implementación
del workflow debería ser eficiente aun sobre los juegos grandes de los datos
que inevitablemente plantean una compensación, porque la ejecución de la
operación limpiadora puede ser cara. Por último, en la etapa llamada Post
Proceso y control tiene como función crear un nuevo ciclo en el proceso de
limpieza de datos en donde los datos son revisados nuevamente para
ajustarse a las especificaciones de un workflow adicional y realizar un
tratamiento automático. (Lomet, 2001)

5.1.3 Database Administrador: Un database administrator (administrador de


base de datos) es el encargado de garantizar que una base de datos este
siempre disponible según sea necesario. dentro de las funciones de un
administrador incluyen velar por la integridad de los datos y la
disponibilidad, garantizar la seguridad de las bases de datos, realizando
copias de seguridad y llevar a cabo la recuperación de desastres. (Lerner &
Nico Habermann, 1990)

Además, se debe establecer una comunicación fluida entre el administrador


de bases de datos y los usuarios, ya que, él es el encargado de proporcionar
el servicio al usuario. DBA identificar qué usuarios tiene acceso a insertar,
actualizar o eliminar datos, y cuando. En la mayoría de las organizaciones, el
número y tamaño de las bases de datos crece rápidamente, es la
responsabilidad de DBA gestionar el creciente volumen de datos y diseñar
los planes apropiados para administrarlos. (Abadal y Codina, 2005)

5.1.4 ETL y ELT: se entiende como el proceso de extracción, transformación y


carga de datos, que es parte del ciclo de vida de una implementación de
business intelligence. los procesos ETL son cruciales en la integración de
datos. el proceso de ETL consiste en la extracción, carga y transformación
de datos, en ese orden de ideas lo que hace este proceso es extraer y cargar
los datos directamente a una base de datos o a una tabla creada
especialmente para alojar los datos temporalmente, por lo que podrá ser
limpiado en cada proceso de carga. cuando la información está contenida en
estas tablas temporales habría que proseguir con la elaboración del proceso
de transformación de los datos, que posteriormente pasará a la base de datos
del data warehouse. si se cree conveniente se pueden limpiar los datos de

18
las tablas temporales, de esta manera el proceso de transformación queda
integrado en el motor de base de datos. (Freudenreich et al., 2013).

Ilustración 3. Metodología de Inmon

Fuente: (Kimball/Inmon, 2012)

5.1.5 Business Intelligence: Bi (Business Intelligence) es un sistema de soporte


a la decisión basado en datos que combina la recopilación, el
almacenamiento de datos y la gestión del conocimiento con análisis para
proporcionar información para el proceso de decisión. E- Business
Intelligence le muestra cómo poner a su empresa al día para la economía de
internet y aprenderá cómo implementar estratégicamente la inteligencia de
negocios electrónicos para reducir significativamente los costos, mejorar
sustancialmente la eficiencia operativa, lograr nuevos y audaces niveles de
lealtad del cliente, forjar alianzas sólidas y mutuamente beneficiosas con
proveedores y distribuidores, expandir radicalmente el alcance y la eficacia
de sus iniciativas de marketing y mucho más. Debido a que todas las
organizaciones operan en un entorno que cambia en el tiempo, se ven
obligadas a adaptarse y ajustarse constantemente. En consecuencia, una
inteligencia empresarial adaptativa debe incluir tres componentes principales:
un componente para hacer predicciones, un componente para hacer
predicciones óptimas sobre las decisiones y un componente para adaptar el
módulo de predicción de cambios en el entorno, estos componentes se deben
preparar y analizar a fondo, desarrollando un modelo de predicción basado
en los resultados de la minería de datos. (Cano, 2007).

5.1.6 Data Lake: Es un repositorio de almacenamiento que contiene una gran


cantidad de datos en bruto y que se mantienen allí hasta que sea necesario.
Se trata de guardar los datos con el objeto de que puedan ser procesados y
utilizados en el momento en que sea necesario. Cada elemento del Data Lake
recibe un identificador y etiquetas de metadatos extendidas, con el fin de que
19
pueda ser identificado y recuperado fácilmente. (Fang, 2015) Así, en el Data
Lake pueden tener cabida muchos tipos de datos distintos, de diversas
fuentes y en diferentes formatos.
Esto exige, por supuesto, que la capacidad de almacenamiento sea enorme.
En resumen, un sistema Data Lake permite retener todos los datos in
procesamiento, dar soporte para todo tipo de perfiles de usuarios, tanto para
modelos empresariales como científicos, de esta manera el acceso a la
información original es más directa y reduce los pasos necesarios para su
procesamiento, con una estructura de datos no definida hasta que los datos
no son necesarios. (Hai, Geisler, & Quix, 2016).

5.1.7 Data Warehouse: la metodología de Kimball (rivadera, 2010), sostiene “un


data warehouse es una base de datos corporativa que se caracteriza por
integrar y depurar información de una o más fuentes distintas, para luego
procesarla permitiendo su análisis desde infinidad de perspectivas y con
grandes velocidades de respuesta. la creación de un data warehouse
representa en la mayoría de las ocasiones el primer paso, desde el punto de
vista técnico, para implantar una solución completa y fiable de business
intelligence”.

Ilustración 4. Arquitectura de un Data Warehouse

Figura 5. Arquitectura de un Data Warehouse


Fuente: (Devlin, Barry/Cote, & Doran, 1997)

En resumen, es un repositorio unificado para todos los datos que recogen


diversos sistemas de una empresa. El repositorio puede ser físico o lógico.
Actualmente los data Warehouse están atravesando por dos
transformaciones muy importantes que tienen el potencial de impulsar niveles
significativos de innovación empresarial: La primera área de transformación
20
es el impulso para aumentar la agilidad general, la gran mayoría de los
departamentos de TI están experimentando un rápido aumento de la
demanda de datos. Esta rápida expansión de los volúmenes y fuentes de
datos significa que los equipos de TI necesitan invertir más tiempo y esfuerzo
asegurando que el rendimiento de las consultas permanezca constante. La
segunda área de transformación gira en torno a la necesidad de mejorar el
control de costes, ya que, las empresas buscan hacer más con cada vez
menos recursos, al mismo tiempo que se garantiza que todos los datos
sensibles y estratégicos estén completamente asegurados, a lo largo de todo
el ciclo de vida, de la manera más rentable. En resumen, una data
Warehouse almacena datos consolidados de diversas fuentes o sistemas de
la empresa, se trata de datos estructurados, que tiene como objetivo principal
ser preciso y de alta calidad para de esta forma poder dar soporte a la toma
de decisiones de la empresa. De esta manera se consigue tener todos los
datos juntos para después poder dividirlos para hacer un análisis de
determinados sectores o estrategias. (Rivadera, 2010).

5.1.8 Bases de datos NoSQL: Estas bases de datos son reconocidas porque son
fáciles de desarrollar, su funcionalidad y el rendimiento a escala. Existen 4
tipos básicos de bases de datos: Clave-valor, permite el escalado horizontal a
escalas que otros tipos de bases de datos, utiliza una clave única y un puntero
a un determinado elemento de datos. Otro tipo de dato es el almacén de
documentos, que se encarga de recolectar los pares de Clave-valor y estos
se comprimen configurando un almacén de documentos en el que los valores
almacenados proporcionan cierta estructura y codificación de datos,
representadas de tipo JSON, de esta manera se convierte en un modelo de
datos eficiente e intuitivo para los desarrolladores. El siguiente es el almacén
de columnas o gráficos, en este caso, los datos se almacenan en celdas
agrupadas en columnas de datos, en lugar de filas de datos. Las columnas se
agrupan de forma lógica en familias de columnas, que puedan contener un
número prácticamente ilimitado de columnas, de esta manera se facilita la
creación y la ejecución de aplicaciones que funcionan con conjuntos de datos
altamente conectado. Por último, la memoria, es una base de datos de red
que utiliza bordes y nodos para representar y almacenar datos. Las
aplicaciones de juegos y tecnología publicitaria tienen casos de uso como
tablas de clasificación, tiendas de sesión y análisis en tiempo real que
requieren tiempos de respuesta de microsegundos y pueden tener grandes
picos de tráfico en cualquier momento, esto para servir cargas de trabajo de
baja latencia y alto rendimiento. (Martín, Chávez, Rodríguez, Valenzuela, &
Murazzo, 2013)

21
5.1.9 SQL Vs NoSQL: La diferencia fundamental entre ambos tipos de bases de
datos radica en que las bases de datos NoSQL no utilizan el modelo racional,
en la mayoría de los casos se debe utilizar NoSQL, por ejemplo, cuando el
presupuesto de la empresa no puede permitir grandes máquinas y debe
destinarse a máquinas de menor rendimiento o cuando las estructuras de
datos que manejamos son variables, o cuando se analizan grandes
cantidades de datos en modo lectura.
Las bases de datos NoSQL son no estructuradas y semiestructuradas, de
tipo documento, el cual usa documentos JSON. Un ejemplo de un software
que soporte las bases de datos NoSQL es MongoDB quien agrupa
documentos JSON en una colección. Es muy importante en que, aunque
parece que lo mejor es migrar a bases de datos NoSQL, debemos tener muy
en cuenta antes de tomar esta decisión si las características de nuestra base
de datos necesitan una base de datos NoSQL o relacional. (Cattell, 2010)

5.1.10 Cloud computing: Proporciona infraestructura informática, servicios,


plataformas y aplicaciones a los usuarios, estos servicios provienen de la
nube. Se resume en un conjunto de principios y enfoques que según
requerimientos o solicitudes de los usuarios puedan acceder a ellos, a través
de los portales de autoservicio a los que dan soporte el escalado automático
y la asignación dinámica de recursos. Para utilizar estas tecnologías se
necesitan sistemas operativos, software de visualización y herramientas de
automatización y gestión.
Cloud computing posee diversas ventajas, que pueden ser muy útiles ya sea
a nivel empresarial o para personas individuales, ya que no se necesita
invertir en grandes infraestructuras ni en licencias. También cuenta con una
gran accesibilidad. Dado que las aplicaciones SaaS se entregan a través de
internet, los usuarios pueden acceder a ellas desde cualquier dispositivo y
lugar con conexión a internet, pudiendo acceder a todos los archivos que se
desee dónde y cómo se quiera.
Independientemente de si opera en un único entorno de nube o en varios, la
gestión efectiva marca la diferencia, para esto, existen tres tipos de nube que
ofrece una manera consistente de controlar los costos de la nube y la
asignación de recursos, garantizando el cumplimiento. La primera, la nube
pública es un depósito de recursos virtuales que pertenece y es operado por
una empresa de terceros, que se aprovisiona y asigna automáticamente
múltiples clientes, este tipo de nube se implementa como parte de una mezcla
heterogénea de entornos que genera más seguridad y rendimiento, menor
costo, y mayor disponibilidad de las infraestructuras. (Hayes, 2008)
La nube hídrica, es aquella combinación de uno o varios entornos de nube
pública y privada, desarrollada a partir del hardware de la empresa externa
que lo gestiona, y del hardware interno que pertenece a la empresa que usa
la nube. Esto permite ejecutar algunas cargas de trabajo en la nube privada,
otras en la pública, extraer recursos de ambas y utilizarlas indistintamente.
La interconectividad se realiza por medio de interfaces de programación de
22
aplicaciones (API), por redes virtuales (VPN) o las redes de área amplia
(WAN), con esta interconectividad es la única manera en las que funcionan
las nubes híbridas. Sin ella, solo son nubes públicas y privadas
independientes.
Por último, las nubes privadas son grupos de recursos virtuales que proceden
de sistemas específicos de quienes los utilizan y los gestionan. Este tipo de
nubes son la solución ideal para los líderes de TI que desean ofrecer recursos
empresariales según se soliciten, pero que no pueden trasladarse a la nube
pública. Esto puede deberse a políticas de seguridad, presupuestos,
requisitos de cumplimiento o regulaciones. Además, las nubes privadas
aportan un nivel de seguridad adicional en comparación con las nubes
públicas, ya que el acceso es limitado. (Zhu, Luo, Wang, & Li, 2011)

5.1.11 IaaS: Se refiere a los servicios online utilizados para direccionar detalles a
Nivel de infraestructura como recursos de infraestructura física, ubicación,
partición de datos, seguridad, etc. IaaS aumenta y disminuye rápidamente
con la demanda, permitiendo pagar por solo lo que usa. Evita el gasto y la
complejidad de comprar y administrar sus propios servidores físicos y otra
infraestructura de centro de datos. Cada recurso se ofrece como un
componente de servicio separado, y solo necesita alquilar uno en particular
durante el tiempo que lo necesite.
Normalmente, las empresas optan por usar IaaS por los entornos de
desarrollo pruebas, hospedaje de sitios web, almacenamiento, copias de
seguridad y como almacenamiento de servidores web y de aplicaciones. De
esta manera se elimina el gasto de capital y reduce los costos corrientes,
evita el gasto inicial de configurar y administrar un centro de datos local,
además, mejora la continuidad empresarial y la recuperación ante desastres,
enlazado con planes de continuidad de negocio, logra disponibilidad y
recuperación ante desastres de una manera más económica, pero requiere
una cantidad importante de tecnología y personal. (Manvi & Krishna Shyam,
2014)

5.1.12 Disaster Recovery: La continuidad de negocio depende del flujo eficiente


de la información dentro de la organización, un error en este proceso podría
generar pérdidas, interrumpir las tareas de producción y poner en riesgo la
confianza de los clientes. Las causas de dichos errores pueden ser desde
desastres naturales a fallas mecánicas o humanas. La solución a esto es
adaptar una estrategia de recuperación de desastres proactiva y basada en
la nube que lo ayude a continuar trabajando en caso en que la infraestructura
física no se encuentre disponible durante un determinado periodo de tiempo.
(Khoshkholghi, Abdullah, Latip, Subramaniam, & Othman, 2014)
Las soluciones de recuperación de desastres tradicionales implican la
duplicación de la infraestructura informática y de almacenamiento en el sitio
23
de destino, herramientas como CloudEndure de Amazon Web Service o G
NET, conservan sus datos sincronizados mediante el uso de una
infraestructura informática y de almacenamiento liviana, de esta manera se
reduce significativamente el costo total de tecnología.

5.1.13 Data mart: Es un subconjunto de los datos guardados en un Data


Warehouse, destinado a satisfacer las necesidades de un segmento de
negocio en particular. En esta estructura se almacena información agregada
o consolidada, que será consumida por alguna herramienta de visualización.
Dependiendo de los recursos disponibles para invertir en una solución de
inteligencia de negocios, debido a que el Data mart contiene información
consolidada se actualiza periódicamente. Generalmente, los datos están
estructurados en modelos estrellas o copo de nieve, este modelo se define
con base en la cantidad y calidad de indicadores que se deseen evaluar. Los
departamentos de una empresa, por ejemplo, el departamento de ventas,
tienen necesidades particulares, pero siempre alineadas a las necesidades
de la organización, motivo por el cual la información también tiene un nivel
de complejidad distinto. De esta forma se pueden plantear dos tipos de
datamart:
a) Datamart OLAP:
Se basan en los cubos OLAP, que se construyen agregando, según los
requisitos de cada área o departamento, las dimensiones y los
indicadores necesarios de cada cubo relacional. El modo de creación,
explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en
función de la herramienta final que se utilice.

b) Datamart OLTP:
Pueden basarse en un simple extracto de la data Warehouse, no
obstante, lo común es introducir mejoras en su rendimiento, en donde las
agregaciones y los filtrados suelen ser las operaciones más usuales,
aprovechando las características particulares de cada área de la
empresa. Las estructuras más comunes en este sentido son las tablas
report, que vienen a ser fact-tables reducidas que agregan las
dimensiones oportunas, y las vistas materializadas, que se construyen
con la misma estructura que las anteriores, pero con el objetivo de
explotar la reestructura de queries, aunque solo es posible en algunos
SGDB avanzados como Oracle. (Moody & Kortink, 2000)

24
5.2 MARCO TEÓRICO

5.2.1 Método DeWIQ

Esta metodología de gestión de calidad de datos totales tiene como objetivo


facilitar la implementación de políticas de calidad de datos expresadas
formalmente por la alta dirección. Se describe una herramienta de diagnóstico
basada en encuestas para evaluar la calidad de la información que recopila
datos y traza los puntajes dimensionales categorizándolos para individuos, roles
organizacionales y en general. Para mejorar la calidad de datos se adaptan 4
actividades encargadas de crear el ciclo de TDQM (gestión de calidad de datos
total): Definir, medir, analizar y mejorar. Los sistemas de información generan
productos de información (IP) con 15 dimensiones de IQ en cuatro categorías:
Calidad de datos intrínseca, de accesibilidad, contextual y representativo.
Después de identificar las características de los productos de información, los
requisitos de IQ (Calidad de la información) se especifican de proveedores,
fabricantes, consumidores y gerentes.

Este método posee 3 elementos básicos: el concepto de PI, la norma de calidad


de datos ISO/IEC 25012, y la metodología TDQM. A continuación, se describe
brevemente cada uno de ellos.

Producto de Información (PI)

Wang (Wang, 1998) establece una analogía entre la gestión de calidad total
(TQM) de productos físicos y la gestión de calidad de datos total (TDQM). Esto
con el fin de facilitar la implementación de políticas de calidad de datos. El
concepto de PI nació luego de analizar varios casos de problemas de calidad de
datos. Según Wang: “La información debe ser tratada como un producto que
satisfaga las necesidades específicas de un usuario (en todas las dimensiones
ya mencionadas). Por el contrario, la información usualmente es tratada como
un subproducto, haciéndose énfasis en el sistema en vez de hacerlo en el
producto, la información”.
En el proceso de producción PI participan tres actores: Los recolectores, los
custodios y los consumidores. Cada uno de los actores cumplen la función de
velar por la integridad de los datos. Los recolectores, son las personas,
programas o dispositivos encargados de reunir la información de acuerdo con
las necesidades del consumidor, en resumen, determinan la calidad inicial del
proceso. Los custodios son los responsables de la implementación de procesos
de almacenar, mantener y entregar la información a los consumidores,
manteniendo siempre los parámetros de calidad exigidos. Por último, los
consumidores son los encargados de los procesos de utilización de la
información. Determinan el significado de calidad aplicado a un PI.
25
Retroalimentan a los recolectores y custodios con las deficiencias encontradas
en la información suministrada.
Un dato elemental se define como la unidad mínima de datos que tiene sentido
dentro de un contexto operacional, por ejemplo, los atributos edad, sexo, lugar
de nacimiento, fecha de nacimiento serian datos elementales dentro del contexto
persona. En resumen, un IP sería una colección de instancias de datos
elementales que satisfacen las necesidades particulares de un consumidor.

Sistemas de información Productos de Información


Factura, Boleta, Guía de
Sistema de Ventas de Artículos Despacho, Registro de
Existencia, Informe de Cuentas
Corrientes de Clientes, etc.
Sistema de Administración de Liquidación de Sueldo,
Empleados Comprobante de Día Feriado,
Informe de comisión de Ventas,
etc.
Notas de crédito, Informe de
Sistema de devoluciones Reposición de Artículos a
Bodega, Informe de Motivos de
Devolución, Listado de
Productos Mermados, etc.
Tabla 1. Ejemplos de PI's
Fuente: Elaboración Propia

Normas ISO/IEC 25012

El modelo de calidad de producto de datos definido por el estándar ISO/IEC


25012 está clasificada por dos grandes categorías: Calidad de datos inherente,
calidad de datos dependiente del sistema. La calidad de datos inherente se
refiere al grado con el que las características de calidad de datos tienen el
potencial intrínseco para satisfacer las necesidades establecidas y necesarias
cuando los datos son utilizados bajo condiciones específicas. Además, se
caracterizan por ser exactas, completas, consistentes, poseen credibilidad y
actualidad. Sin embargo, la calidad de datos dependiente del sistema se refiere
al grado con el que IQ es alcanzada y preservada a través de un sistema
informático cuando los datos son utilizados bajo condiciones específicas.
Depende del dominio tecnológico en el que los datos se utilizan, y se alcanza
mediante las capacidades de los componentes del sistema informático tales
como dispositivos hardware (respaldo software para alcanzar la recuperabilidad)
y otro software (Herramientas de migración para alcanzar la portabilidad), Este
tipo de calidad de datos se identifica por su disponibilidad, portabilidad y
recuperabilidad de los datos. Por estos dos factores es importante la calidad de
26
datos, ya que el acierto de las decisiones que toma una organización depende
en gran medida de la calidad de la información en que dichas decisiones se
basan. (Wang, 1998)

Tabla 2. Modelo De DQ ISO/IEC 25012

Puntos de vista de la DQ
Características Dependiente del
Inherente
sistema
Exactitud X
Completitud X
Consistencia X
Credibilidad X
Actualidad X
Accesibilidad X X
Conformidad X X
Confidencialidad X X
Eficiencia X X
Precisión X X
Trazabilidad X X
Comprensibilidad X X
Disponibilidad X
Portabilidad X
Recuperabilidad X
Tabla 2. Modelo De DQ ISO/IEC 25012
Fuente: Elaboración Propia

En resumen, el estándar clasifica los atributos de calidad en quince


características consideradas por dos puntos de vista: inherentes y dependientes
del sistema. Las características de calidad de los datos serán de diversa
importancia y prioridad para los diferentes interesados. El estándar que
conforma esta división presenta un modelo de calidad detallado, incluyendo
características para la calidad interna, externa y en uso.

Enfoque TDQM

Tiene como propósito entregar PI’s de alta calidad a los consumidores de datos,
facilitando la aplicación de políticas de calidad de datos globales en una
organización a nivel de gestión y de alta dirección. Para lograr esto, el enfoque
TDQM propone un ciclo de mejora continua de los PI´s, compuesto por cuatro
etapas determinadas: definir, medir, analizar y mejorar, como se muestra en la
figura 1.

27
Figura 1. Etapas de TDQM

Ilustración 1.Etapas de TDQM


Fuente: Dialnet-DocumentacionEdicionYTraduccion-3179225%20(1).pdf

5.2.2 Teoría del datamining:

CRISP-DM (Cross-Industry Standard Process for Data Mining)


El modelo consiste en 6 fases relacionadas entre sí de una forma cíclica (con
retroalimentación). Las fases son las siguientes:

Ilustración 2. Modelo CRISP-DP

28
Fuente: (Estefanía & Paspuel, 2014)

 Business Understanding: En este paso se comprende el negocio,


abarcando objetivos, evaluación de la situación actual, estableciendo unos
objetivos que habrán de cumplir los estudios de data mining y desarrollando
un plan de proyecto. El fin de esta fase es definir cuál es el objeto de estudio
y por qué se plantea.
 Data Understanding: Una vez realizado el paso anterior, y con los objetivos
ya establecidos, es necesario la comprensión de los datos y la determinación
de los requerimientos de información necesarios para poder llevar a cabo
nuestro proyecto. En esta fase se utilizan técnicas como resumen de
estadísticas o realizar análisis Clúster con la intención de identificar patrones
o modelos dentro de los datos. Luego debe hacerse un filtro de los datos
para encontrar que información es relevante para el análisis, puesto que
algunos aspectos que se podrían desestimar. Y finalmente habrá que
verificar que las variables identificadas son independientes entre sí.
 Data preparation: Una vez identificados los recursos, es necesario que
sean seleccionados, limpiados, transformados a la forma deseada y
formateados. Luego se debe realizar un posterior modelado por medio de los
procesos de Data Cleaning y Data Transformation. La idea es explorar los
datos a mayor profundidad para encontrar patrones dentro de los datos.
 Model Building: En la fase de modelización es necesario utilizar softwares
específicos de data mining, como herramientas de visualización que
permitan establecer relación entre los datos, o análisis de clúster para
identificar que variables se combinan bien. Estas herramientas pueden ser
útiles para un análisis inicial, que pueden ser complementadas con reglas de
inducción para desarrollar las reglas de asociación iniciales y profundizar en
ellas. Una vez se profundiza en el conocimiento de los datos por medio de
árboles de decisión, se pueden aplicar otros modelos de análisis de datos.
 Evaluation: El resultado deberá ser evaluado en el contexto de los objetivos
de negocio establecidos en la primera fase. Esto nos puede llevar a
identificar otras necesidades que deban ser resueltas en fases anteriores
para profundizar en la selección de los datos. Este proceso nos ayudará a
comprender los procesos de negocio como resultado de técnicas de
visualización, técnicas estadísticas y de inteligencia artificial. Mediante estas
técnicas se mostrará de mejor manera a los usuarios la relación entre datos.
De esta manera se hace un acercamiento mayor entre usuarios y
organización. Es la fase más crítica, pues se está haciendo una
interpretación de los datos.
 Deployment: La minería de datos tiene diferentes usos, de los más
comunes, para verificar hipótesis previamente definidas o para identificar
relaciones útiles y no esperadas. Este conocimiento descubierto nos
descubierto nos puede servir para aplicarlo a los diferentes procesos de
negocio y aplicar cambios en la organización donde será necesario.

29
Los cambios aplicados se podrán monitorizar, para verificar en un tiempo
determinado su corrección o no, o si tienen que ser ajustados para incluir
nuevas variables.

30
6. ESTADO DEL ARTE

6.1
La inteligencia de negocios implica el proceso de conversión de datos relevantes
en información útil para la toma de decisiones estratégicas, mediante
herramientas analíticas, representada por los servicios de transformación de
datos.
A nivel mundial, la competencia en la industria financiera es cada día mayor
comprende una lucha constante dirigida a brindar productos y servicios acordes
a las necesidades actuales de los clientes, lo cual alude a un proceso complejo
que engloba recursos físicos, humanos y económicos, que viene ligada a los
cambios tecnológicos acelerados. Algunos casos exitosos se pueden describir a
continuación:
La necesidad de herramientas analíticas que faciliten la toma de decisiones,
de acuerdo con el grado de incertidumbre futura, se ha convertido en el punto
clave de toda organización… En este sentido, el cumplimiento de metas, las
fluctuaciones de los costos financieros, así como el nivel de satisfacción de
los clientes, tanto internos como externos.
Partiendo de esta premisa, la Asociación Bancaria de Venezuela (2010),
identifica dentro de las funciones básicas que deben ser realizadas por las
herramientas de inteligencia de negocios en toda institución financiera, a la
gerencia de riesgos y el procesamiento de información, a través de un
correcto intercambio entre las áreas de riesgo de las instituciones del
sistema, a fin de establecer un entorno homogéneo que apoye la toma de
decisiones. De acuerdo con estas teorías, el uso de las herramientas
analíticas dentro del contexto financiero hace posible que la inteligencia de
negocios exista en todos los niveles de la organización, transformando estas
necesidades de información en resultados concretos, convirtiéndose en
empresas competitivas ante las economías dinámica s que las caracterizan.
La correcta transformación de los datos manejados en las instituciones
financieras, en función de las reglas de negocio previamente definidas,
representa un elemento esencial para la toma de decisiones de forma rápida,
precisa y asertiva, constituyendo el propósito fundamental de la inteligencia
de negocios.(Roo Huerta & Boscán Romero, 2012)

6.2
Otro proyecto enfocado a esta misma problemática es llamado “Solución de
Business Intelligence utilizando tecnología SAAS. Caso: Área de proyectos en
empresa bancaria”, el cual, hace referencia a la misma problemática que se
encuentra en este proyecto contando con la gran diferencia de que este utiliza
una tecnología distinta.

31
Un trabajo de grado titulado “Business Intelligence adaptado a la migración
masiva de datos. Puesta en práctica con Powercenter” realizado por Lucia
Martínez Morales de la Escuela Técnica Superior de Ingeniería Universidad de
Sevilla dice,
Las herramientas de trabajo de Business Intelligence están integradas en dos
grupos, el grupo Back-end, constituido por herramientas encargadas de la
lógica interna, en el que analizaremos los procedimientos ETL (Extract,
Transformation and Loading), encargados de la extracción, traducción y
volcado de la información que proviene de multitud de fuentes a una base de
datos común llamada Data Warehouse. Por otro lado, tenemos el grupo de
herramientas de tipo Front-end creadas para la elaboración de informes y la
visibilidad de resultados finales facilitando a la empresa la obtención de datos
claros y efectivos.
… Por un lado, abordaremos el concepto de “Inteligencia de Negocio” (BI), el
cual engloba las actuales herramientas informáticas que dan apoyo a
proyectos de este calibre. Tras leer el trabajo completo se conocerá el
concepto de Business Intelligence, así como nueve de las herramientas que
forman parte de él junto a sus ventajas e inconvenientes y el estudio en
profundidad de una de ellas. Nos familiarizaremos también con el concepto
de base de datos y su importante intervención en el mundo de estos,
comprenderemos el flujo de trabajo dentro de la migración además de todos
los pasos minuciosos que se llevan a cabo para conseguir la puesta en
práctica con cero errores. (Ingenier, 2018)

Lo que hemos podido analizar en estos tres artículos, es que todos tienen algo
en común, y es que todos usan la inteligencia de negocio para avanzar en sus
respectivos proyectos, para que de esta manera se tenga un antes y un después
y así analizar cómo ha ido avanzando. Además, se refieren a la importancia del
Big Data, y del cómo se utilizan capacidades analíticas para extraer información
de cantidades increíblemente enormes de datos que se generan cada día por
clientes, empleados o usuarios.
Otro estudio basado en migración de datos fue el “Estudio del diseño de
transformación de datos utilizando la herramienta Spoon de Pentaho Open
Source Business Intelligence sobre plataforma Linux” que habla de cómo
solucionar el incremento continuo de la cantidad de datos ampliados por los
sistemas manejadores de bases de datos. ¿Cómo realizar una migración que
permita trasladar el 100% de la data que se encuentra almacenada de forma
aislada, transformando estructuras sin perder información importante para la
institución? Fue la pregunta que se resolvió en este proyecto.

De esta manera, lo que se busca con esta investigación es demostrar la


habilidad, seguridad y rapidez que posee la herramienta Spoon de Pentaho,
en la transformación de datos de un repositorio a otro. Ahorrando de esta
manera contratación de personal especializado, soporte en sitio y
minimizando largas horas de ejecución en el proceso de migración.
32
… Este estudio ayudará a mantener un estándar en la estructura de la base,
un rendimiento óptimo y una alta disponibilidad, adicionalmente servirá para
darle mayor apertura a los softwares libres que en nuestro país es
inexplorado.
También servirá para la correcta toma de decisiones en la arquitectura de
algún diseño nuevo con respecto a otros aplicativos que se pueden llegar a
implementar. Con esta investigación ayudaremos a introducir en el Ecuador
el estudio de nuevos diseños para mejorar procesos en las bases de datos,
siendo mitigada la inconsistencia de los datos que es el eje central de toda
empresa en crecimiento. En este estudio se demostrará que las herramientas
de software libre son los más útiles al momento de hacer diseños o
manipulación de información de forma segura.(HERNANDEZ VELASCO,
2013)

6.3
El siguiente articulo denominado “Modelo para optimizar el proceso de gestión
de negocio combinando minería de procesos con inteligencia de negocios desde
almacenes de datos” presenta un modelo que optimiza procesos de negocio.
Esto se logró realizando iteraciones a un proceso especifico, donde se integra
BPM con minería de procesos y el modelo dimensional, restringiendo indicadores
numéricos.
Teniendo en cuenta la revisión y problemas detectados, se identificó el
método apropiado para diseñar e implementar el modelo propuesto en este
artículo, el cual integra BPM, Minería de Procesos, KPI, y Modelado
Dimensional. Para la especificación de las fases se siguieron los pasos que
indica el ciclo de vida BPM, que permite revisar, rediseñar, monitorear, y
optimizar procesos. La especificación de los componentes del modelo se
logró luego de la revisión de los trabajos propuestos por otros autores,
considerando sus componentes, funcionalidad, y carencias que a su vez
permitieron detectar problemas relacionados con el tratamiento de los datos.
La funcionalidad se determinó con un análisis detallado de los componentes,
teniendo en cuenta el flujo de trabajo de sus algoritmos.

Ilustración 3. Modelo Gestión de Negocio


Fuente:(Giraldo Mejía, Jiménez Builes, & Tabares Betancur, 2017)

… Los componentes del modelo son: modelado organizacional, análisis del


proceso, y optimización del proceso. El modelado organizacional indica el
registro de la organización, el registro del proceso, y el registro de un plan de
mejora. El análisis de proceso implica un modelado dimensional, y los

33
registros de eventos se obtienen desde este enfoque aplicando minería de
procesos. Por último, para el componente de optimización se establece la
ejecución de un plan de mejora.(Giraldo Mejía et al., 2017)

6.4
Un trabajo de grado nombrado “Benchmarking entre pentaho y Tableau para
realizar el Business Intelligence del módulo de control de bienes de la Universidad
técnica del norte” el cual realiza un benchmarking entre las herramientas Pentaho
y Tableau. Después de un análisis se seleccionó una de ellas para realizar el
Business Intelligence en el módulo de control de bienes de la Universidad Técnica
del Norte.
Anteriormente las empresas dependían del departamento de informática para
generar reportes básicos o personalizados, esto sucedía cuando se trabajaba
con computadoras grandes y potentes, las cuales usaban bases de datos
gigantes y difícil de manejar. Con el paso del tiempo se desarrollaron otras
estrategias para manejar la información, con el fin de satisfacer las
necesidades y apoyar las actividades de usuarios y administradores. Con la
aparición de las computadoras y conexiones en red, las herramientas de
Inteligencia de Negocios fueron creciendo y utilizándose de manera más
eficiente para crear nuevos reportes más personalizados.
… En la actualidad, existen varias herramientas para desarrollar Inteligencia
de Negocios lo cual dificulta escoger el software más adecuado, la elección
depende del tipo de empresa, área, objetivos que requiera realizar … Esta
herramienta genera documentos y gráficos con de manera rápida y eficaz.
Permiten extraer los datos fácilmente, además de generar alarmas con base
en ciertos criterios programados de antemano.
En la siguiente figura se muestra un ejemplo de tablero de mando y podemos
visualizar una gran variedad de gráficos que dependen del software que
estemos usando y las necesidades del usuario al utilizar la aplicación.
(Estefanía & Paspuel, 2014)

34
7. METODOLOGÍA

7.1 METODOLOGÍA PROPUESTA

Mediante un proceso aplicado a las distintas entidades financieras, es posible


demostrar como se puede crear inteligencia de sus datos para ofrecer a las
distintas áreas que deseen tener a su disposición cierta información que se
debe ir analizando desde la inteligencia de negocio, para ello se presentara a
continuación el proceso de inteligencia de negocio, el cual está dividido en
cinco fases, las cuales se pueden aprecia en la siguiente figura:

Figura: Fases del proceso de Inteligencia de negocio

Fase 1 - Dirigir y Planear: En esta fase inicial es donde se debe se deberán


recolectar los requerimientos de información específicos de las diferentes
áreas que requieran cierta información, así como entender sus diversas
necesidades, para que luego en conjunto con ellos se generen las preguntas
que les ayudara a alcanzar sus objetivos

Fase 2 – Recolección de información: Es aquí en donde se realiza el


primer proceso de una ETL, es en donde se extrae la información desde las
diferentes fuentes de información de las entidades bancarias, los datos que
serán necesarios para encontrar las respuestas a las preguntas planteadas
en el paso anterior

Fase 3 – Procesamiento de datos: Siguiendo el modelo de una ETL, en


este paso es en donde se integran y se cargan los datos “en crudo” en un
formato utilizable para el debido análisis de las distintas áreas. Esta actividad
puede realizarse mediante la creación de una nueva base de datos,
agregando datos bien sea una base de datos ya existente o bien
consolidando la información.

35
Fase 4 – Análisis y Producción: Aquí, se procede a trabajar sobre los datos
extraídos en integrados en el paso anterior, utilizando herramientas y
técnicas de la tecnología de inteligencia de negocio, creando inteligencia.
Como resultado final de esta fase se obtendrán las respuestas a las
preguntas, mediante la creación de reportes, indicadores de rendimiento,
cuadros de mando, gráficos estadísticos, etc. …

Fase 5 – Difusión: Finalmente, se les entregará a las diferentes áreas que


requieran de la información las herramientas necesarias, que les permitirá
explorar los datos de manera sencilla e intuitiva

Para obtener los resultados esperados, los procesos de negocio se


seleccionan con el objetivo de modelarlos, para establecer una granularidad
de cada uno de ellos. Por este motivo es necesario comprender
correctamente los datos de los diferentes sistemas dentro de una entidad
bancaria y sus respectivas relaciones. La gestión de estas relaciones durante
la carga de almacenamiento de datos es esencial.

7.2 TECNICAS E INSTRUMENTOS

A través del tiempo los diseñadores y programadores de bases de datos no


han propuesto ningún estándar concreto para definir nombres de variables,
tipos de datos, etc. Por lo que cada aplicación ha tenido la libertad de definir
sus propios estilos personalizados, lo que afecta la relación de modelos entre
sí.

Para ello existe el proceso de Extracción, Transformación y Carga de Datos


(Extraction, Transformation and load - ETL), que se aplica a todos los datos
de diversas fuentes producidos por los distintos departamentos, secciones y
aplicaciones.

Las técnicas de minería de datos pretenden lograr el descubrimiento


automático del conocimiento en la información almacenada de modo
ordenado den grandes bases de datos. Para lograr este se espera descubrir
patrones perfiles y tendencias a través del análisis de los datos utilizando
tecnologías de reconocimiento de patrones, redes neuronales, lógica difusa,
algoritmos genéticos y otras técnicas avanzadas de análisis de datos que las
empresas no conocen en su totalidad.

36
A diferencia de la definición de las herramientas de consulta y análisis, que
básicamente se basan en sistemas relacionales y el resultado se presenta en
forma tabular las herramientas de minería de datos permiten extraer
patrones, tendencias y regularidades para describir y comprender mejor los
datos, además de predecir comportamientos futuros. Por lo que en
conclusión la minería de datos analiza los datos y el resto de las
herramientas mencionadas anteriormente, facilitan el acceso a la información
para que el análisis sea más efectivo, es decir, son instrumentos de apoyo a
la minería de datos

7.3 SPRINT BACKLOG

De esta manera, este proyecto se basa en las cinco fases de la metodología


SCRUM, ya que es necesario realizar entregas parciales y regulares, lo que
se busca con estas retroalimentaciones es organizar y definir el progreso
hacia el objetivo final u obstáculos que puedan impedir este objetivo.
Cada hito definido en las fases, son las formas de conocer el avance del
proyecto midiendo la capacidad de flujo de los sistemas incluidos, para poder
así ajustar el proceso a la capacidad y así mejorar el flujo de forma continua,
estas entregas se realizan en la etapa de revisión.
En Scrum, la velocidad es la métrica objetiva por excelencia, de tal manera
podemos proyectar la pila de funciones a fechas futuras en forma de hitos con
gran grado de acierto.

FASE DE PLANIFICACIO REVISION Y


NY
IMPLEMENT LANZAMIE
INICIACIO ACION RETROSPECT
ESTIMACION IVA
NTO

Análisis Cierre formal


Creación de Crear Seguimiento de
detallado del del proyecto
Registros entregables tareas e hitos
Alcance

Análisis previo Realización de Asignación de Gestión de Backup del


de alcance estimaciones tareas entregables proyecto

35
Análisis de Definición Plan Ejecución de Gestión de Análisis de
Riesgos proyecto tareas incidencias Resultados

Actualización
Realizar un plan Estimar tareas Lista priorizada Generación de
del
de lanzamiento (Costos, tiempo) de pendientes informes
conocimiento

7.4 RESULTADOS

Los resultados se dividen en dos partes, los procesos transformados (que


sufrieron alguna mejora) y los procesos idénticos (que no sufrieron ninguna
mejora).
Para esto fueron utilizadas varias herramientas de software que tiene un gran
peso y una gran difusión, esto con el fin de contribuir a la buena gestión del
proyecto.
Las herramientas utilizadas de bases de datos son DBeaver y SQL Server, que
permitieron gestionar y trabajar con sus diferentes lenguajes, de forma sencilla e
intuitiva.
SQL Server
Nos permite contar con una plataforma inicial gratuita con mayor productividad y
rendimiento que nos asegura una escalabilidad a plataformas mayores, además
esta programado de manera que optimiza el tiempo de respuesta a las peticiones
de los clientes y el motor de integridad es mas seguro y potente. La definición de
stored procedures, triggers, Defaults, reglas, Constrains, entre otros objetos que
definen en la base de SQL Server te permiten tener diseños mas robustos sin perder
la eficiencia de los datos.

Oracle DBeaver
DBeaver es un gestor universal de base de datos multiplataforma, que ofrece
soporte a las bases de datos más conocidas del mercado, destinada a
desarrolladores y administradores de bases de datos. Tiene una interfaz de usuario
bien diseñada, la plataforma basada en un marco de código abierto que permite
escribir múltiples extensiones, así como también es compatible con cualquier base
de datos.
Herramientas de ETL que fueron utilizadas en este proyecto fueron Visual Studio
SSIS, Pentaho y las diferentes bibliotecas utilizadas en Python para la creación de
ETL, como lo son Pandas, Numpy o Plotly, entre muchas otras. Las herramientas
36
ETL son los instrumentos principales que nos permiten construir un Data warehouse
o data mart, es un método informático de gestión de datos que consta de tres
etapas: Extracción (Extracción de datos desde distintas fuentes), Transformación
(Transformación de los datos mediante su limpieza, organización y correlación) y
carga (carga de los datos a determinado almacén de datos para poder ser
consultados, compartidos o analizados).

ETL SSIS
SSIS (SQL Server Integration Services) es un componente de Microsoft SQL Server
utilizado para migración de datos. SSIS permite llevar a cabo otros procesos, como
la limpieza, la agregación y la fusión de datos, entre otros. Facilita el traslado de
datos de una base de datos a otra y puede extraer datos de una amplia variedad de
fuentes. Adicional también incluye herramientas graficas y asistentes para realizar
funciones de workflows.

ETL Pentaho
Pentaho es una plataforma dirigida a los procesos de inteligencia de negocios
orientada a la solución de procesos que incluye los componentes requeridos para
implementar soluciones basadas en la minería de datos, ETL, generación de
informes, etc.
Adicional tiene una versión open source, en la que no es necesario adquirir licencias
para su uso, es multiplataforma y además una solución flexible que permite crear
nuevas funcionalidades o módulos, que se adaptan a las necesidades de las
organizaciones

ETL Python
Python es un lenguaje de programación que cada vez se utiliza mas por las
empresas y programadores que trabajan con datos. El motivo de que cada vez
cobra más importancia en su uso es en la gran cantidad de librerías existentes para
realizar prácticamente todo y mas aun si el objetivo es trabajar y gestionar datos,
también por lo optimizado que esta Python respecto a Java.
Existen librerías y herramientas que ayudan a crear un proceso ETL personalizado
desde cero. Petl, es una herramienta básica que ofrece la funcionalidad ETL
estándar importando datos de diferentes fuentes, adicionalmente admite todas las
trasformaciones estándar, como la operación de filas, la clasificación, la unión y la
agregación.
Y probablemente la biblioteca más importante y una de las mas populares en la
actualidad. Es usado para procesar datos, su aumento de popularidad se debe en
gran parte a su uso en la ciencia de datos, que es un campo de rápido crecimiento
en sí mismo. Pandas usa marcos de datos como estructura de datos para mantener
los datos en la memoria, admite una gran cantidad de funciones de análisis y
visualización de datos.
Las herramientas de visualización utilizadas son Power BI y Tableau, en donde se
evidencia una representación gráfica de la información, al utilizar elementos
visuales como cuadros, gráficos y mapas, las herramientas de visualización de
37
datos proporcionan una manera accesible de ver y comprender tendencias, valores
atípicos y patrones en los datos. A medida que la era del big data entra en pleno
apogeo, la visualización es una herramienta cada vez más importante para darle
sentido a los billones de filas de datos que se generan cada día.
El concepto de científico de datos esta en aumento. Los conjuntos de habilidades
están cambiando para adaptarse a un mundo basado en los datos. Para los
profesionales es cada vez mas valioso poder usar los datos para tomar decisiones
y usar elementos visuales para contar historias con los datos para informar quien,
que, cuando, donde y como. Dado que los científicos de datos tienen una
comprensión muy profunda de los datos, funcionan muy bien para llevar a las
organizaciones hacia el aprendizaje profundo, automático y la adopción de la
inteligencia artificial, ya que las compañías generalmente tienen los mismos
objetivos basados en datos.
EL objetivo principal de un científico de datos se desarrolla en el área de producción
en donde establece los modelos para refinar procesos y productos de acuerdo con
la información que recopila y analiza

Power BI
Es una herramienta que se utiliza principalmente pero no exclusivamente para crear
cuadros de mando que faciliten la toma de decisiones la información se puede
actualiza de manera automatizada o manual que permite la compartición de los
informes mediante la propia herramienta. Las capacidades principales que ofrece
Power BI facilitan cruzar datos, hacer cálculos y graficas sofisticadas de manera
relativamente sencilla, además permite importar datos y modelarlos a voluntad, esto
se traduce en tablas y graficas que permiten que el usuario interactúe con la
información seleccionando periodos de estudio, tipologías, de clientes o de
productos o aquellas otras dimensiones que necesite visualizar la persona que
consume la información

Tableau
Tableau es una herramienta de inteligencia de negocios que permite analizar,
compartir y visualizar grandes volúmenes de información en forma rápida, flexible y
amigable.
A diferencia de las herramientas tradicionales de inteligencia de negocios, Tableau
esta orientado a personas que manejen cualquier ámbito de negocio debido a la
facilidad de análisis que ofrece esta herramienta. Algunas funcionalidades que nos
ofrece esta herramienta se basan en como se refleja la información multidimensional
sobre su negocio, en base al análisis y la visualización de los mismos. Se destaca
por la flexibilidad y rapidez tanto en el procesamiento de los datos, como en la
obtención de resultados

38
8. ESPECIFICACIÓN

Actualmente, en el día a día de las entidades financieras se generan datos como


productos secundarios de todas las transacciones que se llevan a cabo.
Normalmente esta información se almacena en bases de datos que cumplen la
función de almacenaje y administración de esos datos. Pero la idea es que estos
dejen de ser simples datos para convertirse en información que enriquezca las
decisiones de los ejecutivos. BI ha evolucionado y se ha transformado en todo un
conjunto de tecnologías capaces de satisfacer a toda una gama de usuarios junto
a sus necesidades en cuanto al análisis de la información.

Es por esto que todo proceso debe ser dinámico e iterativo siguiendo una serie de
pasos que ayudaran a mejorar el proceso en cada iteración. El proceso empieza
con preguntas, y las respuestas son resultado de mas preguntas o de subsecuentes
interacciones del proceso.

Cada una de estas fases fueron definidas en la metodología y este paso a paso es
el que se genera en la gran mayoría de los procesos de inteligencia de negocio y
son los que expondrán en este proyecto. Las nuevas tecnologías están
revolucionando la forma en que las empresas toman sus decisiones más
importantes y estratégicas. Como ya se había definido los procesos se dividirán en
dos:

39
PROCESOS TRANSFORMADOS

1) Lo mas importante para lograr entender un proceso es la documentación,


que hace referencia a los aspectos esenciales relativos a cuestiones tan
diversas como lo es el diseño, los orígenes y destinos, la solución o
soluciones aplicadas o las transformaciones de los datos realizadas, entre
otros. También, esta documentación debe servir para contrastar los
requerimientos planteados al inicio del proyecto y hacer un debido análisis
de los resultados alcanzados.
Por último, es necesario documentar procesos ETL teniendo en mente que
la finalidad de esta tarea debe ser crear un documento versátil, además de
ser útil e intuitivo. Para esto la solución por la que se optó son los diagramas
BPMN.

Diagramas BPMN
Estos diagramas son un nuevo enfoque que ha venido adquiriendo
importancia en las organizaciones. Su propósito fundamental se basa en
definir procesos de negocio, rápidos, efectivos y transparentes a toda la
organización. Incluye un conjunto de mejores prácticas, tecnologías y
herramientas utilizadas para analizar, diseñar, implementar, controlar y
gestionar los procesos del negocio.
Una definición mas amplia la plantea el documento base de BPM de la
asociación internacional de Profesionales de BPM (Brusilovsky, 1999), que
dice “BPM es un enfoque sistemático para identificar, levantar, documentar,
diseñar, ejecutar, medir y controlar tanto los procesos manuales como
automatizados, con el propósito de obtener resultados consistentes para el
logro de los objetivos del negocio que están alineados con la estrategia
organizacional. BPM incluye el soporte integral de las tecnologías de
información para mejorar, innovar y gestionar los procesos que determinan
los resultados del negocio, crean valor para el cliente y facilitan el logro ágil
de los objetivos del negocio”.
BPMN ofrece una notación estándar sencilla que es fácil de entender por
parte de todas las personas relacionadas con los procesos del negocio.
Teniendo como uno de sus principales propósitos servir de lenguaje común
para disminuir la brecha de comunicación que se presenta entre las
actividades de análisis, diseño e implementación tecnológica de los procesos
de negocio.
Para entender mejor la notación básica de BPMN se enseñan algunos
conjuntos de elementos como se puede observar en la figura.

40
Elementos de Notación de BPMN

Figura: Elementos básicos de notación de BPMN

Para la construcción de las ETL que se desarrollaran en este proyecto fue


necesario dividirlo en tres subprocesos: componentes de extracción,
componentes de transformación y componentes de carga. En la siguiente
tabla se explica el funcionamiento de cada uno.

Componente Elementos Objetivos Operaciones Realizadas Resultado de la tarea


(Entrada) (Proceso) (salida)

Extracción Fuentes de datos, Selección Datos crudos (cargados en


sistemas transaccionales, memoria)
hojas de cálculo, archivos
de texto

Transformación Datos crudos (cargados en Limpieza, trasformación, Datos formateados,


memoria) personalización, realización estructurados y resumidos
de cálculos y aplicación de de acuerdo a las
funciones de agregación necesidades (aun en
memoria)

Carga Datos formateados, Inserción Datos formateados,


estructurados y resumidos estructurados y resumidos
de acuerdo a las con persistencia en el DW
necesidades (aun en o la fuente de datos de
memoria) interés

41
2) Para la realización del proceso ETL a través de los diferentes recursos que
ofrecen las herramientas destinadas a este desarrollo, como lo son Pentaho,
SSIS o las librerías de Python. En las entidades bancarias día a día se mueve
una gran cantidad de información y para realizar el debido seguimiento y
análisis a esta información se deben automatizar los procesos, procesos que
muestren fluidez, veracidad y puedan ser entregados de una forma rápida,
es por eso que es necesario ampliar esos conocimientos y utilizar nuevos
procesos para no atascar la información. De esta forma, explorando nuevas
herramientas encontramos a Python, pero la pregunta es, ¿Por qué necesitas
Python para el análisis de datos?, comenzando porque Python es un lenguaje
fácil de aprender a comparación de otros. Esto es importante debido a que al
tener barreras de aprendizaje más bajas es más fácil para los nuevos
miembros de la comunidad ponerse al día. La reproducibilidad de Python,
gracias a la gran cantidad de ecosistemas de paquetes de terceros un
análisis de datos escrito en un script de Python puede ser reproducido en
cualquier plataforma, es decir, es la habilidad de obtener los resultados
usando los mismos datos y análisis de manera rápida y sencilla. Python es
un lenguaje muy versátil, lo que hace que se integre con varias aplicaciones
existentes para permitir hacer cosas sorprendentes. Adicional a esto Python
provee un marco de trabajo que permite que cualquier persona combine
enfoques de diferentes disciplinas de investigación, tiene una gran
comunidad, es gratis, de código abierto y multiplataforma.

Ahora definiremos los paquetes que mejor se acomoden a los requerimientos


de ETL que necesitemos, que son bastante útiles y facilitaran el desarrollo
de aplicaciones avanzadas.

42
Librería Funcionalidad Forma de importar

Es una librería de Python


especializada en el manejo y análisis
de estructuras de datos, que permite
leer y escribir fácilmente ficheros en
formato CSV, Excel y bases de
datos SQL o Oracle. Se
complementa muy bien con la
Pandas librería Numpy, definiendo nuevas
estructuras de datos basadas en los
arreglos, pero con nuevas
funcionalidades. Pandas dispone de
tres estructuras de datos diferentes:
Series, que definen una estructura de
una dimensión, Dataframe define
una estructura de dos dimensiones
(tabla) y el panel define una
estructura de tres dimensiones
(cubos).

Numpy ofrece funcionalidades


matemáticas, la sintaxis de alto
Numpy nivel lo hace accesible y productivo
para programadores de cualquier
experiencia o nivel de experiencia

Es un conjunto completo de
herramientas para trabajar con bases
de datos y Python. Tiene varias
SQLAlchemy áreas distintas de funcionalidad que
se pueden utilizar individualmente o
combinadas.
Es un módulo de extensión de
Cx_Oracle Python que permite el acceso a la
base de datos Oracle.

43
Es una interfaz de base de datos
simple que se basa en FreeTDS para
Pymssql proporcionar una interfaz Python
para Microsoft SQL Server
Es un modulo que proporciona
varias funciones y variables que se
Sys utilizan para manipular diferentes
partes del entorno de ejecución de
Python
Fernet es una librería que garantiza
que un mensaje cifrado no se pueda
Fernet manipular ni leer sin la clave. Es una
implementación de criptografía
autenticada simétrica

3) El procesamiento y análisis de las grandes cantidades de datos que se


producen en la actualidad, posibilitan el hallazgo de patrones y tendencias
ocultos en los mismos, que impacta directamente en la toma de decisiones
en diversas áreas de estudio. La visualización de datos es el proceso de
representación de la información, en formato gráfico, de una manera clara y
eficaz.
Se convierte en una herramienta poderosa para el análisis e interpretación
de datos grandes y complejos, volviéndose un medio eficiente en la
transmisión de conceptos en un formato universal.
La importancia de la visualización de datos, no solamente radica en tener
centralizada la información de las fuentes de datos, también es muy
importante que no solamente se generan estos reportes mediante texto, el
uso de gráficas, y diferentes tipos de diagramas no ayuda a entender la
información.

4) Luego de adquirir los datos obtenidos por la ETL y arrojar el resultado de la


visualización de los datos es necesario automatizar el proceso, es decir, que
se ejecute todos los días de forma automática con los datos que se
recolectan a diario. Para esto se utilizan componentes que brindan la
capacidad de programar el inicio de programas o scripts en tiempos
predefinidos o después de intervalos de tiempo especificados.

44
9. DISEÑO

1. El primer paso para la ejecución del proceso se basa en la documentación


del proceso para entender cada elemento del desarrollo. El hecho de tener
registros desde el inicio hasta el final implica poder dar un mantenimiento
constante del software. Es la guía para el laberinto del software. El siguiente
proceso describe como se solicitan los requerimientos al área encargada,
siguiendo ciertos lineamientos de gobierno de datos.

Ilustración 4. Esquema General


Fuente: Elaboración Propia

Los siguientes hitos, son la manera en como se gestionan los procesos,


además, de describir sistemáticamente los factores que incluye cada hito. Lo
que se pretende es que todas las funciones que se realizan queden
perfectamente identificadas. Para así identificar las actividades hasta el más
mínimo nivel de detalle, con el fin de que los limites de los procesos quede
definidos.

45
De igual manera se debe describir de manera general el funcionamiento de
una ETL, siguiendo ciertos lineamientos para su perfecta ejecución. Se
cargan las tablas necesarias provenientes de distintas fuentes, se
seleccionan los campos, y por último esa data final se guarda en una tabla,
que será utilizada para su debido análisis o minería de datos

46
2. La realizacion de las ETL se tratan de la planificación estratégica para llegar
así al consenso de las decisiones empresariales. En este apartado
enseñaremos dos formas muy eficientes y eficaces para realizar ETL que
harán que la información no se sature y pueda salir lo mas pronto posible, Es
importante mantener la información centralizada, teniendo presente esto, es
importante tener en cuenta la diversidad de formatos, tipos y fuentes de datos
en los cuales se puede encontrar dicha información, se hace imprescindible
contar con procesos de extracción, transformación, limpieza y carga, junto
con métodos de integración de datos que permitan una vista unificada con la
mayor calidad posible. Para lograr lo anteriormente expuesto se utiliza la
herramienta Spoon perteneciente a Pentaho Data Integration (PDI) en la
implementación de transformaciones y trabajos desde su interfaz gráfica.
Otro método muy funcional para la realizacion de ETL es utilizando las
librerías de Python que ofrecen gran facilidad de manejo y una rápida
respuesta.

La anterior ETL maneja un estilo básico, en donde se extraen los datos de


una fuente, luego se transforman o se limpian los datos y por ultimo se
cargan a una tabla destino. En la fase de transformación se aplican una
serie de reglas de negocio sobre los datos extraídos, sin un buen trabajo de
transformación de datos no seria posible realizar comparaciones y análisis.
Dicho de otro modo, se renunciará a uno de los grandes beneficios para las
organizaciones al implementar un proceso de estos. En el caso de este
47
proceso en esta fase se inserto un script que selecciona ciertos campos de
interés que más adelante serán analizados

Ahora, haremos la comparación con la estructura de una ETL realizada en


Python, donde se utilizarán la forma básica de una ETL, donde se extrae un
archivo y se carga a una fuente de datos totalmente distinta, pero utilizando
el cifrado de calves que nos ofrece la librería Fernet, a continuación, el código
que se desarrolló.

En este código se encuentran tres módulos, el primero llamado


“stringdatabase” hace la conexión a la base de datos llamando las
credenciales de cada fuente de datos y cifrando la contraseña. El segundo
modulo “getdatabaseinformation” trae la consulta que se hará sobre la base
de datos de forma general y el ultimo modulo “insertdata” simplemente inserta
datos a partir de los datos transformados. Una gran ventaja de esto es que
este código es reutilizable, ya que simplemente se llaman estos módulos y
no es necesario hacer el proceso desde cero

48
3. A continuación, después de tener nuestra base de análisis se pretende
explicar la importancia que tiene un cuadro de mando que permita
comunicar estrategias mediante los servicios web institucionales,
visualizar resultados y propiciar el análisis de los mismos. Tableau, permite
ser adecuado a cualquier planeación estratégica y tiene la capacidad de
medir la eficacia por perspectivas y dar una medición de eficacia de la
organización donde se utilice.
El siguiente reporte se realiza a partir de la información cargada, este
tablero de control enseña varios procesos y la ultima fecha en que fue
ejecutado dicho proceso, de esta manera se puede evidenciar que tablas
o que procesos no han sido ejecutados ese día y así llevar un seguimiento
más funcional de los procesos.

49
4. Finalmente, es necesario la automatización del proceso, por lo tanto, se
debe ejecutar dicha ETL de forma periódica todos los días, esto con el fin
de mantener la información actualizada y que todas las áreas interesadas
en esta información mantengan siempre el hilo de los datos para su
respectivo análisis. Es por esto qué hablaremos de crontab, que se puede
definir como el equivalente a Tareas Programadas de Windows. Crontab
es un simple archivo de texto que guarda una lista de comandos a ejecutar
en un tiempo especificado por el usuario. Crontab verifica la fecha y hora
en que se debe ejecutar el script o comando, configurando los permisos
de ejecución.

50
En el anterior archive de texto, denominado Shell, se evidencia que la
primera línea explica al sistema qué todos los comandos son un script
capaz de ser leído y ejecutado por el mismo. En la siguiente línea se debe
definir la ruta del programa que se quiere ejecutar. Y en la última línea,
con el comando Kitchen se utiliza para ejecutar el archivo. Primero se
define la ruta de la ETL o del script a ejecutar y luego la ruta del log donde
se almacenará todo el proceso.

Luego de esto debemos analizar la sintaxis de crontab, que, para ejecutar


una lista de comandos, la utilidad de cron se basa en leer los archivos de
configuración antes definido. La sintaxis posee 6 campos en donde los
primeros cinco definen la fecha y hora de ejecución. El ultimo campo
define la tarea, trabajo comando, script que se ejecutara. En este ejemplo
ejecutaremos un Shell que posee una ETL, que se deberá efectuar todos
los días a las 5 de la mañana

51
10. DESCRIPCIÓN

Ahora haremos la comparación en todos los ámbitos de una ETL realizada en Spoon
y otra realizada en Python. Dos herramientas de fácil uso y que son un gran apoyo
para la toma de decisiones en la inteligencia de negocios. Normalmente Spoon no
es compatible con versiones posteriores, lo que significa que si usted decide
actualizar SQL Server o el motor de base de datos que maneje, también tendrá que
actualizar todas las transformaciones que haya realizado. Adicional a esto, si esta
utilizando una función obsoleta, es posible que deba rediseñar numerosos
paquetes. Ne cambio Python generalmente solo agrega características y deja la
funcionalidad existente intacta.
Podría ejecutar el argumento de que Python tiene una curva de aprendizaje
pronunciada y es más difícil de aprender que Spoon. En realidad, Python debería
tener una huella ligera en sus procesos ETL, y poder aprender todo lo que se
necesita saber sobre cómo hacer ETL con Python en unas pocas horas. Con eso
no se refiere a un conjunto inicial de información para comenzar y mejorar con el
tiempo. Se quiere decir, que todo lo que necesitaría saber sobre cómo mover datos
en el disco fuera de SQL Server con Python se puede aprender en unas pocas
horas. Compare eso con Spoon, que puede tardar meses en ser bueno y años en
dominarlo lo suficiente como para poder abordar cualquier escenario que se le
presente.
Cuando se diseñan procesos ETL es necesario pensar en los requisitos de
mantenimiento, referente a esto Python tiene una gran ventaja, que las clases se
construyen de la misma manera y la ejecución de una cosa no tiene nada que ver
con la otra. Un ejemplo de esto es la importación de datos, todos los datos se
introducen en el almacén de datos exactamente de la misma manera. Hay alguna
variación en la implementación según el caso de uso. Cada fuente de datos tiene
un proceso desarrollado que se dedica a extraer ese conjunto de datos especifico y
nada más. Ese proceso en ejecución no depende de ningún otro proceso de
extracción de datos que se ejecute antes o después
En cuanto a velocidad de lectura y escritura de datos, tiempo que tarda en ejecución
del proceso y facilidad de carga de datos, el programa arroja como resultado, la
extracción de datos de un archivo plano en un tiempo de 14.8 segundos a una
velocidad 3.375 registros por 58 segundo, que se cargan en una tabla de SQL
Server en un tiempo de 18.0 segundos a una velocidad de 2.780 registros por
segundo.

52
En cuanto a la facilidad de cargar los datos, se puede decir que no es fácil en la
primera interacción con la herramienta, es decir tiene algo de complejidad, tanto
en la conexión como creación de la estructura en la que se van a cargar los datos,
que deben ser del mismo tipo, para ello Spoon permite crear la estructura
directamente por medio de SQL.

Ahora, si realizamos el mismo ejercicio en Python el data frame se ejecutó


enseguida, obviamente la información se ve muy plana, pero el procesamiento de
datos de Python es mucho mas rápido.

53
Ahora, si queremos cargar los datos a un archivo de Excel, se debe primero leer
los datos del archivo plano, donde luego se cargar a un archivo de Excel. Como se
puede notar en la siguiente figura

Los datos se extrajeron de un archivo plano en un tiempo de 3.0 segundos a una


velocidad de 16.486 registros por segundo, que luego se cargaron en un archivo de
Excel en un tiempo de 7.2 segundos a una velocidad de 6.942 registros por
segundo. Los datos se pueden ver en la figura 77. En cuando a la facilidad de carga
de datos se puede decir que es fácil en la primera interacción con la herramienta,
es decir no requiere un conocimiento previo, porque solo es extraer los datos del
archivo plano de origen y cargarlos a el archivo de destino Excel.

54
11. CONCLUSIONES

Con este proyecto se espera lograr aplicaciones novedosas de técnicas y


herramientas de minería de datos, en particular en áreas de inteligencia de negocio.
Además, se espera obtener una herramienta eficiente en el análisis de datos en
streaming. Todas estas iniciativas se desarrollan mediante la aplicación de una
metodología ágil para proyectos.

Tanto las herramientas de software, como las técnicas y metodologías ayudan a la


obtención de resultados de una manera objetiva y sencilla dentro de la minería y
almacenamiento de datos, que sirve para la toma de decisiones de una empresa,
institución o corporación. La herramienta de Integración de datos de Python ha
demostrado ser oportuna y amigable al usuario para procesos ETL cuyo objetivo es
obtener información a partir de las distintas fuentes de datos de entrada que
soporten las mejores decisiones empresariales., dentro de este contexto se han
obtenido resultados concretos de una manera rápida y sencilla, poniendo a
disposición de los usuarios la información generada.

55
12. BIBLIOGRAFÍA

Abadal, E., & Codina, L. (2005). Bases de datos documentales. Madrid: Síntesis.
Agarwal, P. (2019). Intelligent Economics. 11 April 2019, 1–20. Retrieved from
https://perspectives.eiu.com/sites/default/files/EIU_Microsoft - Intelligent
Economies_AI%27s transformation of industries and
society.pdf%0Ahttps://www.intelligenteconomist.com/demand-pull-inflation/
Bibliográfica, R. (2007). SCRUM - Metodologia de desenvolvimento ágil. Campo Digital,
2(1), 03–06.
Cano, J. L. (2007). Business Intelligence: Competir Con Información. Banesto, Fundación
Cultural, 397. Retrieved from
http://itemsweb.esade.edu/biblioteca/archivo/Business_Intelligence_competir_con_inf
ormacion.pdf
Cattell, R. (2010). Scalable SQL and NoSQL data stores. SIGMOD Record, 39(4), 12–27.
https://doi.org/10.1145/1978915.1978919
Devlin, B., Barry/Cote, & Doran, L. (1997). Data warehouse : from architecture to
implementation. Addison-Wesley.
Estefanía, G., & Paspuel, T. (2014). Universidad técnica del norte facultad de ingeniería en
ciencias aplicadas carrera de ingeniería en sistemas computacionales.
Fang, H. (2015). Managing data lakes in big data era: What’s a data lake and why has it
became popular in data management ecosystem. 2015 IEEE International Conference
on Cyber Technology in Automation, Control and Intelligent Systems, IEEE-CYBER
2015, 820–824. https://doi.org/10.1109/CYBER.2015.7288049
Feedback, T. (2014). Chapter 4 . Fitting a Model to Data.
Freudenreich, T., Furtado, P., Koncilia, C., Thiele, M., Waas, F., & Wrembel, R. (2013).
An on-demand ELT architecture for real-time BI. Lecture Notes in Business
Information Processing, 154, 50–59. https://doi.org/10.1007/978-3-642-39872-8_4
Gaspar Martinez, J. (2010). El plan de continuidad de negocio : guía prá ctica para su
elaboración. 224.
Giraldo Mejía, J. C., Jiménez Builes, J., & Tabares Betancur, M. S. (2017). Modelo para
optimizar el proceso de gestión de negocio combinando minería de procesos con
inteligencia de negocios desde almacenes de datos. Espacios, 38(2).
Hai, R., Geisler, S., & Quix, C. (2016). Constance: An intelligent data lake system.
Proceedings of the ACM SIGMOD International Conference on Management of Data,
26-June-2016, 2097–2100. https://doi.org/10.1145/2882903.2899389
Hayes, B. (2008). Cloud Computing. Communications of the ACM, 51(7), 9–11.
https://doi.org/10.1145/1364782.1364786
HERNANDEZ VELASCO, J. A. (2013). “ESTUDIO DEL DISEÑO DE
TRANSFORMACIÓN DE DATOS UTILIZANDO LA HERRAMIENTA SPOON DE
PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE SOBRE PLATAFORMA
LINUX.”
56
Ingenier, G. (2018). Business Intelligence adaptado a la migración masiva de datos .
Puesta en práctica con Powercenter . Business Intelligence adaptado a la migración
masiva de datos . Puesta en práctica con Powercenter . Escuela Técnica Superior de
Ingeniería Universidad de. 1–83.
Khoshkholghi, M. A., Abdullah, A., Latip, R., Subramaniam, S., & Othman, M. (2014).
Disaster Recovery in Cloud Computing: A Survey. Computer and Information
Science, 7(4), 39. https://doi.org/10.5539/cis.v7n4p39
Kimball/Inmon. (2012). Enfoques de desarrollo DW.
Lerner, B. S., & Nico Habermann, A. (1990). Beyond schema evolution to database
reorganization. Proceedings of the European Conference on Object-Oriented
Programming on Object-Oriented Programming Systems, Languages, and
Applications, OOPSLA/ECOOP 1990, 67–76. https://doi.org/10.1145/97945.97956
Lomet, D. B. (2001). Bulletin of the Technical Committee on Data Engineering. Bulletin of
the Technical Committee on Data Engineering, 24(4), 1–56. Retrieved from
papers2://publication/uuid/30073F7F-1B7C-4496-ADA4-94FF4E6EE8F7
Manvi, S. S., & Krishna Shyam, G. (2014). Resource management for Infrastructure as a
Service (IaaS) in cloud computing: A survey. Journal of Network and Computer
Applications, Vol. 41, pp. 424–440. https://doi.org/10.1016/j.jnca.2013.10.004
Martín, A., Chavez, S., Rodriguez, N., Valenzuela, A., & Murazzo, M. (2013). Bases de
datos NoSql en cloud computing. XV Workshop de …, 166–170. Retrieved from
http://sedici.unlp.edu.ar/handle/10915/27121
Moody, D. L., & Kortink, M. A. R. (2000). From Enterprise Models to Dimensional
Models : A Methodology for Data Warehouse and Data Mart Design Objectives of
Dimensional Modelling. Proceedings of the 2nd Intl. Workshop DMDW’2000, 2000,
1–12.
Pinkel, C., Schwarte, A., Trame, J., Nikolov, A., Bastinos, A. S., & Zeuch, T. (2015).
DataOps: Seamless End-to-End anything-to-RDF data integration. Lecture Notes in
Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and
Lecture Notes in Bioinformatics), 9341, 123–127. https://doi.org/10.1007/978-3-319-
25639-9_24
Rivadera, G. R. (2010). La metodología de Kimball para el diseño de almacenes de datos
(Data warehouses). Cuadernos de La Facultad, 5, 56–71. Retrieved from
http://www1.ucasal.edu.ar/htm/ingenieria/cuadernos/archivos/5-p56-rivadera-
formateado.pdf
Roo Huerta, A., & Boscán Romero, N. (2012). Business intelligence in the national bank:
An approach based on analytical tools. Revista Venezolana de Gerencia, 17(59), 548–
563. https://doi.org/10.31876/revista.v17i59.10914
Trigas Gallego, M., & Domingo Troncho, A. C. (2012). Gestión de Proyectos Informáticos.
Metodología Scrum. Openaccess.Uoc.Edu, 56. Retrieved from
http://www.quimbiotec.gob.ve/sistem/auditoria/pdf/ciudadano/mtrigasTFC0612memo
ria.pdf%5Cnhttp://openaccess.uoc.edu/webapps/o2/bitstream/10609/17885/1/mtrigasT
FC0612memoria.pdf
Wang, R. Y. (1998). A Product Perspective on Total Data Quality Management.
Communications of the ACM, 41(2), 58–65. https://doi.org/10.1145/269012.269022

57
Zhu, W., Luo, C., Wang, J., & Li, S. (2011). Multimedia cloud computing. IEEE Signal
Processing Magazine, 28(3), 59–69. https://doi.org/10.1109/MSP.2011.940269

58

También podría gustarte