Documento - Base Trabajo de Grado
Documento - Base Trabajo de Grado
Documento - Base Trabajo de Grado
TABLA DE CONTENIDO
1. INTRODUCCIÓN ............................................................................................ 10
2. JUSTIFICACIÓN ............................................................................................. 12
3. PLANTEAMIENTO DEL PROBLEMA ............................................................. 13
4. OBJETIVOS.................................................................................................... 14
4.1 OBJETIVO GENERAL .............................................................................14
4.2 OBJETIVOS ESPECÍFICOS ....................................................................14
5. MARCOS DE REFERENCIA .......................................................................... 15
5.1 MARCO CONCEPTUAL ..........................................................................15
5.2 MARCO TEÓRICO...................................................................................23
6. ESTADO DEL ARTE....................................................................................... 29
7. METODOLOGÍA ............................................................................................. 33
7.1 METODOLOGÍA PROPUESTA................................................................33
7.2 TIPO DE INVESTIGACION ........................ Error! Bookmark not defined.
7.3 NIVEL DE INVESTIGACION ...................... Error! Bookmark not defined.
7.4 TECNICAS E INSTRUMENTOS ..............................................................34
7.5 SPRINT BACKLOG ..................................................................................35
7.6 RESULTADOS .........................................................................................36
8. ESPECIFICACIÓN ......................................................................................... 39
9. DISEÑO .......................................................................................................... 45
10. DESCRIPCIÓN............................................................................................ 52
11. CONCLUSIONES ........................................................................................ 55
12. BIBLIOGRAFÍA............................................................................................ 56
4
INDICE DE FIGURAS
5
INDICE DE TABLAS
6
AGRADECIMIENTOS
7
NOTA DE ACEPTACIÓN
Jurado
Jurado
8
GLOSARIO
9
RESUMEN
10
ABSTRACT
11
1. INTRODUCCIÓN
13
2. JUSTIFICACIÓN
14
3. PLANTEAMIENTO DEL PROBLEMA
15
4. OBJETIVOS
16
5. MARCOS DE REFERENCIA
Las compañías que usan datos para tomar decisiones tienden a tomar
mejores las empresas que se autodenominan basas en datos fueron 5%
más productivas y 6% más rentables que sus competidores, según
diversas investigaciones, DataOps es una nueva práctica sin estándares
ni frameworks. Actualmente un número creciente de proveedores de
tecnología han comenzado a utilizar el término cuando hablan de sus
ofertas. El bombo está presente y DataOps se moverá rápidamente
hacia arriba. (Pinkel et al., 2015)
18
las tablas temporales, de esta manera el proceso de transformación queda
integrado en el motor de base de datos. (Freudenreich et al., 2013).
5.1.8 Bases de datos NoSQL: Estas bases de datos son reconocidas porque son
fáciles de desarrollar, su funcionalidad y el rendimiento a escala. Existen 4
tipos básicos de bases de datos: Clave-valor, permite el escalado horizontal a
escalas que otros tipos de bases de datos, utiliza una clave única y un puntero
a un determinado elemento de datos. Otro tipo de dato es el almacén de
documentos, que se encarga de recolectar los pares de Clave-valor y estos
se comprimen configurando un almacén de documentos en el que los valores
almacenados proporcionan cierta estructura y codificación de datos,
representadas de tipo JSON, de esta manera se convierte en un modelo de
datos eficiente e intuitivo para los desarrolladores. El siguiente es el almacén
de columnas o gráficos, en este caso, los datos se almacenan en celdas
agrupadas en columnas de datos, en lugar de filas de datos. Las columnas se
agrupan de forma lógica en familias de columnas, que puedan contener un
número prácticamente ilimitado de columnas, de esta manera se facilita la
creación y la ejecución de aplicaciones que funcionan con conjuntos de datos
altamente conectado. Por último, la memoria, es una base de datos de red
que utiliza bordes y nodos para representar y almacenar datos. Las
aplicaciones de juegos y tecnología publicitaria tienen casos de uso como
tablas de clasificación, tiendas de sesión y análisis en tiempo real que
requieren tiempos de respuesta de microsegundos y pueden tener grandes
picos de tráfico en cualquier momento, esto para servir cargas de trabajo de
baja latencia y alto rendimiento. (Martín, Chávez, Rodríguez, Valenzuela, &
Murazzo, 2013)
21
5.1.9 SQL Vs NoSQL: La diferencia fundamental entre ambos tipos de bases de
datos radica en que las bases de datos NoSQL no utilizan el modelo racional,
en la mayoría de los casos se debe utilizar NoSQL, por ejemplo, cuando el
presupuesto de la empresa no puede permitir grandes máquinas y debe
destinarse a máquinas de menor rendimiento o cuando las estructuras de
datos que manejamos son variables, o cuando se analizan grandes
cantidades de datos en modo lectura.
Las bases de datos NoSQL son no estructuradas y semiestructuradas, de
tipo documento, el cual usa documentos JSON. Un ejemplo de un software
que soporte las bases de datos NoSQL es MongoDB quien agrupa
documentos JSON en una colección. Es muy importante en que, aunque
parece que lo mejor es migrar a bases de datos NoSQL, debemos tener muy
en cuenta antes de tomar esta decisión si las características de nuestra base
de datos necesitan una base de datos NoSQL o relacional. (Cattell, 2010)
5.1.11 IaaS: Se refiere a los servicios online utilizados para direccionar detalles a
Nivel de infraestructura como recursos de infraestructura física, ubicación,
partición de datos, seguridad, etc. IaaS aumenta y disminuye rápidamente
con la demanda, permitiendo pagar por solo lo que usa. Evita el gasto y la
complejidad de comprar y administrar sus propios servidores físicos y otra
infraestructura de centro de datos. Cada recurso se ofrece como un
componente de servicio separado, y solo necesita alquilar uno en particular
durante el tiempo que lo necesite.
Normalmente, las empresas optan por usar IaaS por los entornos de
desarrollo pruebas, hospedaje de sitios web, almacenamiento, copias de
seguridad y como almacenamiento de servidores web y de aplicaciones. De
esta manera se elimina el gasto de capital y reduce los costos corrientes,
evita el gasto inicial de configurar y administrar un centro de datos local,
además, mejora la continuidad empresarial y la recuperación ante desastres,
enlazado con planes de continuidad de negocio, logra disponibilidad y
recuperación ante desastres de una manera más económica, pero requiere
una cantidad importante de tecnología y personal. (Manvi & Krishna Shyam,
2014)
b) Datamart OLTP:
Pueden basarse en un simple extracto de la data Warehouse, no
obstante, lo común es introducir mejoras en su rendimiento, en donde las
agregaciones y los filtrados suelen ser las operaciones más usuales,
aprovechando las características particulares de cada área de la
empresa. Las estructuras más comunes en este sentido son las tablas
report, que vienen a ser fact-tables reducidas que agregan las
dimensiones oportunas, y las vistas materializadas, que se construyen
con la misma estructura que las anteriores, pero con el objetivo de
explotar la reestructura de queries, aunque solo es posible en algunos
SGDB avanzados como Oracle. (Moody & Kortink, 2000)
24
5.2 MARCO TEÓRICO
Wang (Wang, 1998) establece una analogía entre la gestión de calidad total
(TQM) de productos físicos y la gestión de calidad de datos total (TDQM). Esto
con el fin de facilitar la implementación de políticas de calidad de datos. El
concepto de PI nació luego de analizar varios casos de problemas de calidad de
datos. Según Wang: “La información debe ser tratada como un producto que
satisfaga las necesidades específicas de un usuario (en todas las dimensiones
ya mencionadas). Por el contrario, la información usualmente es tratada como
un subproducto, haciéndose énfasis en el sistema en vez de hacerlo en el
producto, la información”.
En el proceso de producción PI participan tres actores: Los recolectores, los
custodios y los consumidores. Cada uno de los actores cumplen la función de
velar por la integridad de los datos. Los recolectores, son las personas,
programas o dispositivos encargados de reunir la información de acuerdo con
las necesidades del consumidor, en resumen, determinan la calidad inicial del
proceso. Los custodios son los responsables de la implementación de procesos
de almacenar, mantener y entregar la información a los consumidores,
manteniendo siempre los parámetros de calidad exigidos. Por último, los
consumidores son los encargados de los procesos de utilización de la
información. Determinan el significado de calidad aplicado a un PI.
25
Retroalimentan a los recolectores y custodios con las deficiencias encontradas
en la información suministrada.
Un dato elemental se define como la unidad mínima de datos que tiene sentido
dentro de un contexto operacional, por ejemplo, los atributos edad, sexo, lugar
de nacimiento, fecha de nacimiento serian datos elementales dentro del contexto
persona. En resumen, un IP sería una colección de instancias de datos
elementales que satisfacen las necesidades particulares de un consumidor.
Puntos de vista de la DQ
Características Dependiente del
Inherente
sistema
Exactitud X
Completitud X
Consistencia X
Credibilidad X
Actualidad X
Accesibilidad X X
Conformidad X X
Confidencialidad X X
Eficiencia X X
Precisión X X
Trazabilidad X X
Comprensibilidad X X
Disponibilidad X
Portabilidad X
Recuperabilidad X
Tabla 2. Modelo De DQ ISO/IEC 25012
Fuente: Elaboración Propia
Enfoque TDQM
Tiene como propósito entregar PI’s de alta calidad a los consumidores de datos,
facilitando la aplicación de políticas de calidad de datos globales en una
organización a nivel de gestión y de alta dirección. Para lograr esto, el enfoque
TDQM propone un ciclo de mejora continua de los PI´s, compuesto por cuatro
etapas determinadas: definir, medir, analizar y mejorar, como se muestra en la
figura 1.
27
Figura 1. Etapas de TDQM
28
Fuente: (Estefanía & Paspuel, 2014)
29
Los cambios aplicados se podrán monitorizar, para verificar en un tiempo
determinado su corrección o no, o si tienen que ser ajustados para incluir
nuevas variables.
30
6. ESTADO DEL ARTE
6.1
La inteligencia de negocios implica el proceso de conversión de datos relevantes
en información útil para la toma de decisiones estratégicas, mediante
herramientas analíticas, representada por los servicios de transformación de
datos.
A nivel mundial, la competencia en la industria financiera es cada día mayor
comprende una lucha constante dirigida a brindar productos y servicios acordes
a las necesidades actuales de los clientes, lo cual alude a un proceso complejo
que engloba recursos físicos, humanos y económicos, que viene ligada a los
cambios tecnológicos acelerados. Algunos casos exitosos se pueden describir a
continuación:
La necesidad de herramientas analíticas que faciliten la toma de decisiones,
de acuerdo con el grado de incertidumbre futura, se ha convertido en el punto
clave de toda organización… En este sentido, el cumplimiento de metas, las
fluctuaciones de los costos financieros, así como el nivel de satisfacción de
los clientes, tanto internos como externos.
Partiendo de esta premisa, la Asociación Bancaria de Venezuela (2010),
identifica dentro de las funciones básicas que deben ser realizadas por las
herramientas de inteligencia de negocios en toda institución financiera, a la
gerencia de riesgos y el procesamiento de información, a través de un
correcto intercambio entre las áreas de riesgo de las instituciones del
sistema, a fin de establecer un entorno homogéneo que apoye la toma de
decisiones. De acuerdo con estas teorías, el uso de las herramientas
analíticas dentro del contexto financiero hace posible que la inteligencia de
negocios exista en todos los niveles de la organización, transformando estas
necesidades de información en resultados concretos, convirtiéndose en
empresas competitivas ante las economías dinámica s que las caracterizan.
La correcta transformación de los datos manejados en las instituciones
financieras, en función de las reglas de negocio previamente definidas,
representa un elemento esencial para la toma de decisiones de forma rápida,
precisa y asertiva, constituyendo el propósito fundamental de la inteligencia
de negocios.(Roo Huerta & Boscán Romero, 2012)
6.2
Otro proyecto enfocado a esta misma problemática es llamado “Solución de
Business Intelligence utilizando tecnología SAAS. Caso: Área de proyectos en
empresa bancaria”, el cual, hace referencia a la misma problemática que se
encuentra en este proyecto contando con la gran diferencia de que este utiliza
una tecnología distinta.
31
Un trabajo de grado titulado “Business Intelligence adaptado a la migración
masiva de datos. Puesta en práctica con Powercenter” realizado por Lucia
Martínez Morales de la Escuela Técnica Superior de Ingeniería Universidad de
Sevilla dice,
Las herramientas de trabajo de Business Intelligence están integradas en dos
grupos, el grupo Back-end, constituido por herramientas encargadas de la
lógica interna, en el que analizaremos los procedimientos ETL (Extract,
Transformation and Loading), encargados de la extracción, traducción y
volcado de la información que proviene de multitud de fuentes a una base de
datos común llamada Data Warehouse. Por otro lado, tenemos el grupo de
herramientas de tipo Front-end creadas para la elaboración de informes y la
visibilidad de resultados finales facilitando a la empresa la obtención de datos
claros y efectivos.
… Por un lado, abordaremos el concepto de “Inteligencia de Negocio” (BI), el
cual engloba las actuales herramientas informáticas que dan apoyo a
proyectos de este calibre. Tras leer el trabajo completo se conocerá el
concepto de Business Intelligence, así como nueve de las herramientas que
forman parte de él junto a sus ventajas e inconvenientes y el estudio en
profundidad de una de ellas. Nos familiarizaremos también con el concepto
de base de datos y su importante intervención en el mundo de estos,
comprenderemos el flujo de trabajo dentro de la migración además de todos
los pasos minuciosos que se llevan a cabo para conseguir la puesta en
práctica con cero errores. (Ingenier, 2018)
Lo que hemos podido analizar en estos tres artículos, es que todos tienen algo
en común, y es que todos usan la inteligencia de negocio para avanzar en sus
respectivos proyectos, para que de esta manera se tenga un antes y un después
y así analizar cómo ha ido avanzando. Además, se refieren a la importancia del
Big Data, y del cómo se utilizan capacidades analíticas para extraer información
de cantidades increíblemente enormes de datos que se generan cada día por
clientes, empleados o usuarios.
Otro estudio basado en migración de datos fue el “Estudio del diseño de
transformación de datos utilizando la herramienta Spoon de Pentaho Open
Source Business Intelligence sobre plataforma Linux” que habla de cómo
solucionar el incremento continuo de la cantidad de datos ampliados por los
sistemas manejadores de bases de datos. ¿Cómo realizar una migración que
permita trasladar el 100% de la data que se encuentra almacenada de forma
aislada, transformando estructuras sin perder información importante para la
institución? Fue la pregunta que se resolvió en este proyecto.
6.3
El siguiente articulo denominado “Modelo para optimizar el proceso de gestión
de negocio combinando minería de procesos con inteligencia de negocios desde
almacenes de datos” presenta un modelo que optimiza procesos de negocio.
Esto se logró realizando iteraciones a un proceso especifico, donde se integra
BPM con minería de procesos y el modelo dimensional, restringiendo indicadores
numéricos.
Teniendo en cuenta la revisión y problemas detectados, se identificó el
método apropiado para diseñar e implementar el modelo propuesto en este
artículo, el cual integra BPM, Minería de Procesos, KPI, y Modelado
Dimensional. Para la especificación de las fases se siguieron los pasos que
indica el ciclo de vida BPM, que permite revisar, rediseñar, monitorear, y
optimizar procesos. La especificación de los componentes del modelo se
logró luego de la revisión de los trabajos propuestos por otros autores,
considerando sus componentes, funcionalidad, y carencias que a su vez
permitieron detectar problemas relacionados con el tratamiento de los datos.
La funcionalidad se determinó con un análisis detallado de los componentes,
teniendo en cuenta el flujo de trabajo de sus algoritmos.
33
registros de eventos se obtienen desde este enfoque aplicando minería de
procesos. Por último, para el componente de optimización se establece la
ejecución de un plan de mejora.(Giraldo Mejía et al., 2017)
6.4
Un trabajo de grado nombrado “Benchmarking entre pentaho y Tableau para
realizar el Business Intelligence del módulo de control de bienes de la Universidad
técnica del norte” el cual realiza un benchmarking entre las herramientas Pentaho
y Tableau. Después de un análisis se seleccionó una de ellas para realizar el
Business Intelligence en el módulo de control de bienes de la Universidad Técnica
del Norte.
Anteriormente las empresas dependían del departamento de informática para
generar reportes básicos o personalizados, esto sucedía cuando se trabajaba
con computadoras grandes y potentes, las cuales usaban bases de datos
gigantes y difícil de manejar. Con el paso del tiempo se desarrollaron otras
estrategias para manejar la información, con el fin de satisfacer las
necesidades y apoyar las actividades de usuarios y administradores. Con la
aparición de las computadoras y conexiones en red, las herramientas de
Inteligencia de Negocios fueron creciendo y utilizándose de manera más
eficiente para crear nuevos reportes más personalizados.
… En la actualidad, existen varias herramientas para desarrollar Inteligencia
de Negocios lo cual dificulta escoger el software más adecuado, la elección
depende del tipo de empresa, área, objetivos que requiera realizar … Esta
herramienta genera documentos y gráficos con de manera rápida y eficaz.
Permiten extraer los datos fácilmente, además de generar alarmas con base
en ciertos criterios programados de antemano.
En la siguiente figura se muestra un ejemplo de tablero de mando y podemos
visualizar una gran variedad de gráficos que dependen del software que
estemos usando y las necesidades del usuario al utilizar la aplicación.
(Estefanía & Paspuel, 2014)
34
7. METODOLOGÍA
35
Fase 4 – Análisis y Producción: Aquí, se procede a trabajar sobre los datos
extraídos en integrados en el paso anterior, utilizando herramientas y
técnicas de la tecnología de inteligencia de negocio, creando inteligencia.
Como resultado final de esta fase se obtendrán las respuestas a las
preguntas, mediante la creación de reportes, indicadores de rendimiento,
cuadros de mando, gráficos estadísticos, etc. …
36
A diferencia de la definición de las herramientas de consulta y análisis, que
básicamente se basan en sistemas relacionales y el resultado se presenta en
forma tabular las herramientas de minería de datos permiten extraer
patrones, tendencias y regularidades para describir y comprender mejor los
datos, además de predecir comportamientos futuros. Por lo que en
conclusión la minería de datos analiza los datos y el resto de las
herramientas mencionadas anteriormente, facilitan el acceso a la información
para que el análisis sea más efectivo, es decir, son instrumentos de apoyo a
la minería de datos
35
Análisis de Definición Plan Ejecución de Gestión de Análisis de
Riesgos proyecto tareas incidencias Resultados
Actualización
Realizar un plan Estimar tareas Lista priorizada Generación de
del
de lanzamiento (Costos, tiempo) de pendientes informes
conocimiento
7.4 RESULTADOS
Oracle DBeaver
DBeaver es un gestor universal de base de datos multiplataforma, que ofrece
soporte a las bases de datos más conocidas del mercado, destinada a
desarrolladores y administradores de bases de datos. Tiene una interfaz de usuario
bien diseñada, la plataforma basada en un marco de código abierto que permite
escribir múltiples extensiones, así como también es compatible con cualquier base
de datos.
Herramientas de ETL que fueron utilizadas en este proyecto fueron Visual Studio
SSIS, Pentaho y las diferentes bibliotecas utilizadas en Python para la creación de
ETL, como lo son Pandas, Numpy o Plotly, entre muchas otras. Las herramientas
36
ETL son los instrumentos principales que nos permiten construir un Data warehouse
o data mart, es un método informático de gestión de datos que consta de tres
etapas: Extracción (Extracción de datos desde distintas fuentes), Transformación
(Transformación de los datos mediante su limpieza, organización y correlación) y
carga (carga de los datos a determinado almacén de datos para poder ser
consultados, compartidos o analizados).
ETL SSIS
SSIS (SQL Server Integration Services) es un componente de Microsoft SQL Server
utilizado para migración de datos. SSIS permite llevar a cabo otros procesos, como
la limpieza, la agregación y la fusión de datos, entre otros. Facilita el traslado de
datos de una base de datos a otra y puede extraer datos de una amplia variedad de
fuentes. Adicional también incluye herramientas graficas y asistentes para realizar
funciones de workflows.
ETL Pentaho
Pentaho es una plataforma dirigida a los procesos de inteligencia de negocios
orientada a la solución de procesos que incluye los componentes requeridos para
implementar soluciones basadas en la minería de datos, ETL, generación de
informes, etc.
Adicional tiene una versión open source, en la que no es necesario adquirir licencias
para su uso, es multiplataforma y además una solución flexible que permite crear
nuevas funcionalidades o módulos, que se adaptan a las necesidades de las
organizaciones
ETL Python
Python es un lenguaje de programación que cada vez se utiliza mas por las
empresas y programadores que trabajan con datos. El motivo de que cada vez
cobra más importancia en su uso es en la gran cantidad de librerías existentes para
realizar prácticamente todo y mas aun si el objetivo es trabajar y gestionar datos,
también por lo optimizado que esta Python respecto a Java.
Existen librerías y herramientas que ayudan a crear un proceso ETL personalizado
desde cero. Petl, es una herramienta básica que ofrece la funcionalidad ETL
estándar importando datos de diferentes fuentes, adicionalmente admite todas las
trasformaciones estándar, como la operación de filas, la clasificación, la unión y la
agregación.
Y probablemente la biblioteca más importante y una de las mas populares en la
actualidad. Es usado para procesar datos, su aumento de popularidad se debe en
gran parte a su uso en la ciencia de datos, que es un campo de rápido crecimiento
en sí mismo. Pandas usa marcos de datos como estructura de datos para mantener
los datos en la memoria, admite una gran cantidad de funciones de análisis y
visualización de datos.
Las herramientas de visualización utilizadas son Power BI y Tableau, en donde se
evidencia una representación gráfica de la información, al utilizar elementos
visuales como cuadros, gráficos y mapas, las herramientas de visualización de
37
datos proporcionan una manera accesible de ver y comprender tendencias, valores
atípicos y patrones en los datos. A medida que la era del big data entra en pleno
apogeo, la visualización es una herramienta cada vez más importante para darle
sentido a los billones de filas de datos que se generan cada día.
El concepto de científico de datos esta en aumento. Los conjuntos de habilidades
están cambiando para adaptarse a un mundo basado en los datos. Para los
profesionales es cada vez mas valioso poder usar los datos para tomar decisiones
y usar elementos visuales para contar historias con los datos para informar quien,
que, cuando, donde y como. Dado que los científicos de datos tienen una
comprensión muy profunda de los datos, funcionan muy bien para llevar a las
organizaciones hacia el aprendizaje profundo, automático y la adopción de la
inteligencia artificial, ya que las compañías generalmente tienen los mismos
objetivos basados en datos.
EL objetivo principal de un científico de datos se desarrolla en el área de producción
en donde establece los modelos para refinar procesos y productos de acuerdo con
la información que recopila y analiza
Power BI
Es una herramienta que se utiliza principalmente pero no exclusivamente para crear
cuadros de mando que faciliten la toma de decisiones la información se puede
actualiza de manera automatizada o manual que permite la compartición de los
informes mediante la propia herramienta. Las capacidades principales que ofrece
Power BI facilitan cruzar datos, hacer cálculos y graficas sofisticadas de manera
relativamente sencilla, además permite importar datos y modelarlos a voluntad, esto
se traduce en tablas y graficas que permiten que el usuario interactúe con la
información seleccionando periodos de estudio, tipologías, de clientes o de
productos o aquellas otras dimensiones que necesite visualizar la persona que
consume la información
Tableau
Tableau es una herramienta de inteligencia de negocios que permite analizar,
compartir y visualizar grandes volúmenes de información en forma rápida, flexible y
amigable.
A diferencia de las herramientas tradicionales de inteligencia de negocios, Tableau
esta orientado a personas que manejen cualquier ámbito de negocio debido a la
facilidad de análisis que ofrece esta herramienta. Algunas funcionalidades que nos
ofrece esta herramienta se basan en como se refleja la información multidimensional
sobre su negocio, en base al análisis y la visualización de los mismos. Se destaca
por la flexibilidad y rapidez tanto en el procesamiento de los datos, como en la
obtención de resultados
38
8. ESPECIFICACIÓN
Es por esto que todo proceso debe ser dinámico e iterativo siguiendo una serie de
pasos que ayudaran a mejorar el proceso en cada iteración. El proceso empieza
con preguntas, y las respuestas son resultado de mas preguntas o de subsecuentes
interacciones del proceso.
Cada una de estas fases fueron definidas en la metodología y este paso a paso es
el que se genera en la gran mayoría de los procesos de inteligencia de negocio y
son los que expondrán en este proyecto. Las nuevas tecnologías están
revolucionando la forma en que las empresas toman sus decisiones más
importantes y estratégicas. Como ya se había definido los procesos se dividirán en
dos:
39
PROCESOS TRANSFORMADOS
Diagramas BPMN
Estos diagramas son un nuevo enfoque que ha venido adquiriendo
importancia en las organizaciones. Su propósito fundamental se basa en
definir procesos de negocio, rápidos, efectivos y transparentes a toda la
organización. Incluye un conjunto de mejores prácticas, tecnologías y
herramientas utilizadas para analizar, diseñar, implementar, controlar y
gestionar los procesos del negocio.
Una definición mas amplia la plantea el documento base de BPM de la
asociación internacional de Profesionales de BPM (Brusilovsky, 1999), que
dice “BPM es un enfoque sistemático para identificar, levantar, documentar,
diseñar, ejecutar, medir y controlar tanto los procesos manuales como
automatizados, con el propósito de obtener resultados consistentes para el
logro de los objetivos del negocio que están alineados con la estrategia
organizacional. BPM incluye el soporte integral de las tecnologías de
información para mejorar, innovar y gestionar los procesos que determinan
los resultados del negocio, crean valor para el cliente y facilitan el logro ágil
de los objetivos del negocio”.
BPMN ofrece una notación estándar sencilla que es fácil de entender por
parte de todas las personas relacionadas con los procesos del negocio.
Teniendo como uno de sus principales propósitos servir de lenguaje común
para disminuir la brecha de comunicación que se presenta entre las
actividades de análisis, diseño e implementación tecnológica de los procesos
de negocio.
Para entender mejor la notación básica de BPMN se enseñan algunos
conjuntos de elementos como se puede observar en la figura.
40
Elementos de Notación de BPMN
41
2) Para la realización del proceso ETL a través de los diferentes recursos que
ofrecen las herramientas destinadas a este desarrollo, como lo son Pentaho,
SSIS o las librerías de Python. En las entidades bancarias día a día se mueve
una gran cantidad de información y para realizar el debido seguimiento y
análisis a esta información se deben automatizar los procesos, procesos que
muestren fluidez, veracidad y puedan ser entregados de una forma rápida,
es por eso que es necesario ampliar esos conocimientos y utilizar nuevos
procesos para no atascar la información. De esta forma, explorando nuevas
herramientas encontramos a Python, pero la pregunta es, ¿Por qué necesitas
Python para el análisis de datos?, comenzando porque Python es un lenguaje
fácil de aprender a comparación de otros. Esto es importante debido a que al
tener barreras de aprendizaje más bajas es más fácil para los nuevos
miembros de la comunidad ponerse al día. La reproducibilidad de Python,
gracias a la gran cantidad de ecosistemas de paquetes de terceros un
análisis de datos escrito en un script de Python puede ser reproducido en
cualquier plataforma, es decir, es la habilidad de obtener los resultados
usando los mismos datos y análisis de manera rápida y sencilla. Python es
un lenguaje muy versátil, lo que hace que se integre con varias aplicaciones
existentes para permitir hacer cosas sorprendentes. Adicional a esto Python
provee un marco de trabajo que permite que cualquier persona combine
enfoques de diferentes disciplinas de investigación, tiene una gran
comunidad, es gratis, de código abierto y multiplataforma.
42
Librería Funcionalidad Forma de importar
Es un conjunto completo de
herramientas para trabajar con bases
de datos y Python. Tiene varias
SQLAlchemy áreas distintas de funcionalidad que
se pueden utilizar individualmente o
combinadas.
Es un módulo de extensión de
Cx_Oracle Python que permite el acceso a la
base de datos Oracle.
43
Es una interfaz de base de datos
simple que se basa en FreeTDS para
Pymssql proporcionar una interfaz Python
para Microsoft SQL Server
Es un modulo que proporciona
varias funciones y variables que se
Sys utilizan para manipular diferentes
partes del entorno de ejecución de
Python
Fernet es una librería que garantiza
que un mensaje cifrado no se pueda
Fernet manipular ni leer sin la clave. Es una
implementación de criptografía
autenticada simétrica
44
9. DISEÑO
45
De igual manera se debe describir de manera general el funcionamiento de
una ETL, siguiendo ciertos lineamientos para su perfecta ejecución. Se
cargan las tablas necesarias provenientes de distintas fuentes, se
seleccionan los campos, y por último esa data final se guarda en una tabla,
que será utilizada para su debido análisis o minería de datos
46
2. La realizacion de las ETL se tratan de la planificación estratégica para llegar
así al consenso de las decisiones empresariales. En este apartado
enseñaremos dos formas muy eficientes y eficaces para realizar ETL que
harán que la información no se sature y pueda salir lo mas pronto posible, Es
importante mantener la información centralizada, teniendo presente esto, es
importante tener en cuenta la diversidad de formatos, tipos y fuentes de datos
en los cuales se puede encontrar dicha información, se hace imprescindible
contar con procesos de extracción, transformación, limpieza y carga, junto
con métodos de integración de datos que permitan una vista unificada con la
mayor calidad posible. Para lograr lo anteriormente expuesto se utiliza la
herramienta Spoon perteneciente a Pentaho Data Integration (PDI) en la
implementación de transformaciones y trabajos desde su interfaz gráfica.
Otro método muy funcional para la realizacion de ETL es utilizando las
librerías de Python que ofrecen gran facilidad de manejo y una rápida
respuesta.
48
3. A continuación, después de tener nuestra base de análisis se pretende
explicar la importancia que tiene un cuadro de mando que permita
comunicar estrategias mediante los servicios web institucionales,
visualizar resultados y propiciar el análisis de los mismos. Tableau, permite
ser adecuado a cualquier planeación estratégica y tiene la capacidad de
medir la eficacia por perspectivas y dar una medición de eficacia de la
organización donde se utilice.
El siguiente reporte se realiza a partir de la información cargada, este
tablero de control enseña varios procesos y la ultima fecha en que fue
ejecutado dicho proceso, de esta manera se puede evidenciar que tablas
o que procesos no han sido ejecutados ese día y así llevar un seguimiento
más funcional de los procesos.
49
4. Finalmente, es necesario la automatización del proceso, por lo tanto, se
debe ejecutar dicha ETL de forma periódica todos los días, esto con el fin
de mantener la información actualizada y que todas las áreas interesadas
en esta información mantengan siempre el hilo de los datos para su
respectivo análisis. Es por esto qué hablaremos de crontab, que se puede
definir como el equivalente a Tareas Programadas de Windows. Crontab
es un simple archivo de texto que guarda una lista de comandos a ejecutar
en un tiempo especificado por el usuario. Crontab verifica la fecha y hora
en que se debe ejecutar el script o comando, configurando los permisos
de ejecución.
50
En el anterior archive de texto, denominado Shell, se evidencia que la
primera línea explica al sistema qué todos los comandos son un script
capaz de ser leído y ejecutado por el mismo. En la siguiente línea se debe
definir la ruta del programa que se quiere ejecutar. Y en la última línea,
con el comando Kitchen se utiliza para ejecutar el archivo. Primero se
define la ruta de la ETL o del script a ejecutar y luego la ruta del log donde
se almacenará todo el proceso.
51
10. DESCRIPCIÓN
Ahora haremos la comparación en todos los ámbitos de una ETL realizada en Spoon
y otra realizada en Python. Dos herramientas de fácil uso y que son un gran apoyo
para la toma de decisiones en la inteligencia de negocios. Normalmente Spoon no
es compatible con versiones posteriores, lo que significa que si usted decide
actualizar SQL Server o el motor de base de datos que maneje, también tendrá que
actualizar todas las transformaciones que haya realizado. Adicional a esto, si esta
utilizando una función obsoleta, es posible que deba rediseñar numerosos
paquetes. Ne cambio Python generalmente solo agrega características y deja la
funcionalidad existente intacta.
Podría ejecutar el argumento de que Python tiene una curva de aprendizaje
pronunciada y es más difícil de aprender que Spoon. En realidad, Python debería
tener una huella ligera en sus procesos ETL, y poder aprender todo lo que se
necesita saber sobre cómo hacer ETL con Python en unas pocas horas. Con eso
no se refiere a un conjunto inicial de información para comenzar y mejorar con el
tiempo. Se quiere decir, que todo lo que necesitaría saber sobre cómo mover datos
en el disco fuera de SQL Server con Python se puede aprender en unas pocas
horas. Compare eso con Spoon, que puede tardar meses en ser bueno y años en
dominarlo lo suficiente como para poder abordar cualquier escenario que se le
presente.
Cuando se diseñan procesos ETL es necesario pensar en los requisitos de
mantenimiento, referente a esto Python tiene una gran ventaja, que las clases se
construyen de la misma manera y la ejecución de una cosa no tiene nada que ver
con la otra. Un ejemplo de esto es la importación de datos, todos los datos se
introducen en el almacén de datos exactamente de la misma manera. Hay alguna
variación en la implementación según el caso de uso. Cada fuente de datos tiene
un proceso desarrollado que se dedica a extraer ese conjunto de datos especifico y
nada más. Ese proceso en ejecución no depende de ningún otro proceso de
extracción de datos que se ejecute antes o después
En cuanto a velocidad de lectura y escritura de datos, tiempo que tarda en ejecución
del proceso y facilidad de carga de datos, el programa arroja como resultado, la
extracción de datos de un archivo plano en un tiempo de 14.8 segundos a una
velocidad 3.375 registros por 58 segundo, que se cargan en una tabla de SQL
Server en un tiempo de 18.0 segundos a una velocidad de 2.780 registros por
segundo.
52
En cuanto a la facilidad de cargar los datos, se puede decir que no es fácil en la
primera interacción con la herramienta, es decir tiene algo de complejidad, tanto
en la conexión como creación de la estructura en la que se van a cargar los datos,
que deben ser del mismo tipo, para ello Spoon permite crear la estructura
directamente por medio de SQL.
53
Ahora, si queremos cargar los datos a un archivo de Excel, se debe primero leer
los datos del archivo plano, donde luego se cargar a un archivo de Excel. Como se
puede notar en la siguiente figura
54
11. CONCLUSIONES
55
12. BIBLIOGRAFÍA
Abadal, E., & Codina, L. (2005). Bases de datos documentales. Madrid: Síntesis.
Agarwal, P. (2019). Intelligent Economics. 11 April 2019, 1–20. Retrieved from
https://perspectives.eiu.com/sites/default/files/EIU_Microsoft - Intelligent
Economies_AI%27s transformation of industries and
society.pdf%0Ahttps://www.intelligenteconomist.com/demand-pull-inflation/
Bibliográfica, R. (2007). SCRUM - Metodologia de desenvolvimento ágil. Campo Digital,
2(1), 03–06.
Cano, J. L. (2007). Business Intelligence: Competir Con Información. Banesto, Fundación
Cultural, 397. Retrieved from
http://itemsweb.esade.edu/biblioteca/archivo/Business_Intelligence_competir_con_inf
ormacion.pdf
Cattell, R. (2010). Scalable SQL and NoSQL data stores. SIGMOD Record, 39(4), 12–27.
https://doi.org/10.1145/1978915.1978919
Devlin, B., Barry/Cote, & Doran, L. (1997). Data warehouse : from architecture to
implementation. Addison-Wesley.
Estefanía, G., & Paspuel, T. (2014). Universidad técnica del norte facultad de ingeniería en
ciencias aplicadas carrera de ingeniería en sistemas computacionales.
Fang, H. (2015). Managing data lakes in big data era: What’s a data lake and why has it
became popular in data management ecosystem. 2015 IEEE International Conference
on Cyber Technology in Automation, Control and Intelligent Systems, IEEE-CYBER
2015, 820–824. https://doi.org/10.1109/CYBER.2015.7288049
Feedback, T. (2014). Chapter 4 . Fitting a Model to Data.
Freudenreich, T., Furtado, P., Koncilia, C., Thiele, M., Waas, F., & Wrembel, R. (2013).
An on-demand ELT architecture for real-time BI. Lecture Notes in Business
Information Processing, 154, 50–59. https://doi.org/10.1007/978-3-642-39872-8_4
Gaspar Martinez, J. (2010). El plan de continuidad de negocio : guía prá ctica para su
elaboración. 224.
Giraldo Mejía, J. C., Jiménez Builes, J., & Tabares Betancur, M. S. (2017). Modelo para
optimizar el proceso de gestión de negocio combinando minería de procesos con
inteligencia de negocios desde almacenes de datos. Espacios, 38(2).
Hai, R., Geisler, S., & Quix, C. (2016). Constance: An intelligent data lake system.
Proceedings of the ACM SIGMOD International Conference on Management of Data,
26-June-2016, 2097–2100. https://doi.org/10.1145/2882903.2899389
Hayes, B. (2008). Cloud Computing. Communications of the ACM, 51(7), 9–11.
https://doi.org/10.1145/1364782.1364786
HERNANDEZ VELASCO, J. A. (2013). “ESTUDIO DEL DISEÑO DE
TRANSFORMACIÓN DE DATOS UTILIZANDO LA HERRAMIENTA SPOON DE
PENTAHO OPEN SOURCE BUSINESS INTELLIGENCE SOBRE PLATAFORMA
LINUX.”
56
Ingenier, G. (2018). Business Intelligence adaptado a la migración masiva de datos .
Puesta en práctica con Powercenter . Business Intelligence adaptado a la migración
masiva de datos . Puesta en práctica con Powercenter . Escuela Técnica Superior de
Ingeniería Universidad de. 1–83.
Khoshkholghi, M. A., Abdullah, A., Latip, R., Subramaniam, S., & Othman, M. (2014).
Disaster Recovery in Cloud Computing: A Survey. Computer and Information
Science, 7(4), 39. https://doi.org/10.5539/cis.v7n4p39
Kimball/Inmon. (2012). Enfoques de desarrollo DW.
Lerner, B. S., & Nico Habermann, A. (1990). Beyond schema evolution to database
reorganization. Proceedings of the European Conference on Object-Oriented
Programming on Object-Oriented Programming Systems, Languages, and
Applications, OOPSLA/ECOOP 1990, 67–76. https://doi.org/10.1145/97945.97956
Lomet, D. B. (2001). Bulletin of the Technical Committee on Data Engineering. Bulletin of
the Technical Committee on Data Engineering, 24(4), 1–56. Retrieved from
papers2://publication/uuid/30073F7F-1B7C-4496-ADA4-94FF4E6EE8F7
Manvi, S. S., & Krishna Shyam, G. (2014). Resource management for Infrastructure as a
Service (IaaS) in cloud computing: A survey. Journal of Network and Computer
Applications, Vol. 41, pp. 424–440. https://doi.org/10.1016/j.jnca.2013.10.004
Martín, A., Chavez, S., Rodriguez, N., Valenzuela, A., & Murazzo, M. (2013). Bases de
datos NoSql en cloud computing. XV Workshop de …, 166–170. Retrieved from
http://sedici.unlp.edu.ar/handle/10915/27121
Moody, D. L., & Kortink, M. A. R. (2000). From Enterprise Models to Dimensional
Models : A Methodology for Data Warehouse and Data Mart Design Objectives of
Dimensional Modelling. Proceedings of the 2nd Intl. Workshop DMDW’2000, 2000,
1–12.
Pinkel, C., Schwarte, A., Trame, J., Nikolov, A., Bastinos, A. S., & Zeuch, T. (2015).
DataOps: Seamless End-to-End anything-to-RDF data integration. Lecture Notes in
Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and
Lecture Notes in Bioinformatics), 9341, 123–127. https://doi.org/10.1007/978-3-319-
25639-9_24
Rivadera, G. R. (2010). La metodología de Kimball para el diseño de almacenes de datos
(Data warehouses). Cuadernos de La Facultad, 5, 56–71. Retrieved from
http://www1.ucasal.edu.ar/htm/ingenieria/cuadernos/archivos/5-p56-rivadera-
formateado.pdf
Roo Huerta, A., & Boscán Romero, N. (2012). Business intelligence in the national bank:
An approach based on analytical tools. Revista Venezolana de Gerencia, 17(59), 548–
563. https://doi.org/10.31876/revista.v17i59.10914
Trigas Gallego, M., & Domingo Troncho, A. C. (2012). Gestión de Proyectos Informáticos.
Metodología Scrum. Openaccess.Uoc.Edu, 56. Retrieved from
http://www.quimbiotec.gob.ve/sistem/auditoria/pdf/ciudadano/mtrigasTFC0612memo
ria.pdf%5Cnhttp://openaccess.uoc.edu/webapps/o2/bitstream/10609/17885/1/mtrigasT
FC0612memoria.pdf
Wang, R. Y. (1998). A Product Perspective on Total Data Quality Management.
Communications of the ACM, 41(2), 58–65. https://doi.org/10.1145/269012.269022
57
Zhu, W., Luo, C., Wang, J., & Li, S. (2011). Multimedia cloud computing. IEEE Signal
Processing Magazine, 28(3), 59–69. https://doi.org/10.1109/MSP.2011.940269
58