Descargue como DOCX, PDF, TXT o lea en línea desde Scribd
Descargar como docx, pdf o txt
Está en la página 1de 204
REPBLICA DEL ECUADOR
UNIVERSIDAD CATLICA DE CUENCA
COMUNIDAD EDUCATIVA AL SERVICIO DEL PUEBLO SEDE CAAR
FACULTAD DE INGENIERA DE SISTEMAS
TEMA: IMPLEMENTACIN DE UN DATA MART PARA LA TOMA DE DECISIONES EN EL REA DE COMERCIALIZACIN DE LA EMPRESA EMAPAT DEL CANTN EL TAMBO
TRABAJO DE INVESTIGACIN PREVIO A LA OBTENCIN DEL TTULO DE INGENIERO DE SISTEMAS
DIRECTOR: Ing. Luis Fernando Pinos Castillo AUTOR: Carlos Armando Montalvo Molina CAAR - ECUADOR 2014
I
DEDICATORIA Yo, Carlos Armando Montalvo Molina, estudiante de la Facultad de Ingeniera en Sistemas de la Universidad Catlica de Cuenca, Sede Caar dedico este trabajo a: mis padres Alcides Montalvo Y Alva Molina, porque creyeron en mi dndome un ejemplo digno de superacin y gracias a ustedes hoy estoy alcanzando mi meta.
A mis hermanos, gracias por haber fomentado en m el deseo de superacin.
A mi esposa que me brindo todo su apoyo y paciencia, a mi adorada hija que es la fuerza que me ayudan a seguir adelante.
A todos mis amigos que estuvieron a mi lado durante estos cinco aos apoyndome en las buenas y en las malas.
II
AGRADECIMIENTO Agradezco a Dios por la paciencia y sabidura que me ha dado durante estos aos de estudio.
Agradezco a la Universidad Catlica de Cuenca, Sede Caar en especial a todos los catedrticos de la Facultad de Sistemas que fueron docentes y amigos durante el tiempo que duro mi carrera.
En especial al ingeniero Luis Fernando Pinos Director de esta investigacin quien me brindo sus conocimientos, apoyo, y colaboracin en todo momento y sobre todo cuando ms lo necesite.
III
CERTIFICACIN
Ing. Luis Fernando Pinos Castillo. DIRECTOR DEL TRABAJO
CERTIFICA: Que he revisado el presente trabajo investigativo con el tema: IMPLEMENTACIN DE UN DATA MART PARA LA TOMA DE DECISIONES EN EL REA DE COMERCIALIZACIN DE LA EMPRESA EMAPAT DEL CANTN EL TAMBO, mismo que est de acuerdo a lo establecido por la Facultad de Ingeniera de Sistemas de la Universidad Catlica de Cuenca, Sede Caar, por consiguiente autorizo su presentacin ante el tribunal respectivo.
Caar,del 2014
_________________________________________________ Ing. Luis Fernando Pinos Castillo DIRECTOR DEL DISEO DE INVESTIGACIN
IV
AUDITORA
IMPLEMENTACIN DE UN DATA MART PARA LA TOMA DE DECISIONES EN EL REA DE COMERCIALIZACIN DE LA EMPRESA EMAPAT DEL CANTN EL TAMBO, es autora del suscrito estudiante como requisito previo, para la obtencin del Ttulo de Ingeniero en Sistemas.
Trabajo de investigacin que se sustenta en fuentes bibliogrficas de distintos autores, investigacin de campo y el aporte personal sobre IMPLEMENTACIN DE UN DATA MART PARA LA TOMA DE DECISIONES EN EL REA DE COMERCIALIZACIN DE LA EMPRESA EMAPAT DEL CANTN EL TAMBO
Caar, .Junio del 2014
_________________________________________________ CARLOS ARMANDO MONTALVO MOLINA AUTOR DEL TRABAJO INVESTIGATIVO
V
APROBACIN DEL TRIBUNAL
El tribunal designado por el Honorable Consejo Directivo de la Universidad Catlica de Cuenca, Sede Caar, Faculta de Ingeniera de Sistemas, instalado para receptar la sustentacin del trabajo investigativo con el tema IMPLEMENTACIN DE UN DATA MART PARA LA TOMA DE DECISIONES EN EL REA DE COMERCIALIZACIN DE LA EMPRESA EMAPAT DEL CANTN EL TAMBO transcurrido el tiempo reglamentario procede a consignar la calificacin de ..( /100)
Caar a de del 2014
____________________________ ____________________________ PRESIDENTE DIRECTOR
____________________________ ____________________________ DELEGADO DEL HONORABLE SECRETARIO CONSEJO DIRECTIVO
VI
INDICE
DEDICATORIA ....................................................................................................................... I AGRADECIMIENTO ............................................................................................................ II CERTIFICACIN ............................................................................................................... III AUDITORA .......................................................................................................................... IV APROBACIN DEL TRIBUNAL ....................................................................................... V INDICE ................................................................................................................................... VI INTRODUCCIN ................................................................................................................. IX EL PROBLEMA DE LA INVESTIGACIN. .................................................................... XI MARCO REFERENCIAL TERICO Y CONCEPTUAL. .............................................. XI MARCO METODOLGICO .............................................................................................. XI IMPLEMENTACIN DE LA PROPUESTA .................................................................... XI CAPITULO I ........................................................................................................................... 1 1.1 PLANTEAMIENTO DEL PROBLEMA .............................................................................. 1 1.2 FORMULACION DEL PROBLEMA .................................................................................. 2 1.3 OBJETIVOS ............................................................................................................................ 2 1.3.1 OBJETIVO GENERAL. ................................................................................................. 2 1.3.2 OBJETIVO ESPECFICOS. ........................................................................................... 2 1.4 JUSTIFICACIN DE LA INVESTIGACIN .................................................................... 2 1.5 LIMITACIN Y DELIMITACIN ..................................................................................... 3 CAPITULO II .......................................................................................................................... 5 MARCO REFERENCIAL, TERICO Y CONCEPTUAL ................................................ 5 2.1 ANTECEDENTES DE LA INVESTIGACIN .................................................................. 5 2.2 MARCO TERICO. ............................................................................................................. 7 2.2.1 FUNDAMENTACIN TERICA O BASES TERICAS. ........................................ 7 2.2.1.1 BUSINESS INTELLIGENCE ...................................................................................... 7 2.2.1.2 ARQUITECTURA DE UNA SOLUCIN DE BUSINESS INTELLIGENCE ....... 8 2.2.2.1 SISTEMAS DE SOPORTE A LA DECISIN (DSS) ................................................ 8 2.2.2.2 SISTEMAS DE INFORMACIN EJECUTIVA (EIS) ............................................. 9 2.2.3.1 DATAWAREHOUSE ................................................................................................... 9 2.2.3.2 CARACTERISTICAS DE UN DATAWAREHOUSE ............................................ 10 2.2.4.1 DATAMART ............................................................................................................... 10 2.2.4.2 DATA WAREHOUSE VS. DATA MART ................................................................ 11
VII
2.2.5.1 MODELO MULTIDIMENCIONAL ........................................................................ 12 2.2.5.2 ESQUEMA ESTRELLA. .......................................................................................... 12 2.2.5.3 ESQUEMA COPO DE NIEVE ................................................................................. 13 2.2.6.1 BASES DE DATOS MULTIDIMENSIONALES .................................................... 13 2.2.6.1.1 OLTP ......................................................................................................................... 14 2.2.6.2 OLAP ............................................................................................................................ 14 2.2.6.2 DIFERENCIAS ENTRE OLTP y OLAP ................................................................. 15 2.2.7.1 EVALUACIN DE HERRAMIENTAS DE BI ....................................................... 16 2.2.7.2 PENTAHO .................................................................................................................. 16 2.2.7.2.1 CARACTERSTICAS GENERALES: .................................................................. 16 2.2.7.3 JASPERSOFT ............................................................................................................ 17 2.2.7.3.1 CARACTERSTICAS GENERALES: .................................................................. 17 2.2.7.4 SPAGOBI ..................................................................................................................... 18 2.2.7.4.1 CARACTERSTICAS GENERALES: .................................................................. 18 2.2.7.5 OPENI .......................................................................................................................... 19 2.2.7.5.1 CARACTERSTICAS GENERALES: .................................................................. 19 2.2.7.6 PALO ............................................................................................................................ 20 2.2.7.6.1 CARACTERSTICAS GENERALES: .................................................................. 20 2.2.8.1 COMPARACIN DE FUNCIONALIDADES ......................................................... 21 2.2.9 FUNDAMENTACIN LEGAL. ................................................................................... 25 2.3. DEFINICIN DE TRMINOS BSICOS (Marco conceptual
VIII
3.9 ANLISIS DE VALIDEZ Y CONFIABILIDAD ............................................................... 37 CAPITULO IV ....................................................................................................................... 38 4.1 TTULO DE LA PROPUESTA ........................................................................................... 38 4.2PRESENTACIN .................................................................................................................. 38 4.3 OBJETIVO ............................................................................................................................ 38 4.4 JUSTIFICACIN ................................................................................................................. 39 4.5 FUNDAMENTACIN TERICA ...................................................................................... 41 4.6 DESCRIPCIN DE LA PROPUESTA ............................................................................... 41 4.7 FACTIBILIDAD DE LA PROPUESTA ............................................................................. 42 4.7.1 RECURSOS MATERIALES ........................................................................................ 42 4.7.2 RECURSOS FINANCIEROS ....................................................................................... 42 4.7.3 TALENTO HUMANO ................................................................................................... 42 4.7.4 LEGAL ............................................................................................................................ 43 4.8 DESARROLLO DE LA PROPUESTA ............................................................................... 43 4.8.1 DISEO DE LA ARQUITECTURA ............................................................................ 43 4.8.2 DESCRIPCIN DE LA ARQUITECTURA ............................................................... 44 4.8.3 ANLISIS DE LA FUENTES DE DATOS ................................................................. 45 4.8.4 MODELADO MULTIDIMENSIONAL ...................................................................... 48 4.8.5 DISEO DE LA BASE DE DATOS QUE SOPORTA A LOS CUBOS .................. 49 4.8.6 PENTAHO ...................................................................................................................... 50 4.8.6.1 PENTAHO DATA INTEGRATION ......................................................................... 51 4.8.6.2 CREACIN DE CUBOS CON MONDRIAN .......................................................... 51 4.8.6.3 PENTAHO REPORTING .......................................................................................... 52 4.8 EVALUACIN DE LA PROPUESTA ......................................................................... 53 CONCLUSIONES ................................................................................................................. 53 RECOMENDACIONES ....................................................................................................... 54 BIBLIOGRAFIA ................................................................................................................... 55 ANEXOS ................................................................................................................................ 57 ANEXO 1 ................................................................................................................................ 60 ANEXO 2 ................................................................................................................................ 96 ANEXO 3 ................................................................................................................................ 99
IX
NDICE DE CUADROS Cuadro N1: Diferencias entre un Data Warehouse y un Data Mart ........................... 11 Cuadro N2: Diferencias entre OLAP Y OLTP .............................................................. 15 Cuadro N3: Comparacin de herramientas de BI Open Source .................................. 23 Cuadro N4: Usabilidad, aspectos y comparacin final de las herramienta BI ........... 24 Cuadro N5: Plan de recoleccin de informacin. .......................................................... 31
NDICE DE GRFICOS Grfico N1: Arquitectura de la solucin ..................................................................................... 44 Grfico N2: Diagrama Entidad Relacin de la base de datos Emapat .................................. 47 Grfico N3: Modelo Relacional de la Base de Datos EMAPAT ................................................ 48 Grfico N 4: Modelo multidimensional en base a tablas relacionales para el cubo Emapat .. 49
X
INTRODUCCIN
La complejidad con la que hoy en da se manejan las instituciones en el Ecuador, exigen nuevos y ms altos estndares tecnolgicos. As mismo, los mltiples objetivos y responsabilidades a los que se tienen que integrar, necesitan cada vez ms de una mejor implementacin de las tecnologas de Inteligencia de Negocios, para optimizar la aplicacin del conocimiento cientfico a la solucin de los problemas existentes.
En la Empresa Municipal de agua potable EMAPAT del Cantn el tambo se hace evidente la necesidad de implementar un soporte para la consulta y el anlisis, de los datos para la toma de decisiones segn los distintos tipos de necesidades que se requieran, en este aspecto la implementacin de un Data Mart est estrictamente relacionado con la explotacin de la informacin adaptndose a los requerimientos del usuario final, obteniendo informacin que dar a conocer cules son los reportes y peticiones de informacin ms comunes y solicitados dependiendo de las necesidades planteadas en cada rea involucrada dentro de un ambiente organizacional.
EL presente trabajo investigativo pretende implementar una herramienta informtica (Data Mart) para automatizar el proceso de informacin para el rea de comercializacin de la empresa EMAPAT del Cantn El Tambo, la cual posibilitar la generacin de reportes que permitirn contestar preguntas relacionadas con los principales indicadores de rendimiento. El tema comprende el estudio de cuatro captulos cuyo contenido se describe brevemente a continuacin
XI
EL PROBLEMA DE LA INVESTIGACIN. El captulo 1, hace referencia al planteamiento del problema, los objetivos de la investigacin la justificacin y las limitaciones. Donde se indicar el por qu se realiza la investigacin, se plantea el problema de investigacin, limitaciones para el desarrollo de la investigacin y la delimitacin de la propuesta.
MARCO REFERENCIAL TERICO Y CONCEPTUAL. El captulo 2, se desarrolla el marco referencial de la investigacin la teora que conceptualizar fundamentara la prctica y temas de importancia referentes al mbito investigativo se delimitara hiptesis y variables conceptundolas y operacionando las de manera objetiva.
MARCO METODOLGICO El captulo 3, se describir la metodologa, nivel y tipo de investigacin, as tambin se realizaran un estudio estadstico de la poblacin y la muestra para determinar los instrumentos de recoleccin de informacin utilizados para la presente investigacin, que permitan garantizar la confiabilidad y valides de las tcnicas elegidas
IMPLEMENTACIN DE LA PROPUESTA El captulo 4, se determinara la propuesta de implementacin de un Data Mart para automatizar el proceso de comercializacin de la empresa EMAPAT del Cantn El Tambo. Por ltimo se incluir las Conclusiones, Recomendaciones, Bibliografa y Anexos.
1
CAPITULO I
1.1 PLANTEAMIENTO DEL PROBLEMA En la actualidad el uso de herramientas de inteligencia de negocios es fundamental para mejorar la gestin de las instituciones, el uso de esta tecnologa se traduce en mejores resultados y procesos que facilitan el anlisis de los datos que poseen las empresas para convertirlos en conocimiento e informacin til que apoyen a la toma de decisiones eficaz y oportuna.
La empresa de agua potable y alcantarillado EMAPAT del Cantn El tambo, cuenta desde hace varios aos con un sistema transaccional confiable que servira de soporte para realizar reportes basados en un modelo multidimensional que permitiran a la gerencia analizar los datos desde otra perspectiva
Por este motivo se pretende implementar un DataMart en el rea de comercializacin con el fin de agilizar los procesos para mejorar la toma de decisiones de la empresa EMAPAT del Cantn El Tambo.
2
1.2 FORMULACION DEL PROBLEMA De qu manera La implementacin de un Data Mart mejorara la eficiencia para la toma de decisiones en el rea de comercializacin de la empresa de agua potable y alcantarillado EMAPAT del Cantn el Tambo?
1.3 OBJETIVOS 1.3.1 OBJETIVO GENERAL. Implementacin de un Data Mart para la toma de decisiones en el rea de comercializacin de la empresa EMAPAT del Cantn El Tambo
1.3.2 OBJETIVO ESPECFICOS. Conocer los procesos de comercializacin que lleva a cabo la empresa EMAPAT. Implementar un Data Mart que cumpla con los reportes solicitados para facilitar la toma de decisiones en el rea de comercializacin de la empresa EMAPAT. Disear una Base de Datos Dimensional. Realizar las tablas de hechos y sus dimensiones. Realizar los reportes en el rea de comercializacin para la toma de decisiones a nivel gerencial.
1.4 JUSTIFICACIN DE LA INVESTIGACIN Las tasas que tienen que recaudar las entidades gubernamentales en el Ecuador por la prestacin de servicios a la ciudadana, son necesarios para mantener el funcionamiento de las instituciones
3
y el financiamiento de las obras de infraestructura as como de la administracin en las instituciones, de sta labor estn encargados los Gobiernos Autnomos Descentralizados del Pas. En el Gobierno Autnomo Descentralizado Intercultural Municipal del Cantn El Tambo quien realiza dichos cobros es la empresa Municipal de Agua Potable y Alcantarillado EMAPAT, y lo hace por la prestacin de servicios tales como el agua potable y alcantarillado.
La presente investigacin se justifica porque actualmente la empresa necesita saber los montos recaudados y los tiempos empleados, esto con el fin de identificar los consumos de los medidores de aguan potable que existen en el Cantn El Tambo, de acuerdo a estas cifras crear los indicadores a fin de planificar las actividades preventivas como la presencia o aumento de personal, la adquisicin de material y equipo.
Esta investigacin propondr el desarrollo de un DataMart para la mejorar las decisiones en el rea de comercializacin, aportando una herramienta de gran utilidad para el nivel estratgico de la empresa, y desde el punto de vista acadmico es justificable ya que contribuye con nuevos conocimientos a los alumnos de la Carrera de Ingeniera de Sistemas, fortaleciendo sus conocimientos y sirviendo de ayuda para trabajos posteriores.
1.5 LIMITACIN Y DELIMITACIN Limitacin
Corto tiempo para la investigacin. La falta de Equipos informticos en la empresa.
4
La falta de capacitacin de los empleados La falta de colaboracin de los empleados.
Delimitacin La presente investigacin se realiz en el Cantn El Tambo, Provincia del Caar, en la empresa de agua potable y alcantarillado EMAPAT ubicada en la calle Panamericana Norte.
5
CAPITULO II
MARCO REFERENCIAL, TERICO Y CONCEPTUAL
2.1 ANTECEDENTES DE LA INVESTIGACIN La tesis realizada en la Escuela Politcnica Nacional por Fernando Santiago Jimnez Camba y Edgar Rolando Zambrano Noguera, en el ao 2009, cuyo tema es Implementacin de un data Mart para el rea de capacitacin y consultora del centro de educacin continua CEC , sus principales conclusiones expresan lo siguiente:
La metodologa utilizada combina la gestin de proyectos propuesta en la metodologa de Harjinder, Prakash y SAS Institute, cubren aspectos necesarios para alcanzar una solucin efectiva, mantenible y escalable de forma independiente de la plataforma tecnolgica y de las herramientas de desarrollo que se utilicen para su implementacin.
Si bien en la actualidad existen diversas herramientas para el desarrollo de Data Marts, tanto propietario como software libre, es importante considerar aquella que se integre adecuadamente a la infraestructura existente en la empresa a la que se va a implementar la solucin.La implementacin del Data Mart permiti integrar los datos transaccionales e histricos con los que dispone la CEC de forma consolidada, por lo cual la informacin estratgica requerida por la
6
coordinacin se encuentra en plena disponibilidad, dejando a lado el acceso a la base de datos transaccional para su obtencin.
Otra tesis realizada por Fiorelly Shirley Guilln Rodrguez en la Universidad Privada del Norte cuyo tema es: desarrollo de un Data Mart para mejorarla toma de decisiones en el rea de tesorera de la Municipalidad de la Provincia de Cajamarca, Cajamarca Per 2012, sus principales conclusiones expresan lo siguiente: Se cumpli con el objetivo principal mejorando significativamente los resultados del proyecto, as mismo se logr la simulacin del rea de Tesorera. Con el desarrollo del data Mart los reportes anuales y mensuales para la mejor administracin de lo recaudado hacia las dems reas de la Municipalidad Provincial de Cajamarca. Se decidi usar las herramientas de software libre para la base de datos y para los procesos de extraccin y explotacin por sus bajos costos. En base a las caractersticas propias de la empresa el uso de la metodologa de Ralph Kimball resulta una solucin eficaz en tiempo y recursos debido a que abarca la solucin al problema en corto plazo. Se disea un modelo dimensional adecuado segn la cantidad y profundidad de datos que posee el Data Mart.
7
2.2 MARCO TERICO. 2.2.1 FUNDAMENTACIN TERICA O BASES TERICAS. En este captulo se analiza el problema planteado dentro de un sistema de conocimientos existentes para poderlo as formularlo tericamente. Se hace uso de los ejes conceptuales que permitan una propuesta coherente como son:
2.2.1.1 BUSINESS INTELLIGENCE Podemos definir Business Intelligence (BI) como el conjunto de metodologas, aplicaciones y tecnologas que permiten reunir, depurar y transformar datos de los sistemas transaccionales e informacin desestructurada (interna y externa a la compaa) en informacin estructurada, para su explotacin directa (reporting, anlisis OLTP / OLAP, alertas...) o para su anlisis y conversin en conocimiento, dando as soporte a la toma de decisiones sobre el negocio. (Sinnexus, 2013)
Se define tambin como el conjunto de estrategias y tecnologas que nos van a ayudar a convertir los datos en informacin de calidad, y dicha informacin en conocimiento que nos permitir una toma de decisiones ms acertada y nos ayude as a mejorar nuestra competitividad. (Ramos, 2011)
8
2.2.1.2 ARQUITECTURA DE UNA SOLUCIN DE BUSINESS INTELLIGENCE Una solucin de Business Intelligence parte de los sistemas de origen de una organizacin (bases de datos, ERPs, ficheros de texto...), sobre los que suele ser necesario aplicar una transformacin estructural para optimizar su proceso analtico. Para ello se realiza una fase de extraccin, transformacin y carga (ETL) de datos. Esta etapa suele apoyarse en un almacn intermedio, llamado ODS, que acta como pasarela entre los sistemas fuente y los sistemas destino (generalmente un datawarehouse), y cuyo principal objetivo consiste en evitar la saturacin de los servidores funcionales de la organizacin. La informacin resultante, ya unificada, depurada y consolidada, se almacena en un datawarehouse corporativo, que puede servir como base para la construccin de distintos datamarts departamentales. Estos datamarts se caracterizan por poseer la estructura ptima para el anlisis de los datos de esa rea de la empresa, ya sea mediante bases de datos transaccionales (OLTP) o mediante bases de datos analticas (OLAP) (Sinnexus, 2013)
2.2.2.1 SISTEMAS DE SOPORTE A LA DECISIN (DSS) Los sistemas de apoyo a la toma de decisiones DSS, constituyen una clase de alto nivel de sistemas de informacin computarizada. Los DSS coinciden con los sistemas de informacin gerencial en que ambos dependen de una base de datos para abastecerse de datos. Sin embargo, difieren en que el DSS pone nfasis en el apoyo a la toma de decisiones en todas sus fases, aunque la decisin definitiva es responsabilidad exclusiva del encargado de tomarla.(E. KENDALL, 2005)
9
2.2.2.2 SISTEMAS DE INFORMACIN EJECUTIVA (EIS) Cuando los ejecutivos recurren a la computadora, por lo general lo hacen en busca de mtodos que los auxilien en la toma de decisiones de nivel estratgico. Los sistemas de apoyo a ejecutivos ESS, ayudan a estos ltimos a organizar sus actividades relacionadas con el entorno externo mediante herramientas grficas y de comunicaciones, que por lo general se encuentran en salas de juntas o en oficinas corporativas personales.
A pesar de que los ESS dependen de la informacin producida por los TPS y los MIS, ayudan a los usuarios a resolver problemas de toma de decisiones no estructuradas, que no tienen una aplicacin especfica, mediante la creacin de un entorno que contribuye a pensar en problemas estratgicos de una manera bien informada. Los ESS amplan y apoyan las capacidades de los ejecutivos al darles la posibilidad de comprender sus entornos. (E. KENDALL, 2005)
2.2.3.1 DATAWAREHOUSE Data Warehouse es el proceso de extraer datos de diferentes aplicaciones, ya sean internas o externas, despus depurarlos y estructurarlos para que sean guardados en un almacn de datos. Este almacn de datos ser utilizado posteriormente para el anlisis BI. Todo este proceso requiere de una gran infraestructura hardware y software para llevar a cabo la transformacin de los datos.
10
El Data Warehouse es una gran base de datos corporativa que almacena los datos extrados a partir de diferentes fuentes, la informacin almacenada se utilizar en las consultas e informes. La informacin esta almacenada en diferentes periodos de tiempo, adems cabe resaltar que esta informacin no se modifica como en los sistemas transaccionales, sino que se incrementa.(Subiela, 2011)
2.2.3.2 CARACTERISTICAS DE UN DATAWAREHOUSE Integrado: se dice que los datos tienen que estar integrados ya que son los mismos tipos de datos que se usaran en todos los departamentos de la empresa, estos datos pueden ser de diferentes fuentes, un archivo de texto, una hoja de clculo o base de datos que tengan datos que se vinculen entre ellos. No Voltil: los datos de un Data Warehouse no se eliminan. Variable en el tiempo: Mientras pasa el tiempo los datos tienen que ser actualizados para fines de consulta de los usuarios. Temtico: los datos son organizados por temas para facilitar su uso.
2.2.4.1 DATAMART Son versiones ms pequeas de Datawarehouse. Estas versiones se crean usando algn criterio particular, como por ejemplo el lugar geogrfico, un departamento especfico de una empresa o institucin. Algunas corporaciones reemplazan completamente el concepto de tener un Datawarehouse central, por varios datamarts ms pequeos que se alimenten directamente de los sistemas operacionales.(Rivas, Rivera, & Lizama, 2007)
11
La creacin de los Data Marts es una estrategia particularmente apropiada cuando el DW central crece muy rpido y los distintos departamentos requieren slo una pequea porcin de los datos contenidos en l. La creacin de los Data Martsrequiere de algo ms que una simple rplica de datos: se necesitarn tanto la segmentacin como algunos mtodos adicionales de consolidacin.
2.2.4.2 DATA WAREHOUSE VS. DATA MART Un Data Warehouse, a diferencia de un Data Mart, se ocupa de varios temas y es implementado y controlado por una unidad central de una organizacin, tales como la tecnologa de la informacin corporativa (IT) normalmente. A menudo, se le llama un almacn de datos central. Por lo general, un almacn de datos rene los datos de varios orgenes de datos.
Ninguna de estas definiciones bsicas limita el tamao de un Data Mart o la complejidad de los datos de apoyo a las decisiones que contiene. Sin embargo, los data marts son ms pequeos y menos complejos que los Data Warehouse, por lo general son ms fciles de construir y mantener(Oracle Business Intelligence Standard Edition One Tutorial, 2010).
Cuadro N1: Diferencias entre un Data Warehouse y un Data Mart CATEGORIA DATA WAREHOUSE DATA MART ALCANCE CORPORATIVO LNEA DE NEGOCIO SUJETO MLTIPLE INDIVIDUAL FUENTES DE DATOS MUCHOS POCOS TAMAO (TPICO) 100GB-TB + <100 GB TIEMPO DE IMPLEMENTACIN MESES O AOS MESES
Fuente: Anlisis del investigador.
12
Elaborado por: Armando Montalvo.
2.2.5.1 MODELO MULTIDIMENCIONAL La tecnologa Datawarehousing debido a su orientacin analtica, impone un procesamiento y pensamiento distinto, la cual se sustenta por un modelamiento de Bases de Datos propio, conocido como Modelamiento Multidimensional, el cual busca ofrecer al usuario su visin respecto de la operacin del negocio, el Modelamiento Dimensional es una tcnica para modelar bases de datos simples y entendibles al usuario final. La idea fundamental es que el usuario visualice fcilmente la relacin que existe entre las distintas componentes del modelo. Los datos en un DW se modelan en data cubes (cubos de datos sera su traduccin literal), estructuras multidimensionales (hipercubos, en concreto) cuyas operaciones ms comunes son: Roll up (incremento en el nivel de agregacin de los datos). Drill down (incremento en el nivel de detalle, opuesto a roll up). Slice (reduccin de la dimensionalidad de los datos mediante seleccin). Dice (reduccin de la dimensionalidad de los datos mediante proyeccin). Pivotaje o rotacin (reorientacin de la visin multidimensional de los datos).
2.2.5.2 ESQUEMA ESTRELLA. En general, el modelo multidimensional tambin se conoce con el nombre de esquema estrella, pues su estructura base es similar: una tabla central y un conjunto de tablas que la atienden radialmente. El esquema estrella deriva su nombre del hecho que su diagrama forma una estrella,
13
con puntos radiales desde el centro. El centro de la estrella consiste de una o ms tablas de hecho, y las puntas de la estrella son las tablas llamadas dimensiones.
Este modelo entonces, resulta ser asimtrico, pues hay una tabla dominante en el centro con varias conexiones a las otras tablas. Las tablas dimensiones tienen slo la conexin a la tabla de hechos y ninguna ms.
2.2.5.3ESQUEMA COPO DE NIEVE La diferencia del esquema copo de nieve comparado con el esquema estrella, est en la estructura de las tablas dimensiones: las tablas dimensiones en el esquema copo de nieve estn normalizadas. Cada tabla dimensin contiene slo el nivel que es clave primaria en la tabla y la foreign key de su parentesco del nivel ms cercano del diagrama. (Vega, 2013).
2.2.6.1 BASES DE DATOS MULTIDIMENSIONALES Las bases de datos multidimensionales son una variacin del modelo relacional que utiliza cubos OLAP para organizar los datos y expresar las relaciones entre ellos. Las principales ventajas de este tipo de bases de datos son la versatilidad para cruzar informacin y la alta velocidad de respuesta. Esto las convierte en herramientas bsicas para soluciones de Business Intelligence o de Big Data, donde el anlisis de los datos resulta crucial.
14
2.2.6.1.1 OLTP Los sistemas OLTP (on-line transactional processing) son bases de datos relacionales (RDBMS) orientadas a transacciones. Una transaccin es una secuencia de operaciones llevada a cabo por una base de datos de manera atmica. Las operaciones pueden ser de cuatro tipos diferentes: SELECT, INSERT, DELETE y UPDATE. Al tratarse de un proceso atmico, cada transaccin solo tiene dos posibles finales: commit o rollback Las transacciones son el pilar de prcticamente cualquier programa de gestin o pgina web del mundo.(Technologies, 2013)
2.2.6.2 OLAP Los sistemas OLAP (on-line analytical processing) son bases de datos orientadas al procesamiento analtico. Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algn tipo de informacin til: tendencias de ventas, patrones de comportamiento de los consumidores, elaboracin de informes complejos etc.
Representando la informacin.-Un cubo OLAP no es ms que un vector de varias dimensiones. Desde un punto de vista relacional, puede verse como una tabla de hechos (fact table) que tiene dos tipos de columnas: Indicadores: tambin denominados mtricas o ratios, son los valores numricos con los que se opera. Por ejemplo: n de clientes, n de proveedores, importe de las ventas, n de ventas, importe de las compras, n de compras etc. Dimensiones: son las caractersticas por las que se pueden filtrar y cruzar los indicadores. Por ejemplo: tiempo (fijando un determinado da, mes o ao), geografa (fijando un determinado
15
pas, regin o ciudad), proveedor, cliente, modo de pago etc. Las columnas correspondientes a las dimensiones tienen claves forneas a tablas de dimensin, que generalmente son tablas de maestros con clave-valor (esquema en estrella) o tablas organizadas en jerarquas (esquema en copo de nieve) como: ciudad provincia pas. (Technologies, 2013) 2.2.6.2 DIFERENCIAS ENTRE OLTP y OLAP Mientras que las aplicaciones OLTP se caracterizan por estar actualizadas constantemente por varios usuarios a travs de transacciones operacionales sobre datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles ejecutivos que requieren datos con alto grado de agregacin y desde distintas perspectivas (dimensiones), como ser: totales de venta por regin, por producto, por perodo de tiempo..., etc. La siguiente tabla nos muestra la diferencia entre OLTP y OLAP. Cuadro N2: Diferencias entre OLAP Y OLTP OLTPOLAP Objetivo Control de Procesos Operacionales Toma de Decisiones Clientes Personal Operacional Gestores de Negocios Datos Atmicos, Actualizados y Dinmicos Estables Estructura Normalizada Dimensional Tiempo Respuesta Segundos De segundos a minutos Orientacin Orientado a Aplicaciones Orientado a Informacin Acceso Alto Moderado a Bajo Actualizacin Continuamente Peridicamente Aplicacin Estructuras y Procesos Repetitivos No Estructurados y Procesos Analticos Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
16
2.2.7.1 EVALUACIN DE HERRAMIENTAS DE BI Para el desarrollo de esta investigacin se decidi realizar la evaluacin de las diferentes herramientas de Data Warehouse y Business Intelligence Free Open Source Software existentes en el mercado.
Los pasos seguidos para la eleccin de la herramienta a utilizar fueron los siguientes: Investigacin de posibles herramientas a utilizar que cubran los requerimientos del proyecto. Preseleccin de un subgrupo de las herramientas investigadas sobre las cuales se realiza comparacin de las caractersticas funcionales generales y caractersticas de arquitectura. A continuacin se detalla el proceso de seleccin mencionado.
2.2.7.2PENTAHO La plataforma Open Source Pentaho Business Intelligence est basada en tecnologa Java y con un ambiente de implementacin tambin basado en Java lo que la hace una herramienta flexible y adaptable a varios ambientes. La plataforma posee mdulos de reportes, anlisis olap, cuadros de mando (Dashboards), extraccin de datos (DataMining), integracin de datos (ETL), administracin y seguridad. Posee una interfaz de usuario bastante amigable.
2.2.7.2.1 CARACTERSTICAS GENERALES: Versin Evaluada: Pentaho BI Suite Community Edition - 5.0.1 Estable, Junio 19 de 2013
17
Licenciamiento: GPL2, LGPL, MPL (Mozilla Public Licence) Versin Comercial: Pentaho BI Suite Enterprise Edicin (Mayor cantidad de funcionalidades) ComponentesPrincipales: ETL, Job Designer, Conectores, Repositorio Visual, Anlisis OLAP, Metadata, Data Mining, Reporting, Dashboards, BI Platform, Administration Server.
2.2.7.3 JASPERSOFT Jaspersoft proporciona inteligencia de negocio (BI) de autoservicio econmica y escalable. Diseada para entornos en la nube, mviles y Big Data, la suite de BI de cdigo abierto de Jaspersoft soporta decenas de miles de organizaciones y aplicaciones crticas de negocio todos los das.
Basado en tecnologa Java, est formada por herramientas para generar informes, integracin y anlisis de datos, dashboards y herramientas para administracin de la solucin. Posee una interfaz amigable al usuario.
2.2.7.3.1 CARACTERSTICAS GENERALES: Versin Evaluada: JasperSoft BI Suite Community - 4 Estable, Junio 2010 Licenciamiento: GPLv2 Versin Comercial: JasperSoft BI Suite Express Edition, Professional Edition y Enterprise Edition (Mayor cantidad de funcionalidades)
2.2.7.4 SPAGOBI Es una plataforma ya que cubre y satisface todos los requisitos de BI (Business Intelligence), tanto en trminos de anlisis y de gestin de datos, administracin y seguridad.
En el mundo analtico ofrece soluciones para la presentacin de informes, anlisis multidimensional (OLAP), minera de datos (Data Mining), tableros de mando (Dashboard) y consultas ad-hoc. Aade mdulos originales para la gestin de procesos de colaboracin a travs de anlisis dossiers y el anlisis de geo-referencia.
Cuenta con herramientas para la extraccin de datos, transformacin y carga (ETL y apoya al administrador en el mantenimiento de los documentos analticos, la gestin para el control de versiones y la aprobacin del flujos de trabajo (workflow), (Stratebi, 2011).
2.2.7.4.1 CARACTERSTICAS GENERALES: Versin Evaluada: SpagoBI Studio 4.2, Abril 2014 Licenciamiento: LGPL (GNU Lesser General Public License)
19
Versin Comercial: No existe, solo se cobra por Soporte a Usuarios, Proyectos y Mantenimientos. Componentes Principales: ETL, Reporting y Ad-Hoc Reporting, Anlisis OLAP, BI Platform, Administration, Charting, Dashboard, Cockpits interactivos, GEO/GIS, Data Mining, Query By example, Smart Filters, Accesible reporting, Consola de monitoreo en tiempo real, Repositorio Visual,SDK integrado, Dossier Analtico.(Stratebi, 2011)
2.2.7.5 OPENI En cualquier suite Business Intelligence, el componente del visor OLAP es fundamental. Las soluciones comerciales, llammoslas de 'toda la vida': Microsoft, Cognos, Microstrategy, Business Objects, siempre han invertido y dedicado muchos recursos a que el interfaz de usuario fuera lo ms potente, atractivo y usable posible.
OpeniProporciona soluciones de BI de extremo a extremo: Dashboards Interactivo Informes complejos trabajos ETL dimensionales Modelado OLAP Cube Design Modelos predictivos Lo hacemos todo aprovechando las herramientas de cdigo abierto.(Openi.org, 2014)
2.2.7.5.1 CARACTERSTICAS GENERALES: Versin Evaluada: OpenI Suite - 2.0 RC2, Julio 2010 Licenciamiento: GPLv2 (GNU General Public License versin 2)
20
Versin Comercial: No Componentes Principales: Anlisis OLAP, Reporting y Dashboards para servidores ROLAP.
2.2.7.6 PALO Palo Suite combina todas las aplicaciones bsicas - OLAP Server, Palo Web, Palo ETL Server y Palo para Excel - en una plataforma de Business Intelligence completa y personalizable. La plataforma est completamente basada en productos de cdigo abierto que representan una alta gama de soluciones de Business Intelligence que est disponible completamente libre de cuotas por licencias (Palo, 2013).
2.2.7.6.1CARACTERSTICAS GENERALES: Versin Evaluada: Palo Suite, Abril 15 de 2010 Licenciamiento: GPLv2 (GNU General Public License versin 2) Versin Comercial: Palo Suite Premium Edition (garanta extendida del software y funcionalidades de soporte). Componentes Principales: Multidimensional OLAP Server (MOLAP) , Web server, Palo ETL Server y Palo para integracin con Excel, Palo Modeler, PaloReport Manager
21
2.2.8.1 COMPARACIN DE FUNCIONALIDADES Tomando en cuenta la cantidad de plataformas Open Source de Business Intelligence que se encuentran en el mercado es necesario diferenciar cada uno de sus componentes y sus caractersticas para tomar la opcin que ms se ajusta a los requerimientos de este proyecto. Las caractersticas de las plataformas que se evaluaron fueron las siguientes: Herramientas de soporte a ETL Operaciones y componentes para anlisis OLAP Herramientas de Reporting Documentacin brindada Usabilidad y amigabilidad con el usuario
Para la comparacin y evaluacin de las plataformas se definieron ciertas medidas que permiten evaluar los distintos productos seleccionados y acercarse a la decisin ms apropiada. Se evaluaron y compararon cada uno de los componentes por separado tomando el siguiente rango de evaluacin segn sus funcionalidades:
Nivel A: El componente existe y posee una cantidad de funcionalidades superior a la media. Nivel B: El componente existe pero posee una cantidad media de funcionalidades. Nivel C: El componente existe pero posee escasa o pobre cantidad de funcionalidades con respecto a la media. Nivel D: El componente no se encuentra como una caracterstica de la plataforma pero puede ser reemplazado por otro o implementado fcilmente.
22
Nivel E: El componente no se encuentra como una caracterstica en la plataforma y se desconoce si puede ser reemplazado por otro.
A partir de estos 5 niveles se genera una escala de valores numricos, los cuales van desde A=5 (mximo) hasta E=1 (mnimo). Las calificaciones fueron realizadas en base a material encontrado en la web como revisiones de especialistas, videos explicativos, foros y tutoriales.
En esta seccin comparamos algunas de las herramientas de ETL que existen en el mercado. Se evalo la capacidad de extraccin de datos desde los distintos tipos de orgenes, su transformacin, su transporte y la carga de los mismos hacia el DW. Para realizar las comparaciones se analizaron foros, artculos cientficos y video-tutoriales de las mismas para diferencias las distintas capacidades en cada una de ellas.
Se evalan las capacidades de anlisis OLAP ofrecidos por cada plataforma. En particular las mismas deben contar con un motor o servidor de cubos y un componente visual que permita realizar las operaciones OLAP.
23
Estos componentes en conjunto proveen la capacidad de consultar grandes cantidades de datos en el DW utilizando estructuras multidimensionales (o Cubos OLAP) y a su vez permiten interactuar visualmente con esta informacin.
Se comparan las capacidades de las plataformas para la creacin y visualizacin de reportes, la siguiente tabla muestra cada una de las plataformas y su respectiva evaluacin.
Cuadro N3: Comparacin de herramientas de BI Open Source Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
En esta seccin evaluamos el uso de los componentes de las plataformas. Lo que se busca es medir la facilidad o complejidad con que las personas pueden utilizar cada una de las HERRAMIENTA ETL Plataforma Herramienta Evaluacin Pentaho Pentaho Data Integration (Kettle) B Jasper Soft Jasper ETL (Basado en TOS) A SpagoBI TOS (Talend Open Studio) A OpenI N/A D Palo Palo ETL Server C OPERACIONES Y COMPONENTES PARA ANLISIS OLAP Pentaho JPivot/Mondrian B Jasper Soft JPivot/Mondrian B SpagoBI JPivot/Mondrian - JPalo/Mondrian - JPivot/XMLA Server A OpenI JPivot/Mondrian - JPivot/XMLA Server A Palo Palo (MOLAP) B HERAMIENTAS DE REPORTING Pentaho Pentaho Report Designer, JasperReport, Birt A Jasper Soft JasperReport B SpagoBI JasperReport, BIRT B OpenI N/A D Palo Palo Report Manager C
24
herramientas de las plataformas mencionadas. En aspectos generales la clasificacin de estas plataformas es subjetiva, creada en esta etapa de evaluacin y lo que busca es clasificar una plataforma segn sus capacidades en general, adems de la calidad y cantidad de herramientas provistas por sta en comparacin con las dems.
La siguiente tabla muestra los resultados finales de cada uno de los puntos marcados anteriormente adems del promedio final de cada una de las plataformas.
Cuadro N4: Usabilidad, aspectos y comparacin final de las herramienta BI
Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
USABILIDAD Plataforma Usuarios Administradores Desarrolladores Promedio Pentaho A A B A Jasper Soft B B B A SpagoBI B A B A OpenI A B B D Palo B B B C ASPECTOS GENERALES Plataforma No tcnicos Otros Promedio Pentaho A A A Jasper Soft A A A SpagoBI A A A OpenI B B B Palo B B B CONPARACIN FINAL Plataforma Evaluacin Pentaho A Jasper Soft B SpagoBI B OpenI D Palo C
25
2.2.9 FUNDAMENTACIN LEGAL. El diseo y la investigacin que involucra el presente trabajo, estn sustentados en las disposiciones y reglamentacin emitida por el Vicerrectorado de Investigacin de la Universidad Catlica de Cuenca y sujeto a las disposiciones de la Ley Orgnica de Educacin (LOES) que en su Art. 8 literal f, al referirse a los Fines de la Educacin Superior establece: Fomentar y ejecutar programas de investigacin de carcter cientfico, tecnolgico y pedaggico que coadyuven al mejoramiento y proteccin del ambiente y promuevan el desarrollo sustentable nacional
El Reglamento de Graduacin y Titulacin de las distintas Facultades de la Universidad Catlica de Cuenca, sede Caar, dispone como un requisito para la obtencin del ttulo: Haber elaborado, sustentado y aprobado un trabajo tcnico prctico de graduacin relativo a la carrera.
2.3. DEFINICIN DE TRMINOS BSICOS (Marco conceptual) Business Intelligence: Se denomina Business Intelligence o inteligencia de negocios al conjunto de estrategias y herramientas enfocadas a la administracin y creacin de conocimiento mediante el anlisis de datos existentes en una organizacin o empresa. DSS (Decision Support Systems): Sistemas de soporte a la toma de decisiones es un sistema de aplicaciones automatizadas que asiste a la organizacin en la toma de decisiones mediante un anlisis estratgico de la informacin histrica. Data Warehouse: en espaol Almacn de datos, es una coleccin de datos orientada a un dominio, integrada, no voltil y que vara en el tiempo.
26
Dama Mart: es una implementacin de un Data Warehouse con un mbito de datos y funciones ms pequeo que un Data Warehouse, que sirve a un departamento nico de la organizacin. Una organizacin generalmente tiene varios Data Marts Cubo: una coleccin de dimensiones y medidas en un rea temtica particular. Dimensin: Atributos de los datos a analizar, no son ms que los filtros que podemos aplicar a nuestros datos, tanto filas como columnas. Esquema en estrella: Organizacin fsica de los Data Marts que facilita el acceso a los datos y al anlisis. Se caracteriza por tener una tabla central de hechos rodeada por tablas de dimensiones que contienen informacin desnormalizada de los hechos. ETL: Son las siglas en ingls de Extraer, Transformar y Cargar. Es el proceso que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos, limpiarlos, y cargarlos en otra base de datos o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. Data Mining: en espaol Minera de Datos Conjunto de tcnicas para la induccin de conocimiento til a partir de masas muy grandes de datos. Tiene un solapamiento importante con otras disciplinas como la estadstica tradicional, el reconocimiento de patrones, la inteligencia artificial, etc. OLAP(Procesamiento Analtico en Lnea): consiste en la realizacin de consultas a estructuras multidimensionales que contienen datos resumidos. Su objetivo fundamental es lograr altas velocidades en consultas complejas. OLTP(Procesamiento Transaccional en Lnea):es un tipo de procesamiento que facilita y administra aplicaciones transaccionales, usualmente para entrada de datos y recuperacin y procesamiento de transacciones (gestor transaccional). Base de Datos: Una base de datos o banco
27
de datos es un conjunto de datos que pertenecen al mismo contexto almacenados sistemticamente para su posterior uso.
28
CAPITULO III MARCO METODOLGICO 3.1 METODOLOGA La presente investigacin se basara en un enfoque cualitativo, en virtud de que se parte de las realidades existentes en la empresa EMAPAT del Cantn El Tambo, se buscara las causas y la explicacin de los hechos, este enfoque permitir partir del problema y objetivos previamente definidos, plantear la solucin del problema para el anlisis correcto de la informacin.
3.2 NIVEL DE INVESTIGACIN El proceso de investigacin es primordial para conocer a profundidad la problemtica por la cual es necesaria la implementacin de un Data Mart en la empresa EMAPAT del Cantn El Tambo.
Investigacin Exploratoria: La investigacin pasar por el nivel de investigacin exploratoria porque sondear un problema poco investigado o desconocido en un ambiente determinado, especialmente para definir el tema de investigacin.
Investigacin Descriptiva: Es descriptiva porque se buscara informar los resultados obtenidos de la investigacin, tomando encuentra criterios de coherencia interna y pertinencia.
29
3.3 TIPO DE INVESTIGACIN Por el objeto de estudio.- Es aplicada por que se implementar una herramienta de inteligencia de negocios para mejorar el desempeo diario de la gerencia de la empresa Emapat del Cantn El Tambo.
Segn el nivel de medicin.- Es cualitativo por que estar basada en la interpretacin de los valores, las ideas, las prcticas y desarrollo de los procesos.
Segn la ubicacin temporal.- Es longitudinal debido a que la bibliografa requerida para el estudio se encuentra en libros, textos, blogs, documentos de apoyo e Internet.
3.4 MTODOS DE INVESTIGACIN Investigacin Documental: ya que est basado en la obtencin y anlisis de datos provenientes de materiales digitales u otro tipo de documentos como es la recoleccin de datos en la realidad donde ocurre el hecho.
Investigacin de Campo: La investigacin tendr la modalidad de campo porque el investigador acudir al lugar en donde se producen los hechos para obtener informacin relacionada con los objetivos de la investigacin.
30
3.5 POBLACIN Y MUESTRA La poblacin que se estudiara en esta investigacin, est compuesta por un determinado o limitado nmero de personas. Esta poblacin finita consta de 5 empleados, de la empresa EMAPAT del Cantn El tambo.
3.6 TIPOS DE MUESTREO Por ser pequea la poblacin a ser investigada no se utilizar ninguna tcnica de muestra.
3.7 TCNICAS E INSTRUMENTOS PARA RECOLECCIN DE LA INFORMACIN Tiene tambin que ir algo o sino debe eliminarse el titulo 3.7.1 ENTREVISTA Dirigido al Gerente y al encargado del rea Financiera de la empresa EMAPAT, dado que su conocimiento servir como gua de la entrevista para recaudar informacin de procesos para el desarrollo de los reportes y manejo de la informacin de la institucin.
3.8 PRESENTACIN, ANLISIS E INTERPRETACIN DE RESULTADOS En este captulo se presentan los resultados a las entrevistas realizadas en la visita a la empresa de agua potable EMAPAT del Cantn El Tambo. Dichas entrevistas fueron realizadas selectivamente a personas que estn estrechamente relacionadas con el proceso de toma de decisiones de la empresa, las personas elegidas para la entrevista fueron el Ingeniero Galo Garca Gerente y la Ingeniera Mara Eugenia De La Torre encargada del rea Financiera de la empresa EMAPAT.
31
Las entrevistas fueron realizadas con base a un cuestionario previamente desarrollado, involucrando temas claves para fines prcticos de esta investigacin. Es importante recalcar que la entrevista es de tipo semiestructurada, por lo que no son preguntas concretas sino que se fueron adaptando de acuerdo a la situacin de cada entrevistado.
3.8.1 PLAN DE RECOLECCIN DE INFORMACIN Para concretar el plan de recoleccin de informacin, conviene contestar ciertas preguntas que las planteamos a continuacin:
Cuadro N5: Plan de recoleccin de informacin. Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo. PREGUNTAS BSICAS EXPLICACIN Para que? Para alcanzar los objetivos de la investigacin.
De qu persona u objeto? Sujetos: Gerente, encargada del rea Administrativa.
Sobre qu aspectos? La forma en que se realizan los reportes. Quin, quienes? Investigador
Cuando? Fecha tentativa: Enero 12 de 2014
Donde? Oficinas: del Gerente de la empresa Emapat.
Cuantas veces? Una vez Qu tcnica de recoleccin? Entrevista Con qu? Cuestionario ,gua de la Entrevista En qu situacin? Durante la jornada de trabajo.
32
3.8.2 ENTREVISTAS REALIZADA AL GERENTE Y ENCARGADA DEL REA ADMINISTRATIVA
Cuadro #1: Entrevista al Gerente de la empresa Emapat Entrevista al Gerente de la empresa Emapat. Nombre: Galo Garca. Ttulos Obtenidos: Ing. Civil Experiencia en el Trabajo: Actividades profesionales durante 3 aos en la empresa. 1. cmo describira su papel y sus tareas al interior de la empresa EMAPAT?
Soy el encargado de la Gerencia de la empresa Emapat del Cantn el Tambo, mi funcin al frente de esta institucin es coordinar las labores que se realizan en la administracin del sistema de agua y alcantarillado.
2. Cuantos aos trabaja en la empresa?
Me encuentro laborando tres aos en la institucin.
3. Podra darnos a conocer cmo est conformada la estructura orgnica de la empresa Emapat?
Existe un orgnico funcional que est compuesto por un directorio, la gerencia y los departamentos Financiero y de Talento Humano. El Departamento financiero es el responsable de los cobros por los servicios que presta la institucin, realiza los pagos a los empleados y trabajadores, y por los consumos que realiza la empresa para el desarrollo de sus actividades.
Departamento de Talento humano que se encarga de controlar y manejar el desempeo del personal que labora en la empresa.
33
Tambin existen asesores que brindan ayuda tanto a nivel informtico como jurdico. En la empresa existe una cuadrilla de trabajo y los operadores que se incluyen en la cuadrilla con diferentes rangos jerrquicos para realizar el mantenimiento de los sistemas como en la operacin de las plantas de tratamiento, en este nivel existen tambin algunos auxiliares. Para llegar a ser un total de veinte y seis persona que trabajan en la empresa.
4. Cules creen ustedes que seran las fortalezas y debilidades que mantiene la empresa?
Los puntos ms fuertes considera el ingeniero Garca que es el capital humano, cree en el esfuerzo que hace la gente con errores y aciertos con un buen nivel de trabajo y la interrelacin que se tiene entre compaeros. Y en las debilidades comenta que los sistemas informticos no estn acorde con la realidad actual pero ya se est trabajando para en el futuro prximo mejorar la infraestructura de estos sistemas.
5. Qu informacin considera usted sera la ms relevante y que debe llegar a su conocimiento para el desarrollo de su actividad?
Conjuntamente con la Ingeniera Torres estamos trabajando en los ingresos recaudados, nosotros brindamos el servicio de agua potable y alcantarillado y por lo general el fin de mes tenemos problemas con el gasto corriente ya que se tiene que pagar las nminas de todos los sueldos de los empleados de la empresa, por lo tanto la informacin que se solicita a la Ingeniera Torres es como nos vamos a proyectar para el siguiente ao en funcin de los ingresos o gastos que tememos durante el periodo fiscal y a ms de ello como hemos cerrado las brechas que existen en la empresa. 6. Qu tipo de reportes analizan actualmente?
Bsicamente numricos generados en plantillas de Excel. 7. Cree que Los reportes que se realizan con el actual sistema cubren con toda las necesidades de la gerencia para el anlisis y toma de decisiones?
No, ya que tomo mucho tiempo analizar los datos numricos.
34
8. Cree que es necesario realizar los reportes de manera grfica?
Si, seria de mucha ayuda para la gerencia tener reportes grficos que ayuden a tomar decisiones correctas en el tiempo correcto.
Anlisis e Interpretacin.- El desempeo de una institucin mucho tiene que ver con que sta cuente con los aspectos bsicos necesarios para un funcionamiento adecuado. De acuerdo a lo indicado por el entrevistado y tomando en cuenta las respuestas y sugerencias del Ingeniero Galo Garca Gerente de la empresa de agua potable EMAPAT, que consideran de mucha importancia la creacin de una herramienta de inteligencia de negocios que les ayude a realizar los reportes de manera grfica y numrica, con el fin de agilizar los procesos y disminuir los tiempos usados para realizar dichos reportes.
Se ha visto la necesidad de mejorar el sistema transaccional de cobros por el servicio, ya que se requiere sectorizar la informacin en cuanto a los medidores de agua del cantn, porque muchos medidores tienen la calle como referencia pero no el sector en donde estn ubicados. Este trabajo lo tiene que realizar las personas que laboran en la empresa conjuntamente con el administrador del sistema, lo que concuerda con el tema que fue tratado en la entrevista y que enfoca la necesidad de realizar reportes por sectores. Fuente: Empleado de la empresa Emapat del Cantn el Tambo Elaborado por: Armando Montalvo.
Cuadro#2: Entrevista a la encargada del rea Administrativa Entrevista al encargado del rea Administrativa de la empresa Emapat. Nombre: Mara Eugenia De La Torre. Ttulos Obtenidos: Ing. Empresarial Experiencia en el Trabajo: Actividades profesionales durante seis aos en la empresa.
1. Podra darnos a conocer cuntos aos trabaja en la empresa Emapat?
Me encuentra laborando seis aos en la empresa
35
2. cmo describira su papel y sus tareas al interior de la empresa EMAPAT?
Se encarga de la parte financiera y contable, todo lo que se refiere a la recaudacin de ingresos y la erogacin de los gastos de la empresa.
3. Qu tipo de informacin recibe Usted para analizarla?
Principalmente los ingresos para analizar la recaudacin mensual con el fin ver si se estn cumpliendo los objetivos previstos durante el ao. Y los egresos para revisar el flujo de gastos de acuerdo a los ingresos recaudados. 4. Cules son los principales reportes que el gerente le solicita?
Tiene que ver con la recuperacin de los ingresos y acuerdo a la planificacin que hacemos al inicio del mes con el fin de ver si se est cumpliendo la meta, por ejemplo si se ha planificado recaudar un ochenta o noventa por ciento de lo planeado. Aqu es donde surge el problema de que los reportes se lo hace de forma manual por lo tanto se tarda en verificar como est la recaudacin. 5. Qu tipo de reportes se realiza?
Los reportes que generalmente hacemos son: Medidores con mayor consumo. Verificar picos en los medidores para detectar fugas. Media de consumos por ao. Media de consumos por mes.
6. Cmo piensa usted que deberan ser los reportes que se entregan a la gerencia: numrica, grfica o de las dos formas?
Las dos formas seran de gran ayuda para poder realizar los reportes.
36
Anlisis e Interpretacin.- de acuerdo con el crecimiento poblacional del Cantn El Tambo y por ende el aumento de usuarios de consumo de agua, est clara la necesidad de dar un servicio de calidad a la poblacin. Esto hace necesario modificar la forma en que se analiza la informacin, utilizando herramientas tecnolgicas que ayuden a este fin. La propuesta de implementar una herramienta de inteligencia de negocios brindara a la empresa el apoyo necesario para que el servicio que se da a la ciudadana sea eficiente. Fuente: Empleado de la empresa Emapat del Cantn el Tambo Elaborado por: Armando Montalvo.
3.8.3 CONCLUSIONES Una vez realizado el anlisis e interpretacin de los resultados se comprob que la empresa EMAPAT carece de un sistema para realizar reportes a nivel gerencial y financiero que le ayude a tomar decisiones de manera eficiente.
3.8.4 RECOMENDACIONES Despus de haber realizado la observacin directa y analizado las respuestas a las interrogantes de la entrevista, dirigidas al Gerente y encargada del rea financiera, se recomienda lo siguiente: Crear un reporte para analizar los medidores con consumos altos durante un mes. Crear un reporte del historial de un medidor por un rango de tiempo. Crear un reporte para el anlisis de consumo de agua por categoras durante un rango de tiempo. Crear un reporte para analizar los valores recaudados por meses.
37
Implementar una herramienta de inteligencia de negocios que facilite la manera de realizar los reportes en este caso en particular un Data Mart, el cual ayudara en la toma de decisiones de la empresa EMAPAT Del Cantn el Tambo.
3.9 ANLISIS DE VALIDEZ Y CONFIABILIDAD La validez y confiabilidad de la presente investigacin han sido determinadas por el director de tesis y por el Honorable Consejo Directivo de la Universidad Catlica de Cuenca, Sede Caar.
38
CAPITULO IV
4.1 TTULO DE LA PROPUESTA Implementacin de un Data Mart para la toma de decisiones en el rea de comercializacin de la empresa Emapat Del Cantn El Tambo
4.2PRESENTACIN El presente proyecto de investigacin tiene como objetivo mejorar la forma en que generan los reportes para la toman las decisiones en el rea de comercializacin de la empresa EMAPAT, Del Cantn El Tambo, en este momento la empresa se encuentra rezagada en cuanto a las nuevas tecnologas de inteligencia de negocios que existen en el mercado en especial las Open source. Por lo que se propone mejorarlo mediante la implementacin de un Data Mart que gener los reportes de forma numrica y grfica.
4.3 OBJETIVO Implementar un Data Mart para la toma de decisiones en el rea de comercializacin de la empresa Emapat Del Cantn El Tambo, para mejorar la forma en que se vienen realizando los reportes en la empresa. En funcin de los requerimientos obtenidos como resultado de las entrevistas que se realizaron a los empleados de la empresa EMAPAT Del Cantn El Tambo.
39
El objetivo es disponer de toda la informacin referente al anlisis del consumo de los medidores de agua con el fin de guardar esta informacin en un almacn de datos temporal, a partir del cual poder extraer de la siguiente manera:
A nivel de reporting y consultas ad-hoc: se montara un sistema de informes para dar soporte a todas las necesidades de informacin que se cubren en la actualidad con el sistema transaccional Emapat y con desarrollos personalizados de reportes utilizando Pentaho Biserver, Pentaho Report Designer y Zaiku Reporting.
Navegacin dimensional por los datos utilizando herramientas OLAP, con el objetivo de descubrir tendencias, descubrir consumos altos, consumos por categora de medidor, etc.
4.4 JUSTIFICACIN Las metas que se ha propuesto alcanzar la empresa EMAPAT, han sido limitadas debido a la falta de una herramienta de reportes que ayude a tomar decisiones administrativas en el rea de comercializacin de la empresa.
Es necesario entonces recurrir a formas de tomar decisiones, utilizando un procedimiento tecnolgico, que garantice la validez y fiabilidad, por lo que, la aplicacin de la propuesta que se ha planteado, como medio para contribuir a la solucin de la problemtica existente en la presente investigacin se justifica, en virtud que:
40
La implementacin de un Data Mart contribuir a que la institucin tenga una herramienta de inteligencia de negocios que les ayude a mejorar la forma en que generan los reportes para la toman las decisiones en el rea de comercializacin de dicha institucin.
Mejorar los procesos de toma de decisiones; es fundamental al considerar este beneficio, puesto que las autoridades de la empresa podrn obviamente obtener un mayor nivel en cunto a tomar decisiones importantes, al tener reportes con informacin actualizada, clara y precisa cuyos reportes adems ofrezcan un alto nivel estadstico y de interaccin con el usuario final.
Adems, en nuestra propuesta est fundamentada en el uso de herramientas de Software Libre nos sustentamos en el Decreto Ejecutivo No. 1014 emitido por el Presidente de la repblica del Ecuador Rafael Correa Delgado, donde establece como poltica pblica para las Entidades de la Administracin Pblica Central la utilizacin de Software Libre en sus sistemas y equipamientos informticos; ya que la aplicacin de nuestro tema lo realizaremos en una Institucin Pblica.
Se entiende por Software Libre, a los programas de computacin que se pueden utilizar y distribuir sin restriccin alguna y puedan ser mejoradas. Estos programas de computacin tienen las siguientes libertades: a) Utilizacin del programa con cualquier propsito de uso comn. b) Distribucin de copias sin restriccin alguna.
41
4.5 FUNDAMENTACIN TERICA 4.6 DESCRIPCIN DE LA PROPUESTA Se pretende implementar un Data Mart como herramienta de inteligencia de negocios para mejorar la eficiencia en la toma de decisiones y, consecuentemente, optimizar aspectos fundamentales como la reduccin de tiempo y equipos.
El presente objetivo contesta las tres preguntas bsicas, Qu? Cmo? y Para qu? Qu se va a realizar? Implementar un Data Mart para la toma de decisiones en el rea de comercializacin de la empresa EMAPAT Del Cantn El Tambo
Cmo se va a realizar? El presente proyecto aborda el diseo y la puesta en funcionamiento de un Data Mart que sirva como herramienta de desarrollo de reportes numricos y grficos, mediante el uso Software Libre, con este fin se ha optado por utilizar Pentaho BI suite, que tiene un conjunto de programas libres para generar inteligencia empresarial. Incluye herramientas integradas para realizar ETL, generar informes, realizar reportes, etc.
Para qu? Para mejorar la toma de decisiones en la gerencia de la empresa y as brindar un mejor servicio a los ciudadanos del Cantn el Tambo y sus comunidades.
42
4.7 FACTIBILIDAD DE LA PROPUESTA Para la implementacin del presente proyecto se necesitara contar con recursos que permitan su correcto funcionamiento, los cuales se detallaran a continuacin.
4.7.1 RECURSOS MATERIALES Los recursos materiales necesarios para la implementacin, se encuentran disponibles en la empresa EMAPAT Del Cantn El Tambo, por lo que no es necesaria ninguna adquisicin.
4.7.2 RECURSOS FINANCIEROS En lo que se refiere a los recursos financieros para la implementacin del proyecto, no ser necesario la inversin econmica, ya que se est utilizando una herramienta Open Source y los recursos de hardware lo dispone la empresa.
4.7.3 TALENTO HUMANO Investigador: Carlos Armando Montalvo Molina. Director: Ingeniero Luis Fernando Pinos. Gerente de la empresa EMAPAT: Ingeniero Galo Garca. Empleados de la empresa EMAPAT.
43
4.7.4 LEGAL El presente trabajo de investigacin respetar y se basar en el reglamento de Graduacin y Titulacin de la Facultad de Ingeniera de Sistemas de la Universidad Catlica de Cuenca, Sede Caar y al Reglamento General de Estudiantes de la Universidad Catlica de Cuenca.
4.8 DESARROLLO DE LA PROPUESTA En el desarrollo de la propuesta se describe el diseo de la solucin planteada para satisfacer el objetivo del proyecto que corresponde a la implementacin de un Data Mart utilizando Pentaho BI Suite (ira una coma) como la tecnologa que se ha selecciono en el estudio que se realiz de las herramientas Open Source del captulo dos. El diseo de la propuesta se divide en las siguientes partes.
Diseo de la arquitectura del Data Mart descripcin de la arquitectura del Data Mart. Anlisis de los datos fuentes. Presenta la descripcin de la herramienta.
4.8.1DISEO DE LA ARQUITECTURA Para tener una visin general del sistema y tomando en cuenta que la plataforma elegida para la implementacin de la solucin es Pentaho se explica a continuacin la arquitectura tpica utilizada en los sistemas de DW, detallando cada una de los sub-sistemas que conforman el sistema realizado y que se encuentra esquematizado en el diagrama (ver figura 1).
44
Se Diferencian seis grandes sub-sistemas en los cuales el sistema est estructurado: Fuentes de datos Extraccin Transformacin y Carga (ETL) On-Line Analytical Processing (OLAP) Presentacin Seguridad Administracin
Grfico N1: Arquitectura de la solucin Fuente: Armando Montalvo.
4.8.2 DESCRIPCIN DE LA ARQUITECTURA En esta etapa se preparan los datos tomndolo de la fuente (base de datos Emapat), (bien EMAPAT TODO CON MAYUSCULAS O COMO ESTA ALLI VER EN TODA LA TESIS )para la posterior utilizacin a travs de los siguientes subprocesos: limpiar los datos eliminando duplicados y datos errneos, transformar los datos en consistentes para el anlisis, integracin de los datos en las definiciones del Data Mart y, finalmente, actualizar los datos de forma peridica
45
en el Data Mart. Los datos obtenidos de las fuentes se mantienen en una base de datos temporal, que es usada por todos los procesos para llevar a cabo las tareas ETL
En este proyecto solo se utilizaron como fuentes de datos la bases de datos relacional Emapat, con la que cuenta la empresa, que utiliza un motor de base de datos PostgreSQL, sin embargo, tambin se podra obtener informacin desde otro tipo de fuentes como por ejemplo base de datos no Sql como MongoDB, planillas de clculo, archivos planos de texto, entre otros.
OLAP es el ncleo del sistema que corresponde al repositorio central de informacin donde residen los datos actualmente utilizados. En nuestro caso, los datos se almacenan en estructuras multidimensionales que contienen el metadato de la informacin almacenada. En esta rea se incluye, tambin, el motor de cubos multidimensional, que se encarga de ejecutar las consultas realizadas por las aplicaciones externas.
La Presentacin es el rea correspondiente a la interaccin con el usuario, cuya finalidad es mostrar los datos almacenados de forma til y transparente a travs de las distintas herramientas. Este sub-sistema se comunica directamente con el servidor de cubos a travs de consultas, las cuales retornan la informacin requerida donde sta es transformada y presentada para la visualizacin final. Los reportes requeridos en el proyecto se encuentran en esta rea.
4.8.3ANLISIS DE LA FUENTES DE DATOS La base de datos que se utiliz para alimentar el Data Mart corresponde al Sistema de agua de EMAPAT Del cantn El Tambo. Este sistema tiene la informacin general de todos los
46
medidores existentes y funciona como registro en donde consta el nmero de afiliados. Los datos son ingresados al sistema por funcionarios de la institucin. Los reportes generados se obtienen de la informacin del Sistema transaccional. Este sistema es la principal fuente de informacin para Anlisis y el diseo de la solucin que se utilizaron a lo largo del proyecto. Puntualmente, es el proveedor de los datos a partir del cual se generaron los reportes mencionados posteriormente. Es por ello que se realiz un anlisis exhaustivo de la base de datos para reconocer cuales son las entidades relevantes para la solucin del problema.
A partir del anlisis de las tablas de la base de datos de origen correspondiente al Sistema EMAPAT, se identificaron 35 entidades. Luego de analizar los requerimientos y obtener informacin de cules sern las entidades necesarias para los reportes solicitados se lograron identificar las tablas que formaran parte de la solucin. Estas son las tablas o entidades que se usaron para los reportes: Clientes. Medidores. Sectores. Rutas. Lecturas. Cobros. Detalle_factura. Factura. Categora.
47
Tiempo. La figura 3 presenta el modelo entidad-relacin sobre la parte relevante de la base de datos correspondiente al Sistema transaccional EMAPAT.
Clientes tiene Medidores Clase_Cliente Sector tiene Ruta tiene Categoria tiene Lectura t i e n e Cobros Facura t i e n e 1 tiene cli_codigo cla_codigo med_codigo Lec_codigo Sec_codigo Rut_codigo cat_codigo Fac_codigo Cob_codigo N 1 N t i e n e 1 N 1 N 1 N 1 N 1 1 N N
Grfico N2:Diagrama Entidad Relacin de la base de datos Emapat Fuente: Armando Montalvo.
A continuacin se presenta el modelo relacional de las tablas involucradas como fuentes de datos de nuestra solucin (Figura 4).
48
Grfico N3: Modelo Relacional de la Base de Datos EMAPAT Fuente: Armando Montalvo
4.8.4MODELADO MULTIDIMENSIONAL En esta seccin se describe cada uno de los elementos multidimensionales que forman parte de la solucin. Para el modelado de la solucin al problema planteado fueron analizadas la siguiente tabla de hecho y susdimensiones: Fact_Consumo_Medidores dim_Clientes dim_Categoria dim_Sector
49
dim_Ruta dim_Factura dim_tiempo
4.8.5DISEO DE LA BASE DE DATOS QUE SOPORTA A LOS CUBOS A continuacin se representa el diagrama de la estructura relacional usada para la creacin del modelo multidimensional para la creacin de los reportes. ste diagrama se deriva de las dimensiones y del esquema multidimensional. Se decidi utilizar un esquema estrella para el diseo en lugar de un esquema copo de nieve, ganando as simplicidad en el diseo y velocidad de acceso por tener las distintas jerarquas desnormalizadas. Como se demuestra en la figura 4.
Grfico N 4: Modelo multidimensional en base a tablas relacionales para el cubo Emapat Fuente: Armando Montalvo.
50
Se destaca que se lograron disear un cubo capaz de soportar los requerimientos proporcionados por la empresa Emapat, as como tambin las tablas que representan el cubo. Para esto se abordaron tambin los problemas de calidad de datos y se buscaron soluciones en el diseo de tablas temporales para la posterior carga del Data Mart.
4.8.6PENTAHO La plataforma propuesta por este fabricante cubre los requisitos generales formulados para este nivel de seleccin. Es una plataforma completa de cdigo abierto (BI Open Source), que dispone de una versin comunitaria gratuita; por tanto, se reducen los costes relacionados con la adquisicin de la plataforma.
Asimismo, su nivel funcional se ve favorecido por las aportaciones de la comunidad, donde los problemas se comparten y las aportaciones se verifican. La versin Community Edition (CE), la ms utilizada por las organizaciones, es la seleccionada en nuestro caso.
Suite Pentaho:Pentaho es una Suite de BI Open Source basada en Java. En su suite Pentaho integra diferentes proyectos open source y los hace funcionar de forma integrada en su plataforma siguiendo el flujo de trabajo. Los proyectos open source que ha integrado en su suite permite que se cubran las siguientes reas: anlisis de informacin, reportes, cuadros de mando, flujos de trabajo y minera de datos. En la siguiente figura se representa la arquitectura de la Suite Pentaho.(Subiela, 2011).
51
4.8.6.1 PENTAHO DATA INTEGRATION La suite de inteligencia de negocios Pentaho, entre las distintas soluciones que ofrece cuenta con la herramienta de Integracin de data (Pentaho Data Integration) mejor conocida como Kettle cuyo nombre es un acrnimo recursivo de Kettle Extraction Transformation Transportation & Loading Environment. Dicha herramienta permite realizar operaciones de ETL (Extraction, Transformation and Load), sobre diversas fuentes de datos y con mltiples opciones para ello.
PDI est formado por un conjunto de herramientas, cada una con un propsito especfico. Spoon: es la herramienta grfica que nos permite el diseo de las transformaciones y trabajos. Incluye opciones para pre visualizar y testear los elementos desarrollados. Es la principal herramienta de trabajo de PDI y con la que construiremos y validaremos nuestros procesos ETL. Pan: es la herramienta que nos permite la ejecucin de las transformaciones diseadas en spoon (bien desde un fichero o desde el repositorio). Nos permite desde la lnea de comandos preparar la ejecucin mediante scripts. Kitchen: similar a Pan, pero para ejecutar los trabajos o jobs. (Espinosa, 2010).
4.8.6.2 CREACIN DE CUBOS CON MONDRIAN En la plataforma Open Source de PENTAHO se incluye la herramienta OLAP Mondrian, que permite crear cubos de informacin para anlisis multidimensional.
52
Dichos cubos se componen de archivos XML y en ellos se definen las Dimensiones y las conexiones de los datos. Los archivos XML por lo general son complejos de realizar manualmente por lo que es comn utilizar herramientas grficas para realizar la edicin de estos. Como ejemplo de estas herramientas Open Source Pentaho tenemos a Cube Designer para la Creacin de cubos y el Workbench para la edicin de los mismos. Estas herramientas las podemos descargar directamente desde el sitio de www.sourceforge.com En la arquitectura de Mondrian se ejecuta sobre un servidor web y nos permite la comunicacin entre aplicaciones OLAP con bases de datos. El ncleo del servidor Mondrian es similar a JDBC pero exclusivo para OLAP. Proporciona la conexin a la base de datos y ejecuta las sentencias SQL (Gravitar, 2013).
4.8.6.3 PENTAHO REPORTING Basada en el proyecto JfreeReport, permite generar informes de forma gil y de gran capacidad. Soporta la distribucin de los resultados del anlisis en mltiples formatos, todos los informes incluyen la opcin de imprimir o exportar a formato PDF, XLS, HTML y texto. Los reportes Pentaho se pueden programar e incluso que sean generados peridicamente. En la siguiente figura se pueden visualizar diferentes tipos de informes soportados por Pentaho Reporting. (Subiela, 2011)
53
4.8 EVALUACIN DE LA PROPUESTA No est de cambiar no es una evaluacin Se realiz un estudio acerca del arte de la construccin de Data Warehouse en especial con herramientas de Software Libre. Por otro lado se instal correctamente la herramienta recomendada de Extraccin Transformacin y carga (Kettle) y se dise el cubo mediante la herramienta Modrian Workbench que permite obtener la posterior creacin de reportes definidos en la investigacin.
Se implement el Data Mart solicitado y se program la actualizacin peridica del mismo de forma automatizada, se crearon los reportes con las herramientas de reportes de la suite de Pentaho, que fueron el tema central de esta investigacin.
Se destaca como resultado la experiencia adquirida en el manejo de tecnologas de inteligencia de negocios durante el periodo de investigacin. CONCLUSIONES Despus de estudiar detenidamente sobre la importancia del uso de herramientas de inteligencia de negocios para el desarrollo de las empresas y en especial de la suite de Pentaho se puede afirmar que: Ha sido posible instalar y comprobar el funcionamiento de la suite de Pentaho y todas sus herramientas utilizadas en este proyecto. En este sentido, cabe destacar que se solicit a la empresa una copia de la base de datos con el fin de realizar las respectivas pruebas. Consecuentemente, los reportes creados son elementos fundamentales de la inteligencia de negocios que permite la visualizacin concreta y funcional de los resultados de una organizacin.
54
Se debe destacar una experiencia muy positiva con la suite de Pentaho, en el cual se pudo realizar anlisis, publicar distintos trabajos, tanto reportes como cubos, de forma muy sencilla. Tal y como se esperaba, se afirmar que se convertir en el futuro en una herramienta muy utilizada por los usuarios a travs de su servidor web.
Vale la pena tomar en cuenta que las aplicaciones del nivel de presentacin en cuanto a los diseos grficos carecen en algunos casos de cierta simplicidad. No obstante, es posible mejorar estas deficiencias, a travs de herramientas de diseo que se incorporan a la plataforma como es el caso de Zaiku Reporting.
En conclusin, la suite de Pentaho se muestra como una excelente solucin para proyectos de Data Warehouse y Data Marts. Por contra, debemos tener en cuenta que los procesos ETL son complicados y requieren largos tiempos de desarrollo y pruebas. RECOMENDACIONES Los datos que contiene el Data Mart permiten el diseo de otra serie de reportes para la toma de decisiones gerenciales por lo que se recomienda mejorarlo en el futuro. Se recomienda el uso de herramientas de Software libre para empresas medianas y pequeas como es el caso de la empresa Emapat Del Cantn El Tambo, que no tiene los recursos suficientes para comprar un software propietario. Se recomienda capacitar al personal que va a utilizar esta herramienta.
55
Se recomienda actualizar los equipos de Hardware que posee la empresa. BIBLIOGRAFIA Oracle Business Intelligence Standard Edition One Tutorial.(5 de 5 de 2010). Recuperado el 24 de 12 de 2013, de http://docs.oracle.com/html/E10312_01/dm_design.htm Sinnexus. (20 de Noviembre de 2013). Recuperado el 12 de Noviembre de 2013, de Business Intelligence : http://www.sinnexus.com/business_intelligence/sistemas_soporte_decisiones.aspx E. KENDALL, K. y. (2005). Anlisis y diseo de sistemas. Mxico: PEARSON EDUCACIN. Espinosa, R. (10 de 5 de 2010). El Rincon del BI. Recuperado el 7 de 1 de 2014, de http://churriwifi.wordpress.com/2010/05/10/16-3-construccion-procesos-etl-utilizando-kettle- pentaho-data-integration/ Gravitar. (20 de Noviembre de 2013). Gravitar Informacion sin Limitas. Recuperado el 12 de Noviembre de 2013, de Introduccin a Pentaho: http://www.gravitar.biz/index.php/bi/introduccion- pentaho-parte-1/ Jaspersoft. (2014). Jaspersoft. Recuperado el 16 de 11 de 2013, de http://community.jaspersoft.com/wiki/community-wiki Muoz, C. (20 de 12 de 2012). Pentaho BI. Recuperado el 7 de 1 de 2014, de http://prezi.com/etav7muyv00l/pentaho-bi/ Palo. (2013). Palo open source business intelligence.Recuperado el 14 de 11 de 2013, de http://www.palo.net/ Ramos, S. (2011). Microsoft Business Intelligence: vea el cubo medio lleno. SolidQ, 9.
56
Rivas, I. T., Rivera, M. R., & Lizama, E. R. (2007). Una metodologa para sectorizar pacientes en el consumo de medicamentos aplicando datamart y datamining en un hospital. Industrial Data, 3. Stratebi. (2011). Stratebi open business intelligence. Recuperado el 12 de 10 de 2013, de http://www.stratebi.com/spagobi Subiela, S. D. (2011). Sistemas de Informacin BI:. Universitat Oberta de Catalunya, 14. Technologies, C. (25 de 6 de 2013). Bases de datos multidimensionales: OLAP vs OLTP. Recuperado el 6 de 1 de 2014, de http://blog.classora.com/2013/06/25/bases-de-datos-multidimensionales-olap- vs-oltp/ Vega, K. C. (13 de 4 de 2013). Base de Datos Estratgica. Recuperado el 6 de 1 de 2014, de http://kcarbajalv.blogspot.com/2013/04/modelo-multidimensional.html
57
ANEXOS
58
59
REPBLICA DEL ECUADOR UNIVERSIDAD CATLICA DE CUENCA COMUNIDAD EDUCATIVA AL SERVICIO DEL PUEBLO SEDE CAAR
FACULTAD DE INGENIERIA DE SISTEMAS
DISEO DEL TRABAJO ESPECFICO DE INVESTIGACIN PREVIO A LA OBTENCIN DEL TTULO DE INGENIERO DE SISTEMAS
2013 -2014
60
ANEXO 1 I. DATOS INFORMATIVOS:
TEMA:Implementacin de un Data Mart para la toma de decisiones en el rea de comercializacin de la empresa EMAPAT del Cantn El Tambo
1. INVESTIGADOR: Carlos Armando Montalvo Molina.
2. DIRECTOR: Ing. Luis Fernando Pinos Castillo
3. FECHA: 12 de Enero del 2014
61
II. INTRODUCCIN: La complejidad con la que hoy en da se manejan las instituciones en el Ecuador, exigen nuevos y ms altos estndares tecnolgicos. As mismo, los mltiples objetivos y responsabilidades a los que se tienen que integrar, necesitan cada vez ms de una mejor implementacin de las tecnologas de Inteligencia de Negocios, para optimizar la aplicacin de conocimiento cientfico a la solucin de los problemas existentes.
En la Empresa Municipal de agua potable EMAPAT del Cantn el tambo se hace evidente la necesidad de implementar un soporte para la consulta y el anlisis, de los datos para la toma de decisiones segn los distintos tipos de necesidades que se requieran, en este aspecto la implementacin de un Data Mart est estrictamente relacionado con la explotacin de la informacin adaptndose a los requerimientos del usuario final, obteniendo informacin que dar a conocer cules son los reportes y peticiones de informacin ms comunes y solicitados dependiendo de las necesidades planteadas en cada rea involucrada dentro de un ambiente organizacional.
EL presente trabajo investigativo pretende implementar una herramienta informtica (Data Mart) para automatizar el proceso de informacin para el rea de comercializacin de la empresa EMAPAT del Cantn El Tambo, la cual posibilitar la generacin de reportes que permitirn contestar preguntas relacionadas con los principales indicadores de rendimiento.
62
El tema comprende el estudio de cuatro captulos cuyo contenido se describe brevemente a continuacin. El captulo 1, hace referencia al planteamiento del problema, los objetivos de la investigacin la justificacin y las limitaciones.
El captulo 2, se desarrolla el marco referencial de la investigacin la teora que conceptualizar fundamentara la prctica y temas de importancia referentes al mbito investigativo se delimitara hiptesis y variables conceptundolas y operacionandolas de manera objetiva.
El captulo 3, se describir la metodologa, nivel y tipo de investigacin, as tambin se realizaran un estudio estadstico de la poblacin y la muestra para determinar los instrumentos de recoleccin de informacin utilizados para la presente investigacin, que permitan garantizar la confiabilidad y valides de las tcnicas elegidas
El captulo 4, se determinara la propuesta de implementacin de un Data Mart para automatizar el proceso de comercializacin de la empresa EMAPAT del Cantn El Tambo.
63
IV. PLANTEAMIENTO DEL PROBLEMA La empresa Municipal de Agua Potable del Cantn El Tambo, EMAPAT evidencia una deficiente e inadecuada forma de realizar los reportes en el rea de comercializacin,debido a la falta de una herramienta de inteligencia de negocios que ayude a optimizar estas actividades.
V. FORMULACIN DEL PROBLEMA De qu manera La implementacin de un Data Mart mejorara la eficiencia para la toma de decisiones en el rea de comercializacin de la empresa de agua potable y alcantarillado EMAPAT del Cantn el Tambo?
VI. OBJETIVOS (GENERAL Y ESPECFICOS) OBJETIVO GENERAL Implementacin de un Data Mart para la toma de decisiones en el rea de comercializacin de la empresa EMAPAT del Cantn El Tambo
OBJETIVOS ESPECIFICOS Conocer los procesos de comercializacin que lleva a cabo la empresa EMAPAT. Implementar un Data Mart que cumpla con los reportes solicitados para facilitar la toma de decisiones en el rea de comercializacin de la empresa EMAPAT. Disear una Base de Datos Dimensional. Realizar las tablas de hechos y sus dimensiones.
64
Realizar los reportes en el rea de comercializacin para la toma de decisiones a nivel gerencial.
VII. JUSTIFICACIN DE LA INVESTIGACIN Las tasas que tienen que recaudar las entidades gubernamentales en el Ecuador por la prestacin de servicios a la ciudadana, son necesarios para mantener el funcionamiento de las instituciones y el financiamiento de las obras de infraestructura as como de la administracin en la institucin, de sta labor estn encargados los Gobiernos Autnomos Descentralizados del Pas.
En el Gobierno Autnomo Descentralizado Intercultural Municipal del Cantn El Tambo quien realiza dichos cobros es la empresa Municipal de Agua Potable y Alcantarillado EMAPAT, y lo hace por la prestacin de servicios tales como el agua potable y alcantarillado.
El problema que se ha encontrado actualmente en la empresa EMAPAT, es que en el rea de comercializacin, los reportes se hacen de forma manual invirtiendo mucho tiempo y personal, lo cual demuestra una inadecuada forma de administracin en la empresa,debido a la falta de una herramienta de inteligencia de negocios que ayude a organizar y optimizar estas actividades.
Considerando esta problemtica en la institucin y con el fin de dar solucin a dicho problema se propone implementar un Data Mart, que desarrollar y brindar soluciones con un manejo personalizado y eficaz de la informacin para el rea de comercializacin en la mencionada empresa.
65
La implementacin del Data Mart ser de gran ayuda para la empresa EMAPAT del Cantn El Tambo, pues podr aumentar la capacidad de volumen de almacenamiento de informacin continua conforme al crecimiento de la empresa y de la poblacin a la cual brinda sus servicios.
Es factible realizar este proyecto, ya que se cuenta con la disponibilidad al cambio de las autoridades de la institucin, pero sobre todo con los medios necesarios para desarrollar una buena aplicacin de esta herramienta deinteligencia de negocios, con el propsito de mejorar la situacin actual de la institucin.
VIII. LIMITACIONES Corto tiempo para la investigacin. La falta de Equipos informticos en la empresa. La falta de colaboracin de los empleados.
IX. MARCO REFERENCIAL, TERICO Y CONCEPTUAL ANTECEDENTES DE LA INVESTIGACIN. En primer lugar se tiene que,la tesis realizada en la Escuela Politcnica Nacional por Fernando Santiago Jimnez Camba y Edgar Rolando Zambrano Noguera, en el ao 2009, cuyo tema es Implementacin de un data Mart para el rea de capacitacin y consultora del centro de educacin continua CEC , sus principales conclusiones expresan lo siguiente: La metodologa utilizada combina la gestin de proyectos propuesta en la metodologa de Harjinder, Prakash y SAS Institute, cubren aspectos necesarios para alcanzar una solucin
66
efectiva, mantenible y escalable de forma independiente de la plataforma tecnolgica y de las herramientas de desarrollo que se utilicen para su implementacin.
Si bien en la actualidad existen diversas herramientas para el desarrollo de Data Marts, tanto propietario como software libre, es importante considerar aquella que se integre adecuadamente a la infraestructura existente en la empresa en la cual se va a implementar la solucin. La implementacin del Data Mart permiti integrar los datos transaccionales e histricos con los que dispone la CEC de forma consolidada, por lo cual la informacin estratgica requerida por la coordinacin se encuentra en plena disponibilidad, dejando a lado el acceso a la base de datos transaccional para su obtencin.
Otra tesis realizada por Fiorelly Shirley Guilln Rodrguez en la Universidad Privada del Norte cuyo tema es: desarrollo de un Data Mart para mejorarla toma de decisiones en el rea de tesorera de la Municipalidad de la Provincia de Cajamarca, Cajamarca Per 2012, sus principales conclusiones expresan lo siguiente:
Se cumpli con el objetivo principal mejorando significativamente los resultados del proyecto, as mismo se logr la simulacin del rea de Tesorera. Con el desarrollo del data Mart los reportes anuales y mensuales para la mejor administracin de lo recaudado hacia las dems reas de la Municipalidad Provincial de Cajamarca.
Se decidi usar las herramientas de software libre para la base de datos y para los procesos de extraccin y explotacin por sus bajos costos.
67
En base a las caractersticas propias de la empresa el uso de la metodologa de Ralph Kimball resulta una solucin eficaz en tiempo y recursos debido a que abarca la solucin al problema en corto plazo. Se disea un modelo dimensional adecuado segn la cantidad y profundidad de datos que posee el Data Mart.
BASES TERICAS En este captulo se analiza el problema planteado dentro de un sistema de conocimientos existentes para poderlo as formularlo tericamente.Se hace uso de los ejes conceptuales que permitan una propuesta coherente como son:
BUSINESS INTELLIGENCE Business Intelligence es la habilidad para transformar los datos en informacin, y la informacin en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios.
Desde un punto de vista ms pragmtico, y asocindolo directamente con las tecnologas de la informacin, podemos definir Business Intelligence como el conjunto de metodologas, aplicaciones y tecnologas que permiten reunir, depurar y transformar datos de los sistemas transaccionales e informacin desestructurada (interna y externa a la compaa) en informacin estructurada, para su explotacin directa (reporting, anlisis OLTP / OLAP, alertas...) o para su
68
anlisis y conversin en conocimiento, dando as soporte a la toma de decisiones sobre el negocio.
La inteligencia de negocio acta como un factor estratgico para una empresa u organizacin, generando una potencial ventaja competitiva, que no es otra que proporcionar informacin privilegiada para responder a los problemas de negocio: entrada a nuevos mercados, promociones u ofertas de productos, eliminacin de islas de informacin, control financiero, optimizacin de costes, planificacin de la produccin, anlisis de perfiles de clientes, rentabilidad de un producto concreto, etc... Los principales productos de Business Intelligence que existen hoy en da son: Cuadros de Mando Integrales (CMI) Sistemas de Soporte a la Decisin (DSS) Sistemas de Informacin Ejecutiva (EIS) ARQUITECTURA DE UNA SOLUCIN DE BUSINESS INTELLIGENCE Una solucin de Business Intelligence parte de los sistemas de origen de una organizacin (bases de datos, ERPs, ficheros de texto...), sobre los que suele ser necesario aplicar una transformacin estructural para optimizar su proceso analtico.
Para ello se realiza una fase de extraccin, transformacin y carga (ETL) de datos. Esta etapa suele apoyarse en un almacn intermedio, llamado ODS, que acta como pasarela entre los
69
sistemas fuente y los sistemas destino (generalmente un datawarehouse), y cuyo principal objetivo consiste en evitar la saturacin de los servidores funcionales de la organizacin.
La informacin resultante, ya unificada, depurada y consolidada, se almacena en un datawarehouse corporativo, que puede servir como base para la construccin de distintos Data Marts departamentales. Estos Data Marts se caracterizan por poseer la estructura ptima para el anlisis de los datos de esa rea de la empresa, ya sea mediante bases de datos transaccionales (OLTP) o mediante bases de datos analticas (OLAP).
SISTEMAS DE SOPORTE A LA DECISIN (DSS) Un Sistema de Soporte a la Decisin (DSS) es una herramienta de Business Intelligence enfocada al anlisis de los datos de una organizacin. En principio, puede parecer que el anlisis de datos es un proceso sencillo, y fcil de conseguir mediante una aplicacin hecha a medida o un ERP sofisticado. Sin embargo, no es as: estas aplicaciones suelen disponer de una serie de informes predefinidos en los que presentan la informacin de manera esttica, pero no permiten profundizar en los datos, navegar entre ellos, manejarlos desde distintas perspectivas... etc.
El DSS es una de las herramientas ms emblemticas del Business Intelligence ya que, entre otras propiedades, permiten resolver gran parte de las limitaciones de los programas de gestin. Estas son algunas de sus caractersticas principales:
70
Informes dinmicos, flexibles e interactivos No requiere conocimientos tcnicos Rapidez en el tiempo de respuesta Integracin entre todos los sistemas/departamentos de la compaa Cada usuario dispone de informacin adecuada a su perfil Disponibilidad de informacin histrica
SISTEMAS DE INFORMACIN GERENCIAL (MIS) Los sistemas de informacin gerencial (MIS, Management Information Systems), tambin llamados Sistemas de Informacin Administrativa (AIS) dan soporte a un espectro ms amplio de tareas organizacionales, encontrndose a medio camino entre un DSS tradicional y una aplicacin CRM/ERP implantada en la misma compaa.
SISTEMAS DE INFORMACIN EJECUTIVA (EIS) Un Sistema de Informacin para Ejecutivos o Sistema de Informacin Ejecutiva es una herramienta software, basada en un DSS, que provee a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito.
La finalidad principal es que el ejecutivo tenga a su disposicin un panorama completo del estado de los indicadores de negocio que le afectan al instante, manteniendo tambin la posibilidad de analizar con detalle aquellos que no estn cumpliendo con las expectativas establecidas, para determinar el plan de accin ms adecuado.
71
SISTEMAS EXPERTOS BASADOS EN INTELIGENCIA ARTIFICIAL (SSEE) Los sistemas expertos, tambin llamados sistemas basados en conocimiento, utilizan redes neuronales para simular el conocimiento de un experto y utilizarlo de forma efectiva para resolver un problema concreto. Este concepto est muy relacionado con el Data Mining.
SISTEMAS DE APOYO A DECISIONES DE GRUPO (GDSS) Un sistema de apoyo a decisiones en grupos (GDSS, Group Decision Support Systems) es "un sistema basado en computadoras que apoya a grupos de personas que tienen una tarea (u objetivo) comn, y que sirve como interfaz con un entorno compartido". El supuesto en que se basa el GDSS es que si se mejoran las comunicaciones se pueden mejorar las decisiones. Por otro lado, los principales componentes de orgenes de datos en el Business Intelligence que existen en la actualidad son: Data Warehouse Data Mart
DATAWAREHOUSE Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence.
72
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc.). Este tipo de persistencia de la informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).
El trmino Data Warehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser: Integrado Temtico Histrico No voltil
PRINCIPALES APORTACIONES DE UN DATA WAREHOUSE Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio.
73
Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.
DATAMART Un Data Mart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por s mismo un compendio de distintas fuentes de informacin.
CUBO DE DATA MART Por tanto, para crear el Data Mart de un rea funcional de la empresa es preciso encontrar la estructura ptima para el anlisis de su informacin, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La
74
designacin de una u otra depender de los datos, los requisitos y las caractersticas especficas de cada departamento. De esta forma se pueden plantear dos tipos de Data Marts: Data Mart OLAP Data Mart OLTP Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes ventajas: Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la historizacin de los datos
CARACTERSTICAS DE UN DATA MART Los Data Marts tienen las siguientes caractersticas Usuarios limitados rea especifica Tiene un propsitos especfico Tiene una funcin de apoyo
75
TABLAS DE HECHOS (FACT TABLES). La tabla de hechos es la tabla primaria del modelo dimensional, y contiene los valores del negocio que se desea analizar, cada tabla de hechos contiene las claves externas que se relacionan con sus respectivas tablas de dimensiones y las columnas con los valores que sern analizados.
DIMENSIONES Las dimensiones organizan los datos en funcin de un rea de inters para los usuarios, cada dimensin describe un aspecto del negocio y proporciona el acceso intuitivo y simple a datos, una dimensin provee al usuario de un gran nmero de combinaciones e intersecciones para analizar datos.
ESQUEMA ESTRELLA. Para facilitar el anlisis, el Data Mart organiza los datos en una estructura llamada esquema de estrella. Esta estructura est compuesta por una tabla central (tabla de hechos) y un conjunto de tablas organizadas alrededor de sta (tablas de dimensiones).
En las puntas de la estrella se encuentran las tablas de dimensin que contienen los atributos de las aperturas que interesan al negocio que se pueden utilizar como criterios de filtro y son relativamente pequeas. Cada tabla de dimensin se vincula con la tabla de hechos por un identificador.
76
ESQUEMA COPO DE NIEVE Esquema en copo de nieve (bola de nieve) es una variedad ms compleja del esquema estrella. El afinamiento est orientado a facilitar mantenimiento de dimensiones. Lo que distingue a la arquitectura en copo de nieve del esquema estrella, es que las tablas de dimensiones en este modelo representan relaciones normalizadas y forman parte de un modelo relacional de base de datos.
Con varios usos del esquema en copo de nieve, el ms comn es cuando las tablas de dimensiones estn muy grandes o complejas y es muy difcil representar los datos en esquema estrella.
BASES DE DATOS OLTP Y OLAP OLTP (on-line transactional processing) Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transaccin genera un proceso atmico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de insercin, modificacin y borrado de datos. El proceso transaccional es tpico de las bases de datos operacionales. El acceso a los datos est optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente).
77
Los datos se estructuran segn el nivel aplicacin (programa de gestin a medida, ERP o CRM implantado, sistema de informacin departamental...). Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es comn la falta de compatibilidad y la existencia de islas de datos). El historial de datos suele limitarse a los datos actuales o recientes.
OLAP (on-line analytical processing) Los sistemas OLAP son bases de datos orientadas al procesamiento analtico. Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algn tipo de informacin til: tendencias de ventas, patrones de comportamiento de los consumidores, elaboracin de informes complejos etc. Este sistema es tpico de los datamarts. El acceso a los datos suele ser de slo lectura. La accin ms comn es la consulta, con muy pocas inserciones, actualizaciones o eliminaciones. Los datos se estructuran segn las reas de negocio, y los formatos de los datos estn integrados de manera uniforme en toda la organizacin. El historial de datos es a largo plazo, normalmente de dos a cinco aos. Las bases de datos OLAP se suelen alimentar de informacin procedente de los sistemas operacionales existentes, mediante un proceso de extraccin, transformacin y carga (ETL).
78
DATAMINING (MINERA DE DATOS) El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que surge entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.
Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso comn a todos ellos se suele componer de cuatro etapas principales: Determinacin de los objetivos. Preprocesamiento de los datos. Determinacin del modelo. Anlisis de los resultados. ETL ETL este trmino viene de ingls de las siglas Extract-Transform-Load que significan Extraer, Transformar y Cargar y se refiere a los datos en una empresa. ETL es el proceso que organiza el
79
flujo de los datos entre diferentes sistemas en una organizacin y aporta los mtodos y herramientas necesarias para mover datos desde mltiples fuentes a un almacn de datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, Data Mart o bodega de datos. ETL forma parte de la Inteligencia Empresarial (Business Intelligence), tambin llamado Gestin de los Datos (Data Management).
La idea es que una aplicacin ETL lea los datos primarios de unas bases de datos de sistemas principales, realice transformacin, validacin, el proceso cualitativo, filtracin y al final escriba datos en el almacn y en este momento los datos son disponibles para analizar por los usuarios.Las herramientas y aplicaciones ms populares ETL del mercado son:
IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent DataStage) Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source Business Intelligence SAS ETL Studio Oracle Warehouse Builder Informatica PowerCenter Cognos Decisionstream Ab Initio BusinessObjects Data Integrator (BODI) Microsoft SQL Server Integration Services (SSIS)
80
PENTAHO OPEN SOURCE Pentaho es un proyecto iniciado por una comunidad OpenSource, provee una alternativa de soluciones de BI en distintas reas como en la Arquitectura, Soporte, Funcionalidad e Implantacin. Estas soluciones al igual que su ambiente de implantacin estn basados en JAVA, hacindolo flexible en cubrir amplias necesidades empresariales. A travs de la integracin funcional de diversos proyectos de OpenSource permite ofrecer soluciones en reas como: Anlisis de informacin, Reportes, Tableros de mando conocido como DashBoards, Flujos de Trabajo y Minera de Datos.
Pentaho es una de las ms completas de todas las soluciones de inteligencia de negocios, integra toda una serie de componentes Open Source muy utilizados y fiables: Servidor OLAP Mondrian, JPivot, Kettle ETL , Enhydra Shark, Quartz, Weka, JFreeReport, JFreeChart, JBoss Portal, entre otros.
PLATAFORMA PENTAHO Las soluciones que brinda Pentaho se componen fundamentalmente de una infraestructura de herramientas de anlisis e informes integrados con un motor de workflow de procesos de negocio. Algunos de los productos que forman la plataforma son: JFreeReport, JPivot, Mondrian o Apache FOP.
81
MONDRIAN ANALISIS SERVER Ahora bautizado como Pentaho Analysis Service forma parte del motor OLAP integrado en la suite BI de pentho.
Mondrian, motor OLAP Mondrian es una de las aplicaciones ms importantes de la plataforma Pentaho. Mondrian es un servidor OLAP Open Source que gestiona la comunicacin entre una aplicacin OLAP y la base de datos con los datos fuente, en otras palabras, acta como JDBC para OLAP. Mondrian no es ms que un motor R-OLAP con cach, lo cual lo sita cerca del concepto de Hybrid OLAP. R-OLAP significa que los datos se encuentran en un Sistema de Gestin de Bases de Datos externo y no en Mondrian a no ser los que estn en la cach. En esta base de datos es la que residen las tablas que conforman la informacin multidimensional con la que Mondrian trabaja.
Mondrian se encarga de recibir consultas dimensionales (lenguaje MDX) y devolver los datos de un cubo, slo que este cubo no es algo fsico sino un conjunto de metadatos que definen como se han de mapear estas consultas que tratan conceptos dimensionales a sentencias SQL ya tratando con conceptos relacionales que obtengan de la base de datos la informacin necesario para satisfacer la consulta dimensional.
Expresiones multidimensionales (MDX) es el lenguaje de consulta que se utiliza para trabajar con datos multidimensionales. MDX est basado en la especificacin XML para anlisis (XMLA
82
MDX utiliza expresiones compuestas de identificadores, valores, instrucciones, funciones y operadores para recuperar un objeto (por ejemplo, un conjunto o un miembro).
JFREEREPORT / PENTAHO REPORTING JFreeReport, BIRT o JasperReport: Presentacin de informes en los formatos habituales (HTML, PDF, RTF, MS Excel, etc.),es una herramienta de Reportes flexibles y con clase empresarial, de escritorios o basados en Web. La herramienta de reportes PENTAHO permite comenzar desde sencillos reportes inciales hasta formar complejos reportes ajustados a tus necesidades de negocio.
JPivot: Permite ver tablas OLAP a travs de un navegador Web y realizar las tareas tpicas de anlisis OLAP (drill, down, slice, etc.).
PENTAHO DATA INTEGRATIN Pentaho Data Integration (PDI) o Kettle, es una poderosa, intuitiva y eficiente herramienta, para la realizacin de procesos de Extraccin, Transformacin y Carga, Es multiplataforma, as que si trabajamos en Windows o en Linux no tenemos por qu preocuparnos. Es muy grfica, as que nuestros procesos quedan plasmados en forma de flujos. Definicin de algunos conceptos de Pentaho Data Integration:
83
Kettle: Otro nombre con el que se suele denominar Pentaho Data Integration, o mejor el nombre original de la herramienta antes que fuera adquirida por Pentaho. Spoon: Programa que permite construir procesos con una interfaz muy grfica e intuitiva. Kitchen: Componente que permite ejecutar Jobs (trabajos) por lnea de comandos. Pan: Componente que permite ejecutar transformaciones por lnea de comandos.
FUNDAMENTACIN LEGAL Para el desarrollo del sistema no se ha encontrado ningn tipo de impedimento legal, ya que cuenta con la aprobacin de las autoridades respectivas.
DEFINICIN DE TRMINOS BSICOS Business Intelligence: Se denomina Business Intelligence o inteligencia de negocios al conjunto de estrategias y herramientas enfocadas a la administracin y creacin de conocimiento mediante el anlisis de datos existentes en una organizacin o empresa. DSS (Decision Support Systems): Sistemas de soporte a la toma de decisiones es un sistema de aplicaciones automatizadas que asiste a la organizacin en la toma de decisiones mediante un anlisis estratgico de la informacin histrica. Data Warehouse: en espaol Almacn de datos, es una coleccin de datos orientada a un dominio, integrada, no voltil y que vara en el tiempo. Dama Mart: es una implementacin de un Data Warehouse con un mbito de datos y funciones ms pequeo que un Data Warehouse, que sirve a un departamento nico de la organizacin. Una organizacin generalmente tiene varios Data Marts
84
Cubo: una coleccin de dimensiones y medidas en un rea temtica particular. Dimensin: Atributos de los datos a analizar, no son ms que los filtros que podemos aplicar a nuestros datos, tanto filas como columnas. Esquema en estrella: Organizacin fsica de los Data Marts que facilita el acceso a los datos y al anlisis. Se caracteriza por tener una tabla central de hechos rodeada por tablas de dimensiones que contienen informacin desnormalizada de los hechos. ETL: Son las siglas en ingls de Extraer, Transformar y Cargar. Es el proceso que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos, limpiarlos, y cargarlos en otra base de datos o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. Data Mining: en espaol Minera de Datos Conjunto de tcnicas para la induccin de conocimiento til a partir de masas muy grandes de datos. Tiene un solapamiento importante con otras disciplinas como la estadstica tradicional, el reconocimiento de patrones, la inteligencia artificial, etc. OLAP(Procesamiento Analtico en Lnea): consiste en la realizacin de consultas a estructuras multidimensionales que contienen datos resumidos. Su objetivo fundamental es lograr altas velocidades en consultas complejas. OLTP(Procesamiento Transaccional en Lnea):es un tipo de procesamiento que facilita y administra aplicaciones transaccionales, usualmente para entrada de datos y recuperacin y procesamiento de transacciones (gestor transaccional). Base de Datos: Una base de datos o banco de datos es un conjunto de datos que pertenecen al mismo contexto almacenados sistemticamente para su posterior uso.
85
SISTEMA DE HIPTESIS La implementacin de un Data Mart mejorara la eficiencia en la toma de decisiones para el rea de comercializacin de la empresa EMAPAT Del Cantn El Tambo
SISTEMA DE VARIABLES Variable Independiente Implementacin de un Data Mart. Variable Dependiente La eficiencia en la toma de decisiones en la empresa EMAPAT.
X. MARCO METODOLGICO La presente investigacin se basara en un enfoque cualitativo y cuantitativo, en virtud de que se parte de las realidades existentes en la empresa EMAPAT del Cantn El Tambo, se buscara las causas y la explicacin de los hechos, este enfoque permitir partir del problema y objetivos previamente definidos, plantear la hiptesis la cual mantiene una relacin entre las variables para el anlisis de la informacin.
NIVEL DE INVESTIGACIN El proceso de investigacin es primordial para conocer a profundidad la problemtica por la cual es necesaria la implementacin de un Data Mart en la empresa EMAPAT del Cantn El Tambo.
86
Investigacin Exploratoria: La investigacin pasar por el nivel de investigacin exploratoria porque sondear un problema poco investigado o desconocido en un ambiente determinado, especialmente para definir el tema de investigacin.
Investigacin Descriptiva: Es descriptiva porque se buscara informar los resultados obtenidos de la investigacin entre la comparacin de dos variables, tomando encuentra criterios de coherencia interna y pertinencia.
DISEO DE INVESTIGACIN Investigacin Documental: ya que est basado en la obtencin y anlisis de datos provenientes de materiales impresos u otro tipo de documentos como es la recoleccin de datos en la realidad donde ocurre el hecho.
Investigacin de Campo: La investigacin tendr la modalidad de campo porque el investigador acudir al lugar en donde se producen los hechos para obtener informacin relacionada con los objetivos de la investigacin.
POBLACIN Y MUESTRA La poblacin que se estudiara en esta investigacin, est compuesta por un determinado o limitado nmero de personas. Esta poblacin finita consta de 10 empleados, en la empresa EMAPAT del Cantn El tambo.
Por ser pequea la poblacin a ser investigada no se utilizar ninguna tcnica de muestra.
87
TCNICAS E INSTRUMENTOS DE RECOLECCIN DE DATOS Entrevista y Encuestas Dirigidas al Gerente Administrativo, al Administrador del Sistema y a los empleados de la institucin, cuyos instrumentos sern una gua para recaudar informacin de los procesos y el manejo de la informacin de la base de datos. Adems de conocer el entorno de hardware y software sobre el cual se encuentran implantados los sistemas operacionales de la institucin, esto con el fin de conocer cules son los reportes y peticiones de informacin ms comunes y solicitadas.
TCNICAS DE PROCESAMIENTO Y ANLISIS DE DATOS
Revisin crtica de la informacin recogida; es decir, limpieza de la informacin defectuosa: contradictoria, incompleta, no pertinente, etc. Repeticin de la recoleccin, en ciertos casos individuales, para corregir fallas de contestacin. Tabulacin o cuadros segn variables de la hiptesis La presentacin de datos puede hacerse siguiendo los siguientes procedimientos: Representacin escrita Representacin tabular Representacin grfica
XI. CONTENIDOS O TEMARIO
88
CAPITULO I EL PROBLEMA
1.1 PLANTEAMIENTO DEL PROBLEMA 1.2. INTERROGANTES DE LA INVESTIGACIN 1.2.1. INTERROGANTE GENERAL. 1.2.2. INTERROGANTES ESPECFICAS. 1.3. FORMULACIN DEL PROBLEMA. 1.4 OBJETIVOS. 1.4.1. OBJETIVO GENERAL 1.4.2. OBJETIVOS ESPECFICOS. 1.5. JUSTIFICACIN DE LA INVESTIGACIN 1.6. LIMITACIONES.
CAPITULO II MARCO REFERENCIAL, TERICO Y CONCEPTUAL
2.1. ANTECEDENTES DE LA INVESTIGACIN (Marco Referencial) 2.2. MARCO TERICO. 2.2.1. FUNDAMENTACIN TERICA O BASES TERICAS. 2.2.1.1 BUSINESS INTELLIGENCE
89
2.2.1.1.2 ARQUITECTURA DE UNA SOLUCIN DE BUSINESS INTELLIGENCE 2.2.2.1 SISTEMAS DE SOPORTE A LA DECISIN (DSS) 2.2.2.1.1 SISTEMAS DE INFORMACIN GERENCIAL (MIS) 2.2.2.1.2 SISTEMAS DE INFORMACIN EJECUTIVA (EIS) 2.2.2.1.3 SISTEMAS EXPERTOS BASADOS EN INTELIGENCIA ARTIFICIAL (SSEE) 2.2.2.1.4 SISTEMAS DE APOYO A DECISIONES DE GRUPO (GDSS) 2.2.3.1 DATAWAREHOUSE 2.2.3.1.1 PRINCIPALES APORTACIONES DE UN DATAWERAHOUSE 2.2.4.1 DATAMART 2.2.4.1.1 CUBO DE DATA MART 2.2.4.1.2 CARACTERSTICAS DE UN DATA MART 2.2.4.1.3 TABLAS DE HECHOS (FACT TABLES). 2.2.4.1.4 DIMENSIONES 2.2.4.1.5 ESQUEMA ESTRELLA. 2.2.4.1.6 ESQUEMA COPO DE NIEVE 2.2.5.1 BASES DE DATOS OLTP Y OLAP 2.2.5.1.1 OLTP (ON-LINE TRANSACTIONAL PROCESSING) 2.2.5.1.2 OLAP (ON-LINE ANALYTICAL PROCESSING) 2.2.6.1 DATAMINING (MINERA DE DATOS)
90
2.2.7.1 ETL EXTRACCIN, TRANSFORMACIN Y CARGA 2.2.8.1 PENTAHO OPEN SOURCE 2.2.8.1.1 PLATAFORMA PENTAHO 2.2.8.1.2 MONDRIAN 2.2.8.1.3 JFREEREPORT / PENTAHO REPORTING 2.2.8.1.4 PENTAHO DATA INTEGRATIN 2.2.8.1.5 MINERA DE DATOS 2.2. FUNDAMENTACIN LEGAL. 2.3. DEFINICIN DE TRMINOS BSICOS (Marco conceptual) 2.4. SISTEMA DE HIPTESIS Y VARIABLES 2.4.1. CONCEPTUALIZACIN DE VARIABLES 2.4.2. OPERACIONALIZACIN DE VARIABLES
CAPTULO III MARCO METODOLGICO
3.1. METODOLOGA. 3.2. NIVEL DE LA INVESTIGACIN. 3.3. TIPO DE INVESTIGACIN. 3.4. MTODOS DE INVESTIGACIN. 3.5. POBLACIN Y MUESTRA 3.6. TIPOS DE MUESTREO
91
3.7. TCNICAS E INSTRUMENTOS PARA LA RECOLECCIN DE LA INFORMACIN. 3.7. PRESENTACIN, ANLISIS E INTERPRETACIN DE RESULTADOS. 3.8. ANLISIS DE CONFIABILIDAD Y VALIDEZ.
CAPTULO IV IMPLEMENTACIN DE LA PROPUESTA
4.1. TTULO DE LA PROPUESTA 4.2. PRESENTACIN 4.3. OBJETIVOS 4.4. JUSTIFICACIN 4.5. FUNDAMENTACIN TERICA 4.6. DESCRIPCIN DE LA PROPUESTA 4.7. FACTIBILIDAD DE LA PROPUESTA 4.7.1. RECURSOS MATERIALES 4.7.2. RECURSOS FINANCIEROS 4.7.3. TALENTO HUMANO 4.7.4. LEGAL 4.8. DESARROLLO DE LA PROPUESTA 4.9. EVALUACIN DE LA PROPUESTA.
CONCLUSIONES.
92
RECOMENDACIONES. BIBLIOGRAFA. ANEXOS.
XII. MARCO ADMINISTRATIVO RECURSOS MATERIALES: Los recursos materiales necesarios para la implementacin, se encuentran disponibles en la empresa EMAPAT DEL Cantn El Tambo, por lo que no es necesaria la adquisicin: Un Servidor. Computadoras personales de los empleados de la empresa. Servicio de Internet.
TALENTO HUMANO QUE INTERVENDR EN LA EJECUCIN DEL PROYECTO: Investigador: Carlos Armando Montalvo Molina. Director: Ingeniero Luis Fernando Pinos. Gerente de la empresa EMAPAT: Ingeniero Galo Garca. Empleados de la empresa EMAPAT.
93
CRONOGRAMA DE ACTIVIDADES
ACTIVIDAD DICIEMBRE ENERO FEBRERO MARZO ABRIL MAYO DISEO DEL TRABAJO X X X REVISION DEL DIRECTOR X APROBACION X X X DESARROLLO X X X X X X X X X X RECOLECCION DE DATOS X INTERPRETACION DE RESULTADOS X X CONCLUSIONES Y RECOMENDACIONES X PRESENTACIN DEL TRABAJO X DEFENSA DEL TRABAJO X
94
95
XIII. BIBLIOGRAFA XIV. RESPONSABILIDAD Y FECHA
En esta parte rubricarn tanto el investigador como el director del proyecto.
Caar, ____ de _____________ de ________
_____________________ INVESTIGADOR (Nombres y Apellidos) ________________________ DIRECTOR (Nombres y Apellidos)
96
ANEXO 2
MODELO DE ENTREVISTA SEMI ESTRUCTURADA APLICADA AL PERSONAL QUE LABORA EN LA EMPRESA EMAPAT DEL CANTN EL TAMBO
ENTREVISTADOR: CARLOS ARMANDO MONTALVO MOLINA. ENTREVISTADO: EMPLEADO DE LA EMPRESA. TEMA: IMPLEMENTACION DE UN DATA MART PARA EL AREA DE COMERCIALIZACIN DE LA EMPRESA EMAPAT.
ENTREVISTA AL GERENTE DE LA EMPRESA EMAPAT. Nombre: Galo Garca. Ttulos Obtenidos: Ing. Civil Experiencia en el Trabajo: Actividades profesionales durante 3 aos en la empresa.
Preguntas planteadas 1. cmo describira su papel y sus tareas al interior de la empresa EMAPAT? 2. Cuantos aos trabaja en la empresa? 3. Podra darnos a conocer como est conformada la estructura orgnica de la empresa Emapat? 4. Cules creen ustedes que seran las fortalezas y debilidades que mantiene la empresa?
97
5. Qu informacin considera usted sera la ms relevante y que debe llegar a su conocimiento para el desarrollo de su actividad?Cules son los principales reportes que el gerente le solicita? 6. Cree que Los reportes que se realizan con el actual sistema cubren con toda las necesidades de la gerencia para el anlisis y toma de decisiones? 7. Cree que es necesario realizar los reportes de manera grfica?
ENTREVISTA AL ENCARGADO DEL REA ADMINISTRATIVA DE LA EMPRESA EMAPAT. Nombre: Mara Eugenia De La Torre. Ttulos Obtenidos: Ing. Empresarial Experiencia en el Trabajo: Actividades profesionales durante 1 aos en la empresa. Preguntas planteadas 1. Podra darnos a conocer cuntos aos trabaja en la empresa Emapat 2. Cmo describira su papel y sus tareas al interior de la empresa Emapat? 3. Qu tipo de informacin recibe Usted para analizarla? 4. Cules son los principales reportes que el gerente le solicita? 5. Cmo piensa usted que deberan ser los reportes que se entregan a la gerencia: numrica, grfica o de las dos formas?
98
LA PRESENTE ENCUESTA EST DISEADA PARA EVALUAR EL ESTADO ACTUAL DEL SISTEMA DE COBROS DE IMPUESTO AL DESARROLLADOR Y ENCARGADO DEL MANTENIMIENTO DEL SISTEMA.
1. Qu tiempo tiene el sistema de cobros de impuesto. 2. Existe algn servidor en donde se almacenan los datos 3. cuenta el sistema con reportes grficos, orientados para la toma de dicciones en la gerencia. 4. En que motor de base de datos se almacena la informacin. 5. Existe un modelado E/R de la Base de datos del sistema de cobro de impuestos.
99
ANEXO 3 INSTALACIN Y CONFIGURACIN DE LA SUITE DE PENTAHO INTRODUCCIN Pentaho es una suite de herramientas de inteligencia de negocios que tiene dos versiones, la versin comercial y la versin de cdigo abierto. Pentaho ofrece herramientas para el desarrollo de informes como: Pentaho Reporting: le permitir acceder fcilmente a la informacin generada por sus procesos de negocio que provienen de diversas fuentes y asi distribuirla, a todos sus empleados, clientes y socios, de una forma ms intuitiva. Pentaho Analysis: lo ayudar a operar con mxima efectividad y a entender lo necesario para tomas ptimas decisiones. Pentaho Dashboards: ofrece una perspectiva individual, por departamentos o resultados, lo cual ayuda a comprender y mejorar el desempeo organizacional. Pentaho Data Integration: permite la integracin de datos de gran alcance Extraccin. Transformacin y Carga (ETL) de las capacidades mediante un enfoque innovador de metadatos.
100
MANUAL DE INSTALACION Y USO DE LA SUITE DE PENTAHO.
CONFIGURACIN DE LA BASE DE DATOS Se utilizar PostgreSQL como motor de base de datos, tanto para los procesos transaccionales, como para la creacin del repositorio ETL y la base de datos dimensional.
USO DE LA APLICACIN GRFICA DE POSTGRES Se ingresa a la aplicacin grfica a travs de Aplicaciones->Programacin-> PgAdmin, aparecer una ventana principal de pgAdminIII, si tenemos todo correctamente configurado se procede con el proceso de creacin de base de datos pero de modo grfico o ejecutando scripts de creacin como se demuestra a continuacin.
Figura 1: Creacin de la base de datos en Postgres Fuente: Armando Montalvo.
101
PENTAHO DATA INTEGRACTION
PDI Pentaho Data Integration (Kettle).- el cual es una ETL que nos permitir extraer la informacin de la base de datos transaccional de la empresa EMAPAT, para ello se tiene que transformar la informacin a un modelo dimensional y cargar los resultados de la transformacin en una base de datos destino tipo Data Warehouse, para que luego pueda ser consultados y analizados.
Para descargar Ketle nos vamos a la siguiente pgina: http://sourceforge.net/projects/pentaho/files/Data%20Integration/5.0.1-stable/ y presionamos en la versin pdi-ce-5-0-1-stable que se utiliza para la plataforma Windows como se muestra en la figura 2.
Figura 2: Archivo de descarga de PDI Fuente: Armando Montalvo.
102
EJECUCIN DE PENTAHO DATA INTEGRACIN Una vez descargado el archivo Zip nos ubicamos en la carpeta donde queremos que se descomprima y ejecutamos el archivo SPOON.BAT, para que se abra la ventana de Kettle
Figura 3: Ventana principal de PDI Fuente: Armando Montalvo.
INICIANDO KETTLE CON INTERFAZ DE USUARIO Al iniciar el Spoon.bat para Windows que se encuentra en el directorio Kettle, todos los datos van a ser guardados en archivos XML con extenciones .Ktr (para las transformaciones) y .Kjb (para los Jobs) como se muestra en la siguiente imagen
103
Figura 4: Pantalla de inicio de interfaz de usuario de Kettle. Fuente: Armando Montalvo.
ELEMENTOS PARA UNA TRANSFORMACIN A continuacin mostramos la tabla de los elementos ms usados durante el proceso de transformacin. Tabla 1: Steps de Pentaho Kettle Icono Nombre Descripcin
Input Table Utilizado para leer informacin de una base de datos, usando una conexin y SQL. Sentencias SQL son generadas automticamente
Excel Input Provee la habilidad de leer datos de uno o ms archivos Excel.
Insert / Update Permite, primero realiza una bsqueda de una fila en una tabla usando una o ms llaves. Si la fila no es encontrada, se inserta. Caso contrario se actualizan los campos si se
104
requiere.
Database lookup Permite buscar valores en una tabla de base de datos. Valores encontrados son aadidos como nuevos campos en el flujo.
Select values til para seleccionar, renombrar y configurar la longitud y precisin de los campos en el flujo.
Filter Rows Permite filtrar filas basndose en condiciones y comparaciones. Una vez que el step est conectado a step previos (uno o ms entradas), se construye la condicin.
Add sequence Permite aadir una secuencia al flujo. Una secuencia es un valor entero con un inicio y un valor de incremento.
Group By Permite calcular valores sobre un grupo de campos definidos.
Calculator Provee funciones predefinidas que pueden ser ejecutadas en valores de los campos.
Fuente: Anlisis del investigador. Elaborado por:Armando Montalvo.
ANALISIS DE DIMENSIONES Y TABLA DE HECHOS DEL MODELO LGICO DEL ESQUEMA EMAPAT.
105
Vamos a detallar cada una de las dimensiones, enumerando los atributos que las forman y construyendo el modelo lgico. Tendremos en cuenta todas las consideraciones vistas hasta ahora, verificando igualmente durante la identificacin de los atributos e indicadores la informacin existente en el sistema transaccional de la empresa Emapat, que se llenara el Data Mart. Medidores PK,FK1 cli_codigo PK,FK2 sec_codigo PK,FK3 rut_codigo PK,FK4 cat_codigo PK,FK5 fecha_sk Indicadores Clientes PK cli_codigo Atrubutos Sectores PK sec_codigo Atributos Rutas PK rut_codigo Atributos Lecturas PK,FK1 cli_codigo PK,FK1 sec_codigo PK,FK1 rut_codigo PK,FK1 cat_codigo PK,FK1 fecha_sk PK lec_codigo Atributos Cobros PK cob_codigo FK1 lec_codigo Atributos FK1 fecha_sk Detalle_Factura PK det_codigo FK1 cob_codigo FK2 fac_codigo Factura PK fac_codigo Atributos Categoria PK cat_codigo Atributos Tiempo PK fecha_sk Atrubutos
Figura 5: Modelo lgico Fuente: Armando Montalvo.
EXTRACCIN, TRANSFORMACIN Y CARGA En esta seccin se explican los pasos seguidos para realizar la extraccin, transformaciny carga de los datos dentro del Data Mart desde la base de datos Emapat. De aqu en adelante se referir a la extraccin, transformacin y carga como ETL.Como ya se indic anteriormente, en esta
106
investigacin se decidi utilizar la herramienta Pentaho Data Integration de la plataforma Pentaho, tambin conocida como Kettle.
Esta cuenta con varias aplicaciones para la manipulacin de datos, entre las que seencuentran Spoon, Pan y Kitchen. Por medio de Spoon, se puede acceder a una interfaz grfica que permite disear los elementos principales de un proceso de ETL, los cuales son los trabajos y las transformaciones. Pan es una aplicacin que interpreta y ejecuta transformaciones diseadas con Spoon. De forma similar, Kitchen es una aplicacin que interpreta y ejecuta trabajos diseados con Spoon. Mediante estas 3 herramientas se pueden cubrir todos los requerimientos de carga del Data Mart.
CREACIN DEL REPOSITORIO Un repositorio de Kettle (Kettle Repository) es un conjunto de tablas de base de datos que son accesibles por los clientes de Kettle (Spoon, Chef, Pan y Kitchen) para almacenar y recibir transformaciones, trabajos, conexiones de base de datos, un poco ms en detalle, un repositorio de Kettle es una base de datos que contiene las tablas necesarias para poder almacenar todos los objetos Kettle que creemos. Transformaciones, trabajos, conexiones estarn disponibles de forma centralizada, facilitando la reutilizacin y gestin de cambios.
Para la creacin del repositorio tenemos que ubicarnos en la ventana principal de PDI, dirigirnos a la barra de herramientas y presionar en tools, se nos desplegar la lista de opciones, pulsamos
107
en repository y luego en conect. Se nos abrir una pequea ventana que sirve para la conexin a los repositorios existentes, para crear uno nuevo repositorio damos click en el signo ms, se nos abrir otra ventana, presionamos la primera fila como lo demuestra la siguiente figura
Figura 6: Creacin del repositorio de Pentaho Kettle Fuente: Armando Montalvo.
En nuestro caso, como vamos a crear un nuevo repositorio, pulsamos el botn OK. Para crearlo, primeramente tenemos que tener una conexin a la base de datos donde se almacenar, seleccionamos la base de datos que previamente creamos en Postgres y damos click en NEW.
Figura 7: Crear nueva conexin Fuente: Armando Montalvo.
Creamos una nueva conexin, es importante tener en cuenta dos cosas:
108
El tipo de conexin debe ser Native (JDBC). El usuario de acceso a la base de datos tienen que tener permisos para crear tablas al menos durante el proceso de creacin del repositorio, sino obviamente no podr crear las tablas del repositorio.
Figura 8: Crear la conexin con la base de datos Fuente: Armando Montalvo.
Presionamos el botn de Aceptar y en la parte inferior de la ventana presionamos el botn de OK adicional. Se ha creado de esta manera la conexin. Se nos presenta nuevamente la ventana anterior y debemos presionar Create or Upgrade para de esa manera terminar de definir nuestro repositorio.
109
Figura 9: Crea r el ID y Nombre del repositorio Fuente: Armando Montalvo.
Una vez que presionamos Create or upgrate nos pide la confirmacin de la base de datos en donde ser nuestro repositorio damos click en si para ejecutarse.
Figura 10: Confirmar la creacin del repositorio Fuente: Armando Montalvo.
Para finalizar se va a ejecutar un script para la creacin del repositorio dndole click en execute
Figura 11: Ejecutar el query de creacin Fuente: Armando Montalvo.
Spoon crear automticamente todas las tablas y datos necesarios para el repositorio en la base de datos. Al mismo tiempo, toda la configuracin de acceso creada quedar almacenada en el
110
fichero repositories.xml dentro del directorio .Kettle (este a su vez dentro del directorio personal del usuario). Una vez creado el repositorio, necesitamos tambin un usuario y un password para poder conectarnos. El primer usuario/password en un repositorio recin creado es admin/admin. El password puede ser (o mejor dicho, debera ser) cambiado despus de realizar el primer lgin con el explorador de repositorio.
Figura 12: Ingresar al repositorio Fuente: Armando Montalvo.
BACKUP DEL REPOSITORIO Como siempre es importante asegurar la recuperacin del trabajo realizado en caso de desastre y realizar una copia de seguridad de repositorio. Vamos a ver que es muy sencillo realizar un backup y puede ser en si otra de las ventajas de tener almacenados los objetos de Kettle en un repositorio.
111
Con el Explorador del Repositorio, en el men seleccionar la opcin de Exportar todos los objetos a un fichero XML. Tambin se pueden exportar subgrupos de objetos con el men contextual que aparece al pulsar encima de ellos con el botn derecho del ratn. Estas indicaciones tambin son vlidas la restauracin de copias de seguridad.Con pan.bat exprep=miFicheroDeBackup.xml. Con este mtodo podemos crear una pequea tarea de Windows para que realice un backup todas las noches. (en Linux es con pan.sh).
STEPS O TRANSFORMACIN Para que PDI ha comience a crear un nuevo trabajo se puede hacer clic en el> Nuevo> opcin Trabajo del archivo o usar el CTRL + ALT + N atajo.
Figura 13: Icono de Job (trabajo) y Transformacin Fuente: Armando Montalvo. CARACTERISTICAS DE UN TRANSFORMACON
Consiste en una coleccin de steps de transformacin. Cada step denota una operacin del proceso ETL. La salida de un step produce un conjunto de registros. Los steps de la transformacin se ejecutan de forma simultnea y asincrnica. El resultade es un archivo .ktr.
112
AADIR STEPS Para aadir steps al transformation simplemente se arrastran de la barra lateral y se colocan en el rea de trabajo, luego se deben configurar y organizar. Las relaciones entre steps se denominan hops.
EJECUTAR TRANSFORMACIN Cuando se ha finalizado la modificacin al transformation se debe ejecutar con el botn Run o Start del men principal. Aparecer un registro con los pasos realizados y sus estados, adems de presentarse errores se podrn verificar tambin en el registro.
Figura 14: Ejemplo de transformacin Fuente: http://churriwifi.wordpress.com
Figura 15: Ejemplo de Jobs Fuente:http://churriwifi.wordpress.com
113
CREAR LAS CONEXIONES DE BASE DE DATOS COMPARTIDA. El siguiente paso es crear dos conexiones de base de datos compartidas uno para la base de datos transaccional Emapat, de donde traeremos las entidades que vamos a utilizar para crear las dimensiones. Y la otra ser la base de datos dimensional que creamos que se llama Repositorio. En el panel de la izquierda haga clic derecho en el elemento de conexin de base de datos y seleccione la opcin Nuevo, como se muestra en la siguiente figura.
Figura 16: Conexin con la base de datos Transaccional y repositorio Fuente: Armando Montalvo.
Aparecer la ventana de conexin de base de datos. A continuacin, rellenar las opciones disponibles para su conexin a la base de datos, en este casose utilizara una base de datos Postgres. Nombre de conexin: Nombre de la conexin es decir Emapat Nombre de host: host de su servidor de base de datos es decir, localhost
114
Base de datos: Nombre de la base de datos que contiene la informacin de las entidades, es decir Emapat Nmero de puerto: Port que su base de datos est a la escucha, es decir 5432 Nombre de usuario: El usuario para acceder a la base de datos es decir, la razpostgres Contrasea: Contrasea para acceder a la base de datos Realizamos el mismo proceso para la base de datos Repositorio.
Figura 17: Propiedad para que la base de datos este siempre conectada Fuente: Armando Montalvo. Y por ltimo de damos click en Share, esta propiedad sirve para que las bases de datos estn conectadas todas las veces que necesitemos hacer una transformacin.
POBLAR LAS TABLAS DE LAS DIMENSIONES CON DATOS HISTRICOS La extraccin de los datos se realiza mediante sentencias SQL a las tablas de la base de datos Emapat, como resultado nos devolvern los registros de acuerdo a la consulta realizada en el proceso de carga inicial.
115
Luego de creado el almacn (repositorio) que soportar las dimensiones que contienen los datos para su extraccin y posterior transformacin desde los sistemas operacionales que se deseen integrar mediante el proceso ETL, se carga con los datos previstos con el siguiente proceso.
TRATAMIENTO DE DIMENSIONES LENTAMENTE CAMBIANTES (SCD) CON PENTAHO DATA IINEGRATION Antes de continuar con la construccin de los procesos ETL, vamos a ver la forma de gestionar las dimensiones lentamente cambiantes con Pentaho Data Integration. En concreto, veremos en detalle el paso Dimension lookup/update. En este step se implementa de forma automatica el algoritmo para el tratamiento de las SCD del tipo I y II, aunque exista otra categora mas.
SCD Tipo 1: Sobreescribir, cuando hay un cambio en los valores de un atributo, sobrescribimos el valor antiguo con el nuevo sin registrar una historia. Esto significa perder toda la historia del dato, y cuando hagamos un anlisis veremos la informacin histrica desde el punto de vista actual. SCD Tipo 2: Aadir fila: cuando hay un cambio, creamos un nuevo registro en la tabla. El nuevo registro tiene una nueva clave subrogada, de forma que una entidad de sistema operacional (por ejemplo, un cliente), puede tener varios registros en la tabla de la dimensin segn se van produciendo los cambios. Estamos gestionando un versionado, que ademas puede incluir unas fechas para indicar los periodos de validez, numerador de registros o un indicador de registro activo o no.
116
La carga de las dimensiones en nuestro ETL se lo realizara utilizando SCD tipo 1, de acuerdo con los requerimientos especificados.
DIMENSIN CLIENTES La dimensin Cliente nos permitir el anlisis desde la perspectiva de todos los atributos relacionados con el cliente, (tomando en cuenta que los Nombres y los Apellidos los vamos a concatenar),como se especifica en la imagen de la consulta. Nombre de Tabla: dim_Clientes. Tipo de Tabla: Dimensin. Esquema Origen: Sistema Transaccional Emapat. Tabla Origen: Clientes. Tabla 2: Tabla dimensin Clientes Destino Origen Nombre- columna Descripcin Tipo de dato tamao SCD Sistema/esquema tabla Campo de origen Tipo de dato origen cli_codigo Id_codigo PK Subrrogada int4 bigserial
1 Sistema ETL cli_codigo Serial nombres Nombres y Apellidos del Cliente Text 1 Emapat cli_apellido varchar(50) Emapt cli_nombre varchar(50) Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
En la ventana principal de Kettle abrimos la carpeta input que se encuentra en el lado izquierdo de la ventana y arrastramos el siguiente icono
117
Figura 18: Configurar table input Fuente: Armando Montalvo. Este paso se utiliza para leer informacin de una base de datos, utilizando una conexin y SQL. Instrucciones SQL bsicas se pueden generar automticamente pulsando select instruccin Get SQL. Para ello damos doble click en el icono table unput, nos abrir otra ventana a la que tendremos que ingresar la base de datos transaccional que previamente nos conectamos, en esta base de datos Emapat hacemos doble click en Clientes como se ve en la siguiente figura.
Figura 19: Marcar Clientes de la base de datos transaccional Fuente: Armando Montalvo.
118
Le damos aceptar.
Figura 20: Confirmar la consulta Fuente: Armando Montalvo.
Nos aparecer una ventana con una consulta SQL que vamos a modificarlo, ya que de Clientes solo necesitamos los tres campos campos que son cli_codigo, cli_nombre y cli_apellido. Adems los nombres y apellidos los vamos a concatenar como vemos en la siguiente figura.
Figura 21: Vista previa de la consulta Fuente: Armando Montalvo.
Para ver el resultado de la consulta damos click en Preview.
119
Figura 22: resultado de la vista Fuente: Armando Montalvo.
Presionamos Ok y tenemos listo la extraccin de los datos del Cliente de la base de datos transaccional. El siguiente proceso es aadir varios Steps a la transformacin como se ve en la siguiente figura.
Figura 23: Etl dimensin Clientes Fuente: Armando Montalvo.
120
Aadir Secuencia (Add sequence).- Este paso se limita a aadir un valor de secuencia que se resetea cada vez se modifica o actualiza un valor en la lista de campos especificados. Para estatransformacin completamos el siguiente campo: Nombre del Valor: nombre del campo que contendr la secuencia. En este caso: Id_cliente.
Figura 24: Agregar secuencia al Etl Cliente Fuente: Armando Montalvo. Seleccione Valores (Select values).- El paso Seleccione Valores es til para la seleccin, la eliminacin, cambio de nombre, cambio de tipos de datos y la configuracin de la longitud y la precisin de los campos en la secuencia.
121
Figura 25: Seleccionar valores Fuente: Armando Montalvo. Ordenar Filas (Sort rows).- El paso Ordenar filas ordena las filas basndose en los campos que se especifiquen y sobre si se deben ordenar de forma ascendente o descendente, en nuestro caso dejamos solamente.
Figura 26: Ordenar filas Fuente: Armando Montalvo.
122
Dimensin de bsqueda / actualizacin (Dimension lookup /Update.- Tiene ms control sobre si se debe actualizar, perforar, o ignorar ciertos campos. Tambin requiere que la dimensin de ser una dimensin de variacin lenta con la versin de campos extra, a partir de la fecha, hasta la fecha. Adems de que va a poblar la dimensin Clientes en la base de datos Repositorio que creamos anteriormente.
El proceso de poblar la dimensin es el siguiente: Arrastramos el estep Dimension lookup/update al lienzo. Hacemos la conexin a la base de datos Repositorio Presionamos Get fields para recuperar los datos. Creamos la clave subrogada y presionamos OK
Figura 27: Paso Dimensin bsqueda/actualizacin Fuente: Armando Montalvo.
123
Tenemos que prestar atencin en lo que se refiere a las claves subrogadas. Las claves existentes en los OLTP se denominan claves naturales; en cambio, las claves subrogadas son aquellas que se definen artificialmente, son de tipo numrico secuencial, no tienen relacin directa con ningn dato y no poseen ningn significado en especial.
Lo anterior, es solo una de las razones por las cuales utilizar claves subrogadas en el DW, pero se pueden definir una serie de ventajas ms: Ocupan menos espacio y son ms performantes que las tradicionales claves naturales, y ms an si estas ltimas son de tipo texto. Son de tipo numrico entero (autonumrico o secuencial). Permiten que la construccin y mantenimiento de ndices sea una tarea sencilla. El DW no depender de la codificacin interna del OLTP. Si se modifica el valor de una clave en el OLTP, el DW lo tomar como un nuevo elemento, permitiendo de esta manera, almacenar diferentes versiones del mismo dato. Permiten la correcta aplicacin de tcnicas SCD (Dimensiones lentamente cambiantes).
Para poblar las dimensiones de dim_Sector, dim_Rutas y dim_Categoras realizamos el mismo proceso de la dimensin Clientes
124
DIMENSIN SECTOR. La dimensin Sector nos permitir el anlisis desde la perspectiva de todos los atributos relacionados con cdigo del sector y nombre del sector, dado que el Cantn se encuentra dividido en varios sectores, como se especifica a continuacin. Nombre de Tabla: dim_Sectores. Tipo de Tabla: Dimensin. Esquema Origen: Sistema Transaccional Emapat. Tabla Origen: Sectores.
Tabla 3: Tabla dimensin Sectores Destino Origen Nombre- columna Descripcin Tipo de dato tamao SCD Sistema/esquema tabla Campo de origen Tipo de dato origen sec_codigo id_sector PK Subrogada int4 bigserial
1 Sistema ETL sec_codigo Serial Sectores Ubicacin del medidor por sectores varchar(30) 1 Emapat sec_nombre varchar(30) Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
Arrastramos los Step al lienzo, unimos y ejecutamos la transformacin de la dimensin Sectores.
125
Figura 28: Etl dimensin Sectores Fuente: Armando Montalvo. DIMENSIN RUTA. La dimensin Ruta nos permitir el anlisis desde la perspectiva de todos los atributos relacionados con la ruta, como cdigo de la ruta y nombre de la ruta, como se especifica a continuacin. Nombre de Tabla: dim_Rutas. Tipo de Tabla: Dimensin. Esquema Origen: Sistema Transaccional Emapat. Tabla Origen: Rutas. Tabla 4: Tabla dimensin Rutas Destino Origen Nombre- columna Descripcin Tipo de dato tamao SCD Sistema/esquema tabla Campo de origen Tipo de dato origen rut_codigo id_ruta PK Subrogada int4 bigserial
1 Sistema ETL rut_codigo Serial Ruta Ruta de lecturas varchar(30) 1 Emapat rut_nombre varchar(30) Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
126
Arrastramos los Step al lienzo, unimos y ejecutamos la transformacin de la dimensin Rutas.
Figura 29: Etl dimensin Rutas Fuente: Armando Montalvo. DIMENSIN CATEGORIA. La dimensin Categora nos permitir el anlisis desde la perspectiva de todos los atributos cdigo y nombre de la categora, que estn relacionados con los medidores instalados en el Cantn El Tambo, como se especifica a continuacin. Nombre de Tabla: dim_Categoria. Tipo de Tabla: Dimensin. Esquema Origen: Sistema Transaccional Emapat. Tabla Origen: Categoria.
127
Tabla 5: Tabla dimensin Categora Destino Origen Nombre- columna Descripcin Tipo de dato tamao SCD Sistema/esquema tabla Campo de origen Tipo de dato origen cat_codigo id_categoria PK Subrogada int4 bigserial
1 Sistema ETL cat_codigo Serial categoria Categora del medidor varchar(30) 1 Emapat cat_nombre varchar(30) Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
Arrastramos los esteps al lienzo, unimos y ejecutamos la transformacin de la dimensin Categora.
Figura 30: Etl dimensin Categora Fuente: Armando Montalvo. DIMENSIN FACTURA. La dimensin Factura nos permitir el anlisis desde la perspectiva de todos los atributos cdigo de la Factura, el inters en caso de retraso de pago por dos meses, el valor total a pagar y el cdigo de la entidad cobro que est normalizado dentro de la dimensin factura como se especifica a continuacin.
128
Nombre de Tabla: dim_Factura. Tipo de Tabla: Dimensin. Esquema Origen: Sistema Transaccional Emapat. Tabla Origen: Factura.
Tabla 6: Tabla dimensin Factura Destino Origen Nombre- columna Descripcin Tipo de dato tamao SCD Sistema/esquema tabla Campo de origen Tipo de dato origen cob_codigo lec_codigo id_cobros PK
Subrogada int4 int4 bigserial
1 Sistema ETL cob_codigo lec_codigo Serial int4 Valor Valor-pagar numeric(10,2) 1 Emapat cob_valora numeric(8,2) Alcabala Impuesto de Alcabala numeric(10,2) 1 Emapat cob_valoralc numeric(8,2) Total Total-pagar numeric(10,2) 1 Emapat cob_total numeric(8,2) Fecha Fecha-pago Timestamp 1 Emapat cob_fechai Date Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
Para la trasformacin de la dimensin Facturas vamos a utilizar un estep adicional. Primero arrastramos al lienzo dos tablas input y extraemos los registros de la base de datos transaccional Emapat, luego arrastramos el estep llamado Merge join, este estep sirve para cargar registros de dos tablas diferentes relacionados con las claves forneas lo que en Sql llamamos Inner join. De la entidad Cobros utilizaremos los siguientes campos: cob_codigo cob_valora cob_valoralc cob_total
129
cob_fecha Y de la tabla lectura utilizaremos el campo lec_codigo, el cual es clave fornea de la entidad Cobros. Despus hacer la unin continuamos con el resto de procesos iguales a las otras dimensiones.
Figura 31: Etl dimensin factura Fuente: Armando Montalvo. DIMENSIN TIEMPO. Como bien se sabe, la dimisin tiempo es bsica para cualquier modelo, pues el tiempo siempre es una de las perspectivas por las que queremos analizar la informacin. Los datos que forman esta dimensin los generaremos para un periodo de tiempo determinado (por ejemplo 10 a15 o 20 aos, para incluir periodos pasados y periodos futuros). Vamos a intentar generar el mayor nmero posible de atributos para esta dimensin para facilitar luego el anlisis. Adems, el nmero de componentes o registros de esta dimensin va a ser limitado y no hay problemas de tamao en la Base de Datos.
130
Esta dimensin es esttica por lo que no aplica utilizar las propiedades de SCD (dimensin lentamente cambiante), tambin hay que recalcar que esta dimensin no existe en la base de datos transaccional.
Nombre de Tabla: dim_tiempo. Tipo de Tabla: Dimensin.
Tabla 7: Tabla dimensin Tiempo Destino Nombre- Columna Descripcin Tipo de dato/tamao Fecha_sk Clave primaria subrogada float8 fecha_id fecha en la notacin habitual de tipo date Timestamp fecha_desc Fecha formateada en texto (ejemplo: 15 de abril de 2009). Text diasem_id Da 1,2,37. float8 diasem_desc Da de la semana en texto (Lunes, Martes...). Text diames_id N de da de la fecha en el mes (da 14, da 28, da 31). float8 diaano_id Numero de da de la fecha en el ao (da 234, da 365). float8 semanan_id notacin ao-semana para comparativas, cabeceras Es la clave que identifica cada semana float8 semanan_desc Semana del ao en formato descriptivo (Semana 45 de 2008). Text mes_id notacin ao-mes para comparativas, cabeceras Es la clave que va a identificar cada mes Text mes_desc Mes del ao en formato descriptivo ( Enero de 2008, Abril de 2010,etc). Text mesn_desc Descripcin en texto del mes (Enero, Febrero, Marzo,). float8 anyo_id
ao de la fecha, con 4 dgitos. Es la clave que va a identificar cada ao. float8 Fuente: Anlisis del investigador. Elaborado por: Armando Montalvo.
131
El proceso ETL utilizando PDI. El proceso va a generar todos los datos vistos para cada fecha, desde el 01 de Enero de 2005 hasta el 31 de Diciembre de 2020. El diseo de nuestra transformacin ser el siguiente: Generar Fecha: con un paso del tipo Generate Row (categora Input), generamos 10 mil veces un valor del tipo fecha, con el valor 20050101, que corresponde a la fecha inicial que queremos procesar. Esta fecha es el punto de partida de la generacin de toda la secuencia de fechas hasta llegar al 31 de diciembre de 2020.
Figura 32: Generar Filas Fuente: Armando Montalvo.
Aadir 1 da: con un paso del tipo Add Secuence (categora Transform) generamos un valor numrico, que empieza por 1, y que se va incrementando en cada ejecucin. Este valor ser el que sumaremos ms adelante a la fecha de partida del paso anterior para generar cada una de las fechas deseadas.
132
Figura 33: Aadir secuencia Fuente: Armando Montalvo.
Calcular Fechas: con un paso del tipo Calculator (categora Transform) empezamos a realizar varias operaciones sobre la fecha. La ms importante, como hemos indicado, es sumar la secuencia del paso anterior a la fecha inicial, para generar las fechas. Adems, vamos a realizar otras operaciones, como la conversin de la fecha a nmero para generar la clave subrogada (pasos 2 y 3, utilizando una variable auxiliar). Adems, con las diferentes operaciones que nos proporciona el paso, obtenemos el ao de una fecha, el ao anterior, el da del mes y del ao, la semana, el nmero de mes de la fecha, etc.
Figura 34: Calcular fechas Fuente: Armando Montalvo.
133
Filter Rows: con un paso del tipo Filter Rows (categora Flow) filtramos los registros generados por la fecha, para evitar que se genere ninguna fecha superior al 31 de diciembre de 2020. Las fechas que no cumplen la condicin son desechadas a un paso Dummy (que no hace nada).
Figura 35: filtrar filas Fuente: Armando Montalvo.
Calculo de Textos: con un paso del tipo Formula (categora Scripting), calculamos algunos campos ms, como el identificador de la semana y su descripcin, el mes, el da de la semana, etc. El paso Formula lo utilizaremos cuando los clculos son ms complejos, y no nos vale el step Calculator. Ese paso utiliza la librera LibFormula, cuya sintaxis est basada en el estndar OpenFormula standard, el paso tiene un montn de frmulas disponibles, y cuando seleccionamos alguna tenemos una pequea ayuda con la sintaxis de cada una.
Figura 36: Calcular textos Fuente: Armando Montalvo.
Calculo Resto Atributos: igualmente, para aquellos clculos ms complejos, siempre nos queda la opcin de picar nuestro propio cdigo. Para ello, con el paso Modified Java Script Value
134
(categora Scripting) podemos definir nuestro propio cdigo Javascript. En este caso, hemos utilizado la localizacin en espaol para trabajar con las fechas y as poder extraer las descripciones de los meses del ao y de los das de la semana, as como para obtener otros valores como los trimestres.
Figura 37: script para el resto de atributos Fuente: Armando Montalvo.
Ordena Valores: con el paso Select / Rename values (categora Transform), seleccionamos los campos que queremos pasar al siguiente paso, y el orden. Estamos ordenando los registros para que estn igual que los campos de la base de datos. Con este paso tambin podramos seleccionar que campos queremos eliminar ( y no pasar en el flujo al siguiente paso).
135
Figura 38: Ordenar Valores Fuente: Armando Montalvo.
Carga dim_Tiempo: como paso final en la transformacin, utilizamos el step Table Output (categora Output) para insertar en la correspondiente tabla de la base de datos los registros generados. En concreto, insertamos en la tabla dim_Tiempo. Previamente, hemos definido en PDI la conexin a base de datos para poder seleccionar la tabla destino
136
Figura 39: Table Ouput para seleccionar el destino Fuente: Armando Montalvo.
Finalizada la transformacin se vera de esta manera
137
Figura 40: Etl dimensin Tiempo Fuente: Armando Montalvo. REALIZAR LA CARGA HISTRICA DE LA TABLA DE HECHOS De igual manera que las dimensiones se usaran las SCD para cargar la tabla de hechos y la asignacin de claves subrogadas, tambin se adicionara otra funcionalidad que ser sobre los cambios en la extraccin de datos que hayan sufrido alguna alteracin.
BUSQUEDA DE CLAVES SUBROGADAS EN LA TABLA DE HECHOS CONSUMO MEDIDORES
CARGAR LOS REGISTROS EN LA TABLA DE HECHOS CONSUMO MEDIDORES El proceso para cargar la tabla de hechos es diferente al de las dimensiones lo primero que hay que hacer es arrastrar al lienzo el estep table input de la categora Input, le damos doble click para que se nos abra y le colocamos y hacemos la conexin a la base de datos transaccional que estamos Emapat que estamos utilizando, le damos un nombre a la transformacin en este caso Consumo_Medidor y creamos una consulta Select que va a contener las claves primarias de todas las dimensiones, adems de las medidas que vamos a utilizar como lo demuestra la siguiente figura.
139
Figura 41: Table input Consulta para llenar la tabla de hechos Fuente: Armando Montalvo.
Luego arrastramos al lienzo el estep Table Output de la categora Output y le unimos con un salto al estep Consumo_Medidor, para poder migrar los registros hacia la base de datos Repositorio en donde se encuentran las dimensiones, este proceso lo realizamos dando doble click en el estep, le damos el nombre de la tabla de hechos que ser fact_consumo_med. Le damos click en SQL, para ejecutar la siguiente consulta, luego le damos click en Execute, se abrir la ltima ventana en la que presionaremos OK.
140
Figura 42: Ejecutar consulta Fuente: Armando Montalvo.
El resultado final ser el siguiente.
Figura 43: Etl Tabla de hechos Fuente: Armando Montalvo.
141
ACTUALIZAR LAS DIMENSIONES Y LA TABLA DE HECHOS Sin duda una de los procesos ms importantes del ETL es la actualizacin de los registros de la base de datos, de lo contrario no tendra ningn valor la extraccin y anlisis. Por lo que es necesario realizar una serie de sub procesos que lo detallamos a continuacin.
Job.- es un conjunto complejo o sencillo de tareas para realizar una accin determinada. Igualmente disponemos de un conjunto de pasos (que son diferentes a los de las transformaciones) y los saltos (que en este caso determinan el orden de ejecucin, y la gestin de resultados de la ejecucin de cada paso). Dentro de los Jobs podemos ejecutar una o varias transformaciones, los que nos permite ir dividiendo los procesos en partes y luego orquestar su ejecucin mediante los Jobs. Start (entrada de trabajo).- define el punto de partida para la ejecucin del trabajo. Cada trabajo debe tener una (y slo una) Inicio. La configuracin de entrada de trabajo de arranque contienen funcionalidad bsica de programacin; Sin embargo, la programacin no es persistente y slo est disponible cuando el dispositivo est en funcionamiento.
Figura 44: Iniciar Job Fuente: Armando Montalvo.
142
El siguiente proceso es crear un Job al que le llamaremos Master Job. El job se encuentra en un nivel superior a las transformaciones, estos job tienen un icono de color naranja que permiten ejecutar las transformaciones y otros procesos, en este caso el Master Job cargar otro job que se llama Etl_Emapat.
Figura 45: Carga del Job Etl_Emapat en el Master Job Fuente: Armando Montalvo. Y podemos observar que el job Etl_Emapat a su vez est ejecutando una serie de transformaciones como la tabla de hecho Consumo_Medidor y las dimensiones Clientes, Categoras, Rutas, etc. Y en el caso de ocurrir algn error mostrara un mensaje.
143
Figura 46: Ejecucin del Job Etl Emapat Fuente: Armando Montalvo. Tomando como ejemplo dim_Clientes en el job Etl_Emapt se abre la transformacin que realizamos previamente como se muestra a continuacin.
Figura 47: Etl dimensin Clientes ejecutado por el Job Etl Emapat Fuente: Armando Montalvo.
A continuacin le damos doble click sobre el icono Star parametrizar la actualizacin y procedemos a llenar los campos,en nuestro caso vamos a actualizar el Etl cada fin de mes en espesifico el dia 28 a las 8: 10 de cada mes, como se muestra en la siguiente figura.
144
Figura 48: Calendarizar el Master job Fuente: Armando Montalvo. Ejecutada la transformacin la ventana se vera de la siguiente manera.
Figura 49: Ejecucin del Master Job Fuente: Armando Montalvo. Una vez actualizado nos dirigimos a la barra de herramientas en la parte superior izquierda y pulsamos en Edit y verificamos la actualizacin.
145
Figura 50: Propiedades del Master Job Fuente: Armando Montalvo.
PENTAHO SCHEMA WORKBENCH
Mondrian esquema Workbench es una interfaz de diseo que te permite crear y probar esquemas de cubos OLAP Mondrian visualmente. El motor Mondrian procesa las solicitudes de MDX con la ROLAP (Relational OLAP) esquemas. Estos archivos de esquema son modelos de metadatos XML que se crean en una estructura especfica que utiliza el motor de Mondrian. Estos modelos XML pueden ser consideradas estructuras de forma de cubo que utilizan tablas de hechos y de dimensiones existentes que se encuentran en su RDBMS.
146
INSTALACIN Lo primero que debemos hacer es descargar Mondrian Schema Workbench (Pentaho Schema Workbench -PSW-) de la siguiente direccin: http://sourceforge.net/projects/mondrian/files/schema%20workbench/3.6.1-stable/
Una vez que se descarg el archivo, procedemos a descomprimirlo en algn lugar apropiado. Yo lo tengo en la carpeta de Archivos de Programas/Pentaho/ProgramasSuite Pero eso es eleccin de cada uno. Si lo quieres poner en el Escritorio va a funcionar igual. ACCESO Luego se debe iniciar PSW en Windows: entrar en la carpeta del programa y ejecutar workbench.bat. Automticamente se iniciar una ventana de Ms-dos y lanzar el programa en otra ventana de aspecto bastante ordinario.
Figura 51:Ventana de Schema Workbench Fuente: Armando Montalvo.
El elemento principal del sistema son los ficheros xml donde se representan los esquemas dimensionales. Para construir estos ficheros xml, podriamos utilizar cualquier editor de texto o xml, o bien la herramienta que nos ofrece Pentaho, que se llama Schema Workbench. Pentaho
147
Schema Workbench es la herramienta grfica que permite la construccin de los esquemas de Mondrian, y adems permite publicarlos al servidor BI para que puedan ser utilizados en los analisis por los usuarios de la plataforma.
CONEXIN CON LA BASE DE DATOS Como en todas las herramientas de Pentaho, en primer lugar hemos de definir las conexiones a base de datos como paso previo a la configuracin de los esquemas. Adems, tenemso que colocar el driver jdbc en el directorio drivers de Schema workbench. En nuestro caso, hemos configurado la conexin con Postgres de la siguiente manera. En la ventana principal de Schema Workbench damos click en Options para abrir la ventana de conexin a la base de datos, llenamos los datos en los casilleros correspondientes y pinchamos el botn Test para verificar la conexin luego presionamos OK, y estar lista nuestra conexin.
Figura 52: Conexin con la base de datos
148
Fuente: Armando Montalvo.
CREACIN DE UN ESQUEMA Un esquema es un contenedor de cubos (que tendr un nico fichero xml), donde podremos crear tantos cubos como deseemos. Las propiedades que se pueden indicar al crear un esquema son un nombre, la descripcin, un nombre para la dimensin que agrupara a las medidas y un rol por defecto para utilizar en las conexiones de base de datostal y como veis en la imagen siguiente.
Figura 53: Creacin del esquema Fuente: Armando Montalvo.
CREACIN DE CUBOS Al crear el Cubo, le indicaremos un nombre y una descripcin, pudiendo marcar adems las opciones cache (para que Mondrian trabaje con cache en este cubo) y la opcin enabled (para que el cubo sea visible. Sino est marcado este flag, el cubo no aparecer).
149
Figura 54: Creacin del cubo Consumo_Medidor Fuente: Armando Montalvo. DEFINIR TABLA DE HECHOS Una tabla de hechos es una tabla principal en el modelado multidimensional y que almacena las medidas del rendimiento del negocio. El trmino "hecho" se usa para referirse a una medida de negocio, siendo esta medida el dato que se toma de la sumarizacin de las dimensiones que intervienen en el esquema multidimensional"
Procediendo a crear la tabla de hechos, dando clic en el cubo ConsumoMedidor se puede ver como se despliega un icono de tabla Table, pues en este lugar se selecciona la tabla que contendr los hechos, es decir aquello que deseamos analizar.
150
Figura 55: Agregar tabla de hechos al cubo Fuente: Armando Montalvo.
AADIR DIMENSIONES Son las tablas que contienen la descripcin del negocio. En un modelo bien diseado estas tablas tienen los atributos para que cada fila bien definida. Cada dimensin est definida por su clave primaria, manteniendo as la integridad referencial con cualquier tabla de hechos con la que pueda ser relacionada.
Para crear la dimensin nos paramos encima del cubo, le damos clic derecho y del conjunto de opciones que sale se selecciona la opcin Add Dimension, le damos los nombres y as sucesivamente creamos todas las dimensiones del cubo.
151
Figura 56: Crear dimensiones Fuente: Armando Montalvo. En el siguiente grafico se muestra como el elemento New Dimensin Clientes tiene en su interior a Hierarchy (jerarqua), quien a su vez contiene un Table, la filosofa de ir configurando estas estructuras compuestas, desde adentro hacia afuera hace que esta herramienta sea eficiente, por lo que el modo de configuracin es el siguiente.
Table: dimcliente contiene el campo name en donde se escoge la tabla dimensin requerida, nos interesa dimcliente, as que seleccionamos la mencionada. De la misma forma que arriba Table se acoge al nombre de la tabla seleccionada.
152
Figura 57: Agregar dimensin en la jerarqua Fuente: Armando Montalvo. Luego nos paramos en Hierarchy y en los campos name y allMemberName ponemos Todos_los_clientes este ser el ttulo de los valores que saldrn en los reportes, vistas de anlisis, etc.
En el campo primaryKey seleccionamos de los campos que tenga esta tabla dimensin aquel que sea la llave primaria, en este caso cod_cliente.
153
Figura 58: Agregar clave primaria a la jerarqua Fuente: Armando Montalvo. Bien, ya establecimos la conexin entre las tablas mencionadas, pero no hemos establecido que campo(s) son los que mostraremos. Para ellos nos paramos en Hierarchy y damos clic derecho y seleccionamos Add Level, A este Level le ponemos nombre en name y en nameColumn seleccionamos el campo que deseamos se muestre.
Figura 59: Crear un nivel Fuente: Armando Montalvo.
154
AADIR INDICADORES Nos posicionamos arriba del cubo, damos clic derecho y seleccionamos Add Measure, en name ponemos el nombre de este valor a calcular, en aggregator seleccionamos la operacin de sumarizacin que se desee realizar, en nuestro caso AVG.
Figura 60: Crear medidas o mtricas Fuente: Armando Montalvo. Y realizamos la misma tarea para el resto de medidas
Figura 61: Resto de medidas Fuente: Armando Montalvo.
155
PUBLICACION DEL ESQUEMA Luego de construir el esquema, el paso final para poder utilizarlo en los anlisis del portal BI de Pentaho es su publicacin. Para ello, salvamos el cubo y seleccionamos la opcin de men File Publish. Se nos pide la direccin de publicacin del servidor, la contrasea de publicacin y los datos del usuario. Se realiza la conexin con el servidor y el esquema ya est disponible para ser utilizado.
Figura 62: Publicar esquema Fuente: Armando Montalvo.
Atencin, para poder hacer una publicacin en nuestro servidor hay que haber modificado un archivo que nos da permisos para ello. Para poder modificar este fichero sigue estos pasos: Entra en biserver-ce pentaho-solutions system Botn derecho en el archivo publisher_config.xml
156
<publisher-config> <publisher-password>Emapat</publisher-password> </publisher-config> Accedemos al portal para ver si esto es as. Al crear una nueva vista de anlisis, nos aparecen los diferentes esquemas disponibles, y ya aparece el nuestro, adems delos esquemas de demostracin que incluye el servidor.
PENTAHO REPORT DESIGNER (PRD).
Pentaho Report Designer es una herramienta de reporting que nos permite crear nuestros propios informes, bien para ejecutarlos directamente o para publicarlos en la plantaforma BI y que desde all puedan ser utilizados por los usuarios. La herramienta es independiente de la plataforma y forma parte del conjunto de herramientas de la suite de Pentaho.
Pentaho Report Designer nos permite trabajar con multiples origenes de datos (JDBC, Olap4J, Pentaho Analysis, Pentaho Data Integration, XML) incluido el metadata que tengamos definido en nuestro sistema. Tambin nos permite modificar los informes ad-hoc que hayamos creado utilizando WAQR (de hecho es la nica forma de modificarlos). El motor de reporting de Pentaho est basado en JFreeReports y ha sido totalmente rediseado en lo que llaman PRD.
157
El resultado de los informes que vamos diseando se puede ver con las opciones de previsualizacin, y nos permite la salida de resultados en diferentes formatos como PDF, HTML, XLS, RTF y CSV.
CARRACTERISTICAS DE PENTAHO REPORT DESIGNER Diseador grfico basado en arrastrar y soltar (drag and drop), provee un completo control de acceso alos datos, agrupaciones, clculos, grficos, etc. Asistente pas a paso integrado para guiar a los diseadores de reportes durante el proceso de diseo. Plantillas de reportes que aceleran el proceso de generacin de reportes proporcionando un aspecto consistente y atractivo. Opciones de salida flexibles que incluyen formatos PDF, HTML, EXCEL, entre otros. CONFIGURACIN DE PRD Lo primero que vamos a hacer es descargar Pentaho Report Designer de la siguiente direccin http://sourceforge.net/projects/jfreereport/files/04.%20Report%20Designer/5.0.1-stable/ Previamente debemos tener ya instalado y configurado Pentaho BI Server. Damos clic en Report Designer, luego en la versin ms reciente estable, y finalmente descargamos el archivo.
158
Figura 63: Prd para Windows Fuente: Armando Montalvo.
Una vez descargado, descomprimimos el archivo, en la carpeta report-designer tenemos la siguiente estructura, le damos doble click en report designer.bat
Figura 64: Directorio de Pentaho report Designer Fuente: Armando Montalvo.
INICIO DE SESIN EN PENTAHO REPORT DESIGNER Le damos clic en la opcin New Report. Nos va a poner un reporte en blanco con el que vamos a poder trabajar, la pantalla de PRD est divida en las siguientes partes que se demuestra a continuacin.
159
Figura 65: Crear un nuevo reporte Fuente: Armando Montalvo. 1. Men principal: Ac tenemos las opciones de abrir un nuevo reporte, cargar uno ya existente, guardar el actual. Adems hay opciones para publicacin de nuestro reporte en el BIServer o para exportacin a PDF, Excel, etc. 2. Barra de herramientas: En esta barra tenemos elementos que podemos meter a nuestro reporte segn sea necesario, etiquetas de texto, imgenes, grficos, entre otros. 3. Estructura y Datos: En esta ventana vamos a administrar las conexiones, variables, funciones y datos que van a estar en nuestro reporte. 4. Men de Formato: Es un atajo para darle formato (tipo de letra, tamao, negritas, cursivas, alineaciones) a nuestros elementos de nuestro reporte. 5. rea de trabajo: Es el reporte, est dividido (al principio) en 5 secciones (Page Header, Report Header, Details, Report Footer, Page Footer).
1 2 3 4 5
160
PENTAHO REPORT DESIGN WIZARD El asistente de reportes de Pentaho Report Designer es una herramienta muy til, que agiliza enormemente la creacin de reportes a los usuarios, proporcionando una gua con siete (7) pasos para el diseo. Mediante la utilizacin de este manual nos enfocaremos a generar un reporte desde el comienzo con el asistente paso a paso.
Para comenzar a utilizar el asistente abrimos el men File en la esquina superior izquierda y seleccionamos la opcin Report Design Wizard, se abrir la ventana de trabajo y seleccionamos:
Figura 66: Crear un reporte con wizard Fuente: Armando Montalvo. INICIO DEL ASISTENTE DE REPORTES Select Look and Feel: en esta rea podemos definir como se ver nuestro reporte. Marcando la opcin Template, se nos mostrar una lista con un conjunto de diseos visuales predeterminados. El reporte ser configurado por defecto por la aplicacin, seleccionando una plantilla de diseo obtendremos la configuracin de estilo, formato y un conjunto de variables que pueden ser mapeadas a una fuente de datos o introducidas por el usuario.
161
Fuente: Armando Montalvo. Data Source and: Creamos la conexin con la fuente de datos pinchando en el lpiz que se encuentra en la parte superior derecha de la ventana.
Figura 68: Opciones de conexin para los datos Fuente: Armando Montalvo.
En nuestro caso hacemos una conexin JDBC, se abrir la siguiente ventana. Figura 67: Opciones del asistente de reportes
162
Figura 69: Agregar una conexin JDBC Fuente: Armando Montalvo. Creamos nuestra conexin a la base de datos REPOSITORIO, dando click en el signo (+), se abrir la ventana de conexin con la fuente de datos, en nuestro caso PostgresQl, damos click en test para verificar la conexin y despus le damos OK
Figura 70: Configurar la conexin con la base de datos Fuente: Armando Montalvo.
163
Continuamos creando la primera consulta que llamaremos Consulta_Consumos_mes, pinchamos en la base de datos Repositorio que se encuentra en la parte superior derecha y luego damos click en el lpiz que se encuentra en la parte inferior derecha como se ve en la siguiente figura.
Figura 71: Ir al diseador de consultas Fuente: Armando Montalvo. Se abrir la siguiente ventana, abrimos el combo box y damos click en Public para que se cargue las tablas de la base de datos Repositorio. Una vez que elegimos las tablas y seleccionamos los campos a graficar, del lado isquierdo podemos apreciar los campos seleccionados Presionamos el lpiz para ver el diseador de sentencias SQL
164
Figura 72: Diseador de consultas SQL Fuente: Armando Montalvo.
Dando click en sintaxis podemos visualizar la consulta que creamos
Figura 73: Consulta para un reporte Fuente: Armando Montalvo. En este paso agrupamos segn el campo que elijamos en nuestra consulta y presionamos finish Agregamos los parmetros creados para esta sentencias SQL
165
Figura 74: Asistente de diseo de reportes Fuente: Armando Montalvo. Finalmente se presentara la ventana con el reporte que creamos, que lo podemos modificar para mejorar la presentacin.
Figura 75: Vista de un reporte Fuente: Armando Montalvo.
166
AGREGAR BPARAMENTROS Para crear los parmetros tenemos que realizar una consulta que tendr los campos que necesitamos en nuestro caso de la dimensin Tiempo. Para ello damos click en Parameters como se muestra en la siguiente figura.
Figura 76: Agregar parmetros Fuente: Armando Montalvo.
Llenamos los campos como se muestra en la siguiente figura y presionamos OK. Este proceso lo realizamos con todos los parmetros que sean necesarios.
Figura 77: Aadir parmetros Fuente: Armando Montalvo.
167
Para finalizar editamos la primera consulta consulta con el parametro que creamos. Este proceso lo realizaremos para todos los parametros que sean necesarios.
Figura 78: Modificar la consulta con los nuevos parmetros Fuente: Armando Montalvo. INSERTAR GRFICOS Una vez hecho el reporte lo que nos faltara es insertar las grficas correspondientes, La grfica va a aparecer una sola vez al final del reporte, por lo tanto debemos meterla en la seccin Report Footer.
Nos ubicamos en la barra de herramientas el elemento chart y lo arrastramos a la seccin Report Footer de nuestro reporte
168
Figura 79: Agregar Chart (grafico) Fuente: Armando Montalvo. Configurarnos el Chart, dndole doble clic a nuestro elemento del reporte y nos va a desplegar la pantalla Edit Chart. En la seccin de Primary Data Source buscamos los atributos category- column, value-columns y series-by-field, y les damos los valores respectivos de med_codigo [lec_mes], y [lec_mes] y damos clic en OK.
Figura 80: Editar Chart Fuente: Armando Montalvo.
169
VISUALIZACIN DEL REPORTE Para visualizar los reportes, Pentaho Report Designer brinda barias opciones de salida en formatos HTML, PDF, EXCEL, RTF TEXT y CSV.
Una vez listo el reporte damos click en el botn verde ubicado en la parte superior para ver una vista previa del reporte y escogemos el formato con el que vamos a visualizarlo.
Figura 81: Vista previa del reporte Fuente: Armando Montalvo.
Escogemos los parmetros.
170
Figura 82: aadir los parmetros Fuente: Armando Montalvo.
Figura 83: Vista previa del reporte en PDF Fuente: Armando Montalvo.
171
PUBLICACIN DE LOS REPORTES EN EL SERVIDOR BI DE PENTAHO La ventaja que brinda Pentaho Report Designer es la de poder publicar nuestros reportes en el servidor BI de Pentaho, para ello lo primero que tenemos que hacer es crear una carpeta dentro del servidor de Pentaho. La ruta en nuestra situacin seria la siguiente: C:\Users\armando\Desktop\Pentahotools\biserver 4.8\biserver-ce\pentaho- solutions\Reportes_Creados.
A continuacin tiene que estar corriendo el servidor BI, luego para publicar el reporte nos ubicamos en la parte superior izquierda de la ventana de PRD damos click en el icono en forma de ovalo o presionamos File, Publish. O como se muestra en la siguiente figura
Figura 85: Publicar reportes Fuente: Armando Montalvo. Figura 84: Icono de Publicacin Fuente: Armando Montalvo.
172
Se abrir la siguiente ventana, damos click en OK
Figura 86: Publicar reporte Fuente: Armando Montalvo. Se abrir la ventana de publicacin, le damos un titulo, su descripcin, escogemos la carpeta que creamos en el servidor de BI, escogemos en que formato queremos visualizarlo, escribimos la contrasea que editamos en pentahoSystemConfig y presionamos OK
Figura 87: Aadir a la carpeta de reportes en Biserver Fuente: Armando Montalvo.
173
Despus vamos al servidor de BI, actualizamos el cache y verificamos que el reporte para poder visualizarlo.
Figura 88: Reportes publicados en la consola de Biserver Fuente: Armando Montalvo.
Llenamos los parmetros
Figura 89: Llenar parmetros en la consola BI Fuente: Armando Montalvo.
174
Y ya podemos visualizar nuestros reportes en el servidor BI de Pentaho
Figura 90: Visualizar reporte en la consola de BI Fuente: Armando Montalvo. REPORTE CREADOS CON REPORT DESIGNER REPORTE DE CONSUMOS ALTOS DURANTE UN PERIODO DE TIEMPO Saber si existen picos de consumo de medidores por causa de fugas o el mal uso del agua para ello se cre los siguientes parmetros: Ao Mes Consumo
175
Figura 91: Reporte de consumos altos Fuente: Armando Montalvo.
Consulta general
Figura 92: Sql del reporte consumos altos Fuente: Armando Montalvo.
176
REPORTE DEL HISTORIAL DE CONSUMOS DE UN MEDIDOR Con el fin de analizar el consumo individual de un medidor durante un periodo de tiempo, para ello se crearon los siguientes parmetros: Registro Fecha de inicio Fecha final
Figura 93: Reporte de historial de consumos Fuente: Armando Montalvo.
177
La consulta es la siguiente
Figura 94: Sql de historial de consumos Fuente: Armando Montalvo.
REPORTE DEL DE CONSUMOS DE UN MEDIDOR POR CATEGORIA Para analizar los consumos por la categora del medidor, para ello se crearon los siguientes parmetros: Estado (true = pagado, false = no pagado) Fecha inicial Fecha final
178
Figura 95: Reporte de consumos por categora Fuente: Armando Montalvo.
La consulta es la siguiente
Figura 96: Sql de consumos por categora Fuente: Armando Montalvo.
179
REPORTE DEL DE RECAUDACIONES Con el fin de saber las recaudaciones pagadas o no durante el ao, para ello se crearon los siguientes parmetros Ao Estado ( true = pagadas, false = no padado)
Figura 97: Reporte de Recaudaciones Fuente: Armando Montalvo.
180
La consulta es la siguiente
Figura 98: Sql reporte de recaudaciones Fuente: Armando Montalvo.
PLATAFORMA BI DE PENTAHO
Pentaho Business Intelligence es una plataforma open source de Anlisis de los Datos e informes empresariales. Las soluciones de Pentaho estn escritas en Java y tienen un ambiente de implementacin tambin basado en Java. Eso hace que Pentaho es una solucin muy flexible para cubrir una amplia gama de necesidades empresariales tanto las tpicas como las sofisticadas y especificas al negocio.
181
INSTALACIN Y CONFIGURACIN Seleccionamos una carpeta (por ejemplo c:\pentaho), y en ella vamos a descomprimir el fichero Zip que nos hemos bajado de la siguiente direccin: http://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/ Despus el proceso, tendremos dos carpetas diferenciadas, llamadas administration-console y biserver-ce. La primera carpeta alberga los ficheros de la plataforma de administracin, que utilizamos para configurar y administrar el servidor BI (utiliza Jetty). La segunda, es la plataforma de BI propiamente dicha (la que utilizarn los usuarios), que utiliza tomcat. Para poder ejecutar la plataforma de BI de Pentaho es necesario disponer de una mquina virtual Java instalada en el equipo donde vamos a trabajar. Pentaho recomienda la versin 1.5 de Sun JRE. Con versiones anteriores no funciona y la jdk1.7.0_25no est oficialmente soportada (es la que tengo instalada yo), pero funciona bien.
INICIANDO LA PLATAFORMA DE PENTAHO BI Para iniciar el servidor de Pentaho (BI Server).entra a la carpeta "\pentaho\server\biserver-ce\" y ejecuta el archivo start-pentaho.bat
182
Figura 99: Ejecutar Pentaho consola de usuario Fuente: Armando Montalvo.
Para iniciar la Consola de Administracin de Pentaho, entra a la carpeta "\pentaho\server\administration-console\" y ejecuta el archivo start-pac.bat
Figura 100: Ejecutar Pentaho consola de administracin Fuente: Armando Montalvo. Una vez iniciadas las consolas se mostrarn 3 ventanas que no sedeber cerrar, lo que significa que cada vez que se reiniciela computadora, se tendr que volver a ejecutar estos pasos.
183
Figura 101: Pantalla de ejecucin de Biserver Fuente: Armando Montalvo.
Figura 102: Pantalla de ejecucin Biserver consola de administracin Fuente: Armando Montalvo. Para entrar a la ventana de login de Pentaho en la barra de direccin del browser escribe la siguiente direccin. http://localhost:8080/pentahoPuedes elegir el usuario Joe, ya que este usuario tiene privilegios de administrador.
Figura 103: Ventana de login de Biserver Fuente: Armando Montalvo.
Aparecer la siguiente pantalla, observa que del lado izquierdo se encuentra un panel oculto, trata de mostrarlo arrastrando una pequea manija gris que tiene en la barra vertical.
184
Figura 104: Ventana principal de Biserver Fuente: Armando Montalvo.
Para entrar a la consola de administracin de Pentaho en la barra de direccin del browser se escribe la siguiente direccin. http://localhost:8099/ y se pone como usuario Admin y Password como contrasea.
INICIANDO LA PLATAFORMA DE PENTAHO BI Para ejecutar la consola de administracin, solamente basta con ejecutar el archivo que se encuentra en la carpeta C:\Pentaho\biserver-ce-4.8.stable\administration-console\, el cual lanzar un servidor web Jetty automticamente. Esta aplicacin no puede funcionar correctamente si no se ha iniciado primero el servidor Pentaho BI, puesto que necesita conectarse a ste para obtener informacin acerca de las fuentes de datos y usuarios. Se puede acceder a esta aplicacin desde el navegador en la siguiente direccin: http://localhost:8099/ e ingresar con el usuario: admin. Y contrasea: password que viene por defecto.
185
5.3.1 CREAR UNA CONEXIN A LA BASE DE DATOS Para definir las conexiones de Base de Datos Relacionales se debe ir a la pestaa Administracion, Database Connections de la Consola de Administracin y adicionamos una nueva conexin proporcionando los siguientes datos:
Figura 105: Crear conexin con la base de datos en la consola de administracin Fuente: Armando Montalvo. ANALISIS DEL CUBO Una vez que hayamos publicado el cubo, abrimos la consola de usuario de Pentaho BI y encontraremos la ventana de Jpivot.
5.3.2 JPIVOT Jpivot es el cliente de Pentaho que vamos a utilizar para visualizar el resultado de los anlisis, para ello presionamos el botn New Analysis y se nos abrir una pequea ventana en donde escogeremos el esquema y el cubo que vamos a analizar.
Nombre de la conexin Jdbc:PostgresDriver User Name (Postgres) Contrasea Informacin requerida para la conexin
186
Figura 106: Analizar un cubo con Jpivot Fuente: Armando Montalvo.
A continuacin aparece la tabla de Jpivot con todas las dimensiones y medidas definidas en el cubo.
Figura 107: Anlisis de dimensiones y mtricas Fuente: Armando Montalvo.
187
BARRA DE HERRAMIENTAS DE JPIVOT La interfaz de usuario de Jpivot dispone bsicamente de una barra de herramientas con botones en donde podemos configurar las propiedades que vamos a visualizar como resultado del anlisis y se componen de la siguiente forma:
Figura 108: Barra de herramientas de Jpivot Fuente: Armando Montalvo.
NAVEGADOR OLAP A lo que damos click en el cubo, las columnas sern las medidas y las filas sern dimensiones
Figura 109: Navegador Olap Fuente: Armando Montalvo.
Si damos click en medidas se abrir todas las medidas que definimos en el cubo y el mismo caso con las dimensiones.
Configurar impresin Configurar Grafico Mostrar Grafico Mostrar Datos de Origen
Exportar Excel
Configurar tabla Olap
188
Figura 110: Medidas del cubo Fuente: Armando Montalvo. EDITOR MDX Ac nos muestra el cdigo MDX de las medidas y las filas seleccionadas
Figura 111: consulta MDX Fuente: Armando Montalvo. REPORTE UTILIZANDO JPIVOT
189
Figura 112: Reporte grafico Jpivot Fuente: Armando Montalvo. ZAIKU HERRAMIENTA DE ANALISIS OLAP Saiku es un excelente visor OLAP que proporciona al usuario final una magnifica herramienta para realizar anlisis de forma fcil e intuitiva, es una herramienta Open Source que puede ofrecer soluciones de excelente calidad a la vanguardia de la tecnologa y delicada experiencia de usuario.
Se puede utilizar saiku slo si quieren realizar anlisis OLAP. Es un servidor independiente, o tambin se puedes embeberlo en un servidor Pentaho como un pluguin de forma fcil y sencilla.
190
ZAIKU PLUGUIN PARA PENTAHO Para instalar el pluguin de Zaiku en Pentaho nos dirigimos a la consola de usuario en la parte superior y pinchamos herramienta y en MarketPlace o en el icono que se encuentra a lado luego lo instalamos y finalmente reiniciamos la consola de usuario.
Figura 113: Integrando Zaiku pluguin a pentaho Fuente: Armando Montalvo. CREAR REPORTES CON ZAIKU Para crear un reporte lo primero que hacemos es pinchar en el icono correspondiente a Zaiku, se abrir la ventana de reportes en donde seleccionaremos el cubo que vamos analizar
Figura 114: conexin con el cubo Fuente: Armando Montalvo.
191
Arrastramos y soltamos las dimensiones y las mtricas al lienzo, filtramos el nombre, y el ao, finalmente pinchamos en el Chart que se encuentra en la parte superior derecha para que el reporte se vea de manera grfica.
Figura 115: Reporte con Zaiku Fuente: Armando Montalvo.