Tesis Bach Sosa Jáuregui Víctor Darío
Tesis Bach Sosa Jáuregui Víctor Darío
Tesis Bach Sosa Jáuregui Víctor Darío
ESCUELA DE POSTGRADO
TESIS
Autor:
LIMA-PERÚ
2017
DEDICATORIA
la inspiración y razón
y de muchos más…
2
AGRADECIMIENTO
A mi esposa Vanessa,
A mis docentes,
3
CONTENIDO
DEDICATORIA ........................................................................................................................ 2
AGRADECIMIENTO ............................................................................................................... 3
CONTENIDO ............................................................................................................................ 4
RESUMEN ................................................................................................................................ 8
ABSTRACT............................................................................................................................... 9
LISTA DE FIGURAS.............................................................................................................. 11
INTRODUCCIÓN ................................................................................................................... 14
1.2. Objetivos................................................................................................................ 16
4
1.5. Limitaciones .......................................................................................................... 17
2.1. Antecedentes.......................................................................................................... 18
2.3.1. Inmobiliaria........................................................................................................29
5
2.6. Operacionalización de variables. ........................................................................... 31
3.2.1. Población............................................................................................................32
6
4.7.5. Proceso de ETL de la Tabla Visitas...................................................................47
CONCLUSIONES ................................................................................................................... 59
RECOMENDACIONES.......................................................................................................... 60
REFERENCIAS....................................................................................................................... 61
ANEXOS ................................................................................................................................. 63
1. MATRIZ DE CONSISTENCIA............................................................................ 63
7
RESUMEN
permita escoger la alternativa que sea más conveniente para el éxito de la empresa.
relevantes en algunas de las herramientas para hacer BI, como son Data Warehouse (Bodega
El presente trabajo abarcara la elaboración de un Data Mart y su procesamiento OlAP para una
8
ABSTRACT
making processes, based in an exact and accurate information; guarantying the production of
the needed knowledge that lets to choose the most appropiate option for the company success.
The investigation begins with the BI definition and applications; by addition shows definitions
and relevant BI investigations tools, like Data Warehouse, Olap, Balance Scorecard and Data
The present work includes the development of a Data Mart and its processing OlAP for a real
estate company.
9
LISTA DE TABLAS
10
LISTA DE FIGURAS
11
Figura 25: Muestreo de la Tabla Dimensional Empleado .......................................................44
12
Figura 50: Ejecución de la Tabla Dimensional Propiedad.......................................................52
13
INTRODUCCIÓN
El rubro inmobiliario en la ciudad del Cusco viene teniendo un gran auge en estos últimos años
gracias al desarrollo e impulso financiero que vive nuestro país. De la mano con la gran
demanda de viviendas y edificios para los diferentes tipos de interesados, constituyen un gran
Las inmobiliarias pasan a tener que ofrecer productos del rubro, de acuerdo a las necesidades
Por las razones antes expuestas y con la finalidad de tener un apoyo al área de ventas de las
inmobiliarias; éstas optan por tener software que les permitan tener el control, búsqueda y
información, muchas veces en papel, del área de ventas no hace eficiente ni en tiempo ni en
Para lograr lo anterior, el presente trabajo incluye: el uso de tecnología basada la generación
de un Data Mart para empresas inmobiliarias, así como metodología de desarrollo del mismo
y la generación de cubos OLAP, para este caso el área de ventas de la Inmobiliaria Alegría de
14
CAPÍTULO I: PLANTEAMIENTO DEL ESTUDIO
ciudad del Cusco, Perú y dedicada a la venta de terrenos, casas y departamentos, cuenta
con una gran variedad de propiedades en la ciudad del Cusco de diversos tipos, precios,
dimensiones y ubicaciones.
La empresa es pequeña y viene operando hace dos años, pero ha ido aumentando su
en esta ciudad. Para mejorar las ventas que realizan y mantener la satisfacción de sus
clientes la inmobiliaria registra las visitas que se realizan a cada inmueble en las que
importante evaluar este margen para determinar cuánta afluencia de clientes tiene la
empresa
15
1.1.2. Problemas específicos
1.2. Objetivos.
Ventas.
16
1.4. Delimitación de la investigación
1.5. Limitaciones
de aproximadamente 2 años.
de los inmuebles.
17
CAPÍTULO II: MARCO TEÓRICO
2.1. Antecedentes.
contactos con los clientes utilizando Data Mart en Telefónica del Perú
El trabajo muestra el proceso seguido para el desarrollo de un Data Mart cuyo objetivo
será facilitar la información de los contactos con el cliente de Telefónica del Perú a
Data Mart contribuirá a comprender, aún mejor, cuáles son las necesidades reales del
propuesta por Gill Harjinder y Rao Prakash, la cual es muy flexible y ayuda a realizar
seleccionó SQL Server como motor de base de datos, Analysis Services para la
Palabras Claves: Data Mart, contactos, metodología, SQL, Sitio Web, consultas online
(Ramirez, 2011)
Chimbote
18
El aplicativo Data Mart permitirá agilizar el proceso de toma de decisiones en del
El aplicativo Data Mart será desarrollado bajo la realización de cada uno de las etapas
de la metodología de Ralph Kimball, siento ésta metodología la más ajustada para esta
investigación.
A lo largo de los últimos años, cada vez más organizaciones han visto la necesidad y la
telecomunicaciones.
Conforme han ido avanzando los años se ha ido abriendo el uso a empresas de todos
los sectores productivos y comerciales, así como a las Administraciones Públicas, que
han visto en su uso, una gran manera de optimizar y mejorar el servicio a sus
ciudadanos.
19
decisiones en las compañías que, en la práctica, son un porcentaje muy alto de las
mismas.
La metodología usada fue sintagma holístico y enfoque mixto, con tipo de investigación
Cresko S.A. a la cual se aplicaron los instrumentos de recolección de datos para conocer
diagnóstico final, los resultados obtenidos indican que el proceso de toma de decisiones
Mart mostrar un tablero de control con indicadores para el área comercial, así como
20
Tesis 5: Data Mart de información académica en la toma de decisiones en la
una de las etapas en las que esta se desarrolla. Por tal motivo es importante adoptar las
tecnologías que permiten realizar este proceso de toma de decisiones mucho más
eficiente y eficaz.
reflejado en esta investigación con el desarrollo de un Data Mart académico, que prevea
21
El trabajo de tesis implementa un Data Mart para el apoyo al proceso de toma de
de pasajeros.
Las empresas de transporte público de pasajeros son un tipo de empresa que maneja
una gran cantidad de información día a día. Sin embargo, muchas de ellas no saben
2007)
como eficiente. Los sistemas de bases de datos se diseñan para gestionar grandes
caídas del sistema o de los intentos de acceso no autorizados. Si los datos van a
22
ser compartidos entre diferentes usuarios, el sistema debe evitar posibles
resultados anómalos.
Fuente: Recuperado del Libro Sistemas de Información Geográfica un libro libre de Víctor
Olaya
Las grandes empresas tienen presencia en muchos lugares, cada uno de los
cuales puede generar un gran volumen de datos. Por ejemplo, las cadenas de
organización interna y, por tanto, puede que los diferentes datos se hallen en
puede que los datos de los problemas de fabricación y los datos sobre las quejas
23
encargados de adoptar las decisiones empresariales necesitan tener acceso a la
los orígenes es a la vez engorrosa e ineficiente. Además, puede que los orígenes
de datos sólo almacenen los datos actuales, mientras que es posible que los
han modificado las pautas de compra el año pasado puede resultar de gran
problemas.
en un solo sitio. Una vez reunida, los datos se almacenan mucho tiempo, lo que
los usuarios una sola interfaz consolidada con los datos, por lo que las consultas
24
de ayuda a la toma de decisiones resultan más fáciles de escribir. Además, al
almacén de datos, el encargado de adoptar las decisiones sea segura que los
en que trata con grandes volúmenes de datos, almacenados sobre todo en disco.
25
Es decir, la minería de datos trata de la “búsqueda de conocimiento en las bases
Hay gran variedad de tipos posibles de estructuras que pueden resultar útiles, y
Suele haber una parte manual en la minería de datos, que consiste en el pre-
procesamiento de los datos hasta una forma aceptable para los algoritmos, y en
que puedan resultar útiles. También puede haber más de un tipo de estructura
que se pueda descubrir a partir de una base de datos dada, y puede que se
necesite la interacción manual para escoger los tipos de estructuras útiles. Por
automático de la minería.
26
Figura 4: Data Mining
OLAP) trata de las herramientas y de las técnicas para el análisis de datos que
pueden dar respuestas casi instantáneas a las consultas de datos resumidos, aún
Sudarshan, 2007)
estadísticos las bases de datos deben soportar las formas sencillas, utilizadas
bases de datos suelen ser de gran volumen, hay que resumirlos de algún modo
si hay que obtener información que puedan utilizar los usuarios. Las
herramientas OLAP.
27
Hay muchas tareas utilizadas con frecuencia que no pueden realizarse
DB2 de IBM.
Según la Real Academia de la Lengua Española, (Conesa Caralt & Curto Díaz, 2010),
(Elmasri & Navathe, 2011) y (Molina, Ullman, & Widom, 2009) se tiene los siguientes
términos:
28
2.3.1. Inmobiliaria
viviendas.
respuesta.
29
2.3.7. DDL (Data Definition Language)
de datos que permite a los programadores de la misma llevar a cabo las tareas
de definición de las estructuras que almacenarán los datos, así como de los
los sistemas gestores de bases de datos que permite a los usuarios de la misma
de negocio.
30
2.4.2. Hipótesis Específicas
31
CAPÍTULO III: METODOLOGÍA DE LA INVESTIGACIÓN
Según (Hernández Sampieri, Fernández Collado, & Baptista Lucio, 2014) se tiene:
● Tipo: Correlacional
● Nivel: Explicativo
● Diseño: No experimental
3.2.1. Población
3.2.2. Muestra
32
CAPÍTULO IV: IMPLEMENTACIÓN DE LA PROPUESTA
comparando los años y meses desde la primera visita. De esta manera se puede
para las distintas ciudades a las que pertenecen las propiedades. De esta manera
desarrollada en MySQL.
33
4.2.1. Descripción de Tablas
su adquisición.
dirección, ciudad)
la inmobiliaria.
el inmueble.
34
4.2.2. Esquema de Base de Datos Relacional
35
Figura 7: Modelo Estrella de Base de Datos de la Inmobiliaria Alegría S.R.L.
presente tesis; todos giran en torno a la cantidad de visitas que se realizan llegando a
Cantidad de Visitas:
propiedad (ciudad en la que está ubicada) y cliente (tipo de cliente que realiza la visita).
36
Requerimiento y RE1 RE2 RE3 RE4
Dimensiones
Cliente X X
Empleado X X
Propiedad X X
Fecha X
-- -----------------------------------------------------
-- Table `BDInmobiliariaAlegria_M`.`DAD_Clientes`
-- -----------------------------------------------------
CREATE TABLE IF NOT EXISTS `BDInmobiliariaAlegria_M`.`DAD_Clientes` (
`idDAD_Clientes` INT NOT NULL ,
`idTCliente` INT NULL ,
`dni` VARCHAR(8) NULL ,
`tipo` VARCHAR(30) NULL ,
PRIMARY KEY (`idDAD_Clientes`) )
ENGINE = InnoDB;
-- -----------------------------------------------------
-- Table `BDInmobiliariaAlegria_M`.`DAD_Propiedades`
-- -----------------------------------------------------
CREATE TABLE IF NOT EXISTS `BDInmobiliariaAlegria_M`.`DAD_Propiedades` (
`idDAD_Propiedades` INT NOT NULL ,
`idTPropiedad` INT NULL ,
`ciudad` VARCHAR(45) NULL ,
`tipo` VARCHAR(45) NULL ,
PRIMARY KEY (`idDAD_Propiedades`) )
ENGINE = InnoDB;
-- -----------------------------------------------------
-- Table `BDInmobiliariaAlegria_M`.`DAD_Fecha`
-- -----------------------------------------------------
CREATE TABLE IF NOT EXISTS `BDInmobiliariaAlegria_M`.`DAD_Fecha` (
`idDAD_Fecha` INT NOT NULL ,
`semana` INT NULL ,
`mes` INT NULL ,
`anio` INT NULL ,
37
PRIMARY KEY (`idDAD_Fecha`) )
ENGINE = InnoDB;
-- -----------------------------------------------------
-- Table `BDInmobiliariaAlegria_M`.`DAD_Empleado`
-- -----------------------------------------------------
CREATE TABLE IF NOT EXISTS `BDInmobiliariaAlegria_M`.`DAD_Empleado` (
`idDAD_Empleado` INT NOT NULL ,
`idTEmpleado` INT NULL ,
`nombre` VARCHAR(100) NULL ,
`cargo` VARCHAR(45) NULL ,
PRIMARY KEY (`idDAD_Empleado`) )
ENGINE = InnoDB;
-- -----------------------------------------------------
-- Table `BDInmobiliariaAlegria_M`.`FAD_Visitas`
-- -----------------------------------------------------
CREATE TABLE IF NOT EXISTS `BDInmobiliariaAlegria_M`.`FAD_Visitas` (
`id_AD_Visitas` INT NOT NULL AUTO_INCREMENT ,
`idTCliente` INT NULL ,
`idTPropiedad` INT NULL ,
`idFecha` INT NULL ,
`nrovisitas` INT NULL ,
`idTEmpleado` INT NULL ,
PRIMARY KEY (`id_AD_Visitas`) ,
INDEX `idTCliente_idx` (`idTCliente` ASC) ,
INDEX `idTPropiedad_idx` (`idTPropiedad` ASC) ,
INDEX `idFecha_idx` (`idFecha` ASC) ,
INDEX `idTEmpleado_idx` (`idTEmpleado` ASC) ,
CONSTRAINT `idTCliente`
FOREIGN KEY (`idTCliente` )
REFERENCES `BDInmobiliariaAlegria_M`.`DAD_Clientes` (`idDAD_Clientes` )
ON DELETE NO ACTION
ON UPDATE NO ACTION,
CONSTRAINT `idTPropiedad`
FOREIGN KEY (`idTPropiedad` )
REFERENCES `BDInmobiliariaAlegria_M`.`DAD_Propiedades` (`idDAD_Propiedades` )
ON DELETE NO ACTION
ON UPDATE NO ACTION,
CONSTRAINT `idFecha`
FOREIGN KEY (`idFecha` )
REFERENCES `BDInmobiliariaAlegria_M`.`DAD_Fecha` (`idDAD_Fecha` )
ON DELETE NO ACTION
ON UPDATE NO ACTION,
CONSTRAINT `idTEmpleado`
FOREIGN KEY (`idTEmpleado` )
REFERENCES `BDInmobiliariaAlegria_M`.`DAD_Empleado` (`idDAD_Empleado` )
ON DELETE NO ACTION
ON UPDATE NO ACTION)
ENGINE = InnoDB;
USE `BDInmobiliariaAlegria_M` ;
SET SQL_MODE=@OLD_SQL_MODE;
SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS;
SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS;
38
4.6. Proceso ETL
La herramienta utilizada en el proceso ETL fue Talend Open Studio Versión 6.4.1
Dimensión Cliente:
Dimensión Empleado:
Dimensión Propiedad
39
Figura 11: Dimensión Propiedad del Data Mart
Dimensión Fecha
40
Figura 13: Configuración de conexión a la Base de Datos
Selección de Tablas
41
Selección de Tablas
Diagrama
Mapeo
Ordenamiento
42
Figura 19: Ordenamiento de la Tabla Dimensional Cliente
Muestreo
Mapeo
Diagrama
Mapeo
43
Figura 23: Mapeo de la Tabla Empleado
Ordenamiento
Muestreo
Mapeo
44
4.7.3. Proceso de ETL de la Tabla Fecha
Diagrama
Mapeo
Ordenamiento
Muestreo
45
Mapeo
Diagrama
Mapeo
46
Ordenamiento
Muestreo
Mapeo
Diagrama
47
Figura 37: Diagrama ETL de la Tabla Visitas
Mapeo
48
Agregar Filas
Ordenamiento
Muestreo
49
Mapeo
50
4.8.2. Carga y Ejecución de la tabla Empleados
51
4.8.4. Carga y Ejecución de la tabla Propiedad
52
Figura 52: Ejecución de la Tabla Dimensional Visitas
muestra en la figura:
53
4.9.2. Indicadores obtenidos y validación de estos
La dimensión Fecha/Empleado/Ciudad
54
La dimensión Fecha/TipoCliente/Ciudad
55
La dimensión Tiempo/TipoPropiedad/Ciudad
56
CAPÍTULO V: ANÁLISIS Y PRESENTACIÓN DE RESULTADOS
1600 1500
1400
1200
1000
825
800 675
600
400
200
0
Tiempo
57
Lo que indica que existe una mejora casi el 50 % de tiempo entre el tema del tiempo
De lo antes viso se cumple las hipótesis específicas y por tanto la hipótesis general;
58
CONCLUSIONES
Data Mart fue de 1500 minutos (100%), en comparación con el Data Mart fue de 825
minutos (55.75%), lo cual determina una reducción notable de 675 minutos (44.25%)
59
RECOMENDACIONES
esa base de datos transaccional sirve para alimentar juntos con los ETL la base de datos
información objetiva.
Realizar los ETL en un horario no laborable, porque si no es así, es posible que los
Si el ETL incluye una gran cantidad de datos, planifique la hora de inicio de forma que
Data Mart.
60
REFERENCIAS
Berson, A., & Smith, S. J. (1997). Data warehousing, data mining, and OLAP. McGraw-Hill.
Bowen, J. (2012). Getting Started with Talend Open Studio for Data Integration. Packt
Publishing Ltd.
Conesa Caralt, J., & Curto Díaz, J. (2010). Introducción al Business Intelligence. España:
D'Agostino, M., Gabbay, D. M., Hähnle, R., & Posegga, J. (2013). Handbook of tableau
Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P. (2014). Metodología de
Kimball, R. &. (2011). The data warehouse toolkit: the complete guide to dimensional
modeling.
Molina, G., Ullman, & Widom. (2009). Database Systems: The Complete Book. Prentice Hall.
contactos con los clientes utilizando Data Mart en Telefónica del Perú. Lima:
61
Silberschatz, A., Korth, H. F., & Sudarshan, S. (2007). Fundamentos de diseño de bases de
62
ANEXOS
1. MATRIZ DE CONSISTENCIA
Escala de Medición:
Razón
63
2. TABLA DE TOMA DE TIEMPOS
64