Yuri Tesis Licenciatura 2019
Yuri Tesis Licenciatura 2019
Yuri Tesis Licenciatura 2019
Por:
Yuri Lisbeth Mamani Ramos
Asesor:
Ángel Rosendo Condori Coaquira
iv
AGRADECIMIENTO
Son muchas las personas que conforman mi formación académica, este trabajo es una forma
de agradecer a mis padres que fueron modelos de lo que quería y no quería para mi futuro,
Sin embargo, las personas más directamente responsables de esta tesis incluyen a la doctora
común la cual confío en mi persona para poner un granito de arena en su proyecto del
del cual aprendí mucho y me llevó no solo un aprendizaje para mi carrera y vida, sino una
dado mediante el proyecto por parte de las dos instituciones, también darle gracias a mi
asesor ingeniero Ángel Rosendo Condori Coaquira que fue una guía importante para la
personas tan grandiosas y espectaculares, por haberme impulsado a ser fuerte y nunca
v
ÍNDICE GENERAL
DEDICATORIA ................................................................................................................. iv
AGRADECIMIENTO .......................................................................................................... v
ÍNDICE DE TABLAS ......................................................................................................... ix
ÍNDICE DE FIGURAS ......................................................................................................... x
ÍNDICE DE ANEXOS........................................................................................................ xii
ABREVIATURAS Y ACRÓNIMOS................................................................................... xiii
RESUMEN ...................................................................................................................... xiv
ABSTRACT ...................................................................................................................... xv
CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA .........................................................15
1.1. Definición del problema ........................................................................................15
1.2. Justificación ........................................................................................................16
1.2.1. Justificación social ............................................................................................16
1.2.2. Justificación económica .....................................................................................17
1.2.3. Utilidad Teórica ...............................................................................................18
1.2.4. Utilidad práctica ...............................................................................................20
1.3. OBJETIVOS .......................................................................................................21
1.3.1. Objetivo General ..............................................................................................21
1.3.2. Objetivos específicos ........................................................................................21
CAPÍTULO II: BASES TEÓRICAS .....................................................................................22
2.1. Revisión de la literatura ........................................................................................22
2.2. Seguridad ............................................................................................................24
2.2.1. Seguridad ciudadana .........................................................................................24
2.2.2. Seguridad turística ............................................................................................26
2.3. Inteligencia artificial .............................................................................................28
2.3.1. Lenguaje natural de procesamiento .....................................................................30
2.3.2. Técnicas de agrupamiento y reconocimiento de patrones. ......................................30
2.3.3. Técnicas de agrupamiento para datos cualitativos y cuantitativos ............................31
2.4. Minería de datos de datos ......................................................................................33
2.4.1. Base de datos para la minería de datos .................................................................33
2.5. Minería de datos ..................................................................................................34
2.6. Web scraping y minería de datos ............................................................................37
2.6.1. Maquetación web .............................................................................................37
vi
2.6.2. Extracción de datos ...........................................................................................38
2.6.3. Tipos de web scraping .......................................................................................38
2.6.4. Tipos de datos ..................................................................................................39
2.7. Estudio de datos ...................................................................................................39
2.7.1. Python para ciencia de datos ..............................................................................39
CAPÍTULO III: MATERIALES Y MÉTODOS .....................................................................41
3.1. Descripción de lugar de ejecución ..........................................................................41
3.2. Metodología de la investigación .............................................................................41
3.2.1. Tipo de investigación ........................................................................................41
3.2.2. Investigación propositiva ...................................................................................41
3.2.3. Investigación aplicada .......................................................................................42
3.2.4. Arquitectura de solución ....................................................................................42
3.3. Herramientas tecnológicas.....................................................................................42
3.4. METODOLOGÍA ................................................................................................44
3.4.1. Metodología para la gestión de proyectos ............................................................44
3.4.2. Metodología de aplicación CRISP-DM................................................................47
3.4.3. Desarrollo de los objetivos .................................................................................49
3.4.4. Objetivo 01: Recolectar datos estructurados y no estructurados con técnicas de web
scraping. 49
3.4.5. Objetivo N° 2: Analizar los datos recolectados con Python para ciencia de datos y
Weka. 53
Limpieza de datos estructurados .......................................................................................55
3.4.6. Objetivo N° 3: Preparar los datos y aplicar algoritmos de clustering a los datos
recolectados. ..................................................................................................................56
3.4.7. Objetivo N° 4: Diseñar la plataforma para la visualización de datos. .......................58
CAPÍTULO IV: RESULTADOS Y DISCUSIÓN ..................................................................60
4.1. Resultados de los objetivos. ...................................................................................60
4.1.1. Objetivo 01: Recolectar datos estructurados y no estructurados con técnicas de web
scraping. 60
4.1.2. Objetivo N° 2: Analizar los datos recolectados con Python para ciencia de datos y
Weka. 61
4.1.3. Objetivo N° 3: Preparar los datos y aplicar algoritmos de clustering a los datos
recolectados. ..................................................................................................................66
4.1.4. Objetivo N° 4: Diseñar la plataforma para la visualización de datos. .......................72
CAPÍTULO V: CONCLUSIONES Y RECOMENDACIONES ...............................................73
5.1. Conclusiones .......................................................................................................73
vii
5.2. Recomendaciones ................................................................................................73
REFERENCIAS BIBLIOGRÁFICAS ..................................................................................75
ANEXOS ..........................................................................................................................77
Anexo 1: Estadística de la WEF ...........................................................................................77
Anexo 2: Mapic del proyecto de investigación .......................................................................78
viii
ÍNDICE DE TABLAS
ix
ÍNDICE DE FIGURAS
Figura 1 Porción del turismo PBI total .................................................................................18
Figura 2 Estadística de las principales causas de inseguridad en el Perú ...................................25
Figura 3 Almacenamiento estratégico del plan nacional de seguridad ciudadana .......................26
Figura 4 Estadística del PBI del banco mundial del Perú ........................................................27
Figura 5 Áreas de aplicación de la Inteligencia Artificial. ......................................................29
Figura 6 Mapa mental de ramas o sub áreas de la Inteligencia Artificial. ..................................29
Figura 7 Arquitectura de un sistema experto. ........................................................................30
Figura 8 Datos agrupados ..................................................................................................31
Figura 9 Formula agrupación de medición cuántica por Span y Content. .................................31
Figura 10 Especificación de variables Span y Content. ..........................................................32
Figura 11 Formula cualitativa basada en distancias de centroides de Gowda y Diday. ...............32
Figura 12 Especificación de las variables de la fórmula de Gowda y Diday. .............................32
Figura 13 Algoritmo de clustering para datos cualitativos. .....................................................32
Figura 14 Lista de algoritmos de Clasificación de agrupamiento algoritmos. ............................33
Figura 15 Categorías de algoritmos de minería de datos. ........................................................35
Figura 16 Procesos de KDD de minería de datos. ..................................................................37
Figura 17 Clasificación de las técnicas de Data Mining .........................................................37
Figura 18 Arquitectura de solución al problema. ...................................................................42
Figura 19 Principios de OpenUp .........................................................................................45
Figura 20 Elementos del OpenUp .......................................................................................45
Figura 21 Ciclo de vida de OpenUP ....................................................................................46
Figura 22 Fases de OpenUP ...............................................................................................46
Figura 23 Modelo de proceso CRISP–DM ([CRISP-DM, 2000]). ...........................................48
Figura 24 Variables de datos Data Base ...............................................................................50
Figura 25 Base de datos .....................................................................................................51
Figura 26 Página de extracción de datos ..............................................................................53
Figura 27 Código de extracción de datos. ............................................................................53
Figura 28 . Weka y atributos de los datos .............................................................................54
Figura 29 Weka y atributos de los datos ...............................................................................55
Figura 30 data con atributos originales ................................................................................56
Figura 31 Data limpia ........................................................................................................56
Figura 32 Entorno de desarrollo ..........................................................................................56
Figura 33 Datos a estudio con JUPYTER.............................................................................57
Figura 34 resultados de comuna. .........................................................................................57
Figura 35 Estructura de módulos.........................................................................................58
Figura 36 Prototipo de visualización....................................................................................59
Figura 37 Datos extraídos de la página nube. ........................................................................60
Figura 38 Resultados de weka análisis de clustering. .............................................................61
Figura 39 Incidencias delictivas. .........................................................................................61
Figura 40 Centroides de incidencias. ...................................................................................62
Figura 41 Tipos delitos clasificados.....................................................................................62
Figura 42 Análisis de los cluster de tipo delito. .....................................................................62
Figura 43 Resultados de comuna en Python..........................................................................63
Figura 44 Comuna resultados de combinaciones....................................................................63
Figura 45 Comuna gráfica de barras ....................................................................................63
x
Figura 46 hurto sin violencia. gráfica de barras. ....................................................................64
Figura 47 hurto sin violencia gráfica ...................................................................................65
Figura 48 hurto sin violencia R combinaciones. ....................................................................65
Figura 49 Barrios gráfica de barras. .....................................................................................66
Figura 50 Barrios combinaciones gráfica de barras. ...............................................................66
Figura 51 Geo Sectorización de datos ..................................................................................66
Figura 52 Barra y geo sectorización. ...................................................................................67
Figura 53 Geo sectorización por puntos en delito. .................................................................67
Figura 54 Comuna gráfica de barras y geo sectorización ........................................................67
Figura 55 barrios según delitos geo sectorización. .................................................................68
Figura 56 Días y horas. .....................................................................................................68
Figura 57 gráfica de barras de tipos de delitos. .....................................................................69
Figura 58 gráfica de barras T_D .........................................................................................69
Figura 59 Estructura de datos. .............................................................................................70
Figura 60 K medias gráfica para centroides ..........................................................................70
Figura 61 K centroides. .....................................................................................................71
Figura 62 gráficas de clusters según 4 centroides ..................................................................71
Figura 63 Prototipado del sistema de geo sectorización..........................................................72
xi
ÍNDICE DE ANEXOS
xii
ABREVIATURAS Y ACRÓNIMOS
● PENTUR: Plan estratégico Nacional de turismo.
● IA: inteligencia Artificial.
● PNP: Policía Nacional del Perú.
● K means: Algoritmo de clasificación.
● PBI: Producto interno Bruto.
● KDD: KDD: Knowledge Discovery in Databases.
● WEF: World Economic Forum.
● OMT: Organismo Mundial del Turismo.
● MINCETUR: Ministerio de comercio exterior.
● REACH: Aplicación de denuncias.
● GP: algoritmo genético.
● TIC: Tecnologías de información y telecomunicaciones.
● PMI: Project management institute.
● XP: Programación extrema.
● DIRTEPOL: Dirección Territorial policial.
● TIP: tipos de datos.
● INEI: Instituto nacional de estadística e informática
● CONASEC: Seguridad ciudadana.
● BBVA: Banco Bilbao Viscaya Argentaria.
● WTTC: World Travel & Tourism Council
● SE: Sistemas expertos.
● SBC: Sistemas basados en conocimientos.
● API: Application Programming Interface.
xiii
RESUMEN
con el algoritmo de K-Means de las grandes cantidades de datos los estudios de las variables
a agrupar son propias del giro de negocio (turismo) del problema de la inseguridad ciudadana
en el contexto turístico. Para la construcción del prototipo del sistema se adoptó dos
estructurados, los datos estructurados fueron tomados a estudio del repositorio público de la
ciudad de buenos aires ya que tiene las variables similares a utilizar del PNP del dep. turismo,
los datos semi estructurados fueron extraídos mediante técnicas de web scraping de lugares
turísticos posteriormente analizados con la herramienta weka y Python utilizado las técnicas
de ciencia de datos, Así mismo se trabajó con el algoritmo de clustering K Means en donde
análisis el prototipo del sistema para el sector turismo y la complejidad tanto para la
integración con el algoritmo y su forma de alimentación al sistema, para así poder validar el
seguridad turística.
xiv
ABSTRACT
The purpose of the research is to design and analyze a geo-sectorization system with data
science and AI techniques, using historical crime data. The grouping with the algorithm of
K-Means of the large amounts of data the study of the variables to be grouped are typical of
the business (tourism) turn of the problem of citizen insecurity in the tourism context. For
the construction of the system prototype, two methodologies were adopted: OpenUp for the
development and CRISP-MD for the data processing and integration of the algorithm. For
the development, structured and semi-structured data was collected, the structured data were
taken to study the public repository of the city of Buenos Aires, since it has similar variables
to use from PENTUR-Peru, the semi-structured data were extracted using web techniques
scraping of tourist places later analyzed with the tool weka and python used the techniques
of science of data, Likewise it was worked with the algorithm of clustering K Means where
graphics of grouping of data according to the main centroid of the variables was obtained:
crime and place, in Power BI we obtained the visualization based on map graphics. The
result was the analysis of the variables under construction for tourism, in which we obtained
the statistical data and the grouping algorithm, building according to the analysis the
prototype of the system for the tourism sector and the complexity both for the integration
with the algorithm and its way of feeding the system, in order to validate the web / mobile
security.
xv
CAPÍTULO I: PLANTEAMIENTO DEL PROBLEMA
108 del ranking del Country/Economy Profiles World Economic Forum (WEF, 2017).
propicios para las empresas turísticas o afines y desarrollar su infraestructura para mejorar
la conectividad” (World Economic Forum WEF, 2017) (Anexo 1). “La percepción de
seguridad ciudadana por parte de la mayoría de peruanos es calificada como baja o nula, esto
Para la Organización Mundial del Turismo (OMT, s.f) “El desarrollo económico
turística del que dependen tanto la comunidad anfitriona como los visitantes”. Citado por
que puede abarcar los resultados y más aún si hablamos del desarrollo del país en temas de
importancia, debido al crecimiento de los datos, los mismos que representan un nuevo
recurso para diversas áreas de investigación, ya que permite obtener información que sea
15
interpretada mediante el desarrollo de un software. Así como también las compañías buscan
atender necesidades de un público específico, Una buena forma de buscar la gran cantidad
información georreferenciada se hace más necesaria ya que una de las formas de analizar la
Google Maps y MapBox. Ambas compañías han hecho un gran trabajo generando mapas y
servicios para que otros desarrolladores puedan trabajar sobre ellos creando nuevas
rescata con ello los propósitos de descubrir el estudio y análisis de los datos, buscando la
clasificación natural de los datos mediante las similitudes entre ellos. Es por ende que en
este estudio nace la problemática relacionada al estudio geográfico de zonas con escenarios
1.2. Justificación
de alto nivel de hechos de inseguridad turística tendrá un impacto no solo para la sociedad
peruana sino para los extranjeros que visiten los lugares turísticos, recursos turísticos,
16
servicios turísticos y otros agentes involucrados en el turismo peruano, además de beneficiar
directamente a las instituciones como lo son la policía nacional, hospitales, etc. otorgando
un mejor servicio de las instituciones encargadas del tema y así causar un impacto favorable
(Carlos J, 2018) “El turismo al ser una actividad sensible ante cualquier situación que
se note inseguridad, el sector requiere del Estado en su conjunto la estabilidad política que
inversionistas, y la estabilidad social que garantice a los turistas un viaje sin contratiempos
por territorio patrio. Que los hechos ocurridos en el 2017 –desastres naturales, conflictos
sociales, incertidumbre electoral, crisis política, etc.–, marquen la pauta de lo que debemos
y no hacer este año, lo que hay que prever y cómo debemos actuar a futuro. El Perú merece
américa latina que tiene potencial turístico a desarrollar tanto como recurso natural y/o
crecimiento del país en materia de riqueza económica albergando los recursos naturales.
17
“En el último año el Perú ha logrado desarrollar un crecimiento potencial en la
economía con una cifra de 4,6% en contribución directa al PBI en el sector de viajes y
turismo, siendo una de las cifras más altas en américa latina” según el reporte económico de
World travel & tourism council del sector de viajes y turismo en las ciudades (2017) américa
plan de protección al turista 2017 - 2018 ya que es una herramienta de gestión dedicada a
mejorar la condición de seguridad con una perspectiva de largo alcance, la cual garantiza al
turista una estadía libre de riesgo. Ya que con ello se beneficiaría las instituciones encargadas
una aplicación peruana premiada por el príncipe del reino unido el cual fue desarrollado por
el joven Moisés Salazar Vila el cual es autodidacta, el cual fue reconocido como el
18
lanzada como tal en 2014 la aplicación está dedicada a reportar las actividades de diferentes
incidencias, así como también está siendo optimizada para que pueda ser implementada con
algún algoritmo de inteligencia artificial, biometría, reconocimiento artificial, Big Data para
mejorar aún más la herramienta pues cuando llegue al millón de usuarios no podrá darle el
soporte necesario él solo. Así como también las tesis de estudios que se realizó para el distrito
de molina utilizando minería de datos el cual fue desarrollado con el título de “sistema de
predicción de hechos delictivos para la mejora del proceso de prevención del delito en el
distrito de la molina utilizando minería de datos” por Jorge Julio Jaulis Rúa en 2015, el cual
datos. Otro caso es el estudio de los datos de acuerdo a la criminalidad basado en la seguridad
utilizando un algoritmo genético progresivo” realizada por Br. Buddy Richard Oruna
que permite la identificación de zonas con mayor índice delictivo fue desarrollada en
Trujillo, Perú 2015. Por otra parte, los estudios dirigidos al turismo en el contexto de
en el tema Turístico a nivel de Perú, así como también no se encontró en la región de puno.
parte, cabe mencionar la aplicación que lanzó el MINCETUR (Police Tourist) que sólo
incidencias más cercanas para un pronto auxilio, pero no cuenta con algún estudio de datos
los turistas.
19
En los últimos años se habla de que no es posible hablar de desarrollo sin hablar de
las Tecnologías de Información y Comunicación (TIC) más aún si las tecnologías son
conocimientos forman una parte esencial en los procesos de desarrollo. Así como también
la seguridad debe ser interpretada como un estado subjetivo que nos permite percibir que
imagen del destino dando una solución tecnología inteligente el cual pueda dar información
de los lugares y sus estados de inseguridad. Mejorar los niveles de seguridad turística
mediante alianzas estratégicas con los actores del sector público y privado en beneficio de
temporal, con la finalidad de encontrar los posibles centros de las zonas de riesgo (a tractores
criminales). Una vez que se tienen los centros, por medio de un modelo empírico de un a
tractor criminal y con una determinada ventana de tiempo, se genera una distribución de
predicción del riesgo criminal. En la actualidad, con las nuevas herramientas de localización
es posible obtener información geo-referenciada de los probables sectores, los mismos que
más propensas a surgir los delitos, de acuerdo al análisis que pueda ser mostrado en los datos
20
estudiados. Este caso de estudio servirá también para las instituciones como lo son
busca proteger los intereses y satisfacer la estancia del turista, en el cual podrá respaldar con
bases de análisis de datos la confiabilidad de zonas seguras de los recursos, así poder brindar
mayor seguridad y una experiencia agradable al turista. así como también encontramos
beneficiadas las instituciones, los emprendedores, agencias y todas aquellas empresas con
1.3. OBJETIVOS
Algoritmos de clustering.
➢ Analizar los datos recolectados con Python para ciencia de datos y Weka.
21
CAPÍTULO II: BASES TEÓRICAS
Jorge Julio Jaulis Rua, 2015. Sistema de predicción de hechos delictivos para la
mejora del proceso de prevención del delito en el distrito de la molina utilizando minería de
datos, Objetivo mejorar el rendimiento del proceso de prevención del delito de las comisarías
información histórica de todo el año 2015 de las denuncias registradas en cada una de las
propensas a la ocurrencia de algún hecho delictivo, para ello se optó por mostrar esta
información a través de mapas de la zona y que esto puedan ser accedidos desde cualquier
con métodos adaptativos que utiliza la estructura de los algoritmos genéticos progresivos,
22
optimización, teniendo como resultado un sistema de mapeo digital de zonas delictivas y la
de datos. El objetivo general es generar una metodología basada en la relación entre eventos
metodología propuesta para la etapa de predicción fue usar el algoritmo K-means para
agrupar los nuevos eventos criminales introducidos en la actualización del modelo dinámico,
de esta forma se encuentran los centros de las posibles zonas de riesgo criminal. Con la idea
de “a tractor criminal” se generó un modelo empírico dinámico, con el cual los eventos
puede apreciar cómo se evalúa cada uno de los modelos, según el número de datos
algunos casos a valores de TIP muy cercanos a uno, siendo un buen resultado en la
web y móvil para el soporte informático a la gestión de los servicios de atención que brinda
las comisarías de la comunidad. Que tiene como objetivos gestionar eficientemente los
procesos que soportan algunos de los servicios que brinda una comisaría y proporcionar
XP. Que tiene como resultado la tabla comparativa del estado de arte de la solución, solución
23
“SeguriApp” Implementada en la plataforma Android integrada con los servicios de Google
2.2. Seguridad
Para la organización de las naciones unidas (ONU, s. f) “La seguridad humana
subraya las necesidades de poner énfasis a lo que vendría hacer los programas de la paz y la
seguridad, el desarrollo y los derechos humanos de manera la cual sea más eficiente, eficaz
y orienta a la prevención”.
derechos de las personas es por ello la importancia del significado de espacio público. La
seguridad también es un bien común o público; es indivisible que debe proveerse de manera
de 15 y más años de edad a nivel nacional (urbano) fue víctima de algún hecho delictivo,
comunicación, así como la pérdida de valores, cultura cívica y respeto a la ley. Escasos
24
espacios públicos seguros como lugares de encuentro ciudadano con una baja cultura de la
política pública con objetivos alineados a la política general del estado al 2021
inseguridad ciudadana, así como también fortalecer a la policía nacional del Perú como una
institución moderna, con una gestión eficaz, eficiente y con altos niveles de confianza
de la delincuencia”.
25
Figura 3 Almacenamiento estratégico del plan nacional de seguridad ciudadana
Fuente: Dirección general de seguridad ciudadana.
seguridad de tener una bonita experiencia, es por lo cual el Ministerio de comercio exterior
turista. (MINCETUR, 2017). “El Plan de Protección al Turista, ha sido elaborado como
resultado del trabajo consensuado entre los diversos actores públicos y privados, tomándose
Protección y Defensa del Turista, la Ley N° 29408 - Ley General de Turismo y los
lineamientos estratégicos del Plan Estratégico Nacional de Turismo – PENTUR. el cual tiene
como objetivo principal mejorar los niveles de seguridad turística mediante alianzas
estratégicas con los actores del sector público y privado en beneficio de la imagen país y el
26
MINCETUR (2017) “Manifiesta que generar las condiciones favorables para que los
turistas nacionales y extranjeros, así como las comunidades receptoras, puedan desarrollar
inolvidable en el territorio peruano, así aportar una variable para la suma en la elección de
un destino turístico y sostenibilidad turística. según BBVA Research Perú (2018) “los
turistas extranjeros gastan siete veces más que los nacionales El estudio de BBVA Research
identifica que el viajero del extranjero destina alrededor de USD 1,000 por viaje, siete veces
más que un turista interno. El informe precisa que el gasto promedio por viaje de los turistas
transporte. En tanto, los extranjeros destinan unos US$ 994 por viaje, sin considerar el costo
27
La contribución del turismo a la economía global mantendrá su dinamismo, El World
Travel & Tourism Council (WTTC, 2015) “Señala que el crecimiento del sector turismo será
más dinámico en comparación con otras actividades económicas. Se espera que, hacia el
2025, el viaje y turismo proporcionen 72,9 millones de nuevos puestos de trabajo, de los
cuales 23,2 millones se generarán dentro del sector. Asimismo, la contribución del PBI total
del viaje y el turismo a la economía en general aumentará del 8,8% en el 2014 al 10,5% en
el 2025, mientras que el empleo del 9,4% al 10,7%. La clave de este aumento radicará en el
proceso a realizar, las cuales pueden realizar una o varias de las capacidades estudiadas los
cuales son sistemas expertos (SE) y sistemas basados en conocimiento (SBC). Según uno de
los pioneros de la IA Marvin Minsky “la inteligencia artificial es una ciencia de construir
máquinas para que hagan cosas que, si las hicieran los humanos, requerirían inteligencia”.
El mayor problema que enfrenta esta disciplina es el análisis de cómo los humanos
28
Figura 5 Áreas de aplicación de la Inteligencia Artificial.
Fuente: Elaboración propia, estudiando los esquemas de IA.
Los sistemas expertos están englobados en todos aquellos sistemas en donde las
expertos se encargan de tareas como la resolución del problema de la misma forma que del
Los resultados obtenidos de estos sistemas expertos son más fáciles de documentar.
29
Figura 7 Arquitectura de un sistema experto.
Fuente: Editorial Servicios de Publicaciones Universidad de Oviedo Introducción a la ingeniería Artificial:
Sistemas Expertos, Redes Neuronales Artificiales y Computación Evolutiva.
tipo de lenguaje es el que nos permite el designar las cosas actuales y razonar acerca de ellas,
fue desarrollado y organizado a partir de la experiencia humana y puede ser utilizado para
analizar y respuesta a dar, que normalmente es la suma ponderada de las distancias a los
centros, aunque estas funciones pueden variar, y muchas veces los distintos algoritmos de
30
objetivo a optimizar o implementar, así como también las necesidades de preguntas a
de asignar a cada objeto una medida de semejanza al patrón o centroide de cada cluster, con
el fin de determinar a cuál de los grupos detectados pertenece el objeto en cuestión. Esta
cálculo de una función de distancia. Seguidamente se exponen las más comunes, tanto para
31
Figura 10 Especificación de variables Span y Content.
Fuente: Técnicas de Agrupamiento para el Análisis de Datos Cuantitativos y Cualitativos.
32
Figura 14 Lista de algoritmos de Clasificación de agrupamiento algoritmos.
Fuente: Técnicas de Agrupamiento para el Análisis de Datos Cuantitativos y Cualitativos.
últimos años en la cual se vive con la generación millennials, los cuales generan a cada
segunda información de distinta naturaleza: numérica, selección categórica, etc. Las cuales
los cuales hay campos en blanco o información errónea, el cual origina ruido para el análisis
permita establecer relaciones entre el conjunto de datos con tal de simplificar la vista en la
según Jain y Dubes (1988). “la clasificación de datos se realiza en tipos y en escalas.
El tipo de datos se refiere a su grado de cuantificación, es decir, que rango de valores pueden
33
abarcar y si estos son continuos o discretos. Una característica es continua si existen infinito
número de valores posibles entre dos valores cualesquiera que pueda tomar la característica.
continuas. Por el contrario, una característica es discreta si todos los elementos del dominio
enteros positivos. Por ejemplo, la edad, el número de hijos, o los números ordinales se
aquellos que solo pueden tomar dos valores, como por ejemplo las respuestas con solo dos
binarias”.
los datos, razón por la cual esta técnica es mucho más eficiente que el análisis dirigido a la
prestaciones”.
del conocimiento”.
34
Supervisados o predictivos: Predicen el valor de un atributo de conjunto de datos.
Weiss y indurkhya (1998) “De estos datos cuya etiqueta se conoce se induce una relación
entre dicha etiqueta y otra serie de atributos. Se desarrolla en dos fases: Entrenamiento
(prueba del modelo sobre el resto de los datos). Cuando una aplicación no es lo
suficientemente madura no tiene el potencial necesario para una solución predictiva, en ese
caso hay que recurrir a los métodos no supervisados o de descubrimiento del conocimiento
que descubren patrones y tendencias en los datos actuales (no utilizan datos históricos)”.
➢ Tener como resultado a modelos poco útiles, ya que los datos pueden estar
35
➢ la preparación tiene datos de calidad y tener modelos de calidad.
el proceso para identificar patrones que puedan ser útiles de algún modo dando información
de millones de datos utilizando otras técnicas que no sean el de las estadísticas. Se utiliza en
apoyo a la toma de decisiones en diferentes áreas y las etapas del proceso que están en la
Figura 17.
Tabla 1
Etapas del proceso de Data Mining.
Selección de datos Es la etapa inicial, es dónde se define qué datos serán
recolectados, qué tipo de extracción tendrán, qué atributos
de entrada y salida habrá, la justificación sobre por qué
obtener los datos que se pretende conseguir, junto con las
fuentes que puedan ser útiles.
Data Warehouse Se diseña el esquema de un almacén de datos que
consiga unificar de manera eficiente toda la información
recogida.
Implantación del Se instala la estructura o sistema que permita
almacén de datos navegar entre los datos y así discernir qué información
puede ser utilizada para analizar a profundidad.
Limpieza de datos Se seleccionan, limpian y transforman los datos que
se analizarán.
Selección de técnica Teniendo los datos ya limpios se selecciona la
técnica de minería de datos más apropiada para el fin que ya
se definió en el primer paso.
Interpretación Se evalúan diferentes aspectos de los datos
procesados; coherencia, apego a la realidad, utilidad,
aplicación en casos hipotéticos, etc. Teniendo los datos ya
procesados junto con las evaluaciones correctas, se
“traducen” a los términos contextuales correspondientes al
proceso y se extrapolan a los casos que ya se tengan
contemplados.
Difusión Se dan a conocer los resultados y se ponen en
práctica.
Diagrama de los pasos en el proceso KDD,
anteriormente descritas.
36
Figura 16 Procesos de KDD de minería de datos.
Fuente: Extraída de https://datosmineriainformacion.files.wordpress.com/2017/05/proceso_kdd_etapas.png
a la limpieza y filtrado de datos. que nos permite extraer datos escondidos de un documento
ya sea páginas web o pdf, para que en el proceso hacerlos útiles y/o de estudio.
37
En esta sección es importante conocer la estructura de composición el HTML y/o de
la página web ya que es importante para la extracción y utilización de los datos ya sea
tenemos dos formas de hacerlo: mediante un API (Facebook, Twitter etc.) o web scraping
(si una página no posee api esta es la mejor forma de consumir la información), las ventajas
de utilizar web scraping es de no depender de una API (coste, licencia, numero de búsqueda,
estructura de la página.
Tabla 2
Estructura de web scraping
Proceso del Web Scraping
URL Semilla
Request Realizar requerimientos
Response Obtener respuesta
Populate Items Obtener la información que deseo de la respuesta.
estructura
Más URLs Ir a más URLS direcciones web y repetir el mismo
proceso.
Fuente: Extraído de https://www.academia.edu/35895308/Web_scraping, 2018.
38
Debemos de tomar en cuenta que hacer web scraping es darle crédito a la página de
donde obtuvimos la Data, la no publicación de la data sin estar o comprobar que es seguro
y/o legal, no sobrecargar las páginas ya que tendremos problemas con la IP, con web
Tabla 3
Diferenciación de los tipos de datos
Datos estructurados Datos no estructurados
Es aquella información que se Son las que se encuentran en
para el proceso de estudio de datos de las desordenado etc que produce ruido a la
en donde nosotros buscamos utilizar para la manejabilidad de datos y así poder visualizar
39
- seaborn: se integra muy bien con pandas y otras bibliotecas de software de código
abierto para análisis y visualización de datos. Es una librería popular para hacer
para crear los gráficos con unas pocas líneas de código. (Estética, funciones,
escalables.
- PLOTLY: Análisis de datos gráficos científicos. diferente a las demás para estar en
línea.
Utilidad de librerías:
Tabla 4
Librerías de Python
Descripción
MATPLOTLIB Es el método más simple para las representaciones básicas
SEABORN Es el ideal para crear gráficos estadísticos visualmente atractivos
que incluyen color
BOKEH Funciona muy bien para visualizaciones más complicadas e ideal
para presentaciones interactivas basadas en web.
PYGAL Funciona bien para generar vectores y archivos interactivos, sin
embargo, no tiene flexibilidad como otros métodos.
PLOTLY Es la opción más útil y fácil para crear visualizaciones altamente
interactivas basadas en la web.
Fuente: Elaboración propia, 2019.
40
CAPÍTULO III: MATERIALES Y MÉTODOS
Buenos Aires. Así como también datos para la elección de atributos en estudio fueron
tomados de la policía nacional del Perú del área de turismo PENTUR - Puno, como también
algoritmos, la extracción de datos a nivel de puno con las herramientas de web scraping. la
➢ Técnica de web scraping: con spider y spider crawl para la extracción de datos
41
3.2.3. Investigación aplicada
➢ Estudio de datos con los siguientes: Ciencia de datos, conocimientos de big
Tabla 5
Herramientas de extracción de datos.
42
IDE Sublime text que es utilizado tanto para la extracción de datos
como para la maquetación de la implementación del sistema de
visualización como propuesta.
Estudio de datos:
Tabla 6
Herramientas d estudio de datos.
Herramienta Descripción de la utilización
WEKA weka es una de las herramientas más completas para la minería
de datos, que pueden generar modelo y patrones el cual
construye modelos predictivos.
En el proyecto es utilizado para el estudio de datos,
reconocimiento de variables, y análisis de clustering con el
algoritmo de Kmeans.
Python anaconda Estudio de datos con ciencia de datos para Python.
anaconda es una distribución de Python la ventaja de utilizar
anaconda en que ya no se necesita instalar por separado las
librerías de Jupyter notebook, pandas, librerías de
visualización de datos de forma gráfica, etc.
En el proyecto es utilizado para la limpieza de datos, para el
análisis y graficación de datos.
Fuente: Elaboración Propia, 2019.
Kmeans
producir un resultado final. Las entradas del algoritmo son el número de grupos Κ y el
conjunto de datos. El conjunto de datos es una colección de características para cada punto
de datos. El algoritmo se inicia con estimaciones iniciales para la kappa centroides, que o
(Trevino, 2016).
Visualización de datos:
Tabla 7
herramientas de visualización de datos
Herramientas Descripción de la utilización
power bi Power BI es un servicio de análisis de negocios de Microsoft.
Su objetivo es proporcionar visualizaciones interactivas y
43
capacidades de inteligencia empresarial con una interfaz.
Tabla 8
herramientas de implementación de datos
Herramientas
Python - Django
Materialize
D3
JavaScript
sql
Fuente: Elaboración Propia, 2019.
3.4. METODOLOGÍA
La gestión del desarrollo del producto se realizará con la metodología OpenUP la
cual es una metodología ágil para el desarrollo de proyectos ya que es flexible para el cambio
y/o aumento de requerimientos, al tamaño pequeño del equipo de trabajo. La gestión del
incrementales dentro del desarrollo del proyecto, nos ofrece una naturaleza enfocada a la
44
metodología está basada en RUP (Rational Unified Process). Lo que ofrece para el equipo
(Rios, Hinojosa, Delgado, 2013). “Esta metodología fue propuesta por el grupo de
empresas conformado por: IBM Corp, Telelogic AB, Armstrong Process Group Inc.,
Number Six Software Inc. y Xansa; quienes la donaron a la Fundación Eclipse en el año
45
La metodología de OpenUP consta de cuatro fases: inicio, elaboración, construcción
46
3.4.2. Metodología de aplicación CRISP-DM
Rodriguez y Garcia, 2016). “Metodología CRISP-DM (Cross-Industry Standard
Processfor Data Mining: Procedimiento Industrial Estándar para realizar Minería de Datos),
(Chapman, Clinton, Kerber, Khabaza, reinartz, Shearer y Wirth, 2000) “El modelo
consiste en seis fases definidas de manera cíclica: análisis del problema, comprensión de
tipo, van en aumento exponencial, existe la necesidad de tener mecanismos eficientes para
encargadas de este tipo de proceso y para hacer menos complejos sus procedimientos se han
diseñado metodologías que los guíen. Debido a que estas metodologías son de propósito
que, de acuerdo con la definición dada por Michalski en 1986, es la habilidad de adquirir
métodos y técnicas, así como también por medio de la experiencia propia; se requiere del
47
Fases de manera cíclica análisis del problema, comprensión de datos, preparación de
Preparación de Datos
● Selección de datos
● Limpieza de datos
Modelamiento
48
Evaluación
Despliegue
en este capítulo se detalla la construcción de la minería de datos y los procesos para llegar al
clustering. en la cual se requiere acceder a los datos que permitan conocer el estado de delitos
a. Datos estructurados
Los datos estructurados de la policía nacional del perú del área de turismo no se pudo
tramitó los documentos en el mes 20/07/2018 anexo N°5, pero no se encontró respuesta
alguna por lo cual decidí trabajar con datos libres de la web Data World y los datos están
a los datos de recolección del PENTUR recomendamos que las instituciones del estado
49
puedan liberar los datos para los estudios respectivos y no se haga tan complicada la
https://github.com/ramadis/delitos-caba/releases.
ciudad de Buenos Aires, del cual tenemos un archivo csv con 128 803 delitos registrados.
los datos fueron tomados ya que se asemeja a los de las denuncias peruanas, con los mismos
adquirimos la forma de denuncia y también las variables de estudio que son los siguientes:
50
Figura 25 Base de datos
Fuente: Elaboración propia, 2018.
Tabla 9
Variables para estudio
variable tipo de variable
Departamento string
recurso turístico / lugar turístico string
latitud int/float
longitud int/float
fecha date
hora date
tipo de delito string
Fuente: Elaboración propia, 2018.
51
Variables de estudio
departamento, el recurso turístico o lugar turístico, latitud, longitud, fecha, hora, tipo de
delito. de los datos recolectado de la ciudad de Buenos Aires son los siguientes: comuna,
barrio, latitud, longitud, fecha, hora, lugar, origen de dato, tipo delito.
b. Datos no estructurados
Web scraping
Los datos no estructurados los extraemos en esta ocasión de la web, serán datos que
Tabla 10
Variables de extracción de datos.
Atributos Variables
Nombre TEXT
Calificaciones TEXT
Colaboradores TEXT
Número de fotos TEXT
Dirección TEXT
Ubicación TEXT
Usuario TEXT
Nombre del comentario TEXT
Calificaciones TEXT
Comentario TEXT
Aceptación de comentario TEXT
Fuente: Elaboración propia, 2018.
Página de mi nube:
52
Figura 26 Página de extracción de datos
Fuente: Elaboración propia, 2019.
ciudad de buenos aires, dataset registra 184.877 delitos, registrados por el gobierno de la
ciudad autónoma de buenos aires, durante el periodo de 07/11/2015 hasta el 30/06/2017 los
https://mapa.seguridadciudad.gob.ar/.
53
La descripción de datos recolectados tiene una gran similitud con la de la policía
Tabla 11
Variables de estudio.
Campo Tipo Descripción
Para el trabajo en weka encontramos los siguientes datos generales de los 184.877
delitos:
54
Figura 29 Weka y atributos de los datos
Fuente: Elaboración propia, 2019.
Tabla 12
Variables e identificación de atributos de los datos
Comuna son 15 como se muestra en la figura n° 22
barrio son 15 como se muestra en la figura n° 22
7 tipos de delitos como se muestra en la figura n° 23
tenemos datos de 2016 a 2017 tenemos 731 fechas y 1417 horas
sin uso de armas y asimismo sin uso de motos
Fuente: Elaboración Propia, 2018.
Borramos dos atributos que no tenían valores almacenados como lo son lugar y
los atributos de uso_arma y uso_moto también fueron borrados por que no varían en su
valor que es sin uso de arma y sin uso de moto, por lo tanto, los delitos cometidos serían
superiores a 0.0 de los cuales podríamos decir que los delitos cometidos son sin vehículos.
55
Figura 30 data con atributos originales
Fuente: Elaboración propia, 2019.
56
Debido a la utilización de los datos no clasificados, cualitativos se tomaron grupos
la asignación de los objetos de los centroides que son los más cercanos y posibles de
57
se toma el promedio de los elementos de cada grupo como un nuevo centroide.
Este algoritmo converge en un mínimo local ya que los resultados dependerán mucho
datos complejos en una forma gráfica y fácil de entender, las tramas y los gráficos pueden
ser muy eficaces para transmitir una descripción clara de los datos, Pueden ser muy valiosas
de datos.
negocio, ya que las organizaciones como la PNP y serenazgo tiene esa responsabilidad de
58
El prototipo para su construcción es el siguiente, es una propuesta para su análisis
las ventajas que se tiene de una buena visualización de datos con datos masivos, ya
que forma un arte visual que capta el interés del analista de datos, los gráficos, es una
tendencia de los valores atípicos, y sacar deducciones de historias a contar con un propósito
rápidamente.
59
CAPÍTULO IV: RESULTADOS Y DISCUSIÓN
estructurados de la web.
● Resultados: se sacaron 59 datos en los cuales están lo que buscamos sacar son
los lugares turísticos para poder trabajar con eso y su aceptación, ya que para
60
4.1.2. Objetivo N° 2: Analizar los datos recolectados con Python para
61
Figura 40 Centroides de incidencias.
Fuente: Elaboración propia, 2019.
Los datos de análisis para la toma de centroides son los siguientes en ambas
herramientas tecnológicas de análisis weka y Python: comuna, barrio, tipo delito, fechas.
62
Análisis de datos con Python:
63
La comuna es la que tiene el más alto grado de interacción de delitos, el cual tiene el
comuna 7 y la comuna 14 son los que tienen más alto porcentaje de actividad delictiva.
sucesos.
los datos son semejantes a lo de la policía nacional del Perú en cuanto a los tipos de
delitos.
Tabla 13
Delitos y faltas.
Delitos Faltas
Hurto (apropiarse de un bien Hurto (apropiarse de un bien ajeno
ajeno sin violencia). sin violencia).
Robo (Acto de apoderarse de un Participación en juegos
bien ajeno, en la cual hay violencia, inapropiados
amenaza o fuerza.)
Estafa Otros
Apropiación ilícita (provecho o
en el de un tercero; haciendo suya en
forma indebida un bien mueble, una
suma de dinero o cualquier objeto que se
haya entregado para la guarda o
depósito)
Otros delitos contra el patrimonio
otros delitos
Fuente: Elaboración Propia, 2018.
Como podemos ver en las gráficas los datos muestran que el 57.9 por ciento son de
un suceso con el delito de robo con violencia, seguido con el de hurto sin violencia.
64
Figura 47 hurto sin violencia gráfica
Fuente: Elaboración propia, 2019
Análisis de acuerdo al barrio en donde podemos rescatar que el barrio con más índice
de delitos es el de Palermo.
65
Figura 49 Barrios gráfica de barras.
Fuente: Elaboración propia, 2019
El agrupamiento con la herramienta Power BI. Clustering por datos de delitos por barrios:
66
Figura 52 Barra y geo sectorización.
Fuente: Elaboración propia, 2019.
Gráfico de tipo delitos por las comunas y cómo podemos ver la comuna 1 tiene
67
Figura 55 barrios según delitos geo sectorización.
Fuente: Elaboración propia, 2019.
La presente gráfica representa a las horas y días de alto riesgo en donde ocurre los
delitos. pudiendo apreciar que los delitos más propicios son los días lunes y marte se las
semanas.
clustering en Python
Según los análisis previamente realizados obtuvimos que los delitos más
mencionados u ocurrido en la ciudad de buenos aires son de: homicidio, hurto y hurto
automotor.
68
Figura 57 gráfica de barras de tipos de delitos.
Fuente: Elaboración propia, 2019.
Aquí tenemos los datos numéricos del porcentaje de concurrencia, de los delitos
ya que los datos a estudio son los delitos concretamos la estructura de datos que
utilizaremos para alimentar el algoritmo. según los estudios de análisis de datos antes
69
realizados podemos ver que los dos tipos de delitos más cometidos en la ciudad de Buenos
Aires son los Robo con violencia, hurto sin violencia y homicidio doloso graficamos los
70
Podemos observar en la siguiente figura que fue calculada 5 centroides para la
Figura 61 K centroides.
Fuente: Elaboración propia, 2019.
Podemos ver la gráfica 3D con los colores para los grupos y veremos si se
diferencia. las estrellas son el centroide de cada grupo de objetos. en cuanto a las
dimensiones de colores y sus cantidades son: rojos 3, verde 28, azul 5, turquesa 9, amarillo
3 de las cuales los grupos con más objetos son los verdes que son el hurto sin violencia.
71
4.1.4. Objetivo N° 4: Diseñar la plataforma para la visualización de datos.
a. Base de datos.
b. Análisis de requerimientos.
mismas)
72
CAPÍTULO V: CONCLUSIONES Y RECOMENDACIONES
5.1. Conclusiones
tanto de la web como los datos estructurados para un buen análisis de datos tienen que ser
En los análisis de datos se logró diagnosticar que los delitos mayormente cometidos
son los de hurto, robo y homicidios en la ciudad de Buenos aires, así como también que el
Los datos en análisis son similares a los datos en construcción para el turismo por
lo cual concluimos que los estudios realizados serían similares con centrándonos ya no en
5.2. Recomendaciones
de PENTUR, pero no obtuvimos respuesta. por lo cual utilizamos datos de una open
data en el cual eran datos de la Ciudad de Buenos aires, los datos tomados eran
semejantes a las del análisis de la base de datos del PENTUR PUNO es por eso que se
tomaron como modelos de estudio. Necesitamos una plataforma en donde liberen datos
para poder hacer los análisis y que no sean complicadas los procesos administrativos
encargadas, así como también necesitamos que los datos salgan de una aplicación para
73
que sea fácil su manipulación y alimentación de la plataforma de visualización de
datos.
● Se recomienda que los aplicativos de alimentación sean tanto en la web con móviles.
numérico ya que con eso se hará fácil el análisis o implementación de los datos a algún
algoritmo.
de datos con su respectivo sistema de alimentación para que pueda ser una plataforma
de información que sirva tanto al sector público de las instituciones como a los turistas.
74
REFERENCIAS BIBLIOGRÁFICAS
75
http://www.portaldeturismo.pe/noticia/seguridad-estrategia-y-oportunidad-3-retos-del-
sector-turismo-para-el-2018-editorial-
Montes Ipenza, D., Rodriguez, A. J., Zamora Aguilar, R., & Zambrano Chávez, E.
(2017). Investigación para la implementación de una empresa de servicios turísticos
asociados a la pesca deportiva en el Perú.
Rodríguez León, Ciro, & García Lorenzo, María Matilde. (2016). ADECUACIÓN
A METODOLOGÍA DE MINERÍA DE DATOS PARA APLICAR A PROBLEMAS NO
SUPERVISADOS TIPO ATRIBUTO-VALOR. Revista Universidad y Sociedad, 8(4), 43-
53. Recuperado en 02 de octubre de 2018, de
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2218-
36202016000400005&lng=es&tlng=es.
Rodríguez León, Ciro, & García Lorenzo, María Matilde. (2016). ADECUACIÓN
A METODOLOGÍA DE MINERÍA DE DATOS PARA APLICAR A PROBLEMAS NO
SUPERVISADOS TIPO ATRIBUTO-VALOR. Revista Universidad y Sociedad, 8(4), 43-
53. Recuperado en 20 de septiembre de 2018, de
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2218-
36202016000400005&lng=es&tlng=es.
Ríos, S., Hinojosa, C., & Delgado, R. (2013). Aplicación de la metodología openup
en el desarrollo del sistema de difusión de gestión del conocimiento de la espe, 10.
Sánchez, I. J. B. Técnicas de Agrupamiento para el Análisis de Datos Cuantitativos
y Cualitativos.
Riquelme, J.C., Ruiz, R. & Gilbert, K. (2006). Minería de datos: conceptos y
tendencias, inteligencia artificial. Revista Iberoamericana de Inteligencia Artificial, 29 pp.
11-18.
López, J. (2018). Web scraping.
76
ANEXOS
Anexo 1: Estadística de la WEF
el informe completo del al WEF TTCR 2017 puede ser visualizado en:
http://www.cdi.org.pe/InformeGlobaldeViajesyTurismo/doc/2017/WEF_TTCR_2017_web
_0401.pdf
77
Anexo 2: Mapic del proyecto de investigación
4.3 Implementación
de mapas Geo
localizadas
(sectorización)
Anexo 2 Mapic del proyecto de investigación
78