71 0617 Is
71 0617 Is
71 0617 Is
Arequipa- Perú
2018
ii
PRESENTACION
Sr. Director de la Escuela Profesional de Ingeniería de Sistemas.
DEDICATORIA
Este trabajo va dedicado a Dios, a mi familia, a mi enamorada y a mis amigos, que son personas
muy especiales en mi vida, que en todo momento estuvieron brindándome su apoyo. Los padres
son las primeras personas que conoces en el mundo, de ellos depende mucho el desarrollo de
una persona, yo puedo decir que tuve los mejores padres, sin ellos no hubiese podido alcanzar
esta meta, este trabajo va dedicado a ellos, que desde muy pequeño me inculcaron valores para
ser una persona correcta en la vida. También dedico este trabajo a mi hermana, una persona
muy alegre que siempre supo sacarme una sonrisa, y a mi enamorada, que durante todo el
AGRADECIMIENTO
Agradezco al Ing. José Sulla Torres, al Dr. Marco Cossio y al grupo de personas que participaron
RESUMEN
software utiliza un algoritmo de árboles de decisión para predecir un posible resultado, de acuerdo
a los datos o atributos que deben ser ingresados por el usuario (adolescente). Para la construcción
de Datos, se realizó detenidamente la fase de análisis y selección del algoritmo para deducir los
Los algoritmos evaluados fueron J48, BayestNet, Multilayer Perceptron, ForestPA y NaiveBayes,
Palabras Clave
ABSTRACT
The project consists of analyzing, designing and implementing a software that uses a data mining
model, based on information collected from various schools in Peru, the software uses a decision
tree algorithm to predict a possible outcome, in accordance to the data or attributes that must be
entered by the user (adolescent). For the construction of the data mining model the Knowledge
Discovery Process Databases was used, the analysis and selection phase of the algorithm was
carefully carried out to deduce the patterns and trends that exist between the data.
The algorithms evaluated were J48, BayestNet, Multilayer Perceptron, ForestPA y NaiveBayes,
obtaining as best the J48 algorithm, with a precision percentage of 94.39%, and proving to be
superior in other indicators. The algorithm obtained from the tests and comparisons made was
implemented in a software tool, with the aim of automating the process and evaluating more people
Keywords
INTRODUCCION
el Perú, es la enfermedad llamada obesidad, que puede ser la base de otras muchas enfermedades
peligrosas. La obesidad simboliza un problema que viene creciendo en las últimas décadas,
de la población. Las causas implicadas en la aparición del problema pueden ser varias, desde una
La forma más utilizada para diagnosticar si un paciente padece de obesidad es calculando su índice
de masa corporal, luego por medio de este obtener el nivel de grasa corporal y de acuerdo a los
algoritmos de minería de datos, que pueda diagnosticar o predecir si una persona de 5 a 17 años
de edad, se encuentra en riesgo de padecer obesidad. Para lograr dicho objetivo se debe estudiar
los pasos previos relacionados a la predicción de obesidad, realizar una comparación y evaluación
de algoritmos de minería de datos, para identificar cuál es el algoritmo que mejor se adapta al
implementar el algoritmo seleccionado en una aplicación web, que sea accesible por toda persona
con acceso a internet. Y por qué no contribuir a la reducción de casos de obesidad en el Perú,
capítulo 3 se expone el análisis y definición de los requerimientos para el desarrollo del aplicativo,
INDICE
CAPITULO 1: PLANTEAMIENTO TEÓRICO ...................................................................... 1
1.1 Título del Proyecto ........................................................................................................... 1
1.2 Descripción del problema................................................................................................. 1
1.3 Delimitaciones y definición del problema ....................................................................... 2
1.3.1 Delimitaciones .............................................................................................................. 2
1.3.2 Definición del Problema ............................................................................................... 3
1.4 Formulación del Problema ............................................................................................... 3
1.4.1 Problema Principal ....................................................................................................... 3
1.5 Objetivos de la Investigación ........................................................................................... 3
1.5.1 Objetivo General........................................................................................................... 3
1.5.2 Objetivos Específicos ................................................................................................... 4
1.6 Viabilidad de la Investigación .......................................................................................... 4
1.6.1 Económica .................................................................................................................... 4
1.6.2 Técnica.......................................................................................................................... 4
1.6.3 Operativa ...................................................................................................................... 4
1.7 Justificación e Importancia de la Investigación ............................................................... 5
1.7.1 Justificación .................................................................................................................. 5
1.7.2 Importancia ................................................................................................................... 6
1.8 Limitaciones de la Investigación ...................................................................................... 6
1.9 Área, línea, tipo y nivel de la investigación ..................................................................... 7
1.9.1 Área de investigación ................................................................................................... 7
1.9.2 Línea de investigación .................................................................................................. 7
1.9.3 Tipo de investigación.................................................................................................... 7
1.9.4 Nivel de investigación .................................................................................................. 7
1.10 Método y diseño de investigación .................................................................................... 7
1.10.1 Método de investigación ............................................................................................... 7
1.10.2 Forma de tratamiento de los datos. ............................................................................... 7
1.11 Cobertura del Estudio ....................................................................................................... 9
1.11.1 Universo........................................................................................................................ 9
1.11.2 Muestra ......................................................................................................................... 9
CAPITULO 2: MARCO TEÓRICO......................................................................................... 10
2.1 Estado del Arte ............................................................................................................... 10
x
INDICE DE FIGURAS
Figura 1 El modelo en cascada.
Figura 2. Taxonomía de la Minería de Datos.
Figura 3. El proceso de Descubrimiento de Conocimiento en Bases de Datos.
Figura 4. El modelo Cliente/Servidor.
Figura 5. El modelo Cliente/Servidor de 2 capas.
Figura 6. Arquitectura cliente servidor para una filmoteca.
Figura 7. Ciclo de desarrollo ágil.
Figura 8. El proceso de Scrum.
Figura 9. Las 5 primeras áreas de conocimiento.
Figura 10. Esquema de los Requerimientos Funcionales.
Figura 11. Esquema de los Requerimientos No Funcionales.
Figura 12. Diagrama de casos de uso.
Figura 13. Diagrama de secuencia Iniciar sesión
Figura 14. Diagrama de secuencia Registrar nuevo usuario.
Figura 15. Diagrama de secuencia Registrar cuestionario obesidad.
Figura 16. Diagrama de secuencia Registrar Evaluación IMC.
Figura 17. Diagrama de secuencia Consultar evaluación de IMC.
Figura 18. Diagrama de secuencia Consultar cuestionario obesidad.
Figura 19. Diagrama de secuencia Generar reporte individual.
Figura 20. Diagrama de secuencia Generar reporte general Evaluaciones.
Figura 21. Diagrama de secuencia Generar reporte general Cuestionarios.
Figura 22. Diagrama de clases - SisPrediccion.
Figura 23. Grafo del clasificador Naive Bayes obtenido en Weka
Figura 24. Grafo de Perceptrón Multicapa
Figura 25. Entorno inicial – Preprocesamiento en Weka.
Figura 26. Lista de clasificadores de Weka.
Figura 27. Resultados de análisis de clasificación en Weka.
xv
INDICE DE TABLAS
Tabla 1 Áreas de conocimiento del SWEBOK.
Tabla 2 Privilegios de autores.
Tabla 3 Total de atributos del conjunto de datos.
Tabla 4 Características antropométricas del conjunto de datos.
Tabla 5 Parámetros de predicción.
Tabla 6 Validación con usuarios.
Tabla 7 Indicadores para evaluar la complejidad del módulo.
Tabla 8 Resultados del clasificador Árbol de decisión J48.
Tabla 9 Resultados del clasificador BayesNet.
Tabla 10 Resultados del clasificador MultilayerPerceptron.
Tabla 11 Resultados del clasificador ForestPA.
Tabla 12 Resultados del clasificador NaiveBayes.
Tabla 13 Resultados de clasificación y comparación.
1
alcanzado caracteres de epidemia a nivel mundial. En 2016, más de 1900 millones de adultos de
18 o más años tenían sobrepeso, de los cuales, más de 650 millones eran obesos, 41 millones de
niños menores de cinco años tenían sobrepeso o eran obesos, había más de 340 millones de niños
y adolescentes (de 5 a 19 años) con sobrepeso u obesidad. El problema es mundial y está afectando
ha incrementado en los últimos años y se ha convertido en una epidemia mundial, existen pruebas
este fenómeno es un problema cada vez más común en adolescentes modernos, es así que se debe
En ese sentido, los prejuicios y la discriminación contra las personas con sobrepeso y
obesidad actualmente están muy extendidos dentro de nuestra sociedad, de hecho, varios estudios
Por lo tanto, predecir la obesidad a temprana edad resultaría beneficioso para la sociedad,
y es que no se tiene un sistema que automatice dicha predicción, que muestre de manera inmediata
las probabilidades que existen, y así poder evitar que deriven en posibles enfermedades
Existen muchas formas de evitar y prevenir que se presente obesidad en la adultez, como
1.3.1 Delimitaciones
a. Delimitación espacial
b. Delimitación Temporal
c. Delimitación Social
a 17 años, capturar datos mediante una herramienta de medición, con la cual se puede
registrar: el índice de masa corporal, masa grasa, masa magra, la actitud hacia la
obesidad en adolescentes y obtener una posible predicción sobre el estado de peso del
usuario, por lo que su orientación social involucra capturar datos reales de adolescentes
3
d. Delimitación conceptual
proceso de minería de datos, para detectar patrones y detectar si el adolescente tiene una alta
informe con cierta probabilidad en qué casos prevenir y tomar las acciones necesarias para
actual del paciente. Para ello intervienen diversas variables socio-culturales, familiares,
genéticas y antropométricas.
4
1.6.1 Económica
Los recursos económicos necesarios son asumidos por la Universidad Católica de Santa
María, como parte de los fondos que brinda para el apoyo de proyectos de
1.6.2 Técnica
Para el aspecto técnico se tiene los conocimientos teóricos y capacidad necesarios para
1.6.3 Operativa
proyecto.
5
de la investigación.
1.7.1 Justificación
jóvenes, causando a temprana edad enfermedades crónicas en los diferentes sistemas del
Por otro lado se sabe que la tecnología forma parte del desarrollo de la población y es de
rápido, económico y fácil acceso; es por ello que en este proyecto de investigación, se
forma inmediata, si un paciente tiene grandes riesgos de padecerla, con el fin de tomar las
Es de utilidad porque hoy en día gran parte de la población cuenta con un dispositivo
tecnológico con acceso a internet, que permite el uso de esta aplicación de una forma rápida
6
y sencilla, prediciendo la obesidad para una atención temprana por especialistas de la salud
aprendizaje automático entre otras. Por otro lado, servirá para futuras investigaciones en
Asimismo, esta investigación forma parte de los fondos que la Universidad Católica de
1.7.2 Importancia
En ese contexto los aportes de este proyecto no solo se enmarcarán en los beneficios
de la comunidad educativa, sino también estos resultados servirán para el uso entre
profesionales de la salud, además servirá como referencia para comparar con otros estudios
internacionales.
personas, en las cuales se utiliza minería de datos, por lo tanto, el presente proyecto tiene
7
antecedentes que pueden servir como base para el desarrollo. Además, la realización del
Aplicada.
Para el cálculo de los IMC, se capturan los datos en tablas, se realizan los cálculos
medible.
Los datos ingresados al sistema, son ordenados en una tabla, en la que cada
pregunta tiene un valor determinado, este valor nos sirve para realizar el
procesamiento de la información.
colegios de Perú, esto con el objetivo de establecer las reglas para el árbol de
decisión.
Se cargan los datos de los usuarios que utilicen el sistema, y que respondan
las preguntas adecuadamente, esto con el objetivo de predecir que clientes tienden
a tener obesidad.
d) Reportes generales
qué porcentaje de esa población tiene un alto o bajo índice de personas propensas
a ser obesas.
e) Clasificación de resultados
Sobrepeso y Obesidad.
9
1.11.1 Universo
ser incluidos.
1.11.2 Muestra
Arequipa – Perú
10
de adolescentes, es un tema que no ha sido muy abordado en nuestro país, se sabe que a
automático, pero estas investigaciones no se ajustan del todo para la población peruana,
estas causas. Tanto así que se ha evidenciado una tendencia creciente en las curvas de
toda América Latina y el Caribe, con un impacto mayor en las mujeres y una tendencia
11
población regional y las mayores prevalencias se pueden observar todas en países del
Barbuda (30,9%). En Perú, también sobre el promedio regional, cerca del 20% de la
Agricultura", 2017).
Gómez Campos (2017), la determinación de la masa grasa y la masa libre de grasa (masa
que mostraron aceptabilidad para determinar la masa grasa y además propusieron valores
vecino ponderado k más cercano (KNN); y red neuronal artificial (ANN). Utilizaron
12
como entradas modelo, nueve comportamientos relacionados con la salud del Sistema de
logística que logró una precisión del 56.02% y una especificidad del 54.77%, IDT, KNN
obtuvo una precisión del 80,23% y una especificidad del 90,74%, mientras que el modelo
KNN ponderado obtuvo una precisión del 88,82% y una especificidad del 93,44%. El
se utilizó para detectar factores clave que afectan el peso corporal de acuerdo con los
registros del cuestionario tomados de adultos que viven en las regiones del norte y sur
como un método alternativo para definir el IMC entre adultos para ciudadanos de
Kazajstán. Por lo tanto, aseguran que las tecnologías de minería de datos y aprendizaje
En un estudio realizado por Suca et al., (2016), se analizaron los pasos previos
utilizados fueron árboles de decisión (J48), Naive Bayes, SVM y redes neuronales. Como
de decisión (J48), es el más adecuado para realizar la predicción del tipo de obesidad con
tabaquismo materno durante el embarazo puede provocar una disminución del peso al
nacer y de la estatura. Los recién nacidos de bajo peso a menudo muestran un mayor
2010).
Así como existen diversas causas para la obesidad infantil, también lo hay para
un ritmo de vida acelerado (que lleva a consumir comida rápida o comida basura) y la
obesidad, pero sólo unos pocos lograron producir resultados precisos. El número de
primarias. Luego, identificar factores de riesgo como la educación de los padres, el estilo
la obesidad utilizando algún método. (Al Mamun, Cramb, O'Callaghan, Williams &
Najman, 2009).
Las técnicas de Minería de datos han sido aplicadas a muchas áreas en el mundo
de los negocios y en nuestra vida diaria, incluidos los servicios de la salud, y clínicos.
adolescentes. Para empezar a aplicar estas técnicas, primero se debe encontrar los factores
de riesgo de estilo de vida más importantes asociados con el sobrepeso y la obesidad entre
los estudiantes. En un artículo realizado por (Pochini, Wu & Hu, 2014), se recolectó
dichos factores en una escuela de secundaria en Estados Unidos, mediante una encuesta,
Juventud 2011 (YRBS, por sus siglas en inglés) se usaron con los estados de peso
cada variable objetivo. Tanto el método de regresión logística como el del árbol de
decisión muestran que frecuentemente hacer actividad física y desayunar son todos
Zhang et al., (2009), realizaron una comparación de regresión logística con seis
meses de precisión se mejora muy ligeramente, en ese caso mediante el uso de redes
neuronales, mientras que para la predicción a los 2 años se mejora en más del 10% con
y una variable de salida a partir de la información del cuestionario; se evaluó los tres
logística logró una precisión de clasificación de 76.13% con una sensibilidad de 79.59%
y el árbol de decisión (C5.0) logró una precisión de clasificación del 77.87% con una
sensibilidad del 80.68% y una especificidad del 75.13%. El modelo de árbol de decisión
ANN dio la menor precisión. (Meng, Huang, Rao, Zhang & Liu, 2013).
Hoy en día, el problema de la obesidad entre los niños es uno de los temas
la clasificación de la obesidad infantil entre los escolares del sexto año de dos distritos
aseguran que tanto los algoritmos CART como CTree identifican subgrupos
con los enfoques basados en la regresión cuando los subgrupos están realmente presentes
en los datos. Una distinción importante entre CART y CTree es que este último usa un
Finalmente comprobaron que los árboles de decisión son una herramienta útil para
individuales.
17
software que toma en cuenta los temas prácticos de costo, fecha y confiabilidad, así como
sean adecuados para todos los sistemas y las compañías. Más bien, durante los últimos
(Sommerville, 2011).
Existen muchos diferentes procesos de software, pero todos deben incluir cuatro
3. Validación del software. Hay que validar el software para asegurarse de que cumple
4. Evolución del software. El software tiene que evolucionar para satisfacer las
proceso. Cada modelo del proceso representa a otro desde una particular perspectiva y,
18
por lo tanto, ofrece sólo información parcial acerca de dicho proceso. Por ejemplo, un
modelo de actividad del proceso muestra las actividades y su secuencia, pero quizá sin
presentar los roles de las personas que intervienen en esas actividades. Para la realización
como fases separadas del proceso, tal como especificación de requerimientos, diseño de
“La interesante tarea de lograr que las computadoras piensen ... máquinas con mente, en
estudia algoritmos que pueden aprender y hacer predicciones sobre la data. También
ofrece herramientas para resolver problemas del mundo real: clasificación, regresión,
Bases de Datos, que implica inferir algoritmos que exploren datos, desarrollar un modelo
datos.
necesidad. Dado el reciente crecimiento del campo, no es una sorpresa que una amplia
Figura 2. Taxonomía de la Minería de Datos. Fuente: (Maimon, O., & Browarnik, A., 2010).
21
en nueve pasos.
vez definidos los objetivos, la información que será usada para el descubrimiento
del conocimiento debe ser determinada. Esto incluye averiguar que data se tiene
de aprendizaje.
implementar el conocimiento en otro sistema para dar mejor uso. (Maimon, O.,
Hay una variedad de técnicas importantes de minería de datos, que han sido
2.8 Asociación
miembros son similares de cierta forma. Por lo tanto, consiste en una colección de
objetos que son “similares” entre ellos, y son “no similares” a los objetos que
2.8.2 Clasificación
a) Redes neuronales
inspirados por el cerebro humano. Muchos de los recientes avances han sido
b) Arboles de decisión
posibles. Dichos clasificadores simbólicos tienen una ventaja sobre los modelos
reglas lógicas seguidas por un árbol de decisión son mucho más fáciles de
interpretar que los pesos numéricos de las conexiones entre los nodos de una red
c) Redes Bayesianas
Una red bayesiana, es un grafo acíclico dirigido (DAG, por sus siglas en
ingles) en el cual los nodos representan las variables de sistema y los arcos
los demandantes, llamados clientes. Las aplicaciones Clientes realizan peticiones a una o
varias aplicaciones Servidores, que deben encontrarse en ejecución para mantener dichas
demandas.
aplicación, de forma que los clientes no se sobrecarguen, cosa que ocurriría si ellos
mismos desempeñan las funciones que les son proporcionadas de forma directa y
transparente. En esta arquitectura la capacidad de proceso está repartida entre los clientes
y los servidores, aunque son más importantes las ventajas de tipo organizativo debidas a
que facilita y clarifica el diseño del sistema. Tanto el cliente como el servidor son
cada uno de los cuales se encuadran las distintas tareas en las que se ve involucrado
cualquier tipo de proyecto de desarrollo. Dicho modelo establece los siguientes conjuntos
con la interacción entre el cliente y la aplicación. Para llevar a cabo esta tarea de
actividades tienen que realizar y, teniendo en cuenta estos datos, cuáles son los
mejores estilos de interfaz para que esos usuarios realicen sus tareas. En esta lógica
se engloban todas las tareas que deben ser realizadas por la parte del Cliente del
integridad de las transacciones de las operaciones necesarias que haya que realizar
para que se cumplan dichas reglas. La lógica de negocio también transforma una serie
27
apropiadas.
El objetivo que debe de cumplir esta lógica es el de aislar las reglas de negocio, así
2012).
decir los procesos encargados del mantenimiento de los datos, de garantizar las reglas
Estas tareas son realizadas, generalmente por un Sistema de Gestión de Base de datos
Relacionales, como SQL Server, Oracle, MySQL, Informix, etc. (Marini, 2012).
2.9.4 Componentes
Servidor
Clientes
Este componente es el que solicita los servicios que ofrecen los servidores.
Red
despliegan los diferentes tipos de medios. Los cuadros de video necesitan transmitirse
rápidamente y en sincronía, aunque a una resolución relativamente baja. Tal vez estén
imágenes fijas deben conservarse en una resolución alta, por lo que es adecuado
sistema de información Web, que incluye datos acerca de las películas y los videos, así
Figura 6. Arquitectura cliente servidor para una filmoteca. Fuente: (Sommerville, 2011).
30
2.9.5 Ventajas
2.9.6 Desventajas
y sintetizar sus salidas al formato acordado. Esto aumenta la carga del sistema, y
puede significar que sea imposible reutilizar transformaciones funcionales que usen
lado del servidor gratuito e independiente de plataforma, rápido, con una gran librería
gratuito.
relativamente sencillo resolver los problemas que nos puedan surgir durante
Para poder ver y testear las páginas que vayamos creando es necesario
Parte del contenido de las páginas puede no ser accesible a los navegadores,
diseño de aplicaciones en que los requerimientos del sistema cambian, por lo general
el proceso burocrático al evitar trabajo con valor dudoso a largo plazo, y a eliminar
afirma:
Esto es, aunque exista valor en los objetos a la derecha, valoraremos más los de
2.11.1 Ventajas
como un problema sino como algo necesario para que el producto sea mejor
Las entregas no se hacen al final, sino que se hacen pequeñas entregas. Estas
algunas funcionalidades.
33
Los ciclos cortos de entrega ayudarán a disminuir los riesgos sobre todo al
negocio.
2.11.2 Fases
y se establecen los límites que marcarán el desarrollo del producto, tales como
objetivo deseado.
lo tanto, puede usarse con enfoques ágiles más técnicos, como XP, para ofrecer al
Existen tres fases con Scrum. La primera es la planeación del bosquejo, donde se
software. A esto le sigue una serie de ciclos sprint, donde cada ciclo desarrolla un
sistema y los manuales del usuario, y valora las lecciones aprendidas en el proyecto.
(Sommerville, 2011).
a) Componentes de Scrum.
entender como reuniones. Las reuniones forman parte de los artefactos de esta
Las Reuniones.
Los Roles.
de Scrum.
37
2012).
38
incluyen una lista de referencias que apunta a información más detallada. La Guía
SWEBOK, cada una de estas áreas son tratadas como un capítulo en la guía:
Tabla 1
Áreas de conocimiento del SWEBOK. Fuente: (Abran et al., 2004).
Requerimientos del software
niveles proporciona una manera razonable de encontrar los temas (Abran et al.,
2004).
Estructura y
Captura de los Consideraciones Proceso de
arquitectura del Ténicas de pruebas
requisitos prácticas mantenimiento
software
Análisis y
Análisis de evaluación de la Medias de las Técnicas de
requisitos calidad del diseño pruebas mantenimiento
del software
Estrategias y
Validación de los
métodos del diseño
requisitos
de software
Consideraciones
prácticas
ciclo de vida en cascada. Sin embargo, esto no implica que la guía adopta o fomenta
temas de interés.
2.13 Obesidad
grasa cuyas consecuencias para la salud son nefastas. Sus factores son múltiples e
2.13.1 Causas
siguiente:
ricos en grasa; y
creciente urbanización.
[OMS], 2017)
2.13.2 Consecuencias
2012;
42
aumento del IMC. La obesidad infantil se asocia con una mayor probabilidad de
de estos mayores riesgos futuros, los niños obesos sufren dificultades respiratorias,
mantienen las tendencias actuales, en 2022 habrá más población infantil y adolescente
de los requerimientos que debe cumplir el sistema, esto permite que se pueda llevar un plan
del desarrollo del ciclo de vida del software. Para llevar a cabo dicha actividad se va a seguir
el enfoque en “cascada”, definido anteriormente, este enfoque sigue básicamente los pasos
de Análisis, Diseño, Desarrollo, Prueba e Implantación. Estos pasos serán realizados en una
los requisitos del sistema, no solo es un proceso técnico, también es un proceso que relaciona
diferentes personas, y por lo tanto tiene dificultades añadidas a su realización. La parte más
En esta situación, para tener un enfoque más realístico se debe iniciar realizando un análisis
funciones que realizará el sistema, y así establecer las especificaciones de los requerimientos,
proyecto.
tienen un propósito central, que los adolescentes disfruten de la actividad física, los
de datos que se obtuvo para este proyecto fue obtenida por medio de encuestas y
es la recepción de información de tal forma que los estudiantes realicen las encuestas en
un dispositivo tecnológico, que bien puede ser una computadora, Tablet o celular y que
esta información se almacene en una base de datos para ser procesada. Pero en un inicio
técnicas y modelos.
continuamente con los usuarios, en esta situación pueden ser los profesores y los alumnos
requerimientos que debe cumplir el sistema. Una vez concluida dicha actividad, se debe
analizar la información obtenida dando una definición a cada uno de los requerimientos
actividades:
respondan las preguntas que se muestren y que realicen las evaluaciones. Sin
embargo, debe haber dos tipos de Usuarios, uno con identificación y contraseñas
Usuario final. Este último usuario podrá hacer uso del sistema, sólo de ciertos
reportes.
Tabla 2
Privilegios de autores. Fuente: Propia
Usuario administrador Usuario final
Ver historial de
evaluaciones ingresadas X
Acceder a cuestionario de
obesidad X X
Reportes individuales X X
Reportes Generales X
sistema, de acuerdo a la información recolectada, y a las sesiones que se tuvo con los UE.
Los requerimientos funcionales, son las principales actividades que debe realizar el
el botón continuar.
RF1.3 Debe haber un link que permita al usuario cambiar de formularios, uno
RF2. Evaluaciones
RF3. Reportes
RF4. Consultas
RF4.1 El sistema permite acceder a una consulta rápida e individual por cada
usuario.
RF5.1 El sistema debe poder almacenar cada una de las evaluaciones y/o
RF6. Navegación
RF6.2 El sistema deberá tener una guía rápida en una de sus opciones, sobre
RF7. Generales
RNF1. Seguridad
RNF2. Usabilidad
sección de ayuda al usuario, en donde se brinda una guía rápida de uso del
sistema.
sistemas que hacen uso de las tecnologías que se necesitan utilizar en el proyecto actual.
lenguaje de programación PHP. Además, se debe utilizar un gestor de base de datos SQL
generales.
en la base de datos.
el acceso
correctamente al usuario.
Post condiciones: Ingreso al menú principal del sistema, sólo a los módulos de
obesidad, para luego registrar las respuestas del usuario. Finalmente muestra los
obtener un resultado.
obesidad
cuestionario
obesidad
las preguntas
Excepciones: El sistema debe informar que aún faltan preguntas por responder.
registrar las respuestas del usuario. Finalmente muestra los resultados, de forma
evaluación
58
obtenido.
evaluaciones IMC
evaluaciones.
el usuario. Luego muestra una vista con los respectivos resultados obtenidos.
obesidad
obesidad
cuestionarios.
en el sistema.
realizados
evaluaciones.
todos los usuarios hasta la fecha, para luego generar reporte en formato Excel y
descargarlo en el computador.
usuarios.
administrador.
Excel
ciertos archivos
descargas de archivos.
todos los usuarios hasta la fecha, para luego generar reporte en formato Excel y
descargarlo en el computador.
Propósito: Generar un reporte general de todos los cuestionarios del total de usuarios
administrador.
Excel
63
ciertos archivos
CLASIFICACION
técnica trabaja con una fuente de datos en particular, actualmente hay dos tipos, datos
Tabla 3
Total, de atributos del conjunto de datos. Fuente: Propia
Número de categoría Parámetros
1 Nombre
2 Fecha de nacimiento
3 Género
4 ¿Hace Deporte?
5 ¿Fuma?
6 ¿Desayuna todos los días?
7 Estatura (cm)
8 Peso
9 Estatura parado (m)
10 Estatura sentado
11 Circunferencia abdominal (cm)
12 Codo (cm)
13 Muñeca (cm)
14 Rodilla (cm)
15 Tobillo (cm)
16 Antebrazo derecho (cm)
17 Pierna (cm)
según la bibliografía son las técnicas más utilizadas para este tipo de caso y ofrecen mayor
técnicas.
Luego de realizar una limpieza de datos, la fuente de datos resultó con un número de
registros de 660, de personas entre un rango de edad de 5 a 17 años, estos registros fueron
formato csv en Weka; del total de parámetros mostrados, los seleccionados son los
siguientes: Los campos de tipo nominal son: Género, ¿Hace deporte?, ¿Fuma?,
¿Desayuna todos los días? y OUT_OBESITY; y los campos numéricos son: Edad, Peso,
la siguiente tabla.
72
Tabla 5
Parámetros de predicción. Fuente: Propia
Número de categoría Parámetros
1 Edad
2 Sexo
3 ¿Hace Deporte?
4 ¿Fuma?
5 ¿Desayuna todos los días?
6 Peso
7 Estatura parado
8 Estatura sentado
9 Circunferencia abdominal
10 Pico de Velocidad de Crecimiento (PVC)
11 Porcentaje grasa (%)
12 Masa grasa
13 Masa libre de grasa (Masa magra)
debe enfocar en la fuente de datos, tanto datos nominales categóricos como numéricos
pueden ser transformados si es que es necesario, para que así sean compatibles con la
técnica escogida. Con la herramienta Weka es posible convertir y aplicar filtros que
Según Cruz & Wishart, (2006), se hizo una evaluación, dirigida a la detección
técnica más apropiada para ese caso. En nuestro caso (Obesidad en la adolescencia),
que para nuestro caso cada técnica evaluada tendrá que ser la mejor versión posible,
& Frank, 2005). Entre las 3 técnicas se vio la precisión como parte de que datos son
bien clasificados, otros como sensibilidad, especificidad y la curva ROC que nos
un árbol J48, se ignoran los valores nulos o faltantes, es decir el valor de ese elemento,
se puede predecir en función de lo que se sabe sobre los valores del atributo para los
otros registros. La idea básica es dividir los datos en un rango basado en los valores
encuentra compuesta por más de un perceptrón, por una capa de entrada para recibir
75
uno o varios datos, una capa de salida que toma una decisión o predicción sobre la
entrada, y entre estos dos, un número arbitrario de capas ocultos que son el verdadero
pesos del modelo con el fin de minimizar el error. (Hassanien, Moftah, Azar, &
Shoman, 2014).
el nodo raíz) recibe una penalización más alta (menos peso) que un atributo
inferior puede influir en más reglas que un atributo comprobado en un nivel superior.
76
Por lo tanto, para descubrir un conjunto diverso de reglas, los atributos probados en
niveles inferiores deben evitarse en un árbol futuro más que aquellos atributos que se
aleatoriamente el peso de un atributo del rango de peso asignado para el nivel del
Bayes supone que la presencia de una característica particular en una clase no está
relacionada con la presencia de ninguna otra característica. Por ejemplo, una fruta
a la probabilidad de que esta fruta sea una manzana y es por eso que se la conoce
como "Naive".
El modelo Naive Bayes es fácil de construir y muy útil para grandes conjuntos de
datos. Junto con la simplicidad, se sabe que Naive Bayes supera incluso a los métodos
Se vio por necesario utilizar Weka para evaluar la performance de los métodos
provee una interfaz gráfica que centraliza todo el proceso de pruebas a una sola
que nos brinda Weka, con el objetivo de obtener data limpia y lista para pasar a la
78
los resultados como el costo del modelo de datos de entropía o curva de ROC.
79
relación de atributos.
DE PREDICCION
denominado 3 o más capas. Este patrón se usa en la gran mayoría de sistemas, el sistema
gestiona datos y los guarda en una base de datos, además se tiene una interfaz visual que
será la interacción con los usuarios y por último una parte se encargará de procesar y
de tal forma que cada capa sólo se comunique con la inferior, esas 3 capas se llaman:
el usuario requiere, recibiendo los eventos accionados por los usuarios a través de la
La capa lógica de negocio es donde residen las funciones que se ejecutan, se reciben las
proceso. Esta capa se comunica con la capa de presentación, para recibir solicitudes y
presentar los resultados, y con la capa de acceso a datos, para realizar solicitudes al gestor
El sistema web empleará el estilo arquitectónico de capas y será organizado en tres capas:
todos los cálculos basados en la información ingresada por el usuario, datos almacenados
siguiente figura:
83
La capa de Interfaz de usuario se encarga del manejo de la lógica del usuario, Los
En la capa de servicios del sistema se tiene a los servicios que se utilizan para los módulos
de la capa superior, es decir la capa de presentación. En esta capa son definidas las clases
controladoras encargadas de manejar la lógica de los casos de uso de los servicios básicos
módulos que representan los servicios para el manejo de información del negocio. Los
módulos de esta capa poseen una única interfaz con los servicios que permiten que las
módulos.
servicios de la capa.
En este punto se describe la topología del sistema, es decir cómo será asignado
forma:
Se consideran dos tipos de nodos: Cliente y Servidor, el primer nodo representa todas
harán uso del sistema. El segundo nodo representa el computador donde se encuentra
Figura 37. Diagrama de Despliegue de la Arquitectura Física del sistema. Fuente: Propia.
87
objetos o conceptos, se relacionan entre si dentro del sistema. Este modelo es utilizado
con el objetivo de diseñar la base de datos que será implementada en el gestor. Algo
Figura 38. Diagrama de Entidad – Relación del Sistema Predicción de Obesidad. Fuente: Propia.
88
Figura 39. Modelo Físico del Sistema Predicción de Obesidad. Fuente: Propia.
La interfaz web son los elementos gráficos que permitirán al usuario acceder a los
que es importante lograr un diseño atractivo para que el usuario tenga facilidad de acceso
a los contenidos, interactúe con eficacia con todos los componentes y así sentirse cómodo
89
otras tecnologías como Javascript, CSS, JQUERY, AJAX y Bootstrap. Algo importante
que resaltar es el uso del lenguaje Javascript, que hará de nuestro sistema algo más
Por otro lado, el uso de CSS nos brindará ventajas como la separación de la forma y el
será más simple y además reducirá en gran medida los tiempos de carga de páginas.
administradores.
usuario, será necesario ingresar una contraseña, sólo los usuarios administradores
pueden realizar reportes generales. Debajo de los dos casilleros en blanco se tiene un
link “Ingresar en modo usuario”, que nos direcciona a la página de logueo del usuario
final.
usuario, listando las diferentes opciones a las que puede acceder y navegar en el
sistema.
91
La lista de opciones del menú Consultas, corresponde a los datos ingresados en los
evaluación.
El menú reporte cuenta con las opciones Reporte individual y Reporte general, en la
primera opción se podrá ver el resultado final de las 3 (como máximo número de
reporte general de todos los usuarios que se ingresaron hasta la fecha. El menú de
generados por el sistema en formato texto, sobre el nivel de actitud hacia la obesidad,
predicción del estado de peso del usuario, los atributos se presentan en formato de
sistema realizar el proceso de predicción para saber el estado de peso del usuario
evaluado.
95
Una vez ingresados correctamente los datos del usuario, el sistema deberá mostrar los
usuario.
hacia la obesidad.
Reporte individual, es una opción que tienen tanto usuarios finales como
evaluados por el sistema, las opciones para realizar estas acciones son: “Exportar
este reporte puede ser de mucha utilidad para futuras investigaciones, donde se
excepto por los reportes generales, que son exclusivamente para usuarios
En la figura 55, se puede ver que un usuario final, sólo cuenta con la opción Reporte
individual.
99
En este punto se expondrá las partes principales del desarrollo del sistema,
empezando con las herramientas que fueron utilizadas y explicando cada uno de los
El primer paso para el desarrollo de la base de datos y del sistema web consiste
para lenguajes script PHP y Perl. Esta instalación facilita la configuración del servidor
Una vez realizada la conexión local, se dirige a crear la base de datos, tablas, vistas y
implementado en MySql, con sus respectivos elementos que son tablas, enlaces o
en el lenguaje PHP.
101
Las carpetas creadas para organizar el proyecto son: bd, controlador, img, libraries,
media, modelo, php, style y vistas. Estas nos proporcionan un cierto nivel de orden
controlador.
programación Web.
haciéndola más interactiva, permitiendo validar de forma inmediata si los datos que
ingresa el usuario están permitidos dentro de los parámetros del sistema. Incluso esta
tecnología nos permite mediante el uso de Ajax (Asynchronous Javascript and XML),
asíncrona. La gran diferencia y ventaja que nos brinda AJAX es realizar conexiones
102
página.
function getPreguntas(tipo){
var packet_message={ tipo:tipo, op:'getPreguntas'};
$.ajax({
url: 'php/webservices_get.php',
type: 'GET',
data: { packet_message: JSON.stringify(packet_message) },
success: function(data)
{
if(data.success)
{
length_cuestionario = data.preguntas.length;
editarTabla(data.respuestas, data.preguntas);
}
else{
alert("Error");
}
},
error: function(){
}
});
}
function editarTabla(array_respuestas, array_preguntas){
var table = $("#tabla1 tbody");
table.empty();
var id=0;
$.each(array_preguntas, function(idx, elem){
array_preguntas_id.push(elem.id_pregunta);
id++;
table.append("<tr><td>"+id+"</td><td>"+elem.pregunta+"</td><td><input type='radio'
name='radioGroup"+id+"' value="+elem.puntaje.substring(0, 1)+"
onclick=''></td><td><input type='radio' name='radioGroup"+id+"'
value="+elem.puntaje.substring(1, 2)+" onclick=''></td><td><input type='radio'
name='radioGroup"+id+"' value="+elem.puntaje.substring(2, 3)+" onclick=''></td></tr>");
});
}
Figura 59. Ejemplo de uso AJAX. Función obtener preguntas. Fuente: Propia.
El sistema trabaja directamente con una base de datos, por lo tanto, es necesario
contar con una clase Database, que se encargue de realizar las gestiones y
103
conversaciones con la base de datos. Básicamente esta clase posee los datos
<?php
class Database
{
private static $dbName = 'db_sis_prediccion' ;
private static $dbHost = 'localhost' ;
private static $dbUsername = 'root';
private static $dbUserPassword = '';
forma hacerlo accesible por una gran cantidad usuarios con conexión a internet. En esta
situación se hará uso de los servicios de Hostinger, que renta espacios dentro de un
servidor que se encuentra en línea 24/7, de esta forma el sistema jamás estará sin
presencia en la red.
por ello, se debe obtener un backup completo de la base de datos local, es decir tablas,
formato sql, para nuestro caso lleva el nombre de: db_sis_prediccion, que puede ser
Acceso FTP (File Transfer Protocol), copias de seguridad semanales, entre otros. El
debe contar con las credenciales de acceso al servidor y a la base de datos, actualizar
Figura 63. Acceso al panel de control del servidor web. Fuente: Propia.
Dominio: reidebihu.net
Para realizar la carga de archivos de una forma más rápida se utilizó el protocolo FTP,
la siguiente figura.
108
Para restaurar la base de datos en el servidor web, basta con ejecutar el script
FTP, para efectuar la carga de archivos al servidor web. Asimismo, se hizo uso del
imagen se puede observar la interfaz del programa, con los archivos subidos al
servidor.
el estándar ISO 9126. Aplicando tal estándar, se identificará básicamente seis atributos
5.6.1. Funcionalidad.
Es el grado en que la aplicación satisface las necesidades que indican los siguientes
definición de requerimientos.
5.6.2. Confiabilidad.
Es el tiempo en que la aplicación se encuentra disponible para ser usada según los
relacionadas a la confiabilidad.
cuantificar el producto:
Para obtener el indicador de confiabilidad Tiempo promedio entre fallas (Por sus
la siguiente fórmula.
Reemplazando, según los datos requeridos para el tiempo promedio de falla se tiene
lo siguiente:
814
𝑀𝑇𝑇𝐹 =
2
𝑀𝑇𝑇𝐹 = 407
Reemplazando, según los datos requeridos para el tiempo promedio para reparar se
tiene lo siguiente:
2
𝑀𝑇𝑇𝑅 =
2
𝑀𝑇𝑇𝑅 = 1
𝑀𝑇𝐵𝐹 = 407 − 1
𝑀𝑇𝐵𝐹 = 406
Por lo tanto, luego de obtener un MTBF de 406, este dato nos indica que una vez que
ocurre una falla, se espera que ocurra la siguiente falla después de 406 horas. En este
caso, las mediciones de tiempo son en tiempo real y no el tiempo de ejecución como
el MTTF.
112
Según ISO/IEC 9126-4, recomienda que las métricas de usabilidad deberían incluir:
objetivos específicos.
valor binario de '1' si el participante de la prueba logra completar una tarea y '0' si
Diez usuarios deben hacer uso de una funcionalidad del sistema, “Evaluación del
satisfactoriamente el objetivo.
Aplicando la ecuación:
8
𝐸𝑓𝑖𝑐𝑎𝑐𝑖𝑎 = 𝑥 100%
10
113
de eficacia.
correctamente el formulario, con los datos: Género, Fecha de nacimiento, altura, peso,
Tabla 6
Usuarios Eficacia
¿Ingresó ¿Accedió al ¿Completó la Errores
datos? sistema? evaluación? cometidos
Karen Ticona Si Si Si 0
Ruby Sucari No No No 3
Joselyn Perlacios Si Si Si 0
Ada Sucari Si Si Si 0
Katty Givera Si Si Si 0
Deyby Bedoya Si Si Si 0
Steven Zegarra Si Si Si 0
Christian Rojas Si Si Si 0
Ramiro Álvarez Si Si Si 0
Albert Pacco Si Si No 1
114
5.6.4. Eficiencia.
Es el nivel con el que la aplicación emplea en forma óptima los recursos del sistema,
comportamiento de recursos.
descubrir el máximo número de usuarios concurrentes que el sitio web puede soportar
Una vez instalada la herramienta, será necesario añadir un ThreadGroup, una vez
siguiente imagen:
forma:
Finalmente, para visualizar los resultados de una forma gráfica añadiremos un Graph
manejar carga pesada. Mientras más alto, mejor. En este caso, como valor resultado se
obtuvo 564.276/minuto. Esto significa que nuestro servidor Hostinger, puede manejar
564.276 pedidos por minuto. Este valor es relativamente medio. Así que se puede
promedio. Mientras más bajo, mejor. En esta prueba se obtuvo una desviación de 2098,
así que podemos determinar que el rendimiento del sitio web es medio.
117
testeo.
No existe una sola métrica para indicar si una aplicación es más fácil de mantener que
la otra y no existe una sola herramienta que pueda analizar el depósito de código y
proporcionarle una respuesta precisa. No hay sustituto para un revisor humano, pero
incluso los humanos no pueden analizar los repositorios de códigos completos para
mantenimiento son:
Requisito para el mapeo de implementación: ¿qué tan fácil es decir "qué" debe
No existe una medida única que pueda capturar con precisión la noción de
Dónde:
caso: 23
Antes de hallar el volumen de Halstead, se deben obtener ciertos indicadores que son
Tabla 7
Indicadores para evaluar la complejidad del módulo.
𝑉 = 462.27
evaluación es relativamente media, y se puede decir que los costos para realizar una
5.6.6. Portabilidad.
los siguientes sub atributos: adaptabilidad, facilidad para ser instalado, cumplimiento,
con varios de los sub atributos que requiere la portabilidad, para nuestro caso se
realizará una prueba, que consiste en determinar la vista que muestra la aplicación en
Mozilla.
Interner Explorer.
Opera
Safari
CAPITULO 6: RESULTADOS
Es necesario recapitular a los objetivos planteados al inicio del proyecto para exponer
los resultados, como objetivo principal se tiene el crear una aplicación que haga uso de
técnicas de minería de datos para así poder predecir el estado de peso de un usuario (en este
caso adolescente), además diagnosticar su estado de peso actual. Los atributos que se
determinaron relevantes en los modelos son: Edad, Sexo, ¿Hace Deporte?, ¿Desayuna todos
los días?, Peso, Estatura parado, Estatura sentado, Circunferencia abdominal, Pico de
Velocidad de Crecimiento (PVC), Porcentaje grasa (%), Masa grasa y Masa libre de grasa
(Masa magra).
posteriormente sean evaluados y saber cuál es el más adecuado para el presente caso.
entrenamiento fueron usados; 10% fueron utilizados para la fase de entrenamiento y 90%
para la fase de prueba, con la herramienta Weka, y el tipo de prueba Cross Validation.
cantidad de ejemplos que son verdaderos positivos y los falsos negativos (FP) son el
Para la evaluación se utilizarán los criterios de precisión y Recall, que pueden ser hallados
𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = (𝐶𝑟𝑢𝑧 & 𝑊𝑖𝑠ℎ𝑎𝑟𝑡, 2006) (7)
𝑇𝑃 + 𝐹𝑃
123
𝑇𝑃
𝑅𝑒𝑐𝑎𝑙𝑙 = (𝑍ℎ𝑎𝑛𝑔 𝑒𝑡 𝑎𝑙. , 2009)
𝑇𝑃 + 𝐹𝑁 (8)
continuación, los resultados de cada algoritmo serán mostrados en las siguientes tablas.
Tabla 8
Resultados del clasificador Árbol de decisión J48. Fuente: Propia
Clase Tasa TP Tasa FP Precisión Área
ROC
Peso bajo 0.881 0.011 0.941 0.950
Normal 0.969 0.094 0.949 0.949
Sobrepeso 0.898 0.014 0.917 0.964
Obesidad 0.964 0.002 0.964 0.981
Instancias correctamente clasificadas 623 94.39%
Instancias incorrectamente clasificadas 37 5.60%
b) Clasificador BayesNet
Tabla 9
Resultados del clasificador BayesNet. Fuente: Propia
Clase Tasa TP Tasa FP Precisión Área
ROC
Peso bajo 0.780 0.082 0.654 0.951
Normal 0.838 0.179 0.894 0.921
Sobrepeso 0.765 0.060 0.688 0.956
Obesidad 0.643 0.008 0.783 0.979
Instancias correctamente clasificadas 534 80.90%
c) Clasificador MultilayerPerceptron
Tabla 10
Resultados del clasificador MultilayerPerceptron. Fuente: Propia
d) Clasificador ForestPA
Tabla 11
Resultados del clasificador ForestPA. Fuente: Propia
e) Clasificador NaiveBayes
Tabla 12
Resultados del clasificador NaiveBayes. Fuente: Propia
6.3.Análisis de resultados
como clasificadores muy aceptados para diagnósticos médicos, para nuestro caso
obtienen bajos niveles en cuanto métricas, lo más probable es que haya sido por la
dependencia de variables que requiere, por tal motivo no obtuvo los mejores resultados.
Por otro lado, el algoritmo MultilayerPerceptron obtuvo valores muy acertados en cuanto
para cada algoritmo, la técnica que debe ser seleccionada y que obtuvo los más altos
Number of Leaves : 21
NaiveBayes, es superior.
En la figura 79, se muestra el árbol generado por el algoritmo seleccionado J48, este es el
algoritmo se obtuvo a J48 que pertenece a la técnica de árboles de decisiones, con una
precisión de 94.39%.
130
entrenamiento del modelo; sin embargo, se considera que esta cantidad podría ser ampliada
en un futuro para volver a entrenar los modelos y ver si se consigue resultados más óptimos.
obesidad (Gómez et al., 2015), este contribuye a brindar mayor información al usuario sobre
Tabla 13
Resultados de clasificación y comparación. Fuente: Propia
CONCLUSIONES
PRIMERA:
revisada proviene de fuentes confiables, plataformas como Web of Science, IEEE y Springer.
SEGUNDA:
TERCERA:
atributos, la precisión del algoritmo mejoró, y así fue quedando el que mejor se adaptaba al
objetivo.
CUARTA:
Se compararon las técnicas de minería de datos, en total fueron tres técnicas: Árboles de
que obtuvo mayor precisión y obtuvo mejores resultados en cuanto a las ratios evaluados fue
Arboles de decisión. La selección previa de las variables y/o atributos fue crucial para la
QUINTA:
El mejor modelo obtenido J48(94.39%) fue entrenado a partir del análisis de la comparación
SEXTA:
alcance de toda persona con conexión a internet. Por otro lado, se desarrollaron funciones
SEPTIMA:
Se hizo la evaluación de calidad del software, tomando como referencia el estándar ISO 9126,
OCTAVA:
técnicas de minería de datos con el árbol de decisión J48, el nivel de instancias correctamente
RECOMENDACIONES
Para mejorar los resultados, en futuras investigaciones se debe contar de ante mano con una
de modelos.
En futuros trabajos se puede probar con otros algoritmos y/o técnicas de minería de datos y
aprendizaje automático. Y así contrastar los resultados con los obtenidos en este proyecto.
Si se hacen pruebas con un mayor número de muestras que las utilizadas en este proyecto,
resultaría más ventajoso probar variando los tamaños de los conjuntos de entrenamiento.
determinado punto.
134
REFERENCIAS
Abdullah, F. S., Manan, N. S. A., Ahmad, A., Wafa, S. W., Shahril, M. R., Zulaily, N., ... &
Adnan, Md Nasim & Islam, Md. (2017). Forest PA: Constructing a Decision Forest by
Penalizing Attributes used in Previous Trees. Expert Systems with Applications. 89.
10.1016/j.eswa.2017.08.002.
Adnan, M. H. M., & Husain, W. (2012). Hybrid approaches using decision tree, naïve bayes,
means and euclidean distances for childhood obesity prediction. International Journal
Abran, A., Moore, J. W., Bourque, P., Dupuis, R., & Tripp, L. L. (2004). Software
Prediction Attributes Among Adults Via Data Mining Application. 7(2), 2011-2019.
Al Mamun, A., Cramb, S., O'Callaghan, M., Williams, G., & Najman, J. (2009). Childhood
http://dx.doi.org/10.1038/oby.2008.660
135
http://www.bbc.com/mundo/noticias-38693438
Editor.
Charniak, E., & McDermott, D. (1985). Introduction to AI. Reading (Mass.): Addison.
York.
Ciangura, C., Czernichow, S., & Oppert, J. (2010). Obesidad. EMC - Tratado De Medicina,
Cossio-Bolaños, Marco & Vasquez, Pablo & Luarte, Cristian & Sulla-Torres, Jose & Gomez-
masa grasa de niños y adolescentes chilenos. Arch Argent Pediatr. 115(5), 453-461.
http://dx.doi.org/10.5546/aap.2017.453
136
Cruz, J., & Wishart, D. (2006). Applications of Machine Learning in Cancer Prediction and
10.1177/117693510600200030
http://www.eltiempo.com/vida/salud/personas-con-obesidad-y-sobrepeso-en-el-
mundo-segun-informe-97900
Tumi Figueroa, Ernesto, Urra Albornoz, Camilo, Sulla-Torres, Jose, & Cossio-
Gómez C, Rossana, de Arruda, Miguel, Sulla T, Jose, Alvear, Fernando, Urra A, Camilo,
75182015000300008
Dulhare, U. (2018). Prediction system for heart disease using Naive Bayes and particle
10.4066/biomedicalresearch.29-18-620
137
Hassanien, A. E., Moftah, H. M., Azar, A. T., & Shoman, M. (2014). MRI breast cancer
Ino, T. (2010). Maternal smoking during pregnancy and offspring obesity: Meta-analysis.
200x.2009.02883.x
Kaur Gill, J. (2017). Overview and Applications of Artificial Neural Networks. xenonstack.
Recuperado de www.xenonstack.com/blog/data-science/overview-of-artificial-
neural-networks-and-its-applications.
39(4), 261-283.
Maimon, O., & Browarnik, A. (2010). Introduction to Knowledge Discovery and Data
Mining. In Data mining and knowledge discovery handbook (pp. 1-18). Springer,
Boston, MA.
cliente-servidor.pdf
138
Mca, Judith. (2010). diagnóstico de diabetes utilizando los algoritmos apriori y j48. Renia.
Meng, X., Huang, Y., Rao, D., Zhang, Q., & Liu, Q. (2013). Comparison of three data mining
models for predicting diabetes or prediabetes by risk factors. The Kaohsiung Journal
sobrepeso-afecta-a-mas-de-la-mitad-de-la-poblacion-informe-de-faoopa/
http://www.who.int/mediacentre/factsheets/fs311/es/
Patil, T. R., & Sherekar, S. S. (2013). Performance analysis of Naive Bayes and J48
Pochini, A., Wu, Y., & Hu, G. (2014). Data Mining for Lifestyle Risk Factors Associated
with Overweight and Obesity among Adolescents. 2014 IIAI 3Rd International
aai.2014.175
http://www.cuidateplus.com/familia/adolescencia/2016/11/12/dia-mundial-
obesidad-causas-soluciones-adolescentes-134635.html
Suca, C., Córdova, A., Condori, A., Cayra, J., & Sulla, J. (2016). Comparación De
http://www.itnuevolaredo.edu.mx/takeyas/Articulos/Inteligencia%20Artificial/ART
ICULO%20Introduccion%20a%20la%20Inteligencia%20Artificial.pdf
Tello, M. L., Eslava, H. J., & Tobías, L. B. (2013). Análisis y evaluación del nivel de riesgo
Weber, P., Medina-Oliva, G., Simon, C., & Iung, B. (2012). Overview on Bayesian networks
http://dx.doi.org/10.1016/j.engappai.2010.06.002
140
Witten, Ian & Frank, Eibe. (2005). Data Mining: Practical Machine Learning Tools and
Systems).
Zhang, S., Tjortjis, C., Zeng, X., Qiao, H., Buchan, I., & Keane, J. (2009). Comparing data
Zheng ZY, Ruggiero K (2017). Using Machine Learning to Predict Obesity in High School
GLOSARIO DE TERMINOS
TERMINOS CONCEPTO/DEFINICION
ANEXOS
144
ANEXO I
MANUAL USUARIO/ADMINISTRADOR
INTRODUCCIÓN
El sistema de predicción de obesidad en adolescentes fue desarrollado para permitir al usuario realizar
evaluaciones y cuestionarios, con el fin de que el sistema haga una predicción acerca de su estado físico,
también fue diseñado de tal forma que los usuarios administradores puedan exportar toda la información
recolectada por el sistema, teniendo los privilegios para acceder a los reportes generales de evaluación
IMC y cuestionario de actitud hacia la obesidad.
INICIO DE SESIÓN - ADMINISTRADOR
El sistema de autenticación para usuario administradores, solicita el ingreso de un nombre de usuario y
una contraseña, estos datos deben ser otorgados por los desarrolladores del sistema, en caso contrario se
debe solicitar tales credenciales, para así poder acceder con ese nivel de usuario.
En la página de inicio de sesión, se deben ingresar las credenciales de usuario administrador otorgadas, y
seguidamente presionar en el botón de “Iniciar”.
Cerrar sesión
Una vez autenticado, el sistema muestra una barra de menús en la parte superior, en esta se tiene un botón
para cerrar sesión en el momento que lo desee.
La barra se encuentra ubicada exactamente debajo de la barra de texto url, para cerrar sesión el usuario
tendrá que presionar en el botón “Finalizar”.
MODULO DE APLICACIONES
El módulo de aplicaciones contiene hasta el momento sólo dos aplicaciones, Evaluación IMC y
Cuestionario de Actitud hacia la obesidad. En ambas aplicaciones el usuario tiene un número máximo de
oportunidades de 3, una vez excedido tal número el usuario emitirá un mensaje de notificación, indicando
que ya es posible realizar más intentos.
3. Una vez ingresada la evaluación, sistema emitirá una notificación avisando que los datos fueron
ingresados correctamente, luego se emitirá un texto y un diagrama con los resultados de
predicción.
148
En el resultado se ve el posible estado de peso del usuario, más abajo se ve un gráfico donde se muestra
el estado de peso actual, de acuerdo a la edad y el IMC.
2. En este cuestionario se ingresan los siguientes datos: Fecha de nacimiento, Género y una lista de
20 preguntas, en conjunto estos datos determinarán cuál es el nivel del usuario en cuanto a la
actitud hacia la obesidad.
149
3. Luego de responder todas las preguntas e ingresar los datos solicitados, se debe hacer clic en el
botón “Guardar”, ubicado al final del cuestionario.
4. Si los datos fueron ingresados correctamente, el sistema emitirá un mensaje informando sobre la
acción, posteriormente se mostrarán los resultados, un resultado tipo texto y otro resultado tipo
gráfico.
150
En el resultado tipo texto como es de entenderse, se muestra el nivel de actitud hacia la obesidad,
detectado por el sistema, también se muestran el puntaje acumulado y la edad.
En el resultado tipo gráfico, se muestra la ubicación del usuario en cuanto a su resultado obtenido.
5. Si se excede el número de intentos, el sistema enviará el siguiente mensaje:
MODULO DE CONSULTAS
En el módulo de consultas, el usuario tiene la opción de ver los datos y resultado de cada evaluación y/o
cuestionario realizado.
2. En esta opción se pueden ver los datos ingresados en la evaluación IMC, siempre cuando se haya
realizado al menos una, de lo contrario el sistema emitirá un mensaje indicando que no se realizó
evaluaciones y que para hacerlo se debe dirigir al módulo de “Aplicaciones”.
1. Para consultar los resultados del cuestionario actitud hacia la obesidad, es necesario ir al módulo
de consultas y hacer clic en la opción “Cuestionario”.
2. En seguida el sistema proporcionará los datos del cuestionario realizado, en una tabla con los
campos: Resultado, Edad, Género y Puntaje.
152
MODULO DE REPORTES
En el módulo de reportes, el usuario tiene la opción de generar documentos en base a los datos ingresados
y emitidos por el sistema. Los tipos de reportes que se pueden generar son, el reporte individual y reporte
general.
Reporte individual
1. Para generar el reporte individual, el usuario administrador se debe dirigir al menú reportes, y
hacer clic en la opción “Reporte individual”.
2. El sistema tardará unos segundos para generar este reporte, pero luego de ese tiempo aparecerá
una ventana flotante, donde se muestran tanto las evaluaciones y/o cuestionarios realizados por el
usuario, en formato de documento pdf, preparado para realizar una impresión o si se desea guardar
en su computador.
Este documento se compone de dos partes principales, Evaluaciones y Cuestionarios. En cada una
se muestran tablas, donde se listan las evaluaciones y/o cuestionarios realizados por el usuario,
cabe mencionar que en la parte superior se puede observar el nombre del usuario.
1. Este reporte es exclusivo de los usuarios administradores, consiste en exportar todas las
evaluaciones imc realizadas hasta la fecha en un archivo Excel. Para generar tal reporte se debe
acceder al módulo de reportes, y en la lista de opciones hacer clic a “Exportar Evaluaciones”.
153
2. Posteriormente se descargará un archivo en formato Excel, para ver la descarga, se debe observar
la parte inferior del navegador.
MODULO DE SUGERENCIAS
En este módulo, tanto usuario final como usuario administrador, pueden enviar sugerencias. Estas
sugerencias serán tomadas en cuenta para futuras posibles mejoras y/o actualizaciones en el sistema.
1. Para acceder, se debe ir al menú sugerencias, y hacer clic en el botón “Enviar Sugerencia”.
156
3. Una vez que se ingrese el texto, se debe presionar en el botón “Enviar”, luego el sistema notificará
al usuario si la sugerencia fue enviada satisfactoriamente o no.
157
ANEXO II
PLAN DE TESIS
158