Tesis-Ivan Rodrigo Hidalgo Mamani
Tesis-Ivan Rodrigo Hidalgo Mamani
Tesis-Ivan Rodrigo Hidalgo Mamani
TESIS DE GRADO
“MODELO DE PREDICCIÓN BASADO EN MINERÍA DE DATOS
SOBRE ÍNDICES DE DESERCIÓN DE ALUMNOS”
CASO: (UNIVERSIDAD PÚBLICA DE EL ALTO)
EL ALTO – BOLIVIA
2020
DEDICATORIA
Al Ing. Enrique Flores, por haberme brindado su tiempo, guía y consejos a través
de cada una de las etapas de este proyecto.
Al Ing. Elías Hidalgo, por su colaboración, guía y ayuda durante este proyecto.
The present research work is elaborated from the concern to obtain knowledge
about the dropout rate of the students of the Public University of El Alto. For this,
the Information Systems and Statistics unit (SIE) was used. Based on the Data
provided by this unit dependent on the Public University of El Alto, the Data Mining
application, such as the development of the PREDESMIN prototype.
The first part corresponds to the Introduction of the research work; the problem
statement is made, the general objective and specific objectives are set; the
hypothesis and its dependent and independent variables were formulated; a
reference is made to justification in scientific, technical, economic and social
aspects; Finally, the tools available for Data Mining are shown and the limits and
scope of the project are seen.
The second part provides the information and definitions that are necessary for
the understanding of the work and research, such as: the basic concepts, Data
Mining, software engineering, the unified modeling language, university dropouts
and the quality metrics.
In the third chapter he shows us the prediction model based on Data Mining; the
language, the architecture that are necessary for its implementation and the
quality metrics used in the prototype of this research work.
In the fourth chapter, the tests and results of the application of the prototype for
predicting dropout rates are seen, as well as its interpretation.
In the fifth chapter the conclusions are reached, according to the objectives set
out in the first part and the recommendations for future work.
CAPÍTULO I
MARCO INTRODUCTORIO
INTRODUCCIÓN.............................................................................................................. 1
ANTECEDENTES ............................................................................................................ 2
PLANTEAMIENTO DEL PROBLEMA ............................................................................... 6
OBJETIVOS ..................................................................................................................... 7
HIPÓTESIS ...................................................................................................................... 7
JUSTIFICACIÓN .............................................................................................................. 9
METODOLOGÍA ............................................................................................................. 10
HERRAMIENTAS ........................................................................................................... 14
LÍMITES Y ALCANCES .................................................................................................. 16
APORTES ...................................................................................................................... 17
CAPÍTULO II
MARCO TEÓRICO
INTRODUCCIÓN............................................................................................................ 18
MINERÍA DE DATOS ...................................................................................................... 19
CONCEPTOS BÁSICOS ................................................................................................ 40
MÉTODO CIENTÍFICO ..................................................................................................... 42
METODOLOGÍA CRISP-DM .......................................................................................... 45
INGENIERÍA DEL SOFTWARE ...................................................................................... 60
HERRAMIENTAS ........................................................................................................... 64
OBJETIVO DEL DESCUBRIMIENTO DE CONOCIMIENTO .......................................... 67
MÉTRICA DE CALIDAD ................................................................................................. 71
EVALUACIÓN DE COSTOS ........................................................................................... 74
CAPITULO III
MARCO APLICATIVO
INTRODUCCIÓN............................................................................................................ 80
METODOLOGÍA DE LA INVESTIGACIÓN ..................................................................... 81
COMPRENSIÓN DE PROBLEMA .................................................................................. 83
COMPRENSIÓN DE LOS DATOS.................................................................................. 83
PREPARACIÓN DE LOS DATOS................................................................................... 88
MODELADO ................................................................................................................... 93
i
EVALUACIÓN .............................................................................................................. 102
DESARROLLO DEL MODELADO EN BASE A RUP .................................................... 105
ARQUITECTURA ......................................................................................................... 109
IMPLEMENTACIÓN DEL MODELO ............................................................................. 110
MÉTRICA DE CALIDAD ............................................................................................... 115
EVALUACIÓN DE COSTOS ......................................................................................... 120
CAPITULO IV
PRUEBAS Y RESULTADOS
CAPITULO V
CONCLUSIONES Y RECOMENDACIONES
BIBLIOGRAFÍA
ANEXOS
ii
ÍNDICE ESPECIFICO
CAPÍTULO I
MARCO INTRODUCTORIO
INTRODUCCIÓN.............................................................................................................. 1
ANTECEDENTES ............................................................................................................ 2
Antecedentes institucionales..........................................................................................2
Antecedentes Internacionales ........................................................................................4
Antecedentes Nacionales ..............................................................................................5
Antecedente Locales .....................................................................................................5
PLANTEAMIENTO DEL PROBLEMA ............................................................................... 6
Problema Principal .........................................................................................................6
Problemas Secundario ...................................................................................................6
Formulación del problema..............................................................................................7
OBJETIVOS ..................................................................................................................... 7
General ..........................................................................................................................7
Específicos.....................................................................................................................7
HIPÓTESIS ...................................................................................................................... 7
Identificación de Variables .............................................................................................7
Operacionalización de Variables....................................................................................8
Conceptualización de Variables .....................................................................................9
JUSTIFICACIÓN .............................................................................................................. 9
Científica ........................................................................................................................9
Técnica ........................................................................................................................10
Económica ...................................................................................................................10
Social ...........................................................................................................................10
METODOLOGÍA ............................................................................................................. 10
Método investigación científica ....................................................................................11
Método de ingeniería ...................................................................................................12
HERRAMIENTAS ........................................................................................................... 14
Minería de Datos..........................................................................................................15
Sistema operativo ........................................................................................................15
Base de datos ..............................................................................................................15
Lenguaje de programación ..........................................................................................15
Herramienta IDE ..........................................................................................................16
Herramienta case.........................................................................................................16
iii
LÍMITES Y ALCANCES .................................................................................................. 16
Limites..........................................................................................................................16
Alcances ......................................................................................................................17
APORTES ...................................................................................................................... 17
CAPÍTULO II
MARCO TEÓRICO
INTRODUCCIÓN............................................................................................................ 18
MINERÍA DE DATOS ...................................................................................................... 19
Historia .........................................................................................................................19
Definición de Minería de Datos ....................................................................................20
Modelos de Minería de Datos ......................................................................................22
Etapas de la Minería de Datos .....................................................................................37
Aplicaciones de la Minería de Datos ............................................................................39
CONCEPTOS BÁSICOS ................................................................................................ 40
Dato .............................................................................................................................40
Información ..................................................................................................................41
Conocimiento ...............................................................................................................41
MÉTODO CIENTÍFICO................................................................................................... 42
METODOLOGÍA CRISP-DM .......................................................................................... 45
Fase de comprensión del problema .............................................................................48
Fase de comprensión de los datos ..............................................................................50
Fase de preparación de los datos ................................................................................52
Fase de modelado .......................................................................................................54
Fase de evaluación ......................................................................................................56
Fase de implementación ..............................................................................................59
INGENIERÍA DEL SOFTWARE ...................................................................................... 60
Proceso del Software ...................................................................................................61
Proceso Unificado Racional (RUP) ..............................................................................61
Lenguaje Unificado de Modelado (UML) ......................................................................63
HERRAMIENTAS ........................................................................................................... 64
Minería de Datos..........................................................................................................65
Sistema operativo ........................................................................................................65
Base de datos ..............................................................................................................66
Lenguaje de programación ..........................................................................................66
Herramienta IDE ..........................................................................................................66
iv
Herramientas case .......................................................................................................67
OBJETIVO DEL DESCUBRIMIENTO DE CONOCIMIENTO .......................................... 67
Deserción Universitaria ................................................................................................67
Índices de deserción ....................................................................................................69
Aspectos Académicos ..................................................................................................70
MÉTRICA DE CALIDAD ................................................................................................. 71
ISO/IEC 9126 ...............................................................................................................71
EVALUACIÓN DE COSTOS ........................................................................................... 74
COCOMO II................................................................................................................75
CAPITULO III
MARCO APLICATIVO
INTRODUCCIÓN............................................................................................................ 80
METODOLOGÍA DE LA INVESTIGACIÓN ..................................................................... 81
Tipo investigación ........................................................................................................81
Método investigación ...................................................................................................82
Enfoque de investigación .............................................................................................82
Muestreo ......................................................................................................................82
COMPRENSIÓN DE PROBLEMA .................................................................................. 83
COMPRENSIÓN DE LOS DATOS.................................................................................. 83
Recolección de datos ...................................................................................................84
Descripción de los datos ..............................................................................................85
PREPARACIÓN DE LOS DATOS................................................................................... 88
Importación a base de datos ........................................................................................89
Selección de datos .......................................................................................................90
Limpieza de datos ........................................................................................................91
Transformación y estructuración ..................................................................................91
MODELADO ................................................................................................................... 93
Técnicas de modelado .................................................................................................93
Pruebas en diferentes algoritmos ................................................................................95
EVALUACIÓN .............................................................................................................. 102
DESARROLLO DEL MODELADO EN BASE A RUP .................................................... 105
Fase de análisis y casos de uso ................................................................................ 105
Modelo conceptual ..................................................................................................... 107
Modelo de presentación ............................................................................................. 108
ARQUITECTURA ......................................................................................................... 109
v
IMPLEMENTACIÓN DEL MODELO ............................................................................. 110
Etapas de funcionamiento del modelo ..................................................................... 110
Creación del formulario principal .............................................................................. 112
Implementación de algoritmos ................................................................................. 112
Compilación ............................................................................................................. 114
Resultados ............................................................................................................... 114
MÉTRICA DE CALIDAD ............................................................................................... 115
. Funcionalidad .......................................................................................................... 115
. Confiabilidad ............................................................................................................ 116
. Usabilidad ................................................................................................................ 116
. Eficiencia ................................................................................................................. 117
Mantenibilidad .......................................................................................................... 118
Portabilidad .............................................................................................................. 119
Resultados ............................................................................................................... 119
EVALUACIÓN DE COSTOS ......................................................................................... 120
Puntos de función .................................................................................................... 120
Aplicación de COCOMO II ....................................................................................... 122
Costo desarrollo del sistema .................................................................................... 125
Costo total ................................................................................................................ 126
CAPITULO IV
PRUEBAS Y RESULTADOS
BIBLIOGRAFÍA
ANEXOS
vi
ÍNDICE DE FIGURAS
CAPÍTULO I
CAPÍTULO II
CAPITULO III
vii
FIGURA 3.9 CLASIFICACIÓN MEDIANTE ALGORITMO J48 ................................................................. 96
FIGURA 3.10 ÁRBOL COMPLETO GENERADO POR WEKA .............................................................. 97
CAPITULO IV
viii
ÍNDICE DE TABLAS
CAPÍTULO I
CAPÍTULO II
CAPITULO III
ix
CAPITULO IV
x
CAPÍTULO I
1. MARCO INTRODUCTORIO
INTRODUCCIÓN
1
La Minería de Datos o también llamada explotación de Datos, es el proceso que
intenta encontrar patrones ocultos en grandes bases de datos. Apaza (2009),
describe a la Minería de Datos como un proceso no trivial de identificación válida,
potencialmente útil y entendible de patrones comprensibles que se encuentran
ocultos en los Datos. Marquez (2006), menciona que “La Minería de Datos surge
como una tecnología que intenta ayudar a comprender el contenido de una base
de datos, de forma general, los Datos son la materia prima bruta”.
ANTECEDENTES
Antecedentes institucionales
2
casa superior de estudios. Su accionar se enmarca en el estatuto orgánico
aprobado en 2007.
Formar profesionales con una concepción crítica contra hegemónica para el logro
del poder político "de" y "para" las mayorías nacionales.
3
Antecedentes Internacionales
4
investigación utilizo una metodología cualitativa, teniendo en cuenta las
características de problema y lo que se buscaba indagar a través de él, la
investigación se realizado en la Universidad Nacional Abierta y a Distancia
UNAD, Bogotá-Colombia.
Antecedentes Nacionales
Antecedente Locales
5
Minería de Datos, para conocer la influencia de los factores sociales, económicos
contenidos en el RUDE sobre el rendimiento académico de los estudiantes de
secundaria del distrito dos de la ciudad de El Alto, en ella nos muestra la
obtención de estos patrones, como la reducción de tiempo como el uso de
metodologías CRISP-DM Minería de Datos, como herramientas muy potentes
para el análisis en grandes cantidades almacenadas en el RUDE.
Problema Principal
Problemas Secundario
1
SIE, Sistema de Información y Estadística
6
Formulación del problema
OBJETIVOS
General
Específicos
Analizar los algoritmos de minería de datos que sean útiles para el modelo
de predicción.
Plantear un modelo de predicción en base a la Minería de Datos.
Implementar un prototipo en base a algoritmos de Minería de Datos.
Identificar los factores de deserción en base a la aplicación de algoritmos
de Minería de Datos.
HIPÓTESIS
Identificación de Variables
7
Operacionalización de Variables
Tabla 1.1
Operacionalización de Variables
TIPO DE
VARIABLE DIMENSIÓN INDICADORES
VARIABLE
Tipo de unidad
educativa.
Área de la unidad
Variable Dependiente
Aspectos
educativa.
Socioeconómicos
Deserción Actividad laboral del
Universitaria. alumno.
Cantidad de
hermanos
Tipo de vivienda.
Característica de
vivienda.
Nota: Elaboración propia.
8
Conceptualización de Variables
Tabla 1.2
Conceptualización de Variables
JUSTIFICACIÓN
Científica
9
ya que aporta conocimiento al área de minería de datos y la toma de decisiones
ya que la MD2 permite crear modelos de acuerdo a las necesidades planteadas.
Técnica
Económica
Social
METODOLOGÍA
2
MD, Minería de Datos
10
Método investigación científica
11
Elaboración del reporte de investigación, se elabora el reporte
final a presentar, basándose en los resultados de la investigación
Método de ingeniería
12
1.7.2.2. Metodología CRISP - DM
3
CRISP-DM, Cross Industry Standard for Data Mining
13
1.7.2.3. Metodología de desarrollo RUP
HERRAMIENTAS
14
Minería de Datos
Sistema operativo
Base de datos
Lenguaje de programación
4
WEKA, por sus siglas en ingles Waikato Environment for Knowledge Analysis
15
y fiable. Desde portátiles hasta centros de datos, desde consolas para
juegos hasta súper computadoras, desde teléfonos móviles hasta
Internet, Java está en todas partes.
Herramienta IDE
Herramienta case
LÍMITES Y ALCANCES
Limites
16
El actual trabajo de investigación no es el producto de un análisis
estadístico.
Alcances
APORTES
17
CAPÍTULO II
2. MARCO TEÓRICO
INTRODUCCIÓN
18
base de datos, inteligencia artificial, redes neuronales, estadística,
reconocimiento de patrones, sistema basados en conocimiento, recuperación de
información y visualizaron de datos.
MINERÍA DE DATOS
Según Landa (2016) hacer una un enfoque muy interesante al afirmar que la
Minería de Datos es el núcleo de todo un proceso metodológico para encontrar
un modelo valido, útil y entendible que describe patrones de acuerdo a la
información, también aclara que un modelo es la representación que intenta
explicar ese patrón en los datos.
Historia
19
Agrawal y otros empezaron a consolidar el término de Minería de Datos y el
Descubrimiento de Conocimiento en Bases de Datos.
década de 1990).
20
Para Thuraisingham (1999), la Minería de Datos consiste en el análisis de series
de datos en busca de relaciones inesperadas y resumir la información de manera
que sea útiles y entendible para el propietario de los datos.
Por su parte Rodríguez Suárez y Díaz Amador (2009), sostienen que la Minería
de Datos es una tecnología de apoyo que tiene por objeto el explorar, comprender
y buscar patrones, relaciones o excepciones en grandes bases de datos para
luego aplicar en conocimiento adquirido.
Por su parte Pautsch (2009) afirma que la “Minería de Datos permite extraer la
información oculta, descubriendo patrones y relaciones entre los datos y así crear
de modelos”, pero es el KDD el encargado de la preparación de los datos y la
21
interpretación de los resultados obtenidos, los cuales dan un significado a estos
patrones hallados.
Según Agrawal y Shafer (1996), los modelos que pueden ser descriptivos o
predictivos:
Los OLAP verifican patrones hipotéticos y la Minería de Datos usa los datos para
descubrir dichos patrones. Aguilar (2003), afirma que la Minería de Datos es un
proceso y como resultado es el conocimiento, y que no se lo debe confundir con
22
los sistemas OLAP5 y cuadros de mandos ya que estos solo son herramientas
que ayudan a la dirección y gestión de las empresas.
Un patrón es un suceso que se repite en una base de datos es así que Aruquipa
(2015), afirma los siguiente:
a. Clustering
5
OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line-Analytical-Processing)
23
Algoritmo K-medias, trata de encontrar los puntos k más
densos en un conjunto de puntos arbitrarios. Primero divide en
conjuntos y luego calcula la media, reagrupa los puntos de acuerdo al
resultado obtenido hasta que no varíen.
24
Figura 2.2 Ejemplo de árbol generado por COBWEB.
b. Asociación
25
Figura 2.3 Ejemplo de obtención de reglas de Asociación A Priori.
a. Regresión
26
obtenidos predecir el valor más probable para una situación observada. Dentro
de la regresión existen varios entre los cuales podemos mencionar algunos:
y = a + bx
𝑆𝑥𝑦
b=
𝑆𝑥2
a = y – bx
2
𝑆𝑥𝑦
R² = 2 2
𝑆𝑥 𝑆𝑦
200
n de calorias por tercio de litro
180
160
140
120
100
80
60
40
2,4 2,9 3,4 3,9 4,4 4,9 5,4 5,9
Porcentaje de alcohol
27
Regresión lineal múltiple, busca los coeficientes de una ecuación lineal
mediante las siguientes ecuaciones:
𝑛(Ʃxy)(Ʃ𝑥)(Ʃ𝑦)
b1 =
n(Ʃ𝑥²) − (Ʃ𝑥)²
(Ʃy)(Ʃ𝑥 2 ) − (Ʃ𝑥)(Ʃ𝑥𝑦)
b0 =
n(Ʃ𝑥²) − (Ʃ𝑥)²
De donde resulta:
Y=b0 + b1X
Ecuación original:
cambio de variables:
ecuación final:
28
b. Clasificación
Tabla 2.1
Ejemplo de estructura de dato
Attributes
Instances
1 2 …… j …… m
Nota: Tomado de Data Mining and Knowledge Discovery for Process Monitoring and Control.
Wang (1999).
La clasificación consiste en clasificar los datos en grupos que estén lo más cerca
posible y alejado de los otros grupos, mediante patrones que los asocien en
dichos conjuntos. Entre algunos algoritmos podemos mencionar a:
29
Arboles de decisión, entre algunos del algoritmo de árboles de
decisión están:
30
Figura 2.6 Ejemplo de clasificación con ID3.
Sistema C4.5, Molina & García (2006), describe al algoritmo ID3 como
capaz de tratar valores continuos, tendrá tantas como valores posibles
atributos. Por ello, Quinlan propuso el C4.5, como extensión del ID3,
que permite:
31
Figura 2.7 Tipos de operaciones de poda en C4.5.
ṅ p + 𝑘𝑞
p′ =
n+k
|E|
SD = SD(E) − ∑ | SD(Ei)
|E|
i
32
Figura 2.8 Ejemplo de generación de árbol de predicción.
33
entrenamiento para problemas con un valor de clase nominal o el valor
de clase promedio para problemas de predicción numérica. En algunos
conjuntos de datos es posible que otros esquemas de aprendizaje
induzcan a modelos que presentan peores resultados en los 42 nuevos
datos que ZeroR, que es un claro indicador de sobre ejecución grave.
Algoritmo PART, uno de los más importantes dentro del aprendizaje
por reglas de clasificación dado por C4.5. Como las anteriores primero
genera el árbol de decisiones y posteriormente aplica un proceso de
refinamiento en busca de la optimización global. PART 6recibe ese
nombre por su forma de trabajo la obtención de reglas de los árboles
de decisión PARCIAL, fue desarrollado por los mismos que crearon
WEKA.
6
PART obtaining rules from PARTial decision trees
34
la primera que cubra el ejemplo en cuestión. Dicha regla tendrá en su
consecuente la clase a asignar. El resultado obtenido es una lista y no
un conjunto porque luego de obtener cada regla se retira del conjunto
35
que es asignada al conjunto de ejemplos que no cumplen con ninguna
regla. En otras palabras, al utilizar una lista de clasificación, un ejemplo
dado sólo puede ser asignado a una clase. El método PART requiere
de la definición previa de un árbol de clasificación parcialmente
construido. Esto implica que, en cierto punto del proceso, el árbol deja
de construirse y a partir de las ramas que terminan en hoja se decide la
regla que se va a generar. Cuando la construcción se detiene, se agrega
a la lista de reglas la rama con mayor cobertura y se repite el proceso
hasta que la cantidad de ejemplos por cubrir se encuentre por debajo
de un cierto umbral (o se hayan cubierto todos). La expansión del árbol
se realiza en orden comenzando por el subconjunto de menor valor de
entropía, repitiéndose recursivamente hasta que todos los subconjuntos
expandidos sean hojas. Este proceso se puede observar en el Algoritmo
luego que se ha finalizado la construcción del árbol parcial, se
selecciona la rama con mayor cobertura, que finaliza en una hoja.
Después de obtener una regla, los ejemplos correctamente cubiertos
por ella son eliminados de los datos de entrada, y el árbol se descarta.
Este proceso se realiza de forma iterativa hasta lograr llegar hasta la
cobertura deseada.
7
RIDOR por sus siglas en ingles Ripple Down Rule
36
Algoritmo KNN, el método KNN pertenece al grupo de métodos para
tareas de clasificación de datos que se pueden encontrar dentro de
Minería de Datos, estos son fundamentalmente dependientes de la
distancia y en consecuencia poseen características propias; como la
cercanía, la lejanía y la magnitud de longitud, entre otras (Rodriguez,
Rojas, & Franco, 2012). El objetivo de la clasificación es encontrar un
modelo, para predecir la clase a la que pertenecería cada registro, esta
asignación es una clase que se debe hacer con la mayor precisión
posible. Por lo general, el conjunto de datos, se divide en dos conjuntos
al azar, uno para entrenamiento y el otro de prueba, Un conjunto de
prueba (tabla de testing) se utiliza para determinar la precisión del
modelo.
37
tuplas que aporten la información y sea más influyentes sobre el tema a tratar.
Existen varios métodos para la selección de este subconjunto de atributos. Entre
algunos de ellos se pueden citar:
El objetivo del pre procesado es adecuar los datos para que la aplicación a los
algoritmos de minería sea óptima. Para esto hay que filtrar, eliminar datos
incorrectos, no válidos, crear nuevos valores y categorías para los atributos e
intentar completar o descartar los valores desconocidos e incompletos (García,
2005).
38
2.2.4.3. Extracción del Conocimiento
39
Análisis de las canastas de mercado para mejorar la organización de
tiendas, segmentación de mercado (Clustering). A través de modelos de
datos más precisos, las compañías detallistas pueden ofrecer campañas
más enfocadas y encontrar la oferta que tenga el mayor impacto en el
cliente.
Educación, la Minería de Datos ayuda a los educadores a acceder a datos
de los estudiantes, a predecir niveles de logro y a detectar estudiantes o
grupos de estudiantes que necesitan atención extra.
Comunicaciones, las compañías de multimedia y telecomunicaciones
pueden utilizar modelos analíticos para entender montañas de datos de
clientes, ayudándoles así a predecir el comportamiento de sus clientes y
ofrecer campañas altamente dirigidas y relevantes.
Detección de fraudes y comportamientos inusuales: telefónicos, seguros,
tarjetas de crédito, evasión fiscal, electricidad.
Determinación de niveles de audiencia de programas de televisión.
CONCEPTOS BÁSICOS
Dato
Dato es una descripción numérica o verbal sobre algo que no fue analizada o
resumida, que pueden ser presentados en diversas formas como ser patrones o
letras y son almacenados en una memoria electrónica o en hechos en la mente
de una persona (Ferrel, Geoffey, & Ferrel, 2009).
Los datos son la materia prima con se cuenta ya sea en forma digital o tradicional,
que después de será analizada, tratada tomara sentido y servirá para la
generación de conocimiento.
40
Información
Conocimiento
41
Entonces el conocimiento es el proceso en el cual un individuo relaciona sus
experiencias con la información que este tiene sobre algo y lo guarda en su mente
o en un texto escrito, es así que el conocimiento dependiendo del individuo será
personal y cambiante a su realidad.
MÉTODO CIENTÍFICO
42
La investigación puede cumplir dos propósitos fundamentales: a) producir
conocimiento y teorías (investigación básica) y b) resolver problemas prácticos
(investigación aplicada). Gracias a estos dos tipos de investigación la humanidad
ha evolucionado. La investigación es la herramienta para conocer lo que nos
rodea y su carácter es universal. Como señala uno de los científicos de nuestros
tiempos, Carl Sagan (1998).
43
Definición de la investigación, se define el tipo de investigación más
apropiada para el desarrollo del tema, en el que se describe que tipo de
investigación entre las cuales se tienen los tipos de investigación:
Estudio exploratorio
o Es la base de una nueva investigación
o Parte desde cero
o No hay referencias en ninguna fuente
o El tema generalmente no ha sido tocando antes
Estudio descriptivo
o Buscan especificar las características
o Describir es medir
o Miden el fenómeno en cualquier dimensión
o Pueden medir con especificidad cada parte por separado de la
investigación
Estudio correlacional
o Se encargan de relacionar dos o más variables dentro de un mismo
contexto
o Evalúan el grado de relación entre las variables
Estudio explicativo
o Están destinados a responder las causas de los eventos físicos y
sociales
o Explican los fenómenos
Establecimiento de hipótesis, Es la suposición de algo posible o imposible
para sacar de ello una consecuencia, la hipótesis de investigación se clasifica
en:
Descriptiva, del valor de variables a observar
Correlacionales
De las diferencias de grupos
Causales,
Estadística de estimación
44
Estadística de correlación
Estadísticas de la diferencia de grupos
Selección de la muestra, se fijan una muestra y procedimiento de selección,
para poder definir los objetos que van a ser medidos.
La fijación del universo
Determinar cuál ha de ser la unidad de muestra
Determinar el tamaño de la muestra
Determinar el método a seguir para selección de los elementos que han
de integrar la muestra
Recolección de los datos los datos a recolectar se enmarcan de acuerdo al
contexto de la investigación.
Elaborar el instrumento de medición y administrarlo
Calcular la validez y confiabilidad del instrumento de medición
Análisis de los datos, la definición de las técnicas para el análisis de los
datos recolectados, dependen de la hipótesis formulada y los niveles de
medición de otras variables.
Selecciona pruebas estadísticas
Elaborar el problema de análisis
Elaborar del reporte final
Elaborar el reporte de investigación
Presentar el reporte de investigación
METODOLOGÍA CRISP-DM
45
Según un estudio publicado por Nuggets en agosto del 2007, CRISP-DM se ha
convertido en la metodología más utilizada por las personas a la hora de afrontar
procesos de Minería de Datos.
46
Figura 2.12 Niveles de la metodología CRISP-DM.
El primer nivel superior organiza a su vez en fases, estas cada una con
tareas específicas.
En el segundo genérico descrito así porque busca cubrir todas las
situaciones posibles de la Minería de Datos. Estas tareas tienes que ser
lo más completas y estables posibles. “Estable significa que el modelo
debe ser válido para desarrollos aún imprevistos como las nuevas técnicas
de modelado” (CRIS-DM, 2015).
En el tercer nivel están las tareas especializadas y tareas específicas.
En el cuarto nivel esta la instancia del proyecto en sí.
47
Figura 2.13 Fases del modelo referencial CRISP-DM.
La sucesión de las fases no es necesariamente tiene que ser rígida, las tareas
generales como especificas se deben adecuar y desarrollar para cada situación
específica que se encuentre.
48
resolver, esto permitirá recolectar los datos correctos e interpretar correctamente
los resultados.
49
proceso de MD, o de tipo cuantitativo, por ejemplo, el número de
detecciones de fraude o la respuesta de clientes ante una campaña
publicitaria.
Evaluación de la situación, en esta tarea se debe calificar el estado de la
situación antes de iniciar el proceso de MD, considerando aspectos tales
como: ¿cuál es el conocimiento previo disponible acerca del problema?,
¿se cuenta con la cantidad de datos requerida para resolver el problema?,
¿cuál es la relación coste beneficio de la aplicación de Minería de Datos?,
etc. En esta fase se definen los requisitos del problema, tanto en términos
de negocio como en términos de Minería de Datos.
Determinación de los objetivos de Minería de Datos, esta tarea tiene como
objetivo representar los objetivos del negocio en términos de las metas del
proyecto de MD, por ejemplo, si el objetivo del negocio es el desarrollo de
una campaña publicitaria para incrementar la asignación de créditos
hipotecarios, determinar el perfil de los clientes respecto de su capacidad
de endeudamiento.
Desarrollar un plan para el proyecto, que describa los pasos a seguir y las
técnicas a emplear en cada paso.
50
consultas y probablemente modificaciones, lo cual podría generar muchos
problemas.
51
Exploración de datos, se procede a su exploración, cuyo fin es encontrar
una estructura general para los datos. Esto involucra la aplicación de
pruebas estadísticas básicas, que revelen propiedades en los datos recién
adquiridos, se crean tablas de frecuencia y se construyen gráficos de
distribución. La salida de esta tarea es un informe de exploración de los
datos.
Verificación de la calidad de los datos, en esta tarea, se efectúan
verificaciones sobre los datos, para determinar la consistencia de los
valores individuales de los campos, la cantidad y distribución de los
valores nulos, y para encontrar valores fuera de rango, los cuales pueden
constituirse en ruido para el proceso. La idea en este punto, es asegurar
la completitud y corrección de los datos.
52
corrección de los datos y limitaciones en el volumen o en los tipos de datos
que están relacionadas con las técnicas de MD seleccionadas.
Limpieza de los datos, esta tarea complementa a la anterior, y es una de
las que más tiempo y esfuerzo consume, debido a la diversidad de
técnicas que pueden aplicarse para optimizar la calidad de los datos a
objeto de prepararlos para la fase de modelación. Algunas de las técnicas
a utilizar para este propósito son: normalización de los datos,
discretización de campos numéricos, tratamiento de valores ausentes,
reducción del volumen de datos, etc.
Estructuración de los datos, esta tarea incluye las operaciones de
preparación de los datos tales como la generación de nuevos atributos a
partir de atributos ya existentes, integración de nuevos registros o
transformación de valores para atributos existentes.
Integración de los datos, esta tarea involucra la creación de nuevas
estructuras, a partir de los datos seleccionados, por ejemplo, generación
de nuevos campos a partir de otros existentes, creación de nuevos
registros, fusión de tablas campos o nuevas tablas donde se resumen
características de múltiples registros o de otros campos en nuevas tablas
de resumen.
Formateo de los datos, esta tarea consiste principalmente, en la
realización de transformaciones sintácticas de los datos sin modificar su
significado, esto, con la idea de permitir o facilitar el empleo de alguna
técnica de MD en particular, como por ejemplo la reordenación de los
campos y/o registros de la tabla o el ajuste de los valores de los campos
a las limitaciones de las herramientas de modelación (eliminar comas,
tabuladores, caracteres especiales, máximos y mínimos para las cadenas
de caracteres, etc.).
53
Figura 2.16 Fase de preparación de los datos.
Fase de modelado
54
Después de concluir estas tareas genéricas, se procede a la generación y
evaluación del modelo.
55
problema es de predicción, análisis de regresión, redes neuronales; o si el
problema es de segmentación, redes neuronales, técnicas de
visualización, etc.
Generación del plan de prueba, una vez construido un modelo, se debe
generar un procedimiento destinado a probar la calidad y validez del
mismo. Por ejemplo, en una tarea supervisada de MD como la
clasificación, es común usar la razón de error como medida de la calidad.
Entonces, típicamente se separan los datos en dos conjuntos, uno de
entrenamiento y otro de prueba, para luego construir el modelo basado en
el conjunto de entrenamiento y medir la calidad del modelo generado con
el conjunto de prueba.
Construcción del Modelo, después de seleccionada la técnica, se ejecuta
sobre los datos previamente preparados para generar uno o más modelos.
Todas las técnicas de modelado tienen un conjunto de parámetros que
determinan las características del modelo a generar. La selección de los
mejores parámetros es un proceso iterativo y se basa exclusivamente en
los resultados generados. Estos deben ser interpretados y su rendimiento
justificado.
Evaluación del modelo, en esta tarea, los ingenieros de MD interpretan los
modelos de acuerdo al conocimiento preexistente del dominio y los
criterios de éxito preestablecidos. Expertos en el dominio del problema
juzgan los modelos dentro del contexto del dominio y expertos en Minería
de Datos aplican sus propios criterios (seguridad del conjunto de prueba,
perdida o ganancia de tablas, etc…).
Fase de evaluación
56
realizó el análisis. Los modelos de MD, necesariamente están relacionados con
los objetivos originales y todos los demás hallazgos.
Después de evaluar los modelos con respecto a los criterios de éxito empresarial,
los modelos generados que cumplen los criterios seleccionados se convierten en
modelos aprobados.
Tabla 2.2
Tabla de matriz de confusión para un clasificador de dos clases.
Clasificador
Negativos Positivos
Negativos
Negativos Falsos Positivos
Reales
Valores Reales
Las tareas involucradas en esta fase del proceso son las siguientes:
57
relacionados con el objetivo del proyecto, ¿es aconsejable evaluar el
modelo en relación a otros objetivos distintos a los originales?, esto podría
revelar información adicional.
Proceso de revisión, se refiere a calificar al proceso entero de MD, a
objeto de identificar elementos que pudieran ser mejorados.
Determinación de futuras fases, si se ha determinado que las fases hasta
este momento han generado resultados satisfactorios, podría pasarse a
la fase siguiente, en caso contrario podría decidirse por otra iteración
desde la fase de preparación de datos o de modelación con otros
parámetros. Podría ser incluso que en esta fase se decida partir desde
cero con un nuevo proyecto de MD.
58
Fase de implementación
59
Informe Final, es la conclusión del proyecto de MD realizado. Dependiendo
del plan de implementación, este informe puede ser sólo un resumen de
los puntos importantes del proyecto y la experiencia lograda o puede ser
una presentación final que incluya y explique los resultados logrados con
el proyecto.
Revisión del proyecto, en este punto se evalúa qué fue lo correcto y qué
lo incorrecto, qué es lo que se hizo bien y qué es lo que se requiere
mejorar.
Zabala (2002) citado por Hidalgo (2014), menciona que la ingeniería del software
es la rama de la ingeniería que aplica los principios de la ciencia de la
computación y las matemáticas para lograr soluciones costo – efectivas (eficaces
8
IEEE, Abreviación del Ingles “Institute of Electrical and Electronic Engineers”.
60
en costo o económicas) a los problemas relacionados con el desarrollo del
software.
61
RUP9 permite a todos los integrantes de un equipo de trabajo, conozcan y
compartan el proceso de desarrollo, una base de conocimientos y los distintos
modelos de cómo desarrollar el software, utilizado un Lenguaje Unificado de
Modelado (UML), se constituye la metodología más utilizada para el análisis,
implementación y documentación de sistemas orientados a objetos.
Fase de inicio, durante esta fase de inicio las iteraciones se centran con
mayor énfasis en las actividades de modelado de la empresa y en sus
requerimientos
Fase de elaboración, durante esta fase de elaboración, las iteraciones se
centran en el desarrollo de la base del diseño, encierran los flujos de
trabajo de requerimientos, modelo de la organización, análisis, diseño y
una parte de implementación orientada a la base de la construcción
Fase de construcción, durante esta fase de construcción, se lleva a cabo
la construcción del producto por medio de una serie de iteraciones las
cuales seleccionan algunos casos de uso, referidas a su análisis y diseño
además se procede a su implementación y pruebas. En esta fase se
realiza una pequeña cascada para cada ciclo, se realizan tantas
iteraciones hasta que se termine la nueva implementación del producto.
9
RUP, por sus siglas en inglés Rational Unified Process.
62
Fase de transición, esta fase de transición busca garantizar que se tiene
un producto preparado para su entrega al usuario.
63
Diagrama de secuencias, el diagrama muestra la mecánica de la
interacción con base en tiempos, donde las clases y los objetos
representan la información.
Diagrama de actividades, el diagrama de actividades muestra la
naturaleza dinámica de un sistema mediante el modelado de flujo
ocurrente de actividad en actividad. Una actividad representa una
operación en alguna clase del sistema que es resultante del cambio en el
estado del sistema.
Diagrama de colaboraciones, el diagrama de colaboraciones describe
las interacciones entre los objetos en términos de mensajes secuenciados.
Son una representación entre el diagramad de clases, de secuencias y
casos de uso.
Diagrama de componentes, el diagrama de componentes muestra al
individuo con sus respectivas dependencias entre ellos.
Diagrama de distribuciones, el diagrama de distribuciones muestra la
arquitectura física de un sistema de informático. Puede representar los
equipos y dispositivos, mostrar sus interconexiones y el software que se
encontrara en cada máquina.
Diagrama de despliegue, es un diagrama utilizado para modelar la
disposición física de los dispositivos de software en nodos. Algunos de
estos diagramas muestran el despliegue de modelados de sistemas
empotrados, sistemas cliente-servidor y sistemas completamente
distribuidos.
HERRAMIENTAS
64
desarrollo del software, que con frecuencia se denomina ingeniería del software
asistida por computadora (Pressman, 2010).
Minería de Datos
Sistema operativo
65
experiencias de usuario y funcionalidad entre diferentes tipos de
dispositivos.
Base de datos
Lenguaje de programación
Herramienta IDE
66
integrales para el desarrollo de aplicaciones, las constantes mejoras en
el editor de Java y el perfeccionamiento del rendimiento y la velocidad.
Herramientas case
Según la CRES 10(2008) citado por Lupín y sus colegas (2013), “la educación
superior es un bien público social, un derecho humano y universal y un deber del
Estado”. Conclusión que llegaron alrededor de 3.500 países integrantes de la
Conferencia Regional de Educación Superior en América Latina y el Caribe.
Deserción Universitaria
10
CRES siglas de Conferencia Regional de Educación Superior para América Latina y el Caribe
67
perspectivas y diferentes tipos de abandono, ya sean por el comportamiento
individual, metas individuales, institucionales y estatales. Que la deserción es un
fenómeno muy complejo y que el investigador o funcionario debe elegir
cuidadosamente aquella definición que más se adecue sus interés y metas.
(Tinto, 1989).
Según RAICES citados por Romero (2016), cita que la deserción es un sinónimo
de abandono, de mortalidad escolar el cual define como la suspensión,
repetición, cambio de carrera o abandono antes de obtener el título.
“La deserción afecta a todos los niveles educativos, ya sean estos de educación
primaria, secundaria y universitaria, por lo que se puede observar la insuficiente
capacidad de retención de niños, adolescentes y adultos” (Romero, 2016)
68
institución, y la no voluntaria por una decisión institucional que obligaría al retiro
del alumno, fundamentada en los reglamentos universitarios (Himmel, 2002).
Dentro de los estudiantes que desertan se los puede clasificar en tres grupos, los
que tienen metas más amplias, metas educativas restringidas y estudiantes que
trabajan (Tinto, 1989).
Índices de deserción
69
total de estudiantes del ano de ingreso (Rodriguez, Espinoza, Ramirez, & Ganga,
2018).
Aspectos Académicos
70
reglamento específico, cumpliendo con el plan de estudios
correspondiente.
MÉTRICA DE CALIDAD
Para este propósito existen diferentes métricas o nomas entre las que están las
los Factores de Calidad McCall, Modelo de FURPS (Funcionality, Usability,
Reliability, Performance y Supportability), Normas ISO 9126, MOSCA (Modelo
Sistémico de Calidad) y la QSOS (Qualification and Selection of Open Source
software) entre otras.
ISO/IEC 9126
71
Funcionalidad, La funcionalidad es la capacidad que tiene el software de
cumplir y proveer las funciones para satisfacer las necesidades explícitas
e implícitas de una organización. Los atributos que toma en cuanta son
adecuación, exactitud, interoperabilidad, seguridad y conformidad
Tabla 2.3
Condiciones especificadas
Característica Ponderación
Donde:
72
Usabilidad, Es la capacidad del software de ser usado con facilidad de
forma atractiva. La usabilidad está determinada por los usuarios finales y
los usuarios indirectos del software, dirigidos a todos los ambientes, a la
preparación del uso y el resultado obtenido. Los parámetros que toma en
cuenta son la facilidad de comprensión, facilidad de aprendizaje y
operatividad.
Eficiencia, La eficiencia del software se refiere a la forma del desempeño
adecuado según al número de recursos utilizados y las condiciones
planteadas, asimismo se debe tomar en cuenta los aspectos como la
configuración de hardware, el sistema operativo, entre otros. Toma en
cuenta el comportamiento de tiempos, utilización de recurso, conformidad
de recursos y conformidad de eficiencia.
Su fórmula es:
Donde:
Donde:
73
Fc = número de módulos en la versión actual que han cambiado.
Portabilidad = 1 – (ndpm/ndim)
Donde:
EVALUACIÓN DE COSTOS
Por otra parte, también deben ser analizados los costos de desarrollo de software
ya que esto es muy importante a la hora de selección del software. Del Valle
(2014), menciona que el análisis de los costos es el proceso de identificar la
calidad y cantidad de los recursos en términos económicos, esfuerzo, capacidad,
conocimiento y tiempos que afectaran directamente a la entidad donde se aplicar
dicho software. Para este fin existen diferentes herramientas de estimación de
costos entre los cuales están COCOMO, CoCots, CoStar, CostModeler, SoftCost,
entre otras más.
74
COCOMO II
Estos y otros cambios hicieron que la aplicación del modelo COCOMO original
empezara a resultar problemática. La solución al problema era reinventar el
modelo para aplicarlo a los 90. Después de muchos años de esfuerzo combinado
entre USC-CSE1, IRUS y UC Irvine22 y las Organizaciones Afiliadas al Proyecto
COCOMO II, el resultado es COCOMO II, un modelo de estimación de coste que
refleja los cambios en la práctica de desarrollo de software profesional que ha
surgido a partir de los años70. Este nuevo y mejorado COCOMO resultará de
gran ayuda para los estimadores profesionales de coste software.
11
COCOMO, por su significado en inglés COnstructive COst MOdel
75
Orgánico, proyectos de software pequeños y sencillos, menores de 50 KDLC
líneas de código, en los cuales se tiene experiencia de proyectos similares y
se encuentran en entornos estables.
Semi – acoplado, proyectos intermedios en complejidad y tamaño (menores
de 300 KDLC), donde la experiencia en este tipo de proyectos es variable y
las restricciones intermedias.
Empotrado, proyectos bastante complejos, en los que apenas se
tiene experiencia y se engloban en un entorno de gran innovación técnica.
Además, se trabaja con unos requisitos muy restrictivos y de gran volatilidad.
Dónde:
76
Estimación del tiempo de desarrollo
T = c * (E)d (meses)
Dónde:
P = E/T (personas)
Dónde:
o P es el número de personas.
o E es el esfuerzo estimado.
o T es el tiempo de duración del desarrollo.
Estimación de productividad
PR = LDC/E (LDC/persona-mes)
Dónde:
77
Tabla 2.4
Tabla de estimación de esfuerzo
MODO A b c d
78
defectos en el producto. Va desde la sola inconveniencia de
corregir un fallo (muy bajo) hasta la posible pérdida de vidas
humanas (extremadamente alto, software de alta criticidad).
o DATA: tamaño de la base de datos en relación con el tamaño del
programa. El valor del modificador se define por la relación: D / K,
donde D corresponde al tamaño de la base de datos en bytes y K
es el tamaño del programa en cantidad de líneas de código.
o CPLX: representa la complejidad del producto.
Atributos del hardware
o TIME: limitaciones en el porcentaje del uso de la CPU.
o STOR: limitaciones en el porcentaje del uso de la memoria.
o VIRT: volatilidad de la máquina virtual.
o TURN: tiempo de respuesta requerido
Atributos del personal involucrado en el proyecto
o ACAP: calificación de los analistas.
o AEXP: experiencia del personal en aplicaciones similares.
o PCAP: calificación de los programadores.
o VEXP: experiencia del personal en la máquina virtual.
o LEXP: experiencia en el lenguaje de programación a usar.
Atributos propios del proyecto
o MODP: uso de prácticas modernas de programación.
o TOOL: uso de herramientas de desarrollo de software.
o SCED: limitaciones en el cumplimiento de la planificación.
79
CAPITULO III
3. MARCO APLICATIVO
El presente capitulo tiene como propósito el
poner en práctica lo mencionado en los
capítulos anteriores, se analiza y se
desarrolla el modelo de predicción en base a
Minería de Datos, de manera que satisfaga
las necesidades en el análisis de los índices
de deserción de los alumnos de la
Universidad Pública de El Alto.
INTRODUCCIÓN
80
respecto al índices de deserción universitaria considerados estos puntos en el
capítulo uno.
Una vez determinado el marco teórico, se recolectó los datos del Sistema de
Información y Estadística de la U.P.E.A., que hace referencia a la población
universitaria como objeto de estudio de la presente investigación, de manera
estratificada y parametrizada, dando lugar al procesamiento de los datos
mediante el modelo de índices de deserción de alumnos en base a Minería de
Datos en el capítulo tres.
METODOLOGÍA DE LA INVESTIGACIÓN
Tipo investigación
81
En la presente investigación es de tipo correlacional ya que se desea saber la
relación entre el modelo de predicción y los índices de deserción, ya que
investigación correlacional busca identificar probables relaciones entre variables
medibles, buscando saber cómo se puede comportar un concepto o variable
conociendo el comportamiento de la otra variable.
Método investigación
Enfoque de investigación
Según Hernández utiliza la recolección de datos para probar la hipótesis con base
en la medición numérica y el análisis estadístico, con el fin de establecer pautas
de comportamiento y probar teorías.
Muestreo
82
2020. Estos datos históricos son pertenecientes a las gestiones 2016 hasta el
momento de la solicitud en dicha unidad.
La muestra del universo o población del cual se recolectan los datos y que debe
ser representativo de ésta, será determinada mediante la ecuación citado por
Hernández.
COMPRENSIÓN DE PROBLEMA
83
Recolección de datos
12
MAE, del Sistema denominado Matriculacion Academica Estudiantil
84
La base de datos obtenidos sobre el formulario 01, se obtuvieron en formato hoja
de cálculo de Excel.
Datos Académicos
85
Datos Personales
o Departamento
o Provincia
o Ciudad
o Distrito
86
o Zona
o Calle
o Numero
Datos de Egreso de Secundaria
o Universidad
o Año de título de bachiller
o Nro. De título de bachiller
Datos Socio-Económicos
87
o Característica vivienda, puede ser vivienda, casa, departamento
u otro.
o Trabaja, SI en caso de que el alumno trabaje o NO en caso de
no trabajar.
o Jornada laboral, especificar el tipo de jornada laboral que
desempeña puedes ser tiempo completo, medio tiempo, tiempo
horario u otro.
Numero de hermanos que estudia en la universidad, el alumno
debe indicar la cantidad numérica de hermanos que estudian en la
universidad sin importar la carrera.
En base a los datos obtenidos se debe realizar una preparación de los datos para
poder analizarlos con las herramientas de Minería de Datos.
Tabla 3.1
Tabla sobre información de los alumnos.
CAMPO MUESTRA
id_tipo_vivienda 9
id_caracteristica_vivienda 8
id_estudiante 29****
Ci 68*****
Expedido LP
tipo_documento CI
Nombre IVAN RODRIGO
Paterno HIDALGO
Materno MAMANI
fecha_nac 05/03/1989
Genero M
Nacionalidad BOLIVIA
Colegio San Simón de Ayacucho
anio_ingreso_estudiante 2009
Área Urbano
registro_universitario 90*****
id_carrera_sede 1
Carrera INGENIERÍA DE SISTEMAS
88
numero_matricula 201604544
fecha_matriculacion 22/02/2016
Gestión 2016
carrera_id 1
area_id 1
id_sede 1
sede VILLA ESPERANZA
direccion_departamento LA PAZ
direccion_ciudad_localidad EL ALTO
tipo_colegio PUBLICO
nombre_modalidad PRUEBA DE SUFICIENCIA ACADÉMICA
anio_ingreso_estudiante 2009
periodo_gestion 2016
anio_egreso_colegio 2007
area Urbano
numero_hermano_upea 1
trabaja SI
tipo_jornada_laboral tiempo completo
colegio San Simón de Ayacucho
tipo_colegio PUBLICO
localidad_colegio La Paz
id_pais_colegio 1
id_universidad 0
numero_titulo_bachiller 24633
anio_titulo_bachiller 2013
fecha_registro_estudiante 22/02/2016
nombre_caracteristica_vivienda Casa
nombre_vivienda Propia de padres
Nota. Elaboración propia
89
Figura 3.3 Base de datos en PostgreSQL.
Selección de datos
Tabla 3.2
Selección de campos.
CAMPO MUESTRA
Registro Universitario 316
Modalidad Ingreso PRUEBA DE SUFICIENCIA ACADÉMICA
Anio_Ingreso 2016
Genero M
Nacionalidad BOLIVIA
Tipo Colegio PUBLICO
Área Colegio Urbano
Tipo Vivienda Casa
Característica Vivienda Alquilada
Trabaja NO
Jornada Laboral No Trabaja
Hermanos 0
Nota. Elaboración propia.
90
Limpieza de datos
Tabla 3.3
Normalización de datos
CAMPO MUESTRA
Registro_Universitario 9001277
Gestión 2016
Modalidad_Ingreso CURSO PRE-UNIVERSITARIO
Anio_Ingreso 2010
Genero F
Nacionalidad BOLIVIA
Tipo_Colegio PUBLICO
Area_Colegio Urbano
Tipo_Vivienda Casa
Caracteristica_Vivienda Propia de padres
Trabaja TIEMPO COMPLETO
Hermanos 1
Índice de permanencia Desercion_Leve
Nota. Elaboración propia.
Transformación y estructuración
13
arff, acrónimo de Attribute-Relation File Format.
91
Figura 3.4 Ejemplo de archivo arff.
Este formato está compuesto por una estructura claramente diferenciada en tres
partes, la cabecera, declaraciones de atributos y sección de datos.
92
MODELADO
Técnicas de modelado
Los valores de entrada pueden ser discretos o continuos y en los primeros son
simples. Un árbol de decisión suele tener un nodo interno, un nodo de
probabilidad, un nodo hoja y las ramas que brindan las posibles rutas respecto a
as decisión que se toma.
93
Los algoritmos basados en Reglas, son una alternativa popular de los árboles de decisión. El antecedente o predicción
de una regla es una serie de pruebas como las que se hacen en el nodo en árboles de decisión. El consecuente o
conclusión da la clase o clases que aplica a instancias cubiertas por esa regla o tal vez da una probabilidad de
distribución acerca de las clases.
94
Pruebas en diferentes algoritmos
95
Figura 3.9 Clasificación mediante algoritmo J48
96
Figura 3.10 Árbol completo generado por WEKA
97
Figura3.12
Figura 3.11Clasificación
parte del árbol generado
mediante por WEKA
algoritmo PART
Fuente:
Fuente:Elaboracion
Elaboracionpropia
propia
98
Figura 3.13 Clasificación mediante algoritmo ZeroR
99
Figura 3.14 Algoritmo Multiperceptron
100
Figura 3.15 Modalidad ingreso y tipo de colegio
101
EVALUACIÓN
Tabla 3.4
Resumen de algoritmo RandomTree
102
Tabla 3.5
Matriz de confusión de RandomTree
a b C clasificación
b=DESERCION
2038 22883 203
LEVE
Tabla 3.6
Resumen de algoritmo PART
Number of Rules 6
Incorrectly 7
103
Tabla 3.7
Matriz de confusión PART
a b c clasificación
13 1 0 a=NO DESERCION
b=DESERCION
3 16 3
LEVE
0 0 17 c=DESERCION
Tabla 3.8
Comparación de resultados de algoritmos
INSTANCIAS INSTANCIAS
ERROR
CLASIFICADA MAL ESTADISTIC
ALGORITMO ABSOLUT
S CLASIFICADA A KAPA
O
CORRECTAS S
MULTILAYER
92,45% 7,54% 0,8852 17,59%
PERCEPTRON
104
DESARROLLO DEL MODELADO EN BASE A RUP
105
Figura 3.16 Modelo de casos de uso
Tabla 3.10
Descripción de caso de uso PREDESMIN
Uso del módulo PREDESMIN
Caso de Uso
Diferentes usuarios
Actores
Selecciona archivo
Selecciona algoritmo
106
Figura 3.17 caso de uso minería de datos
Modelo conceptual
107
Modelo de presentación
108
Figura 3.21 Modelo de presentación, seleccionar algoritmo
ARQUITECTURA
Tabla 3.11
Especificaciones de Hardware
Especificaciones de Hardware
Velocidad 2.1Ghz.
109
Tabla 3.12
Especificaciones de Software
Especificaciones de Software
Lectura
Para la lectura optima del archivo, este debe tener un formato con
extensión “arff”, el cual será el archivo de lectura.
Cargar archivo
110
Selección de algoritmo
El modelo cuenta con algoritmos de Minería de Datos, de los cuales uno
debe ser seleccionado para la aplicación en los datos cargados
previamente.
Visualización de resultados
El modelo PREDESMIN, nos muestra los resultados a los que arriba, luego
de haber sido sometido a los algoritmos que la Minería de Datos nos
provee el prototipo.
111
Creación del formulario principal
Implementación de algoritmos
//algoritmo ZeroR
resultado = "\n";
try {
zeror.buildClassifier(coleccion);
112
} catch (Exception exception) {
resultado = exception.toString();
mostrarMsj();
return resultado;
//algoritmo Part
resultado = "\n";
try {
part.buildClassifier(coleccion);
resultado = exception.toString();
mostrarMsj();
return resultado;
113
Compilación
Resultados
114
Los resultados mostrados por el algoritmo de Minería de Datos son los
que muestran un mayor porcentaje de instancias clasificadas correctamente en
contraposición de aquellas mal clasificadas tienden a 0%, el índice Kapa tiene el
valor de 1, que indica la concordancia perfecta, asimismo podemos ver que el
error absoluto relativo es relativamente bajo. Por otra parte, la matriz de confusión
resultante muestra una correcta clasificación entre atributos de los factores de
índices de deserción.
MÉTRICA DE CALIDAD
Funcionalidad
Tabla 3.13
Ponderación de la funcionalidad
Característica Ponderación
Adecuación 90%
Exactitud 90%
Conformidad 90%
Promedio 90%
Por tanto, se deduce que el prototipo tiene una funcionalidad del 90%.
115
Confiabilidad
Confiabilidad = 99 %
Usabilidad
Tabla 3.14
Ponderación de métricas internas usabilidad
Característica Métrica interna Puntaje
90
Interfaz de usuario I1: Interfaz de datos amigable
amigable
90
I2: Interfaz de gráficos amigable
85
C1: Comprensión de datos
Comprensión
90
C2: Comprensión de gráficos
95
O1: Correcta operacionalidad de la interfaz
116
Tabla 3.15
Totales de métricas internas usabilidad
Métrica Puntaje promedio
Operatividad (O) 95
Usabilidad = Ʃ(xi/n)
Usabilidad = 360.8/4
Usabilidad = 90%
Eficiencia
Tabla 3.16
Evaluación de desempeño
Característica de desempeño Ponderación
Rapidez de inicio 4
Rapidez de proceso 5
Fluidez 5
Disponibilidad 4
117
En base a los datos de la anterior tabla se podría llegar a tener una idea
de la eficiencia, para ello se utilizó la siguiente formula:
Eficiencia = 92%
Mantenibilidad
Donde:
Entonces:
Mt = 1; Fc = 1; Fa = 0; Fd = 0
Mantenibilidad = (3 – (0+0+0))/3
Mantenibilidad = 1
Mantenibilidad = 100%
118
Portabilidad
Portabilidad = 1 – (ndpm/ndim)
Donde:
Portabilidad = 1 – (1/6)
Portabilidad = 0.83*100
Portabilidad = 83%
Resultados
Tabla 3.17
Análisis global de calidad
N° Característica Resultado
1 Funcionabilidad 90%
2 Confiabilidad 99%
3 Usabilidad 90%
4 Eficiencia 92%
5 Mantenibilidad 100%
6 Portabilidad 80%
119
Según Pressman dice que el resultado de la evaluación de una métrica o modelo
si supera el 65% es aceptado. Por lo que el 91% encontrado en la medición es
aceptable para el modelo.
EVALUACIÓN DE COSTOS
Con ayuda de COCOMO II, en este punto se estima el costo de producción del
software desarrollado.
Puntos de función
Tabla 3.18
Puntos de función no ajustado.
Factor de
Tipo de Parámetros Cantidad Total
ponderación
Entrada 3 5 15
Salida 3 6 18
Archivos 3 5 15
Consultas 3 6 18
Interfaces 3 5 15
120
Según el estimado de interfaces de la tabla anterior, se procede a clasificarlos
según su complejidad y luego multiplicar por los pesos establecidos de acuerdo
a COCOMO II, para estimar los puntos función ajustados.
Tabla 3.19
Ponderación de ajuste ce complejidad
Nº de Factor Factor Valor 0 - 5
1 Mecanismo de recuperación 3
2 Comunicación de datos 5
3 Rendimiento 5
6 Factibilidad operativa 4
7 Actualización en línea 1
8 Interfaces complejas 3
10 Reusabilidad de código 4
11 Fácil instalación 5
12 Instalaciones múltiples 3
13 Facilidad de cambios 3
∑ Fi 44
Fuente: Elaboración propia.
121
Con el promedio encontrado, se reemplaza los datos e la fórmula de punto de
función ajustado.
PFA = 88.29
Aplicación de COCOMO II
Para poder calcular las líneas de código, utilizamos el valor del punto de función
ajustado, de igual forma utilizaremos el valor de Factor de línea de código del
lenguaje de programación utilizada para el desarrollo.
Tabla 3.20
Factor LCD/PF de lenguaje de programación.
C 2.5 128
ANSI/basic 5 64
Java 6 53
PL/I 4 80
Visual Basic 7 46
ASP 9 36
PHP 11 29
122
Reemplazamos los datos en la fórmula para calcular las líneas de código:
LDC= 88.29 * 53
LDC= 4679.37
KLDC = 4679.37/1000
KLDC = 4.67
E = a*(KLCD)b
El esfuerzo se estima:
E = 2.40*(4.67)1.05
E = 12.10 (personas/mes)
T = c * (E)d
123
Donde c y de son constantes que de acuerdo al modo orgánico establecido por
COCOMO estos valores son 2.50 y 0.38 respectivamente.
T = 2.5 * (12)0.38
T = 6.42 (meses)
Estimación de la productividad
PR = LDC/E
PR = 4679/12
PR = 389.91 (LDC/persona-mes)
P = E/T
P = 12.10 / 6.42
P = 1.88 (personas)
Estos resultados indican que se requiere dos personas trabajando por unos seis
meses, desarrollando 390 líneas de código en todo este periodo.
124
CT = 3000 * (P * T)
CT = 3000 * (2 * 6)
Por lo que se concluye que el costo estimado del prototipo es de 36000 Bs., un
tiempo de 6 meses y 2 personas trabajando en el mismo.
Tabla 3.21
Costo de elaboración del prototipo
Detalle Importe
Otros 50 Bs.
Total 1.168 Bs
125
Costo total
Para el cálculo del costo total se tomó en cuenta el costo del software
calculado anteriormente y el costo de elaboración.
Tabla 3.22
Costo total del prototipo
Detalle Importe
126
CAPITULO IV
4. PRUEBAS Y RESULTADOS
En este capítulo se describe las pruebas
realizadas al prototipo del modelo
PREDESMIN, los resultados obtenidos con
los diferentes ensayos, para la prueba de la
hipótesis, que es fundamental para el
presente trabajo de investigación.
PRUEBAS AL MODELO
Tabla 4.1
Fragmento de los datos para la predicción
medio
M NACIONAL PUBLICO urbano Habitación Alquilada SI 0 ?
tiempo
tiempo
M PUBLICO urbano Departamento Alquilada SI 1 ?
NACIONAL horario
medio
F PUBLICO urbano Departamento Alquilada SI 0 ?
NACIONAL tiempo
M PUBLICO rural Otro Alquilada NO 1 ?
NACIONAL
M PUBLICO urbano Casa Alquilada NO 0 ?
NACIONAL
tiempo
M PUBLICO urbano Casa Alquilada SI 0 ?
NACIONAL horario
M PUBLICO urbano Habitación Prestada NO 0 ?
NACIONAL
M PUBLICO urbano Casa Adjudicada NO 0 ?
NACIONAL
Propia de tiempo
M PUBLICO urbano Casa SI 0 ?
NACIONAL padres horario
Propia de
F PUBLICO urbano Casa NO 0 ?
NACIONAL padres
127
Propia de medio
M PUBLICO rural Casa SI 0 ?
NACIONAL padres tiempo
Propia de tiempo
M PUBLICO rural Casa SI 0 ?
NACIONAL padres horario
Propia de medio
F PUBLICO urbano Casa SI 1 ?
NACIONAL padres tiempo
Propia de
M PUBLICO urbano Casa NO 0 ?
NACIONAL padres
Propia de
F PUBLICO urbano Casa NO 0 ?
NACIONAL padres
Propia de medio
F PUBLICO urbano Casa SI 1 ?
NACIONAL padres tiempo
Cabe puntualizar, que los datos de la tabla 4.1 fueron en primera instancia
estandarizados y entrenados para que posteriormente fueran introducidos en el
modelo de predicción y este puede realizar los procesos internos.
128
Existiendo una deserción mayor cuando el alumno trabaje, y este trabajo implique
un trabajo de tiempo completo, el tipo de colegio del que proviene es de tipo
público, y por ultimo si la vivienda es alquilada.
Por otra parte, si el alumno trabaja medio tiempo tiene una casa propia de padres,
el índice de deserción disminuye, pero aún hay un porcentaje de deserción
considerable.
Con estos datos podemos también aseverar, que el modelo de predicción del
índice de deserción en base a Minería de Datos, está funcionando de manera
efectiva.
PRUEBA DE HIPÓTESIS
Hernández (2014), cita que “Una hipótesis se retiene como un valor aceptable
del parámetro, si es consistente con los datos. Si no lo es, se rechaza (pero los
datos no se descartan)”.
Planteamiento de la hipótesis
Hipótesis nula
H0: “El modelo predictivo del índice de deserción en base a factores del
alumno, no tendrá una eficacia del 90% en la población estudiantil de la
Universidad Pública de El Alto”
Hipótesis de investigación
H1: “El modelo predictivo del índice de deserción en base a factores del
alumno, tendrá una eficacia del 90% en la población estudiantil de la
Universidad Pública de El Alto”.
129
Tamaño de muestra
𝑍2 ∗ 𝑝 ∗ 𝑞 ∗ 𝑁
𝑛=
𝑒 2 (𝑁 − 1) + 𝑍 2 ∗ 𝑝 ∗ 𝑞
n=nuestra n=?
N= población N= 9344
𝒏 =337
130
Según Hernández (2014), la significancia para una tesis de investigación es del
5% en términos de probabilidad 0.05.
Tabla 4.2
T – Student para el punto crítico
131
Distribución-t y Distribución Normal Stándar
100 100
90 90
80 80
70 70
ACEPTACIÓN DE H 1
60 60
50 50
40 40
RECHAZO
30 DE Ho 30
20 20
10 10
0 0
-4 -3,5 -3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3 3,5 4
De la tabla T-Student se determina que se tiene como valor para el punto crítico:
t crítico=1.64
𝑋̅ − 𝜇
𝑡𝑝𝑟𝑢𝑒𝑏𝑎 = 𝜎
√𝑛
132
Donde:
t=?
X=90.5
90
n=280
90.5 − 90
𝑡=
5.2
√280
t = 1.60
133
CAPITULO V
5. CONCLUSIONES Y RECOMENDACIONES
134
En cuanto a los objetivos específicos se justifica cada uno de ellos en los
siguientes incisos:
“Analizar los algoritmos de minería de datos que sean útiles para el modelo
de predicción”, En el capítulo 3 se entrenó con los diferentes algoritmos de
Minería de Datos con los que cuenta WEKA, de los cuales se
seleccionaron los de mayor relevancia.
“Plantear un modelo de predicción en base a la Minería de Datos”, El
modelo de Minería de Datos expuesto en capítulo 3, tiene como base a los
modelos de Minería de Datos descritos como referencia en el capítulo 1 y
la base teórica en el capítulo 2, con la función de ambas bases se logra el
desarrollo del modelo.
“Implementar un prototipo en base a algoritmos de Minería de Datos”, en
el capítulo 3 se detalla la implementación del prototipo, logrando el objetivo
planteado satisfactoriamente.
“Identificar los factores de deserción en base a la aplicación de algoritmos
de minería de datos”, Gracias a la aplicación de los varios algoritmos que
tiene WEKA, se logró obtener parámetros sobre factores de los índices de
deserción de alumnos, cumpliendo satisfactoriamente con este objetivo.
ESTADO DE LA HIPÓTESIS
135
Por tanto, el modelo de predicción de deserción en base a la Minería de Datos,
asegura la calidad de los resultados del mismo y de acuerdo a la metodología
aplicada ISO se logró el 91% de eficacia al momento de aplicar el modelo.
CONCLUSIONES
RECOMENDACIONES
136
Ampliar la información de los estudiantes para generar modelos que permitan
explorar con mayor profundidad la relación entre los índices de deserción
universitaria y los factores socioeconómicos.
Se recomienda recabar datos académicos sobre la asignación de materias, el
historial académico para continuar con la presente investigación.
Se recomienda poner en practica otros algoritmos de minera de datos
existente para verificar los resultados obtenidos en esta investigación
137
BIBLIOGRAFÍA
Agrawal, R., & Shafer, J. C. (1996). Parallel Mining of Association Rules. IEEE
Transactions on Knowledge and Data Engineering.
Berry, M. J., & Linoff, G. S. (2004). Data Mining Techniques (Second ed.).
Indianapolis: Wiley Publishing,Inc.
Carrillo, R., & Gimenez, H. (29 de Enero de 2014). Prezi. Obtenido de Modelos
De Predicción: https://prezi.com/yifr4gi6p1r1/modelos-de-prediccion/
Chiavenato, I. (2006). Introduccion a la Teoria General de la Administracion
(Séptima ed.). Mexico: McGram-Hill Interamericana. Obtenido de
https://esmirnasite.files.wordpress.com/2017/07/i-admon-chiavenato.pdf
CRIS-DM. (2015). CRISP-DM cros insustry standard process for data mining.
Obtenido de cris-dm.eu: http://crisp-dm.eu/home/crisp-dm-methodology/
Fayyad, U., Pieatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to
Knowledge Discovery in Databases. Obtenido de Kdnuggets:
https://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-
Fayyad.pdf
Ferrel, O., Geoffey, H., & Ferrel, L. (2009). INTRODUCCIÓN A LOS NEGOCIOS
EN UN MUNDO CAMBIANTE (Séptima ed.). Mexico: McGRAW-
HILL/INTERAMERICANA.
Hernández Sampieri, R., Fernández Collado, C., & Baptista Lucio, P. (2014).
Metodología de la investigación. México D.F.: McGraw-Hill.
Hernández, C., & Dueñas, M. (2009). Hacia una metodología de gestión del
conocimiento basada en minería de datos. Obtenido de
repositorio.uigv.edu.pe:
http://repositorio.uigv.edu.pe/bitstream/handle/20.500.11818/982/COMTE
L-2009-80-
96.pdf?sequence=1&isAllowed=y#:~:text=Seg%C3%BAn%20SAS%20m
%C3%A1s%20que%20una,proyecto%20de%20miner%C3%ADa%20de
%20datos.
Ramirez, T., Diaz, R., & Salcedo, A. (2017). ¿Abandono o deserción estudiantil?
Una necesaria discusion conceptual. Investigacion y Posgrado, 63-74.
Rodriguez, A., Espinoza, J., Ramirez, L., & Ganga, A. (2018). Deserción
Universitaria: Nuevo Análisis Metodológico. Obtenido de Formación
universitaria:
https://scielo.conicyt.cl/scielo.php?script=sci_arttext&pid=S0718-
50062018000600107#t1
Timarán, S., Hernández, I., Caicedo, S., Hidalgo, A., & Alvarado, J. (2016).
Descubrimiento de Patrones de Desempeño Académico. Bogotá:
Ediciones Universidad Cooperativa de Colombia.
Witten, I. H., & Frank, E. (2005). Data Mining. Practical Machine Learnig Tools
and Techniques (Second ed.). San Francisco: Morgan Kaufmann
Publishers.
ANEXOS
ANEXO A.
Generar y evaluar el
modelo de predicción
sobre índices de
Realizar el anlisis de la Identificar los factores deserción
situacion de deserción en base
a la aplicación de
Describir e
algoritmos de minería
interpretar los datos
de datos.
obtenidos.
La Paz - El Alto agosto de 2020
Señor
Ing. David Carlos Mamani Quispe
DIRECTOR DE CARRERA
INGENIERÍA DE SISTEMAS
Presente. –
REF.: AVAL DE CONFORMIDAD
Distinguido Ingeniero,
Mediante la presente tengo a bien comunicarle mi conformidad de la tesis de
grado “MODELO DE PREDICCIÓN BASADO EN MINERÍA DE DATOS SOBRE
ÍNDICES DE DESERCIÓN DE ALUMNOS CASO: UNIVERSIDAD PÚBLICA DE
EL ALTO”. Que propone el postulante Ivan Rodrigo Hidalgo Mamani, con cedula
de identidad 6872515 LP., para su defensa pública, evaluación correspondiente
a la materia de Taller de Licenciatura II, de acuerdo al reglamento vigente de la
carrera de Ingeniería de Sistemas de la Universidad Pública de El Alto.
Señor
Ing. Enrique Flores Baltazar
TUTOR METODOLÓGICO TALLER ll
Presente. —
Distinguido Ingeniero,
Señor
Ing. Enrique Flores Baltazar
TUTOR METODOLÓGICO TALLER ll
Presente. —
Distinguido Ingeniero,
Atentamente.
ANEXO C.
MANUAL DE
USUARIO
MANUAL DE USUARIO
1 1:DESERCION 1:DESERCION 1
2 2:LEVE 2:LEVE 1
5 2:LEVE 2:LEVE 1
7 2:LEVE 2:LEVE 1
9 2:LEVE 2:LEVE 1
26 2:LEVE 2:LEVE 1
27 2:LEVE 2:LEVE 1
Weighted Avg. 0,868 0,060 0,878 0,868 0,864 0,804 0,794 0,005
a b c <-- classified as
13 1 0 | a = DESERCION
3 16 3 | b = LEVE
0 0 17 | c = NO DESERCION
: DESERCION (4.0/1.0)