Tecnicas de Machine Learning para La Creacion de Modelos Predictivos para Empresas - Centeno - Martin-Romero - Alfonso
Tecnicas de Machine Learning para La Creacion de Modelos Predictivos para Empresas - Centeno - Martin-Romero - Alfonso
Tecnicas de Machine Learning para La Creacion de Modelos Predictivos para Empresas - Centeno - Martin-Romero - Alfonso
Este trabajo de fin de grado empieza describiendo qué es el Big Data para adentrarse en
el Análisis Predictivo y en las distintas técnicas que nos ofrece el Machine Learning para
crear modelos predictivos a partir de grandes volúmenes de datos. En este trabajo
aparecerán explicadas las principales aplicaciones y funciones del Análisis Predictivo
para el mundo empresarial, además de un resumen de los algoritmos más empleados por
el Machine Learning para elaborar modelos predictivos. Finalmente, he decidido escoger
un método de Machine Learning para desarrollar un ejemplo con datos reales a través de
la herramienta RStudio. El método escogido es el método clúster o de agrupación.
Palabras Clave: Big Data, Análisis Predictivo, Machine Learning, Algoritmos, Clúster.
Abstract:
This dissertation begins by describing what Big Data is, and then moves on to Predictive
Analysis and the various techniques offered by Machine Learning to create predictive
models from large volumes of data. I n this paper, the main applications and functions of
Predictive Analysis for the business world will be explained, as well as a summary of the
most commonly used algorithms by Machine Learning to build predictive models.
Finally, I have decided to choose a method of Machine Learning to develop an example
with real data through the tool RStudio. The method I have selected is the cluster method.
Key Words: Big Data, Predictive Analysis, Machine Learning, Algorithms, Cluster.
2
ÍNDICE
1. INTRODUCCIÓN ..................................................................................................... 4
2. BIG DATA ............................................................................................................... 5
2.1. ¿QUÉ ES? .................................................................................................................... 5
2.1.1. Tipos de Datos .......................................................................................................................... 6
2.1.2. Ciclo de Gestión de los Datos ................................................................................................... 7
2.1.3. Seguridad y Anonimidad de los Datos ...................................................................................... 8
2.2. MARCO LEGAL EN LA UE ........................................................................................... 10
3. ANÁLISIS PREDICTIVO .......................................................................................... 12
3.1. ¿QUÉ ES? .................................................................................................................. 12
3.2. MODELOS APLICABLES AL ANÁLISIS PREDICTIVO ...................................................... 13
3.2.1. Modelos Descriptivos ............................................................................................................. 14
3.2.2. Modelos Predictivos ............................................................................................................... 14
3.2.3. Modelos Prescriptivos ............................................................................................................ 15
3.3. PRINCIPALES APLICACIONES DEL ANÁLISIS PREDICTIVO EN LA EMPRESA .................. 16
3.3.1. Sector Financiero .................................................................................................................... 17
3.3.2. Sector Empresarial .................................................................................................................. 18
3.3.3. Sector Marketing .................................................................................................................... 19
3
1. INTRODUCCIÓN
Justificación y motivaciones: La razón por la que escogí este tema se debe al interés que
siempre suscitó en mi el mundo del Big Data, IoT e Inteligencia Artificial. Desde que
escuché hablar de ello supe que el futuro del mercado laboral se encontraba en estas
disciplinas, aquel que supiera gestionar e interpretar los grandes volúmenes de datos e
información que recibe de sus clientes, para sacarles valor, tendría una ventaja
competitiva abismal frente a otras empresas. Sin embargo, mi decisión no fue final hasta
que me decidí a participar en un Programa Ejecutivo en Business Analytics ofrecido por
la Universidad Pontificia de Comillas ICADE, donde aprendí técnicas de Machine
Learning y de Análisis Exploratorio de Datos utilizando la herramienta R. Así, una vez
construida la base y teniendo en cuenta que el tema ya me interesaba de antes decidí
aprovechar mi trabajo de fin de grado para seguir indagando y aprendiendo todo lo posible
sobre una disciplina que considero será muy beneficiosa para mi futuro profesional.
Objetivos: Indagar en el análisis de grandes volúmenes de datos para aprender sobre una
de sus aplicaciones más empleadas en el mundo empresarial, el Análisis Predictivo, y a
su vez aprender sobre el Machine Learning, uno de los métodos que más se aplica para la
creación de modelos predictivos, y los algoritmos que utiliza poniendo a prueba dos de
ellos con datos reales.
4
2. BIG DATA
Big Data es un término que se emplea para describir el gran volumen de datos que inunda
los negocios, salud pública, economía y en general los distintos aspectos que componen
la sociedad. Por ello, cuando hablamos de Big Data nos referimos a “conjuntos de datos
o combinaciones de conjuntos de datos cuyo tamaño (volumen), complejidad (variedad)
y ritmo de crecimiento (velocidad) dificultan su captura, gestión, análisis y procesamiento
mediante tecnologías y herramientas convencionales”. (powerdata.es, n.d.). No obstante,
el tamaño para determinar si un conjunto de datos se considera Big Data no está definido
y puede evolucionar con el tiempo. Actualmente, el consenso se encuentra en conjuntos
de datos que oscilan entre los 30-50 Terabytes. (powerdata.es, n.d.).
En cuanto a sus características, el consenso popular establece que los datos deben cumplir
las siguientes propiedades para ser considerados como Big Data:
• Velocidad: Se refiere a la rapidez con la que los datos son creados, almacenados
y procesados en tiempo real. En algunos procesos como la detección de fraude en
una transacción bancaria o la monitorización de un evento en redes sociales, el
tiempo resulta fundamental. Sí estos datos no son recibidos, almacenados y
estudiados en tiempo real, corren el riesgo de que quedar obsoletos y de perder
toda su utilidad.
• Variedad: Los datos que las empresas reciben son diversos. Pueden proceder de
varias fuentes y se encuentran en distintos formatos. Por lo tanto, las empresas
deben integrar tecnologías y aplicaciones que les permitan organizar, procesar e
integrar datos de diferentes fuentes de información para que resulten útiles y para
que se puedan sacar conclusiones efectivas o identificar patrones.
5
• Veracidad: Se refiere a la fiabilidad de la información recogida. la calidad de los
datos obtenidos es fundamental para alcanzar conclusiones efectivas e incluso una
ventaja competitiva. De nuevo, las empresas tienen que invertir en aplicaciones
que sean capaces de identificar y eliminar datos imprevisibles o que causen
incertidumbre.
Así, el Big Data permite a las empresas analizar grandes cantidades de conjuntos de datos
y con ello obtener respuestas a preguntas, identificar problemas y mejorar procesos. La
recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro de los
datos permiten a las empresas identificar oportunidades y crear valor de múltiples formas:
reduciendo costes, diseñando nuevos productos y servicios, mejorando la eficiencia en la
toma de decisiones, creando publicidad más dirigida a las necesidades del cliente etc.
• Redes sociales y páginas web: Hace referencia a toda aquella información que se
genera a través de navegar y realizar transacciones en la red. Con esta información
una empresa es capaz de conocer las preferencias y gustos de los consumidores.
6
• Biométricas: La información biométrica incluye el escaneo de huellas digitales,
retina, reconocimiento facial y genético y en definitiva todos aquellos datos que
faciliten el reconocimiento inequívoco de personas basado en rasgos físicos y de
conducta.
• Generadas por los seres humanos: Hace referencia a toda la información que los
humanos generan día a día con sus acciones cotidianas: llamar por teléfono,
escribir un correo electrónico o un mensaje de texto, mandar notas de voz etc.
7
aquella información útil y aquella desechable. Técnicas como el Web Scraping o el
Systems Network Architecture (SNA) ayudan a extraer información de páginas web,
además el uso de API u otros servicios ofrecen una enorme versatilidad para la integración
y recopilación rápida de grandes volúmenes de datos.
Almacenamiento: Una vez recogida la información será necesario almacenarla. Los datos
se preparan y se registran de manera organizada para su posterior análisis. Las hojas de
cálculo o los sistemas NoSQL, son algunos ejemplos de métodos que permiten almacenar
información de forma cómoda y flexible.
Análisis: El análisis de los datos tiene como propósito principal extraer conocimientos,
establecer patrones, encontrar correlaciones desconocidas u obtener cualquier otra visión
que pueda resultar útil de los datos recogidos y almacenados. En otras palabras, el análisis
es la puesta en valor de los datos, que por sí solos carecen de valor. Al analizar los datos
la empresa es capaz de construir conocimiento en múltiples ámbitos que abarcan casi
todos los campos imaginables.
8
Atendiendo de nuevo a la Agencia Española de Protección de Datos, los datos personales
pueden clasificarse como:
• Identificadores: datos que identifican unívocamente a los sujetos de los datos. Los
procesos básicos de “anonimización” son capaces de disociar estos datos.
• Cuasi-Identificadores: datos que de manera aislada no identifican a un sujeto, pero
si son convenientemente agrupados y cruzados con otras fuentes de información,
pueden llegar a identificar a un individuo e incluso relacionarlo con categorías
especiales de datos.
De pronto, eliminar los identificadores deja de ser suficiente para anonimizar los datos.
La existencia de los datos Cuasi-Identificadores crea un riesgo de “desanonimización” de
la información que se puede medir como la probabilidad de re-identificar a los sujetos a
partir del conjunto de cuasi-identificadores. Todo ello, ha llevado a la creación de técnicas
de SDC que buscan maximizar la privacidad de los datos sin que esto afecte a los
objetivos de las empresas de explotación y extracción de información a partir de estos
datos. Estas técnicas se pueden categorizar en dos grandes grupos:
• Técnicas que buscan perturbar o alterar los valores del conjunto de datos para
crear incertidumbre sobre la veracidad de los datos.
• Técnicas que buscan reducir el nivel de detalle del conjunto de datos a través de
generalización o la eliminación de ciertos valores, sin distorsionar o perturbar la
estructura de los datos.
Cabe destacar que de estos dos grupos las técnicas no “perturbativas” se han coronado
como el método preferido por empresas para implantar la anonimidad en un conjunto de
datos. Con ello, las empresas aseguran la protección de los datos sin la introducción de
información errónea en la fuente de datos original que podría llevar a confusiones dentro
de la misma empresa. Así, es común el uso de técnicas de generalización y eliminación
para aumentar la anonimidad de los datos. Por ejemplo, la información de tres individuos
es la siguiente:
9
CODIGO POSTAL EDAD COLESTEROL
28230 (Las Rozas) 40 S
28931 (Móstoles) 44 S
08028 (Hospitalet) 13 S
Podemos hacer que los cuasi-identificadores se vuelvan menos precisos con técnicas de
generalización y eliminación:
10
cualquier empresa de TI especializada en el procesamiento de datos reales. Igualmente,
el GDPR también se ocupa de la exportación de datos personales fuera de la UE. Por lo
tanto, el GDPR se aplicará a nivel mundial a toda organización que se encuentre fuera de
la UE, siempre y cuando procese datos personales de residentes de la UE.
11
3. ANÁLISIS PREDICTIVO
12
El último paso una vez encontradas e interpretadas correctamente las correlaciones, será
crear el modelo predictivo. El modelo predictivo se utilizará para intentar predecir el
comportamiento de las personas en situaciones particulares: si cambiarán de voto, si
comprarán un producto o servicio determinado etc. (Espino, Timón, 2017). Se
introducirán los datos de un individuo en el modelo y se obtendrá una clasificación que
indicará la probabilidad de que se produzca la situación estudiada por el modelo (Espino
Timón, 2017). Retomando el ejemplo anterior, el modelo predictivo de una compañía de
seguros indicaría la probabilidad de que un cliente pueda tener un accidente, y en función
del valor obtenido la compañía pondrá un precio u otro al seguro del cliente. Sin embargo,
hay que tener en cuenta que un modelo predictivo por muy fiable que sea no acertará
siempre. Esto es debido a que por mucho que se haya repetido un patrón de
comportamiento esto no es un hecho seguro y no tiene por que repetirse (Espino Timón,
2017).
La analítica descriptiva examina los datos y analiza los sucesos pasados para entender el
presente y saber cómo abordar el futuro. Se utilizan datos históricos para examinar el
rendimiento pasado, entender ese rendimiento y encontrar las razones detrás del éxito o
el fracaso del pasado. La mayoría de los informes de gestión, tales como ventas,
marketing, operaciones y finanzas, utilizan este tipo de análisis. Por ejemplo, “la analítica
descriptiva examina los datos históricos de uso de la electricidad para ayudar a planificar
las necesidades de energía y permitir a las compañías eléctricas establecer precios
óptimos.” (analisicinetifico.com, 2017).
Los modelos descriptivos cuantifican las relaciones entre los datos de manera que es
utilizado a menudo para clasificar clientes o contactos en grupos. (Espino Timo, 2017).
A diferencia de los modelos predictivos que se centran en predecir el comportamiento de
un cliente en particular (analisicinetifico.com, 2017), los modelos descriptivos identifican
diferentes relaciones entre los clientes y los productos. Igualmente, “los modelos
descriptivos no clasifican u ordenan a los clientes por su probabilidad de realizar una
acción particular de la misma forma en la que lo hacen los modelos predictivos.”
(analisicinetifico.com, 2017). Sin embargo, los modelos descriptivos pueden ser
utilizados por ejemplo para clasificar a los clientes según sus preferencias de producto,
franja de edad, etc. (Espino Timón, 2017). Algunos ejemplos de modelado descriptivo
son: simulaciones o técnicas de previsión.
14
“Los modelos predictivos son modelos de la relación entre el rendimiento específico de
un sujeto en una muestra y uno o más atributos o características del mismo sujeto.”
(Espino Timón, 2017). El objetivo del modelo es evaluar la probabilidad de que un sujeto
similar tenga el mismo rendimiento en una muestra diferente. Esta categoría engloba
modelos en muchas áreas como el marketing, donde se buscan patrones de datos ocultos
que respondan preguntas sobre el comportamiento de los clientes o modelos de detección
de fraude. (Espino Timón, 2017). Gracias a los avances de ingeniería en el análisis de
grandes volúmenes de datos estos modelos son capaces de simular el comportamiento
humano frente a estímulos o situaciones específicas. (Espino Timón, 2017).
15
de decisión y de mostrar el impacto de cada opción de decisión. (analisicinetifico.com,
2017).
Por otro lado, expertos como Thomas Shimanda y el doctor Fabián López distinguen en
su artículo de la revista Inbound Logistic Latam, cinco áreas de aplicación de la analítica
predictiva de cara a hacer más rentable la cartera de clientes:
16
2. Personalización de la oferta: permite conocer cuál es la siguiente mejor oferta que
se le puede hacer a un cliente a partir de su comportamiento histórico.
4. Conocer cuáles son los clientes más propensos a responder a las iniciativas de
comunicación publicitaria, para sacar el mayor provecho a la inversión hecha.
Algunas de las principales aplicaciones del análisis predictivo en el sector financiero son:
17
• Compraventa de acciones: Existen modelos predictivos capaces de predecir si el
valor de una acción subirá o bajará. Con esta información, el usuario del activo
podrá anticiparse a las fluctuaciones en el valor del activo comprando o vendiendo
cuando sea necesario. (Espino Timón, 2017 & Ladrero, 2018).
18
• Aumentar las ventas: La analítica predictiva es capaz de predecir el grado de
aceptación que un nuevo producto o servicio puede tener basándose en datos
recopilados de eventos pasados, como, por ejemplo, otros lanzamientos de
productos o servicios anteriores, promociones antiguas, alteraciones de la
demanda frente a modificaciones de productos ya existentes, etc. Con esta
información, la empresa es capaz de asimilar y detallar mejor la demanda de sus
consumidores entendiendo que productos y servicios tendrán más éxito entre sus
consumidores, aumentando así sus ventas.
Algunas de las principales aplicaciones del análisis predictivo en el sector marketing son:
19
• Publicidad predictiva: Al igual que con en el lanzamiento de nuevos productos,
un modelo predictivo es capaz de predecir el grado de aceptación que un anunció
tendrá basándose en el producto que se quiere vender, anuncios o promociones
anteriores, hora a la que se retransmitirá el anuncio, plataforma por la que se
retransmitirá, segmento de la población para el que va dirigido el anuncio, etc.
(Espino Timón, 2017).
• Anuncios más personalizados: Es normal que nada más recibir un anuncio sobre
el coche del que hemos hablado de comprar hace tan solo diez minutos, pensemos
que las empresas nos leen la mente o que nos escuchan. Sin embargo, esto es
simplemente un modelo predictivo recogiendo y procesando los datos vocales de
tu conversación para desarrollar una oferta más personalizada en función de tus
gustos. Esto igualmente sucede cuando realizas búsquedas en internet o cuando
frecuentas distintos sitios con la función gps del teléfono móvil activada. El
modelo predictivo utilizará esos datos que generas para personalizar anuncios
basándose en tu actividad.
20
4. MACHINE LEARNING
Vamos a demostrar un ejemplo típico de una tarea de machine learning. El ejemplo está
obtenido del artículo Understanding Machine Learning: From Theory to Algorithms de
Shalev-Shwartz y Ben-David: Supongamos que queremos programar una máquina para
que sea capaz de aprender a filtrar correo basura o considerado como spam. Una solución
podría ser hacer que la máquina simplemente memorizase todos aquellos correos que en
el pasado han sido considerados como spam por el usuario. Así, cuando llegue un nuevo
correo electrónico, la máquina lo buscará en el conjunto de los anteriores correos
electrónicos considerados como spam y si coincide con uno de ellos, será destruido. De
lo contrario, se moverá a la bandeja de entrada del usuario. No obstante, el aprendizaje
por memorización, aunque útil, se encuentra incompleto. Con este método la máquina
carece de la capacidad de etiquetar los correos electrónicos no vistos por el usuario. Para
que el aprendizaje sea un éxito, la máquina debe ser capaz de aprender por razonamiento
intuitivo, es decir, la máquina debe ser capaz de pasar de los ejemplos individuales a una
generalización más amplia. (Shalev-Shwartz, S. & Ben-David, S., 2014). Para alcanzar
la generalización en el ejemplo del filtrado de correo basura, Shalev-Shwartz y Ben Davis
explican que el usuario puede escanear los correos electrónicos pasados, y extraer un
conjunto de palabras cuya aparición en un mensaje de correo electrónico es indicativo de
spam. Ahora, al llegar un nuevo correo electrónico, la máquina puede comprobar si una
de las palabras pertenecientes al conjunto aparece en él y predecir su calificación en
21
consecuencia. Con ello, somos capaces de superar el problema que los correos
electrónicos no vistos planteaban. (Shalev-Shwartz, S. & Ben-David, S., 2014).
22
• Tareas demasiado complejas para programar, como aquellas llevadas a cabo por
personas o animales. Ejemplos como conducir o el reconocimiento facial y de voz
son tareas que los humanos realizamos de manera rutinaria y sin embargo son
increíblemente complejas de programar; parece que nuestra introspección sobre
cómo las hacemos no es lo suficientemente elaborada como para lograr un
programa bien definido. Los programas de machine learning, por otro lado,
parecen obtener resultados bastante satisfactorios replicando este tipo de tareas
una vez son expuestos a suficientes modelos o ejemplos de entrenamiento gracias
a su capacidad de aprender de la experiencia. (Shalev-Shwartz, S. & Ben-David,
S., 2014).
23
el programa se adapta automáticamente a los cambios en los correos considerados
como spam, o el reconocimiento de voz, donde el programa se adapta a los
distintos tonos y timbres de voz de los usuarios. (Shalev-Shwartz, S. & Ben-
David, S., 2014).
El ámbito del aprendizaje es, por supuesto, muy amplio. En consecuencia, el campo del
machine learning se ha ramificado en varios subcampos que se ocupan de diferentes tipos
de labores de aprendizaje (Shalev-Shwartz, S. & Ben-David, S., 2014). De todas estas
modalidades, este trabajo destacará dos: el aprendizaje supervisado y no supervisado.
Dado que el aprendizaje implica una interacción entre el alumno y el entorno, se pueden
dividir las tareas de aprendizaje según la naturaleza de esa interacción. (Shalev-Shwartz,
S. & Ben-David, S., 2014). Con esta división, surgen el aprendizaje supervisado y no
supervisado. Como ejemplo ilustrativo vamos a considerar, de nuevo, la tarea de
detección de anomalías frente a la tarea anterior sobre detección de correo basura o spam
expuesta por Shalev-Shwartz y Ben-David. Recordemos que, para esta última tarea, el
programa recibe a modo de entrenamiento mensajes previamente categorizados como
spam y no spam. En base a este entrenamiento, el algoritmo debe establecer una regla
para etiquetar un mensaje de correo electrónico recién llegado. Por el contrario, en la tarea
de detección de anomalías lo único que el algoritmo recibe a modo de entrenamiento es
un gran número de datos sin categorizar y sobre los que debe encontrar alguna anomalía.
(Shalev-Shwartz, S. & Ben-David, S., 2014).
Los modelos de regresión permiten estudiar y cuantificar la relación entre una variable
dependiente o de respuesta continua y una o más variables independientes o predictores
con el fin de averiguar en qué medida la variable dependiente puede estar explicada por
la variable o variables independientes, y de predecir nuevas observaciones en la variable
dependiente a partir de la variable o variables independientes. (Análisis de Regresión
lineal, n.d.). Algunos de los modelos de regresión más comunes son:
Regresión lineal:
Un modelo de regresión lineal permite cuantificar las relaciones entre una variable
dependiente (U) y una o varias variables independientes (C) a través de la creación de
una ecuación lineal. Una función de regresión lineal debe ser lineal en los parámetros, lo
cual restringe la ecuación a una sola forma básica (Support.minitab, n.d.), una recta:
U = b0 + ∑biCi
Donde β representa las estimaciones de parámetros lineales que se ajustan para que la
medida sea óptima.
25
Regresión no lineal:
Un modelo de regresión no lineal permite generar una función no lineal que cuantifica las
relaciones no lineales entre una variable dependiente (U) y una o varias variables
independientes (C) creando una ecuación no lineal. Una función de regresión no lineal
no requiere de parámetros lineales, por lo que una ecuación no lineal puede adoptar
muchas formas diferentes (Support.minitab, n.d.):
U = f (C, b)
Donde f es alguna función no lineal respecto unos parámetros β no lineales. Las formas
no lineales posibles incluyen: convexa, cóncava, curva sigmoidal, curvas asintóticas, etc.
(Support.minitab, n.d.)
Redes neuronales:
De acuerdo con la definición dada por la empresa IBM: “El modelo de red neuronal es
un modelo simplificado que emula el modo en que el cerebro humano procesa la
información.” Consiste en un conjunto de nodos o unidades de procesamiento, llamadas
neuronas artificiales, conectadas entre sí para transmitirse señales. Las unidades de
procesamiento o neuronas se agrupan en capas. Según IBM, hay tres capas normalmente
en una red neuronal: una capa de entrada (input layer), con unidades que representan
campos de entrada por donde acceden los datos; una capa oculta (hidden layer), donde se
procesan y modifican los datos; y una capa de salida (output layer), con una unidad o
unidades que representa el campo o los campos de destino por donde se extrae la
información media que se ha ido transfiriendo de neurona en neurona. Los datos se
propagan desde cada neurona hasta cada neurona de la capa siguiente y cada neurona
posee a su vez un peso. “La red aprende examinando los registros individuales, generando
una predicción y realizando ajustes a las ponderaciones cuando realiza una predicción
incorrecta. Este proceso se repite muchas veces y la red sigue mejorando sus predicciones
hasta haber alcanzado uno o varios criterios de parada.” (IBM, n.d.).
26
Por lo general, las redes neuronales se utilizan para describir una relación entre los datos
de entrada y de salida y con ello poder realizar predicciones. El funcionamiento puede
observarse mejor con el siguiente esquema:
27
los que probamos el modelo. (Parra, 2019). Algunos de los modelos de clasificación más
comunes son:
Clasificador Bayesiano:
Atendiendo a la explicación de Francisco Parra (2019): “Naïve Bayes es uno de los
clasificadores más utilizados por su simplicidad y rapidez. Se trata de una técnica de
clasificación y predicción supervisada que construye modelos que predicen la
probabilidad de posibles resultados, en base al Teorema de Bayes o de la probabilidad
condicionada”:
Análisis Discriminante:
Se trata de una técnica que se utiliza para “clasificar la pertenencia de uno o más
individuos en un grupo o población alternativos a partir de un conjunto de predictores.”
(de la Fuente Crespo, na). El objetivo del análisis discriminante “es entender las
diferencias de los grupos y predecir la verosimilitud de que una persona o un objeto
pertenezca a una clase o grupo basándose en los valores que toman los predictores.”
(Parra, 2019). Uno de los ejemplos más comunes de análisis discriminante es identificar
el riesgo de impago de un préstamo:
El ejemplo está obtenido del artículo Análisis Discriminante por Laura de la fuente
Crespo: Cuando un banco concede un préstamo se enfrenta a la posibilidad de que no sea
reintegrado. En caso de no ser reintegrado será clasificado como fallido. En esta línea, se
pueden considerar dos grupos de clientes: cumplidores o fallidos. Así, el banco puede
utilizar la información existente que posee sobre préstamos concedidos en el pasado en
la concesión de préstamos futuros de forma que se evite o, por lo menos se reduzca la
concesión de préstamos a clientes que entren en la categoría de fallidos. Para ello, lo
primero que tendría que hacer el banco es analizar la información y características de los
clientes a los que haya concedido un préstamo. Como es probable que los clientes
cumplidores tengan unas características distintas de los clientes fallidos, el siguiente paso
será utilizar estas características establecer unas funciones que clasifiquen a los clientes
28
a los que se les ha concedido un préstamo de la manera más correcta y precisa posible en
cumplidores y fallidos. (de la Fuente Crespo, na)
Árboles de decisión:
Los árboles de decisión o de clasificación son un modelo de Machine Learning que,
partiendo de una base de datos, crea diagramas de construcciones lógicas que nos ayudan
a resolver problemas. (Parra, 2019). Si atendemos al manual de Francisco Parra (2019)
se nos explica que: “los árboles de decisión se componen de: nodos, ramas y hojas. Los
nodos son las variables de entrada, las ramas representan los posibles valores de las
variables de entrada y las hojas son los posibles valores de la variable de salida.” Cabe
destacar que la variable con mayor relevancia del proceso de clasificación se encontrará
en el primer elemento del árbol conocido como nodo raíz. (Parra, 2019).
29
*Fuente – Estadística y Machine Learning con R: Arboles de clasificación (Parra, 2019)
Al igual que con las redes neuronales, este modelo se puede aplicar también en métodos
de regresión.
K-NN:
El método K-vecinos más cercanos es un método de clasificación supervisada que sirve
para clasificar cada dato nuevo en el grupo que corresponda, según tenga K vecinos más
cerca de un grupo o de otro. (Ruiz, 2017). Es decir, “calcula la distancia del elemento
nuevo a cada uno de los existentes, y ordena dichas distancias de menor a mayor para ir
seleccionado el grupo al que pertenece.” (Ruiz, 2017). El método K-vecinos supone que
los vecinos más cercanos nos dan la mejor clasificación. El rendimiento del algoritmo
está influenciado por tres factores principales: la variable K o número de vecinos para
clasificar la muestra, “con distintos valores de K podemos obtener resultados muy
distintos” (Ruíz, 2017); la medida de distancia utilizada para localizar los K-vecinos más
cercanos; la regla de decisión usada para derivar una clasificación de los K-vecinos más
cercanos.
30
*Fuente – Estadística y Machine Learning con R: Algorítmo K-vecinos más cercanos (Parra, 2019)
En la figura, observamos por el círculo que se han seleccionado tres vecinos (K=3). De
los tres vecinos más cercanos a c en la figura, uno de ellos pertenece a la clase uno (el
cuadrado azul) y los otros dos a la clase dos (los círculos rojos). (Parra, 2019). Por lo
tanto, si los vecinos más cercanos dan la mejor clasificación la regla 3-vecinos, asignará
c a la clase dos. En cambio, si redujéramos K a 1 (K=1), el modelo agruparía a c con su
vecino más cercano que en este caso sería de la clase uno, asignando a c como parte de
la clase uno. (Parra, 2019). Todo ello, considerando que la métrica de distancia empleado
sea la distancia euclidea. De no ser así los resultados podrían variar.
31
“El análisis clúster es un conjunto de técnicas multivariantes cuyo principal propósito es
agrupar objetos basándose en las características que poseen. El modelo clúster clasifica
los objetos en clases o conglomerados de tal forma que cada objeto sea parecido a los que
hay en el conjunto de su conglomerado. Los conglomerados resultantes deberán tener un
alto grado de homogeneidad interna (dentro del conglomerado) y de heterogeneidad
externa (entre conglomerados).” (Parra, 2019). Algunos de los métodos de agrupación
más comunes son:
Modelos de Partición:
El modelo de clúster de partición o partitioning clustering, se compone de una serie
técnicas o algoritmos que requieren que se especifique el número de clústeres que se
quiere crear. (Amat Rodrigo, 2017). El algoritmo más común de este modelo es:
Métodos Jerárquicos:
El modelo de clúster jerárquico no requiere que se pre-especifique el número de clústeres.
(Amat Rodrigo, 2017). Los métodos que engloban el agrupamiento jerárquico se
subdividen en dos tipos dependiendo de la estrategia seguida para crear los grupos:
32
• Agglomerative clustering (bottom-up): El agrupamiento se inicia en la base del
árbol, donde cada observación forma un clúster individual. Los clústeres se van
combinando a medida que la estructura crece hasta converger en una única rama
central. (Amat Rodrigo, 2017).
• Divisive clustering (top-down): Es la estrategia opuesta, se inicia con todas las
observaciones contenidas en un mismo clúster y se suceden divisiones hasta que
cada observación forma un clúster individual. (Amat Rodrigo, 2017).
En ambos casos, los resultados se pueden representar de forma muy intuitiva en una
estructura de árbol llamada dendograma:
Atendiendo a la explciación de Joaquín Amat: “La base del dendograma está compuesta
por terminaciones individuales conocidas como hojas del árbol. A medida que el
dendograma asciende, las hojas se van fusionando y forman ramas llamadas nodos. Estos
nodos a su vez pueden conectarse a hojas individuales u otros nodos. Los nodos
corresponden a los pares de observaciones más similares.” Así, cuanto más próxima a la
base ocurra la fusión de hojas, mayor es la similitud. Por ejemplo, la observación 9 es la
más similar a la 6 y viceversa, ya que es la primera conexión que recibe. Los
33
dendogramas, por lo tanto, se deben interpretar únicamente en base al eje vertical y no al
horizontal. (Amat Rodrigo, 2017).
Para evitar este problema, podemos emplear diferentes métodos matemáticos como
estudiar la correlación o la consistencia. El criterio de correlación permite medir el nivel
de asociación entre variables permitiéndonos deshacernos de aquellas que tengan
correlación negativa o también igual o próxima a 0. Otro criterio que podemos emplear
es el de la consistencia. (Lafuente, 2018). Este criterio nos permite deshacernos de
aquellas variables que puedan resultar redundantes. Por ejemplo, en el modelo de
predicción de cáncer en humanos teniendo variables como la capacidad pulmonar o
cardiovascular del paciente, quizás no sea necesario saber si es fumador o no, ya que
34
puede que esta última esté, de una forma y otra, ya recogida en las dos primeras.
(Lafuente, 2018)
Example 1:
2 components
Total variance using only 1 PC: 50%
Example 3:
Example 2: 2 components
2 components Total variance using only 1 PC: 90%
Total variance using only 1 PC: 65%
En la imagen observamos tres casos diferentes. En todos los casos el conjunto de datos
se separa en dos componentes principales. Empezando por la izquierda, observamos que
en el primer caso el primer componente explica el 50% de la varianza, lo que significa
35
que el segundo eje no se puede ignorar, ya que el primer componente por sí mismo no
explica lo suficiente sobre el modelo. En el segundo caso, el primer componente explica
el 65% de la varianza; aquí se podría considerar si ignorar o no el segundo eje, pues el
primer eje explica la mayoría del modelo. En el tercer ejemplo, el primer componente
explica el 90% de la varianza, por lo que el primer eje resume prácticamente la totalidad
del modelo, siendo innecesario acudir al segundo componente principal. Cabe señalar,
que a mayor correlación entre los datos los primeros componentes serán capaces de
describir más varianza. De esta forma, podemos asumir que en el ejemplo 3 los datos se
encuentran más correlacionados que en el ejemplo 2 y estos a su vez se encuentran más
correlacionados que los del ejemplo 1.
Un ejemplo que muestra muy bien la utilidad del análisis de componentes principales es
el siguiente: Si quisiéramos realizar un análisis socio económico de varios países, se
tendrían que analizar varios indicadores como el PIB total del país, el PIB per cápita, tasa
de desempleo, índice de ruralidad, etc. Aplicando un análisis de componentes principales,
se podría encontrar aquellos indicadores que son capaces de explicar la mayoría del
modelo, ahorrando una gran cantidad de tiempo. Así, por ejemplo, si se demuestra que el
PIB total del país y el índice de ruralidad describen la mayoría de la varianza del modelo,
significa que las variables restantes se encuentran muy correlacionadas con estas. Por lo
tanto, si el PIB total o el índice de ruralidad varían, las demás variables lo harán de igual
manera, lo que nos permite desecharlas.
36
• Confianza: Porcentaje de éxito de la regla (A Þ B), es decir, significa que la regla
es cierta al menos para ese valor de confianza. La regla tiene que seguir la
ecuación de probabilidad condicionada: la probabilidad de que ocurra el suceso B
si ha ocurrido el suceso A.
• Lift de la regla: Indica el nivel de dependencia de los sucesos. Un valor de Lift >
1 indica dependencia positva entre los eventos, es decir será más probable que
suceda B habiendo sucedido A primero. Un valor de Lift = 1 indica que los
eventos son independientes, es decir será igual de probable que suceda B habiendo
sucedido A primero. Un valor de Lift < 1 indica una dependencia negativa entre
sucesos, es decir será menos probable que suceda B habiendo sucedido A primero.
Por ejemplo, en un supermercado encontramos la siguiente regla con un soporte del 40%,
una confianza del 80% y un valor de lift de 2.
Esto implica, que un 40% de los casos (ventas) incluían frutos secos y Coca-Cola, y en
los casos en que se vendieron frutos secos y Coca-Cola, también se vendieron patatas
fritas al menos en un 80% de las veces. Por último, al ser el valor de lift > 1 sabemos que
el antecedente de la regla, comprar frutos secos y Coca-Cola, aumenta la probabilidad de
ocurrencia del consecuente de la regla, comprar patatas fritas. Por ello, podemos concluir
que la probabilidad de comprar patatas fritas habiendo comprado primero frutos secos y
Coca-Cola es mayor que la probabilidad a priori de comprar patatas fritas.
37
5. EJEMPLOS DE CLÚSTER EN LA HERRAMIENTA R
Primero, para llevar a cabo nuestro ejemplo de clusterización, primero con K-Medios y
luego con un Clustering Jerárquico, utilizaremos las funciones “library” e
“install.packages” del programa RStudio para instalar los siguientes paquetes: [Dplyr,
factoextra, FactoMineR, arules, arulesViz, cluster.datasets, DataExplorer, ggplot2,
cluster].
Segundo, El conjunto de datos empleado para ambos métodos contiene información sobre
la rentabilidad como porcentaje del capital social de 24 sectores de la economía
estadounidenses entre 1959 y 1968. La base de datos contiene 12 variables como puede
apreciarse en el anexo: dos categóricas; código y nombre de cada sector y diez numéricas;
la rentabilidad como porcentaje del capital social de cada sector en cada año.
Tercero, como explica Joaquín Amat antes de aplicar algún método de agrupación o
clúster primero es “conveniente evaluar si dentro del conjunto de datos a emplear hay
indicios de que realmente existe algún tipo de agrupación.” A este proceso se le conoce
como assesing clustering tendency y puede llevarse a cabo mediante test estadísticos o
de forma visual (visual assesment of cluster tendency). (Amat Rodrigo, 2017). Esta última
será la forma en la que evaluaremos si los datos muestran indicios de agrupación:
38
*Fuente – Elaboración propia en la herramienta RStudio.
El método de VAT confirma que en el conjunto de datos sí hay una estructura de grupos.
Con este método, igualmente, podemos empezar a intuir los clústeres que se van a ir
formando. El color rojo indica una distancia corta entre componentes, mientras que el
color azul indica una distancia más larga. La diagonal tiene una distancia de 0, ya que es
cada componente u observación consigo misma. Así, podemos intuir que el sector de
productos químicos y similares (21) y el sector de madera y productos de madera (11) no
formarán parte del mismo clúster, pero el sector de productos químicos y similares (21)
y el sector de la fabricación de tabaco (16) sí.
“Determinar el número óptimo de clústeres es uno de los pasos más complicados a la hora
de aplicar métodos de agrupación, ya que no existe una única forma de averiguar el
número adecuado de clústeres.” (Amata Rodrigo, 2017). Se trata de un proceso bastante
39
subjetivo que depende en gran medida del método empleado. A pesar de ello, se han
desarrollado varias estrategias que ayudan en el proceso. (Amat Rodrigo, 2017).
Así, para determinar el valor óptimo de clústeres podemos, o bien utilizar el método
Elbow o el método Silhouette:
La curva indica que a partir del tercer clúster la mejora es mínima. Es decir, el método
Elbow nos indica que el número óptimo de clústeres son 3.
40
*Fuente – Elaboración propia en la herramienta RStudio.
El método Silhoutte nos indica que el valor que maximiza la media de coeficientes silueta
es el 4. Por lo tanto, a diferencia del método Elbow, el método Silhoutte considera que el
número óptimo de clústeres es 4.
Siguiendo el criterio del método Elbow, obtenemos tres clústeres bien diferenciados:
41
*Fuente – Elaboración propia en la herramienta RStudio.
De izquierda a derecha:
42
5.2. EJEMPLO DE CLUSTERING JERÁRQUICO
Por otro lado, el concepto de criterio de enlace sirve para definir con que método se va a
cuantificar la similitud entre dos clústeres. Es decir, el concepto de distancia entre pares
de observaciones se tiene que extender para que sea aplicable a pares de grupos, cada uno
formado por varias observaciones. A este proceso se le conoce como linkage. (Amat
Rodrigo, 2017). En resumen, la métrica o medida de distancia sirve para cuantificar la
similitud entre observaciones y el criterio de enlace (linkage) sirve para determinar la
similitud entre grupos de observaciones o clústeres. Es importante subrayara, que el
criterio de enlace solo es necesario definirlo para clústeres aglomerativos no divisivos.
(Amat Rodrigo, 2017). Los métodos de agrupación o criterios de enlace más comunes
son:
• Enlace completo (complete linkage): También conocido como método del vecino
más lejano. Se calcula la distancia entre todos los posibles pares formados por una
observación del clúster A y una del clúster B. “La mayor de todas ellas se
selecciona como la distancia entre los dos clústeres.” (Amat Rodrigo, 2017).
(Anexo 2.1).
• Enlace simple (single linkage): También conocido como método del vecino más
próximo. “Se calcula la distancia entre todos los posibles pares formados por una
observación del clúster A y una del clúster B. La menor de todas ellas se
43
selecciona como la distancia entre los dos clústeres.” (Amat Rodrigo, 2017).
(Anexo 2.2).
• Enlace promedio (average linkage): “Se calcula la distancia entre todos los
posibles pares formados por una observación del clúster A y una del clúster B. El
valor promedio de todas ellas se selecciona como la distancia entre los
dos clústeres.” (Amat Rodrigo, 2017). (Anexo 2.3).
• Enlace centroide (centroid linkage): “Se calcula el centroide de cada uno de los
clústeres y se selecciona como la distancia entre los dos clústeres.” (Amat
Rodrigo, 2017). (Anexo 2.4).
44
El dendograma nos indica que las empresas se pueden agrupar hasta en 2 clústeres como
mínimo. Esto se puede visualizar con ayuda de la línea discontinua de arriba. Sin
embargo, hemos decidido crear 5 clústeres que aparecen dentro de 5 cajas formadas por
líneas discontinuas, para poder comparar con el método K-Medios.
45
*Fuente – Elaboración propia en la herramienta RStudio.
Al igual que en el dendograma anterior, este nos indica que las empresas se pueden
agrupar hasta en 2 clústeres como mínimo. Igualmente, hemos decidido crear 3 clústeres
para poder comparar. En este caso:
46
Extraemos las siguientes observaciones de los resultados obtenidos:
• Observamos que los resultados obtenidos por cada método son muy similares
entre sí. Las diferencias entre clústeres son mínimas. Por ejemplo, Los métodos
K-Medios y de Clustering Jerárquico Aglomerativo modelo Ward, ofrecen
resultados prácticamente idénticos. La única diferencia es el sector Piedra, arcilla
y productos de vidrio (09), el cual pasa a formar parte de otro clúster. El método
de Clustering Jerárquico Divisivo es el que ofrece datos más dispares, con
respecto a los otros dos modelos. Con este método, los componentes 06, 08, y 10
forman parte de otro clúster.
47
6. CONCLUSIONES
La utilidad del análisis predictivo es algo que no ha pasado desapercibido por gobiernos,
grandes corporaciones e incluso universidades. Su popularidad ha crecido tanto que se ha
convertido en parte integral del “Business Inteligence” o Inteligencia de negocio,
encontrándose a disposición de todo tipo de empresas, personas y organizaciones.
Mi intención con este trabajo ha sido la de explicar y destacar los aspectos que hacen de
los modelos predictivos una ventaja competitiva para las empresas y organizaciones,
además de describir las herramientas y técnicas que el Machine Learning nos proporciona
para crearlos. Para abordar un tema tan amplio, decidí empezar desde los más general,
describir que es el Big Data, para luego ir concretando cada vez más en los temas de
Análisis Predictivo, sus distintos modelos, el Machine Learning y sus algoritmos,
terminando con un ejemplo del algoritmo clúster.
Si algo debe de quedar claro es que el requerimiento principal para poder crear un modelo
predictivo es la existencia de un conjunto lo suficientemente amplio de datos como para
permitir detectar en ellos patrones que permitan formular reglas capaces de anticipar
previsiones. Igualmente, la capacidad de almacenar y gestionar esos datos se convierte en
un requerimiento fundamental para la correcta elaboración de modelos predictivos. En
otras palabras, no podemos hablar de Análisis Predictivo sin mencionar el Big Data, pues
este representa un pilar esencial del proceso.
Un aspecto con el que no contaba pero que me ha llamado mucho la atención y encuentro
que merece la pena comentar, es el concepto de la anonimidad de los datos. Uno de los
aspectos más negativos, podríamos decir, sobre la revolución digital y la aparición
constante de información, es la perdida de privacidad a todos los niveles. Muchas veces
no somos conscientes de lo expuestos que estamos al acceder a ciertas páginas web,
comprar online o comentar en redes sociales. Lo que conseguimos a través de estas
acciones es facilitar nuestros datos y generar una huella rastreable en internet. Puede que
algunos aspectos como que la gente conozca nuestros gustos u opiniones sobre ciertos
temas no nos parezcan tan alarmantes. Sin embargo, a medida que crece y se expande
esta revolución digital y nuestra huella se hace más grande, se vuelve más fácil el acceso
48
a otro tipo de información más confidencial como nuestra dirección, cuenta bancaria o
número de la seguridad social.
Tampoco nos debe de sorprender que la parte de profundización del Análisis Predictivo
y Machine Learning haya terminado siendo la más amplia. Ambos aspectos encierran una
enorme complejidad sobre la que hay mucho que profundizar. Como he dicho antes, en
este trabajo se ha intentado destacar solamente los aspectos más importantes y de mayor
utilidad para crear modelos predictivos, esto representa una pequeña parte del universo
de posibilidades que ofrecen el Análisis Predictivo y el Machine Learning.
Finalmente, en cuanto a la parte del ejemplo del método clúster el resultado obtenido con
los dos algoritmos empleados, propios del método, muestran que la herramienta RStudio
cumple con las prestaciones exigibles para la creación de modelos predictivos. He de
añadir también, que he disfrutado mucho buscando una base de datos apropiada y creando
los modelos con la herramienta RStudio.
49
7. BIBLIOGRAFÍA
es.mathworks.com. (MWa). (n.d.). Análisis Predictivo, tres cosas que es necesario saber.
Disponible en: https://la.mathworks.com/discovery/predictive-analytics.html
50
Espino Timón, C. (16 de enero, 2017). Análisis predictivo: técnicas y modelos utilizados
y aplicaciones del mismo – herramienta Open Source que permite su uso. Disponible en:
http://openaccess.uoc.edu/webapps/o2/bitstream/10609/59565/6/caresptimTFG0117me
m%C3%B2ria.pdf
iic.uam.es. (2016). Las 7 V del Big Data: Características más importantes. Disponible en:
https://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-importantes-7-v/
Juan F. Cía. (2015). El ranking de las mejores soluciones de análisis predictivo para
empresas. Disponible en:
https://bbvaopen4u.com/es/actualidad/el-ranking-de-las-mejores-soluciones-de-analisis-
predictivo-para-empresas
51
Ladrero, I. (2018). Big Data en el sector financiero: 10 casos de uso.
Disponible en: https://www.baoss.es/big-data-sector-financiero-10-casos-uso/
Lafuente, A. (22 de mayo 2018) Reducción de la dimensionalidad (o por qué más datos
no siempre es mejor). Disponible en: https://aukera.es/blog/reduccion-dimensionalidad/
Parra, F. (25 de enero, 2019). Estadística y Machine Learning con R. Disponible en:
https://bookdown.org/content/2274/metodos-de-clasificacion.html
52
Shimada, T. & López, F. Analítica Predictiva: cómo convertir la información en ventaja
competitiva. Disponible en:
http://www.il- latam.com/images/articulos/articulo-revista-109-como-convertir-la-
informacion-en-ventaja-competitiva.pdf
Siegel, E. (2013). Predictive Analytics. The power to predict who will click, buy, lie, or
die.
53
8. ANEXOS
Anexo 1: El cuadro contiene las ganancias como porcentaje del capital social de diversos
sectores económicos de la economía estadounidense para los años 1959 a 1968.
54
Anexo 2.2: Enlace Simple o Single Linkage
55
Anexo 2.4: Enlace Centroide o Centroid Linkage
HTML: HyperText Markup Language. Es el lenguaje de marcado para la elaboración de páginas web.
56
NoSQL: "no solo SQL". Es una amplia clase de sistemas de gestión de bases de datos que difieren del
modelo clásico de SGBDR (Sistema de Gestión de Bases de Datos Relacionales) en aspectos importantes,
siendo el más destacado que no usan SQL como lenguaje principal de consultas.
SDC: Statistical Disclousure Control. Es una técnica utilizada en la investigación basada en datos para
garantizar que ninguna persona u organización sea identificable a partir de los resultados de un análisis de
datos de encuestas o administrativos, o en la divulgación de micro datos.
SNA: Social Network Analysis. Es un área de investigación enfocada en el estudio de las redes sociales.
57