Analítica en Big Data. Machine Learning
Analítica en Big Data. Machine Learning
Fundamentals
• Análisis descriptivo
- ¿Qué ha pasado?
• Análisis de diagnóstico
• Análisis prescriptivo
Mientras que la mayoría de las analíticas de datos proporcionan una visión general
sobre el tema, las analíticas prescriptivas le proporcionan un enfoque "láser" para
responder a preguntas precisas, centradas en el “qué deberíamos hacer”. Es decir,
mientras que las analíticas exploratorias, descriptivas nos permiten saber qué ha
pasado y las predictivas, qué pasará, este tipo de análisis nos permite identificar
puntos de mejora.
• Análisis exploratorio
Suelen usarse técnicas y herramientas de visualización que nos permitan “jugar” con
los datos de una manera fácil y rápida.
• Análisis predictivo
Los modelos predictivos utilizan resultados reconocibles para crear un modelo que
pueda predecir valores para diferentes tipos de datos o incluso nuevos datos. La
modelización de los resultados es significativa porque proporciona predicciones que
representan la probabilidad de la variable objetivo -como los ingresos- basándose en
la significación estimada de un conjunto de variables de entrada. Los modelos de
clasificación y regresión son los más utilizados en el análisis predictivo.
La analítica predictiva puede utilizarse en los sistemas bancarios para detectar casos
de fraude, medir los niveles de riesgo crediticio y maximizar las oportunidades de
venta cruzada y de venta ascendente en una organización. Esto ayuda a retener
clientes valiosos para su negocio.
• Análisis mecánico
Como su nombre indica, la analítica mecanicista permite a los científicos de big data
comprender alteraciones claras en los procedimientos o incluso en las variables que
pueden dar lugar a cambios en las mismas. Los resultados de la analítica mecanicista
están determinados por ecuaciones de ingeniería y ciencias físicas. Además, permiten
a los científicos de datos determinar los parámetros si conocen la ecuación.
La analítica causal permite a los científicos de big data averiguar qué es probable que
ocurra si se cambia un componente de la variable. Cuando se utiliza este enfoque, hay
que basarse en una serie de variables aleatorias para determinar lo que es probable
que ocurra a continuación, aunque se pueden utilizar estudios no aleatorios para inferir
de las causalidades. Este enfoque de la analítica es apropiado si se trata de grandes
volúmenes de datos.
• Análisis inferencial
Este enfoque de la analítica tiene en cuenta diferentes teorías sobre el mundo para
determinar ciertos aspectos de población total. Cuando se utiliza la analítica
inferencial, se requiere tomar una muestra más pequeña de información de la
población y utilizarla como base para inferir parámetros sobre población más grande.
El primer paso del proceso de análisis de datos es decidir los objetivos. Estos objetivos
suelen requerir una importante recogida y análisis de datos.
3. Recogida de datos
Una vez que sepa qué tipos de datos necesita para su estudio estadístico, podrá
determinar si los datos pueden obtenerse de las fuentes o bases de datos existentes o
no. Si los datos no son suficientes, tendrá que recoger nuevos datos. Incluso si tiene
datos existentes, es muy importante saber cómo se recogieron los datos. Esto le
ayudará a entender que puede determinar las limitaciones de la generalización de los
resultados y realizar un análisis adecuado.
4. Limpieza de datos
Este es otro paso crucial en el proceso de análisis de datos para mejorar la calidad de
los datos existentes. A menudo, los científicos de datos corrigen las faltas de
ortografía, tratan los valores que faltan y eliminan la información inútil. Este es el
paso más crítico porque los datos basura pueden generar resultados inapropiados y
engañar al negocio.
El análisis exploratorio de datos ayuda a comprender mejor los datos. Porque una
imagen vale más que mil palabras, ya que mucha gente entiende mejor las imágenes
que una conferencia. Asimismo, las medidas de varianza indican la distribución de los
datos en torno al centro. La correlación se refiere al grado en que dos variables se
mueven en sincronía una con otra.
Ahora construya modelos que correlacionen los datos con los resultados de su negocio
y haga recomendaciones. Aquí es donde la experiencia única de los científicos de datos
se vuelve importante para el éxito del negocio. Correlacionar los datos y construir
modelos que predigan los resultados empresariales.
Las técnicas de analítica más avanzada, como Machine Learning y Deep Learning son
las utilizadas aquí.
7. Optimizar y repetir
3. Estadística básica
Hagamos un rápido repaso de los aspectos más básicos del análisis:
Probabilidad
Tendencia central
Moda (mode): El valor más frecuente del conjunto de datos. Si los datos tienen varios
valores que ocurren con mayor frecuencia, tenemos una distribución multimodal.
Variabilidad
Rango: La diferencia entre el valor más alto y el más bajo del conjunto de datos.
Varianza: La diferencia media al cuadrado de los valores con respecto a la media para
medir la dispersión de un conjunto de datos con respecto a la media.
Causalidad: Relación entre dos sucesos en la que uno de ellos se ve afectado por el
otro.
4. Machine Learning
4.1. ¿Qué es el Machine Learning?
A. Samuel
E. Tom Mitchell
“Es la ciencia que permite que las computadoras aprendan y actúen como lo hacen
los humanos, mejorando su aprendizaje a lo largo del tiempo de una forma
autónoma”
Dan Fagella
https://www.upwork.com
- Inteligencia Artificial:
o Aprendizaje
o Entrenamiento de modelos
o Técnicas no supervisadas
- Estadística:
o Manejo de datos
o Transformación y limpieza
o Algoritmos estadísticos
- Informática
o Algoritmos programados
o Almacenamiento de datos
o Tiempos de computación
- Big Data
Imaginemos que queremos construir un filtro de spam. Una primera opción sería hacer
un sistema ad hoc que podría consistir en:
Pero...
Si en vez de intentar definir las reglas a mano cada vez que queramos modificar nuestro
sistema de detección de spam utilizamos un clasificador, podemos redefinir el
problema como:
variables
observaciones
Variables
explicativas/independientes
ESTUDIANTE 1 15 H 9/10 0 … ¿?
ESTUDIANTE 2 16 M … ¿?
ESTUDIANTE 3 15 M 10/10 2 … ¿?
ESTUDIANTE 4 14 H 9/10 1 … ¿?
ESTUDIANTE 5 15 M 10/10 1 … ¿?
… … … … … … ¿?
Variable respuesta/objetivo/dependiente
Aprendizaje Supervisado
Aprendizaje No Supervisado
Para cada combinación, hay una o varias técnicas que podemos aplicar:
Redes
Neuronales
Clasificación Regresión
Supervisado Supervisado
+ Discreta + Continua
Series
temporales
No No
supervisado supervisado
+ Discreta + Continua
Clustering Reducción de
Recomendación dimensiones
Una de las tareas más comunes a realizar. Se trata de encontrar el grupo al que
pertenece una observación.
¿Para qué?
Dos alternativas:
Grupo azul
Grupo naranja
¿Cuándo?
Técnica supervisada
Ejemplos
El nombre de fue introducido por Francis Galton cuando estudiaba que los hijos de
gente alta tendían a ser bajos, por lo que había una regresión a la media. Hay muchos
tipos, siendo la regresión lineal el más sencillo.
¿Para qué?
¿Cuándo?
Técnica supervisada
Ejemplos
¿Para qué?
¿Cuándo?
Ejemplos
Quizá tenemos un conjunto de datos sin etiquetar pero que nos gustaría agrupar en
aquellos que sean similares, por ejemplo:
¿Para qué?
¿Cuándo?
Técnica no supervisada
Ejemplos
¿Para qué?
¿Cuándo?
Técnica no supervisada
Aunque puede tener una versión supervisada si el propio usuario retroalimenta una
respuesta a las recomendaciones que se le realizaron en el pasado (por ejemplo con
una puntuación).
Ejemplos
Recomendación de películas en base a las que has visto, productos en compras online
en base a lo que compraron otros consumidores…
¿Para qué?
¿Cuándo?
Técnica no supervisada
Ejemplos
Deep Learning es una rama del Machine Learning, que intenta simular la estructura
biológica y la funcionalidad de un cerebro humano usando redes de neuronas
artificiales.
¿Para qué?
¿Cuándo?
Técnica supervisada
Ejemplos
7. Evaluación de Modelos
Una vez elegimos y desarrollamos el modelos, necesitamos evaluar lo bien que
funciona. Dependiendo del tipo de aprendizaje que estemos utilizando:
Esta evaluación puede indicarnos que nuestro modelo no está bien ajustado:
8. Ejemplo Clustering
Veamos un ejemplo completo de un algoritmo de ML en Python. El algoritmo de
clustering k-means, que genera el número de grupos que le indiquemos.
Generemos primero de forma aleatoria la nube de puntos: con unos puntos centrados
en el (0, 1), otros en el (-0.5, -0.7) y otros en el (0.5, -0.7)