Clase8 - BigDataMachineLearning
Clase8 - BigDataMachineLearning
Profesor:
Bonaccorsi Maximiliano
Unidad 4 -Big Data - Concepto
Temas
Variedad Volumen
Tiene que ver con
Esta dimensión se refiere a la
gestionar la complejidad
cantidad de datos, grandes
de múltiples fuentes y colecciones de información
formatos de datos creadas para diferentes usos y
propósitos
Velocidad
Se refiere a los datos en
movimiento, rapidez en la
BIG
Valor
DATA
generación, acceso y
análisis de datos en su Uso eficiente para sacar el máximo
entorno de explotación valor a los datos, algoritmos de
análisis de gran rendimiento y
herramientas para la visualización
Veracidad
Para que las fuentes de datos
representen la verdad y no estén
alteradas
Big Data
En contexto con Machine learning
• Virtualización de datos
• Procesamiento paralelo
• Distribuido de archivos
• Bases de datos en memoria
• Microservicios
• Contenedorizacion (Docker para aplicaciones)
Big Data
Adecuación de los datos para ingesta de Machine Learning:
Ejemplo:
Los algoritmos utilizan números para los datos tienen palabras.
• Se deben transformar las palabras en números
• Se deben completar los nulls
• Y corregir otras irregularidades
Análisis Predictivo
Las empresas han tenido éxito en el uso de análisis para comprender dónde han estado
y cómo pueden aprender del pasado para anticipar el futuro
Veamos ejemplo 1
Predicción en Google Colab
Predicción de Poesía
Machine Learning
• Con Machine Learning la maquina construye (aprende) su propio
algoritmo para resolver un problema
MACHINE LEARNING
PROGRAMACION TRADICIONAL
Meta
Programa Programa
Datos de
entrada
Datos de Datos de Programa
entrada salida
Datos de
salida
Machine Learning
Cuando se debe Usar?
• Tenemos grandes volúmenes de datos pero no reconocemos las reglas a programar
• El Dominio no es comprensible para el humano
• Existen Patrones y/o reglas imperceptibles para el humano
Ejemplo: “Yo puedo reconocer tu voz”, pero no puedo explicar como lo hago.
MACHINE LEARNING
Meta
Programa
Datos de
entrada
Programa
Datos de
salida
Machine Learning
Se generalizan comportamientos a partir de una información suministrada en forma
de ejemplos.
• Es un proceso de inducción del conocimiento
ML es:
Dado: F?
{0,1,2,3,4,5,6,7,8,9}
{Spam, Not Spam}
Pixels
Emails
Machine Learning
Existen diferentes técnicas para representar y construir la funcion
Ejemplos
• Redes Neuronales Artificiales (ANN)
• Support Vector Machine (SVM)
• Arboles de Desicion
F? ANN
● Python Spark
● Organizaciónes
● Data mining
Técnicas de Procesamientos
Procesos - Hadoop
● Perspectiva Tecnológica:
○ procesamiento de datos (por lotes, analítico, en memoria y gráfico)
○ almacenamiento de datos masivos en tiempo real o procesamiento histórico
○ puede ingerir miles de millones de eventos a gran escala
○ Admite múltiples formas de ejecutar modelos y algoritmos: Los ejemplos incluyen filtros
bayesianos, agrupamiento, análisis de regresión, redes neuronales, etc. Los desarrolladores
tienen la opción de MapReduce, Spark (a través de Java, Python, R), Storm, etc. y SAS.
○ Hadoop proporciona una opción NoSQL altamente escalable: HBase. Se ha demostrado que
HBase admite la ingesta casi en tiempo real de miles de millones de flujos de datos
Hadoop para la predicción
detección de posibles fraudes
● Perspectiva comerciales :
○ Información en tiempo real : Hadoop se puede utilizar para generar
información con una latencia de unos pocos milisegundos que puede ayudar
a los bancos a detectar el fraude tan pronto como suceda.
○ Una vista única de cliente / transacción y fraude habilitada por Hadoop
○ Arquitectura acoplada libremente pero lista para la nube
○ Altamente escalable pero rentable
Big Data Hadoop
Patrón de
arquitectura para
una aplicación de
detección
Big Data
• ML (detección Fraudes)
• Reporteria
• Datos Compartir
Big Data
• ML (detección Fraudes)
• Reporteria
Big data - caso practico
df=pd.read_csv('creditcard_data.csv')
df.head()
df.shape
(5050, 30)
Predicciones de fraudes con Python
● Random Over Sampling (ROS): directo y simple, pero entrenando a su modelo en muchos
duplicados
Se divide el dataset en 80% para entrenamiento y 20% para testeo del modelo
1. Limitado a resultados sí / no
# Step 1: split your features and labels into train and test data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)