0% encontró este documento útil (0 votos)
91 vistas

Sesion01 - MachineLearningInmersionPython

Este documento presenta la sesión 01 de capacitación en machine learning de DMC. Incluye las reglas e itinerario de la sesión, que consiste en soporte técnico, dos módulos de capacitación, y pausas. La calificación se basa en asistencia, participación, y trabajo final. El contenido de la sesión es una introducción a machine learning con ejemplos de aplicaciones e implementaciones en diferentes industrias.
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
91 vistas

Sesion01 - MachineLearningInmersionPython

Este documento presenta la sesión 01 de capacitación en machine learning de DMC. Incluye las reglas e itinerario de la sesión, que consiste en soporte técnico, dos módulos de capacitación, y pausas. La calificación se basa en asistencia, participación, y trabajo final. El contenido de la sesión es una introducción a machine learning con ejemplos de aplicaciones e implementaciones en diferentes industrias.
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 49

DMC ONLINE #YoMeQuedoEnCasa

SESIÓN 01:

Machine Learning
Inmersion
DMC ONLINE #YoMeCapacitoEnCasa

Reglas e
Itinerario

www.dmc.pe
DMC ONLINE

Reglas
Puntualidad

Mantener silenciado el micrófono durante la sesión

Las preguntas se realizarán por el chat/ en caso

www.dmc.pe
sea necesario se habilita el micrófono

Realizar las actividades encomendadas

#YoMeCapacitoEnCasa
DMC ONLINE

Itinerario

6:00 PM – 7:00 PM Soporte técnico DMC

7:00 PM – 8:30 PM Modulo 1

8:30 PM – 8:40 PM Pausa activa

www.dmc.pe
8:40 PM – 10:10 PM Modulo 2

#YoMeCapacitoEnCasa
DMC ONLINE

Calificación

Asistencia Participación Trabajo final

(25%) + (25%) + (50%)

www.dmc.pe
#YoMeCapacitoEnCasa
DMC ONLINE #YoMeCapacitoEnCasa

Contenido de sesión

www.dmc.pe
¡Hola! Soy,

André Chávez
Lead Data Scientist Estadístico. MSc. Data Science

www.dmc.pe
#YoMeCapacitoEnCasa
AGENDA
Aplicaciones de Machine Learning.
Conceptos básicos y palabras claves.
 ¿ Qué es Machine Learning ?.
Desarrollo de algoritmos de Machine Learning en la Industria.
Evaluación técnica de algoritmos de Machine Learning.
Evaluación de negocio de algoritmos de Machine Learning.
Implementación de algoritmos de Machine Learning en la Industria.
Proceso metodológico de desarrollo e implementación de algoritmos
de Machine Learning en la Industria.
Google DeepMind - AlphaStar

https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-
reinforcement-learning

15/02/2020 Fundamentos de Aprendizaje de Máquina 9


Casos de uso en Finanzas

https://www.thedigitaltransformationpeople.com/channels/enabling-technologies/machine-
learning-finance/

15/02/2020 Fundamentos de Aprendizaje de Máquina 10


Casos de uso en Retail

https://www.n-ix.com/fresh-look-machine-learning-retail-10-top-applications/

15/02/2020 Fundamentos de Aprendizaje de Máquina 11


NECESITAMOS ENTENDER Y CONOCER ALGUNOS TÉRMINOS BÁSICOS …

 Conjunto de Datos (Data Set): El total del conjunto de datos sobre los que queremos
desarrollar un algoritmo de Machine Learning con el fin de obtener un modelo que lo
represente lo mejor posible. Contendrá variables independientes y dependientes.

 Variables Independientes (Features), (VI): Aquellas columnas del Data Set que serán
usadas por el algoritmo para generar un modelo que prediga lo mejor posible las
variables dependientes.

 Variables dependientes (Labels,Target), (VD): Columna del data set que responde a
una correlación de VI y que debe ser predicha por el futuro modelo

 Conjunto de Datos de Entrenamiento (Training Set): Subconjunto del Data Set que
será utilizado para entrenar el modelo que se pretende generar.

 Conjunto de Datos de Test (Test Set): Subconjunto del data set que se le pasará al
modelo una vez haya sido entrenado para comprobar, mediante el uso de diferentes
métricas, sus indicadores más importantes de calidad.
NECESITAMOS ENTENDER Y CONOCER ALGUNOS TÉRMINOS BÁSICOS …

13
¿QUÉ ES MACHINE LEARNING?

“Es realmente difícil programar o hacer una tarea manual por lo general
repetitiva pues resulta poco eficiente y tediosa. Tal vez un algoritmo o
sistema pueda entender lo que necesito que haga. Tal vez pueda
enseñarle cómo hacerlo, si tiene la estructura correcta y buenos
ejemplos”.
CUÁLES SON LAS ÁREAS QUE COMPRENDEN EL MACHINE LEARNING …
SUPERVISED LEARNING (MODELOS SUPERVISADOS)

 Se tiene una variable


objetivo (Target).

 Variables que ayudan a


predecir a la variable de
salida (Features o drivers).

 Existe una dependencia


funcional de las variables de
entrada con las variables de
salida.
SUPERVISED LEARNING

 Género.

 Rangos de Edad.
 Si Compra

 Ingresos.
 No Compra

 Estado Civil.
UNSUPERVISED LEARNING (MODELOS NO SUPERVISADOS)

 No hay una variable objetivo (Target).


 No hay variables que ayudan a predecir a la variable de salida.

 Todas las variables tienen


la misma importancia.

 Se busca la
interdependencia de las
variables.
MODELOS NO SUPERVISADOS
REINFORCEMENT LEARNING (APRENDIZAJE POR REFUERZO)

 El algoritmo de aprendizaje
recibe un tipo de valoración
acerca de la idoneidad de la
respuesta dada.

 Cuando la decisión es
correcta es muy parecido al
aprendizaje supervisado, sin
embargo difiere mucho
cuando la decisión es
incorrecta.
DEEP LEARNING (APRENDIZAJE PROFUNDO)

 Es un conjunto de algoritmos de Machine Learning que intenta


modelar abstracciones de alto nivel usando arquitecturas compuestas
por redes neuronales, tales como RNN o CNN para resolver problemas
como visión del computador, reconocimiento automático del habla,
reconocimiento del audio y música, etc.
Desarrollo de Algoritmos de Machine Learning en
la Industria

2
2
Y CÓMO ES EL PROCESO DE UNA SOLUCIÓN ANALÍTICA BASADA EN
MACHINE LEARNING EN LA INDUSTRIA …
SI BIEN ES CIERTO EXISTEN FRAMEWORKS DE TRABAJO, TODO SE
DEBE ADAPTAR A METODOLOGÍAS AGILE …
Y LO PRINCIPAL ES EL ENTENDIMIENTO DEL PROBLEMA DE LA
NATURALEZA O NEGOCIO Y SU POSIBLE SOLUCIÓN …

1 .¿Que problema quiero solucionar? Variable objetivo Ejem: Estimar ingresos de personas
o de respuesta(Y) no bancarizados

Clientes Dependientes e
2 .¿Cuál es la población total de estudio? Población Objetivo
Independientes

3¿Con qué población analizo o soluciono el Población Desarrollo Clientes Dependientes e


problema? Independientes con algún CE

4 .¿Qué indicadores pueden explicar el Covariables (Xs) Ejem: NSE (Reniec), Tipo de
problema? automovil (Sunarp)

5.¿Qué técnica estadistica o biológica o Métrica o algoritmo Ejem: Arboles de decisión


informática se ajustaal análisis?

Variable
Target

Algoritmo ML PO

Drivers PD
DESPUÉS ENTENDER QUE DEBEMOS REPLICAR O BUSCAR PATRONES
EN EL PASADO PARA EXTRAPOLAR O PREDECIR UN FUTURO…

INFORMACIÓN HISTÓRICA ALMACENADA • “SupuestoFuturo”:Periodo de Predicción oPerformance

Enfoque Variable de
Donde se define a la variable de respuesta
Covariables
temporal: Xi respuesta (Y)
• “Pasado”: Periodo de observación

Donde se calculan a las variables explicativas


Pasado SupuestoFuturo
Linea de
tiempo Presente Futuro
PD
Campañas
Comerciales
Enfoque matricial:
Población Variable de
objetivo respuesta(Y)

Métrica
Covariables Xi Var_Target=
f(Var_X1,Var_X2, Var_X3,
Var_X4,Var_X5,Var_X6)
Y NO OLVIDAR QUE PODRÍA EXISTIR ESTACIONALIDAD O
PARTICULARIDADES POR ENDE DEBEMOS TENER COSECHAS O PERIODOS
DE ANÁLISIS …

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic

1
Test
2

1
Train
2

Información Ocurrencia de la
histórica Target
PODRÍAMOS BUSCAR PARTICIONES DE LA PD PARA SER MAS
PRECISOS O ATACAR UN PROBLEMA MEJOR…
Y DESPUÉS …. EL ESENCIAL TRATAMIENTO O AED DE LOS DATOS …

29
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …

30
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …

Log(x1)
Y DESPUÉS PASAMOS AL FEATURE SELECTION O SELECCIÓN DE
VARIABLES …
MODELAMIENTO DE INFORMACIÓN O APLICACIÓN DE ALGORITMOS
DE MACHINE LEARNING ...
Desarrollo Modelos Productivo Modelos
ESTADO INGRESOS
REEMBOLSO FRAUDE
ID CIVIL ANUALES
1 SI SOLTERO S/ 1,000 NO Algoritmo de
2 SI CASADO S/ 5,000 NO Aprendizaje
3 NO CASADO S/ 3,500 SI
4 SI VIUDO S/ 4,500 NO
Generar
5 NO SOLTERO S/ 2,000 NO
el
6 NO SOLTERO S/ 1,500 SI Modelo
Tabla de Aprendizaje

ESTADO ING RESO S Modelo


REEMBO LSO FRAUDE
ID CIVIL ANUALES Nuevos
7 SI SOLTERO S/ 4,000 NO Individuos
8 SI CASADO S/ 5,500 NO
9 NO CASADO S/ 6,500 SI Aplicar
el
10
Tabla de Testing Evaluar Modelo
MODELAMIENTO DE INFORMACIÓN O APLICACIÓN DE ALGORITMOS
DE MACHINE LEARNING ...

Random Forest Light GBM Logistic Regression


EVALUACIÓN TÉCNICA UN ALGORITMO DE
ANALÍTICA PREDICTIVA

3
5
Evaluando un
VALIDAMOS TECNICAMENTE Algoritmo
SI LOS de Machine
ALGORITMOS USADOSLearning
SON
ASERTIVOS Y TIENEN BUENOS SCORES DE PRECISION …

MATRIZ DE CONFUSIÓN Y MATRIZ DE COSTOS


PREDICCIÒN
MATRIZ DE CONFUSIÒN
NO MOROSOS MOROSOS

REALIDAD
NO
MOROSOS
DECISIÓN CORRECTA
VN FP
MOROSOS
FN DECISIÓN CORRECTA
VP

PRECISIÓN = (VN + VP) / (VN + VP + FP + FN)

SENSIBILIDAD = VP / (VP + FN)

ESPECIFICIDAD = VN / (VN + FP)

F-SCORE = 2 *( (VP/ VP + FP) * (VP/ VP + FN)) / ((VP/ VP + FP) + (VP/ VP + FN))


VALIDAMOS TECNICAMENTE SI LOS ALGORITMOS USADOS SON
ASERTIVOS Y TIENEN BUENOS SCORES DE PRECISION …

ÍNDICE DE GINI
Si el valor del Gini se encuentra entre 0 y 0.25, decimos que el modelo predictivo
tiene una clasificación “Baja”; si el valor del Gini se encuentra entre 0.25 y 0.45,
tiene una clasificación “Aceptable”; si el valor del Gini se encuentra entre 0.45 y
0.6, tiene una clasificación “Buena”, y finalmente, si el valor del Gini es mayor a 0.6,
el modelo tiene una clasificación de “Muy buena”.
LE DAMOS EXPLICABILIDAD E INTERPRETABILIDAD A LOS ALGORITMOS
ENTRENADOS Y VALIDADOS …
LE DAMOS EXPLICABILIDAD E INTERPRETABILIDAD A LOS ALGORITMOS
ENTRENADOS Y VALIDADOS …

● La importancia de variable se
ordena de mayor a menor

● La distribución horizontal explica la


relación que tiene el valor de la
variable con el target

● Los colores indican el nivel de una


variable
○ ROJO: valores altos
○ AZUL: valores bajos

● Si una variable tiene valores rojos


en los SHAP values mayores a 0
(CERO) indica correlación positiva

● Si una variable tiene valores azules


en los SAHP values mayores a 0
(CERO) indica correlación negativa

39
EVALUACIÓN DE NEGOCIO DE UN ALGORITMO
DE ANALÍTICA PREDICTIVA

4
0
VALIDAMOS DE ACUERDO A METRICAS O KPI’S DE NEGOCIO PARA
GENERAR CONFIANZA Y ALIADOS DE LA SOLUCION …

TABLA DE RESPUESTA - GANANCIAS


VALIDAMOS DE ACUERDO A METRICAS O KPI’S DE NEGOCIO PARA
GENERAR CONFIANZA Y ALIADOS DE LA SOLUCION …
Implementación de Algoritmos de Machine
Learning en la Industria

4
3
IMPLEMENTAMOS EL ALGORITMO O LA SOLUCIÓN ANALÍTICA EN
CAMPAÑAS O ACCIONES COMERCIALES …

% Sucesos
Probabilidad N° Clientes N° Sucesos VD VD/ N°
Clientes Recomendad
0,9 10 000 100 36% o
0,8 10 000 60 22%
0,7 10 000 40 14%
0,6 10 000 33 12%
0,5 10 000 20 7% Medio
0,4 10 000 10 4%
0,3 10 000 5 2%
0,2 10 000 5 2%
0,1 10 000 3 1% Bajo
0 10 000 3 1%
Total 100 000 279 100%

GRUPOS DE % SUCESOS
N° CLIENTES EFECTIVIDAD LIFT
EJECUCIÓN ACUMULADOS

RECOMENDADO 30 000 200 0,67% 2,39


MEDIO 30 000 63 0,21% 0,75
BAJO 40 000 16 0,04% 0,14
TOTAL 100 000 279 0,28%
DEFINIMOS Y DISEÑAMOS UN EXPERIMENTO ENTENDIENDO SI
EXISTE YA UNA SOLUCIÓN ANALÍTICA FUNCIONANDO O ES ALGO
NUEVO QUE PRETENDEMOS IMPLEMENTAR …

20% de
Efectividad en
la Cartera
Clientes con Gestión del
Modelo de Adquisición

12% de
Efectividad en
la Cartera

Clientes sin Gestión del


Modelo de Adquisición
IMPLEMENTAMOS EL ALGORITMO O LA SOLUCIÓN ANALÍTICA, EN LA
INFRAESTRUCTURA CONVENIENTE …

Infraestructura Infraestructura Infraestructura


On Premise Híbrida Cloud
46
METODOLOGÍA DE DESARROLLO DE ALGORITMOS DE MACHINE
LEARNING EN LA INDUSTRIA …

 Entendimiento del problema de la naturaleza a resolver con datos. Búsqueda de


stakeholders o sponsors.
 Análisis exploratorio de datos:

 Completitud de los datos / Imputación de valores perdidos.


 Detección de outliers.
 Transformaciones.
 Recodificaciones.

 Balanceo de datos.
 Selección de variables. (Met. Estadísticas vs ML).
 Modelamiento y entendimiento de drivers o factores que influyen en la solución.
 Validación técnica. Validación negocio.
 Implementación.
REFERENCIAS

 Hands-On Machine Learning with Scikit-Learn and TensorFlow 2nd


Edition (2019)
 Aprendizaje automático – Standford (Coursera) [Link]
 Scikit-Learn [Link]
 Crisp-DM Methodology [Link]
 SEMMA [Link]
 KDD Process [Link]
w w w. d m c . p e
¡GRACIAS!

También podría gustarte