Sesion01 - MachineLearningInmersionPython
Sesion01 - MachineLearningInmersionPython
SESIÓN 01:
Machine Learning
Inmersion
DMC ONLINE #YoMeCapacitoEnCasa
Reglas e
Itinerario
www.dmc.pe
DMC ONLINE
Reglas
Puntualidad
www.dmc.pe
sea necesario se habilita el micrófono
#YoMeCapacitoEnCasa
DMC ONLINE
Itinerario
www.dmc.pe
8:40 PM – 10:10 PM Modulo 2
#YoMeCapacitoEnCasa
DMC ONLINE
Calificación
www.dmc.pe
#YoMeCapacitoEnCasa
DMC ONLINE #YoMeCapacitoEnCasa
Contenido de sesión
www.dmc.pe
¡Hola! Soy,
André Chávez
Lead Data Scientist Estadístico. MSc. Data Science
www.dmc.pe
#YoMeCapacitoEnCasa
AGENDA
Aplicaciones de Machine Learning.
Conceptos básicos y palabras claves.
¿ Qué es Machine Learning ?.
Desarrollo de algoritmos de Machine Learning en la Industria.
Evaluación técnica de algoritmos de Machine Learning.
Evaluación de negocio de algoritmos de Machine Learning.
Implementación de algoritmos de Machine Learning en la Industria.
Proceso metodológico de desarrollo e implementación de algoritmos
de Machine Learning en la Industria.
Google DeepMind - AlphaStar
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-
reinforcement-learning
https://www.thedigitaltransformationpeople.com/channels/enabling-technologies/machine-
learning-finance/
https://www.n-ix.com/fresh-look-machine-learning-retail-10-top-applications/
Conjunto de Datos (Data Set): El total del conjunto de datos sobre los que queremos
desarrollar un algoritmo de Machine Learning con el fin de obtener un modelo que lo
represente lo mejor posible. Contendrá variables independientes y dependientes.
Variables Independientes (Features), (VI): Aquellas columnas del Data Set que serán
usadas por el algoritmo para generar un modelo que prediga lo mejor posible las
variables dependientes.
Variables dependientes (Labels,Target), (VD): Columna del data set que responde a
una correlación de VI y que debe ser predicha por el futuro modelo
Conjunto de Datos de Entrenamiento (Training Set): Subconjunto del Data Set que
será utilizado para entrenar el modelo que se pretende generar.
Conjunto de Datos de Test (Test Set): Subconjunto del data set que se le pasará al
modelo una vez haya sido entrenado para comprobar, mediante el uso de diferentes
métricas, sus indicadores más importantes de calidad.
NECESITAMOS ENTENDER Y CONOCER ALGUNOS TÉRMINOS BÁSICOS …
13
¿QUÉ ES MACHINE LEARNING?
“Es realmente difícil programar o hacer una tarea manual por lo general
repetitiva pues resulta poco eficiente y tediosa. Tal vez un algoritmo o
sistema pueda entender lo que necesito que haga. Tal vez pueda
enseñarle cómo hacerlo, si tiene la estructura correcta y buenos
ejemplos”.
CUÁLES SON LAS ÁREAS QUE COMPRENDEN EL MACHINE LEARNING …
SUPERVISED LEARNING (MODELOS SUPERVISADOS)
Género.
Rangos de Edad.
Si Compra
Ingresos.
No Compra
Estado Civil.
UNSUPERVISED LEARNING (MODELOS NO SUPERVISADOS)
Se busca la
interdependencia de las
variables.
MODELOS NO SUPERVISADOS
REINFORCEMENT LEARNING (APRENDIZAJE POR REFUERZO)
El algoritmo de aprendizaje
recibe un tipo de valoración
acerca de la idoneidad de la
respuesta dada.
Cuando la decisión es
correcta es muy parecido al
aprendizaje supervisado, sin
embargo difiere mucho
cuando la decisión es
incorrecta.
DEEP LEARNING (APRENDIZAJE PROFUNDO)
2
2
Y CÓMO ES EL PROCESO DE UNA SOLUCIÓN ANALÍTICA BASADA EN
MACHINE LEARNING EN LA INDUSTRIA …
SI BIEN ES CIERTO EXISTEN FRAMEWORKS DE TRABAJO, TODO SE
DEBE ADAPTAR A METODOLOGÍAS AGILE …
Y LO PRINCIPAL ES EL ENTENDIMIENTO DEL PROBLEMA DE LA
NATURALEZA O NEGOCIO Y SU POSIBLE SOLUCIÓN …
1 .¿Que problema quiero solucionar? Variable objetivo Ejem: Estimar ingresos de personas
o de respuesta(Y) no bancarizados
Clientes Dependientes e
2 .¿Cuál es la población total de estudio? Población Objetivo
Independientes
4 .¿Qué indicadores pueden explicar el Covariables (Xs) Ejem: NSE (Reniec), Tipo de
problema? automovil (Sunarp)
Variable
Target
Algoritmo ML PO
Drivers PD
DESPUÉS ENTENDER QUE DEBEMOS REPLICAR O BUSCAR PATRONES
EN EL PASADO PARA EXTRAPOLAR O PREDECIR UN FUTURO…
Enfoque Variable de
Donde se define a la variable de respuesta
Covariables
temporal: Xi respuesta (Y)
• “Pasado”: Periodo de observación
Métrica
Covariables Xi Var_Target=
f(Var_X1,Var_X2, Var_X3,
Var_X4,Var_X5,Var_X6)
Y NO OLVIDAR QUE PODRÍA EXISTIR ESTACIONALIDAD O
PARTICULARIDADES POR ENDE DEBEMOS TENER COSECHAS O PERIODOS
DE ANÁLISIS …
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
1
Test
2
1
Train
2
Información Ocurrencia de la
histórica Target
PODRÍAMOS BUSCAR PARTICIONES DE LA PD PARA SER MAS
PRECISOS O ATACAR UN PROBLEMA MEJOR…
Y DESPUÉS …. EL ESENCIAL TRATAMIENTO O AED DE LOS DATOS …
29
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …
30
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …
Log(x1)
Y DESPUÉS PASAMOS AL FEATURE SELECTION O SELECCIÓN DE
VARIABLES …
MODELAMIENTO DE INFORMACIÓN O APLICACIÓN DE ALGORITMOS
DE MACHINE LEARNING ...
Desarrollo Modelos Productivo Modelos
ESTADO INGRESOS
REEMBOLSO FRAUDE
ID CIVIL ANUALES
1 SI SOLTERO S/ 1,000 NO Algoritmo de
2 SI CASADO S/ 5,000 NO Aprendizaje
3 NO CASADO S/ 3,500 SI
4 SI VIUDO S/ 4,500 NO
Generar
5 NO SOLTERO S/ 2,000 NO
el
6 NO SOLTERO S/ 1,500 SI Modelo
Tabla de Aprendizaje
3
5
Evaluando un
VALIDAMOS TECNICAMENTE Algoritmo
SI LOS de Machine
ALGORITMOS USADOSLearning
SON
ASERTIVOS Y TIENEN BUENOS SCORES DE PRECISION …
REALIDAD
NO
MOROSOS
DECISIÓN CORRECTA
VN FP
MOROSOS
FN DECISIÓN CORRECTA
VP
ÍNDICE DE GINI
Si el valor del Gini se encuentra entre 0 y 0.25, decimos que el modelo predictivo
tiene una clasificación “Baja”; si el valor del Gini se encuentra entre 0.25 y 0.45,
tiene una clasificación “Aceptable”; si el valor del Gini se encuentra entre 0.45 y
0.6, tiene una clasificación “Buena”, y finalmente, si el valor del Gini es mayor a 0.6,
el modelo tiene una clasificación de “Muy buena”.
LE DAMOS EXPLICABILIDAD E INTERPRETABILIDAD A LOS ALGORITMOS
ENTRENADOS Y VALIDADOS …
LE DAMOS EXPLICABILIDAD E INTERPRETABILIDAD A LOS ALGORITMOS
ENTRENADOS Y VALIDADOS …
● La importancia de variable se
ordena de mayor a menor
39
EVALUACIÓN DE NEGOCIO DE UN ALGORITMO
DE ANALÍTICA PREDICTIVA
4
0
VALIDAMOS DE ACUERDO A METRICAS O KPI’S DE NEGOCIO PARA
GENERAR CONFIANZA Y ALIADOS DE LA SOLUCION …
4
3
IMPLEMENTAMOS EL ALGORITMO O LA SOLUCIÓN ANALÍTICA EN
CAMPAÑAS O ACCIONES COMERCIALES …
% Sucesos
Probabilidad N° Clientes N° Sucesos VD VD/ N°
Clientes Recomendad
0,9 10 000 100 36% o
0,8 10 000 60 22%
0,7 10 000 40 14%
0,6 10 000 33 12%
0,5 10 000 20 7% Medio
0,4 10 000 10 4%
0,3 10 000 5 2%
0,2 10 000 5 2%
0,1 10 000 3 1% Bajo
0 10 000 3 1%
Total 100 000 279 100%
GRUPOS DE % SUCESOS
N° CLIENTES EFECTIVIDAD LIFT
EJECUCIÓN ACUMULADOS
20% de
Efectividad en
la Cartera
Clientes con Gestión del
Modelo de Adquisición
12% de
Efectividad en
la Cartera
Balanceo de datos.
Selección de variables. (Met. Estadísticas vs ML).
Modelamiento y entendimiento de drivers o factores que influyen en la solución.
Validación técnica. Validación negocio.
Implementación.
REFERENCIAS