Machine Learning Python
Machine Learning Python
3
Presentación …
¡Hola! Soy,
André Chávez
“Me encanta el fútbol y tengo un hijito de 2 años”
[www.linkedin.com/in/andré-chávez-a101010]
Reglas e Itinerario
Reglas
Puntualidad
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-
reinforcement-learning
https://www.thedigitaltransformationpeople.com/channels/enabling-technologies/machine-learning-
finance/
https://www.n-ix.com/fresh-look-machine-learning-retail-10-top-applications/
❑ Conjunto de Datos (Data Set): El total del conjunto de datos sobre los que queremos
desarrollar un algoritmo de Machine Learning con el fin de obtener un modelo que lo
represente lo mejor posible. Contendrá variables independientes y dependientes.
❑ Variables Independientes (Features), (VI): Aquellas columnas del Data Set que serán
usadas por el algoritmo para generar un modelo que prediga lo mejor posible las
variables dependientes.
❑ Variables dependientes (Labels,Target), (VD): Columna del data set que responde a
una correlación de VI y que debe ser predicha por el futuro modelo
❑ Conjunto de Datos de Entrenamiento (Training Set): Subconjunto del Data Set que
será utilizado para entrenar el modelo que se pretende generar.
❑ Conjunto de Datos de Test (Test Set): Subconjunto del data set que se le pasará al
modelo una vez haya sido entrenado para comprobar, mediante el uso de diferentes
métricas, sus indicadores más importantes de calidad.
NECESITAMOS ENTENDER Y CONOCER ALGUNOS TÉRMINOS BÁSICOS …
13
¿QUÉ ES MACHINE LEARNING?
“Es realmente difícil programar o hacer una tarea manual por lo general
repetitiva pues resulta poco eficiente y tediosa. Tal vez un algoritmo o
sistema pueda entender lo que necesito que haga. Tal vez pueda
enseñarle cómo hacerlo, si tiene la estructura correcta y buenos
ejemplos”.
CUÁLES SON LAS ÁREAS QUE COMPRENDEN EL MACHINE LEARNING …
SUPERVISED LEARNING (MODELOS SUPERVISADOS)
❑ Género.
❑ Rangos de Edad.
❑ Si Compra
❑ Ingresos.
❑ No Compra
❑ Estado Civil.
UNSUPERVISED LEARNING (MODELOS NO SUPERVISADOS)
❑ Se busca la
interdependencia de las
variables.
MODELOS NO SUPERVISADOS
REINFORCEMENT LEARNING (APRENDIZAJE POR REFUERZO)
❑ El algoritmo de aprendizaje
recibe un tipo de valoración
acerca de la idoneidad de la
respuesta dada.
❑ Cuando la decisión es
correcta es muy parecido al
aprendizaje supervisado, sin
embargo difiere mucho
cuando la decisión es
incorrecta.
DEEP LEARNING (APRENDIZAJE PROFUNDO)
Variable
Target
Algoritmo ML PO
Drivers PD
DESPUÉS ENTENDER QUE DEBEMOS REPLICAR O BUSCAR PATRONES
EN EL PASADO PARA EXTRAPOLAR O PREDECIR UN FUTURO…
Población Variable de
objetivo respuesta(Y)
Métrica
Covariables Xi Var_Target=
f(Var_X1,Var_X2, Var_X3,
Var_X4,Var_X5,Var_X6)
Y NO OLVIDAR QUE PODRÍA EXISTIR ESTACIONALIDAD O
PARTICULARIDADES POR ENDE DEBEMOS TENER COSECHAS O PERIODOS DE
ANÁLISIS …
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
1
Test
2
1
Train
2
Información Ocurrencia de la
histórica Target
PODRÍAMOS BUSCAR PARTICIONES DE LA PD PARA SER MAS PRECISOS
O ATACAR UN PROBLEMA MEJOR…
Y DESPUÉS …. EL ESENCIAL TRATAMIENTO O AED DE LOS DATOS …
29
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …
30
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …
Log(x1)
Y DESPUÉS PASAMOS AL FEATURE SELECTION O SELECCIÓN DE
VARIABLES …
MODELAMIENTO DE INFORMACIÓN O APLICACIÓN DE ALGORITMOS
DE MACHINE LEARNING ...
Desarrollo Modelos Productivo Modelos
ESTADO INGRESOS
REEMBOLSO FRAUDE
ID CIVIL ANUALES
1 SI SOLTERO S/ 1,000 NO Algoritmo de
2 SI CASADO S/ 5,000 NO Aprendizaje
3 NO CASADO S/ 3,500 SI
4 SI VIUDO S/ 4,500 NO
Generar
5 NO SOLTERO S/ 2,000 NO
el
6 NO SOLTERO S/ 1,500 SI Modelo
Tabla de Aprendizaje
REALIDAD
NO
MOROSOS
DECISIÓN CORRECTA
VN FP
MOROSOS
FN DECISIÓN CORRECTA
VP
38
EVALUACIÓN DE NEGOCIO DE UN ALGORITMO
DE ANALÍTICA PREDICTIVA
VALIDAMOS DE ACUERDO A METRICAS O KPI’S DE NEGOCIO PARA
GENERAR CONFIANZA Y ALIADOS DE LA SOLUCION …
% Sucesos
Probabilidad N° Clientes N° Sucesos VD VD/ N°
Clientes Recomendad
0,9 10 000 100 36% o
0,8 10 000 60 22%
0,7 10 000 40 14%
0,6 10 000 33 12%
0,5 10 000 20 7% Medio
0,4 10 000 10 4%
0,3 10 000 5 2%
0,2 10 000 5 2%
0,1 10 000 3 1% Bajo
0 10 000 3 1%
Total 100 000 279 100%
GRUPOS DE % SUCESOS
N° CLIENTES EFECTIVIDAD LIFT
EJECUCIÓN ACUMULADOS
20% de
Efectividad en
la Cartera
Clientes con Gestión del
Modelo de Adquisición
12% de
Efectividad en
la Cartera
❑ Balanceo de datos.
❑ Selección de variables. (Met. Estadísticas vs ML).
❑ Modelamiento y entendimiento de drivers o factores que influyen en la solución.
❑ Validación técnica. Validación negocio.
❑ Implementación.
REFERENCIAS