EPS Python - Módulo 12
EPS Python - Módulo 12
Python
SESIÓN XII
• Conceptos básicos
• Proceso de modelamiento
• Preprocesamiento de datos: Partición train-test-validación
• Técnicas de balanceo de datos: Under Sampling, Over Sampling, SMOTE
• Análisis de componente Principales (PCA)
• Entendimiento del Overfitting y Underfitting.
Algunos conceptos básicos
Aprendizaje supervisado: proceso de modelamiento
Aprendizaje supervisado: proceso de modelamiento
Preprocesamiento de datos
División en entrenamiento y prueba
División en entrenamiento y prueba
División en entrenamiento y prueba
Creación de nuevas features
Creación de nuevas features
Creación de nuevas features mediante PCA
Creación de nuevas features mediante PCA
Weight of Evidence (WoE)
Es una técnica poderosa para realizar la transformación y selección de variables. Se usa ampliamente en el
puntaje crediticio para medir la separación entre clientes buenos y malos (variables). Por lo tanto, está
diseñado solamente para el modelo de regresión logística binaria.
Ventajas Desventajas
✓ Maneja los valores perdidos y los valores atípicos ➢ Pérdida de información (variación) debido al
✓ La transformación se basa en el valor logarítmico de agrupamiento en pocas categorías
distribución. ➢ Es una medida "univariante" por lo que no tiene en
✓ Puede transformar una variable independiente para cuenta la correlación entre variables independientes
que establezca una relación monótona con la ➢ Es fácil manipular (sobreajustar) el efecto de las
variable dependiente. variables de acuerdo con cómo se crean las categorías.
Creación de nuevas features: WOE
Creación de nuevas features: WOE
Selección de variables
Selección de variables
Selección de variables: Análisis Univariado
Selección de variables: Técnicas Estadísticas
El esencial tratamiento de datos
Imputación de datos faltantes
Imputación de datos faltantes
Tratamiento de valores atípicos
Tratamiento de valores atípicos
Labeling
One Hot Encoding
Cuando la variable categórica es nominal, se recomienda utilizar one-hot-encoding
Escalamiento
Lidiando con eventos raros: clases desbalanceadas
Lidiando con eventos raros: clases desbalanceadas
Muestreo de eventos raros: balanceo de datos
Muestreo de eventos raros: balanceo de datos
Estrategias de balanceo
Undersampling
Tomek Links
Elimina registros de la clase mayoritaria que se encuentren cerca a la frontera de decisión de las clases.
Oversampling
SMOTE
Selecciona una instancia de la clase minoritaria aleatoriamente y encuentra k vecinos cercanos de la misma
clase. Los registros nuevos son creados eligiendo uno de los k vecinos y creando una combinación convexa
entre ambos.
SMOTE
Entrenamiento
Disyuntivas en el desarrollo del modelos
Fuentes de error
Overfitting y underfitting
Overfitting y underfitting
Overfitting y underfitting
Para encontrar el equilibrio entre overfitting y underfitting es necesario observar los resultados en los
conjuntos de train y test.
Complejidad vs Intrepretabilidad
En los últimos años han aparecido nuevos modelos con alta performance y alta interpretabilidad
❑ Arnaldo Eduardo Alvarado Vallejos
[email protected]
951611996
https://www.linkedin.com/in/arnaldoalvaradovallejos/