0% encontró este documento útil (0 votos)
24 vistas48 páginas

EPS Python - Módulo 12

Este documento presenta una sesión sobre modelado predictivo con Python. Cubre temas como preprocesamiento de datos, división en conjuntos de entrenamiento y prueba, creación de nuevas variables, selección de variables, tratamiento de valores faltantes y atípicos, balanceo de clases, y conceptos de overfitting y underfitting. El objetivo es proporcionar una introducción a los pasos clave en el proceso de modelado de datos.

Cargado por

diego
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
24 vistas48 páginas

EPS Python - Módulo 12

Este documento presenta una sesión sobre modelado predictivo con Python. Cubre temas como preprocesamiento de datos, división en conjuntos de entrenamiento y prueba, creación de nuevas variables, selección de variables, tratamiento de valores faltantes y atípicos, balanceo de clases, y conceptos de overfitting y underfitting. El objetivo es proporcionar una introducción a los pasos clave en el proceso de modelado de datos.

Cargado por

diego
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 48

Especialización enAnalytics con

Python

SESIÓN XII

Docente: Arnaldo Eduardo Alvarado Vallejos


Reglas de Juego
Se requiere puntualidad para un mejor desarrollo del curso.

Para una mayor concentración mantener silenciado el micrófono durante la


sesión.

Las preguntas se realizarán a través del chat y en caso de que lo requieran


podrán activar el micrófono.

Realizar las actividades y/o tareas encomendadas en los plazos determinados.

Identificarse en la sala Zoom con el primer nombre y primer apellido.


Contenido – Módulo 12

• Conceptos básicos
• Proceso de modelamiento
• Preprocesamiento de datos: Partición train-test-validación
• Técnicas de balanceo de datos: Under Sampling, Over Sampling, SMOTE
• Análisis de componente Principales (PCA)
• Entendimiento del Overfitting y Underfitting.
Algunos conceptos básicos
Aprendizaje supervisado: proceso de modelamiento
Aprendizaje supervisado: proceso de modelamiento
Preprocesamiento de datos
División en entrenamiento y prueba
División en entrenamiento y prueba
División en entrenamiento y prueba
Creación de nuevas features
Creación de nuevas features
Creación de nuevas features mediante PCA
Creación de nuevas features mediante PCA
Weight of Evidence (WoE)
Es una técnica poderosa para realizar la transformación y selección de variables. Se usa ampliamente en el
puntaje crediticio para medir la separación entre clientes buenos y malos (variables). Por lo tanto, está
diseñado solamente para el modelo de regresión logística binaria.
Ventajas Desventajas

✓ Maneja los valores perdidos y los valores atípicos ➢ Pérdida de información (variación) debido al
✓ La transformación se basa en el valor logarítmico de agrupamiento en pocas categorías
distribución. ➢ Es una medida "univariante" por lo que no tiene en
✓ Puede transformar una variable independiente para cuenta la correlación entre variables independientes
que establezca una relación monótona con la ➢ Es fácil manipular (sobreajustar) el efecto de las
variable dependiente. variables de acuerdo con cómo se crean las categorías.
Creación de nuevas features: WOE
Creación de nuevas features: WOE
Selección de variables
Selección de variables
Selección de variables: Análisis Univariado
Selección de variables: Técnicas Estadísticas
El esencial tratamiento de datos
Imputación de datos faltantes
Imputación de datos faltantes
Tratamiento de valores atípicos
Tratamiento de valores atípicos
Labeling
One Hot Encoding
Cuando la variable categórica es nominal, se recomienda utilizar one-hot-encoding
Escalamiento
Lidiando con eventos raros: clases desbalanceadas
Lidiando con eventos raros: clases desbalanceadas
Muestreo de eventos raros: balanceo de datos
Muestreo de eventos raros: balanceo de datos
Estrategias de balanceo
Undersampling
Tomek Links
Elimina registros de la clase mayoritaria que se encuentren cerca a la frontera de decisión de las clases.
Oversampling
SMOTE
Selecciona una instancia de la clase minoritaria aleatoriamente y encuentra k vecinos cercanos de la misma
clase. Los registros nuevos son creados eligiendo uno de los k vecinos y creando una combinación convexa
entre ambos.
SMOTE
Entrenamiento
Disyuntivas en el desarrollo del modelos

Fuentes de error
Overfitting y underfitting
Overfitting y underfitting
Overfitting y underfitting
Para encontrar el equilibrio entre overfitting y underfitting es necesario observar los resultados en los
conjuntos de train y test.
Complejidad vs Intrepretabilidad
En los últimos años han aparecido nuevos modelos con alta performance y alta interpretabilidad
❑ Arnaldo Eduardo Alvarado Vallejos
[email protected]
951611996
https://www.linkedin.com/in/arnaldoalvaradovallejos/

También podría gustarte