EPS Python - Módulo 12

Este documento presenta una sesión sobre modelado predictivo con Python. Cubre temas como preprocesamiento de datos, división en conjuntos de entrenamiento y prueba, creación de nuevas variables, selección de variables, tratamiento de valores faltantes y atípicos, balanceo de clases, y conceptos de overfitting y underfitting. El objetivo es proporcionar una introducción a los pasos clave en el proceso de modelado de datos.

Cargado por

diego

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

24 vistas48 páginas

EPS Python - Módulo 12

Cargado por

diego

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 48

Especialización enAnalytics con

Python

SESIÓN XII

Docente: Arnaldo Eduardo Alvarado Vallejos

Reglas de Juego
Se requiere puntualidad para un mejor desarrollo del curso.

Para una mayor concentración mantener silenciado el micrófono durante la

sesión.

Las preguntas se realizarán a través del chat y en caso de que lo requieran

podrán activar el micrófono.

Realizar las actividades y/o tareas encomendadas en los plazos determinados.

Identificarse en la sala Zoom con el primer nombre y primer apellido.

Contenido – Módulo 12

• Conceptos básicos
• Proceso de modelamiento
• Preprocesamiento de datos: Partición train-test-validación
• Técnicas de balanceo de datos: Under Sampling, Over Sampling, SMOTE
• Análisis de componente Principales (PCA)
• Entendimiento del Overfitting y Underfitting.
Algunos conceptos básicos
Aprendizaje supervisado: proceso de modelamiento
Aprendizaje supervisado: proceso de modelamiento
Preprocesamiento de datos
División en entrenamiento y prueba
División en entrenamiento y prueba
División en entrenamiento y prueba
Creación de nuevas features
Creación de nuevas features
Creación de nuevas features mediante PCA
Creación de nuevas features mediante PCA
Weight of Evidence (WoE)
Es una técnica poderosa para realizar la transformación y selección de variables. Se usa ampliamente en el
puntaje crediticio para medir la separación entre clientes buenos y malos (variables). Por lo tanto, está
diseñado solamente para el modelo de regresión logística binaria.
Ventajas Desventajas

✓ Maneja los valores perdidos y los valores atípicos ➢ Pérdida de información (variación) debido al
✓ La transformación se basa en el valor logarítmico de agrupamiento en pocas categorías
distribución. ➢ Es una medida "univariante" por lo que no tiene en
✓ Puede transformar una variable independiente para cuenta la correlación entre variables independientes
que establezca una relación monótona con la ➢ Es fácil manipular (sobreajustar) el efecto de las
variable dependiente. variables de acuerdo con cómo se crean las categorías.
Creación de nuevas features: WOE
Creación de nuevas features: WOE
Selección de variables
Selección de variables
Selección de variables: Análisis Univariado
Selección de variables: Técnicas Estadísticas
El esencial tratamiento de datos
Imputación de datos faltantes
Imputación de datos faltantes
Tratamiento de valores atípicos
Tratamiento de valores atípicos
Labeling
One Hot Encoding
Cuando la variable categórica es nominal, se recomienda utilizar one-hot-encoding
Escalamiento
Lidiando con eventos raros: clases desbalanceadas
Lidiando con eventos raros: clases desbalanceadas
Muestreo de eventos raros: balanceo de datos
Muestreo de eventos raros: balanceo de datos
Estrategias de balanceo
Undersampling
Tomek Links
Elimina registros de la clase mayoritaria que se encuentren cerca a la frontera de decisión de las clases.
Oversampling
SMOTE
Selecciona una instancia de la clase minoritaria aleatoriamente y encuentra k vecinos cercanos de la misma
clase. Los registros nuevos son creados eligiendo uno de los k vecinos y creando una combinación convexa
entre ambos.
SMOTE
Entrenamiento
Disyuntivas en el desarrollo del modelos

Fuentes de error
Overfitting y underfitting
Overfitting y underfitting
Overfitting y underfitting
Para encontrar el equilibrio entre overfitting y underfitting es necesario observar los resultados en los
conjuntos de train y test.
Complejidad vs Intrepretabilidad
En los últimos años han aparecido nuevos modelos con alta performance y alta interpretabilidad
❑ Arnaldo Eduardo Alvarado Vallejos
[email protected]
951611996
https://www.linkedin.com/in/arnaldoalvaradovallejos/

También podría gustarte

Ebook Sesiones de Entrenamiento
Aún no hay calificaciones
Ebook Sesiones de Entrenamiento
13 páginas
Abb Acs 800
100% (2)
Abb Acs 800
3 páginas
Análisis y Diseño de Software - Examen Parcial 2
Aún no hay calificaciones
Análisis y Diseño de Software - Examen Parcial 2
7 páginas
Cotizacion Hidro Shop
Aún no hay calificaciones
Cotizacion Hidro Shop
3 páginas
Battle Raper 2 Guia
Aún no hay calificaciones
Battle Raper 2 Guia
6 páginas
Maestro de La Inmortalidad Cap Del 21 A 100
Aún no hay calificaciones
Maestro de La Inmortalidad Cap Del 21 A 100
610 páginas
Determinación Experimental de La Función de Transferencia
Aún no hay calificaciones
Determinación Experimental de La Función de Transferencia
10 páginas
Impresora Pantum
Aún no hay calificaciones
Impresora Pantum
85 páginas
Informatica Forense
Aún no hay calificaciones
Informatica Forense
24 páginas
Paquete de Diseño Gráfico Definitivo de Más de 700 GB.
Aún no hay calificaciones
Paquete de Diseño Gráfico Definitivo de Más de 700 GB.
17 páginas
3 Programacion C Keil
Aún no hay calificaciones
3 Programacion C Keil
67 páginas
Hernandez Hernandez Kelly Alexandra 2017
Aún no hay calificaciones
Hernandez Hernandez Kelly Alexandra 2017
163 páginas
EPS Python - Módulo 11
Aún no hay calificaciones
EPS Python - Módulo 11
49 páginas
Estudio de Caso Maria
0% (1)
Estudio de Caso Maria
16 páginas
EPS Python - Módulo 9
Aún no hay calificaciones
EPS Python - Módulo 9
46 páginas
EPS Python - Módulo 13
Aún no hay calificaciones
EPS Python - Módulo 13
38 páginas
Manual Operaciones Generales TNS
Aún no hay calificaciones
Manual Operaciones Generales TNS
56 páginas
Manual de Usuario - Registro de Documentos para PDT
Aún no hay calificaciones
Manual de Usuario - Registro de Documentos para PDT
10 páginas
Resumen HTML5 Basico
Aún no hay calificaciones
Resumen HTML5 Basico
8 páginas
Intérprete de Comando - Símbolo Del Sistema-PowerShell
Aún no hay calificaciones
Intérprete de Comando - Símbolo Del Sistema-PowerShell
10 páginas
Bluetooth
Aún no hay calificaciones
Bluetooth
21 páginas
Ce82 - I13a - Autoevaluación 1 - Periche Jacinto Stefannie Elizabeth
Aún no hay calificaciones
Ce82 - I13a - Autoevaluación 1 - Periche Jacinto Stefannie Elizabeth
6 páginas
MME - UT5Actividades5.1-TGR JEY
Aún no hay calificaciones
MME - UT5Actividades5.1-TGR JEY
4 páginas
Speech de Venta
Aún no hay calificaciones
Speech de Venta
3 páginas
Tema-Induccion Matematica y Recursion
Aún no hay calificaciones
Tema-Induccion Matematica y Recursion
13 páginas
Design Thinking
Aún no hay calificaciones
Design Thinking
8 páginas
Guía de Actividades y Rúbrica de Evaluación - Fase 2 - Metodologías de Evaluación de Riesgos Ambientales
Aún no hay calificaciones
Guía de Actividades y Rúbrica de Evaluación - Fase 2 - Metodologías de Evaluación de Riesgos Ambientales
13 páginas
TALLER 2 Logica Programacion
Aún no hay calificaciones
TALLER 2 Logica Programacion
2 páginas
Hoja de Vida Ricardo Marin
Aún no hay calificaciones
Hoja de Vida Ricardo Marin
3 páginas
Fisica Electronica
Aún no hay calificaciones
Fisica Electronica
11 páginas
Parcial Final Estadistica Inferencial
Aún no hay calificaciones
Parcial Final Estadistica Inferencial
6 páginas
Microcontroladores VS PLC
Aún no hay calificaciones
Microcontroladores VS PLC
2 páginas
Integradores y Derivadores
Aún no hay calificaciones
Integradores y Derivadores
5 páginas
El Fin de La Memoria
Aún no hay calificaciones
El Fin de La Memoria
2 páginas