0% found this document useful (0 votes)

11 views

Feature Engineering Presentation

ml FEATURE ENGINEERING

Uploaded by

Liz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views

Feature Engineering Presentation

ml FEATURE ENGINEERING

Uploaded by

Liz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 40

Feature

Engineering
Presentation
This slide introduces the topic of machine
learning.
Introducción a la Ingeniería
de Características
El procesamiento de características es el proceso de extracción y transformación de
datos brutos en características que ayudan a los modelos de aprendizaje automático
a aprender y generalizar. Esto a menudo implica un conocimiento del dominio para
identificar formas útiles de representar los datos basados en su significado y
relaciones. Las técnicas comunes incluyen normalización, reducción de
dimensionalidad y la combinación o derivación de nuevas características a partir de
entradas brutas.
Tipos de ingeniería de características

• Construir nuevas características a • Normalizar características

partir de las existentes. Escalar características a un rango común mediante
técnicas como la escalada mínimo-máximo mejora el
Mezclar características existentes de formas entretenidas e
rendimiento del modelo.
inventivas para crear nuevas que puedan tener éxito con
las predicciones.
• Aplicando transformaciones de
• Discretizar características continuas. características
Esto convierte características numéricas continuas en Intentando técnicas prometedoras como log, sqrt, etc. en
contenedores categóricos, lo que reduce el ruido y la las características puede hacer que los patrones sean más
complejidad. fáciles de detectar.

• Descomponiendo características
Descomponer características complejas tales como las
marcas temporales en sus componentes, como el día, el
mes y el año, puede mostrar patrones significativos.
Selección de características
Selección de características es el proceso de seleccionar las
características más relevantes de los datos disponibles para su uso en
el entrenamiento de modelos de aprendizaje automático. Esto ayuda a
mejorar el rendimiento del modelo reduciendo el sobreajuste y
enfocándose en las características más predictivas. Las técnicas de
selección de características incluyen selección univariada, eliminación
recursiva de características y análisis de componentes principales.
Reducción de
Dimensionalidad
Técnicas de reducción de dimensionalidad como el análisis de
componentes principales (PCA) y los autoencoders pueden reducir el
número de variables en un conjunto de datos de alta
dimensionalidad a los componentes más importantes. Este proceso
elimina datos redundantes y revela estructuras ocultas al mismo
tiempo que preserva la información clave.
Escalado de
Características
Los métodos de escalado de características como el escalado
min-max, la estandarización y las transformaciones log
ayudan a preprocesar características escalándolas a un rango
común. Esto evita el sesgo potencial que surja de diferentes
unidades y escalas entre características.
Extracción de
características
Extracción de características es el proceso de obtener
nuevas características a partir de datos brutos que mejor
representan el fenómeno subyacente que se está
modelando. Aplicando la experiencia del dominio,
podemos extraer características que contengan la
información más relevante y descartar ruido. Por ejemplo,
contar las frecuencias de palabras en un corpus de texto
puede extraer características útiles para tareas como el
análisis de sentimiento y el modelado de temas.
Construcción de características
La construcción de nuevas características mediante la combinación de las
características existentes es una parte importante de la ingeniería de
características. Esto permite que los modelos de aprendizaje automático
aprendan interacciones entre características que no puedan haber sido
capturados por los datos de entrada sin procesar. Los ejemplos incluyen
multiplicar dos características juntas o dividir una característica por otra para
capturar proporciones.
Aprendizaje de
características
Aprendizaje de características es una técnica de aprendizaje no
supervisado en aprendizaje automático que permite a un algoritmo
aprender representaciones útiles de forma automática a partir de
los datos sin procesar. Esto elimina la necesidad de realizar
ingeniería manual de características. El aprendizaje de
características funciona entrenando una red neuronal profunda con
datos de entrada sin etiquetar. Las capas ocultas de la red
aprenden representaciones cada vez más abstractas de los datos
crudos de entrada. Estas representaciones aprendidas forman las
características que se pueden usar para tareas supervisadas como
la clasificación.
¿Qué son las
características?
Se refieren a las distintas variables o propiedades que
describen los datos recopilados en un conjunto de datos
Importancia
Las características incorrectas o irrelevantes pueden
afectar negativamente el rendimiento de los modelo

1. Rrepresentación de la Informaación

2. Reduccion de la dimensionalidad

3. Mejora la eficiencia computacional

4. Evitar colinealidad y el ruido

5. Interpretabilidad y explicabilidad

6. Generalización Mejorada

7. Menos Ruido y Mayor Precisión

8. Ahorro de recursos
Maldición de la
Dimensionalidad
La maldición de la dimensionalidad se refiere al problema que surge en el
análisis de datos cuando el número de variables o dimensiones es muy
alto. Esto puede causar problemas como overfitting, datos dispersos y la
necesidad de grandes conjuntos de datos de entrenamiento. Para
combatirla, se pueden utilizar técnicas como la selección de
características, la reducción de dimensionalidad y el aprendizaje
regularizado.
Causas
Caracteristicas de • A medida que aumenta el número de
características, el espacio de características se
este problema expande exponencialmente, lo que significa que
la densidad de datos se vuelve más dispersa.
1. Dificultad en la Visualizacion
• La mayoría de las características pueden ser
2. Densidad de Datos escasa
redundantes o irrelevantes, lo que agrava la
3. Aumento de Varianza complejidad del espacio de características. -

• La intuición humana y las técnicas de

4. Mayor demanda de recursos
computacionales visualización son limitadas en dimensiones
altas.
Posibles soluciones
1. Selección de Características

2. Extracción de Características

3. Incremento de Datos

4. Uso de Algoritmos Específicos

5. Regularizacion
Selección de
características
Métodos para
seleccionar funciones
1. Selección univariante (ANOVA: Análisis de
varianza )

2. Chi2
Métodos de filtrado
3. Basado en la correlación de Pearson

4. Análisis discriminante lineal (LDA):

1. Selección hacia adelante

Métodos de Wrapper 2. Selección hacia atrás

3. Búsqueda exhaustiva
1. Lasso

2. Lasso with Ridge (funciones

regularizadas usando ElasticNet)

Métodos de Integrados 3. Selección basada en árboles.

4. Coeficientes de regresión (las

características deben estar
estandarizadas).
1. Mezcla de algoritmos

Métodos de Híbridos 2. Eliminación de funciones recursivas

3. Adición de funciones recursivas

Feature Engineering Presentation

¿Que es la feature engineering? ¿Por qué es importante? Tipos comunes de feature

Feature engineering es el proceso de usar Permite a los modelos de ML capturar mejor las engineering
conocimiento de dominio para crear relaciones en los datos. Puede mejorar mucho el Características derivadas, interacción de
características que faciliten el aprendizaje de rendimiento. características, características de
máquina. tiempo/fecha, codificación de categorías,
etc.

La feature engineering cuidadosa puede llevar a mejoras

significativas en el rendimiento del modelo de ML.
Ingeniería de características vs.
Selección de características

Diferencias clave Flujo de trabajo Objetivo

La ingeniería de características nos permite Típicamente se realiza primero la ingeniería de La ingeniería busca nuevas características
crear nuevas características, mientras que la características, luego la selección de las predictivas, la selección encuentra las más
selección nos permite elegir las mejores mejores. eficientes.
características de las disponibles.

Entender las diferencias clave entre ingeniería y

selección de características es fundamental en ML.
La diferencia entre la ingeniería de características y
la selección de características.

Feature Engineering Feature Selection

Creating new features from existing ones to help ML Selecting the most useful features to train ML
models make better predictions models efficiently

In a typical ML pipeline, we do feature selection after completing feature engineering

• Tipos de variables

• Problemas comunes en conjuntos de datos

• Imputar valores faltantes.

• Codificación de variables categóricas

Características y
• Transformando variables.
técnicas en el
• Discretización de variables. preprocesamiento
• Manejo de valores atípicos.Escalado de funciones.

• Manejo de fecha-hora y variables mixtas

• .Métodos avanzados de ingeniería de funciones.

Variables numéricas
1. Variables continuas
Variables Categoricas
1. Variables ordinales

2. Variables nominales

3. Fechas y Horarios
Variables Mixtas
1. Variables ordinales

2. Variables nominales

3. Fechas y Horarios
Datos perdidos
Problemas 1. Datos faltantes
completamente al azar Variable Variable
comunes en
categórica: categórica:
conjuntos de 2. Datos faltantes al azar
cardinalidad etiquetas raras
datos 3. Datos faltantes no
aleatorios

Supuestos del
modelo lineal
Distribución Magnitud de la
• homocedasticidad Valores atípicos
de variables característica
• Normalidad

• Independencia
• Variables numérica
• Imputación de media o mediana
• Imputación de valor arbitrario
• Imputación del final de la cola

• Variables categóricas
Imputación de • Imputación de categoría frecuente
valores faltantes • Agregar una categoría faltante

• Ambos
• Análisis completo del caso
• Agregar un indicador faltante
• Imputación de muestra aleatoria
Supuestos
Imputación de la • Faltan datos al azar.

media o mediana • Lo más probable es que las observaciones que faltan se

parezcan a la mayoría de las observaciones de la variable.

Limitaciones de la imputación
de la media o mediana ·
• Distorsiona la distribución y varianza de las variables
originales. ·

• Distorsiona la covarianza con las variables restantes del

conjunto de datos. ·

• Cuanto mayor sea el porcentaje de valores faltantes,

mayores serán las distorsiones.
Imputación de valor arbitrario

Limitaciones
• Distorsión de la distribución y varianza de la variable original.

• Distorsión de la covarianza con el resto de variables del conjunto de datos.

Supuestos • Si el valor arbitrario está al final de la distribución, puede enmascarar o
crear valores atípicos .
• Los datos no faltan al azar.
• Debemos tener cuidado de no elegir un valor arbitrario demasiado similar a la
media o mediana (o cualquier otro valor típico de la distribución de la variable).

• Cuanto mayor sea el porcentaje de NA, mayores serán las distorsiones.

Imputación del
final de la cola
Imputación de
categoría frecuente

Limitaciones
Supuestos • Distorsiona la relación de la etiqueta más
• Faltan datos al azar. frecuente con otras variables dentro del conjunto
de datos.
• Lo más probable es que las observaciones que
faltan se parezcan a la mayoría de las • Puede dar lugar a una sobrerrepresentación de
observaciones (es decir, la moda). la etiqueta más frecuente si faltan muchas
observaciones.
Imputación de
categoría faltante
Limitaciones
• Si el número de valores faltantes es pequeño,
crear una categoría adicional es simplemente
agregar otra etiqueta raraa la variable. El
siguiente código nos muestra cómo completar
los valores faltantes con una nueva categoría
llamada "Falta":
Análisis completo del caso

Limitaciones
• Puede excluir una fracción significativa del conjunto de datos
original (si los datos faltantes son significativos). · Excluye
observaciones que podrían ser informativas para el análisis (si no
Supuestos faltan datos al azar).

• Faltan datos al azar. • ACC puede crear un conjunto de datos sesgado si los casos
completos difieren de los datos originales (por ejemplo, cuando
la información faltante es, de hecho, MAR o NMAR).

• Cuando se utiliza este método en producción, el modelo no

puede saber cómo manejar los datos faltantes.
Indicador faltante

Limitaciones
• Amplía el espacio de funciones.
Supuestos
• Aún es necesario imputar la variable original. ·
• NO faltan datos al azar.
• Muchos indicadores faltantes pueden terminar
• Los datos faltantes son predictivos.
siendo idénticos o muy correlacionados.
Imputación de muestra aleatoria

Limitaciones
Supuestos • Aleatoriedad.

• Faltan datos al azar. • La relación entre las variables imputadas y otras variables
puede verse afectada si faltan muchos valores.
• Estamos reemplazando los valores faltantes con otros
valores dentro de la misma distribución de la variable • La memoria es enorme para la implementación, ya que
original. necesitamos almacenar el conjunto de entrenamiento
original para extraer valores y reemplazar los valores
faltantes con los valores seleccionados aleatoriamente
codificación de
variables categóricas

Learn As You Play Oboe, Peter Wastall - Cópia PDF
100% (4)
Learn As You Play Oboe, Peter Wastall - Cópia PDF
66 pages
Tikki en
No ratings yet
Tikki en
9 pages
Mathematics Ned Past Papers
100% (1)
Mathematics Ned Past Papers
74 pages
EN Programming ELCO Micro-ANTS LEB02 Basic Encoder V2.2 26-10-2020
100% (2)
EN Programming ELCO Micro-ANTS LEB02 Basic Encoder V2.2 26-10-2020
35 pages
Feature Engineering PDF
No ratings yet
Feature Engineering PDF
19 pages
Feature Engineering
No ratings yet
Feature Engineering
6 pages
ML - Unit-2 FULL - Feature Engineering Theory-13!09!24-1
No ratings yet
ML - Unit-2 FULL - Feature Engineering Theory-13!09!24-1
29 pages
Feature Engineering
No ratings yet
Feature Engineering
11 pages
DM - MOD - 1 Part III
No ratings yet
DM - MOD - 1 Part III
12 pages
UNIT 4
No ratings yet
UNIT 4
25 pages
NOTES
No ratings yet
NOTES
9 pages
Machine_Learning-Note-Modul2[1]
No ratings yet
Machine_Learning-Note-Modul2[1]
20 pages
Unit 2 Feature Engineering
No ratings yet
Unit 2 Feature Engineering
64 pages
Class PPT - Unit2
No ratings yet
Class PPT - Unit2
139 pages
What is Feature Engineering
No ratings yet
What is Feature Engineering
9 pages
UNIT 2 PART 2
No ratings yet
UNIT 2 PART 2
6 pages
Feature Engineering and Normalization
No ratings yet
Feature Engineering and Normalization
7 pages
ML UNIT 2 2 Old
No ratings yet
ML UNIT 2 2 Old
15 pages
Feature Engineering For Machine Learning
No ratings yet
Feature Engineering For Machine Learning
41 pages
Feature Engineering
No ratings yet
Feature Engineering
2 pages
u1 p2
No ratings yet
u1 p2
21 pages
Unit - 3 Feature Engineering
No ratings yet
Unit - 3 Feature Engineering
29 pages
ML1
No ratings yet
ML1
69 pages
ML-Unit 3
No ratings yet
ML-Unit 3
58 pages
What Is Feature Engineering
No ratings yet
What Is Feature Engineering
2 pages
Deep Learning Vocabulary
No ratings yet
Deep Learning Vocabulary
6 pages
UNIT04
No ratings yet
UNIT04
35 pages
Get Feature Engineering Bookcamp 1st Edition Sinan Ozdemir free all chapters
100% (2)
Get Feature Engineering Bookcamp 1st Edition Sinan Ozdemir free all chapters
55 pages
CSC407_Chapter 4
No ratings yet
CSC407_Chapter 4
28 pages
Feature Engineering
No ratings yet
Feature Engineering
21 pages
F Engineering
No ratings yet
F Engineering
5 pages
ML Unit2 Classppt
No ratings yet
ML Unit2 Classppt
44 pages
Unit 6aics
No ratings yet
Unit 6aics
25 pages
Feature Engineering PDF
No ratings yet
Feature Engineering PDF
19 pages
Eature Engineering: Presenter: Prof. Amit Kumar Das
No ratings yet
Eature Engineering: Presenter: Prof. Amit Kumar Das
17 pages
Feature Engineering: Short Study: Indian Institute of Space Science and Technology, Department of Mathematics
No ratings yet
Feature Engineering: Short Study: Indian Institute of Space Science and Technology, Department of Mathematics
6 pages
Feature Engineering in Machine Learning
No ratings yet
Feature Engineering in Machine Learning
7 pages
AI-Module 4 - Updated
No ratings yet
AI-Module 4 - Updated
53 pages
life lesson
No ratings yet
life lesson
13 pages
Instant Access to Feature engineering for machine learning principles and techniques for data scientists First Edition Casari ebook Full Chapters
No ratings yet
Instant Access to Feature engineering for machine learning principles and techniques for data scientists First Edition Casari ebook Full Chapters
62 pages
2 3-FeatureRelatedIssues
No ratings yet
2 3-FeatureRelatedIssues
10 pages
DSUR_EA2352001010391_W2
No ratings yet
DSUR_EA2352001010391_W2
2 pages
Semi Supervised Learning
No ratings yet
Semi Supervised Learning
86 pages
AI Feature Engineering in Detail (wecompress.com)
No ratings yet
AI Feature Engineering in Detail (wecompress.com)
12 pages
[Ebooks PDF] download Feature Engineering Bookcamp 1st Edition Sinan Ozdemir full chapters
100% (2)
[Ebooks PDF] download Feature Engineering Bookcamp 1st Edition Sinan Ozdemir full chapters
40 pages
Buy ebook (Ebook) Feature engineering for machine learning: principles and techniques for data scientists by Casari, Amanda;Zheng, Alice ISBN 9781491953198, 9781491953211, 1491953195, 1491953217 cheap price
100% (12)
Buy ebook (Ebook) Feature engineering for machine learning: principles and techniques for data scientists by Casari, Amanda;Zheng, Alice ISBN 9781491953198, 9781491953211, 1491953195, 1491953217 cheap price
55 pages
NLP 2
No ratings yet
NLP 2
1 page
NN-7
No ratings yet
NN-7
26 pages
Instant Download Feature engineering for machine learning principles and techniques for data scientists First Edition Casari PDF All Chapters
No ratings yet
Instant Download Feature engineering for machine learning principles and techniques for data scientists First Edition Casari PDF All Chapters
55 pages
Lesson 7 Feature Engineering
No ratings yet
Lesson 7 Feature Engineering
43 pages
Feature Engineering Bookcamp 1st Edition Sinan Ozdemir pdf download
100% (2)
Feature Engineering Bookcamp 1st Edition Sinan Ozdemir pdf download
42 pages
Unit-II
No ratings yet
Unit-II
119 pages
Machine Learning
No ratings yet
Machine Learning
35 pages
Summery of Feature Eng
No ratings yet
Summery of Feature Eng
4 pages
CH1
No ratings yet
CH1
64 pages
Unit No. 02 - Feature Extraction & Selection
No ratings yet
Unit No. 02 - Feature Extraction & Selection
47 pages
Download ebooks file Feature Engineering Bookcamp 1st Edition Sinan Ozdemir all chapters
100% (4)
Download ebooks file Feature Engineering Bookcamp 1st Edition Sinan Ozdemir all chapters
50 pages
Summary Chap 1 & 2
No ratings yet
Summary Chap 1 & 2
5 pages
Session 7 Feature Selection & Dimensionality Reduction
No ratings yet
Session 7 Feature Selection & Dimensionality Reduction
20 pages
Basics of Feature Engineering Marked
No ratings yet
Basics of Feature Engineering Marked
33 pages
Feature Engineering
No ratings yet
Feature Engineering
13 pages
Feature and Feature Extractionlect2
No ratings yet
Feature and Feature Extractionlect2
28 pages
Mastering C: Advanced Techniques and Tricks
From Everand
Mastering C: Advanced Techniques and Tricks
Ted Norice
No ratings yet
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
César Pérez López
No ratings yet
Pharmaceutical Document Manager in NYC Philadelphia PA Resume Christopher Reilly
No ratings yet
Pharmaceutical Document Manager in NYC Philadelphia PA Resume Christopher Reilly
2 pages
2 PDF
No ratings yet
2 PDF
16 pages
Unit 1
No ratings yet
Unit 1
3 pages
2 AQUA Domestic Pump0712 PDF
No ratings yet
2 AQUA Domestic Pump0712 PDF
111 pages
En Erco Architecture Light
No ratings yet
En Erco Architecture Light
21 pages
CM Eertr
No ratings yet
CM Eertr
3 pages
Hiroshima - Final Submitted
No ratings yet
Hiroshima - Final Submitted
10 pages
Basic Concepts of Economics
No ratings yet
Basic Concepts of Economics
20 pages
The Price of Time
No ratings yet
The Price of Time
308 pages
Energy-Dispersive X-Ray Spectros
No ratings yet
Energy-Dispersive X-Ray Spectros
25 pages
Lecture 6 Control of Pests and Diseases 202203
No ratings yet
Lecture 6 Control of Pests and Diseases 202203
95 pages
1244-A430-ELC-0001-004
No ratings yet
1244-A430-ELC-0001-004
1 page
Algae Biofuel
No ratings yet
Algae Biofuel
23 pages
Solidworks Leather Belt Jig
No ratings yet
Solidworks Leather Belt Jig
1 page
Hon Dat - de Minh Hoa Tot Nghiep 2025
No ratings yet
Hon Dat - de Minh Hoa Tot Nghiep 2025
5 pages
Performance Measurement and Evaluation: South-Western Cengage Learning
No ratings yet
Performance Measurement and Evaluation: South-Western Cengage Learning
53 pages
Laser System and Application: Directionality
No ratings yet
Laser System and Application: Directionality
19 pages
Liquid Flow Measuring and Monitoring System
No ratings yet
Liquid Flow Measuring and Monitoring System
13 pages
Colonial Practice Test
No ratings yet
Colonial Practice Test
3 pages
At.2516 Forming The Auditors Opinion and Report On The FSs
No ratings yet
At.2516 Forming The Auditors Opinion and Report On The FSs
71 pages
Product Data Sheet 6AV6647 0AC11 3AX0
No ratings yet
Product Data Sheet 6AV6647 0AC11 3AX0
9 pages
CIS Amazon Web Services Foundations Benchmark v1.3.0 DRAFT 24JUL20
No ratings yet
CIS Amazon Web Services Foundations Benchmark v1.3.0 DRAFT 24JUL20
192 pages
Orgman - Module 4 - Grade 11 - Abm Rizal - MR - Arnold Paombong
No ratings yet
Orgman - Module 4 - Grade 11 - Abm Rizal - MR - Arnold Paombong
9 pages
Professional Portfolio
No ratings yet
Professional Portfolio
5 pages
Gan Cube - Google 搜尋
No ratings yet
Gan Cube - Google 搜尋
1 page
OOT (RGPV) IV Sem CS
No ratings yet
OOT (RGPV) IV Sem CS
5 pages

Feature Engineering Presentation

Uploaded by

Feature Engineering Presentation

Uploaded by

Feature

• Construir nuevas características a • Normalizar características

3. Mejora la eficiencia computacional

4. Evitar colinealidad y el ruido

7. Menos Ruido y Mayor Precisión

• La intuición humana y las técnicas de

4. Uso de Algoritmos Específicos

4. Análisis discriminante lineal (LDA):

Métodos de Wrapper 2. Selección hacia atrás

2. Lasso with Ridge (funciones

Métodos de Integrados 3. Selección basada en árboles.

4. Coeficientes de regresión (las

Métodos de Híbridos 2. Eliminación de funciones recursivas

3. Adición de funciones recursivas

¿Que es la feature engineering? ¿Por qué es importante? Tipos comunes de feature

La feature engineering cuidadosa puede llevar a mejoras

Diferencias clave Flujo de trabajo Objetivo

Entender las diferencias clave entre ingeniería y

Feature Engineering Feature Selection

In a typical ML pipeline, we do feature selection after completing feature engineering

• Problemas comunes en conjuntos de datos

• Imputar valores faltantes.

• Codificación de variables categóricas

• Manejo de fecha-hora y variables mixtas

• .Métodos avanzados de ingeniería de funciones.

media o mediana • Lo más probable es que las observaciones que faltan se

• Distorsiona la covarianza con las variables restantes del

• Cuanto mayor sea el porcentaje de valores faltantes,

• Distorsión de la covarianza con el resto de variables del conjunto de datos.

• Cuanto mayor sea el porcentaje de NA, mayores serán las distorsiones.

• Cuando se utiliza este método en producción, el modelo no

You might also like