0% found this document useful (0 votes)
11 views

Feature Engineering Presentation

ml FEATURE ENGINEERING

Uploaded by

Liz
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PPTX, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
11 views

Feature Engineering Presentation

ml FEATURE ENGINEERING

Uploaded by

Liz
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PPTX, PDF, TXT or read online on Scribd
You are on page 1/ 40

Feature

Engineering
Presentation
This slide introduces the topic of machine
learning.
Introducción a la Ingeniería
de Características
El procesamiento de características es el proceso de extracción y transformación de
datos brutos en características que ayudan a los modelos de aprendizaje automático
a aprender y generalizar. Esto a menudo implica un conocimiento del dominio para
identificar formas útiles de representar los datos basados ​en su significado y
relaciones. Las técnicas comunes incluyen normalización, reducción de
dimensionalidad y la combinación o derivación de nuevas características a partir de
entradas brutas.
Tipos de ingeniería de características

• Construir nuevas características a • Normalizar características


partir de las existentes. Escalar características a un rango común mediante
técnicas como la escalada mínimo-máximo mejora el
Mezclar características existentes de formas entretenidas e
rendimiento del modelo.
inventivas para crear nuevas que puedan tener éxito con
las predicciones.
• Aplicando transformaciones de
• Discretizar características continuas. características
Esto convierte características numéricas continuas en Intentando técnicas prometedoras como log, sqrt, etc. en
contenedores categóricos, lo que reduce el ruido y la las características puede hacer que los patrones sean más
complejidad. fáciles de detectar.

• Descomponiendo características
Descomponer características complejas tales como las
marcas temporales en sus componentes, como el día, el
mes y el año, puede mostrar patrones significativos.
Selección de características
Selección de características es el proceso de seleccionar las
características más relevantes de los datos disponibles para su uso en
el entrenamiento de modelos de aprendizaje automático. Esto ayuda a
mejorar el rendimiento del modelo reduciendo el sobreajuste y
enfocándose en las características más predictivas. Las técnicas de
selección de características incluyen selección univariada, eliminación
recursiva de características y análisis de componentes principales.
Reducción de
Dimensionalidad
Técnicas de reducción de dimensionalidad como el análisis de
componentes principales (PCA) y los autoencoders pueden reducir el
número de variables en un conjunto de datos de alta
dimensionalidad a los componentes más importantes. Este proceso
elimina datos redundantes y revela estructuras ocultas al mismo
tiempo que preserva la información clave.
Escalado de
Características
Los métodos de escalado de características como el escalado
min-max, la estandarización y las transformaciones log
ayudan a preprocesar características escalándolas a un rango
común. Esto evita el sesgo potencial que surja de diferentes
unidades y escalas entre características.
Extracción de
características
Extracción de características es el proceso de obtener
nuevas características a partir de datos brutos que mejor
representan el fenómeno subyacente que se está
modelando. Aplicando la experiencia del dominio,
podemos extraer características que contengan la
información más relevante y descartar ruido. Por ejemplo,
contar las frecuencias de palabras en un corpus de texto
puede extraer características útiles para tareas como el
análisis de sentimiento y el modelado de temas.
Construcción de características
La construcción de nuevas características mediante la combinación de las
características existentes es una parte importante de la ingeniería de
características. Esto permite que los modelos de aprendizaje automático
aprendan interacciones entre características que no puedan haber sido
capturados por los datos de entrada sin procesar. Los ejemplos incluyen
multiplicar dos características juntas o dividir una característica por otra para
capturar proporciones.
Aprendizaje de
características
Aprendizaje de características es una técnica de aprendizaje no
supervisado en aprendizaje automático que permite a un algoritmo
aprender representaciones útiles de forma automática a partir de
los datos sin procesar. Esto elimina la necesidad de realizar
ingeniería manual de características. El aprendizaje de
características funciona entrenando una red neuronal profunda con
datos de entrada sin etiquetar. Las capas ocultas de la red
aprenden representaciones cada vez más abstractas de los datos
crudos de entrada. Estas representaciones aprendidas forman las
características que se pueden usar para tareas supervisadas como
la clasificación.
¿Qué son las
características?
Se refieren a las distintas variables o propiedades que
describen los datos recopilados en un conjunto de datos
Importancia
Las características incorrectas o irrelevantes pueden
afectar negativamente el rendimiento de los modelo

1. Rrepresentación de la Informaación

2. Reduccion de la dimensionalidad

3. Mejora la eficiencia computacional

4. Evitar colinealidad y el ruido

5. Interpretabilidad y explicabilidad

6. Generalización Mejorada

7. Menos Ruido y Mayor Precisión

8. Ahorro de recursos
Maldición de la
Dimensionalidad
La maldición de la dimensionalidad se refiere al problema que surge en el
análisis de datos cuando el número de variables o dimensiones es muy
alto. Esto puede causar problemas como overfitting, datos dispersos y la
necesidad de grandes conjuntos de datos de entrenamiento. Para
combatirla, se pueden utilizar técnicas como la selección de
características, la reducción de dimensionalidad y el aprendizaje
regularizado.
Causas
Caracteristicas de • A medida que aumenta el número de
características, el espacio de características se
este problema expande exponencialmente, lo que significa que
la densidad de datos se vuelve más dispersa.
1. Dificultad en la Visualizacion
• La mayoría de las características pueden ser
2. Densidad de Datos escasa
redundantes o irrelevantes, lo que agrava la
3. Aumento de Varianza complejidad del espacio de características. -

• La intuición humana y las técnicas de


4. Mayor demanda de recursos
computacionales visualización son limitadas en dimensiones
altas.
Posibles soluciones
1. Selección de Características

2. Extracción de Características

3. Incremento de Datos

4. Uso de Algoritmos Específicos

5. Regularizacion
Selección de
características
Métodos para
seleccionar funciones
1. Selección univariante (ANOVA: Análisis de
varianza )

2. Chi2
Métodos de filtrado
3. Basado en la correlación de Pearson

4. Análisis discriminante lineal (LDA):


1. Selección hacia adelante

Métodos de Wrapper 2. Selección hacia atrás

3. Búsqueda exhaustiva
1. Lasso

2. Lasso with Ridge (funciones


regularizadas usando ElasticNet)

Métodos de Integrados 3. Selección basada en árboles.

4. Coeficientes de regresión (las


características deben estar
estandarizadas).
1. Mezcla de algoritmos

Métodos de Híbridos 2. Eliminación de funciones recursivas

3. Adición de funciones recursivas


Feature Engineering Presentation

¿Que es la feature engineering? ¿Por qué es importante? Tipos comunes de feature


Feature engineering es el proceso de usar Permite a los modelos de ML capturar mejor las engineering
conocimiento de dominio para crear relaciones en los datos. Puede mejorar mucho el Características derivadas, interacción de
características que faciliten el aprendizaje de rendimiento. características, características de
máquina. tiempo/fecha, codificación de categorías,
etc.

La feature engineering cuidadosa puede llevar a mejoras


significativas en el rendimiento del modelo de ML.
Ingeniería de características vs.
Selección de características

Diferencias clave Flujo de trabajo Objetivo


La ingeniería de características nos permite Típicamente se realiza primero la ingeniería de La ingeniería busca nuevas características
crear nuevas características, mientras que la características, luego la selección de las predictivas, la selección encuentra las más
selección nos permite elegir las mejores mejores. eficientes.
características de las disponibles.

Entender las diferencias clave entre ingeniería y


selección de características es fundamental en ML.
La diferencia entre la ingeniería de características y
la selección de características.

Feature Engineering Feature Selection


Creating new features from existing ones to help ML Selecting the most useful features to train ML
models make better predictions models efficiently

In a typical ML pipeline, we do feature selection after completing feature engineering


• Tipos de variables

• Problemas comunes en conjuntos de datos

• Imputar valores faltantes.

• Codificación de variables categóricas


Características y
• Transformando variables.
técnicas en el
• Discretización de variables. preprocesamiento
• Manejo de valores atípicos.Escalado de funciones.

• Manejo de fecha-hora y variables mixtas

• .Métodos avanzados de ingeniería de funciones.


Variables numéricas
1. Variables continuas
Variables Categoricas
1. Variables ordinales

2. Variables nominales

3. Fechas y Horarios
Variables Mixtas
1. Variables ordinales

2. Variables nominales

3. Fechas y Horarios
Datos perdidos
Problemas 1. Datos faltantes
completamente al azar Variable Variable
comunes en
categórica: categórica:
conjuntos de 2. Datos faltantes al azar
cardinalidad etiquetas raras
datos 3. Datos faltantes no
aleatorios

Supuestos del
modelo lineal
Distribución Magnitud de la
• homocedasticidad Valores atípicos
de variables característica
• Normalidad

• Independencia
• Variables numérica
• Imputación de media o mediana
• Imputación de valor arbitrario
• Imputación del final de la cola

• Variables categóricas
Imputación de • Imputación de categoría frecuente
valores faltantes • Agregar una categoría faltante

• Ambos
• Análisis completo del caso
• Agregar un indicador faltante
• Imputación de muestra aleatoria
Supuestos
Imputación de la • Faltan datos al azar.

media o mediana • Lo más probable es que las observaciones que faltan se


parezcan a la mayoría de las observaciones de la variable.

Limitaciones de la imputación
de la media o mediana ·
• Distorsiona la distribución y varianza de las variables
originales. ·

• Distorsiona la covarianza con las variables restantes del


conjunto de datos. ·

• Cuanto mayor sea el porcentaje de valores faltantes,


mayores serán las distorsiones.
Imputación de valor arbitrario

Limitaciones
• Distorsión de la distribución y varianza de la variable original.

• Distorsión de la covarianza con el resto de variables del conjunto de datos.


Supuestos • Si el valor arbitrario está al final de la distribución, puede enmascarar o
crear valores atípicos .
• Los datos no faltan al azar.
• Debemos tener cuidado de no elegir un valor arbitrario demasiado similar a la
media o mediana (o cualquier otro valor típico de la distribución de la variable).

• Cuanto mayor sea el porcentaje de NA, mayores serán las distorsiones.


Imputación del
final de la cola
Imputación de
categoría frecuente

Limitaciones
Supuestos • Distorsiona la relación de la etiqueta más
• Faltan datos al azar. frecuente con otras variables dentro del conjunto
de datos.
• Lo más probable es que las observaciones que
faltan se parezcan a la mayoría de las • Puede dar lugar a una sobrerrepresentación de
observaciones (es decir, la moda). la etiqueta más frecuente si faltan muchas
observaciones.
Imputación de
categoría faltante
Limitaciones
• Si el número de valores faltantes es pequeño,
crear una categoría adicional es simplemente
agregar otra etiqueta raraa la variable. El
siguiente código nos muestra cómo completar
los valores faltantes con una nueva categoría
llamada "Falta":
Análisis completo del caso

Limitaciones
• Puede excluir una fracción significativa del conjunto de datos
original (si los datos faltantes son significativos). · Excluye
observaciones que podrían ser informativas para el análisis (si no
Supuestos faltan datos al azar).

• Faltan datos al azar. • ACC puede crear un conjunto de datos sesgado si los casos
completos difieren de los datos originales (por ejemplo, cuando
la información faltante es, de hecho, MAR o NMAR).

• Cuando se utiliza este método en producción, el modelo no


puede saber cómo manejar los datos faltantes.
Indicador faltante

Limitaciones
• Amplía el espacio de funciones.
Supuestos
• Aún es necesario imputar la variable original. ·
• NO faltan datos al azar.
• Muchos indicadores faltantes pueden terminar
• Los datos faltantes son predictivos.
siendo idénticos o muy correlacionados.
Imputación de muestra aleatoria

Limitaciones
Supuestos • Aleatoriedad.

• Faltan datos al azar. • La relación entre las variables imputadas y otras variables
puede verse afectada si faltan muchos valores.
• Estamos reemplazando los valores faltantes con otros
valores dentro de la misma distribución de la variable • La memoria es enorme para la implementación, ya que
original. necesitamos almacenar el conjunto de entrenamiento
original para extraer valores y reemplazar los valores
faltantes con los valores seleccionados aleatoriamente
codificación de
variables categóricas

You might also like