Feature Engineering Presentation
Feature Engineering Presentation
Engineering
Presentation
This slide introduces the topic of machine
learning.
Introducción a la Ingeniería
de Características
El procesamiento de características es el proceso de extracción y transformación de
datos brutos en características que ayudan a los modelos de aprendizaje automático
a aprender y generalizar. Esto a menudo implica un conocimiento del dominio para
identificar formas útiles de representar los datos basados en su significado y
relaciones. Las técnicas comunes incluyen normalización, reducción de
dimensionalidad y la combinación o derivación de nuevas características a partir de
entradas brutas.
Tipos de ingeniería de características
• Descomponiendo características
Descomponer características complejas tales como las
marcas temporales en sus componentes, como el día, el
mes y el año, puede mostrar patrones significativos.
Selección de características
Selección de características es el proceso de seleccionar las
características más relevantes de los datos disponibles para su uso en
el entrenamiento de modelos de aprendizaje automático. Esto ayuda a
mejorar el rendimiento del modelo reduciendo el sobreajuste y
enfocándose en las características más predictivas. Las técnicas de
selección de características incluyen selección univariada, eliminación
recursiva de características y análisis de componentes principales.
Reducción de
Dimensionalidad
Técnicas de reducción de dimensionalidad como el análisis de
componentes principales (PCA) y los autoencoders pueden reducir el
número de variables en un conjunto de datos de alta
dimensionalidad a los componentes más importantes. Este proceso
elimina datos redundantes y revela estructuras ocultas al mismo
tiempo que preserva la información clave.
Escalado de
Características
Los métodos de escalado de características como el escalado
min-max, la estandarización y las transformaciones log
ayudan a preprocesar características escalándolas a un rango
común. Esto evita el sesgo potencial que surja de diferentes
unidades y escalas entre características.
Extracción de
características
Extracción de características es el proceso de obtener
nuevas características a partir de datos brutos que mejor
representan el fenómeno subyacente que se está
modelando. Aplicando la experiencia del dominio,
podemos extraer características que contengan la
información más relevante y descartar ruido. Por ejemplo,
contar las frecuencias de palabras en un corpus de texto
puede extraer características útiles para tareas como el
análisis de sentimiento y el modelado de temas.
Construcción de características
La construcción de nuevas características mediante la combinación de las
características existentes es una parte importante de la ingeniería de
características. Esto permite que los modelos de aprendizaje automático
aprendan interacciones entre características que no puedan haber sido
capturados por los datos de entrada sin procesar. Los ejemplos incluyen
multiplicar dos características juntas o dividir una característica por otra para
capturar proporciones.
Aprendizaje de
características
Aprendizaje de características es una técnica de aprendizaje no
supervisado en aprendizaje automático que permite a un algoritmo
aprender representaciones útiles de forma automática a partir de
los datos sin procesar. Esto elimina la necesidad de realizar
ingeniería manual de características. El aprendizaje de
características funciona entrenando una red neuronal profunda con
datos de entrada sin etiquetar. Las capas ocultas de la red
aprenden representaciones cada vez más abstractas de los datos
crudos de entrada. Estas representaciones aprendidas forman las
características que se pueden usar para tareas supervisadas como
la clasificación.
¿Qué son las
características?
Se refieren a las distintas variables o propiedades que
describen los datos recopilados en un conjunto de datos
Importancia
Las características incorrectas o irrelevantes pueden
afectar negativamente el rendimiento de los modelo
1. Rrepresentación de la Informaación
2. Reduccion de la dimensionalidad
5. Interpretabilidad y explicabilidad
6. Generalización Mejorada
8. Ahorro de recursos
Maldición de la
Dimensionalidad
La maldición de la dimensionalidad se refiere al problema que surge en el
análisis de datos cuando el número de variables o dimensiones es muy
alto. Esto puede causar problemas como overfitting, datos dispersos y la
necesidad de grandes conjuntos de datos de entrenamiento. Para
combatirla, se pueden utilizar técnicas como la selección de
características, la reducción de dimensionalidad y el aprendizaje
regularizado.
Causas
Caracteristicas de • A medida que aumenta el número de
características, el espacio de características se
este problema expande exponencialmente, lo que significa que
la densidad de datos se vuelve más dispersa.
1. Dificultad en la Visualizacion
• La mayoría de las características pueden ser
2. Densidad de Datos escasa
redundantes o irrelevantes, lo que agrava la
3. Aumento de Varianza complejidad del espacio de características. -
2. Extracción de Características
3. Incremento de Datos
5. Regularizacion
Selección de
características
Métodos para
seleccionar funciones
1. Selección univariante (ANOVA: Análisis de
varianza )
2. Chi2
Métodos de filtrado
3. Basado en la correlación de Pearson
3. Búsqueda exhaustiva
1. Lasso
2. Variables nominales
3. Fechas y Horarios
Variables Mixtas
1. Variables ordinales
2. Variables nominales
3. Fechas y Horarios
Datos perdidos
Problemas 1. Datos faltantes
completamente al azar Variable Variable
comunes en
categórica: categórica:
conjuntos de 2. Datos faltantes al azar
cardinalidad etiquetas raras
datos 3. Datos faltantes no
aleatorios
Supuestos del
modelo lineal
Distribución Magnitud de la
• homocedasticidad Valores atípicos
de variables característica
• Normalidad
• Independencia
• Variables numérica
• Imputación de media o mediana
• Imputación de valor arbitrario
• Imputación del final de la cola
• Variables categóricas
Imputación de • Imputación de categoría frecuente
valores faltantes • Agregar una categoría faltante
• Ambos
• Análisis completo del caso
• Agregar un indicador faltante
• Imputación de muestra aleatoria
Supuestos
Imputación de la • Faltan datos al azar.
Limitaciones de la imputación
de la media o mediana ·
• Distorsiona la distribución y varianza de las variables
originales. ·
Limitaciones
• Distorsión de la distribución y varianza de la variable original.
Limitaciones
Supuestos • Distorsiona la relación de la etiqueta más
• Faltan datos al azar. frecuente con otras variables dentro del conjunto
de datos.
• Lo más probable es que las observaciones que
faltan se parezcan a la mayoría de las • Puede dar lugar a una sobrerrepresentación de
observaciones (es decir, la moda). la etiqueta más frecuente si faltan muchas
observaciones.
Imputación de
categoría faltante
Limitaciones
• Si el número de valores faltantes es pequeño,
crear una categoría adicional es simplemente
agregar otra etiqueta raraa la variable. El
siguiente código nos muestra cómo completar
los valores faltantes con una nueva categoría
llamada "Falta":
Análisis completo del caso
Limitaciones
• Puede excluir una fracción significativa del conjunto de datos
original (si los datos faltantes son significativos). · Excluye
observaciones que podrían ser informativas para el análisis (si no
Supuestos faltan datos al azar).
• Faltan datos al azar. • ACC puede crear un conjunto de datos sesgado si los casos
completos difieren de los datos originales (por ejemplo, cuando
la información faltante es, de hecho, MAR o NMAR).
Limitaciones
• Amplía el espacio de funciones.
Supuestos
• Aún es necesario imputar la variable original. ·
• NO faltan datos al azar.
• Muchos indicadores faltantes pueden terminar
• Los datos faltantes son predictivos.
siendo idénticos o muy correlacionados.
Imputación de muestra aleatoria
Limitaciones
Supuestos • Aleatoriedad.
• Faltan datos al azar. • La relación entre las variables imputadas y otras variables
puede verse afectada si faltan muchos valores.
• Estamos reemplazando los valores faltantes con otros
valores dentro de la misma distribución de la variable • La memoria es enorme para la implementación, ya que
original. necesitamos almacenar el conjunto de entrenamiento
original para extraer valores y reemplazar los valores
faltantes con los valores seleccionados aleatoriamente
codificación de
variables categóricas