Reducción de Dimensión y Selección de Características
Reducción de Dimensión y Selección de Características
Reducción de Dimensión y Selección de Características
Introduccin
La figura muestra la relacin entre la tasa de error de un modelo de minera de datos y el costo de obtener dicho modelo. El objetivo de la reduccin de dimensionalidad es identificar el costo ms pequeo en el cual el algoritmo de minera de datos puede mantener la tasa de error debajo de f (frontera de eficiencia).
La figura representa una taxonoma de las razones de la reduccin de dimensionalidad. Existen 4 razones y cada una es referida a un subproblema distintivo.
Su Objetivo es identificar que caractersticas en el conjunto de datos son importantes y descartar cualquier otra que sea irrelevante o redundante. Mejora la precisin de futuras clasificaciones u obtiene resultados ms compactos y fciles de entender.
Su objetivo es reducir el tiempo que se requiere para la ejecucin del algoritmo de minera de datos.
La seleccin de variable puede sacrificar precisin pero gana tiempo en el proceso de aprendizaje.
Usan mtodos heursticos sobre las caractersticas generales de los datos en lugar de un algoritmo de aprendizaje para evaluar el merito de los subconjuntos de caractersticas. Son mas rpidos que los mtodos wrappers y mas prcticos para usarlos en un subconjunto de datos muy grandes
Wrapper approach
Original feature set Feature selection - classifier selected feature subset classifier evaluation fin = classifier take classifier into account. loss generality. high degree of accuracy.
Feature Filters
Instance Based Approach LVF
Wrapper Filters
FOCUS
Information Theoric
Discretization
Feature Filters
FOCUS
Algoritmo que busca en el subconjunto de caractersticas hasta que encuentra la mnima combinacin de caractersticas que dividen el dato de entrenamiento en clases puras min features bias. Problemas Bsqueda exhaustiva es dificultosa si muchas caractersticas son necesarias. Fuerte tendencia a la consistencia puede conducir a sobre ajustar los datos (over-fitting).
Mide la entropia general de la clase de valores en ese grupo, en cada etapa la caracterstica que minimice la ecuacin es agregada al subconjunto actual de caracteristicas
LVF
y Busca aleatoramente en el espacio de instancias lo que hace que las elecciones probabilisticas sean mas rapidas a una solucion optima. y Para cada subconjunto candidato, LVF calcula un conteo de inconsistencia basado en la intuicin. y Un umbral de inconsistencia es fijado desde el inicio (Default = 0) y Cualquier subconjunto con tasa de inconsitencia > umbral, RECHAZADO.
Algoritmo LVF
Ventajas
y Encuentra el subconjunto optimo aun para una base de datos con ruido. y El usuario no debe esperar mucho para un buen subconjunto y Eficiente y simple de implementar, garantiza encontrar un subconjunto optimo, si los recursos lo permiten
Desventajas
y Toma mas tiempo encontrar el subconjunto ptimo(sea el conjunto de datos consistente o no)
Feature Wrappers
Feature Wrappers
Existen varios trabajos realizados con este enfoque y mtodos para reducir su gasto computacional
Feature Wrappers
Wrappers for Decision Tree Learners Wrapper for Instance-based learning Wrapper for Bayes Califiers Para cada uno de ellos se implementaron Enfoques de Wrapper, utilizando busquedas hacia adelante y hacia atras para la seleccion de caracteristicas, obteniendo una presicion optima y reduciendo el tamao de las muestras.
Seleccin de Variables
Seleccin de Variables
Y es una variable de inters. X1,Xp es un conjunto de variables explicadoras o predictores. Vectores de n observaciones. Cuando p es muy grande, que subconjunto de X1,Xp debemos usar? Es familiar en el contexto de regresin lineal. El problema es seleccionar y adaptar un modelo de la forma:
de
Mallows Cp
Minimiza el error cuadrtico medio de prediccin:
Donde, RSSy es la suma residual de los cuadrados para el Yesimo modelo y 2 es la estimacin usual del modelo completo. El objetivo es obtener un modelo con Cp mnimo, encontrando el mnimo subconjunto que tenga Cp mnimo