Reducción de Dimensión y Selección de Características

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 29

Reduccin de Dimensin y Seleccin de Caractersticas

Barak Chizi y Oded Maimon


Metodologa para la reduccin de dimensionalidad Prdida de Informacin mnima

Introduccin
La figura muestra la relacin entre la tasa de error de un modelo de minera de datos y el costo de obtener dicho modelo. El objetivo de la reduccin de dimensionalidad es identificar el costo ms pequeo en el cual el algoritmo de minera de datos puede mantener la tasa de error debajo de f (frontera de eficiencia).

La figura representa una taxonoma de las razones de la reduccin de dimensionalidad. Existen 4 razones y cada una es referida a un subproblema distintivo.

Problema de Reduccin de Dimensionalidad


Seleccin de Caractersticas Seleccin de variables

Su Objetivo es identificar que caractersticas en el conjunto de datos son importantes y descartar cualquier otra que sea irrelevante o redundante. Mejora la precisin de futuras clasificaciones u obtiene resultados ms compactos y fciles de entender.

Su objetivo es reducir el tiempo que se requiere para la ejecucin del algoritmo de minera de datos.

La seleccin de variable puede sacrificar precisin pero gana tiempo en el proceso de aprendizaje.

Estrategias de Seleccin de Caractersticas


Feature Filter Feature Wrapper

Usan mtodos heursticos sobre las caractersticas generales de los datos en lugar de un algoritmo de aprendizaje para evaluar el merito de los subconjuntos de caractersticas. Son mas rpidos que los mtodos wrappers y mas prcticos para usarlos en un subconjunto de datos muy grandes

La seleccin de caractersticas se hace usando informacin del mecanismo de clasificacin.

Son mas lentos porque deben llamar repetidamente al mecanismo de clasificacin.

Estrategias de Seleccin de Caractersticas


Filter approach
Original feature set Feature selection - evaluation fn selected feature subset classifier evaluation fn <> classifier ignored effect of selected subset on the performance of classifier.

Wrapper approach
Original feature set Feature selection - classifier selected feature subset classifier evaluation fin = classifier take classifier into account. loss generality. high degree of accuracy.

Tcnicas de Seleccin de Caractersticas


Tcnicas de Seleccin de Caractersticas

Feature Filters
Instance Based Approach LVF

Wrapper Filters

FOCUS

Information Theoric

Wrappers for decision tree learners Wrapper for Bayes Classifiers

Wrapper for instance based learning

Discretization

Learning algorithm as a filter for another

Feature Filters

FOCUS
Algoritmo que busca en el subconjunto de caractersticas hasta que encuentra la mnima combinacin de caractersticas que dividen el dato de entrenamiento en clases puras min features bias. Problemas Bsqueda exhaustiva es dificultosa si muchas caractersticas son necesarias. Fuerte tendencia a la consistencia puede conducir a sobre ajustar los datos (over-fitting).

Solutions to the FOCUS Problems


Se presentaron tres Algoritmos, consistentes en Forward Search, complementados con una heurstica para aproximar min features bias. 1. Evala las caractersticas usando la sigte. Formula terica:

Mide la entropia general de la clase de valores en ese grupo, en cada etapa la caracterstica que minimice la ecuacin es agregada al subconjunto actual de caracteristicas

Solutions to the FOCUS Problems


2. Elije la caracterstica mas discriminatoria para agregar al subconjunto de caractersticas en cada etapa de la bsqueda, la caracterstica seleccionada discrimina la mayor cantidad de pares de ejemplos negativo-positivo. 3. Es como el segundo, excepto que cada par de ejemplo positivo-negativo contribuye a un incremento pesado al puntaje de cada caracteristica que discrimina.

LVF
y Busca aleatoramente en el espacio de instancias lo que hace que las elecciones probabilisticas sean mas rapidas a una solucion optima. y Para cada subconjunto candidato, LVF calcula un conteo de inconsistencia basado en la intuicin. y Un umbral de inconsistencia es fijado desde el inicio (Default = 0) y Cualquier subconjunto con tasa de inconsitencia > umbral, RECHAZADO.

Algoritmo LVF
Ventajas
y Encuentra el subconjunto optimo aun para una base de datos con ruido. y El usuario no debe esperar mucho para un buen subconjunto y Eficiente y simple de implementar, garantiza encontrar un subconjunto optimo, si los recursos lo permiten

Desventajas
y Toma mas tiempo encontrar el subconjunto ptimo(sea el conjunto de datos consistente o no)

Filtering Features trough Discretization


Si una caracterstica numrica se puede discretizar justificadamente a un solo valor, entonces puede ser removida del conjunto de datos. Se ordenan los atributos numericos colocando cada valor en su intervalo correspondiente y luego cada valor se discretiza usando la prueba 2 para determinar cuando intervalos adjacentence

Using One Learning Algorithm as a filter for another


Usan un algoritmo de aprendizaje particular como un pre-proceso para descubrir caracteristicas utiles de los subconjuntos para un algoritmo de aprendizaje primario. Ejemplo: Algoritmos de Arboles de Decision, que elijen subconjuntos de Caractersticas para ser usados por Instance based learners

Information Theoretic Feature Filter


Basado en ideas de teora de la informacin y razonamiento probabilstico. El algoritmo busca encontrar un subconjunto de caractersticas cuya distribucin de probabilidad sea lo mas cercano posible a la distribucin del conjunto original. Utiliza un Backward elimination search, y va eliminando la caracteristica que cause el menor cambio entre las dos distribuciones.

Instance Based Aproach - RELIEF


Construccin Bsica del Algoritmo:
- A cada elemento se le asigna un coeficiente de ponderacin acumulada calculada sobre un determinado nmero de datos de muestra seleccionada del conjunto de datos de entrenamiento. - Caractersticas sobre el coeficiente de ponderacin sobre un cierto umbral esta en el subconjunto de caractersticas seleccionado.

Instance Based Aproach - RELIEF


Asignacin del coeficiente de Ponderacin:
- El peso de un atributo es actualizado de acuerdo a que tan bien sus valores distinguen la instancia de la muestra del nearest hit y nearest miss - near-hit instance = similar class. - near-miss instance = different class.

Feature Wrappers

Feature Wrappers

Existen varios trabajos realizados con este enfoque y mtodos para reducir su gasto computacional

Feature Wrappers
Wrappers for Decision Tree Learners Wrapper for Instance-based learning Wrapper for Bayes Califiers Para cada uno de ellos se implementaron Enfoques de Wrapper, utilizando busquedas hacia adelante y hacia atras para la seleccion de caracteristicas, obteniendo una presicion optima y reduciendo el tamao de las muestras.

Seleccin de Variables

Seleccin de Variables
Y es una variable de inters. X1,Xp es un conjunto de variables explicadoras o predictores. Vectores de n observaciones. Cuando p es muy grande, que subconjunto de X1,Xp debemos usar? Es familiar en el contexto de regresin lineal. El problema es seleccionar y adaptar un modelo de la forma:

Caso especial del problema seleccin de modelos.

de

Mallows Cp
Minimiza el error cuadrtico medio de prediccin:

Donde, RSSy es la suma residual de los cuadrados para el Yesimo modelo y 2 es la estimacin usual del modelo completo. El objetivo es obtener un modelo con Cp mnimo, encontrando el mnimo subconjunto que tenga Cp mnimo

AIC, BIC and F ratio


Sea y denota la mxima probabilidad logartmica del Yesimo modelo. AIC(Akaike Information Criteria), selecciona el modelo que maximiza (y - qy) BIC(Bayesian Information Criteria), selecciona el modelo que maximiza y (logn)qy/2 Un criterio general, selecciona el subconjunto modelo que minimice:
Donde: F es una sancin de dimensin predefinida.

Principal Component Analisis (PCA)


Se basa en la matriz de covarianza de las variables. Busca reducir la dimensin de los datos encontrando algunas pocas combinaciones ortogonales lineales (PCs). La primera PC s1, es la combinacin lineal con varianza mas grande, la segunda PC es la combinacin lineal con la segunda varianza mas grande y as sucesivamente, segn el numero original de variables. Los primeros PCs, explican la mayora de las varianzas, y se pueden descartar el resto sin perdida de informacin.

Factor Analisis (FA)


Es un mtodo lineal. Asume que las variables de medicin dependen de algunos factores desconocidos. Ej. Test de inteligencia. El objetivo de FA es descubrir estas relaciones que luego puede ser usada para reducir dimensin en el conjunto de datos.

Advanced Methods for Variable Selection


En Chizi and Maimon 2002, los presentan nuevos mtodos para la seleccin de variables. Utilizan evaluadores conocidos como obtencin de informacin, coeficiente de regresin logstico y seleccin aleatoria.

También podría gustarte