Reducción de Dimensión y Selección de Características

Reduccin de Dimensin y Seleccin de Caractersticas
Barak Chizi y Oded Maimon

Metodologa para la reduccin de dimensionalidad Prdida de Informacin mnima
Introduccin
La figura muestra la relacin entre la tasa de error de un modelo de minera de datos y el costo de obtener dicho modelo. El objetivo de la reduccin de dimensionalidad es identificar el costo ms pequeo en el cual el algoritmo de minera de datos puede mantener la tasa de error debajo de f (frontera de eficiencia).
La figura representa una taxonoma de las razones de la reduccin de dimensionalidad. Existen 4 razones y cada una es referida a un subproblema distintivo.
Problema de Reduccin de Dimensionalidad

Seleccin de Caractersticas Seleccin de variables
Su Objetivo es identificar que caractersticas en el conjunto de datos son importantes y descartar cualquier otra que sea irrelevante o redundante. Mejora la precisin de futuras clasificaciones u obtiene resultados ms compactos y fciles de entender.
Su objetivo es reducir el tiempo que se requiere para la ejecucin del algoritmo de minera de datos.
La seleccin de variable puede sacrificar precisin pero gana tiempo en el proceso de aprendizaje.
Estrategias de Seleccin de Caractersticas

Feature Filter Feature Wrapper
Usan mtodos heursticos sobre las caractersticas generales de los datos en lugar de un algoritmo de aprendizaje para evaluar el merito de los subconjuntos de caractersticas. Son mas rpidos que los mtodos wrappers y mas prcticos para usarlos en un subconjunto de datos muy grandes
La seleccin de caractersticas se hace usando informacin del mecanismo de clasificacin.
Son mas lentos porque deben llamar repetidamente al mecanismo de clasificacin.
Estrategias de Seleccin de Caractersticas

Filter approach
Original feature set Feature selection - evaluation fn selected feature subset classifier evaluation fn <> classifier ignored effect of selected subset on the performance of classifier.
Wrapper approach
Original feature set Feature selection - classifier selected feature subset classifier evaluation fin = classifier take classifier into account. loss generality. high degree of accuracy.
Tcnicas de Seleccin de Caractersticas

Tcnicas de Seleccin de Caractersticas
Feature Filters
Instance Based Approach LVF
Wrapper Filters
FOCUS
Information Theoric
Wrappers for decision tree learners Wrapper for Bayes Classifiers
Wrapper for instance based learning
Discretization
Learning algorithm as a filter for another
Feature Filters
FOCUS
Algoritmo que busca en el subconjunto de caractersticas hasta que encuentra la mnima combinacin de caractersticas que dividen el dato de entrenamiento en clases puras min features bias. Problemas Bsqueda exhaustiva es dificultosa si muchas caractersticas son necesarias. Fuerte tendencia a la consistencia puede conducir a sobre ajustar los datos (over-fitting).
Solutions to the FOCUS Problems

Se presentaron tres Algoritmos, consistentes en Forward Search, complementados con una heurstica para aproximar min features bias. 1. Evala las caractersticas usando la sigte. Formula terica:
Mide la entropia general de la clase de valores en ese grupo, en cada etapa la caracterstica que minimice la ecuacin es agregada al subconjunto actual de caracteristicas
Solutions to the FOCUS Problems

2. Elije la caracterstica mas discriminatoria para agregar al subconjunto de caractersticas en cada etapa de la bsqueda, la caracterstica seleccionada discrimina la mayor cantidad de pares de ejemplos negativo-positivo. 3. Es como el segundo, excepto que cada par de ejemplo positivo-negativo contribuye a un incremento pesado al puntaje de cada caracteristica que discrimina.
LVF
y Busca aleatoramente en el espacio de instancias lo que hace que las elecciones probabilisticas sean mas rapidas a una solucion optima. y Para cada subconjunto candidato, LVF calcula un conteo de inconsistencia basado en la intuicin. y Un umbral de inconsistencia es fijado desde el inicio (Default = 0) y Cualquier subconjunto con tasa de inconsitencia > umbral, RECHAZADO.
Algoritmo LVF
Ventajas
y Encuentra el subconjunto optimo aun para una base de datos con ruido. y El usuario no debe esperar mucho para un buen subconjunto y Eficiente y simple de implementar, garantiza encontrar un subconjunto optimo, si los recursos lo permiten
Desventajas
y Toma mas tiempo encontrar el subconjunto ptimo(sea el conjunto de datos consistente o no)
Filtering Features trough Discretization

Si una caracterstica numrica se puede discretizar justificadamente a un solo valor, entonces puede ser removida del conjunto de datos. Se ordenan los atributos numericos colocando cada valor en su intervalo correspondiente y luego cada valor se discretiza usando la prueba 2 para determinar cuando intervalos adjacentence
Using One Learning Algorithm as a filter for another

Usan un algoritmo de aprendizaje particular como un pre-proceso para descubrir caracteristicas utiles de los subconjuntos para un algoritmo de aprendizaje primario. Ejemplo: Algoritmos de Arboles de Decision, que elijen subconjuntos de Caractersticas para ser usados por Instance based learners
Information Theoretic Feature Filter

Basado en ideas de teora de la informacin y razonamiento probabilstico. El algoritmo busca encontrar un subconjunto de caractersticas cuya distribucin de probabilidad sea lo mas cercano posible a la distribucin del conjunto original. Utiliza un Backward elimination search, y va eliminando la caracteristica que cause el menor cambio entre las dos distribuciones.
Instance Based Aproach - RELIEF

Construccin Bsica del Algoritmo:
- A cada elemento se le asigna un coeficiente de ponderacin acumulada calculada sobre un determinado nmero de datos de muestra seleccionada del conjunto de datos de entrenamiento. - Caractersticas sobre el coeficiente de ponderacin sobre un cierto umbral esta en el subconjunto de caractersticas seleccionado.
Instance Based Aproach - RELIEF

Asignacin del coeficiente de Ponderacin:
- El peso de un atributo es actualizado de acuerdo a que tan bien sus valores distinguen la instancia de la muestra del nearest hit y nearest miss - near-hit instance = similar class. - near-miss instance = different class.
Feature Wrappers
Feature Wrappers
Existen varios trabajos realizados con este enfoque y mtodos para reducir su gasto computacional
Feature Wrappers
Wrappers for Decision Tree Learners Wrapper for Instance-based learning Wrapper for Bayes Califiers Para cada uno de ellos se implementaron Enfoques de Wrapper, utilizando busquedas hacia adelante y hacia atras para la seleccion de caracteristicas, obteniendo una presicion optima y reduciendo el tamao de las muestras.
Seleccin de Variables
Seleccin de Variables
Y es una variable de inters. X1,Xp es un conjunto de variables explicadoras o predictores. Vectores de n observaciones. Cuando p es muy grande, que subconjunto de X1,Xp debemos usar? Es familiar en el contexto de regresin lineal. El problema es seleccionar y adaptar un modelo de la forma:
Caso especial del problema seleccin de modelos.
de
Mallows Cp
Minimiza el error cuadrtico medio de prediccin:
Donde, RSSy es la suma residual de los cuadrados para el Yesimo modelo y 2 es la estimacin usual del modelo completo. El objetivo es obtener un modelo con Cp mnimo, encontrando el mnimo subconjunto que tenga Cp mnimo
AIC, BIC and F ratio

Sea y denota la mxima probabilidad logartmica del Yesimo modelo. AIC(Akaike Information Criteria), selecciona el modelo que maximiza (y - qy) BIC(Bayesian Information Criteria), selecciona el modelo que maximiza y (logn)qy/2 Un criterio general, selecciona el subconjunto modelo que minimice:
Donde: F es una sancin de dimensin predefinida.
Principal Component Analisis (PCA)

Se basa en la matriz de covarianza de las variables. Busca reducir la dimensin de los datos encontrando algunas pocas combinaciones ortogonales lineales (PCs). La primera PC s1, es la combinacin lineal con varianza mas grande, la segunda PC es la combinacin lineal con la segunda varianza mas grande y as sucesivamente, segn el numero original de variables. Los primeros PCs, explican la mayora de las varianzas, y se pueden descartar el resto sin perdida de informacin.
Factor Analisis (FA)

Es un mtodo lineal. Asume que las variables de medicin dependen de algunos factores desconocidos. Ej. Test de inteligencia. El objetivo de FA es descubrir estas relaciones que luego puede ser usada para reducir dimensin en el conjunto de datos.
Advanced Methods for Variable Selection

En Chizi and Maimon 2002, los presentan nuevos mtodos para la seleccin de variables. Utilizan evaluadores conocidos como obtencin de informacin, coeficiente de regresin logstico y seleccin aleatoria.

Reducción de Dimensión y Selección de Características

Cargado por

Copyright:

Formatos disponibles

Reducción de Dimensión y Selección de Características

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reducción de Dimensión y Selección de Características

Cargado por

Copyright:

Formatos disponibles

Reduccin de Dimensin y Seleccin de Caractersticas

Barak Chizi y Oded Maimon

Problema de Reduccin de Dimensionalidad

Estrategias de Seleccin de Caractersticas

La seleccin de caractersticas se hace usando informacin del mecanismo de clasificacin.

Son mas lentos porque deben llamar repetidamente al mecanismo de clasificacin.

Estrategias de Seleccin de Caractersticas

Tcnicas de Seleccin de Caractersticas

Wrappers for decision tree learners Wrapper for Bayes Classifiers

Wrapper for instance based learning

Learning algorithm as a filter for another

Solutions to the FOCUS Problems

Solutions to the FOCUS Problems

Filtering Features trough Discretization

Using One Learning Algorithm as a filter for another

Information Theoretic Feature Filter

Instance Based Aproach - RELIEF

Instance Based Aproach - RELIEF

Caso especial del problema seleccin de modelos.

AIC, BIC and F ratio

Principal Component Analisis (PCA)

Factor Analisis (FA)

Advanced Methods for Variable Selection

También podría gustarte