Métodos de Minería de Datos
Los métodos de minería de datos tienen como metas primarias (en un alto nivel) la
predicción de datos desconocidos y la descripción de patrones.
Pueden emplearse diferentes criterios para clasificar los sistemas de minería de datos:
Dependiendo del objetivo para el que se realiza el aprendizaje, pueden distinguirse sistemas
para: clasificación, regresión, agrupamiento de conceptos, compactación, modelado de
dependencias, detección de desviaciones, etc.
Dependiendo de la tendencia con que se aborde el problema, se pueden distinguir tres
grandes líneas de investigación o paradigmas: sistemas conexionistas, sistemas evolucionistas
y sistemas simbólicos.
Métodos de representación del conocimiento que se emplean en la minería de datos
Agrupamiento ("Clustering"):
También llamada Segmentación, esta herramienta permite la identificación de tipologías o
grupos donde los elementos guardan similitud entre sí y diferencias con aquellos de otros
grupos.
Asociación (" Association Pattern Discovery"):
Este tipo de herramientas establece las posibles relaciones o correlaciones entre distintas
acciones o sucesos aparentemente independientes. Normalmente este tipo de herramientas
se fundamenta en técnicas estadísticas como los análisis de correlación y de variación.
Secuenciamiento (“Sequential Pattern Discovery"):
Esta herramienta permite identificar como, en el tiempo, la ocurrencia de una acción
desencadena otras posteriormente. El tiempo es una variable crítica e imprescindible para
introducir en la información a analizar.
Reconocimiento de Patrones ("Pattern Matching"):
Estas herramientas pueden ayudamos en la identificación de problemas e incidencias y de sus
posibles soluciones toda vez que dispongamos de la base de información necesaria en la cual
buscar. Estas herramientas se sustentan en las técnicas de Redes Neuronales y Algoritmos
Matemáticos.
Previsión ("Forecasting"):
La Previsión establece el comportamiento futuro más probable dependiendo de la evolución
pasada y presente. Esta herramienta tiene su uso fundamental en el tratamiento de Series
Temporales y las técnicas asociadas disponen de una importante madurez.
Simulación:
La generación de múltiples escenarios o posibilidades sujetas, normalmente, a unas reglas o
esquemas con el objeto de analizar la idoneidad y comportamiento de una decisión o
prototipo en un marco de posibles condiciones futuras o para analizar todas las posibles
variaciones o alternativas a una decisión o situación y también se usa para el cálculo numérico.
Optimización:
Es usada en la resolución de los problemas asociados a la logística de distribución y a la gestión
de "Stocks" en los negocios y en la determinación de parámetros teóricos a partir de los
experimentos en la investigación científica.
Clasificación (“Clasification”, “Prediction” o “Scoring”):
La clasificación agrupa todas aquellas herramientas que permiten asignar a un elemento la
pertenencia a un grupo o clase. También se utiliza para estas herramientas la denominación de
Predicción o Evaluación para aquellos casos donde se aplican técnicas.
Técnicas de Minería de Datos
Los algoritmos de minería de datos se clasifican en dos grandes categorías: supervisados o
predictivos y no supervisados o de descubrimiento del conocimiento.
La aplicación de los algoritmos de minería de datos requiere la realización de una serie de
actividades previas encaminadas a preparar los datos de entrada debido a que, en muchas
ocasiones dichos datos proceden de fuentes heterogéneas, no tienen el formato adecuado o
contienen ruido. Por otra parte, es necesario interpretar y evaluar los resultados obtenidos.
Las técnicas más comunes de Minería de Datos:
Métodos Estadísticos:
ANOVA: Análisis de la Varianza, contrasta si existen diferencias significativas entre las
medidas de una o más variables continuas en grupos de población distintos.
Ji cuadrado: Contrasta la hipótesis de independencia entre variables.
Componentes principales: Permite reducir el número de variables observadas a un
menor número de variables artificiales, conservando la mayor parte de la información
sobre la varianza de las variables.
Análisis de clusters: Permite clasificar una población en un número determinado de
grupos, sobre la base de semejanzas y diferencias de perfiles existentes entre los
diferentes componentes de dicha población.
Análisis discriminante: Método de clasificación de individuos en grupos que
previamente se han establecido, y que permite encontrar la regla de clasificación de
los elementos de estos grupos, y por tanto identificar cuáles son las variables que
mejor definan la pertenencia al grupo.
Regresión Lineal: Técnica más básica del Data Mining. Un modelo de regresión lineal se
implementa identificando una variable dependiente (y) y todas las variables
independientes (X1, X2,...). Se asume que la relación entre estas y aquella es lineal.
Todas las variables han de ser continuas. El resultado es la ecuación de la recta que
mejor se ajusta al juego de datos y esta ecuación se interpreta o se usa para
predicción.
Regresión Logística: Puede trabajar con variables discretas. También requiere que
todas las variables sean lineales.
Métodos Basados en Arboles de Decisión
Son herramientas analíticas empleadas para el descubrimiento de reglas y relaciones mediante
la ruptura y subdivisión sistemática de la información contenida en el conjunto de datos. El
árbol de decisión se construye partiendo el conjunto de datos en dos (CART) o más (CHAID)
subconjuntos de observaciones a partir de los valores que toman las variables predictoras.
Cada uno de estos subconjuntos vuelve después a ser particionado utilizando el mismo
algoritmo.
El método CHAID (Chi Squared Automatic Interaction Detector) es útil en aquellas situaciones
en las que el objetivo es dividir una población en distintos segmentos basándose en algún
criterio de decisión.
Reglas de Asociación
Derivan de un tipo de análisis que extrae información por coincidencias. Este análisis a veces
llamado "cesta de la compra" permite descubrir correlaciones o co-ocurrencias en los sucesos
de la base de datos a analizar y se formaliza en la obtención de reglas de tipo; SI ...
ENTONCES...
Redes Neuronales (“Neural Networks")
Las redes neuronales son una nueva forma de analizar la información con una diferencia
fundamental con respecto a las técnicas tradicionales: son capaces de detectar y aprender
patrones y características dentro de los datos. Se comportan de forma parecida a nuestro
cerebro aprendiendo de la experiencia y el pasado y aplicando tal conocimiento a la resolución
de problemas nuevos.
La red asigna pesos al azar a cada variable independiente y determina si existe algún patrón
predictivo en los datos. Una vez que encuentra un patrón la red lo optimiza reforzando los
pesos de las variables y comparando con los datos del grupo de validación. Luego prosigue el
proceso y aprende de los resultados una y otra vez. Finalmente, se puede aplicar el modelo
aprendido a cualquier nuevo conjunto de datos de entrada. Pueden manejar datos continuos y
discretos, lineales y no-lineales simultáneamente.
Algoritmos Genéticos (“Genetic Algorithms”
Los Algoritmos Genéticos hacen uso de las técnicas biológicas de reproducción (mutación y
cruce) para ser utilizadas en todo tipo de problemas de búsqueda y optimización.
Esta aproximación está enfocada a problemas de optimización. Se comienza con una población
de partida y se va alterando y optimizando su composición para la solución de un problema
particular mediante mecanismos tomados de la teoría de la evolución (introducir elementos
aleatorios para la modificación de las variables o mutaciones). El material genético o
información de los individuos puede ser transmitido a las siguientes generaciones, de
diferentes formas que van optimizando el proceso. A través de la reproducción, los mejores
segmentos perduran y su proporción crece de generación en generación. Al cabo de cierto
número de iteraciones, la población estará constituida por buenas soluciones al problema de
optimización.
Lógica Difusa (“fuzzy logic")
La Lógica Difusa es aquella técnica que permite y trata la existencia de barreras difusas o
suaves entre los distintos grupos en los que categorizamos un colectivo o entre los distintos
elementos, factores o proporciones que concurren en una situación o solución.
Series Temporales
Consisten en el estudio de una variable a través del tiempo para, a partir de ese conocimiento,
y bajo el supuesto de que no van a producirse cambios estructurales, poder realizar
predicciones. Suelen basarse en un estudio de la serie en ciclos, tendencias y estacionalidades,
que se diferencian por el ámbito de tiempo abarcado, para, por composición, obtener la serie
original.
Redes Bayesianas
Las redes bayesianas son una alternativa para minería de datos, la cual tiene varias ventajas:
Permiten aprender sobre relaciones de dependencia y causalidad.
Permiten combinar conocimiento con datos.
Evitan el sobre-ajuste de los datos.
Pueden manejar bases de datos incompletos.
El obtener una red bayesiana a partir de datos es un proceso de aprendizaje, el cual se divide,
naturalmente, en dos aspectos:
Aprendizaje paramétrico: dada una estructura, obtener las probabilidades a priori y
condicionales requeridas.
Aprendizaje estructural: obtener la estructura de la red Bayesiana, es decir, las relaciones de
dependencia e independencia entre las variables involucradas.