Diseño de centro de datos.
Freddy Joel Virgil.
17-MISM-1-048
1. Panorama general de la minería de datos.
La minería de datos o exploración de datos (es la etapa de análisis de
"Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las
ciencias de la computación referido al proceso que intenta descubrir patrones
en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la
inteligencia artificial, aprendizaje automático, estadística y sistemas de bases
de datos. El objetivo general del proceso de minería de datos consiste en
extraer información de un conjunto de datos y transformarla en una estructura
comprensible para su uso posterior. Además de la etapa de análisis en bruto,
supone aspectos de gestión de datos y de bases de datos, de procesamiento de
datos, del modelo y de las consideraciones de inferencia, de métricas de
Intereses, de consideraciones de la teoría de la complejidad computacional, de
post-procesamiento de las estructuras descubiertas, de la visualización y de la
actualización en línea.
El término es un concepto de moda, y es frecuentemente mal utilizado para
referirse a cualquier forma de datos a gran escala o procesamiento de la
información (recolección, extracción, almacenamiento, análisis y estadísticas),
pero también se ha generalizado a cualquier tipo de sistema informático de
apoyo a decisiones, incluyendo la inteligencia artificial, aprendizaje automático
y la inteligencia empresarial. En el uso de la palabra, el término clave es el
descubrimiento, comúnmente se define como "la detección de algo nuevo".
Incluso el popular libro "La minería de datos: sistema de prácticas herramientas
de aprendizaje y técnicas con Java" (que cubre todo el material de aprendizaje
automático) originalmente iba a ser llamado simplemente "la máquina de
aprendizaje práctico", y el término "minería de datos" se añadió por razones de
marketing. A menudo, los términos más generales "(gran escala) el análisis de
datos", o "análisis". O cuando se refieren a los métodos actuales, la inteligencia
artificial y aprendizaje automático, son más apropiados.
La tarea de minería de datos real es el análisis automático o semi-automático
de grandes cantidades de datos para extraer patrones interesantes hasta ahora
desconocidos, como los grupos de registros de datos (análisis clúster), registros
poco usuales (la detección de anomalías) y dependencias (minería por reglas de
asociación). Esto generalmente implica el uso de técnicas de bases de datos
como los índices espaciales. Estos patrones pueden entonces ser vistos como
una especie de resumen de los datos de entrada, y pueden ser utilizados en el
análisis adicional o, por ejemplo, en el aprendizaje automático y análisis
predictivo.
2. Objetivos de la minería de datos.
El objetivo general del proceso de minería de datos consiste en extraer
información de un conjunto de datos y transformarla en una estructura
comprensible para su uso posterior.
3. Aplicaciones de la minería de datos.
Cuando se habla de minería de datos, aplicaciones, herramientas y soluciones
trabajan de forma conjunta para lograr un objetivo común: garantizar la calidad
de los datos. Se busca llegar a un nivel que aporte fiabilidad a la toma de
decisiones, asegurando que con ellos se crea un conocimiento sólido, íntegro y
completo.
Dentro del campo de la minería de datos, las aplicaciones más extendidas son
las siguientes:
1. Análisis de datos financieros: se emplea tanto en el sector bancario como en
el de las finanzas. Se busca proveer datos que aseguren que es posible practicar
análisis sistemáticos en condiciones avanzadas y con garantías de fiabilidad.
Algunos ejemplos son:
Diseño y construcción de almacenes de datos para el análisis
multidimensional de datos.
Predicción de pago de préstamos y análisis de políticas de crédito de
cliente.
Clasificación y el agrupamiento de los clientes para la creación de
ofertas personalizadas.
Detección de blanqueamiento de dinero y otros delitos financieros.
2. Industria minorista: el sector retail recoge grandes cantidades de datos
provenientes de las ventas, el historial de compra de los clientes o el transporte
de mercancías. La cantidad de datos recogidos continúa expandiéndose
rápidamente debido al aumento de la facilidad, disponibilidad y popularidad de
la web y las transacciones online. La minería de datos con sus aplicaciones para
la industria minorista ayuda a identificar patrones de compra de los clientes y
tendencias. De esta forma, las empresas están en condiciones de proporcionar
una mejor calidad de servicio al cliente, aumentando su satisfacción y
facilitando su retención. Entre estas aplicaciones destacan las que permiten:
El análisis multidimensional de las ventas, los clientes, los productos, el
tiempo y la región.
Los análisis de la eficacia de las campañas de ventas.
La recomendación personalizada de productos.
Las referencias cruzadas de artículos.
3. Industria de las telecomunicaciones: en este sector, los datos son
especialmente importantes para alcanzar una buena comprensión del negocio.
La minería de datos y aplicaciones específicamente diseñadas para este área,
ayudan en la identificación de los patrones de telecomunicaciones, facilitan la
detección de actividades fraudulentas y posibilitan el hacer un mejor uso de los
recursos, mejorando la calidad del servicio. Entre las más ventajosas están:
Análisis multidimensional de datos de telecomunicaciones.
Análisis de patrones fraudulentos.
Identificación de patrones inusuales, hábitos y tendencias.
Asociación multidimensional y análisis de patrones secuenciales.
4. Análisis de datos biológicos: el campo de la biología es uno de los más
beneficiados por los avances de la tecnología. La genómica, la proteómica, la
genómica funcional y la minería de datos aplicada a la investigación de los seres
vivos son sólo algunos ejemplos, una lista donde no hay que olvidarse de la
bioinformática. La minería de datos con sus aplicaciones aporta una
contribución importante para el análisis de datos biológicos:
Integración semántica de las bases de datos genómicos y proteómicos
heterogéneos distribuidos.
Alineamiento, indexación, búsqueda de similitudes y análisis
comparativo de múltiples secuencias de nucleótidos.
Descubrimiento de patrones y análisis de redes genéticas.
Identificación de patrones de proteínas estructurales.
4. Herramientas comerciales de minería de datos.
Clementine / SPSS: Herramienta de data mining que permite desarrollar
modelos predictivos y desplegarlos para mejorar la toma de decisiones. Está
diseñada teniendo en cuenta a los usuarios empresariales, de manera que no
es preciso ser un experto en data mining.
Clementine es la más avanzada herramienta de Data Mining del mercado,
combina modernas técnicas de modelamiento con poderosas herramientas de
acceso, manipulación y exploración de datos en una interfaz simple e intuitiva.
SAS Enterprise Miner / SAS: Solución de minería de datos que proporciona
gran cantidad de modelos y de alternativas. Permite determinar pautas y
tendencias, explica resultados conocidos e identifica factores que permiten
asegurar efectos deseados. Además, compara los resultados de las distintas
técnicas de modelado, tanto en términos estadísticos como de negocio, dentro
de un marco sencillo y fácil de interpretar.
Keel: Es un software para evaluar la evolución de los algoritmos de minería de
datos y problemas de regresión, entre ellos: clasificación, agrupamiento y
patrón de la minería. Contiene una gran colección de algoritmos clásicos de
extracción de conocimientos, técnicas de pre procesamiento (selección de
instancias, selección de características, discretización, métodos de imputación
de valores), Inteligencia Computacional de aprendizaje basado en algoritmos,
incluido el estado evolutivo de algoritmos de aprendizaje basados en diferentes
enfoques (Pittsburgh, Michigan y IRL) y modelos híbridos como sistemas difusos
genéticos, redes neuronales evolutivas, etc. Nos permite realizar un análisis
completo de cualquier modelo de aprendizaje en comparación con los
existentes, incluido un módulo de prueba estadística para la comparación entre
ellos.
SAS Analytics / SAS: Suite de soluciones analíticas que permiten transformar
todos los datos de la organización en conocimiento, reduciendo la
incertidumbre, realizando predicciones fiables y optimizando el desempeño.
RapidMiner / Yale: Es el líder mundial de código abierto para la minería de
datos debido a su combinación de su tecnología de primera calidad y su rango
de funcionalidad. Esta aplicación de RapidMiner cubre un amplio rango de
minería de datos. Además de ser una herramienta flexible para aprender y
explorar la minería de datos, la interfaz gráfica de usuario tiene como objetivo
simplificar el uso para las tareas complejas de esta área.
Microsoft SQL Server 2005 / Microsoft: Solución que ofrece un entorno
integrado para crear modelos de minería de datos y trabajar con ellos. La
solución SQL Server Data Mining permite el acceso a la información necesaria
para tomar decisiones inteligentes sobre problemas empresariales complejos.
Dlife / Apara: Plataforma bioinformática para la toma de decisiones clínicas.
Proporciona un soporte computacional a la toma de decisiones médicas en los
procesos de diagnóstico, tratamiento y seguimiento de la evolución de los
pacientes que permite a los profesionales clínicos incrementar su precisión y la
eficiencia de la prestación sanitaria en una media del 20%.
KNIME: Fue desarrollado originalmente en el departamento de bioinformática
y minería de datos de la Universidad de Constanza, Alemania, bajo la
supervisión del profesor Michael Berthold.