Almacenes de Datos o Data Warehouse
Almacenes de Datos o Data Warehouse
Almacenes de Datos o Data Warehouse
Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes
de datos, define un data warehouse (almacén de datos) en términos de las
características del repositorio de datos:
IMAGEN DE BILL
Metadatos
El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué
columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los
datos son de interés para el usuario final, el metadato es de interés para los programas
que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un
entorno de almacén de datos es muy diferente al rol que cumple en los ambientes
operacionales. En el ámbito de los data warehouse el metadato juega un papel
fundamental, su función consiste en recoger todas las definiciones de la organización y
el concepto de los datos en el almacén de datos, debe contener toda la información
concerniente a:
Tablas
Columnas de tablas
Relaciones entre tablas
Jerarquías y Dimensiones de datos
Entidades y Relaciones
Ventajas
Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de
ellas son:
Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a
los usuarios finales
Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la
decisión
Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el
valor operacional de las aplicaciones empresariales, en especial la gestión de
relaciones con clientes.
Inconvenientes
yunior
Caracteristicas y usos de las herramientas:
Data-mining
Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en
grandes volúmenes de datos. Está muy ligada a las bodegas de datos que proporcionan la
información histórica con la cual los algoritmos de minería de datos tienen la información
necesaria para la toma de decisiones.
Por ejemplo, qué productos se comercializan mejor en la temporada navideña, en qué
regiones es productivo sembrar café, qué áreas de una zona urbana incrementarán su
demanda de escuelas primarias.
Se empieza a hablar de minería de datos cuando en el mercado se pone atención en el
producto y el cliente. Esta herramienta existe hace varios años, el problema es que
trabaja con grandes bases de datos.
La minería de datos forma parte de un proceso integrado desde el 'Data Warehouse'
hasta la presentación.
medicina
industria y manufactura:
mercadotécnia
inversión en casas de bolsa y banca
detección de fraudes y comportamientos inusuales.
análisis de canastas de mercado para mejorar la organización de tiendas, segmentación de
mercado (clustering)
determinación de niveles de audiencia de programas televisivos
normalización automática de bases de datos
Técnicas de MD
Análisis Preliminar de datos usando Query tools: el primer paso en un proyecto de data mining
sería siempre un análisis de los datos usando query tools, aplicando una consulta SQL a un
conjunto de datos, para rescatar algunos aspectos visibles antes de aplicar las técnicas.
Técnicas de Visualización: estas son buenas para ubicar patrones en un conjunto de datos y
puede ser usado al comienzo de un proceso de data mining para tomar un feeling de la calidad
del conjunto de datos.
Árbol de Decisión: son estructuras en forma de árbol que representan conjuntos de decisiones.
Retos de la minería de datos
que los productos a comercializar son, en la actualidad, significativamente costosos,
y los consumidores pueden hallar una relación costo/beneficio improductiva.
que se requiera de mucha experiencia para utilizar herramientas de la tecnología, o
que sea muy fácil hallar patrones equívocos, triviales o no interesantes.
que exista una reacción del público por el uso indiscriminado de datos personales
para ejercicios de Minería de Datos.
Etapas principales del proceso de data mining
1. Determinación de los objetivos:
2. Preprocesamiento de los datos:
3. Determinación del modelo:
4. Análisis de los resultados:
Extensiones del data mining
Web mining: consiste en aplicar las técnicas de minería de datos a documentos y servicios del
Web. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP,
navegador, etc.) que los servidores automáticamente almacenan en una bitácora de accesos
(Log).
Text mining: dado que el ochenta por ciento de la información de una compañía está
almacenada en forma de documentos, las técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y recuperación de la información o el
aprendizaje automático, entre otras, apoyan al text mining (minería de texto).
Algoritmos geneticos
Inteligencia artificial
Sistemas expertos
Sistemas inteligentes
Tendencias
JOEL
Datamart
Los Data marts son subconjuntos de datos de un data warehouse para áreas
especificas.
Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar
la estructura óptima para el análisis de su información, estructura que puede estar
montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una
base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos
y las características específicas de cada departamento. De esta forma se pueden plantear
dos tipos de datamarts:
Datamart OLAP
Se basan en los populares cubos OLAP, que se construyen agregando, según los
requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de
cada cubo relacional.
Datamart OLTP
Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es
introducir mejoras en su rendimiento
Los datamarts que están dotados con estas estructuras óptimas de análisis presentan las
siguientes ventajas:
Usuarios limitados.
Área especifica.
Tiene un propósito especifico.
Tiene una función de apoyo.
OLAP
ROLAP
Implementación OLAP que almacena los datos en un motor relacional. Típicamente, los
datos son detallados, evitando las agregaciones y las tablas se encuentran normalizadas.
MOLAP
Esta implementación OLAP almacena los datos en una base de datos multidimensional.
Para optimizar los tiempos de respuesta, el resumen de la información es usualmente
calculado por adelantado.
Narielis
Características
Accesibilidad a la información. Los datos son la fuente principal de este
concepto.
Lorenzo
DEFINICION Y USO DE LA INTELIGENCIA ARTIFICIAL
Se denomina inteligencia artificial (IA) a la rama de las Ciencias de la Computación
dedicada al desarrollo de agentes racionales no vivos.
Para explicar la definición anterior, entiéndase a un agente como cualquier cosa capaz
de percibir su entorno (recibir entradas), procesar tales percepciones y actuar en su
entorno (proporcionar salidas), y entiéndase a la racionalidad como la característica que
posee una elección de ser correcta.
Críticas
Las principales críticas a la inteligencia artificial tienen que ver con su incapacidad de
imitar por completo a un ser humano. Estas críticas ignoran que ningún humano
individual tiene capacidad para resolver todo tipo de problemas, y autores como
Howard Gardner han propuesto que existen inteligencias múltiples. Un sistema de
inteligencia artificial debería resolver problemas. Por lo tanto es fundamental en su
diseño la delimitación de los tipos de problemas que resolverá y las estrategias y
algoritmos que utilizará para encontrar la solución.