0% encontró este documento útil (0 votos)
203 vistas12 páginas

Almacenes de Datos o Data Warehouse

Descargar como doc, pdf o txt
Descargar como doc, pdf o txt
Descargar como doc, pdf o txt
Está en la página 1/ 12

Rosa

Almacenes de Datos o Data Warehouse.


IMAGEN DE DATAW

Es una colección de datos orientada a un determinado ámbito (empresa, organización,


etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en
la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una
organización, más allá de la información transaccional y operacional, almacenado en
una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos
(especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los
datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a
menudo grandes cantidades de información que se subdividen a veces en unidades
lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para
el que sean necesario.

Bill Inmon fue uno de los primeros autores en escribir sobre el tema de los almacenes
de datos, define un data warehouse (almacén de datos) en términos de las
características del repositorio de datos:

IMAGEN DE BILL

 Orientado a temas.- Los datos en la base de datos están organizados de manera


que todos los elementos de datos relativos al mismo evento u objeto del mundo
real queden unidos entre sí.
 Variante en el tiempo.- Los cambios producidos en los datos a lo largo del
tiempo quedan registrados para que los informes que se puedan generar reflejen
esas variaciones.
 No volátil.- La información no se modifica ni se elimina, una vez almacenado
un dato, éste se convierte en información de sólo lectura, y se mantiene para
futuras consultas.
 Integrado.- La base de datos contiene los datos de todos los sistemas
operacionales de la organización, y dichos datos deben ser consistentes.

Función de un almacén de datos


En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles
para una organización, es decir, que se utiliza como un repositorio de datos para
posteriormente transformarlos en información útil para el usuario. Un almacén de datos
debe entregar la información correcta a la gente indicada en el momento óptimo y en el
formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios
expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información
ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales
pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la
operación del sistema.

En el funcionamiento de un almacén de los datos son muy importantes las siguientes


ideas:

 Integración de los datos provenientes de bases de datos distribuidas por las


diferentes unidades de la organización y que con frecuencia tendrán diferentes
estructuras. Se debe facilitar una descripción global y un análisis comprensivo
de toda la organización en el almacén de datos.
 Separación de los datos usados en operaciones diarias de los datos usados en el
almacén de datos para los propósitos de divulgación, de ayuda en la toma de
decisiones, para el análisis y para operaciones de control. Ambos tipos de datos
no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy
distintos y podrían entorpecerse entre sí.

Objetivos del Data Warehouse


Proveer una visión única de los clientes en toda la empresa
Poner tanta información comercial como sea posible en manos de tantos usuarios
diferentes como sea posible
Mejorar el tiempo de espera que insumen los informes habituales
Monitorear el comportamiento de los clientes
Predecir compras de productos
Mejorar la capacidad de respuesta a problemas comerciales
Incrementar la precisión de las mediciones
Aumentar la productividad
Incrementar y distribuir las responsabilidades.    

Metadatos

Uno de los componentes más importantes de la arquitectura de un almacén de datos son


los metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido
de que se trata de datos que describen cuál es la estructura de los datos que se van a
almacenar y cómo se relacionan.

El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué
columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los
datos son de interés para el usuario final, el metadato es de interés para los programas
que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un
entorno de almacén de datos es muy diferente al rol que cumple en los ambientes
operacionales. En el ámbito de los data warehouse el metadato juega un papel
fundamental, su función consiste en recoger todas las definiciones de la organización y
el concepto de los datos en el almacén de datos, debe contener toda la información
concerniente a:
 Tablas
 Columnas de tablas
 Relaciones entre tablas
 Jerarquías y Dimensiones de datos
 Entidades y Relaciones

Diseño de un almacén de datos

Para construir un Data Warehouse se necesitan herramientas para ayudar a la migración


y a la transformación de los datos hacia el almacén. Una vez construido, se requieren
medios para manejar grandes volúmenes de información. Se diseña su arquitectura
dependiendo de la estructura interna de los datos del almacén y especialmente del tipo
de consultas a realizar.

 Situación actual de partida.- Cualquier solución propuesta de data warehouse


debe estar muy orientada por las necesidades del negocio y debe ser compatible
con la arquitectura técnica existente y planeada de la compañía.

 Tipo y características del negocio.- Es indispensable tener el conocimiento


exacto sobre el tipo de negocios de la organización y el soporte que representa la
información dentro de todo su proceso de toma de decisiones.

 Entorno técnico.- Se debe incluir tanto el aspecto del hardware (mainframes,


servidores, redes,...) así como aplicaciones y herramientas. Se dará énfasis a los
Sistemas de soporte a decisiones (DSS), si existen en la actualidad, cómo
operan, etc.

 Expectativas de los usuarios.- Un proyecto de data warehouse no es únicamente


un proyecto tecnológico, es una forma de vida de las organizaciones y como tal,
tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre
su bondad.

 Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo


de un modelo conceptual para la construcción del data warehouse.

 Prototipo.- Un prototipo es un esfuerzo designado a simular tanto como sea


posible el producto final que será entregado a los usuarios.

 Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros


resultados generados de forma iterativa que se harán para llegar a la
construcción del producto final deseado.

 Prueba del concepto tecnológico.- Es un paso opcional que se puede necesitar


para determinar si la arquitectura especificada del data warehouse funcionará
finalmente como se espera.
Cómo trabaja el Data Warehouse?
 Extrae la información operacional.  
 Transforma la operación a formatos consistentes.
 Automatiza las tareas de la información para prepararla a un análisis
eficiente.      
¿En qué se lo puede usar?
o Manejo de relaciones de marketing.
o Análisis de rentabilidad.  
o Reducción de costos.   

Ventajas

Hay muchas ventajas por las que es recomendable usar un almacén de datos. Algunas de
ellas son:

 Los almacenes de datos hacen más fácil el acceso a una gran variedad de datos a
los usuarios finales
 Facilitan el funcionamiento de las aplicaciones de los sistemas de apoyo a la
decisión
 Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el
valor operacional de las aplicaciones empresariales, en especial la gestión de
relaciones con clientes.

Inconvenientes

Utilizar almacenes de datos también plantea algunos inconvenientes, algunos de ellos


son:

 A lo largo de su vida los almacenes de datos pueden suponer altos costos. El


almacén de datos no suele ser estático. Los costos de mantenimiento son
elevados.
 Los almacenes de datos se pueden quedar obsoletos relativamente pronto.
 A veces, ante una petición de información estos devuelven una información
subóptima, que también supone una pérdida para la organización.
 A menudo existe una delgada línea entre los almacenes de datos y los sistemas
operacionales. Hay que determinar qué funcionalidades de estos se pueden
aprovechar y cuáles se deben implementar en el data warehouse.

yunior
Caracteristicas y usos de las herramientas:
Data-mining
Es un mecanismo de explotación, consistente en la búsqueda de información valiosa en
grandes volúmenes de datos. Está muy ligada a las bodegas de datos que proporcionan la
información histórica con la cual los algoritmos de minería de datos tienen la información
necesaria para la toma de decisiones.
Por ejemplo, qué productos se comercializan mejor en la temporada navideña, en qué
regiones es productivo sembrar café, qué áreas de una zona urbana incrementarán su
demanda de escuelas primarias.
Se empieza a hablar de minería de datos cuando en el mercado se pone atención en el
producto y el cliente. Esta herramienta existe hace varios años, el problema es que
trabaja con grandes bases de datos.
La minería de datos forma parte de un proceso integrado desde el 'Data Warehouse'
hasta la presentación.

La md puede ser dividida en:  


 minería de datos predictiva (mdp): usa primordialmente técnicas estadísticas.
 minería de datos para descubrimiento de conocimiento (mddc): usa
principalmente técnicas de inteligencia artificial
Aplicaciones de MD
       astronomía

        aspectos climatológicos:

      medicina
        industria y manufactura:
       mercadotécnia
        inversión en casas de bolsa y banca
        detección de fraudes y comportamientos inusuales.
        análisis de canastas de mercado para mejorar la organización de tiendas, segmentación de
mercado (clustering)
        determinación de niveles de audiencia de programas televisivos
        normalización automática de bases de datos        
Técnicas de MD
Análisis Preliminar de datos usando Query tools: el primer paso en un proyecto de data mining
sería siempre un análisis de los datos usando query tools, aplicando una consulta SQL a un
conjunto de datos, para rescatar algunos aspectos visibles antes de aplicar las técnicas.
Técnicas de Visualización: estas son buenas para ubicar patrones en un conjunto de datos y
puede ser usado al comienzo de un proceso de data mining para tomar un feeling de la calidad
del conjunto de datos.  
Árbol de Decisión: son estructuras en forma de árbol que representan conjuntos de decisiones.
Retos de la minería de datos
 que los productos a comercializar son, en la actualidad, significativamente costosos,
y los consumidores pueden hallar una relación costo/beneficio improductiva.
 que se requiera de mucha experiencia para utilizar herramientas de la tecnología, o
que sea muy fácil hallar patrones equívocos, triviales o no interesantes.
 que exista una reacción del público por el uso indiscriminado de datos personales
para ejercicios de Minería de Datos.
Etapas principales del proceso de data mining
1. Determinación de los objetivos:
2. Preprocesamiento de los datos:
3. Determinación del modelo:
4. Análisis de los resultados:
Extensiones del data mining 
Web mining: consiste en aplicar las técnicas de minería de datos a documentos y servicios del
Web. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP,
navegador, etc.) que los servidores automáticamente almacenan en una bitácora de accesos
(Log).
Text mining: dado que el ochenta por ciento de la información de una compañía está
almacenada en forma de documentos, las técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y recuperación de la información o el
aprendizaje automático, entre otras, apoyan al text mining (minería de texto).

Un proceso típico de minería de datos consta de los siguientes pasos generales:

1. Selección del conjunto de datos,


2. Análisis de las propiedades de los datos,
3. Transformación del conjunto de datos de entrada,
4. Seleccionar y aplicar la técnica de minería de datos,
5. Extracción de conocimiento,
6. Interpretación y evaluación de datos,
Protocolo de un proyecto de minería de datos
 Comprensión del negocio y del problema que se quiere resolver.
 Determinación, obtención y limpieza de los datos necesarios.
 Creación de modelos matemáticos.
 Validación, comunicación, etc. de los resultados obtenidos.
 Integración, si procede, de los resultados en un sistema transaccional o similar.

Ejemplos de uso de la minería de datos


 Negocios
 Habito de compras en supermercados
 Patrones de fuga
 Fraudes
 Recursos humanos
 Comportamiento en Internet
 Terrorismo
 Juegos
 Ciencia e ingenieria

De la informatica toma las sigtes tecnicas:

 Algoritmos geneticos
 Inteligencia artificial
 Sistemas expertos
 Sistemas inteligentes

Tendencias

La Minería de Datos ha sufrido transformaciones en los últimos años de acuerdo con


cambios tecnológicos, de estrategias de marketing, la extensión de los modelos de
compra en línea, etc. Los más importantes de ellos son:

 La importancia que han cobrado los datos no estructurados (texto, páginas de


Internet, etc.).
 La necesidad de integrar los algoritmos y resultados obtenidos en sistemas
operacionales, portales de Internet, etc.
 La exigencia de que los procesos funcionen prácticamente en línea (por
ejemplo, que frente a un fraude con una tarjeta de crédito).
 Los tiempos de respuesta.
 Conclusiones
 El desarrollo de la tecnología de Minería de Datos está en un momento crítico.
Existe una serie de elementos que la hacen operable, sin embargo, existen
algunos factores que pueden crear un descrédito a la Minería de Datos, como
ser:
       que los productos a comercializar son, en la actualidad, significativamente
costosos.
       que se requiera de mucha experiencia para utilizar herramientas de la
tecnología.

JOEL

Datamart
Los Data marts son subconjuntos de datos de un data warehouse para áreas
especificas.

Un Datamart es una base de datos departamental, especializada en el almacenamiento


de los datos de un área de negocio específica. Se caracteriza por disponer la estructura
óptima de datos para analizar la información al detalle desde todas las perspectivas que
afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde
los datos de un datawarehouse, o integrar por si mismo un compendio de distintas
fuentes de información.

Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar
la estructura óptima para el análisis de su información, estructura que puede estar
montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una
base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos
y las características específicas de cada departamento. De esta forma se pueden plantear
dos tipos de datamarts:

Datamart OLAP
Se basan en los populares cubos OLAP, que se construyen agregando, según los
requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de
cada cubo relacional.

Datamart OLTP
Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es
introducir mejoras en su rendimiento

Los datamarts que están dotados con estas estructuras óptimas de análisis presentan las
siguientes ventajas:

  Poco volumen de datos

  Mayor rapidez de consulta

  Consultas SQL y/o MDX sencillas


  Validación directa de la información

  Facilidad para la historización de los datos

Entre las características de un data mart destacan:

 Usuarios limitados.
 Área especifica.
 Tiene un propósito especifico.
 Tiene una función de apoyo.

Razones para crear un data mart


 Fácil acceso a los datos que se necesitan frecuentemente.
 Crea vista colectiva para grupo de usuarios.
 Mejora el tiempo de respuesta del usuario final.
 Facilidad de creación.
 Costo inferior al de la aplicación de un completo almacén de datos.
 Los usuarios potenciales son más claramente identificables que en un almacén
de datos completo...

Conceptos erróneos de los Data Marts


 Son más simples de implementar que un Data Warehouse: FALSO, la
implementación es muy similar, ya que debe proporcionar las mismas
funcionalidades.
 Son pequeños conjuntos de datos y, en consecuencia, tienen menor necesidad de
recursos: FALSO, una aplicación corriendo sobre un data mart necesita los
mismos recursos que si corriera sobre un data warehouse.
 Las consultas son más rápidas, dado el menor volumen de datos: FALSO, el
menor volumen de datos se debe a que no se tienen todos los datos de toda la
empresa, pero si se tienen todos los datos de un determinado sector de la
empresa, por lo que una consulta sobre dicho sector tarda lo mismo si se hace
sobre el data mart que si se hace sobre el data warehouse.
 En algunos casos añade tiempo al proceso de actualización: FALSO, actualizar
el data mart desde el data warehouse cuesta menos (ya que los formatos de los
datos son o suelen ser idénticos) que actualizar el data warehouse desde sus
fuentes de datos primarias, donde es necesario realizar operaciones de
transformación.

OLAP

OLAP es el acrónimo en inglés de procesamiento analítico en línea (On-Line


Analytical Processing). Es una solución utilizada en el campo de la llamada Inteligencia
empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes
cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP)
que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales
(OLTP). Se usa en informes de negocios de ventas, marketing, informes de dirección,
minería de datos y áreas similares.
La razón de usar OLAP para las consultas es la velocidad de respuesta. Una base de
datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta
estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es
relativamente lenta

La principal característica que potencia a OLAP, es que es lo más rápido a la hora de


ejecutar sentencias SQL de tipo SELECT, en contraposición con OLTP que es la mejor
opción para operaciones de tipo INSERT, UPDATE Y DELETE.

Tipos de sistemas OLAP

Tradicionalmente, los sistemas OLAP se clasifican según las siguientes categorías:

ROLAP

Implementación OLAP que almacena los datos en un motor relacional. Típicamente, los
datos son detallados, evitando las agregaciones y las tablas se encuentran normalizadas.

MOLAP

Esta implementación OLAP almacena los datos en una base de datos multidimensional.
Para optimizar los tiempos de respuesta, el resumen de la información es usualmente
calculado por adelantado.

HOLAP (Hybrid OLAP)

Almacena algunos datos en un motor relacional y otros en una base de datos


multidimensional.

Narielis

INTELIGENCIA DE NEGOCIOS PARA LA TOMA DE DESICIONES

Conjunto de estrategias y herramientas enfocadas a la administración y creación de


conocimiento mediante el análisis de datos existentes en una organización o empresa.

El término inteligencia empresarial se refiere al uso de datos en una empresa para


facilitar la toma de decisiones. Abarca la comprensión del funcionamiento actual de la
empresa, bien como la anticipación de acontecimientos futuros, con el objetivo de
ofrecer conocimientos para respaldar las decisiones empresariales.
Las herramientas de inteligencia se basan en la utilización de un sistema de información
de inteligencia que se forma con distintos datos extraídos de los datos de producción,
con información relacionada con la empresa o sus ámbitos y con datos económicos.

Mediante las herramientas y técnicas ELT (extraer, cargar y transformar), o actualmente


ETL (extraer, transformar y cargar) se extraen los datos de distintas fuentes, se depuran
y preparan (homogeneización de los datos) para luego cargarlos en un almacén de datos.

La vida o el periodo de éxito de un software de inteligencia de negocios dependerá


únicamente del nivel de éxito del cual haga en beneficio de la empresa que lo usa, si
esta empresa es capaz de incrementar su nivel financiero, administrativo y sus
decisiones mejoran el accionar de la empresa, la inteligencia de negocios usada estará
presente por mucho tiempo, de lo contrario será sustituido por otro que aporte mejores
resultados y mas precisos.

Características
 Accesibilidad a la información. Los datos son la fuente principal de este
concepto.

 Apoyo en la toma de decisiones. Se busca ir más allá en la presentación de la


información, de manera que los usuarios tengan acceso a herramientas de
análisis que les permitan seleccionar y manipular sólo aquellos datos que les
interesen.

 Orientación al usuario final. Se busca independencia entre los conocimientos


técnicos de los usuarios y su capacidad para utilizar estas herramientas.

Lorenzo
DEFINICION Y USO DE LA INTELIGENCIA ARTIFICIAL
Se denomina inteligencia artificial (IA) a la rama de las Ciencias de la Computación
dedicada al desarrollo de agentes racionales no vivos.

Para explicar la definición anterior, entiéndase a un agente como cualquier cosa capaz
de percibir su entorno (recibir entradas), procesar tales percepciones y actuar en su
entorno (proporcionar salidas), y entiéndase a la racionalidad como la característica que
posee una elección de ser correcta.

Por lo tanto, y de manera más específica la inteligencia artificial es la disciplina que se


encarga de construir procesos que al ser ejecutados sobre una arquitectura física
producen acciones o resultados que maximizan una medida de rendimiento
determinada, basándose en la secuencia de entradas percibidas y en el conocimiento
almacenado en tal arquitectura.

El concepto de IA es aún demasiado difuso. Contextualizando, y teniendo en cuenta un


punto de vista científico, podríamos englobar a esta ciencia como la encargada de imitar
una persona, y no su cuerpo, sino imitar al cerebro, en todas sus funciones, existentes en
el humano o inventadas sobre el desarrollo de una máquina inteligente.

Críticas

Las principales críticas a la inteligencia artificial tienen que ver con su incapacidad de
imitar por completo a un ser humano. Estas críticas ignoran que ningún humano
individual tiene capacidad para resolver todo tipo de problemas, y autores como
Howard Gardner han propuesto que existen inteligencias múltiples. Un sistema de
inteligencia artificial debería resolver problemas. Por lo tanto es fundamental en su
diseño la delimitación de los tipos de problemas que resolverá y las estrategias y
algoritmos que utilizará para encontrar la solución.

También podría gustarte