Cubo

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 41

Arquitectura de varios

niveles
Los almacenes de
datos suelen
adoptar una
arquitectura de tres
niveles
Nivel inferior
El nivel inferior es un servidor de base de datos de almacén que casi siempre
es un sistema de base de datos relacional. Las herramientas y utilidades de
back-end se utilizan para alimentar datos al nivel inferior desde bases de datos
operativas u otras fuentes externas (p. ej., información del perfil del cliente
proporcionada por consultores externos).
Los datos se extraen mediante interfaces de programas de aplicación
conocidas como puertas de enlace. Una puerta de enlace es compatible con el
DBMS subyacente y permite que los programas del cliente generen código SQL
para ejecutarlo en un servidor. Los ejemplos de puertas de enlace incluyen
ODBC (Conexión de base de datos abierta) y OLEDB (Base de datos de
vinculación e incrustación de objetos) de Microsoft y JDBC (Conexión de base
de datos de Java). Este nivel también contiene un repositorio de metadatos,
que almacena información sobre el almacén de datos y su contenido.
El nivel medio
El nivel medio es un servidor OLAP que normalmente se implementa
utilizando un modelo OLAP(ROLAP) relacional (es decir, un DBMS
relacional extendido que asigna operaciones en datos
multidimensionales a operaciones relacionales estándar); o un modelo
OLAP multidimensional (MOLAP) (es decir, un servidor de propósito
especial que directamente implementa operaciones y datos
multidimensionales).
El nivel superior
El nivel superior es una capa de cliente front-end, que contiene
herramientas de consulta e informes, herramientas de análisis y/o
herramientas de minería de datos (por ejemplo, análisis de tendencias,
predicción, etc.).
Modelos de almacenamiento de
datos: Enterprise Warehouse,Data
Mart y Almacén Virtual
Desde el punto de vista de la arquitectura, existen tres modelos de
almacén de datos: el almacén empresarial, el data mart y el almacén
virtual.

Almacén empresarial: un almacén empresarial recopila toda la


información sobre temas que abarcan toda la organización.
Proporciona integración de datos en toda la empresa, generalmente de
uno o más sistemas operativos o proveedores de información externos,
y tiene un alcance multifuncional.
Por lo general, contiene datos detallados, así como datos resumidos, y
puede variar en tamaño desde unos pocos gigabytes hasta cientos de
gigabytes, terabytes o más. Un almacén de datos empresarial puede
implementarse en mainframes tradicionales, superservidores
informáticos o plataformas de arquitectura paralela. Requiere un
extenso modelado de negocios y puede llevar años diseñarlo y
construirlo.
Data mart: un data mart contiene un subconjunto de datos corporativos
que son valiosos para un grupo específico de usuarios. El alcance se limita
a temas específicos seleccionados. Por ejemplo, un mercado de datos de
marketing puede limitar sus sujetos a cliente, artículo y ventas. Los datos
contenidos en los data marts tienden a resumirse.
Los data marts generalmente se implementan en servidores
departamentales de bajo costo basados en Unix/Linux o Windows. Es más
probable que el ciclo de implementación de un data mart se mida en
semanas en lugar de meses o años. Sin embargo, puede implicar una
integración compleja a largo plazo si su diseño y planificación no fueran
para toda la empresa.
Según la fuente de datos, los data marts se pueden clasificar como
independientes o dependientes. Los data marts independientes se
obtienen de los datos capturados de uno o más sistemas operativos o
proveedores de información externos, o de los datos generados
localmente dentro de un departamento o área geográfica en particular.
Los data marts dependientes son procedente directamente de
almacenes de datos empresariales.
Almacén virtual: Un almacén virtual es un conjunto de vistas sobre
bases de datos operativas. Para un procesamiento de consultas
eficiente, solo se pueden materializar algunas de las posibles vistas de
resumen. Un almacén virtual es fácil de construir, pero requiere un
exceso de capacidad en los servidores de bases de datos operativas.
Cubo de datos: un modelo de
datos multidimensional
“¿Qué es un cubo de datos?” Un cubo de datos permite modelar y
visualizar datos en múltiples dimensiones. Se define por dimensiones y
hechos.
En términos generales, las dimensiones son las perspectivas o
entidades con respecto a las cuales una organización desea mantener
registros. Por ejemplo, AllElectronics puede crear un almacén de datos
de ventas para mantener registros de las ventas de la tienda con
respecto a las dimensiones de tiempo, artículo, sucursal y ubicación.
Estas dimensiones permiten que la tienda realice un seguimiento de
cosas como las ventas mensuales de artículos y las sucursales y
ubicaciones en las que se vendieron los artículos. Cada dimensión
puede tener una tabla asociada, denominada tabla de dimensiones,
que describe más detalladamente la dimensión. Por ejemplo, una tabla
de dimensiones para un artículo puede contener los atributos nombre,
marca y tipo del artículo. Las tablas de dimensiones pueden ser
especificadas por usuarios o expertos, o generarse y ajustarse
automáticamente en función de las distribuciones de datos
Un modelo de datos multidimensional generalmente se organiza en
torno a un tema central, como las ventas. Este tema está representado
por una tabla de hechos (Fact Table). Los hechos son medidas
numéricas. Piense en ellos como las cantidades por las cuales
queremos analizar las relaciones entre las dimensiones.
Los ejemplos de hechos para un almacén de datos de ventas incluyen
dólares vendidos (cantidad de ventas en dólares), unidades vendidas
(cantidad de unidades vendidas) y cantidad presupuestada. La tabla de
hechos contiene los nombres de los hechos o medidas, así como las
claves de cada una de las tablas de dimensiones relacionadas.
Aunque generalmente pensamos en los cubos como estructuras
geométricas tridimensionales, en el almacenamiento de datos, el cubo
de datos es n-dimensional. Para obtener una mejor comprensión de los
cubos de datos y el modelo de datos multidimensional, comencemos
mirando un cubo de datos 2D simple que es, de hecho, una tabla u hoja
de cálculo para datos de ventas de AllElectronics. En particular,
veremos los datos de ventas de AllElectronics para artículos vendidos
por trimestre en la ciudad de Vancouver.
Estos datos se muestran en la siguiente tabla. En esta representación
2D, las ventas de Vancouver se muestran con respecto a la dimensión
temporal (organizadas en trimestres) y la dimensión artículo
(organizadas según los tipos de artículos vendidos). El hecho o medida
que se muestra son dólares vendidos (en miles).

Vista 2-D de datos de ventas para AllElectronics según tiempo y artículo


Ahora, supongamos que nos gustaría ver los datos de ventas con una
tercera dimensión. Por ejemplo, supongamos que nos gustaría ver los
datos según el tiempo y los items, así como la ubicación, para las
ciudades de Chicago, Nueva York, Toronto y Vancouver.
Estos datos tridimensionales se muestran en la siguiente tabla. Los
datos tridimensionales de la tabla se representan como una serie de
tablas bidimensionales. Conceptualmente, también podemos
representar los mismos datos en forma de un cubo de datos
tridimensional, como en la siguiente figura
Vista tridimensional de los datos de ventas de AllElectronics según el tiempo, los ítems
y la ubicación
Una representación de cubo de datos en 3D de los datos de la Tabla 2, según la hora, el
elemento y la ubicación. La medida mostrada son dólares vendidos (en miles).
Supongamos que ahora nos gustaría ver nuestros datos de ventas con
una cuarta dimensión adicional, como proveedor. Ver cosas en 4-D se
vuelve complicado. Sin embargo, podemos pensar en un cubo 4-D como
una serie de cubos 3-D, como se muestra en la siguiente Figura. Si
continuamos de esta manera, podemos mostrar cualquier dato n-
dimensional como una serie de "cubos" .n 1/-dimensionales.
El cubo de datos es una metáfora del almacenamiento de datos
multidimensionales. El almacenamiento físico real de dichos datos
puede diferir de su representación lógica. Lo importante a recordar es
que los cubos de datos son n-dimensionales y no limitan los datos a 3-D.
Una representación de cubo de datos en 4-D de los datos de ventas, según el tiempo, los
items, la ubicación y el proveedor.
La medida mostrada son dólares vendidos (en miles). Para mejorar la legibilidad, solo se
muestran algunos de los valores del cubo.
Las tablas anteriores muestran los datos en diferentes grados de
resumen. En el almacenamiento de datos, un cubo de datos como los
que se muestran en las Figuras a menudo se denomina cuboide.
Dado un conjunto de dimensiones, podemos generar un coboide para
cada uno de los posibles subconjuntos de las dimensiones dadas. El
resultado formaría una red de cuboides, cada uno mostrando los datos
en un nivel diferente de resumen o agrupados. La red de cuboides se
denomina cubo de datos. La figura siguiente muestra una red de
cuboides que forman un cubo de datos para las dimensiones de
tiempo, items, ubicación y proveedor.
Red de cuboides, que forman un cubo de datos 4-D para tiempo, artículo, ubicación y proveedor. Cada cuboide representa
un grado diferente de resumen
El cuboide que tiene el nivel más bajo de resumen se llama cuboide
base. Por ejemplo, el cuboide 4-D de la Figura 2 es el cuboide base para
las dimensiones dadas de tiempo, artículo, ubicación y proveedor. La
figura 1 es un cuboide tridimensional (no base) para el tiempo, el
artículo y la ubicación, resumido para todos los proveedores. El cuboide
0-D, que tiene el nivel más alto de resumen, se denomina ápex
coboide. En nuestro ejemplo, estas son las ventas totales, o dólares
vendidos, resumidos en las cuatro dimensiones.
Starts, snowflakes y constelaciones
de hechos: esquemas para Modelos
de datos multidimensionales
El modelo de datos entidad-relación se usa comúnmente en el diseño de
bases de datos relacionales, donde un esquema de base de datos consta
de un conjunto de entidades y las relaciones entre ellas. Tal modelo de
datos es apropiado para el procesamiento de transacciones en línea.
Sin embargo, un almacén de datos requiere un esquema conciso y
orientado a temas que facilite el análisis de datos en línea.
El modelo de datos más popular para un almacén de datos es un modelo
multidimensional, que puede existir en forma de esquema de estrella,
esquema de copo de nieve o esquema de constelación de hechos.
Veamos cada uno de estos.
Esquema en estrella: el paradigma de modelado más común
es el esquema en estrella, en el que el almacén de datos
contiene (1) una gran tabla central (Fact Table) que contiene la
mayor parte de los datos, sin redundancia, y (2) un conjunto
de operadores más pequeños. tablas (tablas de dimensiones),
una para cada dimensión.
El gráfico de esquema se asemeja a un estallido estelar, con el
tablas de dimensiones que se muestran en un patrón radial
alrededor de la tabla de hechos central.
Esquema en estrella de ventas de un Data Warehouse
Las ventas se consideran cuatro dimensiones largas: tiempo, artículo,
sucursal y ubicación. El esquema contiene una tabla de hechos central
para ventas que contiene claves para cada una de las cuatro
dimensiones, junto con dos medidas: dólares vendidos y unidades
vendidas. Para minimizar el tamaño de la tabla de hechos, los
identificadores de dimensión (por ejemplo, clave de tiempo y clave de
elemento) son identificadores generados por el sistema.
Esquema snowflakes: el esquema de copo de nieve es una variante del
modelo de esquema de estrella, en el que se normalizan algunas tablas
de dimensiones, por lo que se dividen aún más los datos en tablas
adicionales. El gráfico de esquema resultante tiene una forma similar a
un copo de nieve.
La principal diferencia entre los modelos de esquema de copo de nieve
y de estrella es que las tablas de dimensiones del modelo de copo de
nieve se pueden mantener en forma normalizada para reducir las
redundancias. Tal mesa es fácil de mantener y ahorra espacio de
almacenamiento. Sin embargo, este ahorro de espacio es insignificante
en comparación con la magnitud típica de la tabla de hechos. Además,
la estructura de copo de nieve puede reducir la eficacia de la
navegación, ya que se necesitarán más uniones para ejecutar una
consulta.
En consecuencia, el rendimiento del sistema puede verse afectado
negativamente. Por lo tanto, aunque el esquema de copo de nieve
reduce la redundancia, no es tan popular como el esquema en estrella
en el diseño de almacenes de datos.
Aquí, la tabla de hechos de ventas es idéntica a la del esquema en
estrella. La principal diferencia entre los dos esquemas está en la
definición de las tablas de dimensiones.
La tabla de dimensión única para el artículo en el esquema de estrella
se normaliza en el esquema de copo de nieve, lo que da como
resultado nuevas tablas de artículos y proveedores. Por ejemplo, la
tabla de dimensiones del artículo ahora contiene los atributos clave del
artículo, nombre del artículo, marca, tipo y clave del proveedor, donde
proveedor
La clave está vinculada a la tabla de dimensiones del proveedor, que
contiene información sobre la clave del proveedor y el tipo de
proveedor. De manera similar, la tabla de una sola dimensión para la
ubicación en el esquema de estrella se puede normalizar en dos nuevas
tablas: ubicación y ciudad. La clave de la ciudad en la nueva tabla de
ubicación se vincula con la dimensión de la ciudad. Tenga en cuenta
que, cuando se desee, se puede realizar una normalización adicional en
la provincia o el estado y el país
Constelación de hechos. Este esquema especifica dos tablas de hechos,
ventas y envío. La definición de la tabla de ventas es idéntica a la del
esquema en estrella. La tabla de envío tiene cinco dimensiones o
claves: clave de artículo, clave de tiempo, clave de remitente, desde la
ubicación y hasta la ubicación, y dos medidas, el costo en dólares y las
unidades enviadas. Un esquema de constelación de hechos permite
compartir tablas de dimensiones entre tablas de hechos. Por ejemplo,
las tablas de dimensiones de tiempo, artículo y ubicación se comparten
entre las tablas de hechos de ventas y envío.
En el almacenamiento de datos, existe una distinción entre un almacén
de datos y un data mart.
Un almacén de datos recopila información sobre temas que abarcan
toda la organización, como clientes, artículos, ventas, activos y
personal, por lo que su alcance abarca toda la empresa.
Para los almacenes de datos, el esquema de constelación de hechos se
usa comúnmente, ya que puede modelar múltiples temas
interrelacionados. Un data mart, por otro lado, es un subconjunto del
departamento del almacén de datos que se enfoca en temas
seleccionados y, por lo tanto, su alcance es para todo el departamento.
Para data marts, el esquema de estrella o copo de nieve se usa
comúnmente, ya que ambos están orientados hacia el modelado de
sujetos únicos, aunque el esquema de estrella es más popular y
eficiente.
Ejercicio
Suponga que un almacén de datos consta de las tres dimensiones
tiempo, médico y paciente, y las dos medidas cuentan y cobran, donde
el cargo es la tarifa que un médico le cobra a un paciente por una visita.
(a) Enumere tres clases de esquemas que se usan popularmente para
modelar almacenes de datos.
(b) Dibuje un diagrama de esquema para el almacén de datos anterior
utilizando una de las clases de esquema enumeradas en (a).

También podría gustarte