Modelado Dimensional
Modelado Dimensional
Modelado Dimensional
Los modelos dimensionales correlacionan los aspectos de cada proceso de su negocio. Los esquemas
de bases de datos que se modelan segn los principios de modelado dimensional funcionan bien con
las aplicaciones que deben leer grandes cantidades de datos rpidamente. Este acceso rpido y fcil a
los datos ayuda a desarrollar aplicaciones y consultas que permiten a la empresa analizar los datos.
Fase de diseo
Seleccione el proceso de negocio para el que se asignar el modelo dimensional. Segn la seleccin,
se renen los requisitos del proceso de negocio. Un proceso de negocio requiere ms de un modelo
dimensional.
Los procesos de negocio no siempre son departamentos de negocio. Por ejemplo, considere un
escenario en el que los departamentos de ventas y marketing acceden a los datos de pedido. En este
caso, deber crear un modelo dimensional sencillo para gestionar los datos de pedido en vez de crear
modelos dimensionales independientes para los departamentos de ventas y marketing. Si crea
modelos dimensionales basados en departamentos, almacenar datos duplicados. La duplicacin o
redundancia de datos puede ocasionar muchos problemas relacionados con la calidad y coherencia de
los datos.
Cuando seleccione un solo proceso de negocio (entre todos los procesos posibles que existen en una
empresa), debe priorizar los procesos de negocio segn determinados criterios. Los criterios pueden
incluir el significado del proceso de negocio, la calidad de los datos en los sistemas de origen y la
viabilidad y complejidad de los procesos de negocio.
Cuando identifique los procesos de negocio de un modelo dimensional, rena los siguientes
metadatos:
Requisitos empresariales del negocio seleccionado para el que disear el modelo dimensional
Procesos de negocio
Propietarios
Sistemas de origen que se utilizarn
Problemas de calidad de los datos
Trminos comunes utilizados en los procesos de negocio
Otros metadatos relacionados con el negocio
Los modelos dimensionales se utilizan generalmente en dos entornos: el depsito de datos y los
sistemas OLTP.
Cuando particione los datos en un depsito de datos, divida los datos segn el tema. Un
depsito de datos se basa en un tema. El depsito de datos contiene temas especficos
seleccionados en la organizacin, como por ejemplo un cliente o un producto. Para una
implementacin prctica de un depsito de datos, los datos ms importantes estn contenidos
en un proceso de negocio especfico. Este requisito es bastante diferente de los requisitos de
OLTP.
Las consultas del entorno del depsito de datos son de naturaleza ms estratgica y plantean
preguntas relacionadas con un mbito ms amplio. Un ejemplo de consulta es "Qu
productos se venden bien?" o "Dnde estn mis oficinas de ventas ms dbiles?". Para
responder a esas consultas, el depsito de datos est estructurado y orientado a temas como
por ejemplo un producto o una organizacin. Estos temas son la unidad ms comn de
particionamiento lgico en el depsito de datos.
En el entorno operativo, los datos se particionan por aplicacin o funcin, ya que el entorno
operativo se crea en torno a aplicaciones orientadas a transacciones que realizan un conjunto
especfico de funciones. El objetivo del entorno operativo es realizar esas funciones lo ms
rpido posible. Si hay consultas realizadas en el entorno operativo, sern de naturaleza ms
tctica y debern responder a las preguntas relacionadas con ese instante en el tiempo. Una
consulta de ejemplo puede ser la pregunta "Se ha procesado el cheque del Sr. Lpez?"
Identifique las entidades y medidas de alto nivel que son comunes en diversos procesos
Determine las entidades empresariales de alto nivel implicadas en cada proceso. Determine qu
entidades son comunes en varios procesos de negocio. Una vez identificadas las entidades comunes,
puede unir los procesos de negocio a travs de estas dimensiones comunes (compartidas).
Para crear dimensiones compartidas que se puedan utilizar en toda la empresa, debe asegurarse de
que las distintas partes del negocio estn de acuerdo con las definiciones de estas entidades comunes.
Este proceso puede tardar algn tiempo, ya que las definiciones de las entidades comunes pueden
varias entrar las distintas partes del negocio. Debe definir las entidades comunes inicialmente, ya que
si necesita cambiar esta definicin en el futuro, las aplicaciones existentes pueden resultar afectadas.
Un depsito de datos debe proporcionar informacin coherente para las consultas que solicitan
informacin similar. Un mtodo para mantener la coherencia es crear tablas de dimensiones
compartidas y utilizadas por todas las aplicaciones y despensas de datos (modelos dimensionales) en
el depsito de datos. Los candidatos para las dimensiones compartidas incluyen clientes, tiempo,
productos y dimensiones geogrficas, como por ejemplo la dimensin de almacenamiento.
Los requisitos suelen ser difciles de definir. Generalmente, slo despus de ver un resultado se puede
decidir que el resultado cumple (o no) un requisito. Los requisitos de una organizacin tambin
cambian a lo largo del tiempo. Lo que es vlido un da puede no serlo al da siguiente. A pesar de ello,
los requisitos identificados en este punto se utilizan en el ciclo de desarrollo para crear el modelo
dimensional.
Para reunir el conjunto completo de requisitos, debe considerar las siguientes preguntas:
La recopilacin de requisitos controlados por origen se basa en definir los requisitos utilizando
los datos de origen en los sistemas operativos de produccin. Puede definir los requisitos
analizando un modelo de datos de origen si hay un disponible o los diseos de registro fsico
reales y seleccionando los datos de inters.
La principal ventaja de este mtodo es que le permite saber desde el principio que puede
proporcionar todos los datos, dado que ya se limita a lo que hay disponible. Una segunda
ventaja es que puede minimizar el tiempo que necesitan los usuarios en las fases iniciales del
proyecto. No obstante, nada puede sustituir la importancia y el valor que obtiene cuando
implica a los usuarios.
El resultado del mtodo controlado por origen es proporcionar lo datos de que dispone, lo que
es apropiado en al menos dos casos:
El mtodo se puede utilizar para desarrollar una lista bastante completa de las
dimensiones principales de inters para la empresa. Si tiene previsto crear un
depsito de datos para toda la empresa, esto puede minimizar la proliferacin de
dimensiones duplicadas en las despensas de datos desarrolladas independientemente.
El anlisis de relaciones en los datos de origen puede identificar reas en las que
centrar sus esfuerzos de desarrollo de un depsito de datos.
La ventaja principal de este mtodo se basa en proporcionar los datos realmente necesarios,
no los que estn disponibles. En general, este mtodo tiene un mbito inferior al mtodo
controlado por origen. Por lo tanto, el mtodo controlado por usuario generalmente produce
un depsito de datos o una despensa de datos til en un lapso de tiempo ms corto.
Sin embargo, las expectativas se deben gestionar detenidamente. Los usuarios deben
comprender claramente que algunos de los datos que necesitan no pueden ponerse a su
disposicin por diversas razones. No obstante, no debe limitar las preguntas que realicen los
usuarios. Cuando defina los requisitos de un depsito de datos, deben fomentarse ideas
alternativas. Estos requisitos impiden que elimine requisitos simplemente porque crea que no
sean posibles. Si un usuario est demasiado centrado en algo, puede pasar por alto datos
tiles que estn disponibles en los sistemas de produccin.
Qu es lo que se analiza?
Cules son los criterios de evaluacin?
Cuando rena los requisitos, debe tratar de comprender el dominio del problema para el que se
realiza el modelado. Generalmente, los requisitos en esta fase se documentan informalmente y
los esquemas no se detallan en su totalidad. Cuando rena estos requisitos, identifique las
siguientes reas de inters:
Identifique las cuestiones ms importantes que debe tratar el negocio. Puede asignar
valores de importancia a cada cuestin para determinar las cuestiones ms importantes
que se deben abordar.
Determine cmo desea el negocio registrar los datos cuando estos cambian. Por
ejemplo, desear saber cmo gestionar los datos histricos de los productos que ya no
estn disponibles o de los registros de los empleados.
Identifique la granularidad de cada tabla de hechos y proceso de negocio. Durante este proceso
deber identificar los tipos de tablas de hechos y los candidatos preliminares para las dimensiones y
medidas.
El nivel de detalle disponible en un esquema de estrella se conoce como grano. Cada tabla de
hechos y dimensiones tiene su propio grano o granularidad. Cada tabla (de hechos o
dimensiones) contiene un nivel de detalle con el que se asocia. El grano del modelo
dimensional es el nivel de detalle ms fino que est implcito al unir las tablas de hechos y
dimensiones. Por ejemplo, la granularidad de un modelo dimensional que consta de las
dimensiones de fecha, almacn y producto es producto vendido en el almacn por da.
Cada fila contiene el mismo tipo de datos. Por ejemplo, cada fila puede contener ventas
diarias por almacn, por producto, o elementos de lnea diarios por almacn.
Por ejemplo, las definiciones de grano pueden incluir los siguientes elementos:
Un elemento de lnea en un recibo de tienda de comestibles
Una instantnea mensual de un extracto de cuenta bancaria
Un solo billete de avin adquirido un da
Las tablas de hechos y dimensiones tienen una granularidad asociada a ellas. El modelado
dimensional, la granularidad hace referencia al nivel de detalle almacenado en una tabla. Por
ejemplo, una dimensin como la fecha (con las jerarquas de ao y trimestre) tiene
granularidad en el nivel trimestral pero no tiene informacin para los das o meses
individuales. Alternativamente, una tabla de dimensiones de fecha (con las jerarquas de ao,
trimestre y mes) tiene granularidad en el nivel mensual, pero no contiene informacin en el
nivel diario.
Puede gestionar distintas granularidades de datos utilizando varias tablas de hechos (tablas
diarias, mensuales y anuales). Tambin puede utilizar una sola tabla con un distintivo de
granularidad, o una columna que indique el grano de la tabla. No obstante, no almacene datos
con distintas granularidades en la misma tabla de hechos.
Cuando identifique los granos de los objetos de datos, realice los pasos siguientes:
El detalle de grano se basa en las conclusiones de los requisitos analizados y documentados en el Paso
1: Identificar los requisitos del proceso de negocio. Rena documentos, como facturas, recibos y
memorndums de pedido. Estos documentos con frecuencia incluyen informacin que se puede utilizar
para definir el grano. Estos documentos tambin tienen informacin que ayuda a identificar las
dimensiones y medidas de los modelos dimensionales.
El grano que elija determinar el nivel de detalle de la informacin que puede haber disponible en el
modelo dimensional.
La definicin de grano es la base de cada modelo dimensional. La definicin de grano determina el
nivel de informacin que hay disponible. Las directrices para elegir la definicin de grano incluyen las
siguientes consideraciones:
Se pueden gestionar distintas granularidades de datos utilizando varias tablas de hechos (por ejemplo,
tablas diarias, mensuales y anuales). Adems, considere la cantidad de datos, espacio y requisitos de
rendimiento cuando decida cmo gestionar varias granularidades.
Para determinar si desea utilizar una o ms tablas de hechos, considere los siguientes
criterios:
Considere las medidas. Decida si desea agrupar las medidas en una tabla de hechos o
en distintas tablas de hechos con granos diferentes.
Hay varios sistemas de origen OLTP implicados? Cada sistema de origen est
diseado con un objetivo especfico. Si dos sistemas de origen no cumplen objetivos
diferentes, consolide los sistemas en un solo origen. Si desea mantener los sistemas
separados, cada sistema de origen deber satisfacer un requisito concreto del
negocio. Si los procesos de negocio incluyen la gestin de pedidos o el inventario de
almacn, probablemente sern necesarios sistemas de origen diferentes. En este
caso, utilice distintas tablas de hechos.
Determine si hay implicados varios procesos de negocio no relacionados. Cree tablas
de hechos independientes para los procesos de negocio no relacionados. Si un solo
proceso de negocio requiere distintos niveles de granularidad, cree distintas tablas de
hechos para gestionar esos niveles.
Si una dimensin no es verdadera en la definicin de grano, disee una nueva tabla
de hechos con su propia definicin de grano.
Considere la temporizacin y la secuencia de los sucesos. Quiz necesite procesos
diferentes para gestionar un solo suceso. Por ejemplo, una empresa comercializa su
producto. Los clientes solicitan los productos. El departamento encargado de las
cuentas genera una factura. El cliente paga la factura. Despus de la compra, el
cliente puede devolver algunos de los productos o enviarlos a reparar. Si alguno de
los productos est fuera de garanta, este proceso requiere nuevos cargos. Varios
procesos forman parte de la secuencia de una sola compra. Cada uno de estos
procesos se realiza en momentos temporales diferentes. Cada uno de estos procesos
se gestiona utilizando tablas de hechos diferentes.
Si utiliza varios granos en una tabla de hechos, aada una columna llamada distintivo de
granularidad. Esta columna indica el grano de la tabla. La columna define si la informacin se
almacena a nivel diario, semanal, mensual o anual.
Nota: Puede almacenar varios granos en una sola tabla de hechos, pero este mtodo no se
recomienda. Disee distintas tablas de hechos y esquemas de estrella para cada definicin de
grano.
Revise la atomicidad (nivel de detalle) del grano para asegurarse de que est en el nivel de
mayor detalle. Esta decisin incluye la consideracin por anticipado de las necesidades futuras
con el fin de minimizar la necesidad de crear un nuevo diseo cuando cambien los requisitos
empresariales.
El grano del modelo dimensional es importante al disear el modelo dimensional. Aunque los
requisitos empresariales necesiten informacin a nivel mensual o trimestral, haga disponible esta
informacin a nivel diario. Si las dimensiones son ms detalladas (atmicas), el negocio puede
recupera informacin ms detallada.
Por ejemplo, considere una dimensin de fecha que slo tenga un atributo Year. Como slo hay
un atributo, no puede consultar la informacin a nivel trimestral, mensual o diario. Para
maximizar la informacin disponible, elija un grano atmico detallado. En este ejemplo, puede
definir el grano a nivel diario.
Por ejemplo, pongamos por caso un grano de un producto vendido en un almacn. No podr
asociar un cliente con un producto determinado que se haya adquirido porque slo hay una fila
para un producto. Si mil clientes diferentes compran el producto, no podr descubrir esa
informacin.
Siempre puede declarar granos de mayor nivel para un proceso de negocio utilizando
agregaciones de los datos ms atmicos y detallados. Sin embargo, cuando se selecciona un
grano de mayor nivel, el nmero de dimensiones se limita y puede ser menos granular. No puede
detallar ms estas dimensiones menos granulares para obtener un nivel menor de detalle.
Siempre existen ventajas y desventajas al procesar los datos. Por ejemplo, al aumentar la
granularidad, disminuye la capacidad para responder a distintos tipos de consultas (que
requieren datos a nivel ms detallado). Si la tabla utiliza un nivel bajo de granularidad, puede
soportar las consultas que utilizan esos datos a costa del aumento del espacio de
almacenamiento y la disminucin del rendimiento.
Identifique las dimensiones y medidas preliminares de alto nivel a partir de las cuales
comprender la definicin de grano. Para identificar estas dimensiones y medidas preliminares,
no se lleva a cabo ningn anlisis detallado. Cuando defina el grano correctamente, podr
encontrar fcilmente las dimensiones y medidas preliminares.
Las medidas preliminares son aquellas que se pueden identificar fcilmente consultando la
definicin de grano. Por ejemplo, las medidas como el precio unitario, la cantidad y el descuento
se identifican fcilmente viendo el grano. Sin embargo, las medidas detalladas como el coste, el
precio de fabricacin y el coste de transporte no son medidas preliminares identificadas por el
grano. Estos tipos de medidas estn ocultas y generalmente no son visibles en un informe. Las
medidas preliminares no son el conjunto final de medidas. La identificacin formal de medidas
detalladas se produce al identificar las medidas.
Estas dimensiones y medidas preliminares de alto nivel son tiles al identificar formalmente las
dimensiones.
El informe de definicin del grano se crea para esta fase. El informe contiene una o ms
definiciones para el grano del proceso de negocio y define el tipo de tabla de hechos. El informe
tambin incluye las dimensiones y medidas preliminares de alto nivel.
Una vez que haya determinado el grano del modelo, identifique las dimensiones verdaderas para ese
grano. Debe crear columnas, jerarquas y casos para el esquema de copo de nieve.
Nombres de dimensin
Definiciones de negocio
Jerarquas
Gestin de cambios de dimensin
Frecuencia y estadsticas de carga
Estadsticas de uso
Reglas y estadsticas de archivado
Reglas y estadsticas de depuracin
Calidad y precisin de los datos
Claves primarias y forneas y manera de generar las claves
Informacin de origen de datos
Hechos
Para definir totalmente las dimensiones del modelo dimensional, realice los pasos siguientes:
Identificacin de dimensiones
Las tablas de dimensiones contienen columnas que describen los registros de hechos en la tabla de
hechos. Algunas de estas columnas proporcionan informacin descriptiva. Otras columnas especifican
cmo se resumen los datos de la tabla de hechos para proporcionar informacin til. Las tablas de
dimensiones contienen jerarquas que ayudan a resumir los datos. Las tablas de dimensiones son ms
pequeas, tablas de bsqueda desnormalizadas que contienen columnas descriptivas a las que se
hace referencia al definir las consultas.
Para obtener ms informacin sobre las tablas, consulte Tablas y entidades de dimensiones.
Despus de identificar las dimensiones, rellene las dimensiones con columnas. Utilice las columnas
descriptivas para definir los criterios de restriccin para las consultas.
Utilice una entrada independiente en la tabla de dimensiones para conservar la clave del
sistema origen natural de la entidad que se va a utilizar en el sistema de origen.
Utilice una clave sucednea para la clave primaria de una dimensin. No es necesario que
analice la clave sucednea
Las columnas de una dimensin reflejan las reas potenciales de inters que se pueden
utilizar para los datos agregados o para crear restricciones y notificar interrupciones.
Defina columnas que puedan contener un valor NULL cuando una columna no se aplica a un
elemento especfico o se desconoce su valor.
Gestin de cdigos
Dimensin de fecha
Dado que todos los modelos dimensionales se basan en unidades de tiempo, cada despensa
de datos tiene una dimensin de fecha. Por ejemplo, quiz desee medir el rendimiento del
negocio transcurrido un tiempo. Un modelo dimensional puede contener varias dimensiones
de fecha.
La dimensin de fecha generalmente no tiene un sistema de origen OLTP conectado a la
dimensin. Puede desarrollar la dimensin de fecha antes de disear el modelo dimensional.
Para crear una dimensin de fecha, realice los pasos siguientes:
Hay varios atributos de fecha que las funciones de fecha SQL no soportan. Estas
funciones incluyen los perodos fiscales, las vacaciones, las temporadas, los das de la
semana, los fines de semana y las fiestas nacionales. Cuando cree una dimensin de
fecha, puede consultar los indicadores de rendimiento del negocio a travs de varios
atributos fiscales y relacionados con fechas. Los indicadores de rendimiento no se
muestran si utiliza una columna de fecha u hora SQL en la tabla de hechos.
Es mucho ms fcil arrastrar las columnas desde una tabla de fechas en vez de
utilizar funciones SQL complejas para crear la lgica de los informes.
Dimensin de hora
En el modelado dimensional puede gestionar las horas de dos maneras:
Hora del da como una dimensin independiente
Hora del da como un hecho
Debe gestionar los datos de hora en una tabla de dimensiones pero no un hecho en la tabla
de hechos. Debe crear una dimensin de hora si tiene que dar soporte al resumen de los
periodos de tiempo en agrupaciones ms resumidas para la creacin de informes y el anlisis.
Por ejemplo, cree una dimensin de tiempo para las siguientes agrupaciones resumidas:
Horas
Agrupaciones de tiempo especficas de negocio (turnos de maana, de noche o de
ltima hora de la tarde durante los das de la semana)
Tambin debe crear una dimensin de hora si desea representar distintas jerarquas para el
tiempo que va a medir. Por ejemplo, cree distintas jerarquas para el tiempo estndar y el
tiempo militar.
Sin embargo, si no resume ni filtra los grupos de hora del da, exprese la hora como un hecho
en la tabla de hechos. En este caso, el tiempo se considera un simple hecho numrico en el
tipo de datos de indicacin de fecha y hora.
Debe identificar las dimensiones que cambian lentamente y determinar cmo gestionar los
datos cambiantes.
Una dimensin que cambia lentamente es aquella cuyos atributos para un registro cambian
lentamente a lo largo del tiempo. Por ejemplo, es posible que necesite realizar un seguimiento
de las transferencias de empleados en la empresa.
El entorno de trabajo soporta los siguientes tipos de dimensiones que cambian lentamente:
Tipo 0
Tipo 1
Nuevos datos sobrescriben los datos antiguos. No se hace un seguimiento de los cambios
histricos.
Tipo 2
Con este mtodo, se crean dos entradas distintas. El registro original y el nuevo registro estn
disponibles en la tabla. La nueva fila obtiene su propia clave primaria (clave sucednea).
Tipo 4
Se crean tablas distintas para almacenar algunos o todos los datos histricos. Slo una tabla
contiene los datos actuales, y cuando se producen actualizaciones, los datos antiguos se
desplazan a la tabla histrica.
Tipo 6
Slo debe crear una estructura de copo de nieve en una dimensin de un modelo dimensional
en dos casos:
Si las jerarquas estn divididas en tablas distintas, el rendimiento resultar afectado, ya que
son necesarias ms uniones. En algunas situaciones, puede crear una estructura de copo de
nieve en las jerarquas de una tabla principal. Cuando utilice un agregado de la tabla de
hechos, utilice slo dimensiones de copo de nieve con las jerarquas para evitar uniones en
grandes tablas de dimensiones. Por ejemplo, si tiene informacin de marca que desea separar
de una tabla de dimensiones de producto, cree una dimensin de copo de nieve Marca que
contenga una sola fila para cada marca utilizando menos filas que en la tabla de dimensiones
Producto.
Nota: Si utiliza demasiadas tablas en un esquema de copo de nieve, el diseo puede resultar
demasiado complejo. El modelado dimensional tiene como objeto crear un modelo simple,
fcil de entender. Si tiene ms tablas, debe crear ms uniones. El rendimiento disminuye al
crear ms uniones.
Durante este paso del ciclo de diseo de modelo dimensional, identificar las medidas y el tipo de
medidas incluidas en el modelo dimensional.
Las medidas de ao a fecha son valores numricos que constan de un total agregado desde el inicio
del ao a la fecha actual. Debe asegurarse de que dichas medidas no se incluyan en una tabla de
hechos con los elementos de lnea de nivel atmico.
Supongamos que una tabla de hechos almacena datos de ventas para el ao 2005. Las ventas de cada
mes son aditivas, y aade las ventas para crear totales de ao a fecha. Si crea un hecho de ao a
fecha, como por ejemplo Sales_$$_Year_To_Date, cuando consulte este hecho en agosto de 2005
obtendr la suma de todas las ventas hasta agosto de 2005.
Si es una tabla de hechos basada en sucesos, debe determinar cmo gestionar los sucesos.
Las tablas de hechos basadas en sucesos se utilizan para registrar sucesos, como las visitas a pginas
web y la asistencia de empleados o alumnos. Los sucesos no siempre se convierten en medidas. Si
gestiona escenarios basados en sucesos en los que no hay medidas, utilice las tablas de hechos
basadas en sucesos que constan de seudohechos o de hechos sin hechos.
Tenga en cuenta las siguientes consideraciones asociadas a una tabla de hechos basada en sucesos:
Las tablas de hechos basadas en sucesos generalmente tienen seudohechos o no tienen
ningn hecho.
Utilice seudohechos para realizar operaciones de recuento.
Una tabla de sucesos de hechos sin hechos slo tiene claves forneas, no hechos. Utilice las
claves forneas para realizar operaciones de recuento.
Pronostique el tamao y el crecimiento de una tabla de hechos para determinar cmo puede ajustar el
rendimiento del modelo dimensional.
Puede calcular el tamao y el crecimiento de la tabla de hechos realizando uno de los pasos
siguientes:
Comprender el negocio
Por ejemplo, supongamos que el negocio de ventas al por menor genera unos ingresos brutos
de 100 millones de dlares americanos. Supongamos tambin que el precio medio de un
elemento de lnea es de 2 dlares americanos. Para calcular la cantidad de elementos de lnea
que necesita, divida los ingresos brutos por el precio medio de un elemento de lnea:
Determine el tamao de las claves forneas, dimensiones degeneradas y medidas. Multiplique estas
columnas por el nmero mximo de filas que se puedan insertar, suponiendo que todos los productos
se venden en todos los almacenes cada da. Por ejemplo, en el proceso de negocio de ventas al por
menor, realice los pasos siguientes:
1. Calcule el nmero de filas que hay en cada una de las dimensiones:
Nota: Este nmero puede ser mayor de lo que espera. El nmero slo se aplica si cada empleado de
cada almacn vende cada producto a cada cliente.
Supongamos que la tabla de hechos ocupa 4 bytes para una columna ENTEROS, y calcule el tamao
de una sola fila:
(8 + 1 + 8) * 4 bytes = 68 bytes
Calcule el crecimiento mximo de los datos para un solo ao del modelo dimensional:
Durante esta fase se prueba el modelo dimensional para ver si cumple los requisitos empresariales.
Durante esta fase el modelo dimensional no contiene datos. Debe comprobar si el modelo dimensional
responde a todas las preguntas planteadas durante la fase de recopilacin de requisitos.
Para verificar el modelo, debe trabajar con los analistas de negocio que escriben los informes. Si los
analistas pueden crear informes a partir del modelo dimensional, el modelo ser vlido. Si faltan
atributos, adalos al modelo y vuelva a revalidar el modelo.
Confirme los requisitos de la gestin de cambios de datos histricos. Si necesita conservar datos
histricos, verifique que los datos se conserven de la forma requerida por el proceso de negocio.
Utilice el entorno de trabajo para verificar el modelo de datos. Ejecute el asistente Analizar
modelo para verificar el modelo dimensional. El entorno de trabajo verifica la aplicacin de las reglas
de modelado dimensional estndar para que el modelo de datos sea vlido y funcione bien.
Una vez que haya verificado el modelo dimensional, disee la base de datos fsica. Desarrolle
estrategias para gestionar la agregacin, agregue la navegacin, el indexado y el particionamiento de
los datos al modelo dimensional.
Diseo de agregaciones
En trminos simples, la agregacin es el proceso que consiste en calcular datos de resumen de los
registros de tablas de hechos de nivel base detallados. Los agregados son una potente herramienta
que permite aumentar la velocidad de proceso de consultas en las despensas de datos dimensionales.
La agregacin se realiza generalmente utilizando atributos de una dimensin que forman parte de una
jerarqua.
Cada atributo que pertenece a una jerarqua se asocia como padre o hijo a otros atributos de la
jerarqua. Esta relacin padre-hijo proporciona distintos niveles de resumen. Los distintos niveles de
resumen proporcionan al usuario de negocio la capacidad de detallar menos o detallar ms el informe.
Los datos altamente agregados se recuperan ms rpidamente que los datos detallados de nivel
atmico. La tabla de hechos generalmente ocupa un gran volumen de espacio cuando se compara con
los datos de agregacin.
El nivel ms bajo de agregacin (o el nivel ms alto de detalle) aparece mencionado como el grano de
la tabla de hechos. La granularidad de la dimensin afecta al diseo del almacenamiento de datos y a
cmo se recuperan los datos.
La agregacin de tablas de hechos atmicas detalladas aumenta el rendimiento de las consultas. Sin
embargo, la agregacin tiene costes asociados:
Almacenamiento
Coste para crear y mantener los procesos para gestionar las tablas agregadas
Evite mezclar datos agregados y datos detallados incluyendo medidas agregadas de ao a fecha con
las medidas detalladas. Las medidas de ao a fecha son aditivas, y si mezcla los tipos de datos
pueden producirse errores de clculo.
1. Identifique todas las dimensiones y sus jerarquas en el modelo dimensional atmico de nivel
base. Estas dimensiones y jerarquas se identifican en el modelo dimensional atmico de nivel
base.
2. Identifique todas las combinaciones posibles de estos atributos de jerarqua que el negocio
utiliza para crear informes. Identifique todos los atributos de las jerarquas para determinar
qu atributos se utilizan juntos con frecuencia. Este paso es especialmente importante si hay
un nmero enorme de dimensiones con varias jerarquas que contienen varios atributos.
3. Calcule el nmero de valores que tiene cada atributo. El nmero de valores que tiene cada
atributo indica si el atributo se ha agregado. Por ejemplo, si incluye un miembro de bajo nivel
que tiene muchos miembros, puede descartar ese atributo y elegir un atributo de mayor nivel,
que tendr menos valores.
4. Valide el conjunto final de atributos candidatos y cree el modelo dimensional agregado.
Creacin de ndices
Puede mejorar el rendimiento de las consultas creando ndices. Para obtener ms informacin sobre
los ndices, consulte ndices.
Tablas de particiones
Cuando se particin a una tabla, se divide por fila, por columna o por ambas cosas. Si una tabla se
divide por columna, estar particionada verticalmente. Si se divide por fila, estar particionada
horizontalmente. La particin de grandes tablas de hechos mejora el rendimiento, ya que cada
particin es ms manejable. Particiones una tabla segn la dimensin de fecha de transaccin de un
modelo dimensional. Por ejemplo, si una enorme tabla de hechos tiene miles de millones de filas, sera
ideal asignar a los datos de cada mes su propia particin.
Conseguir varios objetivos si particiona los datos en un depsito de datos, incluidos los siguientes
objetivos:
Para trabajar con modelos dimensionales, debe comprender los conceptos del diseo de esquema
dimensional, trminos como esquema de estrella y esquema de copo de nieve, y la relacin entre la
estructura de base de datos y las jerarquas de modelado dimensional.