Presentación BI - Unidad 2 y 3 - Modelado

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 30

Instituto Universitario Aeronáutico

Data
El almacén de datos tiene las siguientes características:

• Orientado al tema Perspectiva de usuario


• Integrado Información integrada
• De tiempo variante Datos históricos
• No volátil Read only vs OLTP

Warehouse
Data

Warehouse
DW
¿ En dónde se encuentran los datos en las organizaciones?

Un problema de unificación…

Carga de datos al DW

ETL
DW
Organización - Planificación y estrategia

Desarrollo – Alcances, usuarios, arquitectura, confiabilidad de


datos

Implementación – Estrategias, elementos

Evaluación – Costos y beneficios

Elaboración de un proyecto
DW
Del almacén de datos al cubo… OLAP

• Drill-Down (profundización progresiva)


• Roll-Up (generalización progresiva)
• Filtering (filtro o selección)
• Pivoting (rotación)
• Slice (rebanar)
• Dice (cortar en cuadritos)

OLAP
Data

Warehouse
Data
Un Data mart es una versión especial de un data warehouse
más pequeña.

Son subconjuntos de datos con el propósito de ayudar a que un


área específica dentro del negocio pueda tomar mejores
decisiones.

Los datos existentes en este contexto pueden ser agrupados,


explorados y propagados de múltiples formas para que diversos
grupos de usuarios realicen la explotación de los mismos de la
forma más conveniente según sus necesidades.

Mart
DW
El modelado y el porqué…

Esfuerzos para lograr rapidez…

Arquitectura
DW

Arquitectura
DW
El tipo de análisis que se requiera hacer sobre el DW determinara el tipo de
modelado, es decir cómo se almacena la información

• MODELO ER
• MODELO MULTIDIMENSIONAL

Dependen del usuario, tipo de análisis, costo, volumen de datos, performance, etc

Modelado
DW
• Turistas
• Operadores
• Granjeros
• Exploradores
• Mineros

Usuarios
Modelado
Modelado
DESAFIO: Una empresa tiene datos históricos (desde 1995) de ventas
almacenadas en un OLTP y necesita información resumida por año y por
semestre del total de ventas, la cantidad de productos vendidos, por
regiones y clientes que compraron.

REGION CLIENTES
Id_Region
Nombre
VENTAS
Id_Cliente
Nombre Id_Venta
Id_Region Id_Cliente
Fecha
Total DETALLE
VENTAS
PRODUCTOS
Id_Venta
Id_Producto
Id_Producto
Cantidad
Nombre

Relacional

Modelo
total de ventas
• cantidad de productos vendidos
• por regiones y clientes
• por año y semestre
REGION
Id_Region
Nombre
CLIENTES DIMENSION
Id_Cliente
Nombre
Id_Region
VENTAS TABLA DE HECHOS
Id_Venta
Id_Cliente
Fecha
Total

PRODUCTOS

Id_Producto
Nombre DETALLE DIMENSION
VENTAS DIMENSION

Id_Venta
Id_Producto
Cantidad

Multidimensional
Modelado
• HECHOS
• MÉTRICAS
• DIMENSIONES
• ATRIBUTOS DE LA DIMENSION
• CLAVES
• MIEMBROS DE LA DIMENSION
• JERARQUIAS

• MODELADO ESTRELLA, COPO DE NIEVE, MIXTO,


CONSTELACION

Multidimensional
Modelado
En el modelo multidimensional se utiliza un esquema
multidimensional en el que se representa una
actividad que es objeto de análisis (hecho) y las dimensiones que
caracterizan la actividad (dimensiones).

La información relevante sobre el hecho (actividad) se representa


por un conjunto de indicadores (medidas
o atributos de hecho)

La información descriptiva de cada dimensión se representa por un


conjunto de atributos (atributos de
dimensión).

Multidimensional
Modelado
El diseño lógico de un almacén de datos se basa en la determinación de las
dimensiones y medidas; las cuales, desde el punto de vista lógico, pueden
organizarse o estructurarse de alguna de las siguientes formas:

• Esquema en estrella (star): Una tabla de hechos en el centro conectada con un


conjunto de tablas de dimensiones.

• Esquema copo de nieve (snowflake): Un refinamiento del anterior donde


algunas tablas se normalizan en tablas más pequeñas.

• Constelación de hechos: Múltiples tablas de hechos comparten tablas de


dimensión que se visualizan como una colección de hechos.

Multidimensional
Modelado
- Estrella

- Copo de nieve

- Constelación

Tipos de esquemas
Modelado

Multidimensional
Modelado

Multidimensional
Modelado

Multidimensional
Modelado
Paso 1. Elegir un “proceso” de la organización para modelar.

Paso 2. Decidir la granularidad (nivel de detalle) de representación.

Paso 3. Identificar las dimensiones que caracterizan el proceso.

Paso 4. Decidir la información a almacenar sobre el proceso.

Multidimensional
MM

Jerarquías
MM
Uno de los componentes más importantes de la arquitectura de un
Data Warehouse son los metadatos. Se
definen comúnmente como "datos acerca de los datos" en el
sentido de que se trata de datos que describen
cuál es la estructura de los datos que se van a almacenar y cómo se
relacionan.

• Tablas
• Columnas de tablas
• Relaciones entre tablas
• Jerarquías y dimensiones de datos
• Entidades y relaciones

Metadatos
MM
Herramientas para mejorar la performance:

• Indexación
• Tablas de agregación (precálculos en tablas)
• Minidimensiones (sólo algunos atributos)

• Particionamiento (Partir los datos)


Luego para unir: Aplicación, sistema.

Performance
MM
Pequeños cambios en los sistemas OLTP se administran con
soluciones:

- Tipo 1: Cambiar los valores en la columna de la dimensión pero


pierdo el histórico.
- Tipo 2: Crear un dimensión duplicada con valores actualizados
- Tipo 3: Agregar un nuevo campo con el valor actualizado

Slowly changing Dimension


Modelado
DESAFIO: Una universidad tiene datos históricos del desempeño de los
alumnos almacenados en un OLTP y necesita información resumida por año
y por cuatrimestre del promedio de notas de los exámenes, la cantidad de
alumnos que rindieron, por materias de las carreras.

CARRERAS ALUMNOS
Id_Carrera
Nombre MATERIAS Id_Alumno
Nombre
Id_Materia Apellido
Nombre
Fecha examen
Id_carrera

PROFESOR
EXAMENES
Id_Profesor
Nombre Id_Materia
Apellido Id_Alumno

Ejercicio
Nota
Acta_Nro
Id_Profesor
OLAP
Las 18 Características de OLAP (Reglas de Codd Ampliadas)
F1: Vista conceptual multidimensional
F2: Manipulación intuitiva de los datos
F3: Accesibilidad
F4: Extracción en lote versus interpretativa
F5: Modelo de análisis de OLAP
F6: Arquitectura cliente/servidor
F7: Transparencia
F8: Soporte multiusuario
F9: Tratamiento de datos no-normalizados
F10: Almacenamiento de los resultados OLAP manteniéndolos separados de los datos
originales
F11: Extracción de los valores omitidos
F12: Tratamiento de los valores omitidos
F13: Flexibilidad de reportes
F14: Desempeño uniforme de reportes
F15: Ajuste automático del nivel físico
F16: Dimensionalidad genérica
F17: Niveles ilimitados de dimensiones y agregaciones
F18: Operaciones a través de dimensiones sin restricciones

También podría gustarte