ED Diaporama

Télécharger au format ppsx, pdf ou txt
Télécharger au format ppsx, pdf ou txt
Vous êtes sur la page 1sur 59

Les Entrepôts de Données

Data Warehouse

Présentation inspirée en grande partie de


https://fr.scribd.com/document/254497197/175299011-cours-DW

1
Plan
 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation
 Les bases de données multidimensionnelles
 Le marché du décisionnel
 Démonstration
2
Le contexte
 Besoin: prise de décisions stratégiques et tactiques
 Pourquoi: besoin de réactivité
 Qui: les décideurs (non informaticiens)
 Comment: répondre aux demandes d’analyse des données, dégager
des informations qualitatives nouvelles

Qui sont mes Pourquoi et


meilleurs comment le
clients? chiffre
d’affaire a
baissé?

Quels algériens
consomment A combien
beaucoup de s’élèvent mes
poisson? ventes
journalières? 3
Les données utilisables par les décideurs
 Données opérationnelles (de production)
 Bases de données (Oracle, SQL Server)
 Fichiers, …
 Gestion des RH, gestion des commandes…

 Caractéristiques de ces données:


 Distribuées: systèmes éparpillés
 Hétérogènes: systèmes et structures de données différents
 Détaillées: organisation des données selon les processus
fonctionnels, données surabondantes pour l’analyse
 Peu/pas adaptées à l’analyse : les requêtes lourdes peuvent
bloquer le système transactionnel
 Volatiles: pas d’historisation systématique
4
Problématique
 Comment répondre aux demandes des décideurs?
 En donnant un accès rapide et simple à l’information
stratégique
 En donnant du sens aux données

Mettre en place un système d’information dédié aux


applications décisionnelles:
un data warehouse

5
Le processus de prise de décision

Champs d’application des


systèmes décisionnels

Définir le Rassembler Analyser les Établir des Décider


problème les données données solutions

Temps de prise d’une décision

6
Le processus de prise de décision

Prise de
décision

Bases de Data Base multi - Prédiction /


production warehouse dimensionnelle simulation

7
Domaines d’utilisation des DW
 Banque
 Risques d’un prêt, prime plus précise
 Santé
 Épidémiologie
 Risque alimentaire
 Commerce
 Ciblage de clientèle
 Déterminer des promotions
 Logistique
 Adéquation demande/production
 Assurance
 Risque lié à un contrat d’assurance (voiture)
 …
8
Quelques métiers du décisionnel
 Strategic Performance Management
 Déterminer et contrôler les indicateurs clé de la performance de
l’entreprise
 Finance Intelligence
 Planifier, analyser et diffuser l’information financière. Mesurer et
gérer les risques
 Human Capital Management (gestion de la relation avec les employés)
 Aligner les stratégies RH, les processus et les technologies.
 Customer Relationship Management (gestion de la relation client)
 Améliorer la connaissance client, identifier et prévoir la
rentabilité client, accroitre l’efficacité du marketing client
 Supplier Relationship Management (gestion de la relation fournisseur)
 Classifier et évaluer l’ensemble des fournisseurs. Planifier et
piloter la stratégie Achat. 9
Plan
 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation
 Les bases de données multidimensionnelles
 Le marché du décisionnel
 Démonstration
10
Définition d’un DW
 W. H. Inmon (1996):
« Le data Warehouse est une collection de
données orientées sujet, intégrées, non
volatiles et historisées, organisées pour le
support d’un processus d’aide à la décision »

 Principe: mettre en place une base de données


utilisée à des fins d’analyse

11
Les 4 caractéristiques des data warehouse

1. Données orientées sujet:


 Regroupe les informations des différents métiers
 Ne tiens pas compte de l’organisation fonctionnelle
des données

Ass. Vie Ass. Auto Ass. Santé

Client
Police

12
Les 4 caractéristiques des data warehouse

2. Données intégrées:
 Normalisation des données
 Définition d’un référentiel unique

h,f

1,0 h,f

homme, femme

GBP
EUR
CHF

USD 13
Les 4 caractéristiques des data warehouse

3. Données non volatiles


 Traçabilité des informations et des décisions prises
 Copie des données de production

Bases de production Entrepôts de données

Ajout
Suppression

Accès
Modification Chargement

14
Les 4 caractéristiques des data warehouse

4. Données datées
 Les données persistent dans le temps
 Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Répertoire Répertoire
Base de Nom Ville Nom Ville
production Med Alger Med Oran
Ali Cne Ali Cne

Calendrier Répertoire
Entrepôt Code Année Mois Code Nom Ville
de
1 2005 Mai 1 Med Alger
données
2 2006 Juillet 1 Ali Cne
15
2 Med Oran
SGBD et DW
Service Service Service
OLTP: On-Line commercial Financier livraison
Transactional BD prod BD prod BD prod
Processing
Clientèle

H
I
Data Warehouse S
T
OLAP: On-Line O
Analitical R
Clientèle I
Processing
Q
U
E 16
OLTP VS DW
OLTP (SGBD) OLAP (DW)
Orienté transaction Orienté analyse
Orienté application Orienté sujet
Données courantes Données historisées
Données détaillées Données agrégées
Données évolutives Données statiques
Utilisateurs nombreux, Utilisateurs peu nombreux,
administrateurs/opérationnels manager
Temps d’exécution: court Temps d’exécution: long

17
Plan
 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation
 Les bases de données multidimensionnelles
 Le marché du décisionnel
 Démonstration
18
Datamart
 Sous-ensemble d’un entrepôt de données
 Destiné à répondre aux besoins d’un secteur ou
d’une fonction particulière de l’entreprise
 Point de vue spécifique selon des critères métiers

Datamarts du
service Marketing

Datamart du
DW de l’entreprise service Ressources
Humaines 19
Intérêt des datamart
 Nouvel environnement structuré et formaté en
fonction des besoins d’un métier ou d’un usage
particulier
 Moins de données que DW
 Plus facile à comprendre, à manipuler
 Amélioration des temps de réponse
 Utilisateurs plus ciblés: DM plus facile à définir

20
Plan
 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation
 Les bases de données multidimensionnelles
 Le marché du décisionnel
 Démonstration
21
Architecture générale
Zone de
Zone de préparation Zone de stockage présentation

E
C
X
T H
R A
Transformations: Data Requêtes
A R
Nettoyage warehouse Rapports
C G
T Standardisation Visualisation
E
I … Data Mining
M
O …
E
N
N
Sources de Datamart
T
données

22
Les flux de données
 Flux entrant
 Extraction: multi-source, hétérogène
 Transformation: filtrer, trier, homogénéiser, nettoyer
 Chargement: insertion des données dans l’entrepôt

 Flux sortant:
 Mise à disposition des données pour les utilisateurs
finaux

23
Les différentes zones de l’architecture
 Zone de préparation (Staging area)
 Zone temporaire de stockage des données extraites
 Réalisation des transformations avant l’insertion dans le DW:
 Nettoyage

 Normalisation…

 Données souvent détruites après chargement dans le DW


 Zone de stockage (DW, DM)
 On y transfère les données nettoyées
 Stockage permanent des données
 Zone de présentation
 Donne accès aux données contenues dans le DW
 Peut contenir des outils d’analyse programmés:
 Rapports

 Requêtes…

24
Plan
 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation
 Les bases de données multidimensionnelles
 Le marché du décisionnel
 Démonstration
25
Modélisation des DW
 Nouvelle méthode de conception autour des
concepts métiers
 Ne pas normaliser au maximum
 Introduction de nouveaux types de table:
 Table de faits
 Table de dimensions

 Introduction de nouveaux modèles:


 Modèle en étoile
 Modèle en flocon
 Modèle en constellation
26
Table de faits
 Table principale du modèle dimensionnel
 Contient les données observables (les faits) sur le sujet
étudié selon divers axes d’analyse (les dimensions)

Table de faits des ventes


Clés étrangères Clé date (CE)
vers les Clé produit (CE)
dimensions Clé magasin (CE)
Quantité vendue
Coût
Faits
Montant des ventes
27
Table de faits (suite)
 Fait:
 Ce que l’on souhaite mesurer
 Quantités vendues, montant des ventes…
 Contient les clés étrangères des axes d’analyse
(dimension)
 Date, produit, magasin
 Trois types de faits:
 Additif
 Semi additif
 Non additif
28
Table de dimension
 Axe d’analyse selon lequel vont être étudiées les données
observables (faits)
 Contient le détail sur les faits

Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Famille du produits
Attributs de la Marque
dimension Emballage
Poids
29
Table de dimension (suite)

 Dimension = axe d’analyse


 Client, produit, période de temps…

 Contient souvent un grand nombre de colonnes


 L’ensemble des informations descriptives des faits

 Contient en général beaucoup moins


d’enregistrements qu’une table de faits

30
La dimension Temps
 Commune à l’ensemble du Dimension Temps
DW Clé temps (CT)
 Reliée à toute table de Jour
faits Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année

31
Granularité d’une dimension
 Une dimension contient des membres organisés
en hiérarchie :
 Chacun des membres appartient à un niveau
hiérarchique (ou niveau de granularité) particulier
 Granularité d’une dimension : nombre de niveaux
hiérarchiques
 Temps :
 année – semestre – trimestre - mois

32
Les types de modèles

Modèle en étoile Modèle en flocon


33
Modèle en étoile
 Une table de fait centrale et des dimensions
 Les dimensions n’ont pas de liaison entre elles
 Avantages:
 Facilité de navigation
 Nombre de jointures limité

 Inconvénients:
 Redondance dans les dimensions
 Toutes les dimensions ne concernent pas les
mesures
34
Modèle en étoile
Dimension
Dimension Temps
Temps
ID
ID temps
temps
année
année
mois
mois
jour
jour Dimension
Dimension produit
produit

… ID
ID produit
produit
Dimension
Dimension Magasin
Magasin
ID nom
nom
ID magasin
magasin
description code
code
description Table
ville Table dede faits
faits Achat
Achat prix
prix
ville ID
surface ID client
client poids
poids
surface ID
… ID temps
temps groupe
groupe
… ID
ID magasin
magasin famille
famille
ID
ID région
région …

ID
ID produit
produit
Quantité
Quantité achetée
achetée
Dimension
Dimension Region
Region Dimension
Dimension Client
Client
Montant
Montant des des achats
achats
ID
ID région
région ID
ID client
client
pays
pays nom
nom
description
description prénom
prénom
district
district vente
vente adresse
adresse
….
…. …
… 35
Modèle en flocon
 Une table de fait et des dimensions décomposées en sous
hiérarchies
 On a un seul niveau hiérarchique dans une table de
dimension
 La table de dimension de niveau hiérarchique le plus bas
est reliée à la table de fait. On dit qu’elle a la granularité la
plus fine
 Avantages:
 Normalisation des dimensions
 Économie d’espace disque
 Inconvénients:
 Modèle plus complexe (jointure)
 Requêtes moins performantes
36
Modèle en flocon Dimension
Dimension produit
ID
produit
ID produit
produit
Dimension
Dimension Temps
Temps ID
ID groupe
groupe
ID
ID temps
temps nom
nom
annee
annee code
code
mois
mois prix
prix
Dimension
Dimension Magasin
Magasin jour
jour poids
poids Dimension
Dimension groupe
groupe
ID
ID magasin
magasin …
… …… ID
ID groupe
groupe
description
description ID
ID famille
famille
ville
ville Table
Table dede faits
faits Achat
Achat nom
nom
surface
surface ID
ID client
client …


… ID
ID temps
temps
ID
ID magasin
magasin
Dimension
Dimension Region
Region ID
ID région
région
ID
ID région
région Dimension
Dimension Famille
Famille
ID
ID produit
produit
ID
ID division
division vente
vente ID
ID famille
famille
Quantité
Quantité achetée
achetée
pays
pays nom
nom
Montant
Montant des des achats
achats
description
description ……
….
….
Dimension
Dimension Client
Client
Dimension
Dimension ID
ID client
client
Division
Division vente
vente nom
nom
ID
ID division
division vente
vente prénom
prénom
description
description adresse
adresse 37
….
…. …

Modèle en constellation

 Ce modèle est un ensemble de schémas en

étoiles et/ou en flocon dans lesquels les tables de


faits se partagent certaines tables de dimensions.
C’est de cette accumulation  que découle un
modèle en constellation.

38
Modèle en constellation - Exemple

39
Plan
 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation
 Les bases de données multidimensionnelles
 Le marché du décisionnel
 Démonstration
40
Alimentation/ mise à jour de l’entrepôt
 Entrepôt mis à jour régulièrement
 Besoin d’un outil permettant d’automatiser les chargements
dans l’entrepôt

Utilisation d’outils ETL (Extract, Transform, Load)

41
Définition d’un ETL
 Offre un environnement de développement
 Offre des outils de gestion des opérations et de
maintenance
 Permet de découvrir, analyser et extraire les données
à partir de sources hétérogènes
 Permet de nettoyer et standardiser les données
 Permet de charger les données dans un entrepôt

42
Extraction
 Extraire des données des systèmes de production
 Dialoguer avec différentes sources:
 Base de données,
 Fichiers,
 ...

43
Transformation
 Rendre cohérentes les données des différentes
sources
 Transformer, nettoyer, trier, unifier les données
 Exemple: unifier le format des dates
(MM/JJ/AA JJ/MM/AA)
 Etape très importante, garantit la cohérence et la
fiabilité des données

Chargement
 Insérer ou modifier les données dans l’entrepôt
44
Plan
 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation
 Les bases de données multidimensionnelles
 Accès à l’information
 Démonstration
45
OLTP VS OLAP
Produits Pays
oranges
Produit Espagne
poires
id_produit
pommes Algérie
Libellé
Famille
France

Vente de
client janvier pommes en
avril
id_client Algérie en
février
Temps avril
Nom
adresse
46
ROLAP
 Relational OLAP
 Données stockées dans une base de données
relationnelles
 Un moteur OLAP permet de simuler le
comportement d’un SGBD multidimensionnel
 Plus facile et moins cher à mettre en place
 Moins performant lors des phases de calcul
 Exemples de moteurs ROLAP:
 Mondrian

47
MOLAP
 Multi dimensional OLAP:
 Utiliser un système multidimensionnel « pur » qui
gère les structures multidimensionnelles natives
(les cubes)
 Accès direct aux données dans le cube
 Plus difficile à mettre en place
 Formats souvent propriétaires
 Conçu exclusivement pour l’analyse
multidimensionnelle
 Exemples de moteurs MOLAP:
 Microsoft Analysis Services
 Hyperion 48
HOLAP
 Hybride OLAP:
 tables de faits et tables de dimensions stockées
dans SGBD relationnel (données de base)
 données agrégées stockées dans des cubes

 Solution hybride entre MOLAP et ROLAP


 Bon compromis au niveau coût et performance

49
Le cube
 Modélisation multidimensionnelle des données
facilitant l’analyse d’une quantité selon différentes
dimensions:
 Temps
 Localisation géographique
 …
 Les calculs sont réalisés lors du chargement ou
de la mise à jour du cube

50
Manipulation des données
multidimensionnelles
 Opération agissant sur la structure
 Rotation (rotate): présenter une autre face du cube

05 06 07 05 06 07
Œuf 221 263 139 Idf 101 120 52
Viande 275 257 116 Ain 395 400 203

51
Manipulation des données
multidimensionnelles
 Opération agissant sur la structure
 Tranchage (slicing): consiste à ne travailler que sur une
tranche du cube. Une des dimensions est alors réduite à une
seule valeur
05 06 07 06
Œuf M1 220 265 284 Œuf M1 265
M2 225 245 240 M2 245
Viande M1 163 152 145 Viande M1 152
M2 187 174 184 M2 174

52
Manipulation des données
multidimensionnelles
 Opération agissant sur la structure
 Extraction d’un bloc de données (dicing): ne travailler que sur
un sous-cube
05 06 07
Œuf Idf 220 265 284 05 06 07
Ain 225 245 240 Œuf Idf 220 265 284
Viande Idf 163 152 145 Ain 225 245 240
Ain 187 174 184

53
Manipulation des données
multidimensionnelles

 Opération agissant sur la granularité

 Forage vers le haut (roll-up): « dézoomer »


 Obtenir un niveau de granularité supérieur
 Utilisation de fonctions d’agrégation

 Forage vers le bas (drill-down): « zoomer »


 Obtenir un niveau de granularité inférieur
 Données plus détaillées

54
Drill-up, drill-down
Roll up
05 06 07
Dimension
Roll up Alim. 496 520 255
Temps

05-07 05 06 07 1S05 2S05 1S06 2S06 1S07


Fruits 623 Fruits 221 263 139 Fruits 100 121 111 152 139
Viande 648 Viande 275 257 116 Viande 134 141 120 137 116

05 06 07
Drill down
Pomme 20 19 22
… … … …
Boeuf 40 43 48
Drill down
Dimension
Produit 55
Plan
 Introduction
 Les entrepôts de données
 Les datamart
 Architecture
 Modélisation
 Alimentation
 Les bases de données multidimensionnelles
 Le marché du décisionnel
 Démonstration
56
Le marché du décisionnel

57
Le marché du décisionnel

58
Quelques solutions open source
ETL Entrepôt OLAP Reporting Data Mining
de données
Octopus MySql Mondria Birt Weka
Kettle Postgresql n Open Report R-Project
CloverETL Greenplum/Biz Palo Jasper Orange
Talend gres Report Xelopes
JFreeReport

Intégré
Pentaho (Kettle, Mondrian, JFreeReport, Weka)
SpagoBI

59

Vous aimerez peut-être aussi