Business Intelligence - Les Entrepôts de Données - Cours (Version3 - 2017 - 4page)
Business Intelligence - Les Entrepôts de Données - Cours (Version3 - 2017 - 4page)
Business Intelligence - Les Entrepôts de Données - Cours (Version3 - 2017 - 4page)
1 2
3
4
Le contexte Trop d’information tue l’information
n Besoin: prise de décisions stratégiques et tactiques
n La capacité de l’absorption de l’information par le cerveau humain
n Pourquoi: besoin de réactivité est limitée à 800 informations (mot, son, couleur, mouvement…) par
n Qui: les décideurs (non informaticiens, non statisticiens) minute.
n Comment: répondre aux demandes d’analyse des données,
dégager des informations qualitatives nouvelles
Pourquoi et
Qui sont mes
comment le chiffre
meilleurs
d’affaire a
clients?
baissé?
A combien s’élèvent
Quels tunisiens
mes ventes
consomment
journalières?
beaucoup de
poisson? 5 6
L’informatique décisionnelle
n Terme anglais: Business intelligence (BI)
n Définition 1: c’est la branche de l’informatique qui permet l'exploitation
des données de l'entreprise dans le but de faciliter la prise de décision.
C'est-à-dire, la compréhension du fonctionnement actuel et l'anticipation
des actions pour un pilotage éclairé de l'entreprise.
n Définition 2: désigne les moyens, les outils et les méthodes qui
permettent de collecter, consolider, modéliser et restituer les données,
MÉTRIQUES D’AIDE À LA
matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la
décision et de permettre aux responsables de la stratégie d'entreprise
DÉCISION
d’avoir une vue d’ensemble de l’activité traitée.
n Objectifs:
n Vision globale de l’activité
n Aide à la décision
n Basée sur un entrepôt de données pour stocker des données
11 12
transverses provenant de plusieurs sources hétérogènes.
Concepts
p Clefs Concepts Clefs : Donnée
née
n Donnée: Donnée
Information
Information
n Information: Donnée
n Sagesse: Donnée
CHAÎNE DÉCISIONNELLE
21 22
suite.
Analyse Restitution
Planification
ion ETL Stockage
age Analyses
ses Restitution Planification
ion ETL Stockage
age Analyses
ses Restitution
n Regroupement de l'ensemble
emble
eddes techn
tec
techniques
niq ess d
de n La génération de tableau de bord,
ord, est
st la partie
part
rtie émergée
éme
mergée de
merg d
l'iceberg : l'informatique décisionnelle.
statistique, d'économétrie, de Data Mining, et de n C'est la partie que voient la plupart des utilisateurs.
recherche opérationnelle. n Ce sont généralement de jolies interfaces intuitives permettant à
un utilisateur lambda, en fonction de ses droits, de consulter des
n Demande souvent des compétences statistiques rapports, des tableaux de bord, de les annoter, voire de les
avancées. créer lui-même.
33 34
SIO
Stock
Saisie des sorties
n système de production Bon de Sortie E02
Magasin MP (E02)
n Informatique opérationnelle
Q0 +
n représente aujourd'hui la majeure partie du SI Max + + +
n focalisé sur le fonctionnement courant
Calcul
n procédures répétitives des
besoins
Min
n transactions
Transfert Produits
n données élémentaires Ouvraison E80
Ouvragés (E80)
n Utilisation des bases de données relationnelles normalisées
t0
- - - Temps
Limites du SIO -
Saisie des Entrées
n données détaillées surabondantes et peu lisibles, absence de synthèses Entrée Mag PF E30
Magasin PF (E30)
Système d’information BD BD BD
opérationnel (SIO)
Base de OLTP
production
Système opérant
41 42
OLTP/OLAP OLTP/OLAP
Applications OLTP : Applications OLAP :
n L'intégrité et la sécurité des données sont privilégiées. n Catégorie de traitements dédiés à l’aide à la décision dont des requêtes interactives
n Requêtes simples complexes sur des gros volumes de données.
n Utilisées par des services de production : commerciaux, administratifs, production, n L'analyse et la manipulation des données sont privilégiées.
etc.. n Requêtes complexes
n Nécessitent la connaissance des structures des données. n Applications d'aide à l'élaboration de stratégies
n Utilisent des bases de données de production (relationnelles) n Utilisées par les DG, les services marketing, financiers, contrôleurs de gestion, etc..
n Manipulent des données homogènes. n Ne nécessitent pas la connaissance des structures des données.
n Nombre d'utilisateurs simultanés important. n Utilisent des entrepôts de données (modèle multidimensionnel)
n Applications critiques. n Manipulent des données hétérogènes.
Exemples d'applications : n Nombre d'utilisateurs simultanés faible.
n Gestion bancaire Exemples d'applications :
n Systèmes de réservation n Analyse des tendances
n Gestion commerciale, personnel, production, etc. n Analyse des comportements
Exemple de requête : Exemple de requête :
n Le 15/01/2002 à 13h12, le client X a retiré 500DT du compte Y 43 n Quel est le volume des ventes par produit et par région durant le troisième trimestre44
de 2002?
BD relationnelles / BD multidimensionnelles BD relationnelles / BD multidimensionnelles
Les données nécessaires pour effectuer des analyses et en déduire des orientations Bases de données relationnelles
stratégiques peuvent être stockées dans des structures : n Structure tabulaire.
n Croisement des données à l'aide des jointures.
n relationnelles ou
n Pas de redondance (doublons, agrégation).
n multidimensionnelles.
n Les résultats de requêtes sont sous forme de listes.
n Opérations : Sélectionner, ajouter, mettre à jour et supprimer des tuples.
n Structures peu adaptées aux applications de type OLAP.
Bases de données multidimensionnelles
n Les données sont organisées selon des axes.
n Hypercube comprend autant de dimensions que d'axes d'analyse.
n Possibilité de redondance des données.
n Les requêtes peuvent exploiter toutes les combinaisons d'axes.
n Temps d'accès stable.
n Moins de risque d'erreurs dans la formulation des requêtes.
n Langage MDX = Multidimensional Expressions (de Microsoft "OLE DB for OLAP")
Structures bien adaptées aux applications de type OLAP.
45 46
Plan Introduction-Problématique
n Introduction à l’informatique décisionnelle Une grande masse de données :
n Distribuée
n Les entrepôts de données
n Hétérogène
n Alimentation n Très détaillée
À traiter :
n Modélisation multidimensionnelle
n Synthétiser / Résumer
n Conception d’un DW n Visualiser
n Démonstration n Analyser
Pour une utilisation par :
n Des experts et des analystes d'un métier
n NON informaticiens
n NON statisticiens
47 48
Introduction-Problématique Introduction-Solution
Comment répondre aux besoins des décideurs afin d’améliorer les n Mettre en place un SI dédié aux applications décisionnelles : un
performances décisionnelles de l’entreprise? entrepôt de données (datawarehouse).
ü Transformer des données de production en informations
n En donnant un accès rapide et simple à l’information stratégique. stratégiques.
n En donnant du sens aux données.
n En donnant une vision transversale des données de l’entreprise (intégration
de différentes bases de données).
n En extrayant, groupant, organisant, corrélant et transformant (résumé,
agrégation) les données.
49 50
Entrepôt de Données
Définition d’un DW
Le DW est un système d’information dédié aux applications décisionnelles situé en :
n Aval des bases de production (bases opérationnelles)
n Amont des prises de décision basées sur des indicateurs (Key Business Indicators (KBI))
51 52
Les 4 caractéristiques des data warehouse Les 4 caractéristiques des data warehouse
1,0 h,f
Ass. Vie Ass. Auto Ass. Santé
Police GBP
EUR
CHF
53 USD 54
Les 4 caractéristiques des data warehouse Les 4 caractéristiques des data warehouse
57 58
n Requêtes…
61 62
63 64
Alimentation/ mise à jour de l’entrepôt Définition d’un ETL
n Entrepôt mis à jour régulièrement n L’ETL est une couche logicielle responsable de l’alimentation d’une BD à
partir de sources de données.
n Besoin d’un outil permettant d’automatiser les chargements
n Dans un SID, l’ETL sert à alimenter l’ED ou bien les magasins de données.
dans l’entrepôt
n L’ETL fait partie des middlewares (intergiciels)
65 66
67 68
ETL – Extraction ETL – Extraction
n Objectif : Identifier et localiser les données sources pertinentes (BDR,
fichiers, …) puis les collecter et les extraire des différents systèmes
opérationnels.
n Fonctionnalités :
n Traiter différents formats (XML, HTML, TXT, CSV, DB2, Oracle…).
n Gérer les connexions aux sources (ODBC, JDBC...).
n Extraire le dictionnaire des sources (propriété des colonnes, clés…).
n Extraire les données de manière performante et sans perturber les
environnements de production.
n Détecter les données qui ont été modifiées dans les sources.
n Ajouter des contrôles (fichier de rejets, audits…).
n Stocker l’ensemble des règles d’extraction dans le référentiel.
69 70
71 72
ETL – Extraction ETL – Extraction
n Option 1: Capture à l'aide du journal des transactions n Extraction di!érée:
n Utilise les logs de transactions de la BD servant à la récupération en cas de panne; n Extrait tous les changements survenus durant une période donnée (ex: heure, jour, semaine,
n Aucune modification requise à la BD ou aux sources; mois).
n Doit être fait avant le rafraîchissement périodique du journal;
73 74
- Source 3: coût.
79 80
La méthode pull et la méthode push
Cycle de vie de l’ETL (Différentes techniques d’extraction)
n La mise en place de l’ETL passe par les étapes suivantes : n Techniques de détection des mises à jour effectuées sur la BD opérationnelle
et son envoi à l ’entrepôt pour sa mise à niveau ultérieure.
1. Conception de l’ETL : n avec la méthode pull, c’est le SID qui recherche périodiquement les données
q Identification des sources de données
dans les BD opérationnelles. Cette méthode alimente le SID en temps différé,
cependant la quantité volumineuse de données à chaque transfert peut être
q Correspondance des données
coûteuse en temps ( Le système décisionnel cherche périodiquement les
q Définition des transformations données dans les bases de production)
q Structure de la zone d’attente
n avec la méthode push, c’est le SIO qui au fil de l’eau de ses
2. 1er chargement : transactions alimente le SID. Cette méthode alimente le SID en temps
q Chargement de toutes les données sources direct ce qui oblige à revoir le code des applications opérationnelles.
3. Rafraichissement de l’ED : (Le système opérationnel qui au fil des transactions alimente le
q Chargement périodique des données DW)
81 82
83 84
Applications transactionnelles v.s
Des données aux décisions
Applications décisionnelles
Données : Les applications transactionnelles sont constituées de traitements factuels de
Points de ventes, géographiques, démographiques, … type OLTP (On Line Transaction Processing)
Les applications d'aide à la décision sont constituées de traitements ensembliste
Informations :
de type OLAP: On Line Analytical Processing
I vit dans R, I est âgé de A, …
Connaissances :
Dans X%, le produit Y est vendu en même temps que le produit Z, … Incompatibilités des deux activités
Les deux activités (OLTP & OLAP) ne peuvent co-exister sur des données dans le
Décisions
même système d’information: leurs objectifs de performance sont exactement
Lancer la promotion de Y & Z dans R auprès des clients plus âgés que opposés:
A, ... • Les requêtes complexes et lourdes dégradent les performances des systèmes
transactionnels,
• Les données temporelles sont réparties entre données actuelles et données
archivées, rendant la vue historique des données très difficile ou impossible,
91 • L’étude de l’alimentation du DW 92
Construction d’un DW Construction d’un DW
Data Mining
Modélisation DW
Les outils dits de Data Mining, traduisible par " forage des données ", ou " prospection q Niveau conceptuel:
des données ", permettent de sélectionner, à la place de l'utilisateur un certain nombre § Un DW est basé sur une modélisation multidimensionnelle qui
de données. Il en existe trois catégories : représente les données dans un cube
§ les outils de filtre, qui en fonction des informations reçues par l'utilisateur, § Un cube permet de voir les données suivant plusieurs dimensions:
sélectionne celles qui lui sont importantes. Par exemple la liste des agences dans
lesquelles le chiffre d'affaires est inférieur de plus de 20% à l'objectif. ü Tables de dimensions
ü La table des faits contient les mesures et les clés des
§ les outils basés sur des technologies proches de l'intelligence artificielle,
capables d'aller " plonger " dans les bases de données pour découvrir, à la place de dimensions
l'utilisateur de nouvelles connaissances. Par exemple un outil de Data Mining
découvrira pour vous que la vente des plans d'épargne dans les agences de la q Niveau Logique:
région Ouest est inférieure à celle de la région Sud. Ou encore que les acheteurs
d'un produit financier sont plutôt des professions libérales de plus de 40 ans. § Plusieurs schémas types sont proposés pour représenter un DW:
ü Schéma en étoile;
§ les agents intelligents (voir définition ci-dessus), qui sont capables de travailler ü Schéma en flocon;
même en l'absence de l'utilisateur et qui, en naviguant dans les bases, rapporteront
95 96
de nouvelles connaissances
Table de faits Table de faits (suite)
n Table principale du modèle dimensionnel n Fait:
n Contient les données observables (les faits) sur le sujet n Ce que l’on souhaite mesurer
étudié selon divers axes d’analyse (les dimensions) n Quantités vendues, montant des ventes…
Table de faits des ventes n Contient les clés étrangères des axes d’analyse
Clé date (CE) (dimension)
Clés étrangères
vers les n Date, produit, magasin
Clé produit (CE)
dimensions Clé magasin (CE) n Trois types de faits:
Quantité vendue n Additif
Faits n Semi additif
Coût
n Non additif
Montant des ventes
97 98
Dimension produit
Clé de substitution Clé produit (CP)
Code produit
Description du produit
Attributs de la Famille du produits
dimension Marque
Emballage
101 Poids 102
103 104
Granularité d’une dimension Évolution des dimensions
n Une dimension contient des membres organisés n Dimensions à évolution lente
en hiérarchie : n Dimensions à évolution rapide
n Chacun des membres appartient à un niveau
hiérarchique (ou niveau de granularité) particulier
n Granularité d’une dimension : nombre de niveaux
hiérarchiques
n Temps :
n année – semestre – trimestre - mois
105 106
111 112
Dimensions à évolution rapide (suite) Les types de modèles
Dim client
Faits Clé_client
Dim client
Nom Faits
Clé_client Clé_client
… Prénom Clé_client
Nom
Adresse Clé_démog
Prénom
Date_naissance
Adresse
…
Date_nais
… Dim_démographique
Revenus Clé_démog
Niveau_étude Revenus
Nb_enfants Niveau_étude
Statut_marital Nb_enfants
Profil_financier Statut_marital Modèle en étoile Modèle en flocon
Profil_achat Profil_financier 113
114
Profil_achat
121 122
ROLAP MOLAP
n Relational OLAP n Multi dimensional OLAP:
n Données stockées dans une base de données n Utiliser un système multidimensionnel « pur » qui
relationnelles gère les structures multidimensionnelles natives
(les cubes)
n Un moteur OLAP permet de simuler le
n Accès direct aux données dans le cube
comportement d’un SGBD multidimensionnel
n Plus difficile à mettre en place
n Plus facile et moins cher à mettre en place
n Formats souvent propriétaires
n Moins performant lors des phases de calcul
n Conçu exclusivement pour l’analyse
n Exemples de moteurs ROLAP: multidimensionnelle
n Mondrian n Exemples de moteurs MOLAP:
n Microsoft Analysis Services
127 128
n Hyperion
HOLAP Le cube
n Hybride OLAP: n Modélisation multidimensionnelle des données
n tables de faits et tables de dimensions stockées facilitant l’analyse d’une quantité selon différentes
dans SGBD relationnel (données de base) dimensions:
n données agrégées stockées dans des cubes n Temps
n Solution hybride entre MOLAP et ROLAP n Localisation géographique
n Bon compromis au niveau coût et performance n …
n Les calculs sont réalisés lors du chargement ou
de la mise à jour du cube
129 130
05 06 07 05 06 07
Œuf 221 263 139 Idf 101 120 52
Viande 275 257 116 Ain 395 400 203
131 132
Manipulation des données
multidimensionnelles
n Opération agissant sur la structure
n Tranchage (slicing): consiste à ne travailler que sur une
tranche du cube. Une des dimensions est alors réduite à une
seule valeur
05 06 07 06
Œuf Idf 220 265 284 Œuf Idf 265
Ain 225 245 240 Ain 245
Viande Idf 163 152 145 Viande Idf 152
Ain 187 174 184 Ain 174
133 134
135 136
Opérations sur le contenu des cubes:
Drill-up, drill-down Roll-up (passage au grain supérieur) / Drill-down (passage
au grain inférieur)
Roll up
05 06 07
Dimension
Roll up Alim. 496 520 255 Temps
05 06 07
Drill down
Pomme 20 19 22
… … … …
Boeuf 40 43 48 Drill down
Dimension
Produit 137 138
139 140
MDX, exemple Logiciels
Il existe de nombreux logiciels qui permettent d’utiliser des cubes
n Fournir les effectifs d’une société pendant les années 2004
OLAP pour l’analyse de données. Nous fournissons ci-après une
et 2005 croisés par le type de paiement liste non-exhaustive des logiciels classés en modules serveurs et
clients.
SELECT {([Time].[2004]), ([Time].[2005])} ON COLUMNS, Serveurs
– SAS Business Analytics – Panoratio
{[Pay].[Pay Type].Members} ON ROWS – SAP – Whitelight
Dimensions, – PALO OLAP Server (Open Source) – NCR
FROM RH Cube
– OlapCubes de AderSoft
axes d’analyse
– Oracle
WHERE ([Measures].[Count]) – SQL Server Services analysis
– ALG Software
– Applix
2004 2005 – Microstrategy
Heure 3396 4015 – Descisys
– INEA/Cartesis
Jour 3678 2056 141 142
Logiciels Plan
Il existe de nombreux logiciels qui permettent d’utiliser des cubes
n Introduction à l’informatique décisionnelle
OLAP pour l’analyse de données. Nous fournissons ci-après une
liste non-exhaustive des logiciels classés en modules serveurs et n Les entrepôts de données
clients.
n Alimentation
Clients
– Panorama Software n Modélisation multidimensionnelle
– Proclarity
– AppSource
n Conception d’un DW
– Cognos
– Business Objects
n Démonstration
– Brio Technology
– Crystal Reports
– Microsoft Excel
– Microsoft Reporting Services.
_ Datawarehouse
143 144
Structure de la base de donnée :
Oracle 10g OLAPCubeWriter
La base de données qui a été utilisée pour les tests porte sur la vente d’articles
(chaussures) d’une entreprise qui possède des magasins dans plusieurs villes
OLAPCubeWriter est un outil développé par AderSoft, il permet de
différentes à travers le monde. Elle est constituée de 5 tables : Les ventes qui
se connecter `a une base de données, de récupérer les tables
enregistre toutes les ventes effectuées dans différents magasins et concernant les
dont on a besoin pour créer les cubes OLAP, de créer les
chaussures de différents modelés pour différentes pointures et couleurs
dimensions ainsi que les mesures et champs calculés du cube.
On peut dés lors visualiser les données relatives au cube grâce à
OLAPCube Reader
145 146
Interface de OLAPCubeWriter
OLAPCube Reader
OLAPCube Reader est un outil de visualisation (reporting) des cubes OLAP. Il
permet entre autre d’appliquer des filtres sur les données, de générer des
diagrammes de différentes formes (camembert, histogrammes, tableaux, etc)
147 148
http://lig-membres.imag.fr/donsez/cours/dwdm/
149