8.2 IBM Data Governance
8.2 IBM Data Governance
Cinzia Fasce
SWG Client Technical Professional - InfoSphere
Gennaio 2018
Viviamo in un mondo interconnesso
Viviamo in un mondo interconnesso
Developer Data Data Owner Data Business
Engineers CDO Scientists Analyst
Self-Service
Data & Analytics
Private Cloud
Systems of Insights
Systems of
Engagement
APIs/Services APIs/Services
Systems of
Automation Advanced
Analytics Systems of Record
Real-Time
Analytics
Metadata
Catalog
Social & Internet
Communities Digital Statistical
Big Data Transformation Modeling
Il data scientist, con le sue capacità di analizzare e interpretare dati, diviene così sempre più una
figura professionale centrale e quindi richiesta nel mondo aziendale. Su una cosa tutti gli analisti
concordano: uno dei problemi dei prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante domanda
di data scientist.
I dati crescono, questo si sa, ma sapere che a oggi il 90% di
tsunami dei dati essi, come hanno riscontrato alcune ricerche, è stato creato nei
soli ultimi due anni probabilmente è meno noto.
D a g l i a n n i ’ 9 0 i n po i
sensori che acquisiscono dati metereologici, l’esplosione dei contenuti
che condividiamo sui social media, enorme quantità di registrazioni di molte delle informazioni, per
dati relativi agli acquisti o dati bancari che ogni giorno si accumulano, esempio riguardanti la relazione
archivi di immagini e video, dati telefonici, i segnali Gps che ci col cliente, sono nativamente
scambiamo, questi sono solo pochissimi esempi, ma danno disponibili in formati digitali.
certamente l’idea della dimensione del fenomeno.
La Computer Science, molto più vicina al reale
svolgimento dei fatti, ha pragmaticamente cercato
statistica saper analizzare ed interpretare dati è un vecchio mestiere.
di reagire, proponendo metodi e algoritmi adatti a
primi anni ‘90, gli analisti di dati indagare dati in quantità assolutamente inusuale
quali dati raccogliere e quindi registrare; quali interviste precedentemente, da qui la nascita di nuove
commissionare, come codificarle e renderle disponibili per un
software che le analizzasse. Ognuna di queste operazioni aveva un
discipline come il Data Mining, Statistical
costo. Lo scopo era quello di trarre conoscenza/previsioni Machine Learning e altre.
utilizzando il minor numero di dati possibili.
Il data scientist, con le sue capacità di analizzare e interpretare dati, diviene così sempre più una
figura professionale centrale e quindi richiesta nel mondo aziendale. Su una cosa tutti gli analisti
concordano: uno dei problemi dei prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante domanda
di data scientist.
Big Data è un fenomeno il cui risultato
…………………………………….è l’incremento della complessità
Volume
Dati a riposo
Terabytes e exabytes di
dati esistenti da
processare
8
Big Data è un fenomeno il cui risultato
…………………………………….è l’incremento della complessità
Volume Velocità
9
Big Data è un fenomeno il cui risultato
…………………………………….è l’incremento della complessità
Volume Velocità Varietà
10
Big Data è un fenomeno il cui risultato
…………………………………….è l’incremento della complessità
Volume Velocità Varietà Veracity*
11
Ma attenzione al paradosso dei Big Data:
Più Dati ma Meno Affidabili
Prende decisioni basate
1 su 3 su informazioni non
attendibili
Non possiede le
1 su 2 informazioni
necessarie
Possiede più
60% 60% informazioni di quelle
che riesce ad utilizzare
?
Prendere decisioni
senza informazioni
precise!
Governance Council
?
Governance
manuale
Applicazioni
Interne Sorgenti Dati
Rework – tornare alla fonte
Business Executives
per verificare i dati
Chi sono i miei
clienti migliori?
Prendere decisioni
Qual’è il nostro senza informazioni Inconsistenti
rischio di precise!
esposizione? Esposti
Governance Council
Qual’è la corretta
immagine dei
nostri dati? Mancanti
Governance
Chi altri utilizza
manuale
questi dati? Applicazioni
Interne Sorgenti Dati
…i Dati sono la nostra prossima “risorsa naturale”
Cloud Computing
Social Media
Mobile
Internet of
Things
Data Hadoop
Hadoop
Warehous
Warehouse Streams
Streams
Dati Transazionali Web Logs
e
Security/Intelligence Application
Extension Efficiency
InfoSphere Guardium
Monitorare, proteggere e controllare i dati
sensibili
Accesso
Dati Affidabili
Approccio Decisioni
Ovunque
Collaborativo Veloci
Risiedano
Facile Reperebilita’
Analitica
Approviggionamento
Omnipresente
Dati Affidabili
Metadati di Business
B
Business rules, Stewardship, Business Definitions, Glossaries, Algorithms che usino il
linguaggio di business. Audience: Utenti di Business.
Metadati Tecnici
T
Definiscono i sistemi Source and Target, la struttura delle tabelle e gli attributi delle
colonne. Audience: Utenti di specifici tool Users – BI, ETL, Profiling, Modeling.
Metadati Operazionali
O
Informazioni relative all’esecuzione di applicazioni: record count, indicatori di errore
e altre statistiche Audience: Utenti di Operations, Management e di Business.
Cross-Domain Analysis
Analisi delle “Foreign Key”
e delle analogie tra colonne
28
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality
29
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality
30
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality
31
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality
32
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality
33
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality
34
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality
35
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality – Publish - Query
Lavorare insieme con lo stesso Metadata Repository
Share Share
Metadata Repository
InfoSphere Information Analyzer:
Data Rule Definition Data Rule
Definizione Concettuale
Definizione Logica
Definizione Fisica
Database = DB2
Codice Fiscale Italiano
Schema = CRMAAC
Table = DLYTRANS Il codice fiscale, istituito dal Ministero delle Finanze del Governo italiano serve per
Column = CODFIS
Technical Business identificare le persone fisiche e giuridiche a fini fiscali. Questo valore è nella forma
data type = char(16) AAAAAA99A99A999A
Categorie
Descrizioni in linguaggio Business organizzate in gerarchie. Categorie possono contenere altre categorie e termini
Termini
Le proprieta’ dei termini ne danno significato e li differenziano dagli altri
Category
Term
Term
Category
Term
Term
Term
Term
Politiche
Descrizioni in linguaggio Business organizzate in gerarchie
Documentano gli obiettivi di information governance dell’azienda
Stabiliscono le linee guida relative ad esempio a
• Uso dei dati all’interno dell’intera azienda
• Ottenimento e mantenimento della data quality
• Politiche di storicizzazione dei dati
Regole
Descrizioni in linguaggio Business di concetti
specifici come calcoli, misure di data quality, valori
di range, controlli di validità.
Policy
Policy
Rule
Rule
Data Rule
Da dove proviene l’informazione
• Governance
• Visibilità e reporting
• Responsibilità
• Produttività
• Valutare l'impatto del cambiamento (Impact Analysis)
• Massimizzare il riutilizzo
• Affidabilità/Fiducia
• Comprendere le relazioni
• Fornire Tracciabilità e Data Lineage
?
Data Lineage: da dove proviene un’informazione?
Permette di capire
velocemente l’origine
view end-to-end lineage delle informazioni
Aiuta l’“utente di
business” a prendere
decisioni critiche
utilizzando informazioni
affidabili e corrette
zoom in
Modello fisico
• Dipendente dal
database
Glossario
• Definizione di una
nomenclatura standard
Logical data model
• Target independent • New
• Trasform
• Import
• Forward engineer
• Database objects
(views, indexes, etc.)
InfoSphere Data Architect
Modellazione
Analisi e
Descrivere
profilazione
l’architettura
dei dati Valutare la
qualità e
Information Analyzer
Glossario di scoprire i
contenuti
business
Regole della
Policy Definire e
condividere gli Qualità
obiettivi Convalidare
Published data rules possono essere utilizzate in Job DataStage tramite il Data Rule Stage
DataStage
integration