Il 0% ha trovato utile questo documento (0 voti)
66 visualizzazioni66 pagine

8.2 IBM Data Governance

Il documento descrive la crescita esponenziale dei dati generati e raccolti negli ultimi anni e l'emergere di nuove figure professionali come il data scientist per analizzare e interpretare grandi quantità di dati. Viene inoltre introdotto il concetto di Big Data e le sue quattro caratteristiche V, V, V, V.

Caricato da

trefiumicoppa
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
66 visualizzazioni66 pagine

8.2 IBM Data Governance

Il documento descrive la crescita esponenziale dei dati generati e raccolti negli ultimi anni e l'emergere di nuove figure professionali come il data scientist per analizzare e interpretare grandi quantità di dati. Viene inoltre introdotto il concetto di Big Data e le sue quattro caratteristiche V, V, V, V.

Caricato da

trefiumicoppa
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Sei sulla pagina 1/ 66

IBM INFOSPHERE INFORMATION SERVER

LA PIATTAFORMA ABILITANTE PER LA DATA GOVERNANCE

Cinzia Fasce
SWG Client Technical Professional - InfoSphere
Gennaio 2018
Viviamo in un mondo interconnesso
Viviamo in un mondo interconnesso
Developer Data Data Owner Data Business
Engineers CDO Scientists Analyst

Self-Service
Data & Analytics

Public Cloud On-Premises

Private Cloud

Systems of Insights
Systems of
Engagement

APIs/Services APIs/Services
Systems of
Automation Advanced
Analytics Systems of Record
Real-Time
Analytics

Metadata
Catalog
Social & Internet
Communities Digital Statistical
Big Data Transformation Modeling

Information Governance & Security


I dati crescono, questo si sa, ma sapere che a oggi il 90% di
tsunami dei dati essi, come hanno riscontrato alcune ricerche, è stato creato nei
soli ultimi due anni probabilmente è meno noto.
D a g l i a n n i ’ 9 0 i n po i
sensori che acquisiscono dati metereologici, l’esplosione dei contenuti
che condividiamo sui social media, enorme quantità di registrazioni di molte delle informazioni, per
dati relativi agli acquisti o dati bancari che ogni giorno si accumulano, esempio riguardanti la relazione
archivi di immagini e video, dati telefonici, i segnali Gps che ci col cliente, sono nativamente
scambiamo, questi sono solo pochissimi esempi, ma danno disponibili in formati digitali.
certamente l’idea della dimensione del fenomeno.
La Computer Science, molto più vicina al reale
svolgimento dei fatti, ha pragmaticamente cercato
statistica saper analizzare ed interpretare dati è un vecchio mestiere.
di reagire, proponendo metodi e algoritmi adatti a
primi anni ‘90, gli analisti di dati indagare dati in quantità assolutamente inusuale
quali dati raccogliere e quindi registrare; quali interviste precedentemente, da qui la nascita di nuove
commissionare, come codificarle e renderle disponibili per un
software che le analizzasse. Ognuna di queste operazioni aveva un
discipline come il Data Mining, Statistical
costo. Lo scopo era quello di trarre conoscenza/previsioni Machine Learning e altre.
utilizzando il minor numero di dati possibili.

Il data scientist, con le sue capacità di analizzare e interpretare dati, diviene così sempre più una
figura professionale centrale e quindi richiesta nel mondo aziendale. Su una cosa tutti gli analisti
concordano: uno dei problemi dei prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante domanda
di data scientist.
I dati crescono, questo si sa, ma sapere che a oggi il 90% di
tsunami dei dati essi, come hanno riscontrato alcune ricerche, è stato creato nei
soli ultimi due anni probabilmente è meno noto.
D a g l i a n n i ’ 9 0 i n po i
sensori che acquisiscono dati metereologici, l’esplosione dei contenuti
che condividiamo sui social media, enorme quantità di registrazioni di molte delle informazioni, per
dati relativi agli acquisti o dati bancari che ogni giorno si accumulano, esempio riguardanti la relazione
archivi di immagini e video, dati telefonici, i segnali Gps che ci col cliente, sono nativamente
scambiamo, questi sono solo pochissimi esempi, ma danno disponibili in formati digitali.
certamente l’idea della dimensione del fenomeno.
La Computer Science, molto più vicina al reale
svolgimento dei fatti, ha pragmaticamente cercato
statistica saper analizzare ed interpretare dati è un vecchio mestiere.
di reagire, proponendo metodi e algoritmi adatti a
primi anni ‘90, gli analisti di dati indagare dati in quantità assolutamente inusuale
quali dati raccogliere e quindi registrare; quali interviste precedentemente, da qui la nascita di nuove
commissionare, come codificarle e renderle disponibili per un
software che le analizzasse. Ognuna di queste operazioni aveva un
discipline come il Data Mining, Statistical
costo. Lo scopo era quello di trarre conoscenza/previsioni Machine Learning e altre.
utilizzando il minor numero di dati possibili.

Il data scientist, con le sue capacità di analizzare e interpretare dati, diviene così sempre più una
figura professionale centrale e quindi richiesta nel mondo aziendale. Su una cosa tutti gli analisti
concordano: uno dei problemi dei prossimi decenni sarà il gap tra la scarsa offerta e l’abbondante domanda
di data scientist.
Big Data è un fenomeno il cui risultato
…………………………………….è l’incremento della complessità
Volume

Dati a riposo

Terabytes e exabytes di
dati esistenti da
processare

8
Big Data è un fenomeno il cui risultato
…………………………………….è l’incremento della complessità
Volume Velocità

Dati a riposo Dati in movimento

Terabytes e exabytes di Streaming data


dati esistenti da rispondere in
processare millisecondi-secondi

9
Big Data è un fenomeno il cui risultato
…………………………………….è l’incremento della complessità
Volume Velocità Varietà

Dati a riposo Dati in movimento Dati in molte


forme
Terabytes e exabytes di Streaming data Strutturati
dati esistenti da rispondere in
processare Non-strutturati
millisecondi-secondi
Testo
Multimediali

10
Big Data è un fenomeno il cui risultato
…………………………………….è l’incremento della complessità
Volume Velocità Varietà Veracity*

Dati a riposo Dati in movimento Dati in molte Dati in dubbio


forme Incertezza dovuta a
inconsistenza dei dati e
Terabytes e exabytes di Streaming data Strutturati incompletezza, ambiguità,
dati esistenti da latenza, inganno,
rispondere in Non-strutturati approssimazioni del
processare millisecondi-secondi
Testo modello

Multimediali * Veridicità, accuratezza o


precisione, correttezza

11
Ma attenzione al paradosso dei Big Data:
Più Dati ma Meno Affidabili
Prende decisioni basate
1 su 3 su informazioni non
attendibili

Non possiede le
1 su 2 informazioni
necessarie

Possiede più
60% 60% informazioni di quelle
che riesce ad utilizzare

Tempo speso in ogni


40% progetto big data per
comprendere le
informazioni
L’anarchia nelle Informazioni causa la perdita del loro Valore

Rework – tornare alla fonte


per verificare i dati
Business Executives

?
Prendere decisioni
senza informazioni
precise!

Governance Council

?
Governance
manuale
Applicazioni
Interne Sorgenti Dati
Rework – tornare alla fonte
Business Executives
per verificare i dati
Chi sono i miei
clienti migliori?

Questi dati sono


corretti e precisi? Duplicati

Prendere decisioni
Qual’è il nostro senza informazioni Inconsistenti
rischio di precise!
esposizione? Esposti
Governance Council
Qual’è la corretta
immagine dei
nostri dati? Mancanti
Governance
Chi altri utilizza
manuale
questi dati? Applicazioni
Interne Sorgenti Dati
…i Dati sono la nostra prossima “risorsa naturale”

Cloud Computing

Social Media
Mobile

Internet of
Things

Alimentati da fattori tecnologici dirompenti…


La vera intuizione richiede una base di
sicurezza delle informazioni
Approfondimenti Identificare nuove
sulle informazioni a Scoprire nuovi
vantaggi competitivi opportunità di
supporto del mercato e di prodotto
processo decisionale

Comprendere e Fiducia/Affidabilità Proteggere


integrare • Visualizzare la completa • Monitorare l'attività inerente
• Comprensione dei dati discendenza dei dati (data i dati sensibili
• Connessione a qualsiasi lineage) • Mascherare i dati sensibili
sorgente e destinazione dati • Essere confidenti
dell’affidabilità delle fonti dati
Integrare le Informazioni Non è Facile ed i
requisiti diventano sempre più sofisticati.
sofisticati.
Approccio Tradizionale Nuovo Approccio
Strutturato, analitico, logico Creativo, olistico, intuitivo

Data Hadoop
Hadoop
Warehous
Warehouse Streams
Streams
Dati Transazionali Web Logs
e

Dati Interni alle Social Data


Applicazioni Strutturati Big Data, Non Strutturati
Informazioni
Ripetibili Integrazioni &
Esplorativi Testi & Immagini
Data Mainframe
Lineari Governance Iterativi
Dati di sistemi OLTP Dati da Sensori
(Online Transaction
Processing) RFID (Radio
Sorgenti New
Nuove Frequency
Tradizionali Sources
Sorgenti Identification)
Dati ERP
InfoSphere Information Integration and Governance
...........................................per Use Case sia in ambito Analitico che Operazionale

Enhanced 360 View


Application
of the Customer
Big Data Development &
Exploration Testing

Security/Intelligence Application
Extension Efficiency

Operations Security &


Analysis Compliance

Data Warehouse Application Consolidation &


Augmentation Retirement
InfoSphere Information Integration e Governance Platform
Information Integration and Governance
Information Data Master Data Data Lifecycle Privacy &
Integration Quality Management Management Security

• Estrarre • Standardizzare • Gestione Multi-dominio • Archiviazione • Monitoraggio delle


• Trasformare • Convalidare • Implementazione in stile database attività
Registry o Transaction
• Caricare • Verificare Hub
• Gestione dei dati • Mascheramento
• Replicare • Arricchire • Manutenzione del dato in di test • Crittografia
• Federare • Riscontrare/Match modalità collaborativa • Redaction
• Governo dei Master Data

Metadata, Business Glossary e Policy Management, Entity Analytics

• Data Discovery automatico - Rilevamento automatico dei dati


• Repository di metadati aziendali
• Terminologia aziendale definita nel Business Glossary
• Definire, condividere ed attuare politiche di governance delle informazioni
• Blueprint di progetto sulla governance delle informazioni
• Contesto di acquisizione delle informazioni incrementale
Integrazione e governance delle informazioni .......
..................nell’ambito dei Big Data
InfoSphere Information Server
Comprendere, integrare e governare i dati tramite
BIG DATA PLATFORM una piattaforma MPP (Multi Parallel Processor)
che supporta Hadoop / noSQL
Systems
Management
Application
Development
Discovery
InfoSphere Data Replication e
InfoSphere Federation Server
Accesso ai dati in real-time e near-real time
Accelerators senza impatti sui sistemi operazionali
Hadoop System Stream Computing Data Warehouse
InfoSphere Optim
Gestire il ciclo di vita delle informazioni
migliorando le prestazioni/performance nel
Information Integration & Governance rispetto delle regole di conservazione/retention

InfoSphere Guardium
Monitorare, proteggere e controllare i dati
sensibili

Data Media Content Machine Social


InfoSphere Master Data Management
Agire su «visualizzazioni» attendibili dei dati
anagrafici per migliorare i processi aziendali
critici
21
Un nuovo modo di mettere i dati al lavoro

Semplificare Arricchire Accelerare

Accesso
Dati Affidabili
Approccio Decisioni
Ovunque
Collaborativo Veloci
Risiedano

Facile Reperebilita’
Analitica
Approviggionamento
Omnipresente
Dati Affidabili

Ottenere un maggior valore dai


propri dati
InfoSphere Data Architect
Modellazione
Analisi e
Descrivere
profilazione
l’architettura
dei dati Valutare la
qualità e
Information Analyzer
Glossario di scoprire i
contenuti
business
Regole della
Policy Definire e
condividere gli Qualità
obiettivi Convalidare

Information Governance Catalog


Data Lineage
Tracciare Monitoraggio della
Monitoraggio /
origine e qualità
tracking
destinazione

Information Governance Dashboard


DataStage & QualityStage Data Quality Exception Console
Intregrazione e Bonificare ed
Standardizzazione arricchire
Metadati condivisi nel Processo di Data Governance

Metadati di Business
B
Business rules, Stewardship, Business Definitions, Glossaries, Algorithms che usino il
linguaggio di business. Audience: Utenti di Business.

Metadati Tecnici
T
Definiscono i sistemi Source and Target, la struttura delle tabelle e gli attributi delle
colonne. Audience: Utenti di specifici tool Users – BI, ETL, Profiling, Modeling.

Metadati Operazionali
O
Informazioni relative all’esecuzione di applicazioni: record count, indicatori di errore
e altre statistiche Audience: Utenti di Operations, Management e di Business.

Letteralmente, “data about data” che descrivono le informazioni dell’azienda


sia dal punto di vista del business che da quello tecnico
InfoSphere Data Architect
Modellazione
Analisi e
Descrivere
profilazione
l’architettura
dei dati Valutare la
qualità e
Information Analyzer
Glossario di scoprire i
contenuti
business
Regole della
Policy Definire e
condividere gli Qualità
obiettivi Convalidare

Information Governance Catalog


Data Lineage
Tracciare Monitoraggio della
Monitoraggio /
origine e qualità
tracking
destinazione

Information Governance Dashboard


DataStage & QualityStage Data Quality Exception Console
Intregrazione e Bonificare ed
Standardizzazione arricchire
InfoSphere Information Analyzer: Investigazione e
Le due funzioni chiave

Analisi dei database Monitoraggio della conformità


basata sui contenuti alle regole di business

• Data profiling • Sviluppo guidato delle regole di controllo


• Analisi di dominio, frequenza e formato • Definizione soglie di controllo
• Classificazione • Gestione dei trend
• Identificazione delle chiavi • Controllo output da riga di comando
• Identificazione delle relazioni • Documentazione automatica
• Generazione metadati condivisi
• Documentazione automatica

26 Controllo completo della qualità


InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality
Column Analysis
Analisi delle frequenze di distribuzione
Analisi di Classe, Proprietà, Formato,
Dominio e Completezza
Table Analysis
Analisi delle “Primary Key”

Cross-Domain Analysis
Analisi delle “Foreign Key”
e delle analogie tra colonne

Valutare la qualità e scoprire i contenuti


InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality

28
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality

29
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality

30
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality

31
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality

32
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality

33
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality

34
InfoSphere Information Analyzer: Investigazione
Data Profiling - Data Classification - Data Quality

35
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality - Publish
Data Profiling - Data Classification - Data Quality – Publish - Query
Lavorare insieme con lo stesso Metadata Repository

Information Governace Catalog Information Analyzer

Vocabolario Profilazione e Classificazione


Common Enterprise dei Source Data

Share Share

Metadata Repository
InfoSphere Information Analyzer:
Data Rule Definition Data Rule

Logica della regola Binding Logica e Dati Output

attributo esiste e non è uguale a ‘ ’ attributo = EPDSP_COD_FSC esiste e Record conformi


EPDSP_COD_FSC non è uguale a ‘ ’
Record non conformi

Definizione Concettuale

Concetto: Convalidare il codice fiscale

Definizione Logica

Rule Definition: verifica esistenza Rule Definition: controllo di formato


attributo AAAAAA99A99A999A

Definizione Fisica

Rule: Oracle.COD_FSC exists Rule: DB2.COD_FISCALE exists

Data Rule Definition: descrive la logica del controllo


Data Rule: istanza eseguibile della rule definition associata a specifici dati
InfoSphere Information Analyzer:
Viste per Rule e per distribuzione delle Eccezioni
InfoSphere Information Analyzer:
Viste per Rule e per distribuzione delle Eccezioni
InfoSphere Information Analyzer:
Viste per Rule e per distribuzione delle Eccezioni
Esempiopowered by Cognos
InfoSphere Data Architect
Modellazione
Analisi e
Descrivere
profilazione
l’architettura
dei dati Valutare la
qualità e
Information Analyzer
Glossario di scoprire i
contenuti
business
Regole della
Policy Definire e
condividere gli Qualità
obiettivi Convalidare

Information Governance Catalog


Data Lineage
Tracciare Monitoraggio della
Monitoraggio /
origine e qualità
tracking
destinazione

Information Governance Dashboard


DataStage & QualityStage Data Quality Exception Console
Intregrazione e Bonificare ed
Standardizzazione arricchire
Category

• Vocabolario comune tra business ed IT

• Creazione di un Vocabolario con Term


descrizioni e regole di business

• Stabilisce responsabilità e competenze


sul dato tramite le funzioni di “data
stewardship”

• Fornisce informazioni sul contesto di Policy


business agli asset informativi
Rule

Database = DB2
Codice Fiscale Italiano
Schema = CRMAAC
Table = DLYTRANS Il codice fiscale, istituito dal Ministero delle Finanze del Governo italiano serve per
Column = CODFIS
Technical Business identificare le persone fisiche e giuridiche a fini fiscali. Questo valore è nella forma
data type = char(16) AAAAAA99A99A999A
Categorie
Descrizioni in linguaggio Business organizzate in gerarchie. Categorie possono contenere altre categorie e termini

Termini
Le proprieta’ dei termini ne danno significato e li differenziano dagli altri

Category

Term

Term
Category

Term
Term
Term
Term
Politiche
Descrizioni in linguaggio Business organizzate in gerarchie
Documentano gli obiettivi di information governance dell’azienda
Stabiliscono le linee guida relative ad esempio a
• Uso dei dati all’interno dell’intera azienda
• Ottenimento e mantenimento della data quality
• Politiche di storicizzazione dei dati

Regole
Descrizioni in linguaggio Business di concetti
specifici come calcoli, misure di data quality, valori
di range, controlli di validità.
Policy
Policy
Rule
Rule
Data Rule
Da dove proviene l’informazione

Asset Management Obiettivi

• Governance
• Visibilità e reporting
• Responsibilità

• Produttività
• Valutare l'impatto del cambiamento (Impact Analysis)
• Massimizzare il riutilizzo

• Affidabilità/Fiducia
• Comprendere le relazioni
• Fornire Tracciabilità e Data Lineage
?
Data Lineage: da dove proviene un’informazione?
Permette di capire
velocemente l’origine
view end-to-end lineage delle informazioni

Aiuta l’“utente di
business” a prendere
decisioni critiche
utilizzando informazioni
affidabili e corrette

zoom in

Navigazione visuale del data lineage per stabilire la


filiera informativa di un asset (es. Report BI)

Impact Analysis: cosa accade se modifico un asset?


Mostra graficamente l’impatto della variazione di un asset
Supporto alla governance della manutenzione correttiva
ed evolutiva
63

Anche dai report


di Business Intelligence
InfoSphere Data Architect
Modellazione
Analisi e
Descrivere
profilazione
l’architettura
dei dati Valutare la
qualità e
Information Analyzer
Glossario di scoprire i
contenuti
business
Regole della
Policy Definire e
condividere gli Qualità
obiettivi Convalidare

Information Governance Catalog


Data Lineage
Tracciare Monitoraggio della
Monitoraggio /
origine e qualità
tracking
destinazione

Information Governance Dashboard


DataStage & QualityStage Data Quality Exception Console
Intregrazione e Bonificare ed
Standardizzazione arricchire
Creare il disegno migliore prima di implementarlo
InfoSphere Data Architect è un ambiente di modellazione dati integrato che consente di creare e
manutenere modelli logici, fisici e dimensionali, oltre che generare ed eseguire DDL. Modello logico
• Indipendente dal Target
• Modello entità-relazione

Modello fisico
• Dipendente dal
database

• Tabelle, viste, relazioni,


stored procedures,
constraints e altri
elemento specifici del
database

Modello dei Domini

• Logical data types con


definizione di vincoli

Glossario

• Definizione di una
nomenclatura standard
Logical data model
• Target independent • New

• Entity-relationship model • Import

• Trasform

Physical data model


• New

• Import

• Forward engineer

• Target specific •Reverse engineer

• Database objects
(views, indexes, etc.)
InfoSphere Data Architect
Modellazione
Analisi e
Descrivere
profilazione
l’architettura
dei dati Valutare la
qualità e
Information Analyzer
Glossario di scoprire i
contenuti
business
Regole della
Policy Definire e
condividere gli Qualità
obiettivi Convalidare

Information Governance Catalog


Data Lineage
Tracciare Monitoraggio della
Monitoraggio /
origine e qualità
tracking
destinazione

Information Governance Dashboard


DataStage & QualityStage Data Quality Exception Console
Intregrazione e Bonificare ed
Standardizzazione arricchire
InfoSphere Information Analyzer & DataStage

Monitoraggio della qualità:

Published data rules possono essere utilizzate in Job DataStage tramite il Data Rule Stage

DataStage
integration

Potrebbero piacerti anche