Informatica Big Data
Informatica Big Data
Big Data
Workbook
Una guida pratica per avviare
iltuoprimoprogetto Big Data.
Contenuti
Introduzione
Parte A: preparazione
3
4
Informazioni utili
I motivi che spingono le aziende a implementare
progetti Big Data
I motivi del fallimento dei progetti Big Data
Come far funzionare il progetto Big Data
12
13
15
17
19
Parte B: la strategia
6
7
10
24
25
27
29
30
33
36
Il team
Cinque lezioni chiave di team-building
Organizzazione della governance dei dati
Competenze richieste e competenze gi disponibili
37
38
42
45
Gli strumenti
Dettagli sugli strumenti per i Big Data
47
48
I processi
Le otto fasi di un progetto Big Data
52
53
L'architettura
Fasi preliminari: l'ambiente sandbox
L'architettura Big Data ideale
56
57
59
Il piano di progetto
Il piano di progetto
60
61
Implementazione
63
Prossimi step
64
Informazioni su Informatica
65
23
Verso
i Big
Data
Parte A:
preparazione
Il manuale diviso in tre parti. Nella prima parte,
cercheremo di rendere pi nitida la visione, in
modo da scegliere il giusto progetto.
Ritorna ai Contenuti
<
Informazioni
utili
14
12
Informazioni utili
Informazioni utili
1
Obiettivi vaghi
Il motivo di fallimento pi citato nel
sondaggio "ambito impreciso" del
progetto. Troppe aziende puntano
su progetti ambiziosi, decisamente
troppo ambiziosi, senza obiettivi
chiari, per poi fallire quando
devono prendere decisioni difficili
su cosa importante o meno.
1.
w ww.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/d-id/1108384
Informazioni utili
3
Sforamenti e ritardi del progetto
Informazioni utili
Informazioni utili
Informazioni utili
Scelta del
progetto
giusto
Alla luce delle sfide che affronterete,
analizziamocome scegliere il progetto
opportuno per l'azienda.
Scelta del
progetto giusto
Caratteristiche del
progetto giusto
Se l'azienda brama cambiamenti e
ha gi accettato un framework
completo di data governance per
migliorare le metodologie di lavoro,
probabilmente possibile saltare
questa sezione.
Se invece state considerando un
progetto tattico localizzato,
adattabile in seguito a tutta
l'azienda, continuate la lettura.
Valore dimostrabile
Sponsorizzazione
Scelta del
progetto giusto
Caratteristiche del
progetto giusto
3
4
Competenze trasferibili
Un effetto domino
L'importanza strategica del primo
progetto tattico fondamentale.
L'obiettivo non solo provare senza
ombra di dubbio che i Big Data
aiutano le business unit che stanno
supportando, anche accertarsi che il
relativo valore sia poi facilmente
comunicabile a tutta l'azienda.
Scelta del
progetto giusto
Considerare l'impatto
In fase di scelta del progetto
successivo, considerare anche in
che modo influir sull'azienda. Tre
aspetti generali giocano un ruolo
determinante nello stabilire se si
persegue il giusto progetto Big
Data.
1
Costo e interruzione
Tendenzialmente, il costo del
progetto si basa sul tempo e sul
denaro necessari per metterlo in
piedi. In realt, necessario
considerare anche la potenziale
interruzione che causa.
Scelta del
progetto giusto
Considerare l'impatto
2
3
Risorse e limitazioni
Scelta del
progetto giusto
Finance
A
nalisi dei rischi e
del portafoglio
Consigli sugli
investimenti
Retail
C
oinvolgimento
proattivo del cliente
Servizi in base alla
localit
Multimediale
T racciamento del
comportamento
durante il gioco
Opzioni di cross-sell e
up-sell
Produzione
Sanit
Settore pubblico
P
rogrammi correlati
ai veicoli
Manutenzione
predittiva
P
revisioni sulle
condizioni del
paziente
Costo totale della cura
Scoperta di medicinali
A
ssicurazione sanitaria
Scambi
Ottimizzazione
tributaria
Rilevamento frodi
Scelta del
progetto giusto
U
na grande azienda tecnologica
della Silicon Valley punta a
risparmiare pi di 10 milioni di
USD sui costi in aumento per il
data warehouse, sfruttando una
combinazione di Hadoop e
tecnologia tradizionale di data
warehouse, allo scopo di
diminuire la crescita nei costi
complessivi per terabyte.
U
n grande produttore di mezzi di
trasporto punta a ridurre i
consumi di carburante dei propri
veicoli dell'1% nei prossimi 10
anni, oltre a cercare di ridurre le
emissioni di carbonio tossiche
estendendo i periodi di
manutenzione del 10% e
migliorando il chilometraggio
dell'1%.
U
n produttore di locomotive
intende sbloccare un ulteriore
miglio all'ora sulle tratte
quotidiane per consentire ai
propri clienti di risparmiare quasi
200 milioni di USD all'anno.
U
n'azienda di servizi di
pagamento internazionale sta
cercando di aumentare il proprio
business digitale del 30%
personalizzando maggiormente i
servizi offerti al cliente, azione
che fa parte di una strategia Big
Data chiamata "ottimizzazione
omni-channel del retail".
Queste sono alcune delle grandi
vittorie di alcuni team Big Data.
Scelta del
progetto giusto
1
Ottimizzazione del data warehouse
Implica l'opzione di
memorizzazione ed elaborazione
dei dati sulla piattaforma pi
economica. L'operazione di norma
inizia trasferendo i dati non
elaborati o utilizzati di rado e i
carichi di lavoro ETL da costosi
hardware di data warehouse.
Scelta del
progetto giusto
3
Intelligence operativa in tempo reale
Scelta del
progetto giusto
Scelta del
progetto giusto
U
n'azienda internazionale che
conduce centinaia di milioni di
transazioni finanziarie in
centinaia di paesi ha creato un
data hub a livello aziendale.
L'obiettivo condurre analisi dei
Big Data per identificare le
macro-tendenze e i macro-schemi
nell'interazione con il cliente.
U
na grande azienda tecnologica
ha creato un Cloud di analytics a
livello aziendale per ottenere un
time-to-market pi veloce per i
prodotti regolati dai dati,
includendo nuovi set di dati negli
analytics utilizzati tra le business
unit.
U
n'azienda di consulenza
finanziaria globale ha creato
un'infrastruttura logica di data
warehouse per garantire di poter
rendere disponibili informazioni
coerenti tra tutte le piattaforme
standard (inclusi Hadoop,
database operazionali e data
warehouse tradizionali) utilizzate
dall'azienda.
In breve: i grandi interventi hanno
un grande impatto, ma richiedono le
giuste basi.
Parte B: la
strategia
Ora analizziamo gli aspetti pratici, esaminando i
requisiti specifici per il prossimo (o il primo)
progetto Big Data.
Ritorna ai Contenuti
<
598
55mph
Definizione
degli obiettivi
276m
70mph
101m
75mph
411m
67mph
136m
72mph
Definizione degli
obiettivi
Definizione degli
obiettivi
Definizione degli
obiettivi
Obiettivi dell'IT
Ora diamo un'occhiata agli obiettivi
dell'IT, in quanto pertinenti al
progetto.
Se il progetto riguarda migliorare e
velocizzare il lavoro dell'IT, si
incontreranno delle difficolt nel
venderlo agli utenti business. Per
questo motivo, gli obiettivi dell'IT
dovrebbero essere comunicati allo
stesso momento in cui vengono
esposti gli obiettivi per i quali gli
utenti business hanno mostrato
entusiasmo.
Definizione degli
obiettivi
Obiettivi dell'IT
Stabilire una quantit di tempo minima e una massima
per ogni obiettivo da raggiungere.
ad es. da due a quattro mesi
Definizione
delle esigenze
sui dati
Ora che abbiamo delineato obiettivi specifici per
le iniziative Big Data, analizziamo l'essenza del
progetto: i dati stessi. Qualsiasi sia il progetto,
necessario pensare in modo strategico alle
informazioni necessarie, quali set di dati
soddisfano tale esigenza, in che modo si
otterranno tali dati e come saranno utilizzati.
Definizione delle
esigenze sui dati
Definizione delle
esigenze sui dati
Definizione delle
esigenze sui dati
2.
Definizione delle
esigenze sui dati
1
Prepararsi al volume
Prepararsi ad affrontare la
"grandezza" dei dati necessari.
Oltre alle dimensioni, classificare i
dati in base al loro valore (ad es.
transazioni del cliente), al loro
utilizzo (frequenza di accesso), alla
loro dimensione (gigabyte,
terabyte), alla loro complessit (dati
macchina, dati relazionali, video...)
e a chi pu accedervi (solo i data
scientist o utenti aziendali casuali).
Un inventario accurato e
organizzato dei dati aiuter a
determinare le modalit di gestione.
Valutare la capacit di storage ed
elaborazione corrente e adottare i
metodi pi economici ed efficienti
per renderla scalabile.
Definizione delle
esigenze sui dati
3
Gestire la velocit
Considerare la molteplicit
L'aspetto pi complesso dei Big
Data la moltitudine di formati e
strutture da riconciliare nelle analisi.
Per includere nuovi tipi di dati e
strutture (social, sensori, video) con
le fonti gi utilizzate (relazionali,
mainframe relazionali) sar
necessario integrare diverse origini.
La combinazione di dati in
streaming in tempo reale e dati
cronologici solitamente aumenta il
potere predittivo degli analytics.
Quindi, alcuni dei dati richiesti
potrebbero essere preziosi solo se si
riversano costantemente nei sistemi.
Definizione delle
esigenze sui dati
5
Considerare la conformit
Garantire la veridicit
Indipendentemente dall'importanza
delle analisi, queste risultano inutili
se le persone non possono fidarsi
dei dati analizzati. Pi dati si
analizzano, maggiore
l'importanza di mantenere un
elevato livello di data quality.
Parte C: la supply
chain dei Big Data
lean
I metodi di business intelligence e data warehouse tradizionali
non sono in grado di ridimensionarsi per soddisfare le
esigenze delle iniziative Big Data. A questo punto,
analizzeremo come ridimensionare il team, i processi e
l'infrastruttura.
Ritorna ai Contenuti
<
Il
team
Il team che lavorer al progetto Big Data
rappresenta la sfida maggiore, ma anche la
principale opportunit. Bisogna trovare il giusto
equilibrio tra persone che comprendono gli
obiettivi aziendali e persone in grado di
ottemperare ai requisiti tecnici.
Il team
Hadoop, Python, and NoSQL lead the pack for big data
jobs, InfoWorld, 5 maggio 2014: www.infoworld.com/t/
it-jobs/hadoop-python-and-nosql-lead-the-pack-big-datajobs-241884)
3.
Il team
2
Pensare strategicamente alla
composizione del team
4.
Il team
4
Quando il team cresce, anche
l'esigenza di gestirlo aumenta
Il team
5
Il team non pu permettersi di
rimanere fermo
Ogni giorno emergono tecnologie
Big Data e quelle gi esistenti si
evolvono rapidamente. un periodo
estremamente esaltante per le
aziende abbastanza intraprendenti
da adottare best practice in
anticipo, ma rappresenta anche una
sfida fondamentale per partire in
pole position rispetto alla
concorrenza.
L'importanza dell'essere
strategici
Il team
Organizzazione della
governance dei dati
Se (e si spera quando) si prepara
un'iniziativa Big Data semplice,
necessario implementare un quadro
procedurale per la data
governance. Infatti, anche se il
progetto Big Data punta a offrire
valore a un singolo dipartimento,
prendere in considerazione la
creazione di un consiglio di data
governance in miniatura, per
scoprire come affrontare le sfide
uniche presentate da tale
organismo.
Sostanzialmente, le persone
responsabili della data governance
in azienda sono gli stessi executive
che devono controllare l'approccio
aziendale ai dati. Questo
comprende anche l'esigenza di
data steward: personale funzionale
o specifico di un dipartimento a cui
viene assegnata la gestione dei dati
provenienti da una business unit
specifica.
In effetti, alcuni dei nostri clienti
assegnano ruoli di data stewardship
in base al dominio dei dati, ovvero
una persona addetta ai dati di
prodotto, un'altra ai dati del cliente
e cos via.
Il team
Organizzazione della
governance dei dati
Bisogna puntare sulla creazione di
processi che garantiscano la
percezione del framework di data
governance come un vantaggio pi
che un problema. Lavorare in modo
attivo per garantire che non si
trasformi in un fardello burocratico,
verificando che tutti siano impegnati
nel conseguimento dei medesimi
obiettivi seguendo le stesse finestre
temporali.
Inter-funzionale
Comunicativo
Il team
Organizzazione della
governance dei dati
3
Efficiente
Approvato
Centralizzato
Il team
Competenze richieste e
competenze gi disponibili
Compiliamo di nuovo. Ora che
abbiamo identificato le varie insidie
e opportunit individuali presentate
dal nuovo team, definiamo le
caratteristiche effettive di questo
team.
Il team
Ruolo
Data scientist
Qualcuno pu gi
ricoprire questo
ruolo?
oppure
Necessaria
assunzione per
questo ruolo
oppure
Esperto di domini
Business analyst
Data analyst
Data engineer
L'esigenza di un pensiero
integrato
Database administrator
Enterprise architect
Business solution architect
Data architect
Data steward
Sviluppatore ETL (data integration)
Sviluppatore di applicazioni
Sviluppatore di dashboard
Modeler statistico
Altro
Altro
Altro
Altro
Altro
46 | Informatica The Big Big Data Workbook
10356
98276
Gli
strumenti
41523
10392
60303
63002
15234
45623
Gli strumenti
Data ingestion
Il processo di consumo dei dati dei
quali si necessita in modo corretto,
efficiente e metodico.
Caricamento in batch
possibile accedere a tutti i tipi
di dati necessari e scalare in
modo efficiente le performance
del caricamento in batch negli
archivi dati?
Acquisizione del cambiamento dei
dati
possibile acquisire le modifiche
apportate ai dati nei sistemi
sorgenti senza influire sui sistemi
di origine?
Gli strumenti
Data quality
possibile effettuare la bonifica
dei dati in modo attendibile,
effettuare la deduplica e
rimuovere gli errori?
Gli strumenti
Gli strumenti
Analytics
Gli strumenti e i processi che
trasformano i dati grezzi in
informazioni utili, schemi, previsioni
e calcoli relativi al dominio
analizzato.
Visualizzazione
possibile presentare i dati e le
scoperte secondo modalit
semplici da acquisire e
comprendere?
Analytics avanzati
possibile applicare algoritmi
analitici innovativi ai set di dati
per condurre calcoli complessi?
Apprendimento automatico
Si possono applicare sofisticati
algoritmi di apprendimento
automatico per identificare
schemi e fare previsioni a un
livello tale da non dover gestire la
larghezza di banda
manualmente?
I processi
Esaminiamo in dettaglio i processi effettivi
necessari per affrontare i Big Data. I processi
specifici saranno unici per gli obiettivi e i requisiti
aziendali. La seguente sezione fornisce una
panoramica relativa alle aspettative e agli
insegnamenti.
I processi
Le otto fasi di un
progetto Big Data
L'esperienza insegna che le
metodologie agili sono un
approccio eccellente per i progetti
Big Data. Garantiscono di poter
gestire le aspettative, imparare dagli
errori e ripetere i propri metodi per
migliorare i processi. Detto questo,
l'approccio al progetto dipende
interamente dall'azienda e dalla
situazione.
In ogni caso, i seguenti otto punti si
dimostreranno fondamentali per la
supply chain dei Big Data. In
qualunque modo vengano seguiti,
stabilire processi efficaci per questi
punti.
Accesso ai dati
I processi
Le otto fasi di un
progetto Big Data
3
I processi
Le otto fasi di un
progetto Big Data
6
L'importanza della
documentazione
Per imboccare la giusta strada in un
progetto Big Data, bisogna
padroneggiare questi otto punti.
L'obiettivo stabilire processi chiari,
ripetibili, scalabili e in continuo
miglioramento. A questo scopo, la
documentazione dei processi e dei
miglioramenti derivanti sono vitali per
il team.
Competenze, capacit e lezioni del
progetto Big Data devono essere rese
trasferibili e comunicate
frequentemente.
92
93
362
L'architettura
40
264
654
78
157
62
61
50
L'architettura
Iniziare in piccolo
Le dimensioni contano
L'architettura
L'architettura
Data ingestion
Database relazionali
Mainframe
Documenti ed e-mail
Social media, dati terze
parti, file di log
Sensore macchina
Cloud pubblico
Cloud privato
Caricamento in batch
Acquisizione del
cambiamento dei dati
Streaming
dei dati
Archiviazione
Data Integration
Data quality
Virtual Data Machine
Sicurezza dei dati
Master Data
Management
Storage scalabile
(ades.,Hadoop)
Data warehouse
Applicazioni
Visualizzazione
Applicazioni mobile
Analytics
Business intelligence
Dashboard in tempo reale
Il piano di
progetto
Abbiamo ultimato l'analisi di ogni aspetto del
percorso per un progetto Big Data. La fase
successiva utilizzare questo piano come
struttura per gestire il progetto Big Data, dalla
concezione fino all'implementazione.
Il piano di
progetto
Il piano di progetto
Utilizzate questo template
per il piano di progetto
come base per
documentare i dettagli e i
vari elementi del progetto
Big Data, quindi sfruttare il
documento compilato per
raccogliere l'approvazione
dal resto dell'azienda.
Risulter utile anche
durante l'approccio con
partner esterni.
Fase 1: la strategia
Fase 2: i dati
Il piano di
progetto
Il piano di progetto
Fase 3: la supply chain
Le persone
oo Valutazione delle
competenze necessarie
oo Valutazione delle
competenze disponibili
Il processo
oo Accesso ai dati
oo Integrazione dei dati
oo Bonifica dei dati
oo Amministrazione dei dati
oo Protezione dei dati
oo Analisi dei dati
oo Analisi delle esigenze aziendali
Gli strumenti
oo Elaborazione distribuita (ad
esempio, Hadoop)
oo Data Quality
oo Data Integration
oo Master Data Management
oo
oo
oo
oo
oo
Data masking
Visualizzazione
Analytics in streaming
Analytics
Apprendimento automatico
Implementazione
Fasi successive
Pronto ad applicare quanto appreso?
Informazioni su
Informatica
Aiutiamo le aziende a gestire i dati, in modo da
sfruttarli per ottenere un valore di business misurabile.
Inoltre, aiutiamo alcune delle aziende pi grandi al
mondo a destreggiarsi tra gli errori di gestione dei dati
pi comuni e avere successo con progetti Big Data
scalabili e ripetibili.
Parliamone insieme.
IN18-1014-2730