Il nodo della gestione dei big data

Wolfgang Martin (ex Meta Group) dice la sua sul tema dei big data. Integrazione e data quality, sostiene l’esperto, sono due aspetti chiave per un data management all’altezza delle nuove sfide imposte dall’esplosione dei dati provenienti da molteplici fonti differenti.

Wolfgang Martin è una delle massime autorità europee in tema di Business Intelligence, performance management, analytics, Business Process Management.
Insomma, tutto quanto fa governance dei dati.
Dopo più di cinque anni in Meta Group, Martin ha fondato nel 2001 il Wolfgang Martin Team. Si è allora focalizzato sulle innovazioni tecnologiche che guidano il business, esaminandone l’impatto sulle organizzazioni, sulla cultura aziendale, sulle architetture e sui processi di business.

Alla luce di queste competenze, Uniserv gli ha chiesto di esprimersi sul tema del momento, i big data.
Ne è emerso un quadro avvincente e convincente, che riportiamo

Lo scenario del data management odierno, ha osservato Martin, è caratterizzato da un flusso di dati in costante espansione, provenienti da una varietà crescente di fonti, spesso in tempo reale.
La conseguenza di questo diluvio di dati è che la gestione dei dati relazionale, tradizionale, ha raggiunto il suo limite.
Ma i big data non implicano solo un enorme flusso di dati, ma anche una enorme varietà di fonti su Internet che devono essere utilizzate quasi in real time.
Ecco perchè, in aggiunta ai database analitici e ai sistemi NoSQL, il Big data management è cruciale per poter testare ipotesi utilizzando strumenti analitici.
Il big data management, insomma, ha bisogno di nuove metodologie come i motori di ricerca semantica per l’identificazione delle fonti, di processi flat file e Hadoop per l’estrazione e di un orientamento al servizio, in modo tale che la qualità dei big data può essere raggiunta nei master data attraverso servizi in tempo reale.

Le aziende, per Martin, hanno bisogno di soluzioni che permetta loro di affrontare con successo questo complesso scenario, che rischierebbe altrimenti di compromettere la capacità di utilizzare con successo i dati per i processi di business e per le decisioni aziendali.
Integrazione e data quality sono due aspetti chiave per un data management all’altezza di queste nuove sfide.

Si parla di big data integration…
Prima di tutto le tradizionali tecnologie di integrazione dei dati come ETL e real time processing (change data capture, event triggering, web service) continuano a essere utilizzate. Oltre a queste vi sono nuove tecnologie come il flat file processing MapReduce-based, che ordina, filtra e aggrega i dati, includendo alcune funzioni matematiche di base.
Un esempio è costituito dal processo Talend’s FileScale, utilizzato da provider come Uniserv.
In alternativa è possibile anche rivolgersi ancora a tecnologie vecchie ma collaudate come Syncsort’s Dmexpress, che è stata riscoperta proprio in connessione ai big data.
Infine, c’è anche bisogno del supporto per Hadoop, che implica processi di importazione, esportazione e elaborazione interna.

... e di big data quality
La qualità dei dati gioca un ruolo molto importante, in particolare quando i dati aziendali devono essere arricchiti con informazioni provenienti dai big data, ad esempio le informazioni relative a un cliente devono essere integrate con dati provenienti dai social media, o le informazioni circa un paziente devono essere arricchite con dati sulla terapia in essere.
Gli obiettivi chiave del data quality management rimangono gli stessi. Come sempre si tratta di profilazione, data cleansing o bonifica, di arricchimento e monitoraggio dei dati, ma trattandosi di big data risulta più complessa la creazione del single point of truth e cresce la performance richiesta alle soluzioni di data quality.

Sul fronte tecnologico il big data management richiede una performance impeccabile: tutti i tool, i servizi e le piattaforme devono essere adeguatamente scalabili.
Questo risultato è generalmente raggiunto attraverso processi paralleli. Vi sono poi le esigenze derivanti da nuove metodologie come Hadoop.
Un’altro must è costituito dall’orientamento al servizio della piattaforma e dei tool. Inoltre possono essere impiegate soluzioni ibride cloud, come il data quality management as a service nei processi ETL, allo scopo di controllare i dati dei social media con i dati di riferimento per avere indirizzi corretti. Uniserv, per Martin, offre questi servizi.
Questo è un punto cruciale per le aziende che vogliono mantenere il single point of truth anche gestendo big data.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome