Un esperto in grado di identificare algoritmi specifici per il data mining, decidere quali tra i possibili criteri di analisi siano i più importanti, sviluppare modelli innovativi per migliorare qualità, gestione, estrazione, modellazione, consegna e creazione dei dati.
I dati sono al centro di tutte le decisioni, sono disponibili in mille formati e modalità e le aziende sono stanno cercando la via migliore per accedere anche a quelli non strutturati.
Sono i tre assunti del problema big data che portano a pensare che non si debba parlare solamente di tecnologia per risolverlo.
Secondo Nicola Pozzati, Hr Director di EMC Italia, oltre alle soluzioni in grado di gestire questa massa di dati, e di trasformarla in informazioni utili, servono anche persone in grado di seguire queste soluzioni, più dal punto di vista strategico che tecnico.
Serve, cioè, una nuova generazione di professionisti in grado di trasformare una sempre maggiore quantità di dati in spunti che consentano alle aziende di competere e innovare al meglio.
Occorrono figure professionali, forti di un range di competenze almeno parzialmente inedito: i data scientist.
Crescita dei dati e attese dei CIO
Secondo un recente studio, commissionato da EMC a IDC, nell’immediato futuro saranno creati 1,8 zettabyte di dati e le aziende avranno la responsabilità di archiviarne e gestirne circa l’80%. La ricerca prevede che, entro il 2020 le aziende avranno bisogno di 10 volte il numero di server che possiedono ora. Tuttavia, un’indagine di Gartner ha evidenziato come la crescita dei dati rappresenti la più grande sfida per i CIO legata alle infrastrutture hardware di data center, con un 47% di intervistati che la reputa uno dei loro primi tre elementi di criticità.
Questo enigma per Pozzati rappresenta sia una sfida sia un’opportunità. Dunque si rende necessario un nuovo approccio, sia nella gestione dei dati, sia nel cercare di migliorare la capacità collettiva di sfruttare l’IP aziendale che è a portata di mano.
Questo approccio dovrebbe essere adottato sia in relazione alla tecnologia sia a coloro che vi lavorano.
Quali caratteristiche e responsabilità deve avere un data scientist? Come e dove può fare la differenza quando si parla di gestione e sfruttamento ottimale delle opportunità generate dalle grandi quantità di dati eterogenei di cui le organizzazioni dispongono?
Cosa deve fare un data scientist
Un data scientist, per Pozzati, dovrebbe identificare algoritmi specifici per il data mining; decidere quali tra i possibili criteri di analisi siano i più importanti; sviluppare modelli innovativi per migliorare qualità, gestione, estrazione, modellazione, consegna e creazione dei dati; astrarre le informazioni ricevute, e su queste innestare una serie di indicazioni concrete, siano esse strategiche o operative.
Oltre alla quantità di dati che le aziende devono conservare, il processo di data mining diventa sempre più complesso man mano che le aziende implementano risorse storage e infrastrutture aggiuntive, atte a soddisfare le sfide legate ai big data.
I dati sono ovunque e il data scientist dovrà vagliare una serie di diverse fonti prima di decidere quali possono essere utilizzate dalla sua organizzazione come fonte di informazioni utili.
La maggior parte di questi scienziati dovrà andare a incrociare tra loro informazioni o contenuti provenienti da più fonti, sia che si tratti di aggiornamenti di stato su siti di social network, log del Web server o registrazioni delle transazioni online.
Data conditioning
Dopo aver acquisito i dati, un data scientist dovrà eseguire il processo di conditioning (che utilizza tecniche di gestione e ottimizzazione dei dati che a loro volta portano ad un routing intelligente).
Se un numero sempre maggiore di dati viene elaborato in formati facilmente utilizzabili, ne esistono altri difficili da analizzare, come quelli dei dati geospaziali.
Dato che le fonti di dati misurabili in giga o terabyte sono sempre più comuni, gli scienziati dovranno inevitabilmente impiegare nuove tipologie di database analitici.
La scelta dello strumento di analisi dei dati dipende dal tipo di data mining richiesto.
Alcuni strumenti di business intelligence presenti sul mercato, consentono agli utenti di analizzare i dati storici in modo che le aziende possano migliorare i loro prodotti.
Al tempo stesso, strumenti di analisi high-end, sono più predittivi e le aziende possono utilizzarli per scopi quali prevenzione delle frodi e previsioni sull’andamento della concorrenza.
Naturalmente, per affrontare le complessità del data mining, dovranno affrontare questa sfida tenendo conto di tutti gli aspetti informatici.
Compliance, statistica e curiosità
Hanno anche bisogno di una presa di coscienza dei problemi legali, legati al fatto di trattare dati privati o protetti provenienti da fonti esterne. Per il data scientist è, inoltre, essenziale possedere competenze statistiche, se deve ricercare modelli nei dati, così come è indispensabile la conoscenza di altre aree della matematica, quali metodi di calcolo, probabilità, numerici e digital sign processing.
Stiamo quindi scoprendo che gli scienziati dei dati non solo necessitano di competenze tecniche e scientifiche, ma è altresì importante che abbiano interesse per le arti e creatività in modo che possano produrre visualizzazioni intelligenti dei dati e, quindi, operare opportune correlazioni e relazioni tra le diverse parti.
Questo lato creativo della scienza richiede un innato interesse verso l’esplorazione: è il tipo di mentalità di cui il data scientist di successo necessita.
Tuttavia per Pozzati rimane ancora ambiguità su quali mansioni questi scienziati siano chiamati a svolgere e quali siano gli skill-set di cui hanno bisogno.
Di certo, in sintesi, deve essere una persona dotata di punti di forza in una serie di discipline informatiche, eccellere nelle capacità di analisi del business e possedere una mente creativa, curiosa e legale.