I Big Data non sono così grandi

Teradata continua a sviluppare cultura ed applicazioni che consentono evoluzioni aziendali e sociali anche in tempo reale. Spazio al Data Scientist: a colloquio con Stephen Brobst.

Uno degli argomenti più dibattuti oggi, sui media come in azienda, è quello dei cosiddetti Big Data. Un’enorme mole di dati destrutturati, dalle conversazioni on-line ai sensori, dai comportamenti ai grafi sociali, richiede attenzione per attualizzare il business e la pubblica amministrazione. I termini chiave sono l’aggettivo big, grande, e la caratteristica di destrutturazione.


Chiamiamoli Multistrutturati

Ma quali sono i confini di questi termini? “I big data non sono così grandi, ma semplicemente sono dati di tipo diverso rispetto a quelli gestiti dalla tecnologia precedente, ai quali sono parametrati”.
A parlare è Stephen Brobst, vulcanico Cto di Teradata, in occasione del Teradata User Group 2012 di Roma.
Un esempio? “Il testo viene considerato un tipo di dato non strutturato”, prosegue Brobst, nel senso che non ha una struttura da database, “ma ovviamente ha una struttura, qualunque sia il linguaggio usato”. La proposta è di chiamarli dati multistrutturati, e di vederli come tali, nel qual caso non saranno più così big: allora, forse, molte persone scopriranno che attrezzarsi per la gestione dei multistrutturati richiede investimenti inferiori al 10% dell’infrastruttura Ict già esistente.


Gente che conosci

Un tipo di analisi di grande rilevanza oggi è rivolta al grafo sociale, la struttura che raggiunge e opera sulle connessioni tra individui ed attività. Linkedin ne è un esempio chiaro: il gestore di profili professionali ha un solo business, i dati, che presenta puri senza sporcarli con la pubblicità. Allo User Group l’ospite d’onore è stato Sunil Shirguppi, responsabile del team di Linkedin che opera sui datawarehouse. Negli ultimi tempi molte applicazioni di successo hanno accelerato la creazione di valore da parte di Linkedin, come la ricerca di lavori simili al proprio, l’elenco dei visitatori del nostro profilo e principalmente la funzione “People you may know”, che accelera la creazione di grafo sociale: “Si può dire che questa apertura di Linkedin tipo Facebook sia diretta conseguenza dell’uso dei nostri prodotti”, ammicca Stephen.


Arriva il data scientist

La professionalità che emerge da gestione ed ottimizzazione nell’ecosistema dei dati multistrutturati è quella del data scientist, una persona capace di osservare trend in raccolte o stream di dati senza essere esperto nel settore da cui provengono. Oggi un mix di software open source cone Hadoop e proprietari fanno gran parte del lavoro, ma sui dati è necessaria una integrazione manuale che può essere molto pesante: per questa fase stanno arrivando specifici tool di automazione.


Digital genoma

I dati multistrutturati portano lontano, basti pensare alle posizione dei nostri smartphone o tablet, ai sensori inglobati un po’ dappertutto e anche ai dati medici. “Certamente c’è un problema di privacy”, sottolinea Brobst, ma concorda sulla possibilità di gestirla nonostante le differenze delle diverse regioni del globo. “E’ troppo importante poter raccogliere e scambiare dati nel settore medico, dove la prevenzione permette risultati molto migliori e ben più economici dell’intervento a posteriori”.
Lo stesso Obama, che ha affidato i poll ai social network più che al telefono, si è giocato gran parte della rielezione a presidente sul piano sanitario, con un’iniziativa che prevede anche la raccolta di dati medici esclusivamente in formato digitale. E se da un lato si sviluppano raccolte di dati da monitoraggio, sullo sfondo è ben visibile la sagoma del genoma: “a mille dollari oggi si può avere una prima mappatura dei propri geni“, utilissima per prevenire comportamenti erronei o malattie. Già oggi è una cifra accettabile per molte persone e la continua discesa dei prezzi amplierà ulteriormente l’interesse per questo tipo di dati. Appuntamento quindi al Teradata Universe 2013, che si terrà a Copenhagen dal 14 al 17 aprile.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome