Emc: i dati siamo noi

Ma non siamo tutti uguali. Perché i big data si trasformino in fattore competitivo per le aziende occorre leggere e interpretare fatti specifici e unici scegliendo, di volta in volta, modelli probabilistici, analisi del sentiment, semantica e ontologia.

È una Emc convinta «che oggi, soprattutto in Italia, ci sia bisogno di condividere esperienze» quella che, ieri, davanti a un nutrito parterre di clienti, ha dato vita a Leading Ideas.

Strutturato dal nuovo amministratore delegato della filiale italiana, Marco Fanizzi, per presentare i volti dei big data raccogliendo nuove idee «per rendere i dati un fattore competitivo», l’evento organizzato in collaborazione con i partner tecnologici Accenture e Sas ha scelto di percorrere la strada delle testimonianze dando voce a “visionari” e “clienti”.

Dei primi fanno parte Elisabetta Fersini ed Enza Messina che, sotto il cappello dell’Università degli Studi di Milano Bicocca, in qualità di co-founder di Sharper Analytics, hanno sottolineato come «l’essere circondati da dati testuali, multimediali o relazionali che siano, non corrisponde all’avere una reale conoscenza».
Scroprire “fatti unici e specifici” indagando “cause e relazioni tra eventi” e soppesando “l’affidabilità dei dati che ci circondano” diventa, allora, fondamentale per dar vita a modelli interpretativi che, a loro volta, diventano il mezzo attraverso cui aggregare e interpretare informazioni eterogenee “per forma, tipologia e provenienza”.

Le stesse che Sharper Analytics traduce, in primis, in modelli probabilistici «utili a trattare l’incertezza sia dei dati, che delle fonti, specie di quelle non certificate».
Il ché ha portato la start-up nata lo scorso ottobre come spin-off della Bicocca a utilizzare specifici algoritmi spingendosi, però, ben oltre le sole informazioni ricavate dal contenuto dei singoli documenti.

Un esempio su tutti: il progetto realizzato in ambito europeo nel settore della giustizia dove, a fronte dell’analisi di dati audio e video prevalentemente non strutturati provenienti dall’attività di 167 Corti italiane e non, per un totale di 150 processi per anno legale e 1.400 aule monitorate, ha permesso di far emergere una prima necessità per il settore.
Ossia quella di «fornire non solo funzionalità di raccolta e archiviazione in formato digitale ma di rendere fruibili le medesime informazioni definendo un sistema in grado di erogare tutto il materiale raccolto durante i dibattimenti per agevolare una consultazione efficiente e abilitare i processi decisionali che afferiscono al settore».

Da qui alla creazione di una sorta di fascicolo multimediale elettronico «prodotto da una trascrizione generata automaticamente, e in seguito arricchita attraverso la generazione ugualmente automatica di annotazioni utili a completare la mera trascrizione testuale di quanto discusso nelle singole aule di tribunale», il passo è stato breve.

Ripensare i processi in ottica social
Diverso, invece, l’approccio di Marco Massarotto. Focalizzato com’è sull’impatto dei big data sulla comunicazione, l’accento del founder & president di Hagakure che, dal 2006, parla di “cultare del Web e cultura di marca”, non poteva che sottolineare l’importanza di offrire nuovi proposte a nuovi clienti.
Additata l’It come l’industria «che ha bisogno di creare il problema per vendere le sue soluzioni», l’impressione riportata alla platea degli intervenuti all’evento di Emc è, invece, di trovarsi sempre più di fronte a «tante parti della stessa azienda in cerca di una visione e di un progetto».
Tanto più all’interno di un mondo che, ormai dominato da mobile e social media, chiede di ripensare il modello d’azienda in ottica user centrica, «come sta facendo a Milano Palazzo Marino – è l’esempio citato –, dove il sindaco Pisapia sta riorganizzando le attività del Comune attorno alle domande dei cittadini che arrivano dalla Rete».

Tanto rumore per nulla?
Lungi dal definire i big data come “rumore”, la convinzione espressa, a loro volta, da Luigi Curini e Stefano Iacus nelle vesti di co-founders di Voices from the Blogs, è che si possa estrarre informazioni utili utilizzando il giusto approccio.
Nata come progetto di ricerca all’interno dell’Università degli Studi di Milano, la startup che si occupa principalmente di analisi del sentiment sui social media ha abbandonato come metro di misura «quanto la gente frequenta un dato social network, quanto una certa persona viene menzionata, quanti Likes si hanno su una pagina Facebook, o il numero dei racking o dei re-tweet prodotti da un argomento».

A interessare chi è intenzionato a strutturare la propria strategia di business ascoltando il popolo della Rete è ben altro.

Ancora un volta l’informazione risiede nei dati «perché, quando utilizzano i social media, le persone dicono qualcosa e spendono opinioni che andrebbero lette con attenzione, visto che le 40mila menzioni espresse per Matteo Renzi rispetto alle 15mila riportate da Pier Luigi Bersani durante le due settimane di campagna per le primarie del Pd non sono valse al sindaco di Firenze la guida del Partito Democratico».

Va ricordato, infatti, che i sistemi analitici che apprendono lo fanno in condizioni estremamente specifiche.
Nel caso dell’analisi supervisionata dei sentiment su dati testuali, dove solo una parte dei dati può essere analizzata con l’ausilio di specifici algoritmi, mentre un’altra va “letta” da qualcuno che la prenda in carico bandendo, per prima cosa, l’uso di dizionari ontologici.
«Quest’ultimi non colgono né l’ironia, né i doppi sensi o le metafore né, tanto meno, l’evoluzione dei linguaggi che caratterizzano i social media».

Dal dato al concetto: rotta verso una Bi 2.0
Di evoluzione delle applicazioni in uso nelle aziende utili ad analizzare milioni di dati ha, invece, parlato Valeria Sandei, Ceo di Almawave.
Costituita nel 2008 all’interno del Gruppo Almaviva per lo sviluppo di tecnologie e applicazioni nelle aree della customer experience e dell’enterprise knowledge, qui l’accento non poteva che andare su “interazione mobile”, “mondo social” e sulle “opportunità infrastrutturali offerte dal cloud computing” utili «a impattare con risposte tecnico-applicative su customer interaction e sulla fruizione della conoscenza all’interno dell’azienda».

Un’evoluzione applicativa declinata nei concetti di Information & Engagement Hub e di People Centric Technology per catturare e rendere fruibili le informazioni per raggiungere obiettivi di business e a fornire nativamente informazioni che valorizzano il dato strutturato o destrutturato che sia.

Ma non solo.
«Perché occorre essere in grado di navigare la conoscenza facendo entrare in campo anche semantica e ontologia, utili a trarre valore aziendale dal dato analizzato, mentre la correlazione statistica permette di portare all’attenzione del management nuove informazioni in ottica di una Business intelligence che non naviga più solo il dato ma i concetti».

Correlato da strumenti di data e text analytics ma anche da tutta una parte di speech analytics «che, nel caso dei contact center, per esempio, catturano la voce dei clienti al momento dell’interazione con il personale dell’azienda cogliendone le emozioni correlate», quel che le aziende navigano in “real time” accompagnati da specifici “alert concettuali” è la possibilità di interagire in modalità differente grazie alla customer analytics.

«Perché big data non significa solo lettura delle informazioni ma ripensamento delle applicazioni per trasformare i processi e per far lavorare le persone in maniera diversa».

La pensano così anche i clienti?
Un approccio che interessa realtà come UniCredit che, per la parte Business Integrated Solutions rappresentata all’incontro Emc dall’head of service line Ict infrastructure and applications, Massimo Messina, ha sottolineato la necessità di essere pronti a cogliere iniziative che portino vantaggio ai clienti.
«La nostra prima esigenza è di una Business continuity e di una ridondanza adeguata non tanto per quel che facciamo oggi ma per quello che gestiremo domani in termini di sensor e machine generated che continuano a generare nuovi dati ulteriormente potenziati da un approccio near real time che, nello scambio delle informazioni, mostra potenzialità commerciali enormi».

Il dito di Roberto Saracino, direttore funzione tecnologie dell’informazione in Postel, va invece nella piaga dell’integrazione e della disponibilità in termini di accesso al dato «che può diventare informazione, e quindi avere un valore, solo se qualcuno lo prende, lo elabora e lo associa all’interno di un contesto».
Ma se Postel è in grado di certificare l’intera catena dell’informazione «garantendo l’integrità del dato e la sua disponibilità», a mancare è il tassello riferito al contenuto. «Una falsa fattura – è la giusta considerazione – resta tale anche quanto è archiviata».
E gli strumenti di analisi del contenuto a questo servono.

Diverso ancora, infine, l’approccio di Luciano Ammenti, responsabile coordinamento servizi informatici e Ced director della Biblioteca Apostolica Vaticana, interessato ai big data solo in ottica di content conservation e di digitalizzazione di beni culturali costituiti da 80mila manoscritti di circa 500 pagine ciascuno, che non è possibile dare in consultazione.

Aggirato lo standard de facto imposto da Adobe per la conservazione di dati e immagini in formato Pdf e Tiff «che non consentono alcuni tipi di verticalizzazioni», la scelta è caduta su un progetto di conservazione dei dati progettato dalla Nasa negli anni 60 per la conservazione delle missioni lunari reso pubblico negli anni 80.

Peccato che, a oggi, sia stato digitalizzato solo il 10% dell’intero patrimonio fruibile per immagine e che, per essere conservato e reso utilizzabile, ha richiesto lo sviluppo di un software messo a punto con la collaborazione di una società di Roma e dell’Università di Bari.
Lo strumento in questione permette di individuare all’interno di una pagina di un manoscritto alcune lettere scritte in un determinato modo. «Lanciando un query all’interno di tutti i manoscritti digitalizzati, con l’ausilio di un paleografo, è possibile ottenere un match per identificare la presenza di una stessa mano arrivando, di conseguenza, a definire il copista e con esso l’arco temporale e la datazione del manoscritto altrimenti difficilmente definibili».

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome