Tutte le software house impegnate nel campo dei Big Data e degli analytics sono concordi nell’affermare che sempre più figure aziendali hanno bisogno di estrarre significato dai dati raccolti dalle imprese.
Il problema è che i tool professionali disponibili sono perlopiù indirizzati a utenti specializzati, come ad esempio i data analyst, e hanno un costo mediamente elevato.
Ci sono però necessità di livello più basso che non sono in linea con i prodotti professionali veri e propri, specie se quello che serve è semplicemente “spiegare” una base dati visualizzandola in un grafico.
Con un po’ di capacità tecniche e di pazienza si può sfruttare l’abbondanza di prodotti open source e gratuiti, alla ricerca di qualcosa che faccia al caso nostro lungo tutto il ciclo di vita dell’analisi dei dati.
La pulizia dei dati
Chi parte da una generica base dati deve “pulirla”, ossia correggere gli errori più evidenti nei dati immessi, standardizzare quelli dello stesso tipo (ad esempio gli indirizzi) e in generale assicurare che si parta da un database affidabile. DataWrangler è (stato) un progetto di analytics portato avanti dalla università di Stanford ed è un tool online che prende in ingresso una base dati, anche semplicemente un foglio Excel, e suggerisce dove intervenire per migliorarla.
Il progetto in sé è concluso ma il tool è ancora disponibile via web. Dal progetto è nata una offerta commerciale con il brand Trifacta, che comprende anche un prodotto gratuito per uso personale.
La pulizia e la trasformazione dei dati sono anche le funzioni chiave di OpenRefine, un prodotto open source che deriva da un precedente progetto di Google. In questo caso le funzioni di analisi della base dati sono più ricche: il software sa evidenziare i campi che si assomigliano, come anche quelli i cui valori sembrano anomali. Suggerisce di conseguenza varie azioni di modifica e correlazione delle informazioni, che l’utente può o meno accettare.
L’analisi statistica
Pulita la base dati, la si può usare per azioni di analisi statistica. In questo campo la tecnologia “trendy” è quella del linguaggio R. Lo si può considerare come una specie di Python per statistici, nel senso che da una piattaforma base siamo passati a un vero e proprio mondo di applicazioni, tool e librerie di analytics che permettono di fare qualsiasi cosa. Il cuore però è ancora quello del motore di analisi statistica, da eseguire via linea di comando e quindi magari non proprio per tutti. Ma vale la pena almeno provare.
All’altro capo di R ci sono i prodotti commerciali che fanno da vere e proprie piattaforme di business intelligence. Essendo prodotti commerciali sono ovviamente ricchi di funzioni e articolati, però di alcuni esistono anche versioni gratuite che possono rappresentare un primo passo nel loro mondo. Ogni prodotto ha la sua specificità, vale la pena citare Microsoft Power BI e Qlik Sense Desktop.
Grafici su misura
La nostra esigenza in campo analytics è davvero solo creare una visualizzazione grafica esplicativa e accattivante? Allora ci sono vari servizi online che possono aiutarci. Sono servizi auto-contenuti che prendono in ingresso tabelle di dati, in vari formati, e generano in uscita grafici secondo le nostre necessità. In casa Google ce ne sono diversi tra cui Fusion Tables, Chart Tools o Data Studio. E anche in questo campo ci sono le versioni “light” di prodotti commerciali, come Tableau Public, o servizi specifici come Vidi.
Una citazione speciale la meritano i servizi e le applicazioni che gestiscono la visualizzazione di dati davvero specifici. Tanto per fare qualche esempio, QGIS per la visualizzazione di dati legati alla geolocalizzazione, TimeFlow per tutti i dati in qualche modo collegati a sequenza temporali, Wordie per semplici “tag cloud” e Gephi per i grafi.