Daas: trasformare il Web in un ambiente big data

F.L. -

21 Febbraio 2013

Il senso dell’iniziativa Leads e il ruolo dell’opensource spiegati da Tom Llewellyn di Red Hat.

In ambito big data un tema da svolgere è lo sviluppo di un’architettura flessibile ed estesa per il Data as a Service che consenta alle aziende di sfruttare tutti i dati pubblici sul web insieme a quelli conservati privatamente.

Tom Llewellyn, Business Development Manager di Red Hat Storage, ci spiega come la sua società lo sta interpretando.

Il concetto di partenza è che il data storage si è evoluto, passando da semplice routine di processi It ad una fondamentale questione di business.

In alcuni settori, osserva, come meteorologia, sismologia, distribuzione di energia e servizi finanziari, raccogliere e gestire enormi volumi di dati è ormai una caratteristica integrante del business.

Queste aziende si sono evolute verso i big data e dispongono di budget sufficientemente ampi per coprire il costo della necessaria infrastruttura It.

Ma le aziende di tutti i settori sono oggi impegnate a interagire con i propri clienti attraverso più canali: web, dispositivi mobili, social media e face-to-face.
Sono quindi alla ricerca di modi per unificare tutte queste differenti fonti di dati per analizzare il percorso del cliente e coinvolgere le persone in modo proattivo con messaggi personalizzati.

Red Hat sta supportando un’iniziativa dell’Unione europea volta a creare un’architettura flessibile ed estesa per il Data-as-a-Service (Large-scale Elastic Architecture for Data-as-a-Service, Leads) che le aziende potranno utilizzare per rintracciare ed analizzare i dati sull’intero web pubblico.

Perché Leads
L’obiettivo di Leads è di costruire un quadro di riferimento DaaS decentrato che opera su un insieme di micro-cloud elastiche.
Leads offrirà gli strumenti per raccogliere, memorizzare e interrogare i dati pubblici, così come per elaborarli in tempo reale.
Inoltre, i dati pubblici possono essere arricchiti ed integrati con dati privati, mantenuti dal cliente e l’elaborazione dei dati in tempo reale può essere resa ancor più completa con versioni storiche dei dati pubblici e di quelli privati.

I modelli cloud-based o DaaS sembrano fornire la risposta alle sfide legate ai big data. Invece di conservare i dati in-house in appositi centri dati è economicamente ed ecologicamente più intelligente archiviarli in una infrastruttura open source condivisa.

Il consorzio Leads è composto da università e centri di ricerca i cui membri si sono mostrati capaci di sottoporre nuove idee in modo rapido ed efficace alla comunità scientifica e a grandi aziende che hanno la forza e la capacità di proporre nuove tecnologie e metodi da utilizzare internamente, per i loro clienti e come nuovi standard operativi.

Chiaramente l’investimento finanziario necessario per la scansione, archiviazione ed elaborazione anche di una piccola parte di Internet è molto alto, rendendolo proibitivo per piccole e medie imprese e start-up.
Attualmente solo i più grandi player It hanno accesso all’infrastruttura per la memorizzazione di grandi quantità di dati nonché alle strutture di calcolo necessarie per elaborarli. Le piccole e medie imprese spesso non hanno altra scelta che fare affidamento su aziende di maggiori dimensioni, dotate di data center dedicati in grado di offrire le risorse necessarie per l’elaborazione dei dati.

Il costo delle infrastrutture è uno dei fattori critici che condizionano la conservazione dei big data.
Pertanto, qualsiasi nuova soluzione dovrebbe offrire prezzi competitivi se non addirittura inferiori rispetto ai tradizionali datacenter.

In uno scenario di mercati imprevedibili il data warehousing non basta più. Ora le organizzazioni elaborano grandi volumi di dati in determinati formati in modo da poter eseguire un certo tipo di analisi.

Ma ciò per Llewellyn è troppo restrittivo: chi può prevedere che tipo di analisi potrebbe essere necessaria il mese prossimo o addirittura l’anno prossimo?

L’alternativa big data
Le aziende devono poter disporre di alternative. Ed ecco dove il modello di big data entra in gioco: permette a dati non strutturati quali file di log, macchine virtuali, e-mail, audio, video e documenti di essere analizzati in modo nuovo per trarne intuizioni innovative in modo da massimizzarne il valore per il proprio business nel lungo periodo.

Utilizzare i dati in questo modo aiuta le aziende a fare previsioni e prendere decisioni in modo più consapevole.

Le aziende che sfruttano i big data sono in grado di capire il loro business a un livello più profondo. Sono inoltre capaci di rispondere più facilmente alle condizioni mutevoli, commercializzare prodotti e servizi innovativi più rapidamente e conquistare un primato sulla concorrenza.

La piattaforma Leads sarà progettata tenendo conto di privacy, sicurezza, efficienza energetica, disponibilità, scalabilità e performance.
Il progetto verrà validato su casi specifici di utilizzo, inclusi la ricerca dei dati sul Web e il loro sfruttamento in diversi ambiti applicativi.

Leads si basa sul patrimonio open source di Red Hat relativo ai Big Data. Nella scelta di partner tecnologici l’Unione europea ha volutamente evitato i provider proprietari fin dall’inizio.
La scelta tra i vari prodotti che si presume offrano una soluzione big data può rivelarsi un ostacolo difficile da superare, che può spaventare anche il responsabile It più esperto.

Meglio opensource
Tutti i principali vendor di storage proprietari dispongono di una soluzione in ambito big data, generalmente un pacchetto che comprende il proprio hardware con il software preconfigurato.
Tuttavia il software opensource offre un modo alternativo di creare una conveniente soluzione di storage.
Il software, realizzato con componenti standard basati a loro volta su protocolli standard, viene installato su hardware commodity.
Ciò delinea un percorso vendor-neutral, in cui le organizzazioni dispongono di una vasta e conveniente scelta di hardware e software open source.

L’utilizzo dell’opensource per Leads consente di evitare che il progetto sia vincolato a un fornitore di hardware particolare o agli alti costi delle licenze software associate a sistemi operativi, middleware e applicazioni proprietari.

Al tempo stesso, spiega Llewellyn, la soluzione enterprise di Red Hat mette a disposizione tutti i vantaggi di sperimentazione, sofisticazione e innovazione continue. Inoltre, la tecnologia open ource è in grado di lavorare a fianco di infrastrutture di storage esistenti.

Red Hat propone una soluzione scalabile per dati non strutturati che possono crescere a seconda delle necessità, creando un pool infinitamente grande di dati. Si tratta di una soluzione che si estende nel cloud.
I prodotti Red Hat possono ad esempio essere utilizzati sui servizi cloud pubblici di Amazon, senza alcuna necessità di avviare la riscrittura del codice.
Accedendo a risorse di storage cloud based, la capacità può essere attivata o disattivata in base alla richieste.
Ciò è utile quando le necessità dei clienti sono difficili da prevedere.

Naturalmente prevedere le necessità, soprattutto negli ultimi anni, è diventata una delle maggiori preoccupazioni.
È bene quindi non commettere errori e tenere conto che la crescita dei dati sta diventando la più grande sfida per le aziende che devono gestire la propria infrastruttura hardware di datacenter.

La recessione ha costretto molti responsabili It a posticipare l’aggiornamento di infrastrutture e tecnologie. Leads e Red Hat offrono un approccio economico per l’elaborazione di grandi quantità di dati attraverso la condivisione della raccolta, conservazione e analisi dei dati pubblici e privati.
La combinazione di dati privati con quelli liberi a disposizione del pubblico rappresenta lo step successivo più logico per i Big Data.