Cloudera sviluppa componenti di data analytics and management in ambiente Hadoop. Non si occupa delle transazioni, ma va a risolvere problemi che impattano su tutte le industries, dalla produzione ai laboratori di ricerca al mondo finanziario e attraverso tutte le funzioni.
Del resto Hadoop è una piattaforma ancora giovane, le cui ampie funzionalità non sono sempre integrate tra i prodotti delle terze parti.
“E’ questa la ragione della velocità della nostra crescita”, afferma Didier Schreiber, Marketing manager per il Sud Emea, spiegando come la società, che ha sede a Palo Alto, ma sta crescendo in modo considerevole al di fuori degli Stati Uniti, indirizzando in particolare le “Global 2000”, dunque in particolare le large enterprise e tutte le realtà che lavorano con i dati, dal mondo finanziario a quello della ricerca.
“Abbiamo circa 700 clienti con i quali manteniamo rapporti continuativi e alcuni di loro già lavorano nell’ordine dei petabyte di dati. Per altro, considerato che il nostro è un modello open source, possiamo dire che con le nostre soluzioni già raggiungiamo i 10.000 utenti”.
Opportunità in Italia
“Noi siamo la risposta a un mondo di imprese che era molto più process-centrico e ora è diventato data-centrico”, sostiene a sua volta Romain Picard, Head of Emea South.
Cloudera sta investendo nell’ecosistema, e la regione Emea è quella che lo scorso trimestre è cresciuta di più. “Abbiamo una rete di 1900 partner, divisi in tre fasce; global system integrator, boutique partner e solution partner”.
Nel primo gruppo rientrano grandi realtà, come le Deloitte, le Accenture, le Capgemini, con le quali la società lavora su progetti a lungo termine per grandi imprese.
I boutique partner sono un po’ più piccoli ma mostrano interesse e volontà di investimento in competenze e skill.
Nei solution partner Cloudera fa rientrare infine le software house innovative, in grado di sviluppare soluzioni sulle sue piattaforme.
In questo progetto di crescita non si parla dunque solo di vendite, ma anche di formazione di consulenti e data scientists. “In Italia abbiamo lavorato due anni prima di avere la prima persona veramente formata”, continua Picard; “il prossimo anno vogliamo raddoppiare tutte le nostre metriche, quindi revenue, clienti e dipendenti”.
Per quanto riguarda i dipendenti la formazione è centrale. “Lavoriamo con 35 università”, dettaglia il manager, “e in Italia abbiamo già iniziato a lavorare con Pisa e stiamo parlando con Torino, Sapienza Roma, Bocconi Milano”.
Nel settore pubblico la partenza è stata un po’ più lenta: “abbiamo un progetto di collaborazione con Sogei per creare un hub, nel quale entreranno altri partner per governare i dati pubblici in modo cross, sovvertendo la logica del silos”.
Naturalmente la forte crescita è strettamente correlata alla capacità di distribuire alla community sempre nuovi componenti e soluzioni, come i recentissimi RecordService e Kudu.
Recordservice: policy e ruoli
RecordService si occupa di enforcement delle policy unificato basato sui ruoli. Disponibile come beta pubblica, implementa un nuovo livello di sicurezza essenziale che offre dettagliati controlli centralizzati e data masking dinamico per Apache Spark, MapReduce e altre utility.
Complementare ad Apache Sentry, che fornisce una definizione unificata delle policy, RecordService è la prima soluzione a fornire una protezione completa a livello di fila e colonna e data masking dinamico, per ogni engine di accesso Hadoop. In settori regolamentati, una sicurezza avanzata è fondamentale per proteggere i dati sensibili senza limitare l’agilità analitica necessaria per conseguire un vantaggio competitivo. Diventa essenziale in mercati in cui la conformità è un elemento critico, come quello dei servizi finanziari, uno degli ambienti d’elezione di Cloudera.
Nel dettaglio, RecordService non solo applica costantemente i controlli all’accesso basati su ruoli estremamente dettagliati definiti da Sentry, ma offre anche funzioni di data masking dinamico su Hadoop. Questa funzionalità permette alle aziende di nascondere elementi di dati sensibili, proteggendoli nel momento in cui vengono consultati in real-time.
Inoltre alcuni percorsi d’accesso supportano restrizioni più granulari rispetto ad altri. Poiché l’ecosistema Hadoop si è ampliato per includere diversi engine d’accesso, come Apache Spark, Impala e Apache Solr, applicare tali policy in modo coerente senza limitare l’accesso ai dati stessi è diventato più complesso.
RecordService integra la definizione delle politiche di Sentry come nuovo livello che fornisce un unico punto di enforcement — semplificando la sicurezza con controlli unificati a livello di riga e di colonna per tutti i percorsi d’accesso, inclusi MapReduce e Spark; quest’ultimo sta ancora evolvendo e potrebbe diventare il prossimo engine di elaborazione predefinito per Hadoop.
Kudu: fast analytics
La seconda notizia riguarda la beta pubblica di Kudu, un nuovo sistema di storage in Hadoop che si posiziona tra lo storage e gli engine di elaborazione di Hadoop per abilitare le applicazioni analitiche in real-time.
Kudu è un nuovo sistema di storage basato su colonne che abilita rapide analitiche per i fast data. Progettato congiuntamente da Cloudera e Intel in anticipo rispetto al mutevole panorama hardware, Kudu è il primo engine di storage nativo Hadoop che supporta sia accesso casuale a bassa latenza sia analitiche con throughput elevato, semplificando notevolmente le architetture Hadoop per casi d’uso real-time sempre più comuni.
Fino ad oggi, gli sviluppatori erano costretti a scegliere tra analitiche rapide con Hdfs o aggiornamenti efficienti con HBase. In particolare, con l’aumento dei dati di streaming, si è verificata una crescente richiesta di combinare le due funzioni per ottenere applicazioni analitiche real-time sui dati da modificare.
Kudu è complementare alle esistenti opzioni di storage Hadoop, Hdfs e Hbase. Fornisce inserimenti e aggiornamenti rapidi e scansioni colonnari efficienti, abilitando i carichi di lavoro analitici in real-time con un singolo livello di storage ed eliminando l’esigenza di architetture complesse.