In questa intervista il CEO di DataCorem, Dave Zabrowski, ci spiega quanto sia radicalmente cambiato nel giro di pochi anni il contesto dello storage dei dati. Le enormi quantità generate dall’AI spostano il problema dalla semplice conservazione alla loro gestione attiva. E DataCore è pronta, anche grazie all’acquisizione di Wokflow Intelligence Nexus, azienda specializzata in software e servizi per la gestione dei workflow utilizzando cloud e AI.
In occasione della consueta Channel Conference, che quest’anno si è tenuta a Roma, DataCore Software ha accolto i suoi partner di canale per parlare di innovazione tecnologica, sviluppo di prodotti, opportunità di mercato. A dare il benvenuto a rivenditori e managed service provider c’era anche Dave Zabrowski, che da poco più di cinque anni è al timone della società. Il CEO ha trovato il tempo di concederci un’interessante intervista che, partendo dai rischi e dalle opportunità offerte dall’intelligenza artificiale, ha affrontato a 360 gradi il tema della strategia aziendale e delle sue soluzioni che abbracciano il software-defined block, object e container storage, raccontando come è nata, come è evoluta e cosa diventerà DataCore. La società ha tra l’altro annunciato l’acquisizione di Workflow Intelligence Nexus (WIN), un’azienda specializzata in software e servizi per la gestione dei workflow che aiutano a distribuire e automatizzare i flussi di lavoro multimediali utilizzando le più recenti soluzioni basate su cloud e intelligenza artificiale.
Perché, secondo lei, l’intelligenza artificiale è importante per il mercato dello storage? E che impatto potrebbe avere?
L’intelligenza artificiale è molto complicata, perché presenta molteplici sfaccettature. Primo, sta generando molta preoccupazione; secondo, sta creando tanta confusione; e terzo, siamo di fronte a enormi opportunità. La preoccupazione nasce da soluzioni come ChatGPT e dai film che parlano di robot capaci di prendere il controllo degli esseri umani e cose del genere. E in parte questo è vero, perché l’AI sta prendendo il sopravvento su alcuni aspetti di ciò che normalmente facciamo come esseri umani.
Le porto un esempio. Per quasi quattro mesi c’è stato un grande sciopero degli autori di Hollywood, fondamentalmente proprio a causa dell’intelligenza artificiale. La realtà, però, è che l’AI prenderà il loro posto, e il loro lavoro dovrà evolvere. Accade spesso con la tecnologia: quando ne arriva una nuova, il lavoro cambia e bisogna adattarsi, altrimenti si soccombe. È così che funziona il mondo.
Se si guarda all’intelligenza artificiale, è da più di un decennio che è presente in varie forme: prima era chiamata machine learning. Ora non usiamo più quel termine, ma proprio di questo si tratta. Adesso la chiamiamo AI. Suona meglio, ma è la stessa cosa.
Un’altra tecnologia simile che ha ormai dieci anni è la Robotic Process Automation, RPA. In passato, inviavo le note spese dei miei viaggi a una persona, tipicamente un revisore dei conti. A lui spettava il compito di controllarle, assicurandosi che avessi inviato tutte le ricevute e non avessi commesso errori. Ora tutto questo viene realizzato automaticamente con la RPA. Oggi quando si visita un sito web, spesso appare un chatbot, mentre in passato si interagiva con una persona. Diciamo che tutto questo è una forma di AI molto ben consolidata.
Il secondo aspetto riguarda la confusione che si sta generando, perché questa è una tecnologia molto complicata, che contiene più livelli. L’intelligenza artificiale generativa, come quella identificata con ChatGPT, è ciò con cui tutti possiamo relazionarci. Le faccio una domanda: lei l’ha messa alla prova?
In azienda mi hanno chiesto di creare le domande per questa intervista utilizzando l’intelligenza artificiale… ma ho preferito non farlo!
Avrebbe dovuto, perché anche il suo lavoro cambierà di conseguenza. Un altro esempio arriva dal punto di vista del marketing: noi non creiamo più nulla da zero. Quest’anno abbiamo iniziato a farci aiutare dall’intelligenza artificiale, i cui risultati vengono poi affinati dalle persone.
Purtroppo i vendor, specialmente quelli più grandi, sanno che l’intelligenza artificiale è molto importante, perché è in cima ai pensieri della gente e dei clienti. E le grandi aziende vogliono sembrare leader. Negli Stati Uniti abbiamo un fenomeno chiamato “washing”. Agli albori del cloud si parlava di “cloud washing”: si prendeva un prodotto che non era pensato per il cloud e lo si presentava come se lo fosse. Oggi questo sta accadendo di nuovo con l’intelligenza artificiale: c’è molto “AI washing”, e questo sta creando confusione.
Infine, ci sono le opportunità. Una volta che inizieremo a vedere casi d’uso che aggiungono davvero grande valore aziendale, paura e confusione diminuiranno. Ed è quello che noi di DataCore vogliamo fare: portare sul mercato soluzioni reali che risolvano problemi reali. I primi due aspetti – paura e confusione – rappresentano una sorta di problema sociale che dobbiamo semplicemente accettare e affrontare, sperando che migliori nel tempo. Il terzo è dove possiamo effettivamente fare la differenza come DataCore.
Ci fa qualche esempio di problemi reali che possono essere risolti con l’aiuto dell’intelligenza artificiale?
Il mercato Media & Entertainment (M&E) in questo momento sta cambiando radicalmente grazie all’intelligenza artificiale, quella vera. Le faccio un esempio. C’è una serie TV Apple molto popolare chiamata Ted Lasso, tra le cinque più viste degli ultimi tre anni. È uno show americano che parla di una squadra di football britannica e che vanta all’attivo tre stagioni, con episodi da un’ora. Il primo anno la quantità media di dati generati da ogni episodio equivaleva a 10 terabyte. Oggi, dopo solo 36 mesi, parliamo di un petabyte: una crescita di 100 volte in tre anni!
Una delle cose più ovvie che si possono notare come spettatore sono i sottotitoli, che all’inizio erano realizzati in due o tre lingue e che ora sono trenta: sono tutte gestite dall’intelligenza artificiale. Un altro esempio è quello del cosiddetto “ad placement”, il posizionamento dei prodotti all’interno delle riprese. Per calcolare per quanti secondi un prodotto o il logo dello sponsor compare in video nella versione finale, si utilizza l’intelligenza artificiale, che analizza il filmato fotogramma per fotogramma. In più, l’AI calcola anche tariffe diverse in base all’inquadratura: se è in primo piano vale di più.
Questo tipo di processi porta alla perdita di posti di lavoro? No, ma il lavoro sta cambiando e bisogna adattarsi. Lo stesso accade negli ospedali, dove i risultati di una risonanza magnetica alla testa vengono rapidamente confrontati con un’ampia casistica per arrivare a una prima ipotesi di diagnosi che deve poi essere confermata da un medico. Grazie all’intelligenza artificiale si risparmia molto tempo e l’efficienza aumenta.
Questi sono aspetti su cui DataCore sta concretamente lavorando con i suoi clienti. La quantità di dati generati dall’intelligenza artificiale è radicalmente diversa da qualsiasi altra cosa vista nel settore.
Ma dal punto di vista strettamente legato allo storage, quale può essere il contributo dell’AI sui dati?
Nella loro gestione. Ci sono due aspetti da tenere in considerazione. Uno è la velocità: se hai un paziente che ha un’emorragia cerebrale, è fondamentale che l’informazione arrivi al medico il più rapidamente possibile. Il tempo di elaborazione è quindi estremamente importante. L’altro aspetto è che molti di questi dati oggi vengono prodotti e gestiti in luoghi periferici, nel cosiddetto edge. Nel modello di elaborazione tradizionale bisognava prendere quei dati e portarli all’unità di elaborazione centrale nel data center. Questi enormi set di dati richiedono un sacco di tempo per farlo, e quindi li elaboriamo localmente. E poi ora si lavora molto sui metadati, che sono solo una frazione dei dati totali.
Proviamo a risolvere questi problemi localmente, invece che nel data center, dando alle applicazioni la capacità di fare le cose in modo molto rapido ed efficiente. L’approccio di DataCore all’AI è quindi quello di svolgere un lavoro di analisi dei dati e non solo di gestirne gli spostamenti o eseguirne il backup. Lo si può immaginare come un connettore che collega l’applicazione che genera i dati AI all’infrastruttura. Il nostro compito è prenderli, inserirli nell’infrastruttura, gestirli in modo estremamente efficiente e quindi reinserire i metadati in quell’applicazione.
L’intelligenza artificiale è un argomento estremamente interessante, ma la DataCore di oggi è ancora saldamente legata ai suoi prodotti di software-defined storage che coprono block, object e container storage. Parliamo di come questi stanno evolvendo…
Partiamo da DataCore SANsymphony. È in pratica un orchestratore dello storage: si trova nel mezzo di una serie di infrastrutture ed è come un vigile urbano che dirige il traffico. Fondamentalmente è un livello di virtualizzazione dello storage, ed è su questo che è stata costruita l’azienda. Essendo limitato alle applicazioni IT e alle applicazioni infrastrutturali non lo proponiamo come soluzione verticale. Ovunque siano necessarie elevata disponibilità, alta velocità e dati sicuri SANsymphony è la soluzione perfetta.
Con questo prodotto siamo entrati nelle aziende, ma da allora i dati sono cambiati radicalmente: non sono più contenuti nell’infrastruttura orizzontale. Naturalmente, questa è ancora importante, ma in realtà i dati vengono raccolti a un livello astratto più elevato, sopra l’infrastruttura. E questo è il cambiamento più importante a cui abbiamo assistito negli ultimi anni. Oggi i dati per l’80% non sono strutturati, mentre solo cinque anni fa la situazione era opposta, grazie a database, sistemi SAP e così via.
I dati vengono ora generati molto più in alto nello stack dalle applicazioni che si trovano sopra l’infrastruttura. E questa è una differenza fondamentale, perché non solo vengono generati in quantità enormi, ma anche trasmessi. Da qui l’esigenza di ripensare la vision di DataCore. Che non si estende solo ai data center, ma attraversa il cloud e l’edge, per poi tornare indietro. È questo movimento di dati che è molto importante: non solo le informazioni sono tante, ma si trovano anche in luoghi molto diversi rispetto al passato.
Ma la circolazione dei dati è davvero così importante a medio termine? Ora stiamo generando dati più all’edge che nel core o nel cloud, e il problema pare quello di spostarli. Ma magari domani la sfida sarà differente perché cambierà la velocità di connessione, e così non avremo più bisogno di un box dedicato per spostare una grande quantità di dati dal punto A al punto B. Quindi?
Ha ragione. Però nel medio termine disporremo del 5G, e con questa tecnologia i dati dovranno ancora essere elaborati localmente. Man mano che, nel giro di un decennio o due, i “tubi” diventeranno più grandi con la nascita di un 6G e oltre, l’equazione potrebbe cambiare. Ma non con il 5G, che oggi è solo nella prima fase di implementazione. Di sicuro abbiamo davanti dai 5 ai 10 anni con queste limitazioni. Una cosa che non cambierà nemmeno nei decenni a venire sono le leggi della fisica: la velocità della luce è quella. Quando si hanno applicazioni che richiedono tempi di risposta molto rapidi, la latenza è effettivamente determinata dalla velocità della luce. Anche riuscendo a implementare tutto in modo perfetto, si rimarrebbe legati a questo problema.
E poi ci sono applicazioni locali in cui non sarà comunque possibile trasferire i dati per gestirli da un’altra parte. Basti pensare alle auto a guida autonoma: se si trova improvvisamente di fronte a una sagoma deve decidere istantaneamente se si tratta di un ostacolo insignificante o di una persona. Questo tipo di elaborazione può essere eseguita esclusivamente in loco. Un altro esempio a cui mi piace pensare è la chirurgia robotica. Pensi a un’operazione di rimozione di polipi e tumori: ci saranno fotocamere ad alta definizione – 4K ora, 16K in futuro – che genereranno enormi quantità di dati facendo un rendering 3D in tempo reale. E vista la quantità di dati prodotti, non sarà possibile trasferirli al data center, al cloud o a una base 5G. Vanno elaborati proprio lì. Questa è un’applicazione edge destinata a rimanere per anni.
In futuro parte del problema potrebbe essere risolto dall’intelligenza artificiale semplicemente non registrando tutte le informazioni, ma conservando solo quelle rilevanti…
Certo, è come una meta-analisi. È proprio questo che sta facendo la nostra intelligenza artificiale. Sono l’elaborazione e l’estrazione di tali dati a essere assolutamente necessarie per prendere decisioni intelligenti. Quanto più riusciremo a farlo con uno strumento chiamato “AI plus”, tanto meglio sarà.
Passiamo a Kubernetes e ai container. OpenEBS Pro, che nasce dalla versione open-source OpenEBS, sta arrivando sul mercato. È solo un’opzione a pagamento per le aziende che desiderano supporto o c’è qualcosa di diverso nella tecnologia?
Ci sono tre cose. La prima è il supporto. Un prodotto open source ottiene supporto dalla comunità, ma non ci sono Service Level Agreement (SLA). Va bene per uno studente o per chi vuole sperimentare, ma non è un buon modello per chi ha applicazioni mission-critical in produzione. Queste hanno bisogno di assistenza 24 ore su 24, 7 giorni su 7, 365 giorni all’anno, magari con un ingegnere di terzo livello a disposizione, in pochi minuti.
La seconda è il testing. Prove più robuste, realizzate su sistemi aziendali sono fondamentali: più casi d’uso si sottopongono a test, più si riesce a ottenere un prodotto adatto a un workload aziendale. E in terzo luogo ci sono nuove funzionalità che per ora saranno presenti solo nella versione a pagamento. Forse a un certo punto finiranno per diventare patrimonio anche della comunità open source, ma almeno nel breve e medio termine faranno parte di OpenEBS Pro.
Cosa vi ha portato alla decisione di cambiare il nome Bolt in OpenEBS Pro?
Il riconoscimento del marchio OpenEBS ha subito un’accelerazione drammatica. Si è passati in brevissimo tempo da una tecnologia molto interessante a una tecnologia dominante. È di gran lunga la soluzione di storage nativo per container Kubernetes più scaricata sul mercato in questo momento. Quel marchio oggi rappresenta un enorme patrimonio, mentre un anno e mezzo fa, quando abbiamo iniziato a lavorarci, non lo era di sicuro. Non abbiamo mai veramente lanciato Bolt in produzione, è sempre stata una beta. Ora che siamo pronti con la versione di produzione completa, la chiamiamo OpenEBS Pro.
L’adozione di OpenEBS Pro da parte di Microsoft è il risultato di un accordo formale tra DataCore e Microsoft, oppure è stata una scelta autonoma di Microsoft?
Hanno valutato tutte le soluzioni disponibili, hanno scelto OpenEBS e hanno deciso di lanciare i loro Azure Container Services al KubeCon | CloudNativeCon North America 2023, in contemporanea con il lancio del nostro OpenEBS Pro. Così abbiamo lavorato con loro in modo collaborativo: Microsoft ha deciso di costruire il suo prodotto e i suoi servizi su OpenEBS e noi li abbiamo aiutati ad apportare alcune modifiche e a ottimizzare alcune funzionalità, allineandoci con loro sulla roadmap.
E poi c’è Swarm, di cui state per lanciare una specifica versione containerizzata…
Anche Swarm è nato come applicazione orizzontale, ma ha avuto successo particolarmente nel settore M&E, in quello sanitario e in ambito governativo. Una delle cose che abbiamo fatto quando lo abbiamo inserito nella famiglia DataCore è stato investire maggiormente in specifici casi d’uso. L’ultimo in ordine di tempo è l’edge, per il quale abbiamo messo a punto questa versione containerizzata di Swarm, riducendone l’ingombro e rendendolo più agile, e quindi molto più facile da eseguire in remoto. Negli uffici periferici generalmente non c’è un dipartimento IT, e a volte nemmeno una singola persona che si occupa di IT, quindi è necessaria una gestione remota. Ecco perché deve essere una soluzione meno ingombrante, più economica e in grado di operare anche con una potenza di calcolo più contenuta.
Ci si può aspettare che questa versione di Swarm prevalga in futuro contro lo Swarm tradizionale installato nel data center?
La versione per data center è molto, molto potente, soprattutto su larga scala: abbiamo distribuzioni che gestiscono 100 petabyte con Swarm. La versione containerizzata è pensata specificamente per l’impiego periferico, dove parliamo di gestire ordini di grandezza intorno ai 100 terabyte.
Finora avete spinto molto sul mercato M&E e sull’edge, creando anche la specifica business unit Perifery. Però sembra che le cose stiano cambiando e che ci siano alcuni altri mercati a cui questo tipo di tecnologia può essere applicata, come l’imaging in generale, la videosorveglianza e così via. Che cosa è cambiato rispetto a un anno e mezzo fa?
Abbiamo creato la business unit Perifery perché le enormi quantità di dati che ho citato prima sono tipicamente generate da settori verticali. L’obiettivo è quello di focalizzare l’attenzione, come organizzazione, su una soluzione verticale rispetto a una orizzontale. Perifery si concentra oggi sulle applicazioni verticali di punta. Non è che sia cambiato radicalmente qualcosa, ma siamo di fronte a un’evoluzione. La videosorveglianza, per esempio, è un’applicazione edge. A Las Vegas stiamo lavorando con un cliente che attraverso il riconoscimento facciale sta facendo l’analisi del sentiment, cercando di capire quanto siano felici le persone. In un caso del genere siamo di fronte a molti dati sensibili che vanno protetti, e tutta l’analisi del sentiment viene eseguita all’edge: tutti quei dati non verranno mai riportati in una posizione centrale.
Stiamo anche lavorando con l’American Football League (NFL): le società stanno attrezzando i loro stadi con reti 5G private dedicate, perché quando hai 100.000 fan tutti sui propri telefoni si crea un’enorme domanda di capacità di rete. L’obiettivo è migliorare radicalmente la loro esperienza. Non solo proponendo cose ovvie come ordinare una birra e un hot dog, ma seguendo i giocatori in campo, dotati di chip, attraverso droni equipaggiati con telecamere per il rendering ad alta definizione. Così si può vedere in tempo reale a quale velocità sta correndo un atleta, le probabilità che si sviluppi una certa azione e vedere quello che accade nello stadio da diverse angolazioni. E questo sta creando, ancora una volta, un’enorme quantità di dati.
Per questo la considero più un’evoluzione che un cambiamento: queste applicazioni stanno già arrivando, e anche se sono casi d’uso diversi, dal punto di vista dei dati sono molto simili. I dati vengono generati all’edge e il fattore tempo è molto importante. Se stai cercando di offrire a un fan la riproduzione di un’azione appena accaduta, hai a disposizione un secondo di tempo di elaborazione: non puoi assolutamente prendere quei dati e portarli ovunque. Devi eseguire l’elaborazione sul posto.
Per chiudere il cerchio attorno ai prodotti non rimane che lo storico SANsymphony. Quanto è difficile oggi creare o portare innovazione in questo tipo di soluzioni?
Ci sono due elementi: lo sviluppo evolutivo e quello rivoluzionario. Sul primo fronte abbiamo annunciato molti miglioramenti, sia sulla virtualizzazione con VMware sia sull’HCI in generale. E questi sono importanti per continuare a far evolvere il prodotto. Elementi come il posizionamento adattivo dei dati sono invece rivoluzionari. È una tecnologia molto interessante di cui siamo molto orgogliosi e che rimarrà unica nel settore per un lungo periodo di tempo. Nonostante SANsymphony sia un prodotto molto affermato, c’è ancora molta innovazione da fare. Lo storage a blocchi mostra una crescita dei dati del 22%, quindi c’è ancora molto margine.
Infine, mi dia una definizione per la DataCore di 20 anni fa, una definizione per la DataCore di oggi e una per quella di domani…
20 anni fa era una pura startup formata da un gruppo di ragazzi molto intelligenti, dedicati e impegnati che erano amici e che si sono appassionati alla costruzione di un’azienda attorno al miglior prodotto, ovvero SANsymphony. Quindi sono stati pionieri del software-defined storage prima ancora che fosse chiamato così. Se sposto il mio sguardo più vicino nel tempo, quando sono entrato in azienda oltre cinque anni fa, c’era una versione matura di ciò che vedevamo 20 anni prima. Guardando da fuori, in quei 15 anni non è successo nulla di drastico.
È qui che siamo diventati molto più strategici, prima grazie alla nostra visione DataCore One e ora alla visione DataCore.NEXT. Oggi crediamo di essere in una posizione migliore sia dal punto di vista aziendale, sia da quello patrimoniale. Siamo presenti in tutte le aree strategiche del settore e stiamo mettendo insieme tutti gli elementi per creare un prodotto rivoluzionario capace di superare le criticità che vediamo nell’intelligenza artificiale.
Penso che tra cinque anni l’azienda avrà un aspetto radicalmente diverso, eseguendo una strategia per la quale oggi abbiamo già in casa tutte le componenti necessarie