Delta Sharing è un nuovo progetto open source che semplifica la condivisione tra organizzazioni: si tratta di un protocollo aperto per lo scambio sicuro in tempo reale di grandi dataset, che secondo i promotori permette per la prima volta la condivisione sicura dei dati tra i prodotti.
A spiegare il contesto in cui nasce l’iniziativa è Databricks, promotore del progetto insieme a diversi dei maggiori fornitori di software e dati del mondo.
La condivisione dei dati è diventata fondamentale nell’economia moderna, poiché le imprese cercano di scambiare dati in modo sicuro con i loro clienti, fornitori e partner.
Per esempio, un rivenditore potrebbe voler pubblicare i dati di vendita ai suoi fornitori in tempo reale, o un fornitore potrebbe voler condividere l’inventario in tempo reale. Ma finora, ha sottolineato Databricks, la condivisione dei dati è stata fortemente limitata perché le soluzioni di sharing sono legate a un singolo vendor.
Questo crea attrito sia per i data provider che per i consumatori di dati, che naturalmente utilizzano piattaforme diverse.
Con Delta Sharing, gli utenti possono connettersi direttamente ai dati condivisi attraverso pandas, Tableau, o decine di altri sistemi che implementano il protocollo aperto, senza dover prima implementare una piattaforma specifica.
Questo riduce il tempo di accesso da mesi a minuti, oltre a ridurre notevolmente il lavoro per i data provider che vogliono raggiungere quanti più utenti possibile.
Delta Sharing è progettato per essere facile da usare sia per i data provider che per i consumer, con i loro dati e flussi di lavoro esistenti. Le organizzazioni promotrici del progetto open source lo hanno progettato con quattro obiettivi in mente, ha illustrato Databricks.
Innanzitutto, condividere i dati dal vivo direttamente, senza copiarli. L’intenzione è di rendere facile la condivisione dei dati esistenti in tempo reale. Oggi, la maggior parte dei dati aziendali è memorizzata in sistemi cloud data lake e lakehouse. Delta Sharing funziona su questi: in particolare, consente di condividere in modo sicuro qualsiasi set di dati esistente nei formati Delta Lake o Apache Parquet.
Poi, l’obiettivo è il supporto di una vasta gamma di client. I destinatari dovrebbero essere in grado di consumare direttamente i dati dai loro strumenti di scelta senza installare una nuova piattaforma.
Il protocollo Delta Sharing è progettato per essere facile da supportare direttamente dagli strumenti. È basato su Parquet, che la maggior parte degli strumenti già supporta, quindi implementare un connettore per esso è facile.
Il terzo punto chiave è una forte sicurezza, auditing e governance. Il protocollo è progettato per aiutare le organizzazioni a soddisfare i requisiti di privacy e conformità. Delta Sharing permette di concedere, tracciare e controllare l’accesso ai dati condivisi da un unico punto di applicazione.
Infine, la scalabilità per enormi serie di dati. La condivisione dei dati ha sempre più bisogno di supportare dataset su scala di terabyte, come i dati industriali o finanziari a grana fine, e ciò rappresenta una sfida per le soluzioni legacy.
Delta Sharing sfrutta il costo e l’elasticità dei sistemi di cloud storage per condividere set di dati massicci in modo economico e affidabile.