Snowflake, l’AI Data Cloud company, annuncia in occasione della sua user conference annuale Snowflake Summit 2024, Polaris Catalog, un’implementazione di catalogo aperta e vendor-neutral per Apache Iceberg, l’open standard aperto di riferimento per l’implementazione di data lakehouse, data lake e altre architetture moderne. Polaris Catalog sarà reso disponibile nei prossimi 90 giorni per fornire alle aziende e all’intera comunità Iceberg nuovi standard di flessibilità, scelta e controllo sui propri dati, con una sicurezza di livello entreprise completa e l’interoperabilità di Apache Iceberg con Amazon Web Services (AWS), Confluent, Dremio, Google Cloud, Microsoft Azure, Salesforce e altri ancora.
“Le imprese desiderano uno storage aperto e motori di query interoperabili, senza alcun lock-in. Ora, con il supporto dei leader del settore, stiamo semplificando ulteriormente il modo in cui ogni organizzazione può accedere facilmente ai propri dati su sistemi diversi con ancora più flessibilità e controllo”, spiega Christian Kleinerman, EVP of Product di Snowflake. “Polaris Catalog rafforza il nostro impegno nei confronti di Apache Iceberg come standard aperto di riferimento e conferma l’intenzione dei leader del settore di consentire ai clienti e alla più ampia comunità Iceberg di sfruttare i propri dati attraverso un approccio aperto e neutrale, garantendo l’interoperabilità tra i vari sistemi di gestione dei dati”.
Polaris Catalog introduce nuovi livelli di interoperabilità per Apache Iceberg
Nel maggio 2020, Apache Iceberg è passato dalla fase di incubazione a un progetto di primo livello della Apache Software Foundation. Da quel momento, ha accresciuto la sua popolarità fino a diventare uno dei principali formati di tabelle dati open source. Con Polaris Catalog, gli utenti hanno ora a disposizione un ambiente unico e centralizzato in cui qualsiasi motore può trovare e accedere alle tabelle Iceberg di un’organizzazione con un’interoperabilità completa e aperta. Polaris Catalog si basa sul protocollo open source REST di Iceberg, che fornisce uno standard aperto agli utenti per accedere e recuperare i dati da qualsiasi motore che supporti le API Rest di Iceberg, tra cui Apache Flink, Apache Spark, Dremio, Python, Trino e altri.
Le aziende possono iniziare a utilizzare Polaris Catalog ospitato nell’AI Data Cloud Snowflake in pochi minuti – Snowflake-hosted, verrà rilasciato in public preview a breve – o auto-ospitarlo nella propria infrastruttura utilizzando container come Docker o Kubernetes. Poiché l’implementazione backend di Polaris Catalog sarà open source, le organizzazioni potranno cambiare liberamente l’infrastruttura di hosting eliminando ogni vendor lock-in.
Aziende leader entrano a far parte della comunità Polaris Catalog
Un elemento che rende Apache Iceberg così potente – sottolinea Snowflake – è la sua vibrante comunità di utenti, collaboratori e operatori commerciali. Per garantire che Polaris Catalog possa soddisfare le esigenze in costante evoluzione della comunità e del settore, Snowflake sta collaborando con l’ecosistema Iceberg per portare avanti il progetto.
Questo segue la recente estensione della partnership tra Snowflake e Microsoft, che crea una maggiore interoperabilità tra Snowflake e Fabric. Quest’ultima è possibile grazie all’impegno delle due aziende nel supportare i principali standard aperti del settore per i formati di archiviazione: Apache Iceberg e Apache Parquet. Ora, con Polaris Catalog, prosegue la collaborazione con la missione comune di consentire a tutti gli utenti di sfruttare i propri dati aziendali, indipendentemente da dove sono archiviati, per creare applicazioni potenziate dall’AI su scala.
“Fin dal primo giorno, la missione di Microsoft è stata consentire a tutti gli utenti del pianeta di ottenere di più, e questo inizia con una solida piattaforma dati. Attraverso il nostro sostegno e i nostri contributi agli standard per i dati aperti, tra cui Delta Parquet, Apache Iceberg e Apache XTable, perseguiamo questo obiettivo offrendo alle organizzazioni un nuovo livello di interoperabilità dei dati aperti, in modo che possano fare di più con i loro dati”, commenta Arun Ulagaratchagan, Corporate Vice President, Azure Data, Microsoft. “Snowflake continua a essere un nostro partner strategico e siamo entusiasti della sua disponibilità a lavorare con la comunità Iceberg su un catalogo aperto per offrire ai nostri clienti comuni e alla più ampia comunità open-source una maggiore flessibilità e un maggiore controllo sui loro dati aperti Iceberg”.
Con le competenze di Snowflake, che costituiscono la base dei dati che alimentano i workload cross-cloud di migliaia di clienti globali nel campo dei dati e dell’intelligenza artificiale, e con l’innovazione e le competenze open source della comunità Iceberg, in rapida crescita, si continuerà a semplificare l’interoperabilità dei dati tra i vari motori.
Snowflake rafforza l’impegno a favore dell’open source
Polaris Catalog si aggiunge a una serie di recenti iniziative di Snowflake legate all’open source, come gli investimenti in Iceberg Tables, che consentono ai clienti Snowflake di continuare a lavorare con i dati nel proprio storage nel formato Apache Iceberg, beneficiando della facilità d’uso, delle prestazioni e della governance unificata di Snowflake.
Snowflake ha anche recentemente annunciato Snowflake Arctic, che l’azienda descrive come uno dei modelli linguistici di grandi dimensioni (LLM) di livello entreprise più aperti presenti sul mercato. Nell’ambito del suo impegno verso l’open source, Snowflake non solo ha rilasciato i risultati dell’addestramento di Arctic sotto licenza Apache 2.0, ma anche dettagli approfonditi su come è stato addestrato attraverso una serie di guide.
Inoltre, Snowflake sostiene la comunità open source di Streamlit, che oggi conta oltre 275.000 sviluppatori attivi ogni mese e più di 6 milioni di visualizzazioni mensili sulle applicazioni. Da quando Snowflake ha acquisito Streamlit nel marzo 2022, la community ha continuato a prosperare, crescendo di oltre il 500% negli ultimi due anni, poiché Snowflake e Streamlit continuano a investire in innovazioni open source all’avanguardia per gli sviluppatori.
I commenti da parte degli esperti del settore
“AWS si impegna a collaborare con i partner, come Snowflake, su soluzioni open source che possono accelerare la scelta per i clienti”, commenta Chris Grusz, Managing Director, Technology Partnerships, Amazon Web Services. “Siamo lieti di lavorare con Snowflake per continuare a rendere Apache Iceberg interoperabile tra i nostri motori”.
“In Confluent abbiamo l’obiettivo di abbattere i silos di dati per aiutare le organizzazioni a potenziare le loro attività mediante analisi in tempo reale”, dichiara Shaun Clowes, Chief Product Officer di Confluent. “Con Tableflow su Confluent Cloud, le aziende saranno in grado di trasformare i flussi di dati provenienti da tutta l’azienda in tabelle Apache Iceberg con un solo clic. Insieme, Polaris Catalog di Snowflake e Tableflow consentono ai team dati di accedere facilmente a queste tabelle per lo sviluppo di applicazioni critiche e per l’analisi downstream”.
“I clienti chiedono ecosistemi aperti e dinamici e vogliono essere proprietari del loro storage, dei loro dati e metadati. Non vogliono essere bloccati”, spiega Tomer Shiran, fondatore di Dremio. “Siamo impegnati a sostenere standard aperti, come Apache Iceberg e i cataloghi aperti di Project Nessie e Polaris Catalog. Queste tecnologie forniranno l’interoperabilità dell’ecosistema e la vasta gamma di scelte che i clienti desiderano”.
“Siamo attivamente coinvolti nella comunità open source, in particolare nel settore dei dati”, aggiunge Neema Raphael, Chief Data Officer e Head of Data Engineering di Goldman Sachs. “Abbiamo reso open source la nostra piattaforma dati, Legend, che ci permette di lavorare con formati di tabelle open source come Iceberg, che forniranno una maggiore interoperabilità tra query engine come Snowflake. Il lancio di un catalogo Iceberg open source come Polaris è un passo avanti entusiasmante nell’impegno verso l’interoperabilità”.
“La notorietà di Apache Iceberg ha stabilito uno standard di storage aperto che semplifica l’accesso ai dati a copia zero per le organizzazioni in tutto il loro ecosistema”, commenta Raveendrnathan Loganathan, Executive Vice President of Software Engineering di Salesforce. “Il nostro Salesforce Data Cloud è stato costruito da zero sugli standard aperti Apache Parquet per i file e Apache Iceberg per le tabelle, favorendo le innovazioni a copia zero per liberare i dati bloccati, ricavare insight e orchestrare le azioni in tutta la piattaforma Customer 360. Siamo entusiasti di accogliere Snowflake nella nostra rete di partner per la copia zero e siamo ansiosi di vedere come questo nuovo standard di catalogo open favorirà l’accesso alla copia zero nell’impresa”.