In occasione di BUILD 2024, la conferenza annuale dedicata agli sviluppatori, Snowflake ha presentato diverse innovazioni volte ad accelerare il percorso delle aziende verso l’adozione di un’AI semplice, efficiente e affidabile che valorizzi i dati aziendali. Grazie alle recenti novità di Snowflake, gli sviluppatori possono creare facilmente app conversazionali per dati strutturati e non strutturati, eseguire efficientemente l’inferenza di grandi modelli linguistici (LLM) in batch per pipeline di elaborazione del linguaggio naturale (NLP) e addestrare modelli personalizzati utilizzando container supportati da GPU. Tutto questo
mantenendo la governance, il controllo sugli accessi, l’osservabilità e le misure di sicurezza integrate (guardrails), per garantire affidabilità e sicurezza dell’intelligenza artificiale.
“Le aziende non possono permettersi il rischio di allucinazioni prodotte dall’AI. Oggi, necessitano di un’intelligenza artificiale accurata e affidabile per poter prendere decisioni efficaci. Per raggiungere questo obiettivo è fondamentale avere accesso a dati di alta qualità provenienti da diverse fonti al fine di addestrare adeguatamente i propri modelli AI”, dichiara Baris Gultekin, Head of AI di Snowflake. “Le novità introdotte in Snowflake Cortex AI e Snowflake ML consentono di accelerare il percorso verso la realizzazione di un’AI affidabile con i dati aziendali, che permetta di sviluppare chatbot in modo più rapido, ottimizzare i costi e le prestazioni dei progetti di AI e velocizzare lo sviluppo di modelli ML”.
Snowflake consente alle aziende di realizzare applicazioni conversazionali di qualità elevata, in modo più rapido.
Migliaia di aziende utilizzano Cortex AI per scalare e mettere in produzione le loro applicazioni basate su AI senza soluzione di continuità, con un’adozione che, solo negli ultimi sei mesi, è più che raddoppiata. Le recenti innovazioni di Snowflake semplificano la creazione di app AI affidabili, grazie a fonti di dati diversificate, un’orchestrazione semplificata, valutazione e monitoraggio integrati, il tutto all’interno di Snowflake Cortex AI, il servizio di AI completamente gestito da Snowflake che offre una suite di funzionalità di intelligenza artificiale generativa. I progressi compiuti da Snowflake nello sviluppo di app di conversazione end-to-end consentono ai clienti di:
- Generare risposte più coinvolgenti grazie al supporto multimodale: le organizzazioni possono arricchire le proprie conversational app con input multimodali come immagini, a cui presto si aggiungeranno anche audio e altre tipologie di dati, sfruttando LLM multimodali come i modelli Llama 3.2 di Meta tramite il nuovo Cortex COMPLETE Multimodal Input Support (disponibile a breve in private preview).
- Ottenere risposte più esaustive con i nuovi Knowledge Base Connector: gli utenti possono integrare rapidamente le proprie “knowledge base” interne utilizzando connettori gestiti come il nuovo Snowflake Connector for SharePoint (ora in public preview), in modo da poter attingere a file e documenti di Microsoft 365 SharePoint, incorporandoli automaticamente senza la necessità di una pre-elaborazione manuale. Snowflake sta anche aiutando le aziende ad avviare chat con dati non strutturati di terze parti – tra cui articoli giornalistici, ricerche, riviste scientifiche, libri di testo e altro ancora – utilizzando le nuove Cortex Knowledge Extensions su Snowflake Marketplace (ora in private preview). Si tratta della prima e unica integrazione di dati di terze parti per l’AI generativa che tutela la proprietà intellettuale degli editori attraverso l’isolamento e la chiara attribuzione delle fonti. Inoltre, crea un canale diretto di monetizzazione per i content provider.
- Aumentare la disponibilità dei dati con le funzioni di pre-elaborazione dei documenti: analisti e data engineer possono ora pre-processare facilmente i dati utilizzando semplici funzioni SQL per preparare PDF e altri documenti per l’intelligenza artificiale, grazie alle nuove funzioni PARSE_DOCUMENT (ora disponibile in public preview) per estrarre il testo dei documenti tenendo in considerazione il loro layout (ad esempio la presenza di tabelle) e SPLIT_TEXT_RECURSIVE_CHARACTER (ora in private preview) per le funzioni di suddivisione del testo in Cortex Search (ora in GA).
- Semplificare integrazione e orchestrazione, riducendo il lavoro manuale: per agevolare la risposta alle domande basate sui dati aziendali, gli sviluppatori possono utilizzare API Cortex Chat (presto in public preview) per semplificare l’integrazione tra il front-end dell’app e Snowflake. API Cortex Chat combina dati strutturati e non strutturati in una singola chiamata REST API, consentendo agli sviluppatori di creare rapidamente applicazioni RAG (Retrieval-Augmented Generation) e agenti conversazionali analitici con minor sforzo.
- Incrementare l’affidabilità delle app e ottimizzare i processi di conformità con valutazione e monitoraggio integrati: gli utenti possono ora valutare e monitorare le loro app di AI generativa utilizzando oltre 20 metriche di rilevanza, aderenza ai fatti, cliché e latenza, sia durante lo sviluppo che in produzione, grazie all’AI Observability for LLM Apps (ora in private preview), che integra la tecnologia TruEra (acquisita da Snowflake nel maggio 2024).
- Abilitare un’analisi self-service più accurata (Self-Service Analytics): per aiutare le aziende a ricavare facilmente informazioni precise dai loro dati strutturati, Snowflake ha annunciato diversi miglioramenti a Cortex Analyst (in public preview), tra cui un’analisi dei dati semplificata con join avanzati (ora in public preview), una maggiore facilità d’uso grazie a conversazioni multi-turno (ora in public preview) e un recupero più dinamico delle informazioni con l’integrazione di Cortex Search (ora in public preview).
Snowflake consente agli utenti di eseguire inferenze LLM in batch a costi contenuti per l’elaborazione del linguaggio naturale
L’inferenza batch permette di elaborare simultaneamente enormi quantità di dati con gli LLM, a differenza dell’approccio “uno a uno” adottato dalla maggior parte delle conversational app. Di conseguenza, le pipeline NLP per i dati batch offrono un approccio strutturato per l’elaborazione e l’analisi di diversi tipi di dati in linguaggio naturale, inclusi testo, voce e altro. Per supportare le aziende in entrambi gli scenari, Snowflake sta introducendo opzioni di personalizzazione aggiuntive per l’elaborazione di testi in batch di grandi dimensioni, consentendo ai team dati di creare pipeline NLP ad alta velocità su larga scala, ottimizzando costi e prestazioni.
Snowflake sta potenziando Cortex AI con una più vasta gamma di LLM pre-addestrati, integrando dimensioni del modello, lunghezze dalla context window e lingue supportate, per offrire alle organizzazioni maggiore scelta e flessibilità nella selezione dell’LLM da utilizzare, massimizzando al contempo le prestazioni e riducendo i costi. Questo include l’integrazione del modello di embedding multilingue di Voyage, dei modelli multimodali 3.1 e 3.2 di Llama e di quelli con context window di grandi dimensioni come Jamba (per l’inferenza serverless). Per aiutare le organizzazioni a selezionare l’LLM più adatto al loro caso d’uso specifico, Snowflake introduce Cortex Playground (ora in public preview), un’interfaccia di chat integrata progettata per generare e confrontare le risposte di diversi LLM che permette di individuare facilmente il modello ottimale per le loro esigenze.
Quando si utilizza un LLM per molteplici task su larga scala, la coerenza degli output diventa ancora più cruciale per interpretare efficacemente i risultati. A tal fine, Snowflake presenta il nuovo Cortex Serverless Fine-Tuning (in general availability a breve), che consente agli sviluppatori di effettuare il fine-tuning di modelli con dati proprietari per generare risultati più accurati. Per le aziende che necessitano di processare lavori di inferenza di grandi dimensioni con un throughput garantito, sarà presto disponibile (in public preview) il nuovo Provisioned Throughput.
I clienti possono ora accelerare l’implementazione del Machine Learning grazie a notebook potenziati da GPU e al monitoraggio ottimizzato
Disporre di un accesso semplificato a risorse di calcolo scalabili e accelerate influisce notevolmente sulla rapidità con cui i team possono iterare e distribuire i modelli, specialmente quando si lavora con grandi set di dati o si utilizzano framework avanzati di deep learning. Per supportare questi flussi di lavoro ad alta intensità di calcolo e accelerare lo sviluppo dei modelli, Snowflake ML supporta ora Container Runtime (in public preview su AWS e presto anche su Microsoft Azure) che consente di eseguire in modo efficiente il training distribuito di modelli di Machine Learning grazie all’utilizzo di diverse GPU. Container Runtime è un ambiente completamente gestito e preconfigurato, accessibile tramite Snowflake Notebooks (ora in GA) con accesso all’elaborazione distribuita su CPU e GPU. I team di sviluppo ML possono ora sviluppare potenti modelli ML su larga scala, utilizzando qualsiasi framework Python o modello linguistico di loro scelta sulla base dei loro dati presenti in Snowflake.
“In qualità di organizzazione che mette in contatto oltre 700.000 professionisti del settore sanitario con ospedali in tutti gli Stati Uniti, ci affidiamo all’apprendimento automatico per potenziare la nostra capacità di assegnare agli operatori sanitari incarichi temporanei e permanenti. L’utilizzo delle GPU di Snowflake Notebooks su Container Runtime si è dimostrato la soluzione più economica per le nostre esigenze di machine learning, permettendoci di collocare il personale in tempi più rapidi e con tassi di successo più elevati”, commenta Andrew Christensen, Data Scientist di CHG Healthcare. “Apprezziamo la possibilità di sfruttare l’elaborazione in parallelo di Snowflake con qualsiasi libreria open source in Snowflake ML, garantendo flessibilità e maggiore efficienza nei nostri flussi di lavoro”.
Le aziende necessitano spesso anche di GPU di calcolo per l’inferenza. Per questo motivo, Snowflake offre ai clienti il nuovo Model Serving in Containers (ora in public preview su AWS), che consente di distribuire in produzione modelli addestrati sia internamente che esternamente, compresi LLM open source e modelli di embedding, dal registro dei modelli a Snowpark Container Services (ora disponibile su AWS e Microsoft Azure), utilizzando CPU o GPU distribuite, senza necessità di complesse ottimizzazioni delle risorse.
Inoltre, gli utenti possono rilevare rapidamente il deterioramento del modello in produzione grazie al monitoraggio integrato con la nuova Observability for ML Models (ora in public preview), che integra la tecnologia di TruEra per monitorare le prestazioni e altre metriche di qualsiasi modello che esegue l’inferenza in Snowflake. A sua volta, la nuova Model Explainability di Snowflake (ora in public preview) consente di calcolare facilmente i valori di Shapley – un approccio ampiamente utilizzato che aiuta a spiegare come ogni caratteristica influisca sull’output complessivo del modello – per i modelli registrati nel Model Registry. Inoltre, possono comprendere esattamente come un modello giunge alle proprie conclusioni e individuare i suoi punti deboli quando notano un comportamento controintuitivo in produzione.
“Siamo una delle più grandi aziende di life science a livello globale ed è fondamentale che i nostri sistemi di intelligenza artificiale forniscano costantemente informazioni accurate e attendibili. Questo è esattamente ciò che Snowflake Cortex Analyst ci permette di fare”, spiega Mukesh Dubey, Product Management and Architecture Lead di Bayer. “Cortex Analyst fornisce risposte di alta qualità alle query formulate con un linguaggio naturale su dati strutturati, che il nostro team può ora utilizzare in modo operativamente sostenibile. L’aspetto più entusiasmante è che siamo solo all’inizio, e non vediamo l’ora di sbloccare ancora più valore con Snowflake Cortex AI mentre acceleriamo l’adozione dell’AI in tutta la nostra azienda”.