Home Aziende Google Google Cloud: le novità dell'architettura AI Hypercomputer

Google Cloud: le novità dell’architettura AI Hypercomputer

I progressi dell’AI stanno sbloccando casi d’uso precedentemente ritenuti impossibili, sottolinea Google Cloud. Modelli d’intelligenza artificiale più grandi e più complessi consentono di ottenere potenti capacità in un’ampia gamma di applicazioni che coinvolgono testo, codice, immagini, video, voce, musica e altro ancora. Di conseguenza, lo sfruttamento dell’AI è diventato un imperativo dell’innovazione per le aziende e le organizzazioni di tutto il mondo, per aumentare il potenziale umano e la produttività.

Tuttavia, i carichi di lavoro AI che alimentano questi sorprendenti casi d’uso impongono requisiti importanti all’infrastruttura di calcolo, rete e storage sottostante.  E questo è solo un aspetto dell’architettura: i clienti devono anche affrontare la sfida di integrare software, framework e piattaforme di dati open-source, ottimizzando al contempo il consumo di risorse per sfruttare la potenza dell’AI in modo conveniente. Storicamente, mette in evidenza Google, ciò ha richiesto la combinazione manuale di miglioramenti a livello di componenti, che può portare a inefficienze e colli di bottiglia.

Ecco perché Google Cloud ha ora annunciato quelli che l’azienda definisce miglioramenti significativi a ogni livello della sua architettura AI Hypercomputer per aiutare i clienti ad affrontare queste sfide.  Questo approccio a livello di sistema combina hardware ottimizzato per le prestazioni, software e framework aperti e modelli di consumo flessibili per consentire agli sviluppatori e alle aziende di essere più produttivi, perché il sistema complessivo funziona con prestazioni ed efficacia superiori e i modelli generati vengono serviti in modo più efficiente.

Gli annunci fatti da Google Cloud in occasione di Next ’24 riguardano tutti i livelli dell’architettura AI Hypercomputer:

  • Miglioramenti hardware ottimizzati per le prestazioni, fra cui la disponibilità generale di Cloud TPU v5p e di A3 Mega VM alimentate da GPU NVIDIA H100 Tensor Core con prestazioni più elevate per il training su larga scala e capacità di rete migliorate.
  • Ottimizzazioni del portafoglio di storage per i carichi di lavoro AI, tra cui Hyperdisk ML, un nuovo servizio di storage a blocchi ottimizzato per i workload di inferenza/servizio AI, e nuove capacità di caching in Cloud Storage FUSE e Parallelstore, che migliorano il throughput e la latenza del training e dell’inferenza.
  • Progressi nel software open, tra cui l’introduzione di JetStream, un motore di inferenza ottimizzato per il throughput e la memoria per modelli linguistici di grandi dimensioni, che offre prestazioni più elevate per dollaro su modelli aperti come Gemma 7B, e le release di JAX e PyTorch/XLA che migliorano le prestazioni sia su Cloud TPU che su GPU NVIDIA.
  • Nuove opzioni di consumo flessibile con Dynamic Workload Scheduler, tra cui la modalità calendario per garantire l’orario di avvio e la modalità di avvio flessibile per ottimizzare i costi.

Innanzitutto, Google Cloud ha annunciato la disponibilità generale di Cloud TPU v5p, la TPU più potente e scalabile dell’azienda. TPU v5p è un acceleratore di nuova generazione costruito appositamente per addestrare alcuni dei modelli di intelligenza artificiale generativa più grandi e impegnativi. Un singolo pod TPU v5p contiene 8.960 chip che funzionano all’unisono, oltre il doppio dei chip di un pod TPU v4. Oltre alla scala più ampia, TPU v5p offre anche un numero di FLOPS due volte superiore e una memoria ad alta larghezza di banda tre volte superiore per chip. Offre inoltre un miglioramento quasi lineare del throughput man mano che i clienti utilizzano slice più grandi, raggiungendo un throughput di 11,97 volte per un aumento di 12 volte delle dimensioni dello slice (da 512 a 6144 chip).

Per consentire l’addestramento e il servizio dei modelli AI più grandi su GKE attraverso cluster TPU su larga scala, Google Cloud ha inoltre annunciato anche la disponibilità generale del supporto di Google Kubernetes Engine (GKE) per Cloud TPU v5p e del servizio multi-host TPU su GKE. TPU multi-host serving su GKE permette ai clienti di gestire un gruppo di server di modelli distribuiti su più host come una singola unità logica, consentendo agli utenti di gestirli e monitorarli a livello centrale.

Google Cloud sta anche espandendo le capacità di GPU NVIDIA con aggiunte alla famiglia A3 VM, che ora include A3 Mega. A3 Mega, alimentato da GPU NVIDIA H100, sarà generalmente disponibile il mese prossimo e offre una larghezza di banda di rete GPU-GPU doppia rispetto ad A3. Anche Confidential Compute sarà disponibile per la famiglia A3 VM, in anteprima nel corso dell’anno. L’abilitazione di macchine virtuali riservate sulla serie A3 protegge la riservatezza e l’integrità dei dati sensibili e dei carichi di lavoro AI e attenua le minacce di accesso non autorizzato. L’abilitazione dell’elaborazione riservata sulla famiglia A3 VM cripta i trasferimenti di dati tra la CPU Intel TDX e la GPU NVIDIA H100 tramite PCIe protetto e non richiede alcuna modifica del codice.

Recentemente Google Cloud ha anche annunciato che porterà la nuova piattaforma Blackwell di NVIDIA nella sua architettura AI Hypercomputer in due configurazioni. I clienti di Google Cloud avranno accesso a macchine virtuali alimentate da GPU NVIDIA HGX B200 e GB200 NVL72. Le nuove macchine virtuali con GPU HGX B200 sono progettate per i carichi di lavoro AI, data analytics e HPC più impegnativi, mentre le nuove macchine virtuali raffreddate a liquido con GPU GB200 NVL72 daranno vita a una nuova era del computing con inferenza LLM in tempo reale e prestazioni di addestramento su scala massiva per modelli di trilioni di parametri.

Google CloudPer migliorare le prestazioni del training, del fine-tuning e dell’inferenza dell’intelligenza artificiale, Google Cloud ha poi aggiunto una serie di miglioramenti ai prodotti di storage, tra cui il caching, che consente di mantenere i dati più vicini alle istanze di calcolo, in modo che l’addestramento sia molto più rapido. Ognuno di questi miglioramenti massimizza anche l’utilizzo di GPU e TPU, portando a una maggiore efficienza energetica e all’ottimizzazione dei costi.

Cloud Storage FUSE (generalmente disponibile) è un’interfaccia file-based per Google Cloud Storage (GCS) che sfrutta le capacità di GCS per le applicazioni AI/ML più complesse fornendo accesso ai file alle soluzioni di cloud storage ad alte prestazioni e a basso costo di Google Cloud. L’azienda ha annunciato la disponibilità generale di nuove funzionalità di caching. Il caching di GCS FUSE migliora il throughput dell’addestramento di 2,9 volte e le prestazioni di servizio di uno dei modelli di base di 2,2 volte, afferma Google.

Anche Parallelstore ora include il caching (in preview).  Parallelstore è un filesystem parallelo ad alte prestazioni ottimizzato per i carichi di lavoro AI/ML e HPC.  Le nuove funzionalità di caching consentono tempi di addestramento fino a 3,9 volte più rapidi e un throughput di addestramento fino a 3,7 volte superiore, rispetto ai caricatori di dati nativi del framework ML, afferma l’azienda.

Filestore (generalmente disponibile) è ottimizzato per i modelli AI/ML che richiedono un accesso ai dati basato su file a bassa latenza. L’approccio basato sul file system di rete consente a tutte le GPU e TPU di un cluster di accedere simultaneamente agli stessi dati, migliorando i tempi di addestramento fino al 56%, per ottimizzare le prestazioni dei carichi di lavoro AI e accelerare i progetti AI più impegnativi.

Google Cloud ha inoltre presentato Hyperdisk ML (in preview), il servizio di storage a blocchi di nuova generazione ottimizzato per i carichi di lavoro di inferenza/servizio AI. Accelera i tempi di caricamento dei modelli fino a 12 volte rispetto alle alternative comuni e offre un’efficienza economica grazie alla sola lettura, al multi-attach e al thin provisioning. Consente a un massimo di 2.500 istanze di accedere allo stesso volume e offre fino a 1,2 TiB/s di throughput aggregato per volume.

Dal punto di vista del software, partendo dai framework e coprendo l’intero stack software, Google Cloud sta introducendo miglioramenti open-source che consentono ai clienti di migliorare il time-to-value dei carichi di lavoro AI semplificando l’esperienza degli sviluppatori e migliorando al contempo le prestazioni e l’efficienza dei costi.

L’azienda ha presentato MaxDiffusion, una nuova implementazione di riferimento ad alte prestazioni e scalabile per i modelli diffusion. Google Cloud sta anche introducendo nuovi modelli LLM in MaxText, tra cui Gemma, GPT3, LLAMA2 e Mistral, sia su Cloud TPU che su GPU NVIDIA. I clienti possono iniziare lo sviluppo di modelli di intelligenza artificiale con queste implementazioni open source e personalizzarle ulteriormente in base alle proprie esigenze.

I modelli MaxText e MaxDiffusion sono costruiti su JAX, un framework all’avanguardia per il calcolo numerico ad alte prestazioni e l’apprendimento automatico su larga scala. JAX è a sua volta integrato con il compilatore OpenXLA, che ottimizza le funzioni numeriche e offre prestazioni eccellenti su scala, consentendo ai costruttori di modelli di concentrarsi sulla matematica e lasciare che sia il software a guidare l’implementazione più efficace. L’azienda ha ottimizzato pesantemente le prestazioni di JAX e OpenXLA su Cloud TPU e ha portato avanti una stretta collaborazione con NVIDIA per ottimizzare le prestazioni di OpenXLA su grandi cluster di Cloud GPU.

Come parte del suo impegno verso PyTorch, sottolinea poi Google Cloud, il supporto per PyTorch/XLA 2.3 seguirà il rilascio upstream alla fine di questo mese. PyTorch/XLA consente a decine di migliaia di sviluppatori PyTorch di ottenere le migliori prestazioni dai dispositivi XLA come TPU e GPU senza dover imparare un nuovo framework. La nuova release offre funzionalità come l’auto-sharding single program, multiple data (SPMD) e il checkpointing distribuito asincrono, rendendo l’esecuzione di un lavoro di training distribuito molto più semplice e scalabile.

Per gli utenti di PyTorch della community Hugging Face, Google Cloud ha collaborato con Hugging Face per lanciare Optimum TPU, un package ottimizzato per le prestazioni che aiuta gli sviluppatori a addestrare e servire facilmente i modelli di Hugging Face sulle TPU.

Infine, Google Cloud sta introducendo Jetstream, un motore di inferenza LLM open-source, ottimizzato per il throughput e la memoria, per dispositivi XLA, a partire dalle TPU, che offre prestazioni fino a tre volte superiori per dollaro su Gemma 7B e altri modelli aperti, afferma l’azienda. Man mano che i clienti portano in produzione i loro carichi di lavoro di intelligenza artificiale, cresce la richiesta di uno stack di inferenza efficiente dal punto di vista dei costi e in grado di fornire prestazioni elevate. JetStream risponde a questa esigenza e offre il supporto per modelli addestrati sia con JAX che con PyTorch/XLA e include ottimizzazioni per i modelli aperti più diffusi, come Llama 2 e Gemma.

Inoltre, come parte della collaborazione tra NVIDIA e Google con i modelli della community open, i modelli di Google saranno disponibili come microservizi di inferenza NVIDIA NIM per offrire agli sviluppatori una piattaforma aperta e flessibile per l’addestramento e la distribuzione utilizzando i loro strumenti e i framework preferiti.

Dynamic Workload Scheduler è un servizio di resource management e job scheduling progettato per i carichi di lavoro AI. Dynamic Workload Scheduler migliora l’accesso alla capacità di calcolo dell’AI e aiuta a ottimizzare la spesa per i carichi di lavoro AI, programmando tutti gli acceleratori necessari contemporaneamente e per una durata garantita. Dynamic Workload Scheduler offre due modalità: la modalità flex start (in preview) per una maggiore accessibilità e un’economia ottimizzata, e la modalità calendario (in preview) per orari e durate prevedibili dei job.

I job in modalità flex start vengono avviati il prima possibile, in base alla disponibilità delle risorse, facilitando l’ottenimento di risorse TPU e GPU per i job con un orario di inizio flessibile. La modalità di avvio flessibile è ora integrata in Compute Engine Managed Instance Groups, Batch e Vertex AI Custom Training, oltre che in Google Kubernetes Engine (GKE). Con flex start, è ora possibile eseguire migliaia di lavori AI/ML con una maggiore disponibilità di risorse tra i vari tipi di TPU e GPU offerti da Google Cloud.

La calendar mode offre un accesso riservato a breve termine alla capacità di calcolo ottimizzata per l’intelligenza artificiale. È possibile prenotare GPU collocate, fino a 14 giorni, che possono essere acquistate fino a 8 settimane in anticipo. Questa nuova modalità estende le capacità di prenotazione future di Compute Engine. Le prenotazioni vengono confermate, in base alla disponibilità, e la capacità viene consegnata al progetto alla data di inizio richiesta. È quindi possibile creare semplicemente delle macchine virtuali che puntano al blocco di capacità per l’intera durata della prenotazione.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php