NVIDIA ha annunciato una nuova classe di supercomputer AI large-memory: un supercomputer NVIDIA DGX alimentato da superchip NVIDIA GH200 Grace Hopper e da NVIDIA NVLink Switch System creato per consentire lo sviluppo di modelli giganteschi e di nuova generazione per applicazioni di AI generativa applicata al linguaggio, sistemi di raccomandazione e carichi di lavoro di analisi dei dati.
L’enorme spazio di memoria condivisa di NVIDIA DGX GH200 – spiega l’azienda – utilizza la tecnologia di interconnessione NVLink con NVLink Switch System per combinare 256 superchip GH200, consentendo loro di funzionare come una singola GPU. Questo offre 1 exaflop di prestazioni e 144 terabyte di memoria condivisa: quasi 500 volte più memoria rispetto alla precedente generazione NVIDIA DGX A100, introdotta nel 2020.
I superchip GH200 eliminano la necessità di una tradizionale connessione PCIe tra CPU e GPU combinando una CPU NVIDIA Grace basata su Arm con una GPU NVIDIA H100 Tensor Core nello stesso package, utilizzando le interconnessioni per chip NVIDIA NVLink-C2C. Questa soluzione, sottolinea NVIDIA, aumenta la banda passante fra GPU e CPU di 7 volte rispetto alla più recente tecnologia PCIe, riduce il consumo energetico dell’interconnessione di oltre 5 volte e fornisce un blocco di GPU con architettura Hopper da 600 GB per i supercomputer DGX GH200.
DGX GH200 è il primo supercomputer ad accoppiare i superchip Grace Hopper con il sistema di interconnessione NVIDIA NVLink, una nuova interconnessione che consente a tutte le GPU di un sistema DGX GH200 di funzionare insieme come un’unica entità. Il sistema di precedente generazione prevedeva solo la possibilità di combinare otto GPU con NVLink come una sola GPU senza compromettere le prestazioni.
L’architettura DGX GH200 offre una larghezza di banda NVLink 48 volte superiore rispetto alla generazione precedente, offrendo la potenza di un enorme supercomputer AI con la semplicità di programmazione di una singola GPU.
Google Cloud, Meta e Microsoft sono fra i primi a ottenere l’accesso a DGX GH200 per esplorarne le capacità per i carichi di lavoro di intelligenza artificiale generativa, ha dichiarato NVIDIA, che intende inoltre fornire il design di DGX GH200 come blueprint ai provider di servizi cloud e ad altri hyperscaler in modo che possano personalizzarlo ulteriormente per le loro infrastrutture.
NVIDIA stessa sta costruendo il proprio supercomputer di intelligenza artificiale basato su DGX GH200 per alimentare il lavoro dei propri ricercatori e team di sviluppo.
Denominato NVIDIA Helios, il supercomputer sarà dotato di quattro sistemi DGX GH200. Ciascuno di essi sarà interconnesso con il networking NVIDIA Quantum-2 InfiniBand per aumentare il throughput dei dati per l’addestramento di modelli AI di grandi dimensioni. Helios includerà 1.024 Superchip Grace Hopper e dovrebbe entrare in funzione entro la fine dell’anno.
I supercomputer DGX GH200 includono il software NVIDIA per fornire una soluzione chiavi in mano e full-stack per maggiori carichi di lavoro di AI e data analytics. Il software NVIDIA Base Command fornisce la gestione del workflow AI, la gestione dei cluster di livello enterprise, le librerie che accelerano l’infrastruttura di calcolo, storage e rete e il software di sistema ottimizzato per l’esecuzione dei carichi di lavoro AI.
È incluso anche NVIDIA AI Enterprise, il livello software della piattaforma NVIDIA AI. Offre oltre 100 framework, modelli preaddestrati e strumenti di sviluppo per semplificare lo sviluppo e l’implementazione dell’AI di produzione, fra cui l’AI generativa, la computer vision, l’AI vocale e altro ancora.
I supercomputer NVIDIA DGX GH200 dovrebbero essere disponibili entro la fine dell’anno, ha annunciato l’azienda.