DeepSeek-R1 è ora disponibile come microservizio Nvidia Nim

31 Gennaio 2025

Per aiutare gli sviluppatori a sperimentare in modo sicuro le sue capacità e a creare i propri agenti specializzati, NVIDIA ha reso disponibile in preview il modello DeepSeek-R1 da 671 miliardi di parametri come microservizio NVIDIA NIM su build.nvidia.com.

Il microservizio NIM DeepSeek-R1 – afferma l’azienda – può fornire fino a 3.872 token al secondo su un singolo sistema NVIDIA HGX H200.

Gli sviluppatori possono testare e sperimentare con la application programming interface (API), che dovrebbe essere disponibile a breve come microservizio NIM scaricabile, parte della piattaforma software NVIDIA AI Enterprise.

Il microservizio NIM DeepSeek-R1 semplifica le implementazioni grazie al supporto delle API standard del settore. Le aziende possono massimizzare la sicurezza e la privacy dei dati eseguendo il microservizio NIM sulla loro infrastruttura di elaborazione accelerata preferita.

Utilizzando NVIDIA AI Foundry con il software NVIDIA NeMo, le aziende potranno anche creare microservizi NIM DeepSeek-R1 personalizzati per agenti AI specializzati.

DeepSeek-R1 – sottolinea NVIDIA – è un modello mixture-of-experts (MoE) di grandi dimensioni. Incorpora ben 671 miliardi di parametri – 10 volte di più di molti altri LLM open-source popolari – e supporta un contesto di input di 128.000 token. Il modello utilizza anche un numero estremamente elevato di esperti per livello. Ogni livello di R1 ha 256 esperti, con ogni token indirizzato a otto esperti separati in parallelo per la valutazione.

Per fornire risposte in tempo reale, a R1 sono necessarie molte GPU con elevate prestazioni di calcolo, collegate a comunicazioni ad alta larghezza di banda e bassa latenza per instradare i token richiesti a tutti gli esperti per l’inferenza. In combinazione con le ottimizzazioni software disponibili nel microservizio NVIDIA NIM, un singolo server con otto GPU H200 collegate tramite NVLink e NVLink Switch può eseguire l’intero modello DeepSeek-R1 da 671 miliardi di parametri a una velocità massima di 3.872 token al secondo, afferma NVIDIA. Questo throughput è reso possibile dall’uso del motore FP8 Transformer Engine dell’architettura NVIDIA Hopper a ogni livello – e dai 900 GB/s di banda NVLink per la comunicazione con gli esperti MoE.

Ottenere ogni operazione in virgola mobile al secondo (FLOPS) di prestazioni da una GPU è fondamentale per l’inferenza in tempo reale, mette ancora in evidenza l’azienda, secondo cui l’architettura NVIDIA Blackwell di nuova generazione darà un enorme impulso alla scalabilità per i modelli di reasoning come DeepSeek-R1, grazie a Tensor Core di quinta generazione in grado di fornire fino a 20 petaflops di prestazioni di picco in FP4 e a un dominio NVLink a 72 GPU appositamente ottimizzato per l’inferenza.

Gli sviluppatori possono sperimentare il microservizio DeepSeek-R1 NIM, ora disponibile su build.nvidia.com.

Con NVIDIA NIM, sottolinea NVIDIA, le aziende possono implementare DeepSeek-R1 con facilità e assicurarsi l’elevata efficienza necessaria per i sistemi di agentic AI.

Ulteriori informazioni sono disponibili nel blog di NVIDIA.