NVIDIA ha annunciato l’accelerazione del nuovo modello linguistico open Phi-3 Mini di Microsoft con NVIDIA TensorRT-LLM, libreria open source per l’ottimizzazione dell’inferenza di modelli linguistici di grandi dimensioni in esecuzione su GPU NVIDIA, dal pc al cloud.
Phi-3 Mini – sottolinea lo specialista delle GPU e del computing accelerato – offre la capacità di modelli 10 volte più grandi e viene concesso in licenza sia per la ricerca che per un ampio uso commerciale, facendo progredire Phi-2 dalle sue origini per la sola ricerca. Le workstation con GPU NVIDIA RTX o i pc con GPU GeForce RTX hanno le prestazioni necessarie per eseguire il modello in locale utilizzando Windows DirectML o TensorRT-LLM, mette in evidenza l’azienda.
Il modello ha 3,8 miliardi di parametri ed è stato addestrato su 3,3 trilioni di token in soli sette giorni su 512 GPU NVIDIA H100 Tensor Core.
Phi-3 Mini ha due varianti, una che supporta 4k token e l’altra che supporta 128K token, il primo modello della sua categoria per contesti molto lunghi. Ciò consente agli sviluppatori di utilizzare 128.000 token – le parti atomiche del linguaggio che il modello elabora – quando pongono una domanda al modello, ottenendo così risposte più pertinenti.
Gli sviluppatori possono provare Phi-3 Mini con la finestra di contesto da 128K su ai.nvidia.com, dove è packaged come NVIDIA NIM, un microservizio con un’application programming interface standard che può essere distribuito ovunque.
Gli sviluppatori che lavorano sulla robotica autonoma e sui dispositivi embedded possono imparare a creare e implementare l’AI generativa attraverso esercitazioni guidate community-driven, come nel Jetson AI Lab, e implementare Phi-3 su NVIDIA Jetson, la piattaforma per macchine autonome e altre applicazioni integrate.
Con soli 3,8 miliardi di parametri, il modello Phi-3 Mini è abbastanza compatto da poter essere eseguito in modo efficiente sui dispositivi edge. I parametri – spiega NVIDIA – sono come manopole, in memoria, che sono state regolate con precisione durante il processo di addestramento del modello, in modo che il modello possa rispondere con elevata precisione alle richieste di input.
Phi-3 può essere d’aiuto nei casi d’uso in cui i costi e le risorse sono limitati, soprattutto per i task più semplici. Il modello è in grado di superare alcuni modelli più grandi su benchmark linguistici chiave, fornendo al contempo risultati che rispettano i requisiti di latenza.
TensorRT-LLM supporterà la finestra di contesto lunga di Phi-3 Mini e utilizza molte ottimizzazioni e kernel come LongRoPE, FP8 e inflight batching, che migliorano il throughput e la latenza dell’inferenza. Le implementazioni di TensorRT-LLM saranno presto disponibili nella cartella degli esempi su GitHub. Qui – sottolinea l’azienda – gli sviluppatori possono convertire il formato dei checkpoint di TensorRT-LLM, che è ottimizzato per l’inferenza e può essere facilmente implementato con NVIDIA Triton Inference Server.
NVIDIA – sottolinea l’azienda – contribuisce attivamente all’ecosistema open source e ha rilasciato oltre 500 progetti con licenze open source.
Oltre a contribuire a molti progetti esterni come JAX, Kubernetes, OpenUSD, PyTorch e il kernel di Linux, NVIDIA supporta anche un’ampia gamma di fondazioni e organismi di standard open source.
Quest’ultimo annuncio amplia le collaborazioni di lunga data di NVIDIA con Microsoft, che hanno aperto la strada a innovazioni quali l’accelerazione DirectML, il cloud Azure, la ricerca sull’intelligenza artificiale generativa, l’healthcare e le scienze della vita.