Home Datacenter Data center: l’importanza dell’infrastruttura di rete nell’era dell’intelligenza artificiale

Data center: l’importanza dell’infrastruttura di rete nell’era dell’intelligenza artificiale

I carichi di lavoro dell’intelligenza artificiale comportano richieste elevate per l’infrastruttura di rete – in termini di prestazioni, capacità e latenza – che sono piuttosto difficili da soddisfare con i design e le tecnologie tradizionali dei data center. Le tecnologie AI per i data center possono offrire un’alternativa, fornendo soluzioni efficienti per l’elaborazione, l’archiviazione e il networking basate su innovativi design dei fabric per il training nel back-end e l’inferenza nel front-end.

L’AI generativa sta vivendo un momento senza precedenti. Attualmente, molte organizzazioni utilizzano AI insieme al machine learning (ML). I data center sono alla base dell’AI e le reti dei data center svolgono un ruolo fondamentale nel collegare i costosi server GPU che eseguono le funzioni di calcolo ad alte prestazioni necessarie per il training di AI.

Il training dell’AI è la parte tecnologicamente più impegnativa dell’intero processo, soprattutto per i modelli complessi di deep learning che richiedono grandi quantità di dati e un’elaborazione distribuita da parte delle GPU per ottenere prestazioni ottimali. Ad esempio, l’addestramento di un modello di riconoscimento delle immagini all’avanguardia può richiedere milioni di immagini etichettate. Se la rete diventa essa stessa un collo di bottiglia, si verificherà una costosa dispersione di risorse e tempo per l’elaborazione.

Per velocizzare questo processo, le GPU devono essere interconnesse in una struttura ad alte prestazioni. Questa struttura dedicata, nota come fabric di back-end, supporta sia i cluster per il training delle GPU sia le reti di storage e fornisce una rete ad alte prestazioni e bassa latenza per ogni servizio. Una volta che il modello è stato istruito, viene trasferito alla fase di inferenza dell’intelligenza artificiale, dove lavora in un ambiente reale per fare previsioni o prendere decisioni basate su nuovi dati sconosciuti. I cluster di inferenza AI sono collegati a reti front-end che forniscono connettività al mondo esterno, ad esempio per gestire le richieste di inferenza da parte di utenti o dispositivi IoT.

Quando le organizzazioni iniziano ad avvicinarsi all’intelligenza artificiale, la prima domanda che dovrebbero porsi è come costruire una rete di data center per workload AI e ML che sia efficiente e ad alte prestazioni. Innanzitutto, bisogna considerare le GPU e l’InfiniBand tra gli elementi più limitanti e onerosi.

GPU depositphotos

L’aspetto economico delle GPU

I moderni cluster di AI e ML sono composti da centinaia, talvolta migliaia, di GPU, che servono a fornire l’enorme potenza di calcolo parallelo richiesta per addestrare i moderni modelli di intelligenza artificiale.

Per essere efficienti, le GPU devono lavorare in cluster. Tuttavia, se da un lato la scalabilità dei cluster migliora l’efficienza del modello di AI, dall’altro aumenta i costi. Ridurre il Job Completion Time (JCT) e minimizzare la latenza dovuta alle code, riduce i costi e accelera il processo.  JCT si riferisce al tempo necessario per addestrare il modello di intelligenza artificiale, mentre la latenza di coda indica il tempo che serve al sistema per attendere che l’ultima GPU completi i calcoli prima che inizi la successiva sessione di training.

Essere indipendenti dai provider grazie a Ethernet

Con la necessità di ottimizzare le prestazioni delle GPU, Ethernet in particolare sta diventando un’alternativa di rete standard sempre più importante per i data center AI. In passato, InfiniBand, una tecnologia di rete proprietaria ad alta velocità e bassa latenza, era spesso la prima scelta per una comunicazione veloce ed efficiente tra server e sistemi di storage. Tuttavia, Ethernet è sempre più utilizzata per i suoi vantaggi operativi ed economici. Inoltre, il numero di professionisti in grado di creare e amministrare una rete Ethernet rispetto a una rete InfiniBand proprietaria è enorme.

Ethernet è quindi una soluzione ideale per soddisfare i requisiti specifici delle applicazioni di intelligenza artificiale, soprattutto grazie all’elevato throughput e alla bassa latenza. La tecnologia di rete è in continua evoluzione e le recenti innovazioni, come 800 GbE e il Data Centre Bridging (DCB), ne hanno aumentato la velocità, l’affidabilità e la scalabilità. I miglioramenti includono anche la gestione della congestione, il bilanciamento del carico, la riduzione della latenza per l’ottimizzazione del JCT e la semplificazione della gestione e dell’automazione. Tutto ciò rende i fabric Ethernet le architetture ideali per il traffico AI mission-critical.

network depositphotos

La struttura di un fabric di rete ad alte prestazioni

Per il networking di data center AI è possibile utilizzare diversi fabric. Tuttavia, per ottimizzare il framework di training, si consiglia un fabric non bloccante any-to-any. Questi fabric sono costruiti utilizzando una velocità di rete costante di 400 Gbps (che può arrivare a 800 Gbps) dalla NIC al livello leaf fino a quello spine. A seconda delle dimensioni del modello e della scalabilità della GPU, è possibile utilizzare un fabric non bloccante a due livelli e tre stadi o a tre livelli e cinque stadi.

Oltre alla capacità del fabric, vi sono altre considerazioni progettuali che aumentano la sua generale affidabilità ed efficienza. Devono essere prese in esame le interconnessioni del fabric di dimensioni adeguate con il numero ottimale di link e la capacità di rilevare e correggere eventuali squilibri del flusso per evitare la congestione e la perdita di pacchetti dati. La notifica esplicita della congestione (Explicit Congestion Notice, ECN) insieme alla notifica di congestione quantizzata del data center (Data Centre Quantized Congestion Notice, DCQCN) e il controllo del flusso basato sulla priorità garantiscono una trasmissione senza perdite.

Per ridurre la congestione, lo switch implementa il bilanciamento del carico dinamico e adattivo. Il bilanciamento dinamico del carico ridistribuisce i flussi localmente nello switch in modo uniforme, mentre quello adattivo monitora l’inoltro dei flussi e le tabelle dei next-hop per individuare gli squilibri e reindirizzare il traffico rispetto ai percorsi congestionati.

Quando non è possibile evitare la congestione, l’ECN trasmette una notifica tempestiva alle applicazioni. Gli switch leaf e spine aggiornano i pacchetti con capacità ECN per notificare ai mittenti la congestione, il che induce questi ultimi a rallentare la trasmissione per evitare la perdita di pacchetti in transito. Se gli endpoint non reagiscono in tempo, il controllo del flusso basato sulla priorità (Priority-based Flow Control, PFC) consente ai ricevitori Ethernet di condividere con i mittenti il feedback sulla disponibilità del buffer. Infine, i leaf e gli spine possono interrompere o limitare il traffico su specifici link per ridurre la congestione ed evitare la perdita dei pacchetti, consentendo trasmissioni lossless per specifiche classi di traffico.

L’automazione è il tassello finale per un networking di data center AI efficace. Si utilizza particolarmente nella loro progettazione, installazione e gestione: ad esempio, il ciclo di vita della rete di data center AI può essere automatizzato e convalidato dal Giorno 0 al Giorno 2+. Questo si traduce in progetti e deployment di data center AI ripetibili e convalidati continuamente, che non solo eliminano l’errore umano, ma sfruttano anche la telemetria e i dati di flusso per ottimizzare le prestazioni, facilitare la risoluzione proattiva dei problemi oltre a prevenire ed evitare l’interruzione dei servizi.

intelligenza artificiale depositphotos

L’intelligenza artificiale sta diventando sempre più diffusa, ma le aziende e la società sono ancora all’inizio del percorso di scoperta delle potenzialità di questa tecnologia. Ad ogni modo, le reti di data center continueranno a svolgere un ruolo fondamentale nei prossimi decenni, man mano che i territori dell’AI continueranno a essere esplorati. Le soluzioni infrastrutturali per l’AI che offrono prestazioni elevate per ottimizzare l’efficienza delle GPU sono essenziali. I fabric Ethernet con tecnologie di rete innovative che accelerano il trasferimento dei dati e consentono trasferimenti senza perdite di pacchetti sono e saranno fattori chiave per contribuire a guidare la rivoluzione dell’AI.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php