Secondo IBM, ci troviamo nel bel mezzo di un’esplosione cambriana dell’intelligenza artificiale. Negli ultimi dieci anni, l’AI è passata dalla teoria e da piccoli test a casi d’uso su scala enterprise. Ma – afferma IBM – l’hardware utilizzato per eseguire i sistemi di AI, benché sempre più potente, non è stato progettato pensando all’AI di oggi. Man mano che i sistemi di AI scalano, i costi salgono alle stelle. E la Legge di Moore, la teoria secondo cui la densità dei circuiti nei processori raddoppia ogni anno, è rallentata.
Ora, una nuova ricerca condotta dal laboratorio di IBM Research di Almaden, in California, dopo quasi due decenni di lavoro, secondo l’azienda – che ne ha condiviso il percorso e i risultati sul proprio blog – ha il potenziale per cambiare drasticamente il modo in cui possiamo scalare in modo efficiente i potenti sistemi hardware di AI.
Fin dalla nascita dell’industria dei semiconduttori, spiega IBM, i chip per computer hanno seguito principalmente la stessa struttura di base, in cui le unità di elaborazione e la memoria che memorizza le informazioni da elaborare sono memorizzate in modo discreto. Se da un lato questa struttura ha permesso di realizzare progetti più semplici che sono stati in grado di scalare bene nel corso dei decenni, dall’altro ha creato quello che viene chiamato il collo di bottiglia di von Neumann, in cui ci vogliono tempo ed energia per spostare continuamente i dati avanti e indietro tra la memoria, l’elaborazione e qualsiasi altro dispositivo all’interno di un chip.
Il lavoro di Dharmendra Modha dell’IBM Research e dei suoi colleghi mira a cambiare questa situazione, ispirandosi al modo in cui il cervello calcola. Secondo Modha, “si tratta di un percorso completamente diverso dall’architettura di von Neumann“.
Negli ultimi otto anni, Modha ha lavorato a un nuovo tipo di chip di intelligenza artificiale digitale per l’inferenza neurale, che ha chiamato NorthPole. Si tratta di un’estensione di TrueNorth, l’ultimo chip ispirato al cervello su cui Modha ha lavorato prima del 2014. Nei test sui popolari modelli di riconoscimento delle immagini ResNet-50 e di rilevamento degli oggetti YOLOv4, il nuovo prototipo di dispositivo ha dimostrato una maggiore efficienza energetica, una maggiore efficienza di spazio e una minore latenza rispetto a qualsiasi altro chip attualmente sul mercato, ed è circa 4.000 volte più veloce di TrueNorth, mette in evidenza IBM.
La prima promettente serie di risultati dei chip NorthPole è stata da poco pubblicata su Science. Secondo Modha, NorthPole è un’innovazione nell’architettura dei chip che offre enormi miglioramenti in termini di efficienza energetica, spaziale e temporale. Utilizzando il modello ResNet-50 come parametro di riferimento, NorthPole è molto più efficiente delle comuni GPU a 12 nm e delle CPU a 14 nm (NorthPole stesso è costruito su una tecnologia di elaborazione a 12 nm.).
In entrambi i casi, NorthPole è 25 volte più efficiente dal punto di vista energetico, per quanto riguarda il numero di fotogrammi interpretati per joule di potenza richiesta. NorthPole ha ottenuto risultati migliori anche per quanto riguarda la latenza e lo spazio necessario per l’elaborazione, in termini di fotogrammi interpretati al secondo per miliardo di transistor necessari. Secondo Modha, su ResNet-50, NorthPole supera tutte le principali architetture prevalenti, anche quelle che utilizzano processi tecnologici più avanzati, come una GPU implementata con un processo a 4 nm.
Come riesce a calcolare con tanta efficienza rispetto ai chip esistenti? Una delle maggiori differenze di NorthPole è che tutta la memoria del dispositivo si trova nel chip stesso, anziché essere collegata separatamente. Senza il collo di bottiglia di von Neumann, il chip può eseguire inferenze di intelligenza artificiale molto più velocemente di altri chip già presenti sul mercato. NorthPole è stato fabbricato con un processo a 12 nm e contiene 22 miliardi di transistor in 800 millimetri quadrati. Dispone di 256 core ed è in grado di eseguire 2.048 operazioni per core per ciclo con precisione a 8 bit, con la possibilità di raddoppiare e quadruplicare il numero di operazioni con precisione a 4 e 2 bit, rispettivamente. “È un’intera rete su un chip“, ha detto Modha.
“Dal punto di vista architetturale, NorthPole sfuma il confine tra calcolo e memoria“, ha dichiarato Modha. “A livello di singoli core, NorthPole appare come una memoria vicina al calcolo e dall’esterno del chip, a livello di input-output, appare come una memoria attiva“. Questo rende NorthPole facile da integrare nei sistemi e riduce significativamente il carico sulla macchina ospite.
Ma il più grande vantaggio di NorthPole – spiega IBM – è anche un vincolo: può attingere facilmente solo dalla memoria che ha a bordo. Tutti gli incrementi di velocità possibili sul chip verrebbero vanificati se dovesse accedere alle informazioni da un altro punto. Grazie a un approccio chiamato scale-out, NorthPole è in grado di supportare reti neurali più grandi suddividendole in sotto-reti più piccole che si adattano alla memoria del modello di NorthPole e collegando queste sotto-reti tra loro su più chip NorthPole. Quindi, anche se la memoria di un NorthPole (o di un insieme di NorthPole) è sufficiente per molti modelli utili per applicazioni specifiche, questo chip non è destinato a essere un “jack of all trades“, sottolinea IBM. “Non possiamo eseguire GPT-4 su questo chip, ma potremmo servire molti dei modelli di cui le imprese hanno bisogno“, ha detto Modha. “E, naturalmente, NorthPole è solo per l’inferenza“.
Grazie a questa efficacia, il dispositivo non ha bisogno di ingombranti sistemi di raffreddamento a liquido per funzionare: ventole e dissipatori di calore sono più che sufficienti, il che significa che potrebbe essere distribuito in spazi piuttosto ridotti.
Sebbene la ricerca sul chip NorthPole sia ancora in corso, la sua struttura si presta ai casi d’uso dell’intelligenza artificiale emergenti e a quelli più consolidati.
Nei test, sottolinea IBM, il team di NorthPole si è concentrato principalmente sugli usi legati alla computer vision, in parte perché il progetto è stato finanziato dal Department of Defense degli Stati Uniti. Alcune delle applicazioni principali prese in considerazione sono state il rilevamento, la segmentazione delle immagini e la classificazione dei video. Ma è stato testato anche in altri ambiti, come l’elaborazione del linguaggio naturale (con il modello BERT encoder-only) e il riconoscimento vocale (con il modello DeepSpeech2). Il team sta attualmente esplorando la mappatura dei modelli linguistici di grandi dimensioni decoder-only sui sistemi scale-out NorthPole.
IBM ipotizza tipi di casi d’uso che vanno dai veicoli autonomi alla robotica, agli assistenti digitali o allo spatial computing. Molti tipi di applicazioni edge che richiedono l’elaborazione di enormi quantità di dati in tempo reale potrebbero essere adatti a NorthPole. Ad esempio, potrebbe essere il tipo di dispositivo necessario per trasformare i veicoli autonomi da macchine che necessitano di mappe e percorsi prestabiliti per operare su piccola scala, a macchine in grado di pensare e reagire alle rare situazioni limite che rendono la navigazione nel mondo reale così impegnativa anche per gli abili autisti umani. Questi tipi di casi limite sono l’esatto punto di forza delle future applicazioni di NorthPole, sostiene IBM.
NorthPole potrebbe consentire ai satelliti di monitorare l’agricoltura e gestire le popolazioni di animali selvatici, monitorare i veicoli e le merci per strade più sicure e meno congestionate, far funzionare i robot in modo sicuro e rilevare le minacce informatiche per aziende più sicure.
Questo è solo l’inizio del lavoro di Modha su NorthPole, affermano i ricercatori. L’attuale stato dell’arte per le CPU è di 3 nm e la stessa IBM è già da anni impegnata nella ricerca sui nodi a 2 nm. Ciò significa che c’è una manciata di generazioni di tecnologie di elaborazione dei chip su cui NorthPole potrebbe essere implementato, oltre alle innovazioni architetturali fondamentali, per continuare a trovare miglioramenti in termini di efficienza e prestazioni.
Ma per Modha questa è solo una tappa importante di un percorso che ha dominato gli ultimi 19 anni della sua carriera professionale. Per tutto questo tempo ha lavorato su chip digitali ispirati al cervello, sapendo che il cervello è il processore più efficiente dal punto di vista energetico che conosciamo, e cercando modi per replicarlo digitalmente. TrueNorth era completamente ispirato alle strutture dei neuroni del cervello e conteneva tante “sinapsi” digitali quante ne contiene il cervello di un’ape. Ma nel 2015, seduto su una panchina del parco di San Francisco, Modha ha detto che stava riflettendo sul lavoro svolto fino a quel momento. Era convinto che fosse possibile coniugare il meglio dei dispositivi di elaborazione tradizionali con la struttura di elaborazione del cervello, dove la memoria e l’elaborazione sono disseminate in tutto il cervello. Secondo Modha, la risposta era “il computing ispirato al cervello, con la velocità del silicio“.
Nei successivi otto anni, Modha e i suoi colleghi sono stati determinati ed ermetici nel loro obiettivo di trasformare questa visione in realtà. Lavorando in modo poco visibile ad Almaden, il team non ha tenuto conferenze o pubblicato articoli sul proprio lavoro, fino a quest’anno. Ognuno ha apportato competenze e prospettive diverse, ma tutti hanno collaborato in modo che il contributo del team nel suo complesso fosse molto maggiore della somma delle parti. Ora, sottolinea IBM, il piano è quello di mostrare ciò che NorthPole è in grado di fare, esplorando al contempo come tradurre i progetti in processi di produzione di chip più piccoli ed esplorando ulteriormente le possibilità architetturali.
Questo lavoro è nato da un’idea semplice: come realizzare computer che funzionino come il cervello, e dopo anni di ricerca fondamentale ha trovato una risposta, con IBM Research. “NorthPole è una tenue rappresentazione del cervello nello specchio di un wafer di silicio“, ha detto Modha.