Dopo alcuni anni di sviluppo, feedback e iterazioni di test con i clienti, partner e la community di ingegneri dell’intelligenza artificiale, Primate Labs, la società sviluppatrice del tool di benchmarking multi-piattaforma Geekbench, ha annunciato che il suo benchmark per il machine learning è ora pronto per l’uso generale e ha un nuovo nome: Geekbench AI.
Chi ha seguito le precedenti versioni in anteprima, saprà già che Geekbench AI è una suite di benchmark con una metodologia di test per i carichi di lavoro di machine learning, deep learning e intelligenza artificiale, il tutto con la stessa utilità multipiattaforma e l’aderenza ai workload reali per cui i benchmark di Primate Labs sono noti.
Gli sviluppatori di software possono usare questo strumento per garantire un’esperienza coerente per le loro applicazioni su tutte le piattaforme, gli ingegneri hardware possono usarlo per misurare i miglioramenti architetturali e tutti possono usarlo per misurare e risolvere i problemi delle prestazioni dei dispositivi con una suite di task basati su come i dispositivi utilizzano effettivamente l’AI.
Geekbench AI 1.0 è ora disponibile nella pagina di download di Primate Labs per Windows, macOS e Linux, oltre che su Google Play Store e Apple App Store per le versioni per Android e iOS.
Le preview del nuovo benchmark di machine learning erano denominate “Geekbench ML”, ma Primate Labs spiega che, siccome negli ultimi anni c’è stata da parte delle aziende una convergenza sul termine “AI” per questi carichi di lavoro (e il relativo marketing), per garantire che tutti, dagli ingegneri agli appassionati di tecnologia e benchmarking, capiscano al volo a cosa serve questa applicazione, era preferibile aggiornare anche il nome del software.
Per tenere conto della complessità della misurazione della performance nei task di machine learning, Geekbench AI fornisce tre punteggi complessivi. Ciò, spiega il team, perché il design dell’hardware AI varia tra i diversi dispositivi e fornitori di silicio, così come il modo in cui gli sviluppatori sfruttano tale hardware. Proprio come i carichi di lavoro legati alle CPU variano nel modo in cui possono sfruttare più core o thread per scalare le prestazioni (rendendo necessarie metriche sia single-core che multi-core nella maggior parte dei benchmark correlati), i carichi di lavoro AI coprono una gamma di livelli di precisione, a seconda del compito richiesto, dell’hardware disponibile e dei framework intermedi.
Geekbench AI fornisce le informazioni che uno sviluppatore o un fornitore di hardware cercherebbero quando si tratta di analizzare le prestazioni dell’intelligenza artificiale di un determinato dispositivo, mostrando le prestazioni su tre dimensioni invece che su una sola. Questo riflette l’approccio adottato dall’azienda nello sviluppo di Geekbench AI, progettato per misurare le prestazioni dell’AI nel mondo reale: come sottolinea il team, l’AI è complessa, eterogenea e cambia molto velocemente. Con il benchmark di Primate Labs, mette in evidenza l’azienda, è possibile esplorare come i diversi approcci a livello hardware siano stati ottimizzati per particolari compiti.
Geekbench AI 1.0 include altre modifiche significative per migliorare la sua capacità di misurare le prestazioni del mondo reale in base a come le applicazioni utilizzano l’intelligenza artificiale. Questo include il supporto di nuovi framework, da OpenVINO su Linux e Windows ai delegati TensorFlow Lite specifici del fornitore, come Samsung ENN, ArmNN e Qualcomm QNN su Android, per riflettere meglio gli strumenti più recenti a disposizione degli ingegneri e i modi in cui gli sviluppatori costruiscono le loro applicazioni e servizi sull’hardware più recente.
Questa versione utilizza anche set di dati più ampi che riflettono più fedelmente gli input del mondo reale nei casi d’uso dell’intelligenza artificiale, e questi set di dati più grandi e diversificati aumentano anche l’efficacia delle nuove valutazioni di accuratezza. Tutti i carichi di lavoro in Geekbench 1.0 vengono eseguiti per un minimo di un secondo intero, il che cambia l’impatto della regolazione delle prestazioni specifica del produttore e del fornitore sui punteggi, assicurando che i dispositivi possano raggiungere i livelli massimi di prestazioni durante i test, pur riflettendo la natura discontinua dei casi d’uso reali.
Inoltre, cosa ancora più importante secondo il team, si tiene conto della differenza di prestazioni che si riscontra nella vita reale; un telefono di cinque anni fa sarà molto più lento nei carichi di lavoro dell’intelligenza artificiale rispetto, ad esempio, a un acceleratore AI dedicato da 450W. Alcuni dispositivi possono essere così incredibilmente veloci in alcuni compiti che un test troppo breve li mette controintuitivamente in svantaggio, sottovalutando le loro prestazioni reali in molti carichi di lavoro del mondo reale.
Maggiori informazioni sono disponibili sul sito di Geekbench AI.