iGenius, società deep-tech italiana specializzata in soluzioni di intelligenza artificiale aziendali, ha annunciato Italia, Foundational Large Language Model 100% open source realizzato in collaborazione con Cineca.
Grazie a questa partnership, ha spiegato l’azienda, il team ha avuto la possibilità di gestire l’addestramento e il fine-tuning del modello su larga scala con migliaia di GPU, utilizzando il supercomputer Leonardo, una delle infrastrutture di calcolo più avanzate e performanti al mondo.
Il primo modello della serie è Italia 9B, un Foundational LLM con un’architettura Transformer da 9 miliardi di parametri, una finestra di contesto di 4.096 token e un vocabolario di 50.000 token.
Italia 9B è stato addestrato da zero in italiano su migliaia di miliardi di token, spiega iGenius, utilizzando un mix eterogeneo di fonti: sorgenti pubbliche, dati sintetici e contenuti di settore forniti dai partner commerciali dell’azienda. Addestrato esclusivamente in italiano, senza traduzioni dall’inglese, Italia 9B è in grado di comprendere tutte le sfumature linguistiche e culturali italiane con una precisione che il team che l’ha sviluppato non esita a definire senza precedenti.
iGenius ha anche avviato una collaborazione con Editoriale Nazionale, società del gruppo Monrif, per utilizzare il loro archivio storico di articoli di stampa come fonte integrativa per migliorare il modello.
Grazie a questo prezioso patrimonio di contenuti, il team sarà in grado di estendere ulteriormente la conoscenza di Italia, arrivando a coprire decenni di storia nazionale e internazionale. iGenius ha intenzione di utilizzare i contenuti ottenuti grazie a questa partnership nelle future versioni di Italia, puntando a estendere sia il livello di conoscenza generale che le capacità conversazionali del modello.
Per costruire il dataset di addestramento e garantire l’integrità etica dei contenuti generati, il team ha inoltre sviluppato dei filtri di sicurezza specifici per la lingua italiana. Questi filtri rimuovono contenuti sensibili, espliciti e ad alto potenziale di bias dalle sorgenti selezionate.
Questi meccanismi di protezione, uniti all’adozione di tecniche di Data Cleaning all’avanguardia, hanno permesso di mitigare l’occorrenza di bias, nonché di limitare le allucinazioni e la generazione di contenuti incoerenti con la conversazione, afferma iGenius, che sottolinea di voler dare priorità alla sicurezza dei dati e all’affidabilità delle informazioni e di aver investito nella costruzione di un dataset in italiano di alta qualità per sviluppare un modello di linguaggio realmente aperto, trasparente e sicuro, in conformità con le normative europee sull’intelligenza artificiale come l’AI Act.
Italia – illustra ancora iGenius – è stato pensato per le aziende che operano in settori altamente regolamentati, come i servizi finanziari o la pubblica amministrazione.
Già nella sua prima versione, si presenta come un LLM unico nel suo genere, secondo il team: nonostante sia un modello a singola specializzazione linguistica, l’elevato numero di parametri unito alla qualità del processo di addestramento, lo rendono la scelta ideale per i casi d’uso più critici del mondo enterprise, dove l’affidabilità dei contenuti generati è di fondamentale importanza.
Come sottolineato (e come suggerisce il nome stesso), Italia è dotato di un’ottima capacità di formulazione linguistica in italiano. Non si tratta solo del vocabolario o della struttura delle frasi, spiega il team, ma anche della conoscenza culturale e storica del Paese. Questo è essenziale per applicazioni che richiedono una padronanza avanzata della lingua italiana.
Oltre ad una spiccata capacità conversazionale, Italia si distingue per l’efficienza con cui è in grado di elaborare le parole italiane. Grazie ad un Tokenizer proprietario, realizzato da zero dal team iGenius appositamente per questo modello, Italia è in grado di processare e generare token in italiano con performance equivalenti ad un incremento del 60% della sua finestra di contesto.
Tutto questo si traduce in maniera diretta in una notevole efficienza dei costi e delle risorse necessarie per servire il modello, nonché delle sue performance computazionali, entrambe caratteristiche fondamentali per una soluzione di intelligenza artificiale in ambito enterprise.
iGenius ritiene che i modelli di linguaggio specializzati in una singola lingua, come Italia, non possano essere valutati utilizzando sistemi di benchmark incentrati su domande generaliste e, soprattutto, costruiti per l’ecosistema anglofono. Per questo il team sta lavorando con istituti italiani di primo livello per sviluppare un sistema di benchmark imparziale, pensato per la valutazione di modelli nativi italiani, che non sia limitato ad argomenti di conoscenza generale, ma contenga riferimenti a casi d’uso reali del mondo aziendale.
Secondo iGenius, Italia può rappresentare il primo passo verso un Rinascimento Digitale, che darà vita a un nuovo modo di realizzare soluzioni di intelligenza artificiale, dove sono le persone ad essere al centro e non la tecnologia.
L’azienda afferma di aver sviluppato e addestrato Italia con una particolare attenzione a ciò di cui le imprese e i professionisti hanno realmente bisogno per integrare l’intelligenza artificiale nelle loro attività in modo efficace.
Inoltre, iGenius ha dato vita a Unicorn, una nuova linea di business che ha l’obiettivo di supportare le organizzazioni pubbliche e private nell’adozione dell’AI e dei Large Language Model, attraverso la realizzazione di soluzioni su misura per i loro problemi.
Combinando da un lato le capacità di ragionamento di modelli come Italia e dall’altro l’affidabilità dei dati e della conoscenza aziendale, iGenius si pone come obiettivo quello di essere in grado di realizzare delle soluzioni di AI efficaci, sicure e scalabili, in linea con gli standard di qualità dei settori altamente regolamentati.
E, per raggiungere questo obiettivo, l’azienda collabora con partner e system integrator di primo livello, in modo da garantire un’integrazione ottimale delle sue tecnologie nelle infrastrutture esistenti delle aziende, assicurando supporto continuo e una personalizzazione accurata delle soluzioni.
“La decisione di sviluppare Italia come modello open source riflette pienamente la nostra missione di umanizzare i dati e democratizzare la conoscenza aziendale. Crediamo che Italia rappresenti il primo passo verso un nuovo Rinascimento Digitale, in cui le soluzioni di AI siano progettate mettendo al centro le persone, non la tecnologia. Adesso il nostro obiettivo è investire in nuovi modelli che siano rappresentativi di altre lingue e culture. Stiamo lavorando per rilasciare a breve una versione di Italia da 10 miliardi di parametri e, successivamente, una versione multilingua“, ha spiegato Uljan Sharka, Fondatore e CEO di iGenius.
“Un’azienda italiana, con un progetto innovativo e di notevole interesse, ha avuto la possibilità di accedere alla potenza di calcolo di Leonardo, uno dei supercomputer più avanzati al mondo: tutto ciò a conferma del ruolo di Cineca come abilitatore dell’innovazione digitale e della competitività del Paese. La nostra infrastruttura, che è pubblica e aperta per definizione, trova in questa avventura una delle sue espressioni meno scontate, ma certamente più coerenti con la volontà di progettare il futuro, innovando e generando valore per la nostra comunità”, ha sottolineato Alessandra Poggiani, Direttrice Generale di Cineca.
Maggiori informazioni sono disponibili sul sito di iGenius.