Amazon Nova: una nuova generazione di foundation model multimodali

4 Dicembre 2024

È il CEO di Amazon Andy Jassy ad annunciare ad AWS re:Invent 2024 – nel corso del keynote condotto dal CEO di Amazon Web Services Matt Garman – Amazon Nova, una nuova generazione di foundation model dotati di un’intelligenza all’avanguardia in un’ampia gamma di attività e di prestazioni di prezzo leader nel settore.

I modelli Amazon Nova saranno disponibili in Amazon Bedrock e comprendono: Amazon Nova Micro (un modello text-to-text a bassa latenza e con costi molto contenuti); e Amazon Nova Lite (un modello multimodale a bassissimo costo, velocissimo nell’elaborazione di immagini, video e testi), Amazon Nova Pro (un modello multimodale altamente capace, con la migliore combinazione di accuratezza, velocità e costo per un’ampia gamma di attività) e Amazon Nova Premier. Oltre a supportare il fine tuning, i modelli supportano anche la distillazione, che consente di trasferire conoscenze specifiche da un “teacher model” più grande e potente a un modello più piccolo ed efficiente che è altamente accurato, ma anche più veloce ed economico da eseguire. (il più potente dei modelli multimodali di Amazon per attività di ragionamento complesse e particolarmente indicato per l’uso come teacher nel processo di distillazione di modelli personalizzati).

Amazon ha inoltre lanciato altri due modelli: Amazon Nova Canvas (text-to-images) e Amazon Nova Reel (text-to-video). Amazon Nova Micro, Amazon Nova Lite e Amazon Nova Pro sono disponibili da oggi; Amazon Nova Premier sarà disponibile nel primo trimestre del 2025.

Jassy pone i modelli Amazon Nova in concorrenza diretta con i principali modelli esistenti, mostrando i risultati a favore della gamma Nova ottenuti in un’ampia gamma di benchmark standard del settore. Amazon Nova Micro, Amazon Nova Lite e Amazon Nova Pro hanno ottenuto risultati piuttosto competitivi rispetto ai migliori modelli delle rispettive categorie.

Amazon Nova Micro è risultato uguale o migliore sia di Meta LaMa 3.1 8B su tutti gli 11 benchmark applicabili, sia di Google Gemini 1.5 Flash-8B su tutti i 12 benchmark applicabili e grazie alla velocità record di settore di 210 token di output al secondo, Amazon Nova Micro è ideale per le applicazioni che richiedono risposte rapide.

Amazon Nova Lite è anche competitivo con altri modelli della stessa classe di intelligenza; ha ottenuto prestazioni pari o superiori a quelle di altri modelli su 17 dei 19 benchmark rispetto a GPT-4o mini di OpenAI, uguale o migliore su 17 dei 21 benchmark rispetto a Gemini 1.5 Flash-8B di Google e uguale o migliore su 10 dei 12 benchmark rispetto al Claude Haiku 3.5 di Anthropic. Oltre a garantire l’accuratezza nei benchmark testuali, Amazon Nova Lite si distingue nella comprensione di video, grafici e documenti, come misurato da benchmark quali VATEX, ChartQA e DocVQA. Amazon Nova Lite eccelle anche nei flussi di lavoro agenziali.

Amazon Nova Pro ha ottenuto prestazioni uguali o migliori su 17 dei 20 benchmark rispetto a GPT-4o di OpenAI, uguali o migliori su 16 dei 21 benchmark rispetto a Gemini 1.5 Pro di Google e uguali o migliori su 9 dei 20 benchmark rispetto ad Anthropic Claude Sonnet 3.5v2. Oltre all’accuratezza nei benchmark di testo e di intelligenza visiva, Amazon Nova Pro eccelle nel seguire le istruzioni e nei flussi di lavoro agenziali multimodali.

Supporto multilingue e multimodale con un contesto esteso

Amazon Nova Micro, Lite e Pro supportano oltre 200 lingue. Amazon Nova Micro supporta una lunghezza del contesto di 128K token in ingresso, mentre Amazon Nova Lite e Amazon Nova Pro supportano una lunghezza del contesto di 300K token, equivalenti a 30 minuti di elaborazione video. All’inizio del 2025, Amazon supporterà una lunghezza del contesto di oltre 2 milioni di token in ingresso.

Una politica di prezzi aggressiva

Non dipendendo da fornitori esterni, Amazon è in grado di decidere autonomamente i prezzi per l’utilizzo dei modelli: Amazon Nova Micro, Amazon Nova Lite e Amazon Nova Pro costano almeno il 75% in meno rispetto ai modelli più performanti delle rispettive classi di intelligenza in Amazon Bedrock, con prestazioni paragonabili o superiori rispetto agli altri modelli più veloci nelle rispettive classi di intelligenza di Amazon Bedrock.

I modelli supportano il fine tuning personalizzato, che consente ai clienti di indirizzare i modelli verso esempi nei loro dati proprietari che sono stati etichettati per aumentare la precisione. Il modello Amazon Nova apprende ciò che è più importante per il cliente dai suoi dati (compresi testi, immagini e video), e poi Amazon Bedrock addestra un modello privato di precisione che fornirà risposte su misura.

Supportano inoltre la Model Distillation, una tecnica ntrodotta da Geoffrey Hinton e colleghi nel 2015 che consente di trasferire conoscenze da un modello di grandi dimensioni, definito teacher (insegnante), a un modello più piccolo e semplice, chiamato student (studente). L’obiettivo è ottenere un modello student che sia quasi altrettanto performante del teacher, ma con un costo computazionale significativamente ridotto.

I modelli Amazon Nova sono integrati con Amazon Bedrock Knowledge Bases ed eccellono nella Retrieval Augmented Generation (RAG), che consente ai clienti di garantire la massima precisione, fondando le risposte sui dati dell’organizzazione. Sono stati inoltre ottimizzati per renderli facili da usare ed efficaci nelle applicazioni agenziali che richiedono l’interazione con i sistemi e i dati proprietari di un’organizzazione attraverso molteplici API per eseguire attività in più fasi.

Contenuti visivi di livello produttivo con i modelli di generazione di contenuti creativi Nova

Amazon Nova Canvas è un modello di generazione di immagini che crea immagini di qualità professionale a partire da testo o immagini fornite nei prompt. Amazon Nova Canvas offre anche funzioni che facilitano la modifica delle immagini utilizzando input di testo e fornisce controlli per la regolazione della combinazione di colori e del layout. Il modello è dotato di controlli integrati per supportare un uso sicuro e responsabile dell’IA. Questi includono funzioni come il watermarking, che consente di rintracciare sempre la fonte di un’immagine, e la moderazione dei contenuti, che limita la generazione di contenuti potenzialmente dannosi. Amazon Nova Canvas ha ottenuto risultati migliori rispetto a generatori di immagini come OpenAI DALL-E 3 e Stable Diffusion nelle valutazioni umane side-by-side condotte da una terza parte e nelle principali metriche automatizzate.

Amazon Nova Reel è un modello di generazione video all’avanguardia che consente ai clienti di creare facilmente video di alta qualità a partire da testo e immagini. È ideale per la creazione di contenuti in pubblicità, marketing o formazione. I clienti possono utilizzare suggerimenti in linguaggio naturale per controllare lo stile visivo e il ritmo, compresi il movimento della telecamera, la rotazione e lo zoom.

Un abbattimento dei costi delle campagne pubblicitarie video

Grazie alla qualità dell’output, alla piattaforma API intuitiva e alle opportunità di personalizzazione avanzate, i modelli di generazione creativa di Amazon Nova, Amazon Nova Canvas e Amazon Nova Reel, stanno aiutando Amazon Ads a rimuovere le barriere per venditori e inserzionisti, portando a nuovi livelli di creatività e innovazione, come l’utilizzo della pubblicità video per la prima volta, la creazione di campagne display e video per un maggior numero di prodotti del catalogo e la sperimentazione di nuove strategie come la creatività a livello di parole chiave. Secondo Amazon, i marchi che utilizzano questi strumenti pubblicizzano un numero di prodotti cinque volte superiore e un numero doppio di immagini per prodotto pubblicizzato, spostando i budget su ciò che produce i risultati migliori.

In questo esempio, Amazon Ads ha utilizzato Amazon Nova Reel per creare un video pubblicitario per un’immaginaria marca di pasta in scatola. Nella stravagante “Città della pasta”, gli edifici sono scolpiti in tubi di cannelloni, il quartiere è cosparso di spezie italiane e le strade sono costeggiate da salsa marinara, fusilli e polpette (così viene presentato sul blog di Amazon…). Lo spot è un esempio di come gli inserzionisti possano dare vita ai loro prodotti e creare contenuti di alta qualità utilizzando i modelli di Amazon Nova.

Il futuro prossimo: Modelli speech-to-speech e multimodal-to-multimodal

Jassy ha anticipato che Amazon introdurrà nel primo trimestre del 2025 un modello speech-to-speech Amazon Nova, progettato per trasformare le applicazioni di intelligenza artificiale conversazionale comprendendo gli input vocali in streaming in linguaggio naturale, interpretando le indicazioni verbali e non verbali (come il tono e la cadenza) e fornendo interazioni naturali simili a quelle umane con una bassa latenza.

Spingendosi ancora oltre, Amazon sta inoltre sviluppando un nuovo modello in grado di ricevere in ingresso testo, immagini, audio e video e di generare output in una qualsiasi di queste modalità. Questo modello Amazon Nova con capacità nativa multimodal-multimodal – o “any-to-any” – sarà introdotto a metà del 2025. Semplificherà lo sviluppo di applicazioni in cui lo stesso modello può essere utilizzato per eseguire un’ampia gamma di attività, come la traduzione di contenuti da una modalità all’altra, la modifica di contenuti e l’alimentazione di agenti AI in grado di comprendere e generare tutte le modalità.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche

iscriviti alla newsletter