Qwen, il team di Alibaba Cloud specializzato nello sviluppo di modelli di intelligenza artificiale, ha rilasciato Qwen2.5-VL, il nuovo vision-language model che l’azienda presenta come un salto in avanti significativo rispetto al precedente Qwen2-VL.
Per provare l’ultimo modello, è possibile visitare Qwen Chat e scegliere Qwen2.5-VL-72B-Instruct. Inoltre, il team ha aperto sia i modelli base che quelli instruct in 3 dimensioni, 3B, 7B e 72B, sia su Hugging Face che su ModelScope.
Tra le caratteristiche principali de nuovo modello, spiega il team che lo ha sviluppato, c’è innanzitutto la comprensione visiva: Qwen2.5-VL non solo è in grado di riconoscere oggetti comuni come fiori, uccelli, pesci e insetti, ma è anche in grado di analizzare testi, grafici, icone, grafiche e layout all’interno delle immagini.
È agentic: Qwen2.5-VL agisce direttamente come un agente di visione artificiale in grado di ragionare e dirigere dinamicamente gli strumenti, capace di usare il computer e il telefono.
Inoltre, è capace di comprendere video lunghi e catturare eventi: Qwen2.5-VL è in grado di comprendere video di oltre 1 ora e questa volta ha una nuova capacità di catturare gli eventi individuando i segmenti video rilevanti.
Ha poi la capacità di localizzazione visiva in diversi formati: Qwen2.5-VL è in grado di localizzare accuratamente gli oggetti in un’immagine generando caselle di delimitazione o punti, e può fornire output JSON per coordinate e attributi.
Infine, supporta la generazione di output strutturati: per dati come scansioni di fatture, moduli, tabelle, e così via, Qwen2.5-VL supporta output strutturati dei loro contenuti, a vantaggio dei casi d’uso nella finanza, nel commercio, e altro.
Per quel che concerne le prestazioni, Qwen afferma di aver valutato i suoi modelli confrontandoli con i modelli allo stato dell’arte e con i migliori modelli di dimensioni simili. Per quanto riguarda il modello di punta Qwen2.5-VL-72B-Instruct, secondo il team esso raggiunge prestazioni competitive in una serie di benchmark che coprono vari domini e compiti, tra cui problemi di livello universitario, matematica, comprensione di documenti, risposta a domande generali, matematica, comprensione di video e agente visivo. In particolare, Qwen2.5-VL ottiene vantaggi significativi nella comprensione di documenti e diagrammi ed è in grado di operare come agente visivo senza una messa a punto specifica del compito.
Paragonato ai modelli più piccoli, secondo il team di Alibaba Cloud Qwen2.5-VL-7B-Instruct supera GPT-4o-mini in una serie di compiti e Qwen2.5-VL-3B, che è una soluzione per l’AI all’edge, supera persino il modello 7B della versione precedente Qwen2-VL.
Maggiori informazioni sono disponibili nel repository GitHub e nel blog.