Home Aziende Alibaba Qwen2.5-VL, il nuovo modello AI capace di usare il computer e il...

Qwen2.5-VL, il nuovo modello AI capace di usare il computer e il telefono

Qwen, il team di Alibaba Cloud specializzato nello sviluppo di modelli di intelligenza artificiale, ha rilasciato Qwen2.5-VL, il nuovo vision-language model che l’azienda presenta come un salto in avanti significativo rispetto al precedente Qwen2-VL.

Per provare l’ultimo modello, è possibile visitare Qwen Chat e scegliere Qwen2.5-VL-72B-Instruct. Inoltre, il team ha aperto sia i modelli base che quelli instruct in 3 dimensioni, 3B, 7B e 72B, sia su Hugging Face che su ModelScope.

Tra le caratteristiche principali de nuovo modello, spiega il team che lo ha sviluppato, c’è innanzitutto la comprensione visiva: Qwen2.5-VL non solo è in grado di riconoscere oggetti comuni come fiori, uccelli, pesci e insetti, ma è anche in grado di analizzare testi, grafici, icone, grafiche e layout all’interno delle immagini.

Qwen2.5-VLÈ agentic: Qwen2.5-VL agisce direttamente come un agente di visione artificiale in grado di ragionare e dirigere dinamicamente gli strumenti, capace di usare il computer e il telefono.

Inoltre, è capace di comprendere video lunghi e catturare eventi: Qwen2.5-VL è in grado di comprendere video di oltre 1 ora e questa volta ha una nuova capacità di catturare gli eventi individuando i segmenti video rilevanti.

Ha poi la capacità di localizzazione visiva in diversi formati: Qwen2.5-VL è in grado di localizzare accuratamente gli oggetti in un’immagine generando caselle di delimitazione o punti, e può fornire output JSON per coordinate e attributi.

Infine, supporta la generazione di output strutturati: per dati come scansioni di fatture, moduli, tabelle, e così via, Qwen2.5-VL supporta output strutturati dei loro contenuti, a vantaggio dei casi d’uso nella finanza, nel commercio, e altro.

Qwen2.5-VLPer quel che concerne le prestazioni, Qwen afferma di aver valutato i suoi modelli confrontandoli con i modelli allo stato dell’arte e con i migliori modelli di dimensioni simili. Per quanto riguarda il modello di punta Qwen2.5-VL-72B-Instruct, secondo il team esso raggiunge prestazioni competitive in una serie di benchmark che coprono vari domini e compiti, tra cui problemi di livello universitario, matematica, comprensione di documenti, risposta a domande generali, matematica, comprensione di video e agente visivo. In particolare, Qwen2.5-VL ottiene vantaggi significativi nella comprensione di documenti e diagrammi ed è in grado di operare come agente visivo senza una messa a punto specifica del compito.

Paragonato ai modelli più piccoli, secondo il team di Alibaba Cloud Qwen2.5-VL-7B-Instruct supera GPT-4o-mini in una serie di compiti e Qwen2.5-VL-3B, che è una soluzione per l’AI all’edge, supera persino il modello 7B della versione precedente Qwen2-VL.

Maggiori informazioni sono disponibili nel repository GitHub e nel blog.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato sulle novità tecnologiche
css.php