Anthropic ha annunciato l’aggiornamento di Claude 3.5 Sonnet e un nuovo modello, Claude 3.5 Haiku. L’aggiornamento di Claude 3.5 Sonnet offre miglioramenti generali rispetto al suo predecessore, con guadagni particolarmente significativi nel coding, un’area in cui secondo Anthropic il modello era già leader nel settore. Claude 3.5 Haiku eguaglia le prestazioni di Claude 3 Opus, il modello precedente più grande, in molte valutazioni a parità di costo e di velocità rispetto alla generazione precedente di Haiku.
Anthropic ha anche annunciato l’introduzione di una nuova e innovativa funzionalità in beta pubblica: computer use. Disponibile sull’API, gli sviluppatori possono far usare a Claude il computer come fanno le persone: guardando uno schermo, muovendo un cursore, facendo clic sui pulsanti e digitando il testo. Claude 3.5 Sonnet – sottolinea Anthropic – è il primo modello di intelligenza artificiale di frontiera a offrire l’uso del computer in versione beta pubblica. In questa fase è ancora sperimentale, mette in evidenza l’azienda, a volte macchinoso e soggetto a errori. Anthropic sta rilasciando computer use in anticipo per avere un feedback dagli sviluppatori e si aspetta che questa capacità migliori rapidamente nel tempo.
Asana, Canva, Cognition, DoorDash, Replit e The Browser Company hanno già iniziato a esplorare queste possibilità, svolgendo attività che richiedono decine e talvolta centinaia di passaggi per essere completate, ha condiviso Anthropic. Ad esempio, Replit sta utilizzando le capacità di Claude 3.5 Sonnet con computer use e nella navigazione dell’interfaccia utente per sviluppare una funzione chiave che valuta le app in fase di realizzazione per il suo prodotto Replit Agent.
Claude 3.5 Sonnet aggiornato è ora disponibile per tutti gli utenti. Gli sviluppatori possono sviluppare con computer use beta su Anthropic API, Amazon Bedrock e Vertex AI di Google Cloud. Il nuovo Claude 3.5 Haiku sarà rilasciato nel corso del mese, annuncia Anthropic.
Claude 3.5 Sonnet aggiornato secondo i benchmark effettuati da Anthropic mostra ampi miglioramenti nei benchmark di settore, con guadagni particolarmente significativi nei compiti di agentic coding e di utilizzo dei tool. Il nuovo Claude 3.5 Sonnet offre questi progressi allo stesso prezzo e alla stessa velocità del suo predecessore. I primi feedback dei clienti suggeriscono che l’aggiornamento di Claude 3.5 Sonnet rappresenta un salto significativo per il coding basato sull’intelligenza artificiale. GitLab, che ha testato il modello per le attività di DevSecOps, ha riscontrato che ha fornito un ragionamento più efficace (fino al 10% nei vari casi d’uso) senza alcuna latenza aggiuntiva, rendendolo la scelta ideale per alimentare i processi di sviluppo del software in più fasi.
Claude 3.5 Haiku è la nuova generazione del modello più veloce di Anthropic. A parità di costo e di velocità rispetto a Claude 3 Haiku, Claude 3.5 Haiku migliora in tutte le abilità e supera persino Claude 3 Opus, il modello maggiore della generazione precedente, in molti benchmark di intelligenza. Claude 3.5 Haiku è particolarmente forte nei compiti di coding. Ad esempio, ottiene un punteggio del 40,6% su SWE-bench Verified, superando molti agenti che utilizzano modelli all’avanguardia pubblicamente disponibili, tra cui l’originale Claude 3.5 Sonnet e GPT-4o. Grazie alla bassa latenza, al miglioramento dell’esecuzione delle istruzioni e all’uso più accurato degli strumenti, Claude 3.5 Haiku è particolarmente adatto per i prodotti rivolti all’utente, per le attività specializzate dei subagenti e per la generazione di esperienze personalizzate a partire da enormi volumi di dati, come la cronologia degli acquisti, i prezzi o i registri di magazzino. Claude 3.5 Haiku sarà disponibile nel corso del mese attraverso le API Anthropic di prima parte, Amazon Bedrock e Vertex AI di Google Cloud, inizialmente come modello di solo testo e successivamente con l’inserimento di immagini.
Per quanto riguarda computer use, Anthropic sta provando qualcosa di fondamentalmente nuovo. Invece di creare strumenti specifici per aiutare Claude a completare singoli compiti, il team gli sta insegnando le competenze informatiche generali, consentendogli di utilizzare un’ampia gamma di strumenti standard e programmi software progettati per le persone. Gli sviluppatori possono usare questa capacità nascente per automatizzare processi ripetitivi, sviluppare e testare software e condurre attività aperte come la ricerca.
Per rendere possibili queste capacità generali, il team ha sviluppato un’API che consente a Claude di percepire e interagire con le interfacce del computer. Gli sviluppatori possono integrare questa API per consentire a Claude di tradurre istruzioni (ad esempio, “usa i dati dal mio computer e online per compilare questo modulo”) in comandi informatici (ad esempio, controlla un foglio di calcolo, sposta il cursore per aprire un browser web, naviga verso le pagine web pertinenti, compila un modulo con i dati di quelle pagine e così via). Su OSWorld, che valuta la capacità dei modelli di intelligenza artificiale di utilizzare i computer come le persone, Claude 3.5 Sonnet ha ottenuto un punteggio del 14,9% nella categoria delle sole schermate, nettamente superiore al 7,8% del sistema di intelligenza artificiale successivo. Quando gli sono stati concessi più passaggi per completare il compito, Claude ha ottenuto un punteggio del 22,0%.
Anche se il team si aspetta che questa capacità migliori rapidamente nei prossimi mesi, l’attuale capacità di Claude di utilizzare i computer è imperfetta, sottolinea Anthropic. Alcune azioni che le persone eseguono senza sforzo – scorrere, trascinare, zoomare – rappresentano attualmente una sfida per Claude e incoraggiamo gli sviluppatori a iniziare l’esplorazione con compiti a basso rischio. Poiché l’uso del computer può fornire un nuovo vettore per minacce più familiari come lo spam, la disinformazione o la frode, il team sta adottando un approccio proattivo per promuoverne l’uso sicuro. Anthropic ha sviluppato nuovi classificatori in grado di identificare quando viene utilizzato il computer e se si sta verificando un danno. Per saperne di più sul processo di ricerca alla base di questa nuova abilità, insieme a un’ulteriore discussione sulle misure di sicurezza, è possibile leggere il post sullo sviluppo di computer use.