Anthropic ha presentato Claude 3.5 Sonnet, la prima versione della prossima famiglia di modelli AI Claude 3.5. Secondo la società AI, Claude 3.5 Sonnet alza il livello di intelligenza del settore, superando i modelli della concorrenza e Claude 3 Opus su un’ampia gamma di valutazioni, con la velocità e il costo del modello di Anthropic di fascia media, Claude 3 Sonnet.
Claude 3.5 Sonnet è ora disponibile gratuitamente su Claude.ai e sull’app Claude iOS, mentre gli abbonati ai piani Claude Pro e Team possono accedervi con limiti significativamente più elevati. È disponibile anche tramite Anthropic API, Amazon Bedrock e Vertex AI di Google Cloud. Il modello costa 3 dollari per milione di token in input e 15 dollari per milione di token in output, con una finestra di contesto di 200.000 token.
Anthropic afferma che Claude 3.5 Sonnet è in grado di stabilire nuovi parametri di riferimento per il graduate-level reasoning (GPQA), l’undergraduate-level knowledge (MMLU) e per la capacità nel coding (HumanEval). Secondo il team, il nuovo modello mostra un netto miglioramento nel cogliere le sfumature, l’umorismo e le istruzioni complesse, ed è superiore nella scrittura di contenuti di alta qualità con un tono naturale.
Inoltre, il team sottolinea che Claude 3.5 Sonnet opera a una velocità doppia rispetto a Claude 3 Opus. Questo incremento di prestazioni, unito a un prezzo conveniente, rende Claude 3.5 Sonnet ideale per attività complesse come l’assistenza clienti sensibile al contesto e l’orchestrazione di flussi di lavoro in più fasi.
In una valutazione interna di coding, Claude 3.5 Sonnet ha risolto il 64% dei problemi, superando Claude 3 Opus che ne ha risolti il 38%. La valutazione di Anthropic ha testato la capacità del modello di correggere un bug o di aggiungere funzionalità a una base di codice open source, data una descrizione in linguaggio naturale del miglioramento desiderato. Se istruito e dotato degli strumenti necessari, Claude 3.5 Sonnet è in grado di scrivere, modificare ed eseguire codice in modo indipendente, con sofisticate capacità di ragionamento e risoluzione dei problemi. Gestisce con facilità le traduzioni di codice, il che lo rende particolarmente efficace per l’aggiornamento di applicazioni preesistenti e la migrazione di basi di codice.
Anthropic presenta Claude 3.5 Sonnet anche come il modello vision più potente dell’azienda, superando Claude 3 Opus nei benchmark di visione artificiale standard. Questi miglioramenti sono particolarmente evidenti nei compiti che richiedono un ragionamento visivo, come l’interpretazione di grafici e diagrammi. Claude 3.5 Sonnet è anche in grado di trascrivere accuratamente il testo da immagini imperfette, una capacità fondamentale per i settori della vendita al dettaglio, della logistica e dei servizi finanziari, dove l’intelligenza artificiale può ricavare più informazioni da un’immagine, un grafico o un’illustrazione che dal solo testo.
Anthropic ha presentato anche Artifacts su Claude.ai, una nuova funzionalità che amplia il modo in cui gli utenti possono interagire con Claude. Quando un utente chiede a Claude di generare contenuti come snippet di codice, documenti di testo o progetti di siti web, questi artefatti appaiono in una finestra dedicata accanto alla conversazione. In questo modo si crea uno spazio di lavoro dinamico in cui gli utenti possono vedere, modificare e sviluppare le creazioni di Claude in tempo reale, integrando perfettamente i contenuti generati dall’intelligenza artificiale nei loro progetti e flussi di lavoro.
Questa anteprima dal punto di vista di Anthropic segna l’evoluzione di Claude da IA conversazionale ad ambiente di lavoro collaborativo ed è solo l’inizio di una visione più ampia di Claude.ai, che presto si espanderà per supportare la collaborazione tra team. Nel prossimo futuro, i team e, in ultima analisi, le intere organizzazioni saranno in grado di centralizzare in modo sicuro le loro conoscenze, i documenti e il lavoro in corso in un unico spazio condiviso, con Claude che fungerà da collega su richiesta.
Per quanto riguarda la privacy e la sicurezza, Anthropic sottolinea che i suoi modelli sono sottoposti a test rigorosi e sono stati addestrati per ridurre gli abusi. Nonostante il salto di intelligenza di Claude 3.5 Sonnet, le valutazioni di red teaming hanno concluso che Claude 3.5 Sonnet rimane nell’ASL-2. Maggiori dettagli sono disponibili nell’addendum alla scheda del modello.
Nell’ambito dell’impegno dell’azienda per la sicurezza e la trasparenza, il team ha collaborato con esperti esterni per testare e perfezionare i meccanismi di sicurezza di questo ultimo modello. Di recente l’azienda ha fornito Claude 3.5 Sonnet all’Artificial Intelligence Safety Institute del Regno Unito (UK AISI) per la valutazione della sicurezza pre-impiego. L’UK AISI ha completato i test di 3.5 Sonnet e ha condiviso i risultati con l’Istituto degli Stati Uniti (US AISI) nell’ambito di un memorandum d’intesa, reso possibile dalla partnership tra gli AISI US e UK annunciata all’inizio di quest’anno.
Il team di Anthropic ha integrato il feedback sulle policy di esperti esterni in materia per garantire che le valutazioni dell’azienda siano solide e tengano conto delle nuove tendenze in materia di abusi. Questo impegno ha aiutato i team a incrementare la capacità di valutare 3.5 Sonnet contro vari tipi di abuso. Ad esempio, il team ha utilizzato il feedback degli esperti di sicurezza dei bambini di Thorn per aggiornare i classificatori e perfezionare i modelli dell’azienda.
Uno dei principi costituzionali fondamentali che guida lo sviluppo dei modelli di intelligenza artificiale di Anthropic – afferma l’azienda – è la privacy. Il team dichiara che non addestra i suoi modelli generativi sui dati inviati dagli utenti, a meno che questi ultimi non diano il permesso esplicito di farlo. Finora l’azienda afferma di non aver utilizzato dati inviati da clienti o utenti per addestrare i suoi modelli generativi.
L’obiettivo di Anthropic è quello di migliorare sostanzialmente la curva di compromesso tra intelligenza, velocità e costo ogni pochi mesi. Per completare la famiglia di modelli Claude 3.5, nel corso dell’anno verranno rilasciati Claude 3.5 Haiku e Claude 3.5 Opus.
Oltre a lavorare sulla famiglia di modelli di nuova generazione, l’azienda sta sviluppando nuove modalità e funzionalità per supportare più casi d’uso per le aziende, comprese le integrazioni con le applicazioni aziendali. Il team sta anche esplorando funzionalità come Memory, che consentirà a Claude di ricordare le preferenze e la cronologia delle interazioni dell’utente, rendendo la sua esperienza ancora più personalizzata ed efficiente.