Google lancia Gemini 2.0: il nuovo modello di AI per l’era agenziale

11 Dicembre 2024

Google ha annunciato il lancio di Gemini 2.0, il nuovo modello di intelligenza artificiale progettato per l’era agenziale. Il CEO di Google e Alphabet, Sundar Pichai, ha spiegato che questo sviluppo rappresenta un passo avanti verso l’obiettivo di organizzare e rendere accessibili le informazioni mondiali attraverso l’intelligenza artificiale, offrendo valore su ogni piattaforma.

La precedente versione, Gemini 1.0, introdotta a dicembre 2023, era stata pensata come il primo modello nativamente multimodale, capace di elaborare dati da testo, immagini, video, audio e codice. Milioni di sviluppatori hanno utilizzato Gemini per migliorare prodotti esistenti e immaginarne di nuovi.

Ora, Gemini 2.0 si presenta con funzionalità ancora più avanzate, tra cui output nativi per immagini e audio e strumenti integrati che delineano il futuro dell’assistente universale. Il modello è attualmente in fase di testing da parte di sviluppatori e tester selezionati, con l’obiettivo di un’integrazione più ampia nei prodotti di Google. Gli utenti potranno già sperimentare una versione iniziale chiamata Gemini 2.0 Flash, che introduce una serie di nuove capacità, come output multimodali e strumenti integrati.

Le novità principali di Gemini 2.0

Gemini 2.0 Flash, la versione sperimentale del nuovo modello, introduce notevoli miglioramenti rispetto ai suoi predecessori. Questo modello è costruito per offrire prestazioni senza precedenti, superando Gemini 1.5 Flash in velocità e capacità computazionali, con tempi di risposta che sono stati dimezzati.

Le nuove funzionalità multimodali non solo elaborano input provenienti da immagini, video e audio, ma generano output altrettanto ricchi e diversificati:

Output visivi: Le immagini vengono create nativamente, integrando dati testuali per generare contenuti altamente personalizzati e visivamente accattivanti.

Sintesi vocale multilingue: La funzione TTS (Text-To-Speech) offre una qualità audio naturale in diverse lingue e accenti, rendendola ideale per applicazioni globali.

Richiamo di strumenti esterni: Gemini 2.0 può utilizzare nativamente servizi come la Ricerca Google, eseguire codice, e interfacciarsi con funzioni definite dagli utenti per creare esperienze più ricche e utili.

Questa versatilità rende il modello uno strumento indispensabile per sviluppatori e aziende, che possono integrarlo facilmente nelle loro applicazioni tramite l’API Gemini. Inoltre, con l’API Multimodal Live, Google sta introducendo la possibilità di gestire audio e video in tempo reale, aprendo nuove frontiere per l’interattività.

Con Deep Research, Google introduce una nuova funzionalità progettata per affrontare le sfide delle ricerche complesse. Questa tecnologia si basa su capacità di ragionamento avanzato e contesti estesi per produrre report dettagliati e organizzati.

Ad esempio gli utenti possono porre domande articolate che richiedono analisi approfondite, come la sintesi di molteplici fonti su argomenti complessi ed è possibile generare report strutturati su richieste di ricerca specifiche, come studi di mercato, analisi di trend o ricerche scientifiche.

Deep Research non si limita a fornire informazioni, ma si distingue per la sua capacità di organizzare e sintetizzare grandi volumi di dati, presentandoli in modo chiaro e personalizzabile. Questo strumento, disponibile in Gemini Advanced, è particolarmente utile per ricercatori, studenti e professionisti che necessitano di dati dettagliati in tempi rapidi.

Progetti sperimentali

Il Project Astra, costruito sulla base di Gemini 2.0, rappresenta una visione ambiziosa per un assistente AI universale capace di adattarsi a qualsiasi contesto. Le sue nuove funzionalità includono:

Miglioramento dei dialoghi: Astra è ora in grado di conversare fluentemente in più lingue, comprendendo anche accenti complessi e termini poco comuni. Ciò consente interazioni più naturali e contestualmente rilevanti.
Memorizzazione personalizzata: Il progetto offre una memoria estesa fino a 10 minuti in una sessione, mantenendo il controllo dell’utente. Questa funzione rende Astra un assistente sempre più personalizzato e capace di adattarsi alle esigenze individuali.
Integrazione con strumenti avanzati: Con Gemini 2.0, Astra può utilizzare Google Lens, Google Maps e altri strumenti per assistere l’utente in attività quotidiane, come la pianificazione di percorsi o la ricerca visiva.

Questa versione aggiornata sarà presto testata su nuove piattaforme, come occhiali con supporto AI, per esplorare le possibilità di un’interazione completamente multimodale nel mondo reale.

Project Mariner, un prototipo per il browser Chrome, è progettato per aiutare gli utenti a navigare e interagire con pagine web complesse. Questo agente può leggere ogni elemento visibile su una pagina — immagini, testo, moduli interattivi — e guidare l’utente nel completamento di attività.

Ad esempio:

Mariner può compilare automaticamente moduli o interpretare grafici complessi, fornendo suggerimenti basati sui dati disponibili.
Per i siti di e-commerce, è in grado di confrontare prodotti, calcolare costi totali e gestire il processo di acquisto in modo sicuro e supervisionato.

Mariner ha raggiunto risultati notevoli nel benchmark WebVoyager, dimostrando la sua capacità di gestire attività complesse nel contesto del web. Anche se ancora in fase iniziale, Google sta lavorando per renderlo più preciso e veloce, integrando meccanismi di sicurezza avanzati per proteggere gli utenti da tentativi di phishing o manipolazione.

Jules: L’assistente per sviluppatori

Con Jules, Google esplora il potenziale degli agenti AI come alleati nel flusso di lavoro degli sviluppatori. Questo agente sperimentale, integrato in piattaforme come GitHub, è progettato per:

Analizzare problemi e proporre soluzioni dettagliate.
Scrivere codice basato su specifiche definite.
Collaborare con gli sviluppatori, sempre sotto la loro supervisione, per accelerare il processo di sviluppo software.

Jules rappresenta un primo passo verso l’automazione intelligente nel campo della programmazione, offrendo strumenti di supporto altamente efficienti per progetti complessi.

Gemini 2.0 nei videogiochi e nella robotica

Google sta anche esplorando il potenziale di Gemini 2.0 nel mondo dei videogiochi e della robotica. Gli agenti AI possono analizzare ambienti virtuali e fornire suggerimenti in tempo reale per superare sfide, esplorando applicazioni che vanno oltre i giochi:

Supporto strategico: In giochi complessi come “Clash of Clans”, l’agente può suggerire mosse ottimali.
Robotica: Gemini 2.0 è in fase di test per applicazioni di ragionamento spaziale nel mondo fisico, aprendo la strada a robot capaci di navigare e interagire con il loro ambiente.

Google lancia Gemini 2.0: il nuovo modello di AI per l’era agenziale

Le novità principali di Gemini 2.0

Progetti sperimentali

LASCIA UN COMMENTO Cancella la risposta

alla

NEWSLETTER

Google lancia Gemini 2.0: il nuovo modello di AI per l’era agenziale

Le novità principali di Gemini 2.0

Progetti sperimentali

LASCIA UN COMMENTO Cancella la risposta

Articoli correlati

Smartphone, Apple guida un mercato globale che cresce del 3% nel Q4 2024

Anthropic ottiene la certificazione ISO 42001 per l’AI responsabile

CES, edizione 2025: 4.500 espositori e 141.000 visitatori da tutto il mondo

alla

NEWSLETTER