Google presenta Gemini, nuova frontiera dell'Intelligenza Artificiale

- di: Barbara Bizzarri

07/12/2023

Google ha finalmente presentato Gemini, il primo modello di intelligenza artificiale in grado di comprendere e operare su diversi tipi di informazioni, tra cui testo, codice, audio, immagini e video. In una nota nel blogpost, gli scienziati di Mountain View scrivono che è anche il modello più flessibile di Google AI, in grado di funzionare su qualsiasi dispositivo, dai data center ai dispositivi mobili.

Google presenta Gemini, nuova frontiera dell'Intelligenza Artificiale

Sundar Pichai, Ceo di Google e Alphabet (nella foto), che qualche mese fa ha paragonato l’impatto dell’IA generativa sulla vita dell’uomo a quello determinato dalla "scoperta del fuoco e dell’elettricità”, ha lanciato Gemini affermando che “la transizione che stiamo vivendo attualmente con l'intelligenza artificiale sarà la più profonda della nostra vita, molto più grande del passaggio ai dispositivi mobili o al web che l'ha preceduta”.

Gemini si declina in tre versioni: Gemini Ultra, il modello più grande e in grado di eseguire compiti altamente complessi; Gemini Pro che entrerà dentro in Bard e nel motore di ricerca, e Gemini Nano che è il modello più efficiente in grado di lavorare anche negli smartphone a partire dalla famiglia Pixel. Quello Ultra, il più potente, secondo quanto emerge da una tabella ha prestazioni superiori a quelle di Gpt-4, mentre Gemini Ultra è il primo modello a superare gli esperti umani in MMLU (massive multitask language understanding), che utilizza una combinazione di 57 soggetti come matematica, fisica, storia, diritto, medicina ed etica per testare sia la conoscenza del mondo che le capacità di risoluzione dei problemi. Il sistema risponde a domande, sintetizza il testo e traduce meglio degli umani, ma è bene sottolineare che questi modelli non sono ancora in grado di operare un ragionamento sulla migliore spiegazione dei fatti. Gpt-4 non è multimodale nel senso tradizionale del termine. È un modello di linguaggio avanzato che può comprendere e generare testo, ma non elabora direttamente input di altri tipi, come immagini o suoni. Tuttavia, GPT-4 può interagire con altri strumenti e modelli che gestiscono input multimodali. Ad esempio, può utilizzare DALL-E per creare immagini da descrizioni testuali o collaborare con sistemi di elaborazione del suono per applicazioni specifiche. Quindi, mentre GPT-4 stesso non è multimodale, può essere parte di un sistema multimodale più ampio. Gemini Ultra eccelle in diversi benchmark di codifica, tra cui HumanEval, un importante standard industriale per valutare le prestazioni nelle attività di codifica, e Natural2Code, il dataset interno che utilizza fonti generate dall’autore anziché informazioni basate sul web. Gemini può anche essere utilizzato come motore per sistemi di codifica più avanzati.

Perciò, qual è la novità? Gemini si affida all’apprendimento automatico “per rinforzo”. Cioè a un sistema di premio e punizioni per insegnare come comportarsi a seconda delle situazioni in ambito AI generativa. Questo modello è stato addestrato a riconoscere e comprendere testo, immagini, audio e altro ancora simultaneamente, in modo da comprendere meglio le informazioni sfumate e rispondere alle domande relative a argomenti complessi. Questo, spiega Google, lo rende particolarmente bravo a spiegare il ragionamento in soggetti complessi come la matematica e la fisica. Le demo mostrate svelano una capacità di ragionamento per cui il sistema riesce a dare senso a informazioni scritte e visive complesse. Per esempio è in grado di contestualizzare quello che vede e rispondere alle domande relative ad argomenti complicati. Ciò lo rende particolarmente bravo a spiegare il ragionamento in soggetti complessi come la matematica e la fisica.

Eli Collins, vicepresidente di Google DeepMind, ha spiegato che “finora l'approccio standard alla creazione di modelli multimodali, ovvero IA capaci di interagire con diverse modalità di input e output, dai testi alle immagini, è stato quello di sviluppare componenti separati e poi di metterli insieme. Questi modelli sono molto efficienti se si tratta di fare una determinata operazione, come descrivere un’immagine per esempio, ma fanno difficoltà invece quando hanno a che fare con concetti difficili o con ragionamenti complicati. Gemini, invece, è stata addestrata fin dall’inizio su tipologie di dati differenti come testo, immagini, audio e così via. In questo modo può intuire le sfumature di determinate informazioni contenute in immagini o audio, per esempio, e può ragionare su problemi di matematica o fisica”. Parole cui è seguita una dimostrazione pratica: in un video preregistrato, Sam Cheung, Interaction designer di Google, mostra come la nuova IA sia capace non solo di “leggere”, analizzare e risolvere un problema di matematica scritto su un foglio, ma anche di controllare le risposte date dall’utente a quel problema e di spiegare all’essere umano dove ha sbagliato e perché.

Per quanto riguarda invece la modalità di realizzazione, Gemini è stato addestrato su una generazione di acceleratori proprietari Tensor Processing Units (TPUs) V4 e v5 che Google ha definito più potenti, scalabili ed efficienti. Insieme a Cloud TPU v5p, progettato per l’addestramento di modelli di intelligenza artificiale all’avanguardia questa nuova generazione di TPU annunciata oggi “accelererà lo sviluppo di Gemini e aiuterà gli sviluppatori e i clienti aziendali ad addestrare modelli di intelligenza artificiale generativa su larga scala più velocemente”.

Il sistema risponde ai principi di IA responsabile di Google e ha valutazioni di sicurezza più complete di qualsiasi modello di intelligenza artificiale realizzati a Mountain View fino ad oggi, comprese quelle per i pregiudizi e la tossicità. Google utilizza benchmark come Real Toxicity Prompts, un set di 100.000 prompt con vari gradi di tossicità estratti dal web, sviluppato da esperti dell’Allen Institute of AI. Ulteriori dettagli su questo lavoro saranno disponibili a breve. Per ora, nelle prossime settimane Gemini sarà disponibile in altri prodotti e servizi di Google come Search, Ads, Chrome e Duet AI. A partire dal 13 dicembre, sviluppatori e aziende potranno accedere a Gemini Pro tramite l’API Gemini in Google AI Studio o Google Cloud Vertex AI. Gli sviluppatori Android potranno anche lavorare con Gemini Nano, il modello più efficiente di Google per le attività sul dispositivo, tramite AICore, una nuova capacità di sistema disponibile in Android 14, a partire dai dispositivi Pixel 8 Pro. Ci vorrà invece più tempo per Gemini Ultra, mentre, quanto a Bard all’inizio del prossimo anno nascerà la sua versione Advanced che darà accesso anche a Gemini Ultra.

“Con Gemini abbiamo anche fatto progressi enormi in termini di fattualità”, ha ribadito Collins, riferendosi alla capacità dell’IA di basare le sue risposte su fatti concreti e sulla realtà oggettiva, di modo da evitare le “allucinazioni” tipiche dell’intelligenza artificiale generativa, vale a dire la tendenza a produrre risposte plausibili e coerenti ma dal contenuto inventato. E conclude: “Gemini è il nostro modello migliore da questo punto di vista, ma quello dei possibili errori è un problema dell’IA ancora irrisolto. per questo su Bard abbiamo uno strumento integrato che permette di verificare le informazioni generate”.

Tags: google, gemini, innovation, ia