Je note

Cet article est noté 5/5 par 1 de nos lecteurs

Avec Google Gemini, Google revient en maître dans la course à l’IA

Publié11 décembre 2023 Écrit par Hugo Essique Nb de vues 1297 Commentaires 0

En décembre 2023, après Meena et Bard, Google fait un retour fracassant dans la course à l'IA générative en sortant mondialement Google Gemini.

google gemini

Focus sur Google Gemini, ce modèle de langage génératif et multimodal à la destinée prometteuse.

Google Gemini : c’est quoi ?

Gemini est la dernière innovation de Google.

Après avoir développé Meena puis Bard, Google s’est activé à développer une IA se suffisant à elle-même pour épouser les différents canaux de communication (texte, image et son). Il s’agit d’une intelligence artificielle (IA) générative et multimodale.

Gemini signifie Generalized Multimodal Intelligence Network.

Un IA multimodale : intégrer nativement texte, audio et image

OpenAI et son ChatGPT génèrent du texte, et seulement du texte.

Pour générer une image, vous devez utiliser Dall-E et pour des audios Whisper. Pour une génération artificielle exhaustive sur les différents canaux de communication, à savoir le texte, l’image et le son, vous devez par conséquent utiliser 3 systèmes différents.

Google souhaitait un seul et unique outil capable de fonctionner en multimodal : l’idée de Gemini était née pour une expérience native la plus complète possible en intelligence artificielle !

Google Gemini a été développé pour améliorer les fonctionnalités des différents produits Google, tels que :

  • Bard,
  • Google Docs et Google Slides,
  • Google Translate,
  • Google Photos,
  • Google Assistant,
  • Google Maps,
  • YouTube,
  • et Google Search.

Gemini est un algorithme multimodal : il peut tirer des informations de différentes sources de données simultanément.

Les utilisateurs pourront lui fournir des données issues de différents types de sources tels que des vidéos, des images ou du texte afin qu’il élabore des réponses concrètes. Google s’est engagé à n’utiliser que des bases de données libres de droits pour entraîner son nouveau modèle.

Gemini : le projet de la suprématie en IA pour Google ?

Ce projet est conçu pour surpasser les capacités des modèles d’intelligence artificielle générative existant (GPT-4 notamment).

Semi-Analysis, dans un article paru fin août 2023,  explique que Gemini pourrait être environ 5 fois plus puissant que ChatGPT avec sa version GPT-4. 1 arguant que « Le géant endormi, Google, s’est réveillé ».

Lors de la parution de l’article, nul ne savait encore si Google Gemini serait accessible au grand public.

Gemini : Sundar Pichai présente l’IA multimodale de Google

Le 6 décembre dernier, Sundar Pichai, CEO de Google, et Demis Hassabis, CEO de Google DeepMind, ont présenté Google Gemini.

Dans cet article, Sundar Pichai rebondit sur l’essor technologique que connaît le monde depuis l’arrivée de l’IA dans notre quotidien personnel et professionnel. Il y voit un apport encore plus important que l’avènement du smartphone ou même d’Internet !

Comment fonctionne l’IA Gemini ?

L’architecture du nouveau LLM* de Google combine un encodeur et un décodeur multimodaux.

Cette dualité est au cœur de la puissance de Gemini AI. Le procédé s’appuie sur le succès des modèles linguistiques précédents de Google, tels que LaMDA et PaLM, mais avec plusieurs avancées clés issues de la collaboration entre DeepMind et Google AI.

Gemini AI se distingue par sa capacité à évoluer, réduisant ainsi sa dépendance aux données d’entraînement.

L’encodeur multimodal permet d’autoriser tous les formats d’entrée (image, texte, audio) comme l’illustre cette video test de Google.

Dans le cas d’un audio raw en entrée de l’encodeur, le résultat est également impressionnant. Cette conception multimodale favorise une communication transparente directement avec le décodeur, qui à son tour, génère des sorties selon plusieurs formats.

Cela permet une compréhension plus nuancée des informations, « plus humaine », et mène ainsi à des interactions plus engageantes avec les utilisateurs.

*Pour en savoir plus sur Large Langage Model (LLM) 👉 « L’intelligence artificielle et les anglicismes qui gravitent autour de l’IA ».

Quand Gemini sera-t-il mis en service ?

Début décembre 2023, Google annonce que Gemini est d’ores et déjà en service dans Bard.

Il existe en réalité 3 versions de Google Gemini :

  1. Gemini Nano (conçu pour une exécution native et hors-ligne sur les appareils Android),
  2. Gemini Pro (qui sera embarqué au sein de nombreux services Google, dont le chatbot Bard actuellement),
  3. et Gemini Ultra (plus puissant et dédié aux centres de données pour répondre aux besoins importants des entreprises).

Les chanceux utilisateurs du smartphone Pixel 8 Pro seront les premiers à profiter de Gemini Nano dans les prochaines semaines. La version Ultra ne sera disponible que courant 2024, date de sortie à préciser.

Gemini Pro, intégré à Bard

Le chatBot Bard bénéficie désormais du LLM (large language model) dans sa version Gemini Pro… Oui, mais pas pour tout le monde !

En effet, à ce jour, seule la version anglaise est implémentée et est disponible dans 170 pays. L’Union Européenne ne figure pas dans cette liste. Tout comme la sortie de Bard décalée dans les pays de l’UE à sa sortie mondiale, l’application de Gemini doit se conformer à la législation RGPD européenne.

À ce stade, Gemini n’est pas encore accessible directement en France…. À moins de passer par un VPN bien entendu ! Néanmoins, Google annonce travailler sur l’extension de la liste des pays et ainsi le proposer à l’échelle mondiale dans les semaines ou mois à venir.

Après avoir été initialement à la traîne dans le domaine de l’IA par rapport à ses concurrents comme OpenAI par exemple, avec Gemini AI, Google fait un retour tonitruant sur le devant de la scène technologique mondiale.

 

Sources :

  1. Towards a Conversational Agent that Can Chat About…Anything
  2. Bard, un outil d’IA conversationnelle conçu par Google
  3. Google Gemini Eats The World – Gemini Smashes GPT-4 By 5X, The GPU-Poors
  4. Introducing Gemini: our largest and most capable AI model

En vous inscrivant à notre newsletter, vous acceptez que vos données soient utilisées comme mentionné dans notre Politique de confidentialité

ALLER EN HAUT Demander un devis