Sommaire
- Google Gemini : c'est quoi ?
- Un IA multimodale : intégrer nativement texte, audio et image
- Gemini : le projet de la suprématie en IA pour Google ?
- Gemini : Sundar Pichai présente l'IA multimodale de Google
- Comment fonctionne l'IA Gemini ?
- Quand Gemini sera-t-il mis en service ?
- Gemini Pro, intégré à Bard
- Informations mises à jour sur Gemini Pro / Bard (2025)
Avec Google Gemini, Google revient en maître dans la course à l’IA
En décembre 2023, après Meena et Bard, Google fait un retour fracassant dans la course à l'IA générative en sortant mondialement Google Gemini.

En résumé :
- Google Gemini est un modèle de langage génératif et multimodal, intégrant texte, image et audio.
- Conçu pour améliorer les produits Google, il offre une expérience native complète d’intelligence artificielle.
- Gemini, potentiellement 5 fois plus puissant que GPT-4, est déjà intégré dans Bard depuis décembre 2023.
Sommaire
- Google Gemini : c'est quoi ?
- Un IA multimodale : intégrer nativement texte, audio et image
- Gemini : le projet de la suprématie en IA pour Google ?
- Gemini : Sundar Pichai présente l'IA multimodale de Google
- Comment fonctionne l'IA Gemini ?
- Quand Gemini sera-t-il mis en service ?
- Gemini Pro, intégré à Bard
- Informations mises à jour sur Gemini Pro / Bard (2025)
Focus sur Google Gemini, ce modèle de langage génératif et multimodal à la destinée prometteuse.
Google Gemini : c’est quoi ?
Gemini est la dernière innovation de Google.
Après avoir développé Meena puis Bard, Google s’est activé à développer une IA se suffisant à elle-même pour épouser les différents canaux de communication (texte, image et son). Il s’agit d’une intelligence artificielle (IA) générative et multimodale.
Gemini signifie Generalized Multimodal Intelligence Network.
Un IA multimodale : intégrer nativement texte, audio et image
OpenAI et son ChatGPT génèrent du texte, et seulement du texte.
Pour générer une image, vous devez utiliser Dall-E et pour des audios Whisper. Pour une génération artificielle exhaustive sur les différents canaux de communication, à savoir le texte, l’image et le son, vous devez par conséquent utiliser 3 systèmes différents.
Google souhaitait un seul et unique outil capable de fonctionner en multimodal : l’idée de Gemini était née pour une expérience native la plus complète possible en intelligence artificielle !
Google Gemini a été développé pour améliorer les fonctionnalités des différents produits Google, tels que :
- Bard,
- Google Docs et Google Slides,
- Google Translate,
- Google Photos,
- Google Assistant,
- Google Maps,
- YouTube,
- et Google Search.
Gemini est un algorithme multimodal : il peut tirer des informations de différentes sources de données simultanément.
Les utilisateurs pourront lui fournir des données issues de différents types de sources tels que des vidéos, des images ou du texte afin qu’il élabore des réponses concrètes. Google s’est engagé à n’utiliser que des bases de données libres de droits pour entraîner son nouveau modèle.
Gemini : le projet de la suprématie en IA pour Google ?
Ce projet est conçu pour surpasser les capacités des modèles d’intelligence artificielle générative existant (GPT-4 notamment et GTP-5 désormais).
Semi-Analysis, dans un article paru fin août 2023, explique que Gemini pourrait être environ 5 fois plus puissant que ChatGPT avec sa version GPT-4. 1 arguant que « Le géant endormi, Google, s’est réveillé ».
Lors de la parution de l’article, nul ne savait encore si Google Gemini serait accessible au grand public.
Gemini : Sundar Pichai présente l’IA multimodale de Google
Le 6 décembre dernier, Sundar Pichai, CEO de Google, et Demis Hassabis, CEO de Google DeepMind, ont présenté Google Gemini.
Dans cet article, Sundar Pichai rebondit sur l’essor technologique que connaît le monde depuis l’arrivée de l’IA dans notre quotidien personnel et professionnel. Il y voit un apport encore plus important que l’avènement du smartphone ou même d’Internet !
Comment fonctionne l’IA Gemini ?
L’architecture du nouveau LLM* de Google combine un encodeur et un décodeur multimodaux.
Cette dualité est au cœur de la puissance de Gemini AI. Le procédé s’appuie sur le succès des modèles linguistiques précédents de Google, tels que LaMDA et PaLM, mais avec plusieurs avancées clés issues de la collaboration entre DeepMind et Google AI.
Gemini AI se distingue par sa capacité à évoluer, réduisant ainsi sa dépendance aux données d’entraînement.
L’encodeur multimodal permet d’autoriser tous les formats d’entrée (image, texte, audio) comme l’illustre cette vidéo test de Google.
Dans le cas d’un audio raw en entrée de l’encodeur, le résultat est également impressionnant. Cette conception multimodale favorise une communication transparente directement avec le décodeur, qui à son tour, génère des sorties selon plusieurs formats.
Cela permet une compréhension plus nuancée des informations, « plus humaine », et mène ainsi à des interactions plus engageantes avec les utilisateurs.
*Pour en savoir plus sur Large Langage Model (LLM) 👉 « L’intelligence artificielle et les anglicismes qui gravitent autour de l’IA ».
Quand Gemini sera-t-il mis en service ?
Début décembre 2023, Google annonce que Gemini est d’ores et déjà en service dans Bard.
Il existe en réalité 3 versions de Google Gemini :
- Gemini Nano (conçu pour une exécution native et hors-ligne sur les appareils Android),
- Gemini Pro (qui sera embarqué au sein de nombreux services Google, dont le chatbot Bard actuellement),
- et Gemini Ultra (plus puissant et dédié aux centres de données pour répondre aux besoins importants des entreprises).
Les chanceux utilisateurs du smartphone Pixel 8 Pro seront les premiers à profiter de Gemini Nano dans les prochaines semaines. La version Ultra ne sera disponible que courant 2024, date de sortie à préciser.
Gemini Pro, intégré à Bard
Le chatBot Bard bénéficie désormais du LLM (large language model) dans sa version Gemini Pro… Oui, mais pas pour tout le monde !
En effet, à ce jour, seule la version anglaise est implémentée et est disponible dans 170 pays. L’Union Européenne ne figure pas dans cette liste. Tout comme la sortie de Bard décalée dans les pays de l’UE à sa sortie mondiale, l’application de Gemini doit se conformer à la législation RGPD européenne.
À ce stade, Gemini n’est pas encore accessible directement en France…. (en 2023) À moins de passer par un VPN bien entendu ! Néanmoins, Google annonce travailler sur l’extension de la liste des pays et ainsi le proposer à l’échelle mondiale dans les semaines ou mois à venir.
Après avoir été initialement à la traîne dans le domaine de l’IA par rapport à ses concurrents comme OpenAI par exemple, avec Gemini AI, Google fait un retour tonitruant sur le devant de la scène technologique mondiale.
Informations mises à jour sur Gemini Pro / Bard (2025)
Disponibilité du web app
L’application web de Gemini est déjà disponible dans plus de 230 pays et territoires, et dans plus de 40 langues. (Aide Google, blog.google)
Gemini Pro dans Bard
Gemini Pro est intégré à Bard, non plus seulement en anglais, mais dans de nombreuses langues (plus de 40) et dans de nombreux pays. (blog.google, Wikipédia)
En fait, Google annonce qu’il étend Gemini Pro in Bard à plus de 230 pays et territoires. (blog.google)
Application mobile
L’app Gemini mobile est disponible dans plus de 150 pays. (Aide Google)
Note : la version mobile peut avoir des restrictions selon langue/pays/conditions comme le type de compte Google. (Aide Google)
Plans payants / Pro / Ultra
Google a mis en place des abonnements “Google AI Pro” (et Ultra) qui donnent accès à des fonctionnalités avancées : modèles plus puissants, fenêtre de contexte plus grande, etc. (Gemini)
Google AI Pro est disponible dans plus de 150 pays et territoires. Ultra aussi, mais légèrement moins. (Gemini)
Concernant l’Union Européenne / France
L’UE fait désormais partie des zones de disponibilité pour la version web de Gemini (et donc pour Bard avec Gemini Pro) selon les annonces. Cela signifie que la France est incluse dans la disponibilité de Gemini via le web app / Bard. L’application mobile aussi apparaît dans la liste des pays supportés pour beaucoup de fonctions.
Multimodalité / fonctionnalités avancées
Gemini est un modèle multimodal : il peut traiter et combiner différents types de données (texte, image, etc.), selon les versions et les niveaux d’abonnement. Certaines fonctionnalités comme la génération d’images / vérification (“double-check” des réponses) sont étendues à plusieurs langues.
Ce qui reste à clarifier ou surveiller
Bien que Bard / Gemini Pro soit disponible dans l’UE, il peut y avoir des restrictions locales ou des délais d’activation selon l’appareil, le type de compte Google (personnel, entreprise, éducation), etc. La pleine disponibilité de Gemini Ultra ou des modèles les plus avancés reste sujette à calendrier : certains usages “élite” ou très puissants ne sont pas encore ouverts partout.
Il faut vérifier pour chaque région les langues supportées, car même si une langue est annoncée, les traductions ou versions localisées peuvent être moins abouties selon les pays.
Sources :