Google Gemini présente des visualisations interactives pour améliorer l’apprentissage de l’IA

8

Google fait évoluer son Gemini AI d’un outil qui « montre » simplement des images à un outil qui « démontre » des processus complexes. Une nouvelle mise à jour permet au chatbot de générer des visualisations interactives et dynamiques directement dans l’interface de chat, dépassant ainsi les limites de l’imagerie statique.

Des images statiques aux simulations dynamiques

Auparavant, lorsque les utilisateurs demandaient à Gemini de visualiser un concept, l’IA s’appuyait sur ses capacités de génération d’images pour produire une image unique et immobile. Bien qu’utiles à des fins artistiques, les images statiques ne parviennent souvent pas à expliquer comment les choses bougent, changent ou fonctionnent au fil du temps.

Avec cette nouvelle fonctionnalité, Gemini peut créer des simulations que les utilisateurs peuvent manipuler. Au lieu de simplement regarder l’image d’un concept, les utilisateurs peuvent s’y intéresser. Ceci est réalisé grâce à un workflow spécifique :
1. L’utilisateur demande à Gemini de « me montrer » ou de « m’aider à visualiser » un sujet spécifique.
2. Un bouton intitulé “montre-moi la visualisation” apparaît dans le chat.
3. Cliquer sur le bouton génère un modèle dynamique et interactif.

Fonctionnalité pratique : pièces mobiles et commandes

Les premiers tests de la fonctionnalité révèlent que ces visualisations ne sont pas de simples animations, mais des modèles fonctionnels avec des paramètres contrôlés par l’utilisateur.

Par exemple, lors de la visualisation de la mécanique céleste (telle que l’orbite de la Lune autour de la Terre), l’outil propose des curseurs qui permettent aux utilisateurs d’ajuster la vitesse de l’orbite et de modifier l’angle de vue. De même, lors de l’explication des processus mécaniques (tels que le fonctionnement interne d’un moteur de voiture), l’interface permet aux utilisateurs de lire l’animation ou de parcourir manuellement chaque étape du cycle.

Cette capacité transforme l’IA d’un répondeur passif en un outil éducatif actif, ce qui la rend beaucoup plus efficace pour expliquer la physique, l’ingénierie ou la biologie.

Le paysage concurrentiel : Gémeaux contre Claude

Google n’est pas le premier à s’engager dans cette direction. En mars, Anthropic a introduit des fonctionnalités similaires pour son IA Claude, qui a également impressionné les utilisateurs par sa capacité à restituer des idées complexes.

Il existe cependant un écart fonctionnel notable entre les deux :
Claude permet actuellement aux utilisateurs de sauvegarder leurs visuels générés pour une utilisation ultérieure.
Gemini ne dispose actuellement pas d’un mécanisme pour sauvegarder ou exporter ces simulations interactives.

À mesure que la course à l’IA « multimodale » – une IA capable de traiter et de créer du texte, des images, des vidéos et des données interactives – s’intensifie, la capacité de conserver et de revisiter ces aides visuelles complexes deviendra probablement un différenciateur essentiel.

Disponibilité et exigences techniques

Le déploiement de cette fonctionnalité est actuellement en cours à l’échelle mondiale, mais il existe des limitations spécifiques à garder à l’esprit :
Exigence du modèle : Les visualisations ne sont générées que lors de l’utilisation du modèle Gemini Pro.
Restrictions liées au compte : La fonctionnalité n’est actuellement pas disponible pour les comptes Google Workspace ou Education.

Bien que cette fonctionnalité marque une étape importante vers un apprentissage plus intuitif basé sur l’IA, son utilité à long terme dépendra de la capacité de Google à accroître sa complexité et à ajouter la possibilité de sauvegarder ces sessions interactives.

En résumé, la nouvelle fonctionnalité interactive de Google fait passer Gemini d’un générateur de texte et d’images à un outil de simulation fonctionnel, même s’il est actuellement à la traîne de ses concurrents en termes de gestion de fichiers et de capacités d’enregistrement.