Genie 3 de Google DeepMind : le world model temps réel qui génère des mondes interactifs

En août 2025, Google DeepMind a présenté Genie 3, un “world model” : une IA capable de créer un monde 3D interactif à partir d’une simple description. Concrètement, on peut s’y déplacer comme dans un jeu, en temps réel (environ 24 images/seconde), avec une image en 720p, et le monde reste cohérent pendant quelques minutes.

Fin janvier 2026, Google a rendu cette idée plus accessible via Project Genie, une démo en ligne qui permet de générer un monde, de l’explorer, puis de le modifier (“remixer”) pour créer des variantes.

L’intérêt dépasse la démo : Genie 3 illustre une évolution majeure. L’IA ne fait plus seulement du contenu (texte, image, vidéo), elle peut simuler des environnements dans lesquels on interagit, ce qui ouvre des usages bien plus proches du jeu, de la formation ou de la simulation.

World model : définition simple

Un modèle qui prédit “la suite du monde”

Un world model est un système qui apprend la dynamique d’un environnement :

ce qui est probable ensuite,
comment l’état du monde évolue,
et comment les actions d’un agent modifient cet état.

Une IA vidéo classique génère une séquence “comme un film”. Un world model, lui, doit rester cohérent quand vous changez de direction, revenez en arrière, ou déclenchez un événement.

Le vrai défi : cohérence + interactivité + temps réel

DeepMind met en avant trois propriétés clés :

temps réel (interaction fluide ~20-24 fps),
interactif / contrôlable (navigation et événements),
qualité photoréaliste et stabilité quand on revisite une zone.

C’est précisément la combinaison de ces contraintes qui rend le sujet intéressant et difficile.

Genie 3 : ce que DeepMind annonce concrètement

Génération d’environnements jouables à partir d’un prompt

Le principe est qu’un prompt texte décrit le décor, le point de vue, parfois le “style” (réaliste, drone FPV, antique, etc.), et Genie 3 produit un monde dans lequel on se déplace.

Navigation en temps réel et “promptable world events”

Genie 3 ne se limite pas à avancer dans un couloir généré. DeepMind décrit aussi des événements “promptables” : on peut demander un changement (météo, apparition d’objets/personnages, etc.), et le monde s’adapte.

C’est un point important : ça ressemble à une primitive “what-if”, utile pour la simulation, pas seulement pour le fun.

Un usage explicite : entraîner des agents incarnés

DeepMind explique avoir généré des mondes pour tester un agent de type SIMA (agent généraliste pour environnements 3D), afin de vérifier la compatibilité de Genie 3 avec des scénarios orientés “objectifs” et séquences d’actions plus longues.

Fonctionnement théorique : à quoi ressemble l’architecture d’un world model comme Genie 3 ?

DeepMind ne publie pas tous les détails d’implémentation de Genie 3. On peut toutefois déduire une architecture plausible en s’appuyant sur :

ce qu’ils décrivent (temps réel, cohérence, événements, action space),
et la lignée des travaux “Genie” précédents, où l’on retrouve l’idée clé d’un monde génératif piloté par actions appris depuis des vidéos.

1) Une représentation compacte du monde (tokenisation spatio-temporelle)

Pour générer vite, le modèle ne génère pas le monde pixel par pixel. Il encode la scène dans une représentation latente, moins complexe à modéliser que le résultat final (des “tokens” visuels / spatio-temporels), comme le font beaucoup de modèles vidéo modernes.

Pourquoi ?

Parce que manipuler un monde à 24 fps impose un budget de calcul serré : compression + génération incrémentale deviennent indispensables.

2) Un modèle de dynamique : prédire l’état suivant conditionné par l’action

Le cœur d’un world model, c’est un prédicteur :

étant donné l’état courant + l’action utilisateur, quelle est la prochaine observation ?

Dans le papier Genie (2024), DeepMind explique qu’ils construisent un “world model” avec trois composants principaux :

1) Un tokenizer vidéo : compresser la vidéo en “unités”

Une vidéo brute, c’est énorme (des millions de pixels à chaque image).

Le tokenizer sert à compresser chaque frame en une suite de tokens visuels (un peu comme des “morceaux” d’image), beaucoup plus faciles à manipuler pour le modèle.

Idée clé : au lieu de prédire des pixels, le modèle prédit des tokens.

2) Un modèle de dynamique auto-régressif : prédire la suite

Ensuite, ils entraînent un modèle qui apprend à répondre à la question :

“Si je suis à cet instant précis (état du monde), quelle est la suite la plus probable ?”

“Auto-régressif” veut dire qu’il génère étape par étape :

il prédit le prochain token, puis le suivant, etc.

En enchaînant ces prédictions, on obtient la prochaine image, puis la suivante… donc une vidéo.

3) Un modèle d’actions latentes : comprendre les “actions” sans manette

Le gros défi, c’est que les vidéos Internet n’ont pas de logs d’actions (on ne sait pas si la caméra tourne, si le personnage avance, etc.).

DeepMind apprend donc des actions latentes : des “pseudo-actions” découvertes automatiquement à partir des changements observés dans les vidéos.

Exemples intuitifs d’actions latentes :

avancer / reculer
tourner à gauche / droite
monter / descendre
zoomer / dézoomer

Ce ne sont pas des actions annotées par des humains : le modèle invente une représentation d’actions qui explique les transitions entre frames.

3) La cohérence visuelle : mémoire + stabilité des objets (le nerf de la guerre)

DeepMind explique que la cohérence (“consistency”) du monde (c’est à dire qu’un endroit A ne change pas d’une seconde à l’autre) n’est pas obtenue en reconstruisant une vraie scène 3D (comme avec NeRF ou le Gaussian Splatting). À la place, le modèle génère chaque image à la volée, en fonction du prompt et de ce que fait l’utilisateur.

Mais pour que le monde ne “change pas” dès qu’on se retourne, le modèle doit garder une forme de mémoire : il réutilise des informations sur ce qu’il a déjà montré (objets, lieux, détails) pour rester stable quand on repasse au même endroit.

4) Les “world events” : un contrôle textuel au-dessus de la simulation

Les événements promptables ressemblent à un canal de contrôle additionnel : au lieu d’agir uniquement via des actions de navigation, on injecte une instruction qui contraint la suite de la simulation (“il se met à pleuvoir”, “un véhicule arrive”, etc.).

C’est une idée produit très forte : on passe d’un monde “à explorer” à un monde “à diriger”, ce qui ouvre des cas d’usage pro (formation, safety tests, scénarios).

Applications : où Genie 3 peut changer la donne

1) Prototypage de jeux et d’expériences interactives

L’évidence, c’est le jeu vidéo : générer un décor jouable depuis un prompt, tester des ambiances, des “feels”, des déplacements, sans pipeline 3D lourd.

Ce n’est pas “un nouveau moteur” (pas encore), mais c’est une machine à itérations ultra rapides.

2) Simulation pour robotique, logistique, industrie

DeepMind cite explicitement la robotique et la capacité à simuler des scénarios variés.

L’intérêt : générer des environnements “assez réalistes” et surtout diversifiés pour entraîner des politiques de contrôle, tester des comportements, ou créer des situations rares.

Exemples concrets côté industrie :

entraînement en entrepôt (variations infinies de layout / obstacles),
tests de sécurité (comportements inattendus),
apprentissage d’agents “assistants” qui naviguent dans des environnements 3D.

3) Formation, pédagogie, entraînement métier

DeepMind évoque des opportunités pour l’éducation et la formation : mettre les apprenants en situation, multiplier les cas, observer les erreurs, recommencer.

Ça peut concerner : gestes sécurité, procédures, interventions, ou même l’histoire/géographie (explorer un cadre historique généré).

4) Création : animation, fiction, prévisualisation

Le site “Models” de DeepMind positionne aussi Genie 3 sur l’animation et la fiction, ainsi que la simulation de phénomènes naturels (météo, eau, éclairage).

Côté créa, l’enjeu n’est pas seulement de générer une vidéo : c’est de composer une scène en la manipulant.

Limites (importantes) à connaître dès maintenant

DeepMind liste plusieurs limites très claires :

Interactions multi-agents : faire vivre plusieurs personnages en même temps (chacun avec ses objectifs, ses mouvements, ses réactions) est compliqué. Le modèle doit gérer la cohérence des positions, des collisions, des intentions et des interactions sociales, sans que l’un “téléporte” ou que leurs comportements deviennent incohérents.
Géographie du réel : Genie 3 n’est pas conçu pour reproduire fidèlement un lieu réel à l’identique. Il peut générer “un endroit qui ressemble à…”, mais pas une copie fiable au mètre près d’une rue ou d’un bâtiment existant. Donc ce n’est pas un “Google Earth génératif” exact.
Texte : afficher du texte lisible dans le monde (panneaux, étiquettes, affiches) reste difficile pour les modèles génératifs : lettres déformées, mots incohérents, variations d’une frame à l’autre. Ça marche mieux si le texte est explicitement fourni et fortement contraint.
Durée : la cohérence tient sur une courte période (quelques minutes) : objets, décors et logique générale restent stables. Sur des durées longues, le risque augmente que le monde “dérive” (détails qui changent, contradictions, oublis), car maintenir un état persistent sur longtemps est beaucoup plus dur.
Espace d’action limité : aujourd’hui, l’utilisateur (ou l’agent) a surtout des actions “simples” type se déplacer / orienter la caméra. Les “events” (ex. “il commence à pleuvoir”, “un véhicule arrive”) ressemblent plus à des instructions imposées au monde qu’à une action fine exécutée physiquement par l’agent (prendre, pousser, assembler, ouvrir un mécanisme, etc.).

Autrement dit : Genie 3 est déjà impressionnant, mais il ne remplace ni un moteur AAA, ni une simulation physique certifiée, ni un jumeau numérique industriel “au millimètre”.

Ce que ça implique côté produit et business

Les équipes vont prototyper différemment

Si votre produit inclut de la 3D, de la simulation, de la formation interactive, ou même des expériences marketing immersives, un world model change l’économie de l’expérimentation :

on passe de “construire un niveau” à “décrire une intention”,
on teste plus tôt,
on arrête plus vite les mauvaises idées.

La valeur se déplace : de la production vers l’orchestration

Le futur proche ressemble à ça :

IA pour générer le monde,
couche logicielle pour cadrer l’expérience (règles, objectifs, scoring, tracking),
instrumentation data (télémétrie, feedback utilisateur),

Et pour les équipes qui veulent s’y mettre maintenant ?

Même sans accès direct aux modèles les plus avancés, vous pouvez préparer le terrain :

identifier vos cas d’usage (formation ? jeu ? simulateur ? config 3D ?)
définir les contraintes de contrôle (actions nécessaires, durée, multi-agents)
concevoir la couche d’orchestration (règles, objectifs, UI, analytics)
prévoir une stratégie “human-in-the-loop” (validation, modération, QA)