Deux grandes familles dominent les discussions sur “l’IA qui comprend le monde” :

Les LLM (Large Language Models), optimisés pour modéliser des séquences de tokens (texte, puis de plus en plus multimodal).
Les world models (modèles du monde), conçus pour apprendre une dynamique (comment un état évolue sous l’effet d’actions) afin de simuler, planifier et contrôler.

“Lequel est le meilleur modèle ?” n’a pas une seule réponse.

Définition : qu’appelle-t-on un World Model ?

Un world model apprend une représentation latente de l’environnement et une fonction de transition : si je suis dans l’état X et que je fais l’action A, que se passe-t-il ensuite ?

L’intérêt n’est pas seulement de prédire, mais de pouvoir imaginer des futurs et choisir des actions en conséquence.

Exemples emblématiques (au sens large) :

DreamerV3, qui apprend un modèle du monde et “imagine” des trajectoires pour optimiser une politique de contrôle sur de nombreux environnements. Il s’entraîne en testant des actions dans ce monde simulé, plutôt que d’essayer uniquement dans le monde réel
Des world models “foundation” orientés environnements interactifs comme Genie 2 et Genie 3 chez DeepMind, qui visent à générer des environnements jouables et actionnables. Par exemple, un mini-jeu interactif à partir d’une vidéo, et quand tu appuies sur “droite” il produit la suite cohérente du monde comme si tu jouais vraiment.
Des approches de représentation vidéo non génératives comme V-JEPA, qui apprennent par prédiction en espace latent plutôt que par génération pixel-perfect. Le modèle apprend à prévoir ce qui va se passer dans une vidéo en se concentrant sur les concepts importants

Définition : qu’appelle-t-on un LLM ?

Un LLM est un modèle qui apprend des régularités statistiques sur de grandes quantités de données, historiquement du texte. Les LLM modernes s’étendent au multimodal (image, audio, vidéo), tout en gardant une logique “token-centric”.

Point important : un LLM peut “raisonner” au sens où il produit des chaînes d’inférences utiles, mais n’est pas intrinsèquement un simulateur d’environnement. Il peut en revanche émuler des simulations quand la tâche est bien capturable en langage.

World Models vs LLM : critères d’évaluation formels

1) Prédiction fidèle de la dynamique : avantage World Model

Si la tâche exige de prédire des conséquences d’actions dans un système (physique, interface, jeu, robot, logistique), le world model est généralement plus adapté.

DreamerV3 illustre l’intérêt de l’imagination (planning dans un modèle appris) pour résoudre des tâches variées avec un seul algorithme de base.
Genie 2/3 mettent l’accent sur des environnements interactifs générés, en étant orientés agent.

💡 Ce que ça veut dire en pratique : quand “faire une erreur” dans la prédiction de dynamique coûte cher (robot, optimisation opérationnelle, UX agentique sur un logiciel), on veut un modèle qui sait relier action → conséquence, pas seulement produire du texte plausible.

2) Connaissance générale + instruction following : avantage LLM

Pour répondre à des questions, résumer, coder, expliquer, un LLM a souvent un avantage massif, parce qu’il capitalise sur :

une couverture de connaissances large,
une interface naturelle (langage),
une forte capacité d’alignement via instruction tuning.

💡 Ce que ça veut dire : si l’environnement n’est pas le centre du problème (ou s’il est stable et facile à “décrire”), un LLM est souvent la solution la plus rentable. À l’inverse, un LLM est moins performant sur un environnement dur à décrire (en clair, un environnement qu’on ne peut pas décrire seulement avec du texte).

3) Planification longue-horizon : ça dépend

Les world models planifient naturellement en simulant, mais peuvent souffrir si le modèle dérive (erreurs accumulées) ou si l’environnement réel est trop complexe.
Les LLM planifient via heuristiques et chaînes de raisonnement, parfois très efficaces, mais sans garantie de cohérence dynamique.

Les travaux “world simulator” côté génération vidéo (par exemple la manière dont OpenAI présente Sora) montrent la convergence : des modèles génératifs cherchent une cohérence spatio-temporelle suffisante pour ressembler à une simulation.

Une grille simple pour décider

Les World Models performent mieux quand il faut : contrôle, interaction et agents autonomes

Contrôle (choisir des actions optimales sous forte contraintes)
Interaction (boucles perception → action). C’est à dire quand un système : perçoit l’état du monde (ce qu’il “voit” : écran, capteurs, données), décide quoi faire (choisir une action), agit (clic, saisie, mouvement, API call), ré-observe le résultat, et recommence.
Robustesse aux actions (l’action change le monde, pas juste le texte)

Les LLMs performent mieux quand il faut : langage, connaissance et productivité

Compréhension/production de langage
Programmation et orchestration d’outils
Interfaces conversationnelles (ChatOps, copilotes internes)

Les limites de chaque modèle

Limites des World Models

Coût et complexité : il est complexe d’apprendre une dynamique réaliste, stable, contrôlable
Généralisation : un world model entraîné sur un type d’environnement peut mal généraliser ailleurs.
Évaluation : mesurer “compréhension du monde” est plus délicat que mesurer une tâche NLP.

Limites des LLM

Hallucinations : plausibilité verbale ne garantit pas exactitude.
Causalité et actions : un LLM peut expliquer la causalité sans pouvoir la simuler fidèlement.
Fiabilité agentique : en autonomie, les erreurs d’exécution coûtent vite cher (clics, achats, actions irréversibles).

Cas d’usage concrets : comment choisir selon le produit que vous construisez

si vous construisez un CRM, ERP, SaaS

LLM-first si votre valeur est : recherche, rédaction, support, routage de tickets…
World model / simulateur si votre valeur est : optimisation de processus avec décisions séquentielles (planning, supply, pricing dynamique), ou agent qui opère une UI complexe avec feedback.

si vous construisez un agent qui agit dans le monde

“Mon agent doit cliquer, naviguer, tester des scénarios, minimiser les risques” ➡️ Approche hybride recommandée : LLM pour le plan, simulateur (ou environnement sandbox) pour valider avant action réelle.

si vous visez robotique, industrie, XR, jeu

Le world model devient central, car la notion d’action, de friction, de collisions, de temps est au cœur du problème.

Conclusion

La bonne réponse n’est pas “world models vs LLM”, c’est “world models + LLM”

LLM : meilleur moteur généraliste pour langage, connaissance, orchestration et interface.
World model : meilleur candidat pour simuler, planifier et contrôler dans des environnements dynamiques.
Hybride : c’est là que naissent les agents réellement utiles, parce qu’ils peuvent parler, raisonner, et tester avant d’agir.

Si vous voulez une règle de décision simple :

Si votre produit est d’abord textuel et orienté productivité, partez LLM.
S’il est d’abord interaction + action + conséquences, pensez world model (au moins sous forme de simulateur/sandbox), puis connectez un LLM par-dessus.