JEPA, LLM: pourquoi Yann LeCun pense que l’IA générative est une impasse

Depuis deux ans, le débat sur l’IA ressemble souvent à une conversation à sens unique. D’un côté, les LLM occupent tout l’espace. De l’autre, quelques chercheurs rappellent qu’aligner des milliards de tokens ne suffit peut-être pas pour construire une machine qui comprend vraiment le monde.

Yann LeCun est de ceux-là.

Le chercheur en chef de l’IA chez Meta répète depuis plusieurs années la même idée : les LLM sont utiles et impressionnants, mais ils ne constituent pas une voie crédible vers une intelligence de niveau humain. Dans sa vision, l’avenir ne passe pas par des modèles qui génèrent mot après mot, mais par des systèmes capables de prédire des représentations abstraites du monde, d’anticiper et de raisonner. C’est là qu’entre en scène JEPA, pour Joint-Embedding Predictive Architecture.

L’IA générative est-elle donc une impasse ?

Si l’objectif est de dépasser le chatbot compétent pour aller vers une IA qui comprend, prévoit et agit, alors la critique de LeCun mérite mieux qu’un simple tweet viral.

JEPA vs LLM : deux façons très différentes d’apprendre

Un LLM apprend principalement à prédire le prochain token. C’est une mécanique qui permet de produire du texte cohérent, résumer, coder… Mais cette logique reste fondée sur la continuité statistique d’une séquence. Le modèle excelle à prolonger une forme. Il ne construit pas nécessairement une représentation robuste du monde physique, des causalités ou des contraintes réelles. C’est précisément ce que LeCun critique lorsqu’il affirme que les LLM sont utiles, mais ne sont pas une voie vers une IA de niveau humain.

JEPA suit une autre logique. Au lieu de générer des pixels, des mots ou des frames une par une, l’architecture cherche à prédire une représentation abstraite d’une partie manquante à partir du contexte observé. L’idée est importante : on ne demande plus au modèle de reconstruire toute la surface du signal, mais de capturer ce qui compte sémantiquement. Dans son papier de référence, LeCun présente JEPA et H-JEPA comme des architectures non génératives destinées à apprendre des modèles prédictifs du monde, avec une hiérarchie de représentations.

Dit autrement :

le LLM apprend surtout à continuer
JEPA essaie d’apprendre à comprendre ce qui est plausible
un World Model vise à prévoir ce qui peut arriver ensuite dans le monde réel

C’est une différence de philosophie avant d’être une différence d’architecture.

Pourquoi Yann LeCun critique les LLM

La critique de LeCun n’est pas que les LLM “ne marchent pas”. Ce serait absurde. Ils marchent très bien sur un grand nombre de tâches. Sa critique est plus profonde : ils ne possèdent pas certains aspects jugés nécessaires à une intelligence plus générale.

Les LLM modélisent bien le langage, pas forcément le monde

Le langage compresse une partie de notre connaissance, mais seulement une partie. Un enfant apprend énormément en observant, en manipulant, en testant des hypothèses. LeCun insiste justement sur ce point dans A Path Towards Autonomous Machine Intelligence : les humains et les animaux apprennent des world models internes, c’est-à-dire des modèles du fonctionnement du monde, largement par observation, puis les utilisent pour prédire, raisonner et planifier.

Les LLM sont coûteux, fragiles et souvent superficiels

Un LLM peut produire une réponse brillante, puis échouer sur une question qui demande de respecter des contraintes physiques, de maintenir un plan cohérent ou de distinguer ce qui est plausible de ce qui est juste grammaticalement probable. Cette conclusion reste en partie une inférence, mais elle est cohérente avec le programme de recherche que LeCun défend depuis 2022.

JEPA, le successeur logique des World Models

Pour comprendre pourquoi JEPA suscite autant d’intérêt, il faut revenir à l’idée de World Model.

Un World Model est un système qui apprend une représentation interne du monde assez riche pour anticiper ses évolutions, estimer ce qui est probable, exclure ce qui est impossible et aider à la prise de décision. Dans son texte fondateur, LeCun présente justement les world models comme l’un des chemins centraux pour obtenir du sens commun et de la planification sous incertitude.

Pourquoi JEPA est plus proche du réel que l’IA générative classique

Les modèles génératifs classiques paient souvent un prix élevé pour reconstruire tous les détails d’un signal. Or, tous les détails ne sont pas utiles. Une ombre, un bruit visuel ou un micro-variation de texture n’aident pas toujours à prendre une décision.

JEPA cherche au contraire à apprendre des variables latentes plus stables. Le modèle prédit la représentation d’une zone manquante à partir d’une autre zone observée. Ce choix oblige le système à se concentrer sur les structures pertinentes, pas sur la copie fidèle de la surface. C’est le cœur même de l’approche I-JEPA présentée par Meta : une méthode non générative d’apprentissage auto-supervisé qui prédit des représentations sémantiques, plutôt que des pixels.

De I-JEPA à V-JEPA 2

Meta a progressivement étendu la recherche de JEPA. Après I-JEPA pour l’image, Meta a présenté V-JEPA 2 comme un world model appris à partir de la vidéo, capable de compréhension, de prédiction et même de planification en contexte physique, avec des démonstrations de contrôle robotique en zero-shot dans de nouveaux environnements.

Autrement dit, on n’est plus seulement dans une théorie élégante. On commence à voir une tentative concrète de relier perception, anticipation et action.

Pour approfondir le sujet côté Fenxi, tu peux aussi lire cette analyse comparative : World Models vs LLM.

IA prédictive vs IA générative : faut-il vraiment choisir ?

Poser “JEPA vs LLM” comme un match est utile pour capter l’attention, mais moins pour comprendre ce qui se joue. En pratique, l’IA générative ne va pas disparaître. Elle est trop utile pour l’interface, la rédaction, le code ou la création de contenu. La vraie question est plutôt : quelle architecture faut-il pour dépasser l’utilité linguistique et aller vers une intelligence plus robuste ?

La réponse la plus sérieuse, aujourd’hui, est sans doute la suivante : les LLM resteront probablement une couche d’interaction majeure, mais ils pourraient ne pas être le cœur cognitif des systèmes les plus avancés. Sur ce point, l’hypothèse de LeCun est claire : le futur se joue davantage du côté des architectures prédictives, hiérarchiques et multimodales que du côté du simple next-token prediction.

Est-ce que l’IA générative est une impasse ?

La bonne réponse est : très probablement pour l’AGI forte, non pour le business à court terme.

Les LLM ont déjà trouvé leur marché. Ils réduisent le coût de production de texte et accélèrent le développement logiciel. Mais si l’on croit que la prochaine révolution viendra uniquement de modèles plus gros, entraînés sur plus de texte, alors la critique de LeCun est sérieuse. Son argument central est qu’une intelligence capable de comprendre le monde doit apprendre des représentations hiérarchiques, manipuler l’incertitude, anticiper les conséquences d’actions et raisonner au-delà des corrélations de surface. C’est exactement le terrain des world models et des architectures de type JEPA.

Conclusion : Yann LeCun a-t-il raison ?

Sur un point, probablement oui : les LLM ne sont pas toute l’IA.

Ils dominent l’actualité parce qu’ils sont visibles, monétisables et faciles à démontrer. Mais le prochain saut pourrait venir d’architectures moins spectaculaires en démo, plus profondes dans leur ambition : apprendre des modèles internes du monde, abstraire ce qui compte, prévoir ce qui peut arriver et planifier quoi faire ensuite. C’est précisément ce que JEPA essaie d’apporter.