World models : le concept qui veut dépasser les LLM
Les grands modèles de langage savent écrire, traduire, coder, résumer. Ce qu’ils ne savent pas faire : comprendre que si vous lâchez un verre, il tombe. Cette limite physique, causale, incarnée — c’est précisément ce que les world models cherchent à combler. Depuis fin 2025, la course est officiellement lancée, avec plus de deux milliards de dollars investis en moins de quatre mois. Voici ce qu’il faut comprendre.
Demandez à ChatGPT ce qui se passe si vous posez un verre au bord d’une table. Il vous répondra correctement, parce qu’il a lu des millions de textes qui décrivent ce scénario. Mais il ne comprend pas la gravité — il en a une représentation statistique en langage, pas un modèle interne du monde physique. C’est une distinction qui semble anodine jusqu’au moment où vous confiez à un robot le soin de manipuler des pièces dans une usine, ou à un système médical le soin d’anticiper l’évolution d’un traitement. Là, la différence devient critique.
Les world models — ou modèles du monde — sont une réponse architecturale à cette limite. Plutôt que de prédire le prochain mot d’une séquence de texte, ils apprennent à prédire l’état futur d’un environnement physique : comment les objets bougent, comment les actions ont des conséquences, comment le monde évolue dans le temps. Une idée ancienne en recherche, qui vient de connaître une accélération spectaculaire.
Un world model, concrètement, c’est quoi
Un world model est un système d’IA qui construit une représentation interne de son environnement — une sorte de simulation mentale du monde — à partir d’observations brutes comme des vidéos, des sons ou des données de capteurs. Plutôt que de mémoriser des patterns de surface, il apprend les règles sous-jacentes : la physique, la causalité, la géométrie, les relations entre objets.
Techniquement, l’architecture repose sur trois blocs. Un encodeur qui compresse les observations brutes en une représentation abstraite compacte — l’espace latent. Un modèle de dynamique qui prédit comment cet état va évoluer selon les actions possibles. Des mécanismes d’abstraction hiérarchique qui permettent de raisonner à différents niveaux de détail, du pixel jusqu’au concept. Ce qui distingue cette approche d’un simple modèle prédictif : le world model ne cherche pas à reconstruire chaque pixel de l’avenir — il prédit dans l’espace abstrait, en ignorant ce qui est imprévisible ou non pertinent.
Un LLM prédit le prochain token dans une séquence de texte. Un world model prédit le prochain état d’un environnement physique. Le premier excelle sur le langage, le raisonnement abstrait, le code. Le second vise la compréhension causale du monde réel — ce qui le rend pertinent là où les LLM hallucinent ou échouent : la robotique, la conduite autonome, la médecine, la simulation industrielle.
L’idée n’est pas nouvelle. Elle remonte aux travaux du psychologue Kenneth Craik en 1943, qui conceptualisait les « modèles mentaux » comme la façon dont le cerveau simule la réalité pour anticiper les conséquences de ses actions. En IA, les premières tentatives formalisées datent des années 1990 avec Dyna, l’architecture de Richard Sutton. En 2018, Ha et Schmidhuber publient un article fondateur qui reste une référence : un système entraîné sur des simulations internes plutôt que sur des interactions réelles coûteuses. Ce qui a changé en 2025, c’est l’argent, la puissance de calcul, et la conviction de plusieurs figures majeures de l’IA que ce paradigme est la prochaine étape incontournable.
Pourquoi les LLM ne suffisent pas — l’argument de LeCun
Yann LeCun, Prix Turing 2018 et co-inventeur des réseaux de neurones à convolution, répète depuis plusieurs années que les LLM sont une impasse pour atteindre une intelligence générale. Sa thèse : prédire des tokens textuels, aussi sophistiqué que ce soit, ne permet pas à un système de comprendre le monde physique, de planifier des actions dans la réalité, ou de raisonner de façon causale.
« Les percées ne viendront pas du scaling des LLM », a-t-il déclaré dans une interview à MIT Technology Review en janvier 2026, peu après avoir quitté Meta où il avait passé douze ans à la tête de FAIR. « Les LLM maîtrisent des enchaînements de mots. Ce qui leur donne une compréhension du monde, c’est précisément cette limite — et c’est un plafond de verre. »
Sa solution s’appelle JEPA — Joint Embedding Predictive Architecture — une architecture qu’il a proposée en 2022, avant l’explosion des LLM généralistes. Le principe : JEPA n’est pas un modèle génératif. Il n’essaie pas de reconstruire chaque détail du futur. Il apprend des représentations abstraites de la réalité et fait ses prédictions dans cet espace latent, en ignorant ce qu’il ne peut pas prévoir. « C’est ce que fait un bébé qui apprend la gravité en observant des objets tomber — il ne recalcule pas la trajectoire de chaque molécule », explique LeCun. Résultat : un système plus efficace en calcul, et potentiellement plus robuste face à des situations nouvelles.
Les premières démonstrations de V-JEPA 2 sur des robots physiques sont concrètes : des objets jamais vus pendant l’entraînement, manipulés avec succès dans des configurations entièrement nouvelles. Ce n’est pas de la généralisation statistique — c’est de l’adaptation.
Les acteurs en lice — la course a vraiment commencé
En moins de six mois, entre fin 2025 et début 2026, le paysage a basculé. Quatre initiatives majeures ont émergé simultanément, avec des approches et des ambitions différentes.
AMI Labs — le pari de LeCun sur JEPA
En mars 2026, Yann LeCun lance officiellement AMI Labs (Advanced Machine Intelligence), un laboratoire parisien dédié aux world models basés sur JEPA. Le tour de table : 1,03 milliard de dollars à une valorisation pré-money de 3,5 milliards — le plus grand seed round de l’histoire européenne, devant Mistral AI. Les co-investisseurs incluent Cathay Innovation, Bezos Expeditions, Xavier Niel et Eric Schmidt. LeCun en est le président exécutif ; le CEO est Alexandre LeBrun, cofondateur de Nabla, la startup de santé numérique qui devient le premier partenaire stratégique d’AMI Labs.
Le positionnement est assumé : AMI Labs est avant tout un laboratoire de recherche fondamentale. Pas de produit dans les prochains mois. Les premières discussions avec des partenaires industriels sont attendues dans six à douze mois, les premières applications commerciales sur un horizon de plusieurs années. Les secteurs ciblés sont ceux où les hallucinations des LLM ont les conséquences les plus lourdes : contrôle de processus industriels, robots, dispositifs médicaux portables, healthcare. AMI publie en open source et encourage une communauté de recherche autour de JEPA.
World Labs — Fei-Fei Li et l’intelligence spatiale
World Labs, fondée par Fei-Fei Li — la chercheuse à l’origine d’ImageNet — a levé 230 millions de dollars en 2024 avant de lancer en novembre 2025 son premier produit commercial : Marble. Le modèle génère des environnements 3D persistants et navigables à partir d’une description texte, d’une image, d’une vidéo ou d’un layout 3D approximatif. Les utilisateurs peuvent éditer ces mondes, les étendre, les combiner. Tarification : de la version gratuite à 95 $ par mois. En février 2026, World Labs bouclait un nouveau tour d’environ 1 milliard de dollars à une valorisation de 5 milliards.
L’angle de Fei-Fei Li est l’intelligence spatiale — la capacité à comprendre et naviguer dans des environnements tridimensionnels, que les LLM textuels ignorent structurellement. Si ImageNet a créé les données visuelles qui ont permis la révolution du deep learning, Li parie que la compréhension spatiale sera la prochaine couche fondamentale de l’IA.
Google DeepMind — Genie 3 et les agents incarnés
En août 2025, Google DeepMind sort Genie 3 — présenté comme le premier world model interactif en temps réel à usage général. Le modèle génère des environnements 3D navigables à 24 images par seconde à partir d’un prompt textuel, en maintenant une cohérence visuelle sur plusieurs minutes d’interaction. DeepMind y associe SIMA 2, un agent généraliste capable de recevoir des instructions en langage naturel et de naviguer dans les mondes générés par Genie : c’est une chaîne complète allant de la génération d’environnements à l’entraînement d’agents. Genie 3 reste pour l’instant en preview de recherche limitée, non disponible en accès public.
NVIDIA Cosmos — l’infrastructure de la Physical AI
Lancé au CES 2025, NVIDIA Cosmos se positionne non pas comme un produit final mais comme la plateforme d’infrastructure sur laquelle les autres construiront. Le modèle a été entraîné sur 9 000 trillions de tokens issus de 20 millions d’heures de données réelles — interactions humaines, environnements industriels, robotique, conduite. Cosmos se décline en trois familles : Predict (simulation d’états futurs), Transfer (pont entre simulation et monde réel), Reason (raisonnement physique en chaîne). Les modèles Predict et Transfer sont open source sur GitHub. Résultat : plus de 2 millions de téléchargements début 2026, avec des adopteurs comme Figure AI, Agility Robotics, Waymo, Uber et XPENG.
Runway — le world model appliqué à la vidéo
En décembre 2025, Runway lance GWM-1 (General World Model 1), son premier world model public. L’objectif : dépasser la prédiction d’images frame-by-frame pour créer des « environnements de simulation dynamique » où les objets se déplacent avec un poids, un élan et une force cohérents. Les améliorations de cohérence physique visibles dans Gen-4.5 (qui a atteint un score Elo record de 1 247 sur le benchmark Artificial Analysis, devant Google Veo 3.1 et OpenAI Sora 2) sont directement liées à ces recherches sur les world models.
Les applications concrètes — pas que de la théorie
La question qui revient systématiquement sur les world models est : « très bien, mais à quoi ça sert en pratique ? » La réponse est plus concrète qu’il n’y paraît.
- Robotique — Un robot entraîné dans des simulations générées par un world model peut généraliser à des objets et des configurations jamais vus pendant l’entraînement, sans avoir besoin de millions d’heures d’interaction physique réelle. C’est le cas démontré avec V-JEPA 2, et c’est l’enjeu central de plateformes comme NVIDIA Cosmos pour Figure AI ou Boston Dynamics.
- Conduite autonome — Les scénarios rares mais critiques (piéton imprévisible, météo extrême, véhicule d’urgence surgissant d’un angle mort) peuvent être simulés en masse avant de se produire dans le monde réel. Waymo utilise déjà cette approche pour tester ses systèmes sur des edge cases que la collecte de données réelles ne peut pas couvrir à l’échelle nécessaire.
- Santé — LeBrun (CEO d’AMI Labs) décrit l’évolution cible avec Nabla : passer de la documentation clinique assistée par LLM à la décision clinique assistée par world model — capable de simuler comment un traitement se propage dans l’organisme. C’est le domaine où les hallucinations des LLM ont les conséquences les plus graves, et donc celui où la fiabilité causale d’un world model aurait la valeur la plus haute.
- Industrie — Usines, réacteurs, turbines à réaction : des systèmes avec des milliers de capteurs pour lesquels il n’existe pas de technique capable de construire un modèle holographique complet. Un world model entraîné sur les données de capteurs pourrait prédire les comportements anormaux avant qu’ils deviennent des pannes.
- Jeux vidéo et création 3D — Marble de World Labs permet déjà à des créatifs de générer des environnements 3D navigables en quelques minutes. PitchBook projette que le marché des world models dans le jeu vidéo pourrait passer de 1,2 milliard de dollars (2022–2025) à 276 milliards en 2030.
Les limites réelles — le fossé entre la promesse et le produit
Le tableau serait incomplet sans les objections sérieuses. Et elles existent.
Première limite : le sim-to-real gap. Entraîner un robot dans une simulation est très différent de le faire fonctionner dans le monde physique, avec ses variations de matériaux, d’éclairage, de friction, de poids réels. Ce fossé se réduit à mesure que les simulations gagnent en précision, mais il n’a pas disparu. Les world models ont leurs propres problèmes de généralisation dans des environnements vraiment nouveaux — ce n’est pas une solution magique aux défis de robustesse.
Deuxième limite : le coût computationnel. La simulation de monde est fondamentalement plus coûteuse que la prédiction de tokens. Maintenir un état cohérent, suivre des objets, exécuter des calculs physiques en temps réel exige des ressources matérielles considérablement supérieures à ce que nécessite un LLM en inférence. Cela freine la démocratisation et renforce la dépendance aux infrastructures GPU haut de gamme.
Troisième limite : le temps. LeBrun est transparent là-dessus : AMI Labs n’est pas une startup capable de sortir un produit dans six mois et de générer 10 millions de dollars d’ARR en un an. L’histoire de l’IA est remplie d’architectures qui fonctionnaient brillamment dans des papiers de recherche mais ont échoué à l’échelle industrielle. JEPA a convaincu des investisseurs de la valeur de la thèse — il reste à prouver qu’elle tient à grande échelle dans des conditions réelles.
Ces limites ne disqualifient pas l’approche. Elles en calibrent l’horizon réaliste : des applications industrielles fiables dans deux à cinq ans, pas dans les prochains mois.
Notre avis — une rupture réelle, un calendrier incertain
Le départ de LeCun de Meta, la levée record d’AMI Labs, Marble de Fei-Fei Li disponible en commercial, Genie 3, Cosmos à 2 millions de téléchargements — ce n’est pas de l’agitation médiatique. C’est un signal structurel : une partie des meilleurs chercheurs de la planète, avec des milliards derrière eux, parie que les LLM ne sont pas la fin de l’histoire.
Pour autant, deux erreurs sont à éviter. La première : croire que les world models remplacent les LLM. La thèse qui émerge dans la communauté est plutôt celle de systèmes hybrides — des LLM pour le raisonnement abstrait et le langage, des world models pour la compréhension physique et la planification dans le monde réel. Ce n’est pas une guerre de paradigmes, c’est une complémentarité architecturale. La seconde erreur : attendre une disruption immédiate. AMI Labs fait de la recherche fondamentale. Genie 3 est en preview limitée. Le seul produit vraiment accessible aujourd’hui est Marble, et il s’adresse principalement aux créatifs 3D.
Ce qui est certain : les domaines où les LLM échouent le plus visiblement — la robotique, la médecine, l’industrie physique — sont précisément ceux où les world models ont les arguments les plus solides. Si JEPA tient ses promesses à l’échelle, l’impact sera plus profond que tout ce que les agents IA basés sur des LLM peuvent accomplir aujourd’hui. Le pari mérite d’être suivi de près.
Articles de fond, analyses et décryptages sur l’évolution de l’intelligence artificielle — des concepts fondamentaux aux ruptures en cours.