JEPA vs architectures génératives : pourquoi la différence est fondamentale
Quand un LLM génère du texte, il prédit le prochain token — mot après mot, sans jamais planifier ce qu’il va dire. Quand JEPA observe une vidéo, il ne cherche pas à reconstruire chaque pixel manquant. Il prédit l’essence de ce qui va suivre, dans un espace abstrait. Cette distinction de quelques mots cache une rupture architecturale profonde — et c’est précisément là que se joue le débat sur l’avenir de l’IA.
ChatGPT parle sans penser. Ce n’est pas une métaphore — c’est une description littérale de son fonctionnement. Un modèle autorégressif génère chaque token en fonction des précédents, sans représentation globale de ce qu’il construit. Il n’a pas de plan. Il avance mot par mot, comme quelqu’un qui improvise une phrase sans avoir décidé de sa fin avant de commencer. Le résultat est souvent remarquable. Mais les erreurs qui en découlent — les hallucinations, les incohérences sur plusieurs paragraphes, l’incapacité à raisonner de façon causale — ne sont pas des bugs à corriger. Elles sont structurelles.
JEPA, l’architecture proposée par Yann LeCun en 2022, part d’un postulat inverse : ne pas générer, mais comprendre. Ne pas reconstruire chaque détail du monde, mais en apprendre les règles abstraites. C’est une philosophie différente de l’apprentissage, avec des conséquences très concrètes sur ce qu’un système peut — et ne peut pas — faire.
Comment fonctionne un modèle génératif autorégressif
Un grand modèle de langage est entraîné sur une tâche simple en apparence : prédire le prochain token dans une séquence. Sur des milliards de textes, le modèle apprend des corrélations statistiques entre les mots, les phrases, les concepts. Il devient capable de produire du texte cohérent, de répondre à des questions, de coder, de traduire — parce que toutes ces tâches peuvent être formulées comme une continuation de séquence.
Le même principe s’applique aux modèles génératifs d’images et de vidéo comme Sora ou les diffusion models : ils apprennent à prédire ou reconstruire des pixels, frame par frame. La qualité visuelle peut être saisissante. Mais le modèle ne comprend pas ce qu’il génère — il modélise des distributions statistiques sur des données brutes. Une balle qui tombe, pour un modèle génératif, c’est un pattern de pixels qui ressemble aux ballons qui tombent dans les données d’entraînement. Pas un objet soumis à la gravité.
Deux problèmes structurels en découlent directement. D’abord, l’accumulation d’erreurs : chaque token généré porte un risque d’inexactitude. Ce risque se compose à mesure que la séquence s’allonge — une erreur précoce peut invalider l’ensemble du raisonnement. Ensuite, le coût computationnel de la reconstruction : modéliser chaque pixel, chaque token, chaque détail de surface exige des ressources considérables, dont une grande partie est consacrée à des informations non pertinentes ou imprévisibles.
Ce que JEPA fait différemment
JEPA — Joint Embedding Predictive Architecture — ne cherche pas à reconstruire. Il cherche à prédire dans l’espace des représentations abstraites, appelé espace latent. La différence semble subtile. Elle est en réalité fondamentale.
Concrètement : si on montre à un modèle JEPA une vidéo d’un chien qui court, et qu’on lui masque les dix dernières secondes, il ne va pas essayer de reconstruire la position exacte de chaque poil dans chaque frame. Il va prédire la représentation abstraite du mouvement du chien — son élan, sa trajectoire probable, son état sémantique. Il ignore ce qu’il ne peut pas prédire avec certitude, et prédit ce qui est structurellement invariant.
Un modèle génératif cherche à reconstruire chaque détail de ce qui manque — pixels, tokens, frames. JEPA prédit dans l’espace latent : il apprend la représentation abstraite de ce qui manque, pas sa surface. Ce faisant, il ignore les détails imprévisibles (la texture exacte d’une ombre, la position précise d’un pixel) et se concentre sur ce qui est structurellement stable (l’objet se déplace, la physique s’applique, le concept persiste).
L’architecture repose sur trois composants. Un X-Encoder qui transforme l’entrée observable (les frames visibles, le contexte) en une représentation compacte. Un Y-Encoder qui fait de même pour la cible (ce qu’on veut prédire). Un Prédicateur qui, à partir de la représentation du contexte, tente de prédire la représentation de la cible. L’erreur de prédiction est mesurée non pas sur les pixels bruts, mais sur la distance entre les deux représentations dans l’espace latent. Le modèle est pénalisé non pas pour avoir mal dessiné, mais pour avoir mal compris.
Résultat démontré avec VL-JEPA, la version vision-langage publiée par Meta : performances supérieures aux modèles vision-langage standards comparables, avec 50 % de paramètres entraînables en moins. L’efficacité n’est pas un bonus — elle est la conséquence directe du fait de ne pas modéliser ce qui n’a pas besoin de l’être.
Le problème de l’effondrement des représentations
JEPA pose un défi technique que les architectures génératives n’ont pas : le risque d’effondrement des représentations. Si le modèle trouve qu’il peut minimiser son erreur de prédiction en faisant converger toutes les représentations vers un seul point (toutes les images « ressemblent » à la même chose dans l’espace latent), il n’apprend rien d’utile.
Les modèles génératifs évitent ce problème naturellement : ils doivent reconstruire des sorties variées et détaillées, ce qui force la diversité des représentations. JEPA doit donc utiliser des mécanismes de régularisation explicites pour maintenir cette diversité dans l’espace latent — des pertes comme VICReg ou des techniques d’apprentissage contrastif adapté. C’est un problème actif de recherche, et plusieurs variantes de JEPA proposent des approches différentes pour le contourner.
Des travaux récents ont également identifié une limite spécifique : JEPA fonctionne bien quand les distracteurs (informations non pertinentes) changent à chaque étape temporelle, mais peut avoir des difficultés quand ces distracteurs sont fixes. Ce n’est pas rédhibitoire — c’est une contrainte de conception à prendre en compte selon le cas d’usage.
Les déclinaisons de JEPA — une famille qui s’élargit
Depuis la proposition initiale de LeCun en 2022, plusieurs variantes ont été développées, principalement chez Meta FAIR, couvrant différentes modalités.
- I-JEPA — la version image, publiée en 2023. Le modèle masque des régions d’une image et prédit leur représentation à partir du contexte. Il apprend une compréhension sémantique des scènes visuelles sans labels humains.
- V-JEPA — la version vidéo. Même principe appliqué à des séquences temporelles. V-JEPA 2 a montré des résultats convaincants sur des tâches de manipulation robotique avec des objets jamais vus pendant l’entraînement.
- VL-JEPA — la version vision-langage, publiée début 2026. Elle aligne les représentations visuelles et textuelles dans un espace latent partagé. Au lieu de générer des tokens de réponse, elle prédit l’embedding de la réponse correcte — un concept de réponse, pas ses mots exacts.
- MC-JEPA — une variante pour apprendre séparément les features de mouvement et de contenu dans les vidéos, permettant des prédictions plus fines sur les dynamiques temporelles.
La recherche académique s’est également emparée du framework. Des papiers récents explorent Discrete JEPA (représentations discrètes pour le raisonnement symbolique), JEPA-Reasoner (découplage du raisonnement latent et de la génération de tokens), et des applications en biologie computationnelle pour modéliser des transcriptomes cellulaires. JEPA est en train de devenir un paradigme de recherche à part entière, pas seulement une proposition théorique.
Ce que JEPA ne fait pas — les limites à ne pas ignorer
JEPA est non génératif par conception. Il ne produit pas d’images, pas de vidéos, pas de texte directement. C’est une architecture d’analyse et de compréhension, pas de création. Pour les applications qui nécessitent une sortie générée — répondre en langage naturel, produire une image, synthétiser une vidéo — JEPA seul ne suffit pas. VL-JEPA contourne partiellement ce problème en ajoutant un décodeur léger à l’inférence pour traduire les embeddings prédits en texte, mais le modèle lui-même reste fondamentalement non génératif.
Par ailleurs, les démonstrations de V-JEPA 2 sur la robotique, bien que convaincantes, restent limitées à des environnements relativement contrôlés. La question ouverte — et honnêtement posée dans la littérature — est celle de la généralisation à des tâches complexes de longue durée dans des environnements entièrement ouverts. Faire déplacer des objets sur une table, c’est une chose. Préparer le petit-déjeuner dans une cuisine inconnue, c’en est une autre. L’écart est réel.
Des chercheurs ont également formalisé une critique technique : la perte latente de JEPA est un proxy de la perte générativiste, pas son équivalent exact. Minimiser l’erreur de prédiction dans l’espace latent ne garantit pas la cohérence avec les données observées. Cela signifie que les représentations apprises peuvent parfois dériver de la réalité observable d’une façon qui ne se verrait pas dans les benchmarks standards.
Pourquoi cette architecture intéresse au-delà de la robotique
La raison pour laquelle JEPA attire autant d’attention tient à une propriété qui n’a rien de technique : les hallucinations y sont structurellement moins probables. Un modèle génératif hallucine parce qu’il doit produire quelque chose — et quand il ne sait pas, il produit quand même, en puisant dans les corrélations statistiques les plus plausibles. JEPA n’est pas forcé de produire. Il prédit une représentation, et si cette représentation est trop incertaine, le signal d’erreur le lui indique directement.
Pour la santé, l’industrie, la conduite autonome — tous les domaines où une IA qui confabule pose des risques réels — c’est un argument structurel, pas marketing. AMI Labs le dit explicitement : les premiers partenaires ciblés sont ceux où les hallucinations des LLM ont les conséquences les plus lourdes. Ce n’est pas un hasard.
L’autre propriété intéressante est l’efficacité en données. JEPA apprend des représentations utiles à partir de données non labellisées — des vidéos brutes, des flux de capteurs, des images sans annotation. C’est un avantage décisif dans des domaines comme la médecine ou l’industrie, où les données étiquetées sont rares et coûteuses à produire.
Notre avis — une architecture sérieuse, pas une révolution immédiate
JEPA est probablement la proposition architecturale la plus sérieuse de ces dernières années pour aller au-delà des LLM. Le raisonnement de LeCun est cohérent, les premiers résultats empiriques sont solides, et la communauté de recherche s’en empare avec un intérêt croissant. Ce n’est pas du marketing.
Mais deux choses restent vraies en même temps. JEPA n’est pas mature pour des applications générales à grande échelle — les démonstrations existantes sont convaincantes dans des environnements contraints, pas encore dans la complexité ouverte du monde réel. Et les LLM continuent de progresser, notamment sur le raisonnement et la planification, avec des approches comme le chain-of-thought et les agents IA qui compensent partiellement leurs limites structurelles.
Le scénario le plus probable n’est pas le remplacement d’une architecture par l’autre, mais leur complémentarité : des LLM pour la génération de langage et le raisonnement abstrait, des systèmes JEPA pour la compréhension physique et la planification incarnée. La prochaine génération de systèmes d’IA sera probablement hybride. JEPA en sera un composant central — pas le seul.
Retrouvez tous les articles de la série World Models sur blog-ia.com — du concept fondamental aux acteurs, applications et enjeux stratégiques.