Gemini Omni : la vidéo générative conversationnelle
Prenez une photo, donnez-la à Gemini Omni, obtenez un clip vidéo. Un croquis suffit ensuite à guider le style. Demandez alors de changer l’angle de caméra, et le modèle le fait sans tout regénérer. Dévoilé à Google I/O, Omni est le nouveau modèle vidéo de Google : le premier qui permet de créer et d’éditer de la vidéo en discutant. Voici ce qu’il fait, où l’essayer, et ce qui reste limité en Europe.
L’article précédent couvrait le studio créatif de l’écosystème Gemini. Ce chapitre zoome sur sa nouveauté la plus marquante côté vidéo. Oubliez le workflow habituel des générateurs vidéo IA — écrire un prompt, attendre, obtenir un clip, recommencer si le résultat ne convient pas. Omni change la logique : vous générez un premier clip, puis vous le modifiez par instructions successives (« change l’arrière-plan », « ajoute un zoom cinématique », « remplace le personnage par celui de cette photo »), et le modèle conserve la cohérence de la scène à chaque étape. Les personnages gardent leur apparence, la physique reste réaliste, le décor tient. C’est de l’édition vidéo par conversation, et aucun autre outil grand public ne le fait aujourd’hui.
Omni Flash est déployé mondialement dans l’app Gemini, Flow et YouTube Shorts pour les abonnés Google AI de plus de 18 ans, avec la mention officielle « la disponibilité varie selon les régions ». Les abonnements AI Pro et Ultra sont disponibles en France, mais l’accès aux fonctions de génération et d’édition vidéo peut rester limité selon votre région : Google a déjà appliqué ce calendrier décalé en Europe pour la génération d’images. Le mieux est de vérifier ce qui est actif sur votre propre compte.
Ce que Gemini Omni fait concrètement
Gemini Omni accepte n’importe quelle combinaison de texte, photos, croquis, audio et vidéo en entrée, et produit un clip vidéo en sortie. Voici les usages que Google a montrés et que les premiers utilisateurs peuvent tester.
Transformer une photo en vidéo
Chargez un portrait, un paysage ou n’importe quelle image depuis votre pellicule. Décrivez ensuite ce que vous voulez voir se passer (« fais-la marcher dans une rue de Tokyo au coucher du soleil »), et Omni produit un clip de 10 secondes. Vous enchaînez alors avec des variantes sans recharger la photo : changer le lieu, l’ambiance, le style visuel.
Créer un avatar IA avec votre voix
Omni peut générer un avatar qui reproduit votre apparence et votre voix. Google a montré la possibilité de « se placer dans l’action » : se voir dans une vidéo générée, avec sa propre voix, sans tournage réel. L’usage visé : créateurs YouTube, présentations professionnelles, contenus marketing personnalisés.
Dessiner pour guider la création
Vous donnez un croquis comme référence visuelle. Omni l’interprète et produit un clip qui respecte la composition, les proportions et l’intention du dessin. C’est la fonction la plus utile pour le storyboarding : esquisser une scène à la main, la transformer en clip, puis itérer par prompt.
Modifier une vidéo existante
Vous chargez un clip filmé avec votre téléphone, puis vous demandez de changer le décor, d’ajouter des effets, de modifier le style ou d’insérer un élément. Omni applique la modification sans regénérer tout le clip. Sur YouTube Shorts, des templates appliquent même certaines transformations en un clic (grain film, transitions, zoom cinématique).
L’édition conversationnelle : modifier une vidéo tour par tour
C’est la fonctionnalité qui différencie Omni de tous les autres générateurs vidéo. L’édition fonctionne en mode multi-turn : chaque instruction s’appuie sur le contexte de la précédente.
Concrètement, si vous avez généré un clip avec deux personnages dans un parc et que vous demandez ensuite « change l’angle en plongée », Omni ne recrée pas la scène depuis zéro. Il garde les personnages, le décor, l’éclairage, et modifie uniquement l’angle. Vous enchaînez alors : « ajoute de la pluie », « passe en noir et blanc », « remplace le parc par une plage ». À chaque tour, le modèle accumule le contexte et maintient la cohérence.
Google décrit Omni en interne comme « Nano Banana, mais pour la vidéo ». Nano Banana est le modèle d’édition d’images conversationnelle qui a généré des dizaines de milliards d’images dans Gemini. Omni applique le même principe — édition itérative par prompt, avec mémoire du contexte — mais au format vidéo.
Gemini Omni fusionne le moteur de raisonnement Gemini (compréhension du contexte et des intentions), le rendu vidéo de Veo (qualité visuelle), la simulation physique de Genie (gravité, mouvement, fluides) et l’édition d’image de Nano Banana (modification conversationnelle). Le résultat : un modèle de raisonnement qui génère de la vidéo, pas un simple modèle vidéo. C’est cette architecture qui permet l’édition multi-turn cohérente, le modèle comprenant la scène avant de la modifier.
Où essayer Gemini Omni et combien ça coûte
Accès gratuit sur YouTube
Omni Flash, le premier modèle de la famille, est disponible gratuitement dans YouTube Shorts Remix et l’application YouTube Create pour tous les utilisateurs de plus de 18 ans, sans abonnement. C’est le point d’entrée le plus simple pour tester le modèle.
Accès complet dans l’application Gemini et Flow
L’édition conversationnelle complète (génération depuis des entrées mixtes, multi-turn, avatar IA) est accessible dans l’application Gemini et dans Google Flow pour les abonnés AI Plus, AI Pro (19,99 $/mois) et AI Ultra (à partir de 99,99 $/mois). Omni Flash est plafonné à des clips de 10 secondes ; des variantes de plus haute fidélité et de plus longue durée sont attendues.
API développeurs
L’API Gemini Omni n’est pas encore ouverte. Google annonce un accès « dans les semaines à venir », via l’API Gemini et Vertex AI, sans date ferme ni tarification communiquée. En attendant, Veo 3.1 reste la baseline vidéo documentée côté API. Le volet développeur de l’écosystème est traité dans l’article 12 de cette série.
Les limites à connaître avant de se lancer
- Clips de 10 secondes maximum — Google précise que c’est un choix de déploiement, pas une limite technique. Des durées plus longues sont sur la feuille de route. En attendant, 10 secondes suffisent pour des Shorts ou du prototypage, pas pour un montage long.
- Pas d’édition audio ou vocale — Omni ne permet pas de modifier la voix ou les paroles d’une vidéo existante. Google a volontairement désactivé cette capacité pour limiter les risques de deepfakes vocaux. C’est la restriction la plus notable du lancement.
- SynthID et C2PA sur toutes les sorties — chaque vidéo produite porte un filigrane numérique invisible (SynthID) et des métadonnées C2PA Content Credentials. La vérification est disponible dans Gemini, Chrome et Search, et OpenAI a rejoint la liste des partenaires utilisant ce standard.
- Omni remplace Veo dans l’app Gemini — Veo n’est plus le modèle vidéo par défaut de l’application. Il reste disponible sur Vertex AI pour les développeurs et les entreprises. Les deux familles coexistent, avec des cibles différentes.
Omni face à la concurrence
Le marché de la vidéo IA bouge vite, avec des acteurs comme Kling (Kuaishou), Runway, Seedance (ByteDance) et Pika, chacun avec ses forces : durée des clips, contrôle de caméra, image-to-video, vitesse pour les réseaux sociaux. Côté Google, Veo 3.1 reste la référence pour la génération cinématique autonome via Vertex AI.
Omni se différencie sur deux axes que les concurrents n’offrent pas : l’édition conversationnelle multi-turn (modifier sans regénérer) et l’accès gratuit via YouTube Shorts, qui le met entre les mains de centaines de millions de créateurs. Ses faiblesses du moment : des clips courts, une API pas encore ouverte, et une disponibilité européenne à confirmer.
Quatre expériences à tester maintenant
Ouvrez YouTube Shorts ou l’app YouTube Create. Repérez l’option Remix propulsée par Omni et appliquez une transformation à un clip existant : changement de décor, grain film, zoom cinématique. C’est gratuit, sans abonnement : le moyen le plus rapide d’évaluer le rendu.
Chargez une image et décrivez l’action voulue : « fais marcher cette personne dans une rue pluvieuse, lumière de néons. » Générez un clip de 10 secondes, puis demandez une variante d’ambiance sans recharger la photo. Réservé aux abonnés AI Plus, Pro et Ultra.
À partir d’un clip généré, enchaînez les instructions : « change l’angle en plongée », puis « ajoute de la pluie », puis « passe en noir et blanc ». Observez si la cohérence de scène tient d’un tour à l’autre : c’est là que se mesure la vraie différence d’Omni.
Récupérez une vidéo générée et passez-la dans l’outil de vérification SynthID (dans Gemini, Chrome ou Search). Vous confirmez ainsi la présence du marquage et des Content Credentials C2PA, utile avant toute diffusion d’un contenu IA.
Ce que Gemini Omni change — et la suite
Omni introduit un changement de workflow. Les générateurs vidéo actuels fonctionnent en mode « prompt → clip → on recommence ». Omni fonctionne en mode « prompt → clip → on corrige → on affine → on a le résultat ». Moins de générations jetées, un contrôle plus fin, enfin un processus créatif qui ressemble à du montage assisté plutôt qu’à une loterie. L’accès gratuit sur YouTube est par ailleurs un choix stratégique : placer un outil de génération vidéo avancé entre les mains de centaines de millions de créateurs, sans barrière de prix, pour ancrer la création vidéo IA dans l’écosystème Google.
Pour les créateurs européens, la prudence reste de mise : l’outil existe, les démos convainquent, mais la disponibilité en UE varie selon les régions et peut accuser un décalage. À vérifier sur votre compte avant d’en faire un outil de production.
Le prochain article quitte le créatif pour le volet développeur de l’écosystème : l’API Gemini, MCP, Jules, Antigravity et Project Mariner. Pour ceux qui construisent avec Gemini, pas seulement ceux qui l’utilisent.
Vous connaissez Omni et le volet créatif. Le chapitre suivant passe au volet développeur : API Gemini, intégration MCP, Jules (agent de code asynchrone), Antigravity 2.0 (plateforme agentique) et Project Mariner. Pour construire avec Gemini, pas seulement l’utiliser.