Gemini Omni : ce que fait le nouveau modèle vidéo de Google
Prenez une photo, donnez-la à Gemini Omni, et obtenez un clip vidéo. Un croquis suffit ensuite pour guider le style. Demandez alors de changer l’angle de caméra, et le modèle le fait sans tout regénérer. Annoncé le 19 mai 2026 à Google I/O, Gemini Omni est le premier modèle IA qui permet de créer et d’éditer de la vidéo en discutant. Voici ce qu’il fait, où l’essayer, et ce qui bloque en Europe.
Oubliez le workflow habituel des générateurs vidéo IA : écrire un prompt, attendre, obtenir un clip, puis recommencer si le résultat ne convient pas. Gemini Omni change la logique. Générez un premier clip, puis modifiez-le par des instructions successives — « change l’arrière-plan », « ajoute un zoom cinématique », « remplace le personnage par celui de cette photo » — et le modèle conserve alors la cohérence de la scène à chaque étape. Les personnages gardent leur apparence, la physique reste réaliste, le décor tient. Ainsi, c’est de l’édition vidéo par conversation — et aucun autre outil ne fait ça aujourd’hui.
Cette vidéo montre concrètement ce dont Omni est capable :
Ce que Gemini Omni fait concrètement
Gemini Omni accepte n’importe quelle combinaison de texte, photos, croquis, audio et vidéo en entrée, et produit un clip vidéo en sortie. Voici ce que Google a montré en démo et ce que les premiers utilisateurs peuvent tester.
Transformer une photo en vidéo
Chargez un portrait, un paysage ou n’importe quelle image depuis votre pellicule. Décrivez ensuite ce que vous voulez voir se passer — « fais-la marcher dans une rue de Tokyo au coucher du soleil » — et Omni produit un clip de 10 secondes. Il est alors possible d’enchaîner avec des variantes sans recharger la photo : changer le lieu, l’ambiance, le style visuel.
Créer un avatar IA avec votre voix
Omni peut générer un avatar qui reproduit votre apparence et votre voix. Google a montré la possibilité de « se placer dans l’action » — se voir dans une vidéo générée, avec sa propre voix, sans tournage réel. L’usage visé : créateurs YouTube, présentations professionnelles, contenus marketing personnalisés.
Dessiner pour guider la création
Vous pouvez donner un croquis comme référence visuelle. Omni l’interprète et produit un clip qui respecte la composition, les proportions et l’intention du dessin. C’est la fonction la plus utile pour le storyboarding : esquisser une scène à la main, la transformer en clip, puis itérer par prompt.
Modifier une vidéo existante
Vous chargez un clip filmé avec votre téléphone. Vous demandez de changer le décor, d’ajouter des effets, de modifier le style ou d’insérer un élément. Omni applique la modification sans regénérer tout le clip. Sur YouTube Shorts, des templates permettent d’appliquer des transformations en un clic (grain film, transitions, zoom cinématique).
L’édition conversationnelle : modifier une vidéo tour par tour
C’est la fonctionnalité qui différencie Omni de tous les autres générateurs vidéo. L’édition fonctionne en mode multi-turn : chaque instruction s’appuie sur le contexte de la précédente.
Concrètement, si vous avez généré un clip avec deux personnages dans un parc et que vous demandez ensuite « change l’angle en plongée », Omni ne recrée pas la scène depuis zéro. Il garde les personnages, le décor, l’éclairage, et modifie uniquement l’angle. Vous pouvez enchaîner : « ajoute de la pluie », « passe en noir et blanc », « remplace le parc par une plage ». À chaque tour, le modèle accumule le contexte et maintient la cohérence.
Google décrit Omni en interne comme « Nano Banana, mais pour la vidéo ». Nano Banana, c’est le modèle d’édition d’images conversationnelle qui a généré plus de 50 milliards d’images dans Gemini. Omni applique le même principe — édition itérative par prompt, avec mémoire du contexte — mais au format vidéo.
Gemini Omni fusionne le moteur de raisonnement Gemini (compréhension du contexte et des intentions), le rendu vidéo de Veo (qualité visuelle), la simulation physique de Genie (gravité, mouvement, fluides) et l’édition d’image de Nano Banana (modification conversationnelle). Le résultat : un modèle de raisonnement qui génère de la vidéo, pas un modèle vidéo. C’est cette architecture qui permet l’édition multi-turn avec cohérence — le modèle comprend la scène avant de la modifier.
Où essayer Gemini Omni et combien ça coûte
Accès gratuit sur YouTube
Gemini Omni Flash est disponible gratuitement dans YouTube Shorts Remix et l’application YouTube Create pour tous les utilisateurs de 18 ans et plus, sans abonnement. C’est le point d’entrée le plus simple pour tester le modèle.
Accès complet dans l’application Gemini
L’édition conversationnelle complète (génération depuis des entrées mixtes, multi-turn, avatar IA) est accessible dans l’application Gemini et Google Flow pour les abonnés Google AI Plus, Pro (19,99 $/mois) et Ultra (100 $/mois).
Et en France ?
C’est le point qui fâche. Google annonce un déploiement « global » mais ajoute la mention « Feature availability varies by region ». C’est la formule que Google utilise systématiquement quand des fonctionnalités sont restreintes en Union européenne — le même scénario que Nano Banana pour la génération d’images, bloqué en Europe pendant des mois après son lancement mondial. À la date de publication de cet article (21 mai 2026), la génération vidéo via Omni n’est pas confirmée comme pleinement fonctionnelle en France. Les abonnements Google AI Pro et Ultra sont disponibles en France, mais l’accès aux fonctionnalités de génération et d’édition vidéo peut être limité ou indisponible. Nous mettrons cet article à jour dès que la disponibilité sera clarifiée.
API développeurs
L’API Gemini Omni n’est pas encore ouverte. Google annonce un accès « dans les semaines à venir » sans date précise. Pas de tarification API communiquée.
Les limites à connaître avant de se lancer
- Clips de 10 secondes maximum — Google précise que c’est un choix délibéré, pas une limite technique. Des durées plus longues sont dans la feuille de route. En attendant, 10 secondes suffisent pour des Shorts ou du prototypage, mais pas pour un montage long.
- Pas d’édition audio ou vocale — Omni ne permet pas de modifier la voix ou les paroles d’une vidéo existante. Google a volontairement désactivé cette capacité pour limiter les risques de deepfakes vocaux. C’est la restriction la plus notable du lancement.
- SynthID sur toutes les sorties — chaque vidéo produite par Omni porte un filigrane numérique invisible (SynthID) et des métadonnées C2PA Content Credentials. La vérification est disponible dans Gemini, Chrome et Search. OpenAI a rejoint la liste des partenaires utilisant ce standard.
- Omni remplace Veo dans l’app Gemini — Veo n’est plus le modèle vidéo par défaut dans l’application Gemini. Il reste disponible sur Vertex AI (Google Cloud) pour les développeurs et les entreprises. Les deux familles coexistent, avec des cibles différentes.
Face à la concurrence : Omni dans le paysage vidéo IA de mai 2026
Le marché de la vidéo IA a bougé vite ces derniers mois. OpenAI a fermé Sora fin avril 2026. Les concurrents actifs en mai 2026 sont Kling 3.0 (Kuaishou), Runway Gen-4.5, Seedance 2.0 (ByteDance), Pika et Veo 3.1 (Google, via Vertex AI). Chacun a ses forces : Kling sur la durée des clips (15 secondes) et le dialogue natif en cinq langues, Runway sur le contrôle de caméra professionnel, Seedance sur l’image-to-video, Pika sur la vitesse pour les réseaux sociaux.
Omni se différencie sur deux axes que les concurrents n’offrent pas : l’édition conversationnelle multi-turn (modifier sans regénérer) et l’accès gratuit via YouTube Shorts à des centaines de millions d’utilisateurs. Sa faiblesse : des clips plus courts que Kling, pas d’API, et une disponibilité européenne incertaine.
Retrouvez notre comparatif complet des générateurs de vidéos IA pour choisir l’outil adapté à votre usage.
Ce que Gemini Omni change pour les créateurs
Omni introduit un changement de workflow. Les générateurs vidéo actuels fonctionnent en mode « prompt → clip → on recommence si ça ne va pas ». Omni fonctionne en mode « prompt → clip → on corrige → on affine → on a le résultat ». Moins de générations jetées, un contrôle plus fin, et un processus créatif qui ressemble à du montage vidéo assisté plutôt qu’à une loterie.
L’accès gratuit sur YouTube est un choix stratégique calculé. Google place un outil de génération vidéo avancé entre les mains de centaines de millions de créateurs YouTube, sans barrière de prix. L’objectif : faire de YouTube la première plateforme de création vidéo assistée par IA, et verrouiller les créateurs dans l’écosystème Google avant que Kling, Runway ou Seedance ne s’installent.
Pour les créateurs européens, la frustration est réelle. L’outil existe, les démos sont convaincantes, mais la disponibilité en UE reste floue. Si Google reproduit le scénario Nano Banana — lancement mondial puis accès européen plusieurs mois après — les créateurs francophones devront patienter ou se tourner vers Kling et Runway, accessibles sans restriction géographique.
Comparez les outils de génération vidéo par IA : fonctionnalités, tarifs, accès et cas d’usage.