Aller au contenu
    LIVE
    Guide IA · Série Gemini 10/14

    Gemini Live, Flow, images et musique : le volet créatif

    Vous montrez un meuble à votre téléphone et demandez des idées d’agencement. Gemini répond à voix haute en analysant ce que voit la caméra. Vous ouvrez Flow et générez une vidéo de 8 secondes montrant le résultat. Vous ajoutez une musique originale composée par Lyria 3 Pro en 30 secondes, avec structure couplet-refrain. Tout ça depuis un smartphone, sans logiciel, sans abonnement séparé. Ce guide couvre la dimension créative et multimodale de Gemini.

    Les articles précédents couvraient Gemini dans Workspace et Drive. Ce chapitre change de registre : on entre dans le territoire le plus distinctif de l’écosystème Gemini, la voix multimodale en temps réel, la génération d’images et de vidéos, la composition musicale, et la navigation assistée dans Chrome. Des fonctionnalités qui transforment Gemini d’un assistant textuel en un compagnon créatif qui voit, entend, parle et produit.

    Chaque fonctionnalité est couverte avec sa disponibilité par plan et ses limites réelles.

    Lecteur en France : ce qui est disponible

    Gemini Live est disponible en France, en français, sur mobile (Android et iOS), avec partage de caméra et d’écran. Flow est accessible depuis flow.google dans plus de 140 pays dont la France. Nano Banana 2 génère des images gratuitement dans Flow, France incluse. Lyria 3 et Lyria 3 Pro fonctionnent dans tous les pays où l’app Gemini est disponible, avec génération de paroles dans plusieurs langues. Gemini in Chrome avec navigation autonome a d’abord été lancé aux États-Unis en anglais et poursuit son extension : c’est la fonctionnalité de ce guide dont la disponibilité reste la plus variable selon les régions.

    Gemini Live : la conversation vocale qui voit

    Gemini Live est le mode vocal de Gemini. Disponible sur mobile (Android et iOS) dans plus de 45 langues et 150 pays, il transforme l’interaction avec l’IA en conversation naturelle, avec interruptions, changements de sujet et pauses, comme avec un humain.

    Ce qui le rend différent

    Gemini Live est propulsé par un modèle natif speech-to-speech basse latence. Au lieu de convertir la voix en texte, traiter le texte, puis synthétiser une réponse vocale, le modèle traite l’audio directement via une connexion WebSocket bidirectionnelle persistante. Le résultat : latence quasi nulle, meilleure compréhension du ton et de l’intention, enfin des réponses qui conservent les nuances vocales naturelles (pacing, pauses, emphases). L’interruption fonctionne vraiment : vous coupez l’IA en plein milieu d’une phrase, elle s’adapte à votre nouvelle entrée sans finir sa réponse précédente.

    La détection d’activité vocale (VAD) est native : le modèle détermine quand vous avez fini de parler par rapport à une simple pause de réflexion. Pas de bouton à appuyer, la conversation tourne comme avec un humain, et le modèle filtre le bruit ambiant pour fonctionner dans des environnements réels.

    Partage de caméra et d’écran

    La fonctionnalité la plus spectaculaire : vous partagez votre caméra ou votre écran pendant la conversation, et Gemini voit ce que vous montrez et en parle. Pointez votre téléphone vers un objet et demandez ce que c’est. Partagez votre écran et demandez de l’aide avec les paramètres d’une application. Montrez un plat en préparation et demandez des ajustements de recette. Vous basculez dynamiquement entre caméra frontale, caméra arrière et partage d’écran pendant la même conversation.

    Gemini Live s’intègre avec Google Maps, Calendar, Tasks et Keep : vous planifiez, organisez et prenez des notes en mode mains libres. La fonctionnalité est aussi disponible dans Android Auto pour une assistance conversationnelle en voiture.

    Disponibilité

    Gemini Live est gratuit pour tous les utilisateurs de l’app Gemini. Le partage de caméra et d’écran est disponible sans abonnement payant sur Android 10+ avec 2 Go de RAM minimum. Les conversations avec le modèle Gemini 3.5 Pro (plus profond) nécessitent un plan AI Pro ou Ultra. Search Live, la version intégrée à Google Search avec Lens, est déployée dans plus de 200 pays.

    Flow : le studio créatif unifié

    Le 25 février 2026, Google a fusionné trois outils séparés — Whisk (moodboards et collages), ImageFX (génération d’images) et l’ancien Flow (génération vidéo) — en un seul studio créatif accessible à flow.google. Flow est disponible dans plus de 140 pays, et les utilisateurs ont généré plus de 1,5 milliard d’images et de vidéos depuis le lancement.

    Ce que Flow fait aujourd’hui

    • Génération d’images avec Nano Banana 2 — le modèle (Gemini 3.1 Flash Image) génère des images de 512px à 4K, avec cohérence des personnages, fidélité des objets et texte rendu lisible dans les images. Génération gratuite dans Flow, 0 crédit consommé, un choix stratégique fort de Google.
    • Génération vidéo avec Gemini Omni — dévoilé à Google I/O, Omni devient le moteur vidéo de Flow : il génère et édite de la vidéo par conversation à partir de texte, d’images, d’audio ou de vidéo, avec compréhension de la physique du monde réel et audio natif. Veo 3.1 reste disponible pour certains usages. Omni fait l’objet de l’article 11 de cette série.
    • Ingredients to Video — workflow signature de Flow : vous générez d’abord une image clé avec Nano Banana 2, vous la peaufinez, puis vous l’injectez comme frame de départ pour l’animer. Style, éclairage et design restent cohérents entre l’image et la vidéo.
    • Flow Tools et agents — Flow a reçu à I/O des outils personnalisés et des agents capables d’exécuter plusieurs actions d’affilée, pour enchaîner génération, édition et montage.
    • Lasso tool — sélection d’une zone d’image par instruction texte pour une retouche localisée.
    • Asset grid — grille flexible pour rechercher, filtrer et organiser tous vos médias générés par projet.
    • Scene Builder et timeline de montage — assemblez clips, images et musique dans un éditeur visuel, avec contrôles de lens, de mouvement de caméra et d’extension de clips.

    Flow ou Google Vids : ne pas confondre

    Deux produits distincts. Flow est orienté création artistique et contenu social : il vit à flow.google et met l’accent sur la génération libre d’images et de vidéos. Google Vids est orienté productivité professionnelle : il vit dans Workspace et met l’accent sur les avatars, les présentations et l’intégration Drive/Slides. Google Vids est couvert en détail dans l’article 4 de cette série.

    Nano Banana 2 et Google Pics : la génération d’images

    Nano Banana 2 (Gemini 3.1 Flash Image) est le modèle de génération et d’édition d’images de Google. Il combine la qualité de Nano Banana Pro avec la vitesse de l’architecture Flash, et il est intégré directement dans l’app Gemini, dans Flow, dans Slides, dans NotebookLM et dans Chrome.

    Cas d’usage : illustrations pour présentations, visuels pour réseaux sociaux, moodboards, concept art, édition d’images existantes (changement de fond, ajout d’éléments, transformation de style). La cohérence des personnages sur plusieurs images permet de créer des narratifs visuels, essentiels pour storyboards, contenu marketing sérialisé ou documents internes illustrés. Le rendu de texte dans les images est fiable : panneaux, logos, interfaces lisibles.

    Côté bureautique, Google a par ailleurs lancé Google Pics, un outil de génération et d’édition d’images intégré à Workspace, qui complète Nano Banana 2 pour les visuels de documents et de présentations.

    Disponibilité : accessible aux utilisateurs gratuits avec limites quotidiennes, plans payants pour les volumes étendus. Dans Flow, les images sont générées sans consommer de crédits. Dans Chrome, Nano Banana 2 permet d’éditer des images directement dans le navigateur, sans télécharger ni changer d’onglet.

    Lyria 3 et Lyria 3 Pro : la composition musicale IA

    Lyria est la famille de modèles de génération musicale de Google DeepMind. Deux modèles sont disponibles :

    • Lyria 3 — génère des pistes jusqu’à 30 secondes. Rapide, idéal pour le prototypage et les contenus sociaux courts. Sélectionnable via le mode « Fast » dans l’app Gemini.
    • Lyria 3 Pro — lancé le 25 mars 2026, il génère des pistes jusqu’à 3 minutes avec conscience structurelle : vous promptez explicitement intros, couplets, refrains, ponts et outros, et le modèle suit votre blueprint. Sélectionnable via les modes « Thinking » ou « Pro ».

    Les deux modèles supportent la génération de voix dans plusieurs langues, les paroles synchronisées, et la génération à partir d’une image (uploadez une photo, Lyria compose une piste qui en épouse l’ambiance). Toutes les pistes sont marquées avec SynthID, le watermark imperceptible de Google DeepMind pour identifier le contenu IA.

    Disponibilité : Lyria 3 accessible aux utilisateurs gratuits dans l’app Gemini, Lyria 3 Pro réservé aux abonnés AI Pro et Ultra. Disponible également dans Google Vids, Vertex AI, AI Studio et l’API Gemini. ProducerAI a par ailleurs été renommé Google Flow Music, l’outil de production musicale avancée de l’écosystème Flow, avec les fonctions Replace et Extend pour remixer des pistes existantes.

    Gemini in Chrome : le navigateur devient agent

    Gemini s’installe dans Chrome via un panneau latéral persistant. Il résume les pages web, explique des sujets complexes, et se connecte à vos applications Google (Calendar, YouTube, Maps, Gmail, Google Flights, Google Shopping).

    La navigation autonome : l’agent web

    Gemini peut naviguer sur le web à votre place pour accomplir des tâches multi-étapes : rechercher des vols et hôtels sur plusieurs dates pour trouver l’option la moins chère, remplir des formulaires, comparer des produits, réserver une table de restaurant. L’agent respecte un système de garde-fous officiel :

    • Take over task : Gemini peut demander à l’utilisateur de prendre le relais pour certaines actions critiques.
    • User confirmation : validation humaine requise avant un achat, un post sur réseau social ou une action irréversible.
    • Permission Password Manager : Gemini demande l’autorisation avant d’utiliser vos identifiants sauvegardés, sans jamais voir les mots de passe en clair.

    Chrome Skills et commerce agentique

    • Chrome Skills — vous sauvegardez des prompts IA comme workflows en un clic, réutilisables sur n’importe quelle page : résumer un article, extraire les prix d’un site produit, comparer des spécifications entre onglets. Les skills deviennent des raccourcis persistants.
    • Commerce agentique — Google a co-développé avec des marchands un protocole ouvert permettant aux agents IA de prendre des actions commerciales encadrées au nom de l’utilisateur, de manière standardisée entre sites.

    Pour les entreprises, la navigation autonome étend ses cas d’usage aux workflows professionnels : remplir un CRM depuis un Google Doc, comparer des prix entre onglets, évaluer un portfolio candidat avant un entretien, extraire des données d’un site concurrent. L’ensemble reste dans une logique « human-in-the-loop », avec validation humaine avant exécution finale.

    Le système de crédits IA pour la création

    La génération vidéo et musicale consomme des crédits IA partagés entre Flow, Google Vids et l’app Gemini. L’allocation augmente avec le plan : la plus basse en gratuit, la plus élevée sur les paliers Ultra. Le coût varie par type de génération : une vidéo coûte plus qu’une piste musicale courte. Les requêtes texte classiques et la génération d’images Nano Banana 2 dans Flow ne consomment pas de crédits, et les limites sont rafraîchies mensuellement.

    Cinq expériences à tester maintenant

    01
    Conversation avec la caméra

    Ouvrez l’app Gemini sur mobile, tapez l’icône Live, puis partagez votre caméra. Pointez vers un objet et posez une question : un produit, un plat, un mécanisme. Évaluez la pertinence de la réponse et la fluidité de l’échange. Les techniques de prompt engineering Gemini s’appliquent aussi en voix.

    02
    Générez une image dans Gemini ou Flow

    Dans l’app Gemini ou sur flow.google, décrivez une image : « Photo réaliste d’un café parisien un jour de pluie, lumière chaude, pas de personnes. » Testez ensuite l’édition : « Ajoute un chat sur le rebord de la fenêtre. » Dans Flow, c’est gratuit et sans crédit consommé.

    03
    Créez un clip vidéo dans Flow avec Ingredients to Video

    Allez sur flow.google. Générez d’abord une image de scène avec Nano Banana 2, puis injectez-la comme frame de départ avec un prompt directorial : « Slow push-in from a wide establishing shot into a tight close-up as neon reflections ripple across the window. » Évaluez la qualité et le réalisme.

    04
    Composez une musique structurée avec Lyria 3 Pro

    Dans l’app Gemini (mode Thinking ou Pro), promptez une piste structurée : « Musique ambient calme. Intro piano 10s, verse avec cordes 40s, chorus plus ample 30s, outro retour au piano 15s. » Testez plusieurs ambiances pour le même prompt structurel. Réservé AI Pro/Ultra.

    05
    Testez la navigation autonome dans Chrome (AI Pro/Ultra)

    Ouvrez le panneau latéral Gemini dans Chrome et demandez : « Trouve le vol aller-retour le moins cher de Paris à Tokyo en septembre sur 3 dates différentes. » Observez comment Gemini navigue entre les sites et compare les résultats. Disponibilité variable selon les régions.

    Ce que le volet créatif change — et la suite

    Gemini Live, Flow, Nano Banana 2, Omni, Lyria 3 Pro et Gemini in Chrome forment un écosystème créatif intégré. La conversation vocale avec partage de caméra est une façon fondamentalement différente d’interagir avec une IA, en speech-to-speech natif, avec interruption fluide et VAD automatique. Flow consolide un studio de création multimédia (image, vidéo, musique) dans un seul navigateur web. Enfin, Lyria 3 Pro résout le problème éternel de la musique de fond pour les vidéos : pistes structurées de 3 minutes, libres de droits via SynthID, directement dans l’app Gemini.

    Les limites : la navigation autonome reste perfectible et impose la supervision humaine, avec une disponibilité variable selon les régions. La génération vidéo produit des clips courts, à chaîner pour des productions longues. Lyria 3 Pro produit enfin une musique fonctionnelle, mais ne rivalise pas avec un compositeur professionnel sur les œuvres complexes.

    Le prochain article reste dans le créatif mais zoome sur le nouveau moteur vidéo de Google : Gemini Omni, la vidéo générative conversationnelle. Comment il combine texte, image, audio et vidéo en entrée, sa compréhension de la physique, et ce qu’il change pour la production de contenu.

    Article suivant — 11/14
    Gemini Omni : la vidéo générative conversationnelle

    Vous maîtrisez le volet créatif. Le chapitre suivant zoome sur Gemini Omni, le nouveau modèle vidéo de Google : génération et édition par conversation à partir de texte, d’images, d’audio ou de vidéo, compréhension de la physique du monde réel, et intégration dans l’app Gemini et Flow.

    Gemini Omni
    Mise à jour : 3 juin 2026
    Étiquettes: