Aller au contenu
    LIVE
    Guide IA

    Gemini Live, Flow, images et musique : le volet créatif

    Vous montrez un meuble à votre téléphone et demandez des idées d’agencement. Gemini répond à voix haute en analysant ce que voit la caméra. Vous ouvrez Flow et générez une vidéo de 8 secondes montrant le résultat. Vous ajoutez une musique originale composée par Lyria 3 Pro en 30 secondes, avec structure couplet-refrain. Tout ça depuis un smartphone, sans logiciel, sans abonnement séparé. Ce guide couvre la dimension créative et multimodale de Gemini, avec les annonces Cloud Next 2026 du 22 avril.

    Les sept premiers articles de cette série couvraient Gemini dans Workspace et Drive. Ce huitième article change de registre. On entre dans le territoire le plus distinctif de l’écosystème Gemini : la voix multimodale en temps réel, la génération d’images et de vidéos, la composition musicale, et la navigation assistée dans Chrome. Des fonctionnalités qui transforment Gemini d’un assistant textuel en un compagnon créatif qui voit, entend, parle et produit.

    Chaque fonctionnalité est couverte avec son état au 24 avril 2026, sa disponibilité par plan, et ses limites réelles.

    Lecteur en France : ce qui est disponible pour vous

    Gemini Live est disponible en France, en français, sur mobile (Android et iOS), avec partage de caméra et d’écran. Flow est accessible depuis flow.google dans 140+ pays dont la France. Nano Banana 2 génère des images gratuitement dans Flow (France incluse). Lyria 3 et Lyria 3 Pro fonctionnent dans tous les pays où l’app Gemini est disponible, avec génération de paroles dans plusieurs langues. Gemini in Chrome avec Auto Browse reste US-only en anglais au 24 avril 2026 — seule fonctionnalité de ce guide non disponible en France.

    Gemini Live : la conversation vocale qui voit

    Gemini Live est le mode vocal de Gemini. Disponible sur mobile (Android et iOS) dans plus de 45 langues et 150 pays, il transforme l’interaction avec l’IA en conversation naturelle, avec interruptions, changements de sujet et pauses, comme avec un humain.

    Ce qui le rend différent

    Gemini Live est propulsé par Gemini 3.1 Flash Live, un modèle natif speech-to-speech. Au lieu de convertir la voix en texte, traiter le texte, puis synthétiser une réponse vocale, Flash Live traite l’audio directement via une connexion WebSocket bidirectionnelle persistante. Le résultat : latence quasi nulle, meilleure compréhension du ton et de l’intention, et réponses qui conservent les nuances vocales naturelles (pacing, pauses, emphases). L’interruption fonctionne vraiment — vous coupez l’IA en plein milieu d’une phrase, elle s’adapte à votre nouvelle entrée sans finir sa réponse précédente.

    La détection d’activité vocale (VAD) est native : le modèle détermine quand vous avez fini de parler versus quand vous faites une pause de réflexion. Pas de bouton à appuyer, la conversation tourne comme avec un humain. Le modèle filtre aussi le bruit ambiant pour fonctionner dans des environnements réels.

    Partage de caméra et d’écran

    La fonctionnalité la plus spectaculaire : vous partagez votre caméra ou votre écran pendant la conversation. Gemini voit ce que vous montrez et en parle. Pointez votre téléphone vers un objet et demandez ce que c’est. Partagez votre écran et demandez de l’aide avec les paramètres d’une application. Montrez un plat que vous êtes en train de préparer et demandez des ajustements de recette. Vous pouvez basculer dynamiquement entre caméra frontale, caméra arrière et partage d’écran pendant la même conversation.

    Gemini Live s’intègre avec Google Maps, Calendar, Tasks et Keep — vous pouvez planifier, organiser et prendre des notes en mode mains libres. La fonctionnalité est aussi disponible dans Android Auto pour une assistance conversationnelle en voiture.

    Disponibilité

    Gemini Live est gratuit pour tous les utilisateurs de l’app Gemini. Le partage de caméra et d’écran est disponible sans abonnement payant sur Android 10+ avec 2 Go de RAM minimum. Les conversations avec le modèle Gemini 3.1 Pro (plus profond) nécessitent un plan AI Pro ou Ultra. Search Live, la version intégrée à Google Search avec Lens, est déployée dans plus de 200 pays.

    Flow : le studio créatif unifié

    Le 25 février 2026, Google a fusionné trois outils séparés — Whisk (moodboards et collages), ImageFX (génération d’images) et l’ancien Flow (génération vidéo) — en un seul studio créatif accessible à flow.google. Flow est disponible dans 140+ pays. Les utilisateurs ont généré plus de 1,5 milliard d’images et de vidéos depuis le lancement.

    Ce que Flow fait au 24 avril 2026

    • Génération d’images avec Nano Banana 2 — Renommé Gemini 3.1 Flash Image (sorti le 26 février 2026), le modèle génère des images de 512px à 4K. Character consistency pour 5 personnages, object fidelity pour 14 objets dans un même workflow. Texte rendu lisible dans les images. Génération gratuite dans Flow, 0 crédit consommé — un gros changement stratégique de Google.
    • Génération vidéo avec Veo 3.1 — Clips de 8 secondes avec audio natif, résolution 720p ou 1080p à 24 fps (upscale 4K pour production). Qualité cinématique avec mouvements fluides. Scene Extension permet de chaîner des clips pour atteindre 60 secondes. Tier gratuit 10 clips/mois, AI Pro 50, AI Ultra 1 000.
    • Ingredients to Video — Workflow signature de Flow : vous générez d’abord une image clé avec Nano Banana 2, vous la peaufinez, puis vous l’injectez dans Veo 3.1 comme frame de départ. Character styling, éclairage et design restent cohérents entre l’image et la vidéo animée.
    • Lasso tool — Sélection d’une zone d’image par instruction texte pour une retouche localisée. Nouveau en février 2026.
    • Asset grid — Grille flexible pour rechercher, filtrer et organiser tous vos médias générés par projet.
    • Scene Builder et timeline de montage — Assemblez clips, images et musique dans un éditeur visuel. Contrôles de lens, de mouvement de caméra, extension de clips.

    Flow ou Google Vids : ne pas confondre

    Deux produits distincts. Flow est orienté création artistique et contenu social — il vit à flow.google et met l’accent sur la génération libre d’images et de vidéos. Google Vids est orienté productivité professionnelle — il vit dans Workspace et met l’accent sur les avatars, les présentations et l’intégration Drive/Slides. Les deux utilisent Veo 3.1, mais pour des publics et des usages distincts. Google Vids est couvert en détail dans l’article 3 de cette série.

    Nano Banana 2 : la génération d’images dans Gemini

    Nano Banana 2 (Gemini 3.1 Flash Image) est le modèle de génération et d’édition d’images de Google, sorti le 26 février 2026. Il combine la qualité de Nano Banana Pro avec la vitesse de l’architecture Flash. Il est intégré directement dans l’app Gemini, dans Flow, dans Slides, dans NotebookLM et dans Chrome.

    Cas d’usage : illustrations pour présentations, visuels pour réseaux sociaux, moodboards, concept art, édition d’images existantes (changement de fond, ajout d’éléments, transformation de style). La cohérence des personnages sur plusieurs images permet de créer des narratifs visuels — essentiel pour storyboards, contenu marketing sérialisé, ou documents internes illustrés. Le rendu de texte dans les images est fiable : panneaux, logos, interfaces lisibles.

    Disponibilité : accessible aux utilisateurs gratuits avec limites quotidiennes, plans payants pour les volumes étendus. Dans Flow, les images sont générées sans consommer de crédits. Dans Chrome, Nano Banana 2 permet d’éditer des images directement dans le navigateur sans télécharger ni changer d’onglet.

    Lyria 3 et Lyria 3 Pro : la composition musicale IA

    Lyria est la famille de modèles de génération musicale de Google DeepMind. Deux modèles disponibles au 24 avril 2026 :

    • Lyria 3 — Lancé en février 2026. Génère des pistes jusqu’à 30 secondes. Rapide, idéal pour prototypage, contenus sociaux courts. Sélectionnable via le mode « Fast » dans l’app Gemini.
    • Lyria 3 Pro — Lancé le 25 mars 2026. Génère des pistes jusqu’à 3 minutes avec conscience structurelle : vous prompt explicitement les intros, couplets, refrains, ponts et outros. Le modèle comprend l’architecture musicale et suit votre blueprint. Sélectionnable via les modes « Thinking » ou « Pro ».

    Les deux modèles supportent la génération de voix dans plusieurs langues, les paroles synchronisées, et la génération à partir d’une image (uploadez une photo, Lyria compose une piste qui matche l’ambiance). Toutes les pistes sont marquées avec SynthID, le watermark imperceptible de Google DeepMind pour identifier le contenu IA.

    Disponibilité : Lyria 3 accessible aux utilisateurs gratuits dans l’app Gemini. Lyria 3 Pro réservé aux abonnés AI Pro et Ultra. Disponible également dans Google Vids, Vertex AI (public preview), AI Studio, et Gemini API. ProducerAI a été renommé Google Flow Music le 21 avril 2026 — c’est l’outil de production musicale avancée dans l’écosystème Flow, avec les fonctionnalités Replace et Extend pour remixer des pistes existantes.

    Gemini in Chrome : le navigateur devient agent

    Depuis janvier 2026, Gemini s’installe dans Chrome via un panneau latéral persistant (AI Pro et Ultra, États-Unis, en anglais). Il résume les pages web, explique des sujets complexes, et se connecte à vos applications Google (Calendar, YouTube, Maps, Gmail, Google Flights, Google Shopping).

    Auto Browse 2 : l’agent web

    Auto Browse permet à Gemini de naviguer sur le web à votre place pour accomplir des tâches multi-étapes. Rechercher des vols et hôtels sur plusieurs dates pour trouver l’option la moins chère, remplir des formulaires, comparer des produits, réserver des tables de restaurant. L’agent respecte un système de safeguards officiel :

    • Take over task : Gemini peut demander à l’utilisateur de prendre le relais pour certaines actions critiques.
    • User confirmation : validation humaine requise avant achat, post sur réseau social, ou action irréversible.
    • Permission Password Manager : Gemini demande l’autorisation avant d’utiliser vos identifiants sauvegardés (sans jamais voir les mots de passe en clair).

    Annonces Cloud Next 2026 (22 avril 2026)

    Deux nouveautés annoncées à Cloud Next 2026 :

    • Chrome Skills — Annoncé le 14 avril 2026 et détaillé à Cloud Next. Vous sauvegardez des prompts IA comme workflows en un clic, réutilisables sur n’importe quelle page web. Résumer un article, extraire les prix d’un site produit, comparer des spécifications entre onglets — les skills deviennent des raccourcis persistants.
    • Universal Commerce Protocol (UCP) — Nouveau standard ouvert co-développé avec Shopify, Etsy, Wayfair et Target. Permet aux agents IA de prendre des actions commerciales au nom de l’utilisateur de manière standardisée entre sites marchands.

    Pour les entreprises, Auto Browse étend également ses cas d’usage aux workflows professionnels : remplir un CRM depuis un Google Doc, comparer des prix entre onglets, évaluer un portfolio candidat avant un entretien, extraire des données d’un site concurrent. Auto Browse enterprise reste dans la logique « human-in-the-loop » — validation humaine avant exécution finale.

    Personal Intelligence dans Chrome arrive progressivement aux États-Unis. Le navigateur se souvient du contexte de vos conversations passées pour offrir des réponses personnalisées pendant votre navigation.

    Le système de crédits IA pour la création

    La génération vidéo (Veo 3.1) et musicale (Lyria 3 Pro) consomme des crédits IA partagés entre Flow, Google Vids et l’app Gemini. Les plans : Free 100 crédits/mois, AI Plus 200, AI Pro 1 000, AI Ultra 25 000. Le coût varie par type de génération — une vidéo Veo coûte plus qu’une piste Lyria courte. Les requêtes texte classiques à Gemini et la génération d’images Nano Banana 2 dans Flow ne consomment pas de crédits. Les limites sont rafraîchies mensuellement.

    Cinq expériences à tester maintenant

    01
    Conversation avec la caméra

    Ouvrez l’app Gemini sur mobile. Tapez l’icône Live. Partagez votre caméra. Pointez vers un objet et posez une question — un produit, un plat, un mécanisme. Évaluez la pertinence de la réponse et la fluidité de l’échange. Les techniques de prompt engineering Gemini s’appliquent aussi en voix.

    02
    Générez une image dans Gemini ou Flow

    Dans l’app Gemini ou sur flow.google, décrivez une image : « Photo réaliste d’un café parisien un jour de pluie, lumière chaude, pas de personnes. » Testez l’édition : « Ajoute un chat sur le rebord de la fenêtre. » Dans Flow, c’est gratuit et illimité sur le tier free.

    03
    Créez un clip vidéo dans Flow avec Ingredients to Video

    Allez sur flow.google. Générez d’abord une image de scène avec Nano Banana 2. Puis injectez-la comme frame de départ dans Veo 3.1 avec un prompt directorial : « Slow push-in from a wide establishing shot into a tight close-up as neon reflections ripple across the window. » Évaluez la qualité et le réalisme. 10 générations gratuites par mois.

    04
    Composez une musique structurée avec Lyria 3 Pro

    Dans l’app Gemini (mode Thinking ou Pro), promptez une piste structurée : « Musique ambient calme. Intro piano 10s, verse avec cordes 40s, chorus plus ample 30s, outro retour au piano 15s. » Testez plusieurs ambiances pour le même prompt structurel. Réservé AI Pro/Ultra.

    05
    Testez Auto Browse dans Chrome (AI Pro/Ultra, USA)

    Ouvrez le panneau latéral Gemini dans Chrome. Demandez : « Find me the cheapest round-trip flight from Paris to Tokyo in September on 3 different dates. » Observez comment Gemini navigue entre les sites et compare les résultats. US-only, anglais au 24 avril 2026.

    Ce que le volet créatif change — et la suite

    Gemini Live, Flow, Nano Banana 2, Veo 3.1, Lyria 3 Pro et Gemini in Chrome forment un écosystème créatif intégré. La conversation vocale avec partage de caméra est une façon fondamentalement différente d’interagir avec une IA — speech-to-speech natif, interruption fluide, VAD automatique. Flow consolide un studio de création multimédia (image + vidéo + musique) dans un seul navigateur web. Et Lyria 3 Pro résout le problème éternel de la musique de fond pour les vidéos — pistes structurées de 3 minutes, libres de droits via SynthID, disponibles directement dans l’app Gemini.

    Les limites : Auto Browse est encore en preview et reste US-only, anglais uniquement, avec des erreurs ponctuelles qui imposent la supervision humaine. La génération vidéo Veo 3.1 produit des clips de 8 secondes (60 secondes max via Scene Extension) — insuffisant pour des productions longues sans montage. Lyria 3 Pro produit de la musique fonctionnelle mais ne rivalise pas avec un compositeur professionnel sur les œuvres complexes.

    Dans le prochain article, on change complètement de registre avec l’API Gemini, MCP, Jules, Antigravity et Project Mariner — le volet développeur de l’écosystème. Pour ceux qui construisent avec Gemini, pas seulement ceux qui l’utilisent.

    Chapitre suivant
    API Gemini, MCP, Jules, Antigravity et Project Mariner

    Vous maîtrisez le volet créatif. Le chapitre suivant passe au volet développeur : API Gemini, intégration MCP, Jules (coding agent asynchrone), Antigravity (browser agent), Project Mariner (agent web). Pour construire avec Gemini, pas seulement l’utiliser.

    API Gemini et outils développeur
    Mise à jour : 24 avril 2026
    Étiquettes: