OMNI

Série Qwen · Article 8/12

Qwen3.5-Omni : voix, vidéo et temps réel

113 langues en reconnaissance vocale. 36 langues en génération. Clonage de voix à partir de 10 secondes d’échantillon. Interruption sémantique qui sait ignorer un chien qui aboie. Et une capacité émergente qui permet de générer du code simplement en parlant devant une maquette. Sorti le 30 mars 2026, Qwen3.5-Omni est le modèle multimodal le plus ambitieux de l’écosystème open source — et il rivalise désormais avec Gemini 3.1 Pro sur la plupart des benchmarks audio.

Vous vous réveillez, vous ouvrez votre téléphone, vous demandez en arabe à votre assistant IA de résumer les emails de la nuit. Il répond en arabe, à voix haute, avec une intonation naturelle et une pause quand votre chat miaule à côté. Vous l’interrompez, vous précisez une consigne, il reprend sans perdre le fil. Cette scène — banale dans l’imaginaire collectif depuis dix ans — n’est devenue techniquement solide qu’en 2026, avec une poignée de modèles capables de vraiment tenir la route en temps réel multilingue. Qwen3.5-Omni est l’un d’entre eux. Et c’est le seul accessible en open source.

Cet article fait le tour de ce que le modèle sait faire, des chiffres qui supportent ses performances, et des cas d’usage concrets pour qui veut intégrer voix, vidéo ou interaction temps réel dans ses workflows. Si vous ne construisez pas d’assistant vocal ni de pipeline vidéo, vous pouvez sauter cet article et passer directement à l’article 9 sur l’installation locale. Sinon, voici comment Qwen change la donne sur cette dimension.

L’omnimodal natif, c’est quoi concrètement

La plupart des modèles IA qui « comprennent la voix » fonctionnent en cascade : votre audio est transcrit en texte par un premier modèle (type Whisper), le texte est traité par un LLM, puis une troisième brique synthétise la réponse en voix. Trois modèles, trois latences, trois points de défaillance. Et un appauvrissement systématique — le ton de votre voix, les hésitations, les bruits de fond, tout disparaît à l’étape de transcription.

Qwen3.5-Omni est nativement omnimodal : il traite texte, image, audio et vidéo dans le même pipeline de bout en bout. Un seul modèle. Pas de cascade. Le ton, les émotions, les bruits ambiants font partie de l’information que le modèle perçoit. La réponse peut être générée en streaming, à la fois en texte et en voix, sans latence perceptible.

L’architecture repose sur deux composants :

Le Thinker — gère le raisonnement et la génération de texte à partir de n’importe quelle modalité (texte, image, audio, vidéo). C’est lui qui « comprend » ce qui se passe.
Le Talker — convertit la sortie du Thinker en tokens audio en streaming, permettant à votre oreille de recevoir la voix pendant que le modèle continue de réfléchir.

Cette architecture Thinker-Talker permet aussi une intervention entre les deux étages : un filtre de sécurité, un appel RAG, une fonction externe peuvent s’insérer sans casser le pipeline. C’est l’un des rares modèles grand public où cette architecture est exposée proprement.

Qwen3.5-Omni vs Qwen3-Omni

Qwen3.5-Omni, sorti le 30 mars 2026, est la génération qui a vraiment marqué la rupture. Son prédécesseur Qwen3-Omni (septembre 2025) était déjà multimodal, mais avec 19 langues en reconnaissance vocale et 10 en génération, et une fenêtre de contexte de 32K. Qwen3.5-Omni passe à 113 langues reconnues, 36 générées, et 256K de contexte — soit 10+ heures d’audio ou 400+ secondes de vidéo 720p en une seule requête.

La gamme Qwen3.5-Omni

Trois variantes, publiées en version Instruct et en version Realtime pour la Plus :

Modèle	Usage cible	Qualité	Latence
Qwen3.5-Omni-Plus	Qualité maximale, applications premium	Plus haut niveau	Modérée
Qwen3.5-Omni-Plus-Realtime	Conversations voix live	Très élevée	Optimisée streaming
Qwen3.5-Omni-Flash	Production par défaut, équilibre	Élevée	Basse
Qwen3.5-Omni-Light	Déploiement edge, mobile, cas simples	Bonne	Très basse

La documentation officielle de l’API recommande Qwen3.5-Omni-Flash comme choix par défaut en production — équilibre optimal entre latence, qualité et coût pour la plupart des scénarios. La variante Plus vaut le surcoût quand la qualité vocale est un argument produit central (assistant haut de gamme, transcription critique, narration premium).

Sur le statut open source : Qwen3-Omni (septembre 2025) a été publié sous Apache 2.0. Pour Qwen3.5-Omni, la publication des poids sur Hugging Face n’était pas encore confirmée officiellement à la sortie. Vérifiez le repo QwenLM/Qwen3-Omni avant tout déploiement en self-hosting pour avoir l’état actuel.

Les chiffres qui placent Qwen3.5-Omni au niveau frontière

215 résultats state-of-the-art revendiqués par l’équipe Alibaba sur les benchmarks audio, audio-vidéo et interaction. Parmi les plus solides :

Audio understanding — surpasse Gemini 3.1 Pro sur la compréhension audio générale, le raisonnement, la traduction.
VoiceBench — 93,1 points pour Qwen3.5-Omni-Plus, proche du sommet du classement.
ASR (reconnaissance vocale) — state-of-the-art sur LibriSpeech, WenetSpeech, Fleurs, CommonVoice.
Stabilité vocale multilingue — bat ElevenLabs, GPT-Audio et Minimax sur 20 langues. Score 1,07 sur Seed-zh (ElevenLabs à 13,08, Gemini 2.5 Pro à 2,42).
Voice cloning similarity — 0,79 à 0,80 de similarité cosinus, le meilleur score parmi les modèles comparés.
Vision — 84,1 sur RealWorldQA, 79,0 sur MVBench, 91,3 sur OCRBench.

Point à noter honnêtement : Alibaba compte les dialectes régionaux de manière assez généreuse dans ses chiffres de couverture linguistique. Les 113 langues et 36 langues incluent des variantes proches. Même en décomptant, l’écart reste très important avec OpenAI ou Google sur les langues d’Asie du Sud-Est, du Moyen-Orient, et certains dialectes africains.

Les 5 capacités qui changent les usages

1. Conversation vocale multilingue en streaming

Vous lancez une conversation en français, l’interlocuteur bascule en anglais, vous glissez une phrase en chinois, le modèle suit sans transition. Le streaming audio permet d’entendre la réponse avant qu’elle soit complètement générée — comme avec un interlocuteur humain. C’est techniquement ce que propose ChatGPT Voice et Gemini Live, mais Qwen y ajoute la couverture de 113 langues, inégalée chez les concurrents.

Cas d’usage typique : centre d’appels multilingue. Un assistant qui comprend l’arabe algérien, le tagalog, le yoruba, sans cascade Whisper+GPT+ElevenLabs qui multiplie les coûts et les latences.

2. Interruption sémantique intelligente

Le problème classique des assistants vocaux : ils s’interrompent dès qu’ils détectent un son. Votre chien aboie, votre enfant passe dans la pièce, quelqu’un tousse — le modèle s’arrête net, reprend, repart. Conversation hachée, frustrante.

Qwen3.5-Omni intègre la reconnaissance native d’intention de prise de parole. Il distingue entre un bruit de fond, une hésitation (« hmm », « oui »), et une vraie volonté d’interrompre. Résultat : la conversation coule plus naturellement, proche d’un échange humain. C’est un gain qualitatif qu’on ne voit pas sur les benchmarks mais qu’on ressent dès la première utilisation.

3. Clonage de voix à partir d’un échantillon court

10 à 30 secondes d’enregistrement de la voix cible suffisent. Le modèle clone le timbre, l’intonation, le phrasé. Utilisable via l’API sur les variantes Plus et Flash.

Les cas d’usage légitimes : assistant personnel qui parle avec votre voix pour relayer vos messages. Doublage de vidéos pédagogiques par votre voix sans enregistrement studio. Lecture de livres audio avec votre timbre propre. La limite éthique est évidente — cette technologie permet aussi des usages frauduleux (deepfake audio, arnaque au président). Utilisez-la avec prudence et informez toujours les personnes concernées.

4. Analyse de vidéo longue avec narration

Jusqu’à 400 secondes de vidéo 720p dans un seul appel (pour les variantes Instruct), avec analyse synchronisée du flux audio et visuel. Le modèle génère des descriptions temporalisées : timestamps précis, identification des locuteurs, corrélations entre ce qui est dit et ce qui est montré.

Cas d’usage : captioning automatique de niveau scénario. Au lieu d’un sous-titrage plat, Qwen3.5-Omni produit une description enrichie — « [00:42] Le personnage B entre dans le salon, visiblement contrarié, tout en terminant au téléphone une conversation professionnelle. Le fond musical bascule en mode mineur. » Utilisable pour des archives vidéos, de la formation en ligne, du contenu accessible pour malvoyants.

5. Audio-Visual Vibe Coding

La capacité la plus inattendue, présentée par l’équipe Alibaba comme une capability emergente du pré-entraînement omnimodal (donc non explicitement visée). Vous montrez au modèle une maquette d’interface, un schéma architectural ou un wireframe, et vous lui parlez pour décrire ce que vous voulez. Il génère le code fonctionnel (Python, HTML/CSS/JS) en sortie.

Cas d’usage : prototypage conversationnel. Un designer discute à voix haute avec Qwen en pointant une zone d’une maquette Figma sur son écran. Le code React correspondant se génère en parallèle. C’est moins un remplaçant qu’un accélérateur d’itération, mais le mode d’interaction est nouveau.

L’architecture ARIA, le secret de la fluidité vocale

Le problème spécifique des modèles qui génèrent de la voix en streaming : la synchronisation entre le texte et l’audio. Les tokens texte et les tokens audio n’ont pas la même densité d’information. Résultat classique : le modèle lit un nombre de travers, coupe un mot en deux, ou fait une pause anormale.

ARIA (Adaptive Rate Interleave Alignment) est la technique développée par Alibaba pour résoudre ce problème. Elle aligne dynamiquement les unités texte et audio pendant la génération. Concrètement : la voix générée par Qwen3.5-Omni est significativement plus stable et naturelle que celle de Qwen3-Omni, avec moins de défauts typiques (numéros mal lus, hésitations artificielles, pauses bizarres).

Sur les benchmarks de stabilité vocale, Qwen3.5-Omni-Plus obtient des scores nettement meilleurs que la plupart des concurrents — y compris des spécialistes TTS comme ElevenLabs. Le WER (Word Error Rate) multilingue descend à 2,06 en public test sur 20 langues, là où ElevenLabs monte à 10,29. Pour un usage production où la qualité compte, l’écart est significatif.

Fonctionnalités natives de l’API Realtime

L’API Qwen3.5-Omni-Plus-Realtime intègre directement des capacités qui, ailleurs, demanderaient des couches supplémentaires :

Semantic interruption — décrit plus haut, natif dans l’API.
WebSearch — le modèle décide de lui-même si une requête nécessite une recherche web en direct, sans que vous ayez à le spécifier.
Function Call complexe — appels d’outils externes pendant la conversation vocale. Le modèle peut consulter votre calendrier, envoyer un email, déclencher une action, tout en parlant.
Voice control — vitesse, volume, émotion de la voix générée ajustables.
Voice cloning — via API, timbre personnalisé par session.

Comment y accéder en avril 2026

Voie 01

Qwen Chat

chat.qwen.ai, mode vocal dans l’interface mobile ou desktop. Gratuit pour tester. La latence en réseau européen est parfois sensible (serveurs principaux en Asie ou US).

Voie 02

API Alibaba Cloud Model Studio

qwen3.5-omni-flash pour la production, qwen3.5-omni-plus-realtime pour la conversation live. Endpoint EU Francfort disponible pour conformité RGPD.

Voie 03

Self-hosting (si poids publiés)

Via vLLM pour la production. Qwen3-Omni précédent était sous Apache 2.0, vérifiez le statut Qwen3.5-Omni sur Hugging Face avant déploiement.

Attention au benchmarking : l’équipe Alibaba recommande explicitement de ne pas tester la performance de Qwen3.5-Omni via Hugging Face Transformers pour les modèles MoE — la vitesse est alors très mauvaise. Utilisez vLLM ou l’API managée pour une évaluation réaliste.

Comparaison avec Gemini Live et ChatGPT Voice

Critère	Qwen3.5-Omni	ChatGPT Voice (GPT-5.4)	Gemini Live 3.1
Langues reconnues	113 (dialectes inclus)	~50	~40
Langues générées	36	~30	~25
Interruption sémantique	Native ARIA	Oui	Oui
Clonage de voix via API	Oui (Plus, Flash)	Non	Non
Vidéo longue en entrée	400 s en 720p	Limité	Étendu (1 h+)
Self-hosting	Possible (statut à vérifier)	Impossible	Impossible
Audio-Visual Vibe Coding	Natif	Non	Partiel
Maturité produit	Récente (mars 2026)	Très mature	Mature

Qwen3.5-Omni est devant sur la couverture multilingue et sur les capacités spécifiques (clonage de voix, vibe coding audio-visuel). Gemini Live garde l’avance sur l’analyse vidéo très longue et la maturité du produit grand public (intégration Android, assistants Google). ChatGPT Voice reste le plus aboutie côté UX conversationnelle généraliste en anglais.

Notre avis : le modèle qui rend le multimodal sérieusement accessible

Pendant deux ans, les assistants vocaux IA étaient soit très bons en anglais et décevants ailleurs (GPT), soit corrects multilingues mais verrouillés à un écosystème (Gemini), soit open source mais techniquement limités (Whisper + TTS tiers). Qwen3.5-Omni casse ce compromis : qualité frontière, couverture multilingue unique, capacité d’hébergement local (si confirmée), coûts API compétitifs.

Pour qui construit une application vocale, le modèle mérite d’être testé en premier — quitte à basculer sur GPT ou Gemini si des besoins spécifiques le demandent. La barrière à l’entrée est faible (API DashScope), les performances sont documentées, l’écart avec les concurrents propriétaires se resserre sur la plupart des dimensions.

Le bémol principal : la maturité produit. Qwen3.5-Omni a moins d’intégrations tierces, moins d’applications grand public, moins de tutoriels et de communauté francophone que ChatGPT ou Gemini. Vous serez davantage en pionnier qu’en mainstream. Pour un développeur, c’est plutôt un avantage. Pour une équipe qui cherche du clé-en-main, c’est un frein à considérer.

Ce que cela change pour vous

Si vous construisez quoi que ce soit qui implique voix, vidéo ou interaction temps réel, Qwen3.5-Omni est devenu incontournable dans votre veille. Trois actions à tester cette semaine pour vous faire un avis :

Activez le mode vocal sur chat.qwen.ai et tenez une conversation de cinq minutes en changeant de langue en cours. Évaluez la fluidité et la qualité de l’interruption.
Uploadez une vidéo de 5 à 10 minutes (conférence, réunion, cours) et demandez une transcription temporalisée avec analyse des intervenants. Comparez avec vos outils habituels.
Testez le clonage de voix via l’API si vous avez un cas d’usage clair et légitime. Mesurez la qualité sur votre langue cible réelle — les scores de benchmark ne disent pas tout.

L’article suivant est le grand saut de la série : installer Qwen en local. Ollama, LM Studio, configuration, choix de modèle selon votre machine. C’est le basculement qui fait de vous un utilisateur souverain — zéro dépendance cloud, confidentialité totale, coût marginal. C’est aussi le chemin obligatoire pour qui veut déployer Qwen en entreprise sans envoyer ses données à Alibaba Cloud.

Aller plus loin

Tous les outils IA pour la création vidéo

Génération, transcription, sous-titrage, analyse : notre sélection d’outils IA pour exploiter la vidéo dans votre workflow professionnel.

Explorer les outils IA vidéo ↗

Mise à jour : mai 2026