Qwen3-VL : analyser images, graphiques et documents visuels
96,5 % sur DocVQA. 875 points sur OCRBench. 85,8 % sur MathVista — devant GPT-5 et Gemini 2.5 Pro. L’OCR multilingue couvre 32 langues, y compris l’écriture manuscrite et les caractères rares. Qwen3-VL n’est pas juste un modèle qui lit des images : c’est l’outil qui transforme votre rapport au papier, aux scans, aux tableaux complexes et aux graphiques. Six cas d’usage concrets pour arrêter de ressaisir ce que vous pouvez photographier.
Vous recevez une facture fournisseur scannée en PDF, dans un format qui casse votre OCR habituel. Vous photographiez au smartphone une page de notes manuscrites prises en réunion. Vous tombez sur un schéma technique dans un rapport en allemand dont vous ne comprenez ni le texte ni la légende. Dans les trois cas, Qwen3-VL lit, comprend et structure, en une passe. Sur la facture, il ressort un JSON propre avec vendeur, dates, montants et lignes. Sur les notes, un résumé structuré. Sur le schéma, une explication traduite en français avec références aux éléments visuels.
Cette capacité vision-langage est la troisième brique différenciante de Qwen, après le mode hybride thinking et la fenêtre 1M tokens. Elle repose sur une famille dédiée — Qwen3-VL — que l’équipe Alibaba a publiée progressivement entre septembre 2025 et novembre 2025, avec des variantes allant de 2 milliards de paramètres (edge deployment) à 235 milliards (flagship). Cet article décrit ce que le modèle fait vraiment, ses scores réels sur les benchmarks de référence, et six cas d’usage concrets pour des pros non-développeurs.
Ce que Qwen3-VL apporte vs Qwen3 classique
Qwen3 classique (Max, Plus, Flash) traite du texte et peut accepter quelques images dans son contexte. Qwen3-VL est spécialisé dans le visuel dès l’entraînement : ses capacités d’analyse d’images, de vidéos et de documents sont significativement supérieures à celles d’un modèle texte auquel on aurait greffé une brique vision.
Quatre différences majeures :
- OCR multilingue étendu — support natif de 32 langues (contre 19 pour Qwen2.5-VL). Robuste sur texte en faible lumière, floutage, inclinaison. Performant sur caractères rares, écriture manuscrite, jargon spécialisé.
- Parsing de documents structuré — conversion directe d’un document image en Markdown ou HTML structuré, avec préservation des tableaux, titres, listes, et positions.
- Raisonnement visuel avancé — le modèle ne décrit pas seulement ce qu’il voit, il raisonne dessus (math, schéma, causalité, diagrammes techniques).
- Agent visuel — capacité à piloter des interfaces (PC, mobile), reconnaître des éléments UI, comprendre leur fonction, invoquer des outils. Usage : automatisation d’interfaces, tests logiciels, assistance utilisateur.
Sur DocVQA (compréhension de documents) : 96,5 %. Sur OCRBench : 875 points, avec 70 %+ de précision sur 32 des 39 langues supportées. Sur MathVista (maths visuelles) : 85,8 % contre 81,3 % pour GPT-5. Sur needle-in-a-haystack vidéo 30 minutes : 100 % d’exactitude. Sur une vidéo de 2 heures (~1M tokens) : 99,5 %. Ces résultats placent Qwen3-VL-235B-A22B en tête sur le visuel face à GPT-5, Gemini 2.5 Pro et Claude Opus 4.1 sur la plupart des benchmarks documentaires et mathématiques.
La gamme Qwen3-VL en avril 2026
Trois générations cohabitent. Pour choisir, gardez en tête deux dimensions : la taille (qui détermine la qualité et le coût) et le mode (Instruct pour réponse directe, Thinking pour raisonnement profond).
| Modèle | Taille | Contexte | Usage cible |
|---|---|---|---|
| Qwen3-VL-235B-A22B (Instruct/Thinking) | 235B (22B actifs, MoE) | 256K natif, 1M étendu | Flagship, tâches complexes, qualité maximale |
| Qwen3-VL-30B-A3B (Instruct/Thinking) | 30B (3B actifs, MoE) | 256K | Équilibre qualité/coût, production à l’échelle |
| Qwen3-VL-32B (Instruct/Thinking) | 32B (dense) | 256K | Alternative dense, fine-tuning facilité |
| Qwen3-VL-8B (Instruct/Thinking) | 8B (dense) | 256K | Machine locale avec GPU correct |
| Qwen3-VL-4B et 2B | 4B / 2B (dense) | 256K | Edge deployment, smartphones, usage offline |
| qwen3-vl-plus (API Alibaba) | propriétaire | 1M | API production, qualité maximale |
| qwen3-vl-flash (API Alibaba) | propriétaire | 1M | API production, latence et coût réduits |
Pour la plupart des usages professionnels accessibles via chat.qwen.ai, la sélection du modèle se fait via le menu déroulant — vous n’avez pas à gérer les détails techniques. Pour un déploiement local, Qwen3-VL-8B-Instruct offre le meilleur compromis qualité/hardware (tourne sur Mac Apple Silicon récent avec quantization MLX).
Six cas d’usage concrets pour professionnels
Cas 1 — Parsing de factures et documents comptables
Vous recevez 20 factures PDF par semaine de fournisseurs différents, chacune avec une mise en page unique. L’OCR traditionnel échoue sur les formats atypiques. Qwen3-VL extrait les champs sans template.
# Prompt sur chat.qwen.ai avec la facture en pièce jointe
Extrais les informations de cette facture et retourne UNIQUEMENT
un JSON au format suivant, sans texte avant ni après :
{
"fournisseur": {
"nom": "string",
"siret": "string ou null",
"adresse": "string"
},
"client": {
"nom": "string",
"adresse": "string"
},
"facture": {
"numero": "string",
"date_emission": "YYYY-MM-DD",
"date_echeance": "YYYY-MM-DD ou null"
},
"lignes": [
{
"description": "string",
"quantite": "number",
"prix_unitaire_ht": "number",
"total_ht": "number"
}
],
"totaux": {
"total_ht": "number",
"tva": "number",
"total_ttc": "number"
}
}
Si un champ n'est pas présent dans la facture, mets null.
Ne déduis pas, ne calcule pas : extrais uniquement.
L’instruction « ne déduis pas, ne calcule pas » est critique : sans elle, Qwen peut recalculer un total qui semble faux, ou inventer un SIRET absent. L’extraction fidèle est votre règle d’or pour tout usage automatisé.
Cas 2 — OCR de documents manuscrits et anciens
Notes prises en réunion, compte-rendu manuscrit, courrier de 1935, registre d’état civil — Qwen3-VL gère les textes manuscrits avec une précision correcte, supérieure à celle des OCR commerciaux classiques sur ces usages atypiques.
Transcris fidèlement le texte manuscrit de cette image. Consignes : 1. Respecte l'orthographe originale, même si elle paraît fautive 2. Indique entre [?] les passages illisibles 3. Préserve la structure (sauts de ligne, paragraphes, listes) 4. Ne modernise pas la langue si le texte est ancien 5. En fin de transcription, signale les zones dont tu as eu moins de 80% de certitude.
Pour les textes en langue rare, précisez la langue dans le prompt. Qwen3-VL supporte 32 langues natives avec plus de 70 % de précision (contre 19 langues pour Qwen2.5-VL). Particulièrement utile pour les archives familiales, la recherche historique, la paléographie amateur.
Cas 3 — Analyse de graphiques et dashboards
Un graphique Tableau ou Power BI copié en image, sans export des données sous-jacentes. Qwen3-VL lit le graphique, extrait les valeurs, identifie les tendances.
Analyse ce graphique en 3 parties : 1. EXTRACTION : retourne un tableau Markdown avec toutes les données chiffrées lisibles sur le graphique (axe X, axe Y, valeurs). Indique la précision de ta lecture pour chaque point (exacte, estimée, illisible). 2. INTERPRÉTATION : 3 constats chiffrés, factuels, sur ce que montrent les données. Pas de commentaires business. 3. ALERTES : 2 éléments visuellement trompeurs ou à vérifier (échelle non linéaire, axe Y tronqué, légende ambiguë, etc.) /think
Le point 3 est souvent négligé et pourtant essentiel : beaucoup de graphiques sont visuellement biaisés (axes tronqués, échelles logarithmiques non signalées). Qwen3-VL détecte ces biais quand on le lui demande — ce que ferait un analyste critique.
Cas 4 — Extraction de données depuis un tableau complexe
Un tableau Excel imprimé puis scanné, un PDF avec des tableaux fusionnés sur plusieurs pages, un relevé bancaire dans un format propriétaire. Ce sont les cas cauchemar des OCR classiques. Qwen3-VL préserve la structure tabulaire.
Convertis ce tableau en format Markdown structuré. Règles : - Préserve fidèlement toutes les colonnes et lignes - Respecte les cellules fusionnées (indique-les dans une note séparée après le tableau) - Si un nombre est illisible, mets [?] à la place - Si le tableau continue sur plusieurs pages, signale la discontinuité Après le tableau, résume en 2-3 phrases ce que représentent ces données.
Les prompts qwenvl html et qwenvl markdown sont des raccourcis officiels spécialement entraînés pour le parsing documentaire structuré. Utilisez-les quand vous voulez convertir un document image en format éditable propre. C’est l’équivalent d’un OCR professionnel comme ABBYY, intégré gratuitement à Qwen.
Cas 5 — Analyse de schéma technique ou diagramme
Schéma électrique, architecture logicielle dessinée au tableau blanc, diagramme UML, organigramme, plan de local. Qwen3-VL reconnaît les éléments visuels structurés et leurs relations.
Analyse ce schéma en 4 étapes : 1. DESCRIPTION : liste tous les éléments visibles (composants, blocs, nœuds) avec leur nom si lisible. 2. RELATIONS : décris les connexions / flèches / dépendances entre les éléments. Précise le sens si fléché. 3. INTERPRÉTATION : quelle est la logique globale du schéma ? Que représente-t-il ? (système, processus, architecture...) 4. POINTS D'ATTENTION : éléments potentiellement manquants ou ambiguës dans la conception. Si tu reconnais le type de schéma (UML, BPMN, réseau...), indique-le. /think
Ce cas est particulièrement puissant pour les ingénieurs, architectes, chefs de projet qui héritent d’un schéma d’un prédécesseur sans documentation. Qwen3-VL peut aussi générer du code (HTML/CSS/JS ou Draw.io) à partir d’un schéma dessiné — capacité appelée « Visual Coding Boost » par l’équipe Alibaba.
Cas 6 — Analyse de vidéo longue
Spécificité rare parmi les LLM : Qwen3-VL traite les vidéos longues avec une précision impressionnante. Il localise précisément des événements sur des vidéos jusqu’à 2 heures, avec timestamps textuels explicites.
Cette vidéo est un enregistrement de réunion d'1h30. Produis : 1. Chapitrage avec timestamps précis (HH:MM:SS) et titres descriptifs de chaque section majeure (min 5, max 15 sections) 2. Pour chaque décision prise pendant la réunion : le timestamp exact, la décision, qui l'a portée, qui l'a validée. 3. Liste des actions assignées (qui fait quoi, deadline si mentionnée, timestamp de l'assignation) 4. 3 points de désaccord ou tension notables, avec timestamps. Cite les timestamps exacts au format HH:MM:SS pour chaque élément. Ne résume pas : extrais précisément.
Le modèle a obtenu 99,5 % de précision sur les tests needle-in-a-haystack vidéo à 2 heures (représentant environ 1M tokens visuels). En pratique, cela veut dire qu’il retrouve fidèlement un moment précis dans un enregistrement long — usage inédit jusqu’à cette génération de modèles.
Les limites honnêtes de Qwen3-VL
Le modèle n’est pas infaillible. Trois zones où il pèche encore en avril 2026 :
Raisonnement général complexe. Sur MMMU-Pro (compréhension multidisciplinaire experte), Qwen3-VL atteint 69,3 % contre 78,4 % pour GPT-5. L’écart se creuse sur les questions qui demandent un raisonnement de haut niveau en plus de la vision. Pour du raisonnement expert, un modèle texte premium (Claude Opus 4.7, GPT-5.4 Pro) avec vision attachée peut encore faire mieux.
Vidéo question-answering. Gemini 2.5 Pro conserve une avance sur les tâches de Q&A vidéo génériques. Qwen3-VL excelle sur la localisation précise d’événements, mais Gemini comprend mieux les nuances narratives et contextuelles sur des vidéos grand public.
Identification d’écritures très dégradées. Sur des scans médiocres, très flous ou fortement tachés, les OCR commerciaux spécialisés (ABBYY FineReader, Google Document AI) peuvent donner de meilleurs résultats que Qwen3-VL sur certaines langues occidentales. Qwen rattrape sur les langues rares ou manuscrites, mais n’écrase pas la concurrence sur les cas dégradés en anglais/français typés.
Utiliser Qwen3-VL dans la pratique
chat.qwen.ai, sélection du modèle Qwen3-VL dans le menu, upload d’image ou de PDF. Interface gratuite, suffit pour 90% des usages professionnels ponctuels.
qwen3-vl-plus ou qwen3-vl-flash via Alibaba Cloud, pour intégrer le modèle dans une application interne (automatisation de facturation, OCR industriel, modération d’images).
Qwen3-VL-8B-Instruct ou 32B en local via LM Studio, Ollama ou vLLM. Idéal pour les données sensibles (juridique, médical, RH) qui ne doivent pas sortir de l’entreprise.
La voie 3 est la plus unique. Aucun modèle vision-langage propriétaire du top mondial (GPT-5.4, Gemini 3, Claude Opus 4.7) ne propose le self-hosting. Pour une étude notariale qui traite des actes confidentiels, un cabinet médical qui analyse des scans patients, un service RH qui traite des CV personnels, la capacité à faire tourner Qwen3-VL entièrement en local — sans envoyer d’image sur un serveur tiers — est décisive.
Notre avis : la capacité la plus sous-estimée
Qwen3-VL est sans doute la dimension où Qwen apporte le plus par rapport à ses concurrents, en rapport qualité/prix/accessibilité. Les scores bruts sont au niveau de GPT-5 et Gemini 2.5 Pro sur les tâches documentaires et mathématiques. L’OCR multilingue couvre des langues que les autres modèles traitent mal ou pas du tout. Le parsing document structuré est disponible en un prompt. Et tout cela est gratuit sur chat.qwen.ai ou à un coût marginal sur l’API.
Pour un profil tertiaire (comptable, juriste, consultant, chercheur, journaliste, assistant de direction), l’impact est direct : vous arrêtez de ressaisir. Chaque document scanné, photographié, récupéré en PDF devient exploitable en quelques secondes. Les heures gagnées par semaine sont mesurables en dizaines, pas en minutes.
L’erreur fréquente des débutants : sous-exploiter le modèle en lui posant des questions vagues (« que vois-tu ?») au lieu de structurer la demande (extraction JSON, table Markdown, citation de source). Comme pour le texte, la qualité du prompt fait la qualité du résultat — peut-être encore plus pour le visuel, où l’ambiguïté est la règle.
Ce que cela change pour vous
Trois actions à tester cette semaine pour prendre la main sur Qwen3-VL :
- Scannez un document papier ou PDF que vous avez sur votre bureau et demandez une extraction JSON structurée. Vous verrez immédiatement la précision de la lecture.
- Photographiez un tableau complexe (bancaire, comptable, technique) et demandez une conversion Markdown. Comparez avec votre outil OCR actuel.
- Testez sur un document en langue que vous ne lisez pas (chinois, arabe, japonais, cyrillique…) et demandez transcription + traduction. L’écart avec les autres modèles se mesure ici.
L’article suivant change de terrain : code et développement logiciel avec Qwen3-Coder. Si vous codez, c’est l’un des articles les plus utiles de la série — la gamme Coder rivalise désormais avec Claude Code et Codex sur les tâches agentiques. Si vous ne codez pas, vous pouvez le sauter et passer directement à l’article 8 sur Qwen3.5-Omni (voix, vidéo et temps réel).
Génération d’images, analyse visuelle, traitement vidéo : notre sélection d’outils et guides pour exploiter l’IA sur le visuel.