Aller au contenu
    THINK
    Série Qwen · Article 3/12

    Mode Thinking vs Non-Thinking : piloter le raisonnement de Qwen

    Qwen3 est le premier modèle grand public à fusionner deux cerveaux dans une seule IA : un mode rapide qui répond en deux secondes, et un mode profond qui réfléchit pendant 30 secondes avant de parler. La différence : 11 points de gain sur AIME 25, mais aussi 10 fois plus de tokens consommés. Comprendre quand activer chaque mode change radicalement votre rapport coût/qualité — et c’est la fonctionnalité qui distingue Qwen de tous ses concurrents.

    Avril 2025. Alibaba publie Qwen3 avec une promesse inédite : un seul modèle qui peut répondre comme ChatGPT-4o (rapide, direct) ou comme OpenAI o1 (lent, profond), au choix de l’utilisateur. Pas deux modèles différents qu’on appelle séparément. Une seule IA, deux cerveaux, basculement instantané. Cette architecture hybride, baptisée « dual-mode » ou « hybrid thinking », est restée la signature de la famille Qwen depuis. Aucun autre acteur du top 5 ne propose cette flexibilité aussi simplement.

    Maîtriser ce mécanisme n’est pas un luxe : c’est ce qui fait la différence entre un utilisateur lambda et quelqu’un qui exploite vraiment Qwen. Cet article démonte le fonctionnement, donne les chiffres concrets de l’arbitrage qualité/coût/latence, et fournit un guide de décision : pour chaque type de tâche, quel mode utiliser. Tout est vérifié sur les benchmarks officiels publiés par l’équipe Qwen et sur les rapports techniques d’avril 2025 à mars 2026.

    Ce que veut dire « raisonner » pour Qwen

    Quand vous posez une question simple à un LLM classique — ChatGPT, Mistral, Llama — il génère sa réponse token par token, sans étape intermédiaire. Le résultat sort directement, en quelques secondes. C’est rapide, mais pour des problèmes complexes (math difficile, code à plusieurs étapes, arbitrage stratégique), la qualité plafonne : le modèle n’a pas le temps de « réfléchir ».

    Le mode thinking change tout. Avant de produire sa réponse finale, Qwen génère une chaîne de pensée interne (chain-of-thought, CoT) wrappée dans des balises <think>...</think>. Dans cette zone, le modèle pose le problème, explore plusieurs pistes, vérifie ses calculs, élimine des hypothèses. Cette réflexion est ensuite suivie de la réponse synthétique pour l’utilisateur.

    Concrètement, voici à quoi ça ressemble dans la sortie du modèle :

    # Question utilisateur
    Calcule le ROI sur 3 ans d'un investissement de 50k€ qui rapporte
    8% par an, avec 2k€ de frais annuels et une revente à 60k€.
    
    # Sortie Qwen3 en mode Thinking
    <think>
    D'abord les flux annuels : 50000 × 0.08 = 4000€/an de revenus,
    moins 2000€ de frais = 2000€ net/an.
    Sur 3 ans : 2000 × 3 = 6000€ de cash net.
    Plus la plus-value à la revente : 60000 - 50000 = 10000€.
    Total des gains sur 3 ans : 6000 + 10000 = 16000€.
    ROI = 16000 / 50000 = 32% sur 3 ans, soit ~9.7%/an annualisé.
    Vérification : (1.097)^3 ≈ 1.32, cohérent.
    </think>
    
    ROI total sur 3 ans : 32%, soit environ 9,7% annualisé...

    L’utilisateur voit la réponse finale, claire et synthétique. Mais derrière, le modèle a mobilisé des centaines, parfois des milliers de tokens, pour structurer son raisonnement. Cette chaîne interne est ce qui fait la différence sur les tâches complexes.

    L’impact mesuré sur les benchmarks

    Les chiffres ne mentent pas. Les rapports techniques officiels publiés par l’équipe Qwen montrent l’écart entre les deux modes sur les benchmarks de référence :

    Benchmark Qwen3 sans thinking Qwen3 avec thinking Gain
    AIME 25 (mathématiques avancées) ~81,5 ~92,3 +10,8 points
    LiveCodeBench (code compétitif) moyen élevé (top 3 open source) significatif
    GPQA Diamond (sciences) correct très élevé +10 à +15 points
    Tâches conversationnelles simples excellent excellent (gain marginal) ≈0

    Lecture du tableau : plus la tâche demande de raisonnement, plus le mode thinking apporte. Sur des questions de culture générale, du résumé, de la traduction ou du chat informel, l’écart est négligeable — voire inexistant. Sur du code complexe, des maths, des arbitrages stratégiques ou de la science, le gain peut atteindre 10 à 15 points de pourcentage. C’est l’écart entre un modèle correct et un modèle de niveau frontière.

    L’arbitrage qualité, coût, latence

    Si le mode thinking est si bon, pourquoi ne pas l’activer en permanence ? Trois raisons concrètes :

    La latence. Une réponse en mode non-thinking arrive en 2 à 5 secondes. La même question en mode thinking peut prendre 20 à 60 secondes — parfois plus de 2 minutes sur des problèmes de math ou de code complexes. Pour un chat fluide, c’est rédhibitoire. Pour une analyse de fond, c’est acceptable.

    Le coût en tokens. Sur l’API Alibaba Cloud Model Studio, les tokens de thinking sont facturés comme des tokens de sortie. Un raisonnement de 5 000 tokens pour une réponse de 500 tokens, c’est 11 fois plus cher qu’une réponse non-thinking équivalente. Sur un usage à fort volume (chatbot client, automatisation à l’échelle), l’addition grimpe vite.

    Le sur-raisonnement. Le défaut le plus fréquemment rapporté de Qwen3.5 était l’overthinking sur des questions simples — le modèle pondait 3 000 tokens de réflexion pour répondre « Paris » à « quelle est la capitale de la France ? ». Qwen3.6-Plus a corrigé ce problème avec un thinking « always-on but more decisive » (toujours actif mais plus décisif), mais l’enseignement reste valide : forcer la réflexion sur des tâches qui ne le nécessitent pas, c’est gaspiller du temps et de l’argent.

    Qwen3.6-Plus, le cas particulier

    Le modèle phare actuel d’Alibaba (sorti fin mars 2026) a abandonné le toggle. Sa chaîne de pensée est toujours active par design, mais calibrée pour rester proportionnée à la difficulté. Vous gagnez en simplicité d’usage, vous perdez le contrôle fin. Pour un chat intensif où la latence compte, restez sur Qwen3.5-Plus ou Qwen3-Max qui supportent le soft-switch.

    Les trois familles de modèles selon le mode

    Tous les modèles Qwen ne se valent pas sur cette question. La gamme se divise en trois familles, qu’il faut savoir distinguer pour choisir.

    Modèles hybrides (toggle activable)

    Ce sont les modèles les plus polyvalents — vous choisissez le mode au cas par cas. La famille inclut :

    • Qwen3.5-Plus et Qwen3.5-Flash — thinking activé par défaut, désactivable via le paramètre API enable_thinking=false ou la balise /no_think dans le prompt.
    • Qwen3-Max — thinking désactivé par défaut, activable via /think. Le choix par défaut inversé fait sens : c’est le modèle utilisé pour le chat polyvalent.
    • Open source — Qwen3-32B, Qwen3-30B-A3B, Qwen3-235B-A22B, Qwen3.5-397B-A17B, Qwen3.5-122B-A10B, et la plupart des modèles ouverts récents. Tous hybrides, contrôlables via tokenizer ou prompt.

    Modèles thinking-only

    Ces modèles raisonnent toujours — impossible de désactiver. Ils sont calibrés pour les tâches lourdes :

    • Qwen3-235B-A22B-Thinking-2507 et Qwen3-30B-A3B-Thinking-2507 — versions spécialisées qui poussent la réflexion plus loin que les hybrides correspondants.
    • QwQ-32B et QwQ-Plus — la lignée « raisonnement profond » antérieure à Qwen3, toujours utilisable.
    • Qwen3-Next-80B-A3B-Thinking — variante MoE optimisée pour le raisonnement long.
    • Qwen3.6-Plus — thinking always-on de nouvelle génération.

    Modèles instruct-only (sans thinking)

    Réponses directes, pas de chaîne de pensée. Optimisés pour la vitesse :

    • Qwen3-235B-A22B-Instruct-2507, Qwen3-30B-A3B-Instruct-2507, Qwen3-4B-Instruct-2507 — versions instruct des modèles 2507, sans capacité thinking.
    • Qwen3-Coder dans certaines configurations — bien que le code complexe bénéficie souvent du thinking, les versions Coder sont calibrées pour la rapidité d’exécution.

    Comment activer/désactiver le mode dans la pratique

    Trois canaux possibles, selon votre usage.

    Canal 01
    Dans Qwen Chat

    Un bouton dans l’interface, sous la barre de saisie, permet de basculer thinking on/off pour la conversation. Vous pouvez aussi écrire /think ou /no_think directement dans votre message.

    Canal 02
    Via l’API Model Studio

    Paramètre enable_thinking=true ou false dans votre appel API. Le paramètre thinking_budget plafonne le nombre de tokens de réflexion (utile pour limiter les coûts).

    Canal 03
    En self-hosting

    enable_thinking=False dans tokenizer.apply_chat_template (Hugging Face Transformers), ou /no_think dans le prompt. Plus de détails dans l’article 9 sur l’installation locale.

    Un point pratique : en conversation multi-tours, le modèle suit la dernière instruction reçue. Vous pouvez donc démarrer en mode rapide, basculer en thinking pour un point précis, puis revenir en mode rapide pour la suite. C’est cette agilité qui fait la valeur du soft-switch.

    Le paramètre thinking_budget : contrôler le coût finement

    Sur l’API Model Studio, un paramètre méconnu permet de plafonner le nombre de tokens consacrés au thinking : thinking_budget. Il prend une valeur entre 1 et 81 920 (le maximum supporté par Qwen). Quand le modèle atteint la limite, il arrête de réfléchir et passe directement à la réponse, même s’il n’a pas « fini » son raisonnement.

    Recommandations pratiques selon le type de tâche :

    Type de tâche Budget recommandé Justification
    Réécriture de texte (250-500 mots) 0 (mode non-thinking) Tâche stylistique, pas besoin de raisonnement
    Synthèse de document long 1 024 à 2 048 Un peu de planification suffit
    Analyse stratégique 4 096 à 8 192 Besoin d’explorer plusieurs angles
    Code complexe / refactoring 8 192 à 16 384 Le modèle doit comprendre la structure existante
    Math, science, raisonnement formel 16 384 à 32 768 Vérifications et chemins multiples nécessaires
    Problèmes type compétition (AIME) 32 768 à 81 920 Besoin d’exploration profonde

    Ce paramètre est précieux en production : il rend le coût prévisible. Sans budget, un raisonnement peut exploser à 50 000 tokens sur une question piège. Avec budget, vous savez à l’avance le plafond — et vous pouvez tarifer vos services en conséquence.

    Guide de décision : quel mode pour quel cas

    Voici la matrice de décision testée sur un échantillon large d’usages quotidiens. Pour chaque catégorie, le mode recommandé par défaut.

    Cas d’usage Mode recommandé
    Chat conversationnel, brainstorming léger Non-thinking
    Résumé de texte court (<3 000 tokens) Non-thinking
    Traduction Non-thinking
    Réécriture stylistique Non-thinking
    Génération de JSON / extraction structurée Non-thinking
    Analyse de document long avec plan attendu Thinking (budget 4-8K)
    Plan stratégique multi-options Thinking (budget 4-8K)
    Code multi-fichiers, refactoring Thinking (budget 8-16K)
    Debug d’un problème non trivial Thinking (budget 4-8K)
    Mathématiques, raisonnement formel Thinking (budget 16K+)
    Arbitrage business avec plusieurs critères Thinking (budget 4K)
    Rédaction d’article long (séquence) Thinking sur plan, non-thinking sur rédaction

    Le piège du sur-raisonnement

    Une étude publiée à l’été 2025 (NoWait, Université des Sciences et Technologies de Hong Kong) a montré que les modèles de raisonnement génèrent en moyenne 27 à 51 % de tokens en trop dans leurs chaînes de pensée. Le modèle reformule, vérifie deux fois, explore des pistes inutiles. Sur Qwen3, l’effet est mesurable : une question simple posée en mode thinking peut prendre 10 fois plus de tokens qu’en mode non-thinking, pour une réponse strictement identique.

    La parade côté utilisateur : n’activez le thinking que si vous voyez un gain réel de qualité. Faites le test sur vos cas d’usage récurrents : lancez la même requête dans les deux modes, comparez la qualité, mesurez la différence de coût. Sur 80 % des tâches du quotidien, le non-thinking suffit largement.

    L’autre parade : plafonner le thinking_budget. Même quand le thinking apporte, il rarement besoin de plus de 4 000 à 8 000 tokens de réflexion pour une tâche professionnelle classique. Au-delà, vous payez de la rumination, pas de la valeur.

    Notre avis : la fonctionnalité qui change tout

    Le hybrid thinking est, à notre sens, la fonctionnalité la plus sous-estimée de Qwen face à ses concurrents. ChatGPT a GPT-5.4 Thinking, mais c’est un modèle séparé qu’il faut sélectionner et qui coûte plus cher. Claude a Extended Thinking, mais l’activation est moins granulaire. Gemini a son mode Deep Think, encore plus rigide. Aucun n’offre la souplesse du soft-switch Qwen, qui permet de basculer en cours de conversation, sans changer de modèle, en une ligne.

    Pour un utilisateur qui mélange des tâches simples (rédaction, résumé, traduction) et des tâches lourdes (analyse, code, raisonnement), Qwen est le seul modèle qui ne vous oblige pas à arbitrer en amont. Vous lancez la conversation, vous voyez ce qui vient, vous escaladez quand il faut. C’est un mode de travail plus naturel — et plus économique.

    L’investissement à faire en tant qu’utilisateur : prendre dix minutes pour intégrer le réflexe /think et /no_think dans vos prompts. Ce micro-effort se rentabilise en quelques jours d’usage, sur la qualité des réponses et sur la facture si vous êtes en API.

    Ce que cela change pour vous

    Trois prises de conscience à retenir avant de passer à l’article suivant :

    • Le thinking n’est pas magique — il aide sur 20 % des tâches (les vraiment dures) et est neutre ou contre-productif sur les 80 % restantes. Activez-le sélectivement.
    • Le soft-switch est votre ami — apprenez par cœur /think et /no_think, utilisez-les quotidiennement. C’est la commande qui rend Qwen unique.
    • Le thinking_budget est l’arme secrète des utilisateurs API — il rend le coût prévisible. Si vous intégrez Qwen dans une application, ce paramètre est à configurer dès le premier appel.

    L’article suivant explore Qwen-Agent, le framework open source qui transforme Qwen en collaborateur permanent avec contexte métier, base de connaissances et appels d’outils. C’est l’équivalent Qwen des Projects de Claude — mais en plus puissant et entièrement contrôlable par l’utilisateur.

    Aller plus loin
    Comprendre l’IA en profondeur

    Concepts techniques, acteurs de l’écosystème, enjeux de société : les bases pour saisir les LLM et le raisonnement automatisé.

    Comprendre l’IA
    Mise à jour : avril 2026
    Étiquettes: