Aller au contenu
    LOCAL
    Série Qwen · Article 9/12

    Installer Qwen en local : Ollama, LM Studio et self-hosting

    Un Mac M3 Pro avec 32 Go de mémoire unifiée fait tourner Qwen3.5-27B au niveau GPT-5 mini, à 60 tokens par seconde, hors ligne, gratuitement. Un PC avec un RTX 4090 passe la barre des 35 milliards de paramètres sans broncher. Et ça tient en trois commandes terminal. C’est le basculement qui fait de vous un utilisateur souverain : zéro dépendance cloud, confidentialité totale, coût marginal après l’achat de la machine. Voici comment y arriver — sans jargon technique inutile.

    Jusqu’à cet article, toute la série Qwen suppose une connexion internet et un compte sur chat.qwen.ai ou un endpoint API. Vous avez testé les modèles, comparé les performances, maîtrisé les prompts. Vous êtes devenu un utilisateur avancé. L’étape suivante est celle que la plupart des utilisateurs d’IA ne franchissent jamais — et qui change pourtant radicalement votre rapport à ces outils. Faire tourner Qwen sur votre propre machine, en local, sans aucune donnée qui sorte.

    C’est l’argument différenciant ultime de Qwen face à ChatGPT, Claude ou Gemini. Aucun de ces modèles propriétaires ne permet le self-hosting. Qwen, publié sous licence Apache 2.0 pour la plupart de ses variantes, vous donne cette capacité gratuitement. Cet article démonte les deux voies principales (Ollama en ligne de commande et LM Studio avec interface graphique), donne les prérequis hardware réalistes, et propose des workflows hybrides cloud + local pour tirer le meilleur de chaque.

    Pourquoi self-hoster Qwen

    Avant d’investir une demi-journée à configurer votre machine, il faut être clair sur ce que vous gagnez. Les raisons de franchir le pas se classent en quatre catégories :

    Confidentialité totale. Vos prompts et vos documents ne sortent jamais de votre machine. Aucun serveur tiers ne voit passer ce que vous travaillez. Pour un juriste qui traite des dossiers confidentiels, un médecin qui analyse des documents patients, un DRH qui manipule des CV ou des entretiens, un chercheur avec données sensibles — c’est la seule configuration défendable.

    Coût marginal après achat du matériel. Une fois le modèle téléchargé, chaque requête est gratuite. Pas de facture API qui monte, pas de limite quotidienne, pas de quota à surveiller. Pour un usage intensif quotidien, l’économie se chiffre en centaines d’euros par mois.

    Fonctionnement hors ligne. Avion, train, zone mal couverte, environnement isolé (base scientifique, site industriel, labo sans internet) — votre assistant IA fonctionne toujours. C’est un avantage opérationnel que l’on sous-estime jusqu’au premier trajet TGV sans réseau où on en a besoin.

    Indépendance aux providers. Pas de risque de coupure de service, d’augmentation tarifaire, de changement de CGV, de blocage par région, de refus de traiter certains types de contenus. Votre modèle vous appartient, il reste stable tant que vous le gardez.

    Le compromis à accepter

    Self-hoster ne vous donne pas gratuitement la qualité des modèles cloud premium. Un Qwen3.5-9B local tourne sur 16 Go de RAM mais ne rivalise pas avec Qwen3.6-Plus (API cloud) sur les tâches complexes. Le self-hosting est un compromis qualité-souveraineté. Pour 80 % des usages quotidiens, un modèle 9B à 27B en local est largement suffisant. Pour les 20 % restants, vous gardez un accès cloud en complément.

    Prérequis matériels réalistes

    La question qui bloque tout le monde avant de commencer : est-ce que ma machine fait le boulot ? Voici les paliers vérifiés sur Qwen3.5 en avril 2026 :

    Modèle RAM / VRAM mini (Q4) Hardware cible Vitesse attendue
    Qwen3.5-2B / 0.8B 4 Go Tout PC/Mac récent, smartphone haut de gamme ~30 t/s
    Qwen3.5-4B 6-8 Go Mac M1/M2/M3 8 Go, PC avec GPU 6 Go ~25 t/s
    Qwen3.5-9B 8-12 Go Mac M2/M3 16 Go, RTX 3060/4060 ~20-30 t/s
    Qwen3.5-27B 20-24 Go Mac M3 Pro 32 Go, RTX 3090/4090, 2×24 Go ~15-25 t/s
    Qwen3.5-35B-A3B (MoE) 22-24 Go Mac M3 Pro 32 Go, RTX 3090 ~60-112 t/s (MoE très rapide)
    Qwen3.5-122B-A10B ~70 Go Mac Studio M3 Ultra 96 Go+, 2× RTX 4090 ~15-25 t/s
    Qwen3.5-397B-A17B (flagship) ~220 Go Serveur GPU (2× A100/H100), cloud GPU Variable
    Qwen3-Coder-30B-A3B 15-20 Go Mac M3 Pro 32 Go, RTX 3090 ~60+ t/s

    La règle de pouce sur Mac : la mémoire unifiée Apple Silicon compte comme de la VRAM. Un MacBook Pro M3 Max avec 64 Go est aussi capable qu’un PC avec 48 Go de VRAM pour l’inférence LLM. Sur PC : la VRAM de la carte graphique compte en premier, la RAM système en fallback (beaucoup plus lent).

    Recommandation pour la majorité des utilisateurs : viser qwen3.5:9b comme point de départ. Tourne confortablement sur tout Mac 16 Go récent ou PC avec RTX 3060 12 Go. Performance largement suffisante pour rédaction, code simple, analyse de documents courts, veille. C’est le modèle par défaut sur Ollama pour Qwen3.5.

    Option 1 — Ollama : la voie la plus rapide

    Ollama est devenu la solution par défaut pour faire tourner des LLM en local. Son approche : Docker pour les modèles. Vous tirez un modèle par son nom, vous l’exécutez avec une commande, vous accédez à une API OpenAI-compatible sur localhost:11434. Trois commandes, un assistant fonctionnel.

    Installation (macOS, Linux, Windows)

    # macOS et Linux (commande unique)
    curl -fsSL https://ollama.com/install.sh | sh
    
    # Windows
    # Télécharger l'installeur sur ollama.com, double-clic, suivant.
    
    # Vérification
    ollama --version

    Télécharger et lancer Qwen3.5

    Une fois Ollama installé, le téléchargement du modèle se fait en une commande. Choisissez la taille selon votre hardware :

    # Le point de départ recommandé
    ollama pull qwen3.5:9b
    
    # Les alternatives selon votre machine
    ollama pull qwen3.5:4b         # Machines modestes
    ollama pull qwen3.5:27b        # Hardware costaud
    ollama pull qwen3.5:35b-a3b    # MoE ultra-rapide
    ollama pull qwen3-coder:30b    # Spécialisé code
    
    # Lancer une conversation
    ollama run qwen3.5:9b
    
    # Dans le chat, commandes utiles
    >>> /set parameter num_ctx 32768    # contexte 32K
    >>> /show info                       # infos du modèle
    >>> /bye                             # quitter

    Le modèle tourne maintenant sur votre machine. Par défaut, Ollama expose aussi une API REST sur localhost:11434, compatible avec le format OpenAI. Ça veut dire que n’importe quel outil qui parle à l’API OpenAI (Cursor, Cline, Continue.dev, Obsidian plugins, votre propre script Python) peut pointer vers Ollama et utiliser Qwen localement.

    Connecter Ollama à vos outils

    # Exemple Python avec le client officiel
    import ollama
    
    response = ollama.chat(
        model='qwen3.5:9b',
        messages=[
            {'role': 'user', 'content': 'Résume cet article : [texte]'}
        ]
    )
    print(response.message.content)
    
    # Via l'API REST directement (sans client)
    curl http://localhost:11434/api/chat -d '{
      "model": "qwen3.5:9b",
      "messages": [{"role": "user", "content": "Bonjour"}],
      "stream": false
    }'
    Limite à connaître sur Qwen3.5 + Ollama

    Au 16 avril 2026, certaines variantes Qwen3.5 qui utilisent des fichiers mmproj séparés (pour la vision multimodale) ne fonctionnent pas encore parfaitement dans Ollama. Pour la vision (Qwen3-VL), privilégiez LM Studio ou llama.cpp. Pour le texte pur (Qwen3.5-9B, 27B, 35B-A3B, Qwen3-Coder), Ollama fonctionne nickel.

    Option 2 — LM Studio : pour qui préfère le graphique

    LM Studio est l’équivalent de Ollama avec une interface graphique complète. Même base technique sous le capot (llama.cpp), mais une expérience utilisateur taillée pour ceux qui préfèrent un clic plutôt qu’une commande. Parfait pour les profils non-développeurs et pour explorer différents modèles sans apprendre de syntaxe.

    Installation et premier modèle

    Étape 01
    Télécharger LM Studio

    Rendez-vous sur lmstudio.ai, récupérez l’installateur pour macOS, Windows ou Linux. Installation en 2 minutes. L’application pèse moins de 500 Mo.

    Étape 02
    Rechercher et télécharger Qwen

    Dans le Model Search intégré, tapez ‘unsloth/qwen3.5’. Choisissez la taille et la quantization (Q4_K_M est l’optimum pour la plupart des cas). Le téléchargement se fait en tâche de fond.

    Étape 03
    Charger et discuter

    Onglet Chat, sélection du modèle dans la barre supérieure, premier prompt. L’interface ressemble à ChatGPT avec des paramètres avancés accessibles (température, top_p, contexte, thinking toggle).

    LM Studio offre aussi un mode serveur local qui expose une API OpenAI-compatible sur le port 1234 — utile si vous voulez utiliser LM Studio comme back-end et un autre outil comme client. L’avantage face à Ollama : la gestion visuelle des modèles, la possibilité de comparer plusieurs prompts dans des sessions parallèles, et les paramètres inférentiels ajustables via des sliders.

    Choisir la bonne quantization

    Terme technique qui fait peur mais qui compte : la quantization est la technique qui réduit la taille du modèle en mémoire en utilisant moins de bits pour représenter les poids. Plus la quantization est agressive, moins le modèle consomme de mémoire, mais plus la qualité baisse.

    Quantization Taille vs original Qualité Recommandation
    F16 / BF16 (non quantisé) 100% Maximale Serveurs avec beaucoup de VRAM
    Q8_0 ~50% Quasi-maximale Cas où la qualité prime
    Q5_K_M ~35% Très bonne Bon compromis si la RAM permet
    Q4_K_M ~25% Bonne, peu perceptible Point d’équilibre optimal
    Q3_K_M ~20% Dégradation visible Machines très limitées
    Q2_K ~15% Dégradation forte Déconseillé sauf contrainte extrême

    La règle simple : Q4_K_M est le point d’équilibre pour 95 % des usages. La différence de qualité avec F16 est difficilement perceptible en usage normal, alors que la consommation mémoire est divisée par quatre. C’est la quantization par défaut proposée par Ollama. Sur LM Studio, elle est aussi recommandée pour la plupart des modèles.

    Optimisations qui changent la vie

    Trois paramètres qui multiplient les performances ou réduisent la consommation mémoire sans sacrifier la qualité :

    Flash Attention

    Optimisation du mécanisme d’attention qui réduit la VRAM et accélère l’inférence sans dégradation. À activer systématiquement quand votre GPU le supporte (toute carte NVIDIA récente, Apple Silicon).

    # Ollama : variable d'environnement
    export OLLAMA_FLASH_ATTENTION=1
    
    # LM Studio : Settings > Flash Attention > ON

    KV Cache Quantization

    Technique qui quantize le cache d’attention (KV cache) en plus des poids. Réduit la mémoire consommée par le contexte long. Attention : peut dégrader la qualité, à tester sur vos cas d’usage.

    # Prérequis : Flash Attention activé
    export OLLAMA_KV_CACHE_TYPE=q8_0     # recommandé (moitié mémoire)
    export OLLAMA_KV_CACHE_TYPE=q4_0     # agressif (tiers mémoire)

    Réduction du contexte

    Le contexte (num_ctx) coûte cher en mémoire. Si votre machine peine, baissez-le à 8K ou 16K au lieu des 128K par défaut. Vous garderez la qualité du modèle mais perdrez la fenêtre longue — acceptable pour la plupart des usages conversationnels.

    Le workflow hybride cloud + local

    La plupart des utilisateurs qui s’installent Qwen en local ne basculent pas complètement. Ils adoptent un workflow hybride où le local gère les tâches simples et courantes, et le cloud prend les cas difficiles :

    • En local (Qwen3.5-9B / 27B) — emails, notes, résumés courts, réécriture, brainstorming, traduction, extraction JSON simple, chat informel. ~70 % du volume quotidien.
    • En cloud API (Qwen3.6-Plus, Claude Opus 4.7, GPT-5.4 Pro) — analyses complexes, code agentique difficile, raisonnement multi-étapes, contexte très long, tâches où la qualité compte plus que le coût. ~30 % restants.

    Ce partage réduit la facture API de 70 à 90 % tout en gardant la qualité sur les tâches critiques. Pour un dev en solo ou une petite équipe, les économies annuelles se chiffrent en milliers d’euros. Pour une entreprise qui déploie à l’échelle, en dizaines de milliers.

    Cas particulier : Qwen-Coder en local pour le dev

    Pour les développeurs, Qwen3-Coder-30B-A3B en local est le sweet spot. Un MacBook Pro M3 Pro 32 Go ou un PC avec RTX 3090 le fait tourner à 60+ tokens/seconde grâce à l’architecture MoE (seulement 3B actifs). La qualité est dans la fourchette de Claude Sonnet 4 sur SWE-bench.

    Configuration : Ollama ou LM Studio, puis pointer Cline (VS Code) ou Continue.dev vers localhost. Votre environnement de dev utilise un modèle au niveau frontière, entièrement local, sans frais d’API, sans envoyer une ligne de votre code sensible à un serveur tiers. C’est la configuration qui vaut particulièrement le coup pour les agences web, studios de jeu, startups qui protègent leur IP.

    Dépannage des problèmes fréquents

    Quelques écueils récurrents qui bloquent les débutants :

    « Le modèle se charge lentement ou crashe » — mémoire insuffisante. Passez à une quantization plus petite (Q4_K_M au lieu de Q5, ou Q3 en dernier recours) ou un modèle plus petit (9B au lieu de 27B).

    « La génération est très lente, moins de 10 tokens/seconde » — soit un autre processus monopolise votre GPU, soit vous êtes en fallback CPU sans vous en rendre compte. Vérifiez avec ollama ps ou les indicateurs de LM Studio. Pour Mac Apple Silicon, Metal doit être activé par défaut.

    « Les appels de fonctions échouent » — problème connu sur certaines versions d’Ollama pour les modèles thinking. Mettez à jour Ollama, et testez sans le mode thinking (enable_thinking=false). Les intégrations MCP fonctionnent bien avec Qwen3.5 mais demandent parfois un ajustement de paramètres.

    « Erreurs de context window » — votre contexte est trop large pour la mémoire disponible. Réduisez num_ctx à 32K ou 16K dans votre config. Les 128K ou 256K théoriques ne sont atteignables que sur des configurations très haut de gamme.

    Notre avis : l’investissement le plus rentable

    Installer Qwen en local demande une demi-journée d’investissement la première fois — télécharger l’outil, choisir un modèle, comprendre deux ou trois concepts de base. Le retour est immédiat et durable. Vous gagnez une autonomie que les utilisateurs de ChatGPT ou Claude n’auront jamais, quel que soit leur niveau d’abonnement. Vos données restent chez vous. Vos coûts sont bornés. Votre outil continue de fonctionner en avion, dans le TGV, en randonnée, pendant une panne de votre fournisseur cloud.

    Pour une fraction significative des utilisateurs professionnels — notamment ceux qui traitent des données sensibles — c’est même plus qu’une commodité : c’est la seule configuration qui permet d’utiliser l’IA sans violer ses obligations de confidentialité. Avocats, médecins, DRH, cabinets d’audit, journalistes avec sources protégées : vous n’avez en réalité pas d’autre choix que le self-hosting si vous voulez exploiter l’IA sérieusement.

    La combinaison Qwen3.5-9B ou 27B + Ollama + Cline/Continue + API cloud en backup pour les cas difficiles est la configuration la plus puissante disponible pour un utilisateur solo en 2026. Elle coûte le prix d’une bonne machine, ensuite rien. Et vous êtes le seul à savoir ce qui passe dedans.

    Ce que cela change pour vous

    Action concrète cette semaine : installez Ollama (ou LM Studio si vous préférez le graphique), téléchargez qwen3.5:9b, et utilisez-le pendant trois jours pour toutes vos tâches IA quotidiennes. Vous aurez vite une intuition claire : ce qui passe en local, ce qui mérite de rester en cloud, et comment organiser votre workflow hybride.

    L’article suivant bascule sur un terrain complémentaire : Qwen Code CLI, l’agent en ligne de commande open source qui rivalise avec Claude Code. Si vous codez, c’est la suite logique du self-hosting — votre assistant dev autonome, tournant entièrement sur votre machine, sans facture API. Un combo qui remplace Cursor ou Copilot pour une partie non-négligeable des usages.

    Aller plus loin
    Tous les guides pour maîtriser l’IA

    Du débutant à l’utilisateur avancé : guides, tutoriels, et analyses pour exploiter l’IA localement et dans le cloud.

    Explorer les guides IA
    Mise à jour : mai 2026
    Étiquettes: