CODE

Guide IA

DeepSeek pour le code : le concurrent open source

DeepSeek V4-Pro pose le score le plus élevé jamais publié sur LiveCodeBench (93,5 %) et 80,6 % sur SWE-bench Verified. V4-Flash suit à 1,6 point. Les poids sont sous licence MIT, l’intégration dans Claude Code, Cursor et OpenCode est officielle. Ce troisième article de la série détaille les benchmarks, les langages, les agents de code compatibles et le guide complet du self-hosting de V4 sur vos propres GPU.

Le code est le terrain de jeu historique de DeepSeek. Le labo a publié DeepSeek Coder dès 2023, puis Coder V2 en 2024 — l’un des premiers modèles open source à atteindre des performances de premier rang sur HumanEval. Depuis V3, les capacités de génération de code ont fusionné dans le modèle principal, et V4 pousse cette intégration plus loin : pas de modèle « Coder » séparé, l’intelligence agentic coding est désormais native dans la gamme.

Si vous avez lu le précédent article de la série, vous savez configurer V4 dans Claude Code, Cursor et Continue. Cet article-ci entre dans le détail : ce que V4 vaut vraiment sur le code, langage par langage, mode par mode, et comment faire tourner les poids sur vos serveurs quand l’API hébergée ne convient pas.

Les benchmarks de code de V4

HumanEval est saturé : tous les modèles haut de gamme scorent au-dessus de 90 %. Le benchmark qui discrimine vraiment, c’est SWE-bench Verified : 500 vrais bugs GitHub issus de projets open source réels, où le modèle doit comprendre le code existant, identifier la cause et produire un patch fonctionnel. La tâche la plus proche de ce que fait un développeur au quotidien.

DeepSeek a publié les scores officiels de V4-Pro (en mode Max) et V4-Flash (en mode Max) le jour même de la sortie. Voici le détail benchmark par benchmark, focalisé sur le code.

Benchmark code	V4-Pro (Max)	V4-Flash (Max)	Écart	Ce qu’il mesure
SWE-bench Verified	80,6 %	79,0 %	1,6 pt	Bugs réels GitHub résolus de bout en bout
SWE-Bench Pro	55,4 %	—	—	Software engineering complexe sur projets réels
LiveCodeBench (Pass@1)	93,5 %	91,6 %	1,9 pt	Génération de code sur problèmes récents
Codeforces (rating)	3206	—	—	Programmation compétitive
Terminal-Bench 2.0	67,9 %	56,9 %	11 pt	Agents en ligne de commande, multi-étapes
HumanEval	~90 %	~88 %	~2 pt	Génération de fonctions Python isolées (saturé)

Trois constats sortent de ce tableau. Premièrement, V4-Pro pose le score le plus élevé jamais publié sur LiveCodeBench à 93,5 % — pour le code récent, c’est le modèle le plus fort, point. Deuxièmement, le rating Codeforces de 3206 place V4-Pro en tête des modèles open-weight sur la programmation compétitive. Ensuite, l’écart Pro/Flash sur SWE-bench, LiveCodeBench et HumanEval tient en 1 à 2 points : pour la majorité des tâches développeur, Flash est fonctionnellement équivalent à Pro à un douzième du prix.

Cela dit, là où l’écart se creuse vraiment, c’est Terminal-Bench 2.0 (67,9 vs 56,9) — un benchmark qui mesure la capacité à enchaîner des commandes shell sur plusieurs étapes. Pour les agents autonomes qui doivent naviguer dans un repo, lancer des tests et corriger des erreurs de build, V4-Pro creuse l’écart de 11 points. C’est le seul benchmark de code où le passage à V4-Pro se justifie franchement par rapport à V4-Flash.

Les langages : où V4 excelle et où il trébuche

DeepSeek V4 est entraîné sur 32 trillions de tokens, dont une part massive de code couvrant plus de 80 langages de programmation. Le modèle Coder original couvrait déjà des langages aussi variés que Ada, Agda, COBOL, Erlang, Lean, OCaml, Solidity, Verilog ou Zig. V4 hérite de cette amplitude. En pratique, les performances varient toutefois beaucoup selon le langage.

Tier 1 — Excellent

Python, JavaScript et TypeScript, Java, C++. Ainsi, ce sont les langages les plus représentés dans les données d’entraînement. Le modèle produit du code idiomatique, comprend les frameworks majeurs (React, Next.js, FastAPI, Django, Spring Boot, Express) et débugue efficacement. Sur ces quatre langages, l’écart entre V4-Flash et V4-Pro est minime au quotidien — privilégiez Flash sauf pour les refactorings de gros codebases.

Tier 2 — Bon

Go, Rust, C#, Kotlin, Swift, Scala. Le code généré est fonctionnel, mais certaines API récentes ou patterns idiomatiques peuvent être datés. Ensuite, sur Rust spécifiquement, le modèle gère bien les patterns courants (lifetimes, traits, async) mais peut buter sur les cas avancés (HRTB, GAT, async traits sans dyn). Sur Go, les goroutines et channels sont bien compris, les erreurs concernent plus souvent les nouvelles API generics.

Tier 3 — Fonctionnel mais limité

PHP, Ruby, Haskell, Lua, shell scripting, R. Le code compile et tourne, mais les suggestions sont parfois génériques. Pour les frameworks de niche (Laravel avancé, Rails API mode, Phoenix LiveView), attendez-vous à devoir corriger ou à activer Think High pour obtenir une qualité plus stable.

Niche — DSL et langages spécialisés

Solidity, Verilog, SystemVerilog, Lean, Coq, Cuda, GLSL, HLSL. La couverture existe grâce au corpus Coder original, mais la qualité dépend très fortement du sujet précis. Pour ces langages, le mode Think Max change radicalement la donne : en laissant le modèle dérouler 100 à 384K tokens de raisonnement, vous obtenez des sorties bien plus solides qu’en Non-think.

Un point notable : V4 gère également bien le chinois dans les commentaires et la documentation, ce qui peut être un avantage si vous travaillez avec des équipes ou des projets sinophones.

Le mode thinking pour le code : quand l’activer

V4-Pro et V4-Flash partagent les mêmes trois modes de raisonnement : Non-think, Think High, Think Max. Sur le code, le choix du mode a un impact direct sur la qualité et sur le coût. Voici la règle pratique qui ressort des premiers retours communauté.

Non-think — autocomplétion en ligne, génération de fonctions courtes (moins de 50 lignes), boilerplate, traduction d’une signature dans un autre langage. La latence est minimale (200-500 ms), le coût aussi. C’est le défaut dans les éditeurs.
Think High — debug de fonctions complexes, refactoring d’un module, écriture de tests qui couvrent les cas limites, résolution d’un bug GitHub issue. Le modèle déroule sa chaîne de pensée avant de répondre, ce qui améliore nettement la qualité sur les tâches qui demandent du raisonnement.
Think Max — problèmes algorithmiques difficiles, optimisation de performance, refactoring architectural multi-fichiers, debug de bugs subtils dans des systèmes distribués. Ce mode peut consommer jusqu’à 384K tokens de raisonnement : à réserver aux tâches où le coût supplémentaire vaut le gain de qualité.

Pour les agents : configuration recommandée par DeepSeek

La doc officielle de DeepSeek pour Claude Code recommande CLAUDE_CODE_EFFORT_LEVEL=max avec ANTHROPIC_MODEL=deepseek-v4-pro[1m] sur le modèle principal, et V4-Flash en sub-agent pour les sous-appels. Ainsi, les tâches lourdes utilisent Think Max et le contexte 1M, tandis que les sous-tâches courtes routent vers Flash automatiquement. C’est le pattern qui donne le meilleur rapport qualité/prix sur les workflows agentic.

Les coding agents compatibles V4

DeepSeek a publié le 24 avril 2026 une documentation officielle qui liste les outils intégrés à V4. La gamme est nativement compatible avec les coding agents majeurs du paysage vibe coding en 2026, soit directement, soit via l’endpoint Anthropic-compatible.

Claude Code — intégration officielle DeepSeek

Claude Code dialogue avec V4 via cinq variables d’environnement (voir le tutoriel détaillé dans l’article 2 de la série). Pour le code spécifiquement, deux subtilités à connaître. D’abord, le suffixe [1m] dans ANTHROPIC_MODEL=deepseek-v4-pro[1m] débloque le contexte 1M : indispensable pour explorer un repo entier. Ensuite, les fallbacks Sonnet et Haiku routent automatiquement les sous-appels (planification, tâches courtes) vers V4-Flash, ce qui maintient la facture au plancher.

OpenCode et OpenClaw — les agents communautaires

OpenCode et OpenClaw sont les deux agents open source qui supportent V4 nativement. Versions minimales requises : OpenCode v1.14.24+ et OpenClaw v2026.4.24+. La configuration passe par un fichier JSON dédié à chaque outil. Avantage : 100 % gratuits côté logiciel, vous payez uniquement les tokens API consommés. Pour les développeurs qui veulent un agent autonome avec du Think High activé en permanence et un coût marginal proche de zéro, c’est l’option la plus économique du marché.

Cursor — modèles hébergés ou clé API personnelle

Cursor supporte DeepSeek de deux façons. Ainsi, les modèles hébergés directement par Cursor sont inclus dans l’abonnement Pro à 20 $ par mois — sans transit de données vers la Chine, c’est Cursor qui héberge l’inférence. Ensuite, vous pouvez ajouter votre propre clé pour appeler V4-Pro ou V4-Flash directement via l’API DeepSeek. La seconde approche coûte au token mais reste imbattable pour le volume.

Continue.dev — VS Code et JetBrains

Continue est l’extension open source qui transforme VS Code ou JetBrains en assistant de code IA. Le pattern qui marche le mieux : V4-Pro pour le chat et les refactorings, V4-Flash pour l’autocomplétion en ligne (latence 200-500 ms à un coût quasi nul).

Cline — agent autonome dans VS Code

Cline est l’agent autonome de référence pour VS Code. La configuration tient dans le choix du provider OpenAI Compatible, base URL https://api.deepseek.com, clé DeepSeek, modèle deepseek-v4-pro ou deepseek-v4-flash. Cline tire alors parti du contexte 1M pour explorer un repo entier et chaîner les modifications multi-fichiers sans perdre le fil.

Aider — l’agent terminal

Aider est l’agent en ligne de commande historique pour le code IA. Le service supporte V4 via le provider OpenAI-compatible : aider --model deepseek/deepseek-v4-pro --api-base https://api.deepseek.com. Pour les développeurs qui préfèrent travailler en terminal, c’est l’intégration la plus légère.

Le self-hosting de V4 : l’avantage stratégique

Le self-hosting est le terrain où DeepSeek est sans équivalent. Les poids de V4-Pro et V4-Flash sont publiés sous licence MIT sur Hugging Face le jour même de la sortie. Vous pouvez télécharger, modifier, fine-tuner, redistribuer et héberger commercialement, sans restriction. Pour les équipes qui travaillent sur du code propriétaire sensible — fintech, défense, santé, propriété intellectuelle — c’est l’argument décisif.

Deux outils dominent l’inférence : Ollama pour la simplicité (développement, usage individuel) et vLLM pour la performance (production, requêtes concurrentes). SGLang est une troisième option qui monte sur les workflows long-contexte structurés.

V4-Flash — le point d’entrée pratique

V4-Flash est la cible pratique pour le self-hosting. Le checkpoint officiel FP4+FP8 mixte fait environ 158 Go. Le hardware recommandé : un seul GPU H200 (141 Go HBM3e) ou deux A100 80 Go en tensor parallelism, avec 256 Go de RAM système et au moins 500 Go de stockage NVMe. Pour un contexte 1M complet (avec la place pour le KV cache), comptez plutôt deux H200 ou quatre A100.

# Déploiement V4-Flash via vLLM (4xB200 ou 4xB300)
docker run --gpus all \
  --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:deepseekv4-cu130 deepseek-ai/DeepSeek-V4-Flash \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-size 4 \
  --tokenizer-mode deepseek_v4 \
  --tool-call-parser deepseek_v4 \
  --enable-auto-tool-choice \
  --reasoning-parser deepseek_v4

vLLM expose une API OpenAI-compatible sur le port 8000 : vous pointez n’importe quel SDK OpenAI vers http://votre-serveur:8000/v1 et la migration depuis l’API hébergée DeepSeek est transparente. Le serveur vLLM gère automatiquement le routage des experts MoE, le KV cache et la nouvelle attention CSA+HCA.

V4-Flash sur hardware modeste — KTransformers et offloading CPU

Si vous n’avez pas de cluster H200, KTransformers permet de faire tourner V4-Flash en mode hybride GPU/CPU. L’outil offloade les experts MoE sur la RAM système et garde uniquement les couches d’attention et les experts actifs sur le GPU. La configuration minimale : un GPU 24 Go (RTX 3090, RTX 4090 ou A6000) avec 256 Go de RAM système.

# V4-Flash sur RTX 4090 + 256 Go RAM via KTransformers
python -m ktransformers.server \
  --model deepseek-ai/DeepSeek-V4-Flash \
  --device-map auto \
  --offload-strategy moe-cpu \
  --gpu-memory-limit 22G \
  --port 8200

Le compromis : 2 à 5 fois plus lent qu’un setup full-GPU. La génération tombe autour de 5 à 15 tokens/seconde au lieu de 40+. Acceptable pour un usage interactif solo, insuffisant pour servir plusieurs utilisateurs simultanés.

V4-Flash quantifié — pour les setups vraiment serrés

Les premières quantifications communautaires INT4 et w8a8 sont apparues dans les jours suivant la sortie. Une quantification INT4 agressive permet potentiellement de faire tenir V4-Flash sur quatre RTX 4090, mais avec une perte de qualité notable sur les tâches de raisonnement (1 à 3 points sur les benchmarks code). La quantification FP4+FP8 mixte officielle de DeepSeek reste le bon défaut : la perte de qualité y est négligeable en pratique.

V4-Pro — le déploiement datacenter

V4-Pro est un autre exercice. Le checkpoint FP4+FP8 fait environ 862 Go. Le hardware minimum : 8x A100 80 Go, ou 8x H100, ou 8x B200 en tensor parallelism + expert parallelism. C’est un déploiement datacenter, pas un setup de bureau. NVIDIA a publié des benchmarks sur GB200 NVL72 qui annoncent plus de 150 tokens/seconde par utilisateur en out-of-the-box — c’est aussi rapide que les meilleurs services hébergés.

Le coût mensuel d’un cluster 8x H100 en cloud (AWS, GCP, Azure) tourne autour de 15 000 à 25 000 $ par mois. C’est rentable uniquement si vous traitez assez de volume pour que l’API hébergée coûte plus cher — typiquement au-delà de 50 millions de tokens par jour. En dessous, l’API officielle ou un provider tiers reste plus économique.

Une particularité technique à anticiper

La release V4 ne fournit pas de chat template au format Jinja. À la place, DeepSeek livre des scripts Python d’encodage dans le repo Hugging Face (encoding_dsv4.py) à utiliser pour construire les prompts. Si vous déployez V4 derrière votre propre serveur d’inférence sans passer par vLLM ou SGLang (qui gèrent ça automatiquement), il faut intégrer ces scripts dans votre pipeline de prompt construction.

Les providers tiers : la voie médiane

Entre l’API officielle DeepSeek (serveurs en Chine) et le self-hosting complet, il existe une troisième voie : les providers tiers qui hébergent les poids V4 hors de Chine. OpenRouter, Together AI, Fireworks, DeepInfra et NVIDIA NIM (sur build.nvidia.com) servent V4-Pro et V4-Flash via une API OpenAI-compatible. Vous gardez le modèle DeepSeek et son pricing agressif, sans la résidence des données en Chine. Le surcoût est modeste — typiquement 20 à 50 % au-dessus du tarif officiel — et c’est souvent le bon compromis pour les équipes européennes soucieuses du RGPD sans vouloir gérer un cluster GPU.

Le bon setup selon votre profil

Dev solo

API DeepSeek + Continue ou Cursor

V4-Flash dans Continue ou Cursor pour le quotidien (autocomplétion + chat). V4-Pro avec Think High via Claude Code pour les tâches lourdes. Profitez de la promo -75 % sur V4-Pro jusqu’au 5 mai 2026. Coût : 5 à 15 $ par mois.

Startup

API DeepSeek + provider tiers en backup

Mettez V4-Flash en modèle principal pour le volume (extraction, tests, boilerplate, classification). V4-Pro en spike pour les tâches critiques. OpenRouter ou Together en fallback hors Chine. Coût : 30 à 200 $ par mois selon le volume.

Entreprise

Self-hosting V4-Flash on-premise

Code propriétaire sensible, conformité, zéro fuite. Déployez V4-Flash sur 1 H200 ou 2 A100 via vLLM en production. KTransformers en dev sur GPU consumer. V4-Pro via cluster 8 GPU pour les charges les plus exigeantes ou via provider tiers européen.

Ce qu’il faut retenir

V4-Pro est aujourd’hui le modèle de code open-weight le plus puissant du marché. Le score de 93,5 % sur LiveCodeBench, le rating Codeforces de 3206 et les 80,6 % sur SWE-bench Verified ne sont pas des chiffres marketing : ils sont vérifiés indépendamment et placent le modèle au sommet de sa catégorie. V4-Flash suit à 1 ou 2 points sur la majorité des benchmarks, à un douzième du prix.

L’intégration dans l’écosystème agentic coding est officielle : Claude Code, Cursor, Continue, Cline, Aider, OpenCode et OpenClaw fonctionnent tous avec V4 nativement ou via une simple base_url. Pour les workflows agentic, la combinaison V4-Pro[1m] en modèle principal + V4-Flash en sub-agent est le pattern qui donne le meilleur rapport qualité/prix.

Le self-hosting reste l’avantage stratégique unique de DeepSeek. V4-Flash tourne sur un seul H200 ou deux A100 pour la production, et descend jusqu’à un GPU 24 Go avec KTransformers pour le dev. V4-Pro demande un cluster 8 GPU mais offre des performances de premier rang. Pour les équipes qui traitent du code sensible — fintech, santé, défense, propriété intellectuelle — c’est l’argument qui l’emporte sur tous les benchmarks.

Article suivant

L’API DeepSeek, guide développeur

Function calling, streaming, JSON mode, cache automatique, gestion du contexte 1M, format Anthropic vs OpenAI, scénarios économiques pour les pipelines de données. Le guide technique complet de l’API V4.

L’API DeepSeek pour développeurs ↗

Mise à jour : 27 avril 2026