Aller au contenu
    DEEP
    Guide IA

    DeepSeek : la puissance brute à prix cassé

    Le 24 avril 2026, DeepSeek a livré V4-Pro et V4-Flash. Mille milliards de paramètres, contexte d’un million de tokens en standard, licence MIT, et un tarif d’API qui tient sur deux décimales. Ce premier article de la série « De zéro à machine de guerre avec DeepSeek » pose toutes les bases : l’entreprise, la nouvelle gamme V4, les trois modes de raisonnement, l’architecture qui rend tout ça possible, et le pricing qui change l’économie de l’IA.

    En décembre 2024, un labo IA de Hangzhou publie les poids d’un modèle de 671 milliards de paramètres, entraîné en moins de trois mois pour 5,5 millions de dollars. Ainsi, le modèle rivalise avec les modèles propriétaires les plus avancés sur le code et le raisonnement. Puis, deux mois plus tard, DeepSeek R1 fait vaciller le Nasdaq de 600 milliards de dollars en une journée. La panique est simple à résumer : si un labo chinois de quelques centaines de personnes peut produire un modèle haut de gamme pour le prix d’un seul tour Series B, à quoi servent alors les dizaines de milliards investis ailleurs ?

    Quatre cent quatre-vingt-quatre jours après V3, DeepSeek a livré la suite. Ainsi, le 24 avril 2026, l’équipe a publié DeepSeek V4-Pro (1,6 trillion de paramètres) et également DeepSeek V4-Flash (284 milliards de paramètres) — deux modèles open-weight sous licence MIT, avec un contexte d’un million de tokens en standard et un tarif d’API toujours imbattable. Ce guide vous donne alors la vision complète : la nouvelle gamme, les trois modes de raisonnement, l’architecture qui divise par dix la consommation mémoire à très long contexte, le pricing exact, et enfin ce qui disparaît au passage.

    L’entreprise : un fonds quantitatif devenu labo IA

    DeepSeek n’est pas une startup IA classique. L’entreprise est née en 2023 à Hangzhou, en Chine, comme filiale de High-Flyer Capital Management, un fonds d’investissement quantitatif fondé par Liang Wenfeng. Ainsi, High-Flyer gère plusieurs milliards de dollars d’actifs et utilise également le machine learning pour ses stratégies de trading depuis des années.

    La philosophie de DeepSeek est inscrite dans son ADN financier : maximiser l’intelligence par dollar investi. Là où l’entraînement de GPT-4 a été estimé à plus de 100 millions de dollars, DeepSeek V3 a coûté 5,5 millions. C’est une thèse d’investissement appliquée à la recherche IA, pas un accident.

    L’équipe reste relativement petite — quelques centaines de chercheurs et ingénieurs — comparée aux milliers d’employés des grands labos américains. Ainsi, DeepSeek publie les poids de ses modèles sous licence MIT : n’importe qui peut alors les télécharger, les modifier, les redistribuer et les utiliser commercialement sans restriction. Le chercheur Deli Chen a également décrit V4 sur X comme « une œuvre d’amour » et a rappelé la ligne directrice du labo : « l’AGI appartient à tout le monde. »

    La gamme V4 : deux modèles, trois modes de raisonnement

    DeepSeek V4 est une famille de deux modèles, tous deux en architecture Mixture of Experts, tous deux publiés simultanément le 24 avril 2026 sous licence MIT. La distinction entre les deux n’est pas une simple histoire d’échelle : c’est une segmentation produit entre profondeur et vitesse.

    DeepSeek V4-Pro — le modèle phare

    V4-Pro est le navire amiral de la gamme. Il pèse 1,6 trillion de paramètres totaux, dont 49 milliards activés par token grâce à l’architecture MoE (on y revient juste après). Pré-entraîné sur 33 trillions de tokens, c’est ainsi le plus gros modèle open-weight disponible aujourd’hui. DeepSeek le présente également comme « le meilleur modèle open source disponible à ce jour ». Sur l’interface chat, il s’active sous le nom Expert Mode. Puis sur l’API, son identifiant est deepseek-v4-pro.

    DeepSeek V4-Flash — le modèle efficacité

    V4-Flash est conçu pour le débit et le coût. Il pèse 284 milliards de paramètres totaux, dont 13 milliards activés par token, et a été entraîné sur 32 trillions de tokens. La plateforme le baptise alors Instant Mode sur le chat, et l’API l’expose sous deepseek-v4-flash. La force de V4-Flash, c’est l’arbitrage : il abandonne 1 à 2 points sur la plupart des benchmarks par rapport à Pro, en échange d’une division par 12 du coût d’API. Ainsi, pour la majorité des charges de production qui n’exigent pas un raisonnement de pointe, c’est le bon défaut.

    Les trois modes de raisonnement

    Pro et Flash partagent les mêmes trois modes de raisonnement, sélectionnables par l’utilisateur ou par l’API. Le réglage modifie en profondeur le comportement du modèle.

    • Non-think — réponse directe, sans chaîne de pensée visible. La latence est minimale et le coût aussi. Pour les tâches courtes du quotidien (résumé, extraction simple, conversation, classification), c’est le réglage par défaut.
    • Think High — raisonnement étendu en arrière-plan, qualité maximale pour les problèmes complexes. Le modèle déroule sa réflexion avant de répondre. C’est le mode activé automatiquement pour les requêtes lancées depuis Claude Code, OpenCode ou OpenClaw.
    • Think Max — pousse le raisonnement à ses dernières limites. Le modèle peut consommer jusqu’à 384 000 tokens de raisonnement sur une seule réponse. C’est plus de budget réflexion que la plupart des concurrents n’en allouent à un contexte entier. À réserver aux problèmes mathématiques, scientifiques ou de raisonnement de très haut niveau.

    Sur l’API, le mode se règle via le paramètre reasoning_effort (high ou max) couplé à extra_body={"thinking": {"type": "enabled"}}. Quand le mode thinking est désactivé, le modèle se comporte en Non-think. Pour Think Max, DeepSeek recommande de pousser la fenêtre de contexte à au moins 384K tokens pour laisser de la place à la chaîne de pensée.

    Et V3.2 ? Et R2 ?

    Les anciens endpoints deepseek-chat et deepseek-reasoner de la série V3 sont en sursis : DeepSeek les retire définitivement le 24 juillet 2026. En attendant, ils routent automatiquement vers V4-Flash (Non-think pour chat, Think High pour reasoner). DeepSeek R2, le raisonneur compact de 32B sorti début avril 2026, reste disponible mais devient marginal face à V4 : les trois modes de raisonnement de V4 couvrent déjà l’essentiel des cas d’usage où R2 brillait.

    L’architecture : pourquoi V4 coûte si peu cher à servir

    Derrière le tarif plancher de DeepSeek se cachent quatre innovations architecturales qui s’articulent. Aucune n’est triviale, et c’est leur combinaison qui produit l’effet économique.

    Mixture of Experts — l’intelligence sparse

    Le concept est contre-intuitif. V4-Pro contient 1,6 trillion de paramètres, mais il n’en utilise que 49 milliards pour traiter chaque token. Ainsi, les 1,55 trillions restants « dorment ». Concrètement, le modèle est découpé en sous-réseaux spécialisés — les « experts ». Pour chaque token d’entrée, un mécanisme de routage sélectionne alors les experts les plus pertinents. Un expert peut être spécialisé en syntaxe Python, un autre en raisonnement logique, un troisième en grammaire française. Ensuite, le routage se fait en quelques microsecondes, et seuls les experts choisis s’activent. La charge de calcul reste enfin proche de celle d’un modèle dense de 49 milliards de paramètres, mais avec l’intelligence d’un modèle 30 fois plus gros.

    CSA + HCA — l’attention hybride qui rend le 1M utilisable

    La vraie rupture de V4, c’est sa nouvelle architecture d’attention. La plupart des modèles affichent un contexte d’un million de tokens comme argument marketing : l’économie de l’inférence à cette échelle est généralement brutale (l’attention scale en quadratique). DeepSeek V4 résout le problème avec un mécanisme hybride en deux étages.

    • Compressed Sparse Attention (CSA) — les tokens sont regroupés en petits blocs compressés en représentations résumées. Pour chaque nouveau token, le modèle ne regarde que les 1 024 résumés les plus pertinents au lieu de l’intégralité du contexte. Le calcul est ciblé sur les zones du contexte qui comptent vraiment.
    • Heavily Compressed Attention (HCA) — des blocs beaucoup plus larges sont écrasés en une représentation unique. Le modèle obtient une vue globale « à l’arrache » de tout le contexte, à coût quasi nul.

    Ces deux mécanismes s’intercalent à travers les couches : ainsi, le modèle alterne en permanence entre raisonnement fin (CSA) et conscience globale (HCA). Le résultat chiffré : à un million de tokens, V4-Pro consomme alors 27 % des FLOPs et 10 % du KV cache de V3.2. C’est enfin ce qui rend le contexte 1M réellement servable en production, et pas juste annonçable sur une slide.

    mHC — la stabilité du signal sur des millions de tokens

    Les Manifold-Constrained Hyper-Connections renforcent les connexions résiduelles classiques du transformer. Sur un contexte d’un million de tokens, un modèle classique tend à perdre le fil : le signal s’atténue, l’attention se dilue, la cohérence se fissure. Les mHC contraignent la propagation du signal sur une variété mathématique bornée, ce qui maintient la qualité même sur les contextes les plus longs.

    Muon optimizer + précision FP4 / FP8 mixte

    L’entraînement de V4 abandonne AdamW au profit du Muon optimizer, plus rapide à converger et également plus stable sur les longs runs. La précision est alors mixte : les paramètres des experts MoE sont en FP4 (4 bits), puis le reste du modèle en FP8. Cette combinaison divise ainsi drastiquement la mémoire nécessaire pendant l’entraînement et l’inférence, sans dégradation mesurable sur les benchmarks. Enfin, c’est ce qui permet à V4-Flash de tourner sur des configurations multi-GPU accessibles à des équipes de taille moyenne.

    Pourquoi cette pile change l’économie de l’IA

    Un modèle dense d’1,6 trillion de paramètres serait économiquement injouable à servir. Grâce au MoE, V4-Pro n’active que 49B paramètres par token. Ensuite, le couple CSA + HCA fait tomber le coût d’inférence à 10 % du KV cache de V3.2 sur un contexte d’un million de tokens. Enfin, le mixage FP4/FP8 divise par deux la mémoire d’entraînement. Ainsi, le résultat combiné de ces trois leviers donne un modèle haut de gamme servable à 1,74 $ par million de tokens d’entrée.

    Les benchmarks officiels de V4

    DeepSeek a publié les scores officiels de V4-Pro (en mode Max) et V4-Flash (en mode Max). Voici les résultats compilés à partir du model card Hugging Face et des évaluations indépendantes publiées au lendemain de la sortie.

    Benchmark V4-Pro (Max) V4-Flash (Max) Ce qu’il mesure
    SWE-bench Verified 80,6 % 79,0 % Tâches réelles d’ingénierie logicielle bout en bout
    LiveCodeBench (Pass@1) 93,5 % 91,6 % Génération de code sur problèmes récents
    Codeforces (rating) 3206 Programmation compétitive
    Terminal-Bench 2.0 67,9 % 56,9 % Agents en ligne de commande, multi-étapes
    SWE-Bench Pro 55,4 % Software engineering complexe
    MMLU-Pro 87,5 % 86,4 % Connaissances générales avancées
    GPQA Diamond 90,1 % 88,1 % Raisonnement scientifique de niveau doctorat
    HLE (sans outils) 37,7 % 34,8 % Humanity’s Last Exam, raisonnement expert
    HLE (avec outils) 48,2 % Même benchmark avec accès aux outils
    HMMT 2026 95,2 % Mathématiques de compétition
    IMOAnswerBench 89,8 % Olympiades internationales de mathématiques
    GSM8K 92,6 % Problèmes mathématiques scolaires
    SimpleQA-Verified 57,9 % 34,1 % Rappel factuel sur connaissances vérifiées

    Trois constats sortent de ce tableau. Premièrement, V4-Pro pose le score le plus haut jamais publié sur LiveCodeBench (93,5 %) — ainsi, pour le code récent, c’est le modèle le plus fort, point. Deuxièmement, l’écart Pro/Flash sur la plupart des benchmarks (SWE-bench, LiveCodeBench, MMLU-Pro, GPQA) tient en 1 à 2 points : alors pour la majorité des tâches développeur, Flash est fonctionnellement équivalent à Pro à un douzième du prix. Troisièmement, là où l’écart se creuse vraiment, c’est Terminal-Bench 2.0 (67,9 vs 56,9) et également SimpleQA-Verified (57,9 vs 34,1) : les tâches multi-étapes complexes et le rappel factuel pur favorisent enfin significativement Pro.

    Sur SimpleQA, V4-Pro reste en retrait par rapport au top des modèles propriétaires : DeepSeek le reconnaît également directement dans ses notes de version. Ainsi, pour le rappel factuel encyclopédique, le modèle n’est pas le meilleur de sa catégorie — il faut alors compenser par du RAG sur vos propres données.

    Le pricing de l’API DeepSeek

    C’est l’argument massue de DeepSeek depuis V3, et V4 ne change pas la philosophie. L’API utilise un système de cache automatique : si votre requête partage un préfixe avec une requête récente, vous payez le tarif « cache hit », soit 90 % de réduction sur le prix d’entrée.

    Modèle Input cache miss / 1M tokens Input cache hit / 1M tokens Output / 1M tokens
    DeepSeek V4-Pro 1,74 $ 0,17 $ 3,48 $
    DeepSeek V4-Flash 0,14 $ 0,014 $ 0,28 $

    Posons un calcul concret. Une équipe qui traite un million de tokens par jour en entrée et 500 000 en sortie (un volume typique pour un pipeline d’extraction de données ou un assistant interne) paie alors :

    • D’abord, avec V4-Flash sans cache, environ 8,40 $ par mois en entrée + 4,20 $ par mois en sortie = 12,60 $ par mois.
    • Ensuite, avec V4-Flash et 50 % de cache hit, le coût d’entrée tombe à 4,62 $ par mois — total environ 8,80 $.
    • Enfin, avec V4-Pro sans cache, le coût mensuel dépasse 100 $ pour le même volume — à réserver aux tâches qui exigent vraiment la profondeur de Pro.

    Sur des volumes de production (10M tokens/jour), V4-Flash maintient ainsi un coût mensuel à trois chiffres, là où la plupart des modèles propriétaires haut de gamme se chiffrent en milliers de dollars. C’est alors la raison pour laquelle DeepSeek s’est imposé comme un choix très courant pour les pipelines de traitement de données, la classification à grande échelle et le prototypage rapide.

    Les nouveaux comptes obtiennent par ailleurs 5 millions de tokens gratuits à l’inscription, ce qui suffit largement à valider un cas d’usage sans engager un centime.

    Comment accéder à DeepSeek V4

    DeepSeek expose V4 via trois canaux complémentaires. Selon votre profil, l’un sera plus naturel que les autres.

    Le chat web — chat.deepseek.com

    L’interface chat est gratuite et ne nécessite qu’une adresse e-mail. Sur la barre de saisie, deux modes : Instant Mode (V4-Flash, réponse rapide) et également Expert Mode (V4-Pro, réponse plus lente mais plus profonde). Dans Expert Mode, un toggle Deep Think active alors le raisonnement étendu — équivalent du Think Max via API, jusqu’à 384K tokens de réflexion. Le chat web supporte également l’upload de fichiers et la recherche web. Ainsi, c’est le canal d’entrée idéal pour tester, prototyper, et comprendre ce que le modèle sait faire avant de coder quoi que ce soit.

    L’API DeepSeek — api.deepseek.com

    L’API DeepSeek est compatible avec le SDK OpenAI : il suffit de pointer la base_url vers https://api.deepseek.com et d’appeler deepseek-v4-pro ou deepseek-v4-flash au lieu de gpt-.... Ainsi, le format Anthropic est également supporté, ce qui permet de brancher V4 dans Claude Code ou OpenCode sans modification de la stack. Ensuite, le mode thinking se règle via un paramètre extra_body sur le SDK OpenAI ou directement dans le payload Anthropic. Enfin, le contexte standard est d’1M de tokens, et l’output max grimpe à 384K tokens.

    Les poids ouverts — Hugging Face

    Les poids de V4-Pro et V4-Flash sont publiés sous licence MIT sur Hugging Face le jour même de la sortie. Ainsi, vous pouvez télécharger, fine-tuner, redistribuer et héberger commercialement, sans restriction. V4-Flash est alors la cible pratique pour le self-hosting : 284 milliards de paramètres avec 13B activés par token, ça tient sur un cluster multi-GPU accessible à une équipe de taille moyenne. En revanche, V4-Pro à 1,6 trillion demande une infrastructure significative pour servir à latence acceptable : ainsi, pour la plupart des équipes, l’API officielle reste plus économique que l’auto-hébergement de Pro. Petite particularité technique enfin : la release ne fournit pas de chat template au format Jinja, DeepSeek livre des scripts Python d’encodage dans le repo (encoding_dsv4) à utiliser pour construire les prompts.

    Ce que vous perdez au passage

    Un modèle qui scote 93,5 sur LiveCodeBench à 0,14 $/M tokens, ça paraît trop beau. Le tarif est réel, les compromis aussi. Voici ce que DeepSeek ne vous donne pas.

    Pas d’écosystème d’applications natif

    DeepSeek expose un chat, une API et des poids. Ainsi, pas de marketplace de plugins, pas de connecteurs natifs vers Slack, Google Drive, Notion ou Microsoft 365, et pas d’agents pré-configurés. Le modèle s’intègre bien dans Claude Code, OpenCode et OpenClaw, mais il faut construire la stack autour. Pour un développeur, ce n’est pas un problème — pour un utilisateur business sans équipe technique, ça reste une vraie limite.

    Fiabilité d’API limitée aux heures de pointe chinoises

    L’API officielle tourne sur des serveurs en Chine. Ainsi, aux heures de pointe (9h-18h heure de Pékin), les erreurs 503 peuvent être fréquentes et le time-to-first-token peut grimper. En revanche, les providers tiers comme OpenRouter, Fireworks ou Together AI hébergent les poids hors de Chine, mais avec un surcoût de 5 à 30 % selon le provider.

    Censure politique inscrite dans les poids

    DeepSeek refuse de répondre — ou répond avec un biais pro-gouvernement chinois — sur les sujets politiquement sensibles en Chine : Tiananmen, Tibet, Taïwan, Xi Jinping, Falun Gong, droits des Ouïghours. Concrètement, cette censure est inscrite dans les poids du modèle, pas dans un filtre externe : ainsi, le self-hosting ne la fait pas disparaître. Nous détaillerons ce sujet dans l’article 5 de cette série.

    Données traitées sous juridiction chinoise sur l’API officielle

    Les requêtes envoyées à api.deepseek.com transitent par des serveurs sous juridiction chinoise. Ainsi, pas de conformité RGPD côté provider. Plusieurs pays européens et plus de 30 agences gouvernementales américaines ont d’ailleurs banni l’usage de l’API DeepSeek pour cette raison. En revanche, le contournement existe : passer par un provider hors de Chine, ou auto-héberger les poids.

    Garde-fous de sécurité plus permissifs que la moyenne

    Des tests indépendants menés sur DeepSeek R1 puis V3 ont documenté un taux de réussite très élevé en jailbreak. Concrètement, pour un usage en entreprise grand public, c’est un risque à intégrer dans la stack : filtres applicatifs, modération en aval, et surtout pas d’exposition directe au modèle sans garde-fous additionnels.

    Rappel factuel limité sur les faits encyclopédiques

    Le score de 57,9 % sur SimpleQA-Verified pour V4-Pro et 34,1 % pour V4-Flash signale un point d’attention : ainsi, pour les questions de connaissance pure, le modèle hallucine plus volontiers que la moyenne du marché. Le contournement est classique : brancher V4 sur un système RAG plutôt que de compter sur sa mémoire interne.

    Le verdict : pour qui DeepSeek est-il le bon choix ?

    DeepSeek V4 propose le meilleur rapport performance/prix du marché IA aujourd’hui. Ainsi, ce constat est factuel, pas promotionnel — les benchmarks, les tarifs et les poids sont publics. En revanche, « meilleur rapport » n’est pas « meilleur tout court » pour tous les usages.

    Quand DeepSeek est le bon choix

    D’abord, sur les volumes massifs de tokens à budget contraint — classification, extraction, traduction, résumé, prétraitement — V4-Flash est rationnellement le défaut. Ensuite, sur le code avec agents (Claude Code, OpenCode, OpenClaw), V4-Pro en mode Think High vise juste pour obtenir du raisonnement étendu sans exploser la facture. Enfin, pour auto-héberger et garder le contrôle total sur ses données, V4-Flash est aujourd’hui la meilleure cible open-weight au monde — Pro est plus puissant mais bien plus exigeant en infrastructure.

    Quand un autre modèle reste plus adapté

    En revanche, si vous manipulez des données clients sensibles sans infrastructure de self-hosting, si vous avez besoin d’un écosystème riche de connecteurs et de plugins, si la conformité réglementaire européenne est non négociable, ou si votre cas d’usage repose sur le rappel factuel encyclopédique pur sans RAG, d’autres options restent plus adaptées.

    La règle pratique sur la gamme V4

    Le bon réflexe, c’est de tester V4-Flash en premier sur un cas d’usage concret — les 5 millions de tokens gratuits à l’inscription suffisent largement — puis de basculer vers Pro uniquement quand un benchmark interne le justifie. Ainsi, sur cette gamme, Flash est le défaut, Pro est l’exception.

    Article suivant
    Utiliser DeepSeek au quotidien

    Chat web, API en cinq minutes, intégration dans Cursor et Continue, prompts qui marchent sur V4 et ceux qui coincent. Le guide pratique pour passer de la théorie à l’usage réel.

    Utiliser DeepSeek au quotidien
    Mise à jour : 27 avril 2026
    Étiquettes: