Aller au contenu
    DEEP
    Guide IA

    DeepSeek : la puissance brute à prix cassé

    Vous payez 5 $ par million de tokens d’entrée avec Claude Opus. DeepSeek facture 0,28 $. Même architecture Mixture of Experts, mêmes benchmarks de tier S, un facteur 15 sur la facture. Ce premier article de la série « De zéro à machine de guerre avec DeepSeek » pose les bases : l’entreprise, les modèles, l’architecture et les compromis réels.

    En décembre 2024, un labo IA de Hangzhou publie les poids d’un modèle de 671 milliards de paramètres, entraîné en moins de trois mois pour 5,5 millions de dollars. Le modèle rivalise avec GPT-4o et Claude 3.5 Sonnet sur les benchmarks de code et de raisonnement. Deux mois plus tard, DeepSeek R1 fait vaciller le Nasdaq de 600 milliards de dollars en une journée. La panique est simple à résumer : si un labo chinois de 200 personnes peut produire un modèle frontier pour le prix d’un appartement à San Francisco, à quoi servent les dizaines de milliards investis par OpenAI et Google ?

    Depuis, DeepSeek a continué. En avril 2026, son modèle principal — DeepSeek V3.2 — est classé S-tier dans les leaderboards open source. Son API coûte une fraction de ce que facturent Anthropic, OpenAI ou Google. Et son prochain modèle, V4, est annoncé pour fin avril. Ce guide vous donne la vision complète : ce que DeepSeek fait bien, ce qu’il fait moins bien, et pourquoi ça compte pour votre portefeuille.

    L’entreprise : un fonds quantitatif devenu labo IA

    DeepSeek n’est pas une startup IA classique. L’entreprise est née en 2023 à Hangzhou, en Chine, comme filiale de High-Flyer Capital Management, un fonds d’investissement quantitatif fondé par Liang Wenfeng. High-Flyer gère environ 8 milliards de dollars d’actifs et utilise le machine learning pour ses stratégies de trading depuis des années.

    La philosophie de DeepSeek est inscrite dans son ADN financier : maximiser l’intelligence par dollar investi. Là où OpenAI a dépensé plus de 100 millions de dollars pour entraîner GPT-4, DeepSeek V3 a coûté 5,5 millions. Ce n’est pas un accident — c’est une thèse d’investissement appliquée à la recherche IA.

    L’équipe reste relativement petite (environ 200 chercheurs et ingénieurs) comparée aux milliers d’employés d’Anthropic ou d’OpenAI. Et contrairement à ces derniers, DeepSeek publie les poids de ses modèles sous licence MIT — n’importe qui peut les télécharger, les modifier et les utiliser sans restriction commerciale.

    La gamme de modèles en avril 2026

    DeepSeek maintient deux lignées de modèles distinctes. La série V (V3, V3.1, V3.2) est le modèle généraliste — code, conversation, analyse, outils. La série R (R1, R2) est spécialisée en raisonnement : le modèle « réfléchit » longuement avant de répondre, à la manière d’un LLM de raisonnement type o1 d’OpenAI.

    DeepSeek V3.2 — le modèle principal

    C’est le modèle que vous obtenez quand vous appelez l’API DeepSeek aujourd’hui. Il se décline en deux modes : deepseek-chat (réponse directe, rapide) et deepseek-reasoner (raisonnement étendu visible, plus lent mais plus précis sur les problèmes complexes). Ses caractéristiques clés :

    • 671 milliards de paramètres totaux — mais seulement 37 milliards actifs par token grâce à l’architecture MoE (on y revient juste après)
    • 128K tokens de contexte — suffisant pour analyser un document de 200 pages ou un codebase de taille moyenne
    • Thinking in Tool-Use — le modèle raisonne avant d’appeler un outil externe, une capacité rare dans les modèles open source
    • Open-weight sous licence MIT — téléchargeable et hébergeable sans restriction

    DeepSeek V3.2-Speciale — le mode expert

    Variante poussée de V3.2 optimisée pour le raisonnement complexe. Elle a décroché l’or aux Olympiades internationales de mathématiques (IMO 2025) et d’informatique (IOI 2025). Performances comparables à Gemini 3.0 Pro sur les tâches de raisonnement avancé. Limite : pas de function calling, réservée au raisonnement pur.

    DeepSeek R2 — le raisonneur compact

    Sorti début avril 2026, R2 a surpris tout le monde. Les fuites annonçaient un monstre de 1,2 trillion de paramètres. Le modèle livré est un 32 milliards de paramètres dense — compact, efficace, et capable de tourner sur un seul GPU grand public (RTX 4090 ou A6000). Score de 92,7 % sur AIME 2025 (le concours qualificatif des Olympiades de mathématiques américaines). Publié sous licence MIT.

    Et le modèle Coder ?

    Il n’existe plus en tant que modèle séparé. DeepSeek Coder V2 (sorti mi-2024) était le dernier modèle dédié au code. Depuis V3, les capacités de génération de code sont intégrées directement dans le modèle principal. Quand vous utilisez V3.2 pour écrire du Python ou du TypeScript, vous utilisez déjà le meilleur que DeepSeek a à offrir en matière de code.

    L’architecture MoE : pourquoi ça coûte moins cher

    Derrière le prix cassé de DeepSeek se cache une innovation architecturale clé : le Mixture of Experts (MoE). Le concept est contre-intuitif. Le modèle contient 671 milliards de paramètres, mais il n’en utilise que 37 milliards pour traiter chaque token. Les 634 milliards restants « dorment ».

    Concrètement, le modèle est découpé en 256 sous-réseaux spécialisés — les « experts ». Pour chaque token d’entrée, un mécanisme de routage sélectionne les 8 experts les plus pertinents. Un expert peut être spécialisé en syntaxe Python, un autre en raisonnement logique, un troisième en grammaire française. Le routage se fait en quelques microsecondes.

    Pourquoi le MoE change l’économie de l’IA

    Un modèle dense de 671B paramètres nécessiterait des centaines de GPU pour chaque requête. Avec le MoE, DeepSeek n’active que 37B paramètres par token — la même charge de calcul qu’un modèle « moyen », mais avec l’intelligence d’un modèle massif. Résultat : les coûts d’inférence chutent d’un facteur 10 à 15 par rapport à un modèle dense équivalent.

    DeepSeek ajoute deux autres optimisations techniques qui comptent. La Multi-head Latent Attention (MLA) compresse le cache clé-valeur de plus de 93 %, ce qui permet de gérer le contexte de 128K tokens sans exploser la mémoire GPU. Et l’entraînement en FP8 (précision réduite à 8 bits au lieu de 16) divise par deux la mémoire nécessaire pendant l’entraînement, sans perte de performance mesurable.

    Le résultat combiné de ces trois innovations : un modèle frontier entraîné en 2,8 millions d’heures GPU H800, soit environ 5,5 millions de dollars. À titre de comparaison, les estimations pour GPT-4 dépassent les 100 millions de dollars.

    Les benchmarks : où DeepSeek gagne, où il perd

    Les benchmarks ne racontent pas toute l’histoire, mais ils donnent une base factuelle. Voici les scores vérifiés de DeepSeek V3.2 face aux modèles propriétaires de référence, compilés à partir des évaluations indépendantes d’avril 2026.

    Benchmark DeepSeek V3.2 Claude Opus 4.6 GPT-5.1
    MMLU-Pro (connaissances) 85,0 % ~84 % ~86 %
    SWE-bench Verified (code) 67,8 % ~72 % ~65 %
    AIME 2025 (maths) 89,3 % ~85 % ~83 %
    LiveCodeBench (code récent) 74,1 % ~78 % ~72 %
    GPQA Diamond (science) 79,9 % ~82 % ~80 %
    Chatbot Arena (classement ELO) 1421 ~1440 ~1430

    Là où DeepSeek V3.2 excelle : les mathématiques (89,3 % sur AIME 2025, au-dessus de Claude et GPT), les connaissances générales (MMLU-Pro comparable aux leaders), et le rapport performance/prix qui n’a aucun équivalent. En mode thinking (deepseek-reasoner), les scores en raisonnement montent encore.

    Là où les concurrents font mieux : Claude Opus 4.6 domine sur les tâches de code complexes en contexte réel (SWE-bench), sur la qualité rédactionnelle, et sur la fiabilité des réponses (moins d’hallucinations). GPT-5.1 propose un contexte de 400K tokens (contre 128K pour DeepSeek) et un écosystème de plugins et de connecteurs incomparablement plus riche. Gemini 2.5 Pro offre un contexte d’un million de tokens.

    En résumé : DeepSeek V3.2 joue dans la cour des grands sur la performance brute. L’écart se creuse sur l’écosystème, la fiabilité de l’infrastructure et les garde-fous de sécurité.

    Le pricing : ce que les chiffres disent vraiment

    C’est le vrai argument massue de DeepSeek : son prix. L’API DeepSeek utilise un système de cache automatique — si votre requête partage un préfixe avec une requête récente, vous payez le tarif « cache hit », soit 90 % de réduction.

    Modèle Input / 1M tokens Output / 1M tokens
    DeepSeek V3.2 0,28 $ (cache miss) / 0,028 $ (cache hit) 0,42 $
    Claude Opus 4.6 5,00 $ 25,00 $
    Claude Sonnet 4.6 3,00 $ 15,00 $
    GPT-5.1 1,25 $ 10,00 $
    Gemini 2.5 Pro 1,25 $ 10,00 $

    Posons un calcul concret. Une équipe qui traite un million de tokens par jour en entrée et 500 000 en sortie (un volume typique pour un pipeline d’extraction de données ou un assistant interne) :

    • DeepSeek V3.2 — environ 6,50 $ par mois (avec un taux de cache hit de 50 %)
    • Claude Sonnet 4.6 — environ 315 $ par mois
    • GPT-5.1 — environ 187 $ par mois

    Le facteur est de 30 à 50x. Sur des volumes de production (10M tokens/jour), la différence se chiffre en milliers de dollars par mois. C’est la raison pour laquelle DeepSeek est devenu le choix par défaut pour les pipelines de traitement de données, la classification à grande échelle et le prototypage rapide.

    Ce que vous perdez au passage

    Un modèle frontier à 0,28 $/M tokens, ça sonne trop beau. Parce que ça l’est en partie. Voici ce que DeepSeek ne vous donne pas :

    Pas d’écosystème d’applications. ChatGPT a ses GPTs, ses plugins, son intégration dans Microsoft 365. Claude a les artefacts, MCP, Claude Code. DeepSeek a un chat web et une API. Point. Pas de connecteurs Slack, pas d’intégration Google Drive, pas de marketplace d’agents.

    Fiabilité API limitée. L’API DeepSeek tourne sur des serveurs en Chine. Aux heures de pointe (9h-18h heure de Pékin), les erreurs 503 sont fréquentes et le time-to-first-token peut être lent. Les providers tiers comme OpenRouter ou Together AI hébergent les modèles hors de Chine, mais avec un surcoût.

    Censure politique. DeepSeek refuse de répondre — ou répond avec un biais pro-gouvernement chinois — sur les sujets politiquement sensibles en Chine : Tiananmen, Tibet, Taïwan, Xi Jinping, Falun Gong, droits des Ouïghours. Cette censure est inscrite dans les poids du modèle, pas dans un filtre externe. Nous détaillerons ce sujet dans l’article 5 de cette série.

    Données en Chine. Les requêtes envoyées à l’API DeepSeek transitent par des serveurs sous juridiction chinoise. Pas de conformité RGPD. Plusieurs pays européens et plus de 30 agences gouvernementales américaines ont banni l’usage de DeepSeek pour cette raison.

    Garde-fous de sécurité faibles. Des tests indépendants (Cisco, CrowdStrike) ont documenté un taux de réussite de 100 % en jailbreak sur DeepSeek R1 — le pire score de tous les modèles frontier testés. Pour un usage en entreprise, c’est un risque réel.

    V4 : ce qu’on sait et ce qu’on ne sait pas

    Le fondateur de DeepSeek, Liang Wenfeng, a confirmé en interne que DeepSeek V4 sera lancé fin avril 2026. Au 15 avril, le modèle n’est pas encore disponible : l’API ne sert que V3.2. Voici ce qui est annoncé, avec les réserves qui s’imposent.

    Ce qui semble confirmé : architecture MoE d’environ 1 trillion de paramètres (~37B actifs), contexte d’un million de tokens grâce à l’architecture Engram, multimodal natif (texte, image, vidéo), optimisation pour les puces Huawei Ascend (premier modèle frontier sans dépendance à NVIDIA), publication open-weight sous Apache 2.0.

    Ce qui n’est pas vérifié : les benchmarks revendiqués (90 % HumanEval, 81 %+ SWE-bench) sont des chiffres internes, non validés par des tests indépendants. Le pricing estimé (~0,30 $/M tokens en entrée) est plausible au vu de l’historique de DeepSeek, mais pas confirmé.

    Le conseil pragmatique : ne migrez pas votre infrastructure en anticipation de V4. Utilisez V3.2 aujourd’hui — il est disponible, vérifié, et déjà très compétitif. Quand V4 sortira, attendez 48 à 72 heures pour les benchmarks indépendants avant de basculer. L’histoire de R1 montre que les scores internes de DeepSeek sont généralement confirmés, mais la prudence reste de mise.

    Le verdict : pour qui DeepSeek est-il le bon choix ?

    DeepSeek V3.2 est le meilleur rapport performance/prix du marché IA en avril 2026. Ce constat est factuel, pas promotionnel — les benchmarks et les tarifs sont publics. Mais le « meilleur rapport » n’est pas le « meilleur tout court ».

    Si vous traitez des volumes massifs de tokens à budget contraint — classification, extraction, traduction, résumé — DeepSeek est le choix rationnel. Si vous développez du code open source sans données clients sensibles, le rapport qualité/prix est imbattable. Si vous cherchez un modèle à auto-héberger pour garder le contrôle total sur vos données, les poids open-weight de DeepSeek sont parmi les plus performants disponibles.

    En revanche, si vous manipulez des données clients sensibles sans infrastructure de self-hosting, si vous avez besoin d’un écosystème riche (connecteurs, plugins, agents), ou si la conformité réglementaire européenne est non négociable, Claude ou GPT restent des choix plus sûrs.

    La vraie stratégie gagnante, celle que nous détaillerons dans l’article 6 de cette série, est hybride : DeepSeek pour le volume, Claude pour la qualité, ChatGPT pour l’écosystème. Chaque outil à sa place.

    Dans le prochain article, nous passerons à la pratique : comment utiliser DeepSeek au quotidien — chat web, API, intégration dans vos éditeurs de code, et les prompts qui fonctionnent (et ceux qui coincent).

    Aller plus loin
    Tous nos guides IA

    LLM, RAG, prompt engineering, vibe coding — les fondamentaux de l’IA expliqués sans jargon, avec des cas d’usage concrets.

    Explorer les guides
    Mise à jour : avril 2026
    Étiquettes: