Aller au contenu
    SETUP
    Guide IA

    Utiliser DeepSeek au quotidien : chat, API et intégrations

    Vous avez compris le rapport performance/prix de DeepSeek V4. Reste à savoir comment l’utiliser concrètement. Ce deuxième article de la série couvre les trois points d’entrée — le chat web gratuit avec ses modes Instant et Expert, l’API V4 en cinq minutes, et l’intégration dans Cursor, Claude Code, Continue et Cline — avec des exemples copiables et les pièges à éviter.

    DeepSeek expose V4 par trois canaux complémentaires. D’abord, le chat web sur chat.deepseek.com, gratuit avec ses deux modes Instant et Expert plus le toggle Deep Think. Ensuite, l’API sur platform.deepseek.com, format compatible OpenAI et Anthropic, 5 millions de tokens gratuits à l’inscription. Enfin, l’intégration dans les IDE et les agents de code : Cursor, Claude Code, Continue.dev, Cline, OpenCode, OpenClaw — tous supportent DeepSeek V4 nativement ou en quelques variables d’environnement.

    Si vous avez lu le premier article de cette série, vous savez que la gamme V4 sortie le 24 avril 2026 se compose de deux modèles — V4-Pro (1,6 trillion de paramètres, 49B actifs) et V4-Flash (284 milliards, 13B actifs) — et de trois modes de raisonnement (Non-think, Think High, Think Max). Ce qui suit part de ce socle pour passer à la pratique.

    Le chat web V4 : l’interface gratuite

    L’adresse est chat.deepseek.com. L’inscription se fait avec un email ou un compte Google. Ainsi, l’interface est disponible en français en détection automatique et fonctionne également sur l’app mobile Android et iOS.

    Depuis le 8 avril 2026, le chat propose deux modes affichés au-dessus de la zone de saisie. Ainsi, l’éclair active Instant Mode — V4-Flash, réponse immédiate, idéal pour la conversation quotidienne. Le diamant active Expert Mode — V4-Pro, réponse plus lente mais plus profonde, conçu pour les problèmes complexes. Dans Expert Mode, un toggle Deep Think active enfin le raisonnement étendu jusqu’à 384 000 tokens de réflexion (l’équivalent du Think Max via API).

    Ce que le chat web V4 sait faire

    L’interface couvre la majorité des besoins quotidiens sans configuration. Voici les fonctionnalités clés disponibles dès le premier login.

    • Upload de fichiers — jusqu’à 50 fichiers de 100 Mo chacun en Instant Mode. Extraction de texte, analyse, résumé, comparaison.
    • Reconnaissance d’images et de documents scannés — lecture du texte dans les PDF, screenshots, photos de tableaux blancs et schémas.
    • Recherche web intégrée — bouton Smart Search qui interroge le web et cite les sources dans la réponse.
    • Deep Think visible — la chaîne de pensée du modèle s’affiche en temps réel sous la réponse, ce qui permet d’auditer la logique et de repérer les hypothèses douteuses.
    • Historique de conversations — sauvegardé dans votre compte, accessible et recherchable depuis la barre latérale.
    • Contexte d’un million de tokens — vous pouvez coller un livre entier ou un codebase moyen sans tronquer.

    Ce que le chat web ne fait pas

    Pas de plugins ni de connecteurs natifs vers vos outils tiers. Aucune mémoire qui persiste entre les conversations — chaque session repart de zéro, vous devez réintroduire le contexte. Pas de génération d’images, pas de mode vocal. Et la censure politique est active sur les sujets sensibles en Chine : Tiananmen, Tibet, Taïwan, Xi Jinping, Falun Gong, droits des Ouïghours déclenchent un refus de réponse ou une réponse alignée sur la position officielle. Pour les usages professionnels non liés à ces thèmes, l’impact est nul. En revanche, pour les usages éducatifs ou journalistiques, c’est une limite réelle à anticiper.

    L’API DeepSeek V4 : votre premier appel en cinq minutes

    L’API DeepSeek utilise le même format que l’API OpenAI et que l’API Anthropic. Si vous avez déjà appelé l’un ou l’autre depuis votre code, la migration tient en deux changements : la base_url et la clé API. Le reste fonctionne tel quel.

    Étape 1 — créer un compte et générer une clé API

    Rendez-vous sur platform.deepseek.com. Créez un compte avec un email — la vérification téléphonique peut être demandée. Dans la section API Keys, cliquez sur Create API Key. Copiez la clé qui commence par sk- : elle ne s’affichera plus jamais en clair après cette page. Vous recevez automatiquement 5 millions de tokens gratuits à l’inscription, suffisants pour environ 6 000 appels en usage chat standard.

    Promo de lancement V4 jusqu’au 5 mai 2026

    DeepSeek applique actuellement 75 % de remise sur V4-Pro jusqu’au 5 mai 2026 (15h59 UTC). Pendant la promo, V4-Pro tombe à 0,435 $/M tokens en entrée (cache miss) et 0,87 $/M en sortie. V4-Flash reste à son prix standard de 0,14 $ / 0,28 $. Si vous comptez tester V4-Pro sérieusement, c’est la fenêtre.

    Étape 2 — votre premier appel Python

    Le SDK officiel OpenAI fonctionne tel quel. Installez-le, pointez la base_url vers https://api.deepseek.com, et appelez le modèle.

    # Installation : pip install openai
    from openai import OpenAI
    
    client = OpenAI(
        api_key="sk-VOTRE-CLE-DEEPSEEK",
        base_url="https://api.deepseek.com"
    )
    
    # Appel V4-Flash en mode Non-think (rapide)
    response = client.chat.completions.create(
        model="deepseek-v4-flash",
        messages=[
            {"role": "system", "content": "Tu es un assistant technique expert."},
            {"role": "user", "content": "Explique le principe du MoE en 3 phrases."}
        ]
    )
    print(response.choices[0].message.content)

    C’est tout. Trois lignes de configuration, un appel. Pour utiliser V4-Pro, remplacez deepseek-v4-flash par deepseek-v4-pro. Ensuite, pour activer le mode thinking (raisonnement étendu visible), ajoutez le paramètre extra_body :

    # V4-Pro avec Think High activé
    response = client.chat.completions.create(
        model="deepseek-v4-pro",
        messages=[
            {"role": "user", "content": "Démontre l'irrationalité de racine de 2."}
        ],
        reasoning_effort="high",
        extra_body={"thinking": {"type": "enabled"}}
    )
    
    # La chaîne de pensée arrive dans reasoning_content
    print(response.choices[0].message.reasoning_content)
    print(response.choices[0].message.content)

    Enfin, pour basculer en Think Max (le mode le plus profond, jusqu’à 384K tokens de réflexion), passez reasoning_effort="max". À noter : en mode thinking, les paramètres temperature, top_p, presence_penalty et frequency_penalty sont ignorés silencieusement. C’est documenté.

    Étape 3 — le contexte 1M et le suffixe [1m]

    Par défaut, V4-Pro répond avec une fenêtre de contexte de 200K tokens. Pour débloquer le million de tokens annoncé, il faut explicitement appeler le modèle sous le nom deepseek-v4-pro[1m] (avec le suffixe entre crochets). C’est une particularité de l’API DeepSeek mentionnée dans la documentation officielle, et c’est la principale source de confusion à la migration. V4-Flash ne nécessite pas ce suffixe : son contexte 1M est actif par défaut.

    V4-Flash ou V4-Pro : quand utiliser lequel

    En revanche, V4-Flash couvre 80 à 90 % des cas d’usage à un douzième du prix de Pro. Vous le réservez aux tâches courantes : rédaction, résumé, extraction, classification, traduction, code de fonction simple. Vous passez à V4-Pro uniquement quand un benchmark interne le justifie : raisonnement multi-étapes complexe, debug profond sur de gros codebases, agents qui chaînent beaucoup d’outils, ou rappel factuel exigeant. La règle pratique sur la gamme : Flash est le défaut, Pro est l’exception.

    Compatibilité API : OpenAI, Anthropic, et migration depuis V3

    L’API DeepSeek expose deux endpoints compatibles. Ainsi, https://api.deepseek.com sert le format OpenAI ChatCompletions, ce qui permet de réutiliser tout script qui appelle déjà gpt-4o ou similaire. Ensuite, https://api.deepseek.com/anthropic sert le format Anthropic Messages, ce qui permet de brancher Claude Code et tous les outils écosystème Anthropic sur V4 sans modifier une ligne de code.

    Migration depuis OpenAI

    Si vous avez un script qui appelle déjà GPT, le changement tient en deux lignes.

    # Avant — OpenAI
    client = OpenAI(api_key="sk-VOTRE-CLE-OPENAI")
    response = client.chat.completions.create(model="gpt-4o", messages=[...])
    
    # Après — DeepSeek
    client = OpenAI(
        api_key="sk-VOTRE-CLE-DEEPSEEK",
        base_url="https://api.deepseek.com"
    )
    response = client.chat.completions.create(model="deepseek-v4-flash", messages=[...])

    Le format des messages, le streaming, le function calling et le JSON mode sont supportés à l’identique. La seule différence notable : le mode thinking renvoie sa chaîne de pensée dans un champ séparé reasoning_content, à un niveau parallèle au content standard.

    Migration depuis l’ancienne nomenclature V3

    Si vous appelez encore deepseek-chat ou deepseek-reasoner, vos requêtes routent automatiquement vers V4-Flash en mode Non-think (pour chat) ou Think High (pour reasoner). Cependant, ces deux noms sont en sursis : DeepSeek les retire définitivement le 24 juillet 2026 à 15h59 UTC. Migrez vos intégrations production vers deepseek-v4-flash et deepseek-v4-pro avant cette date pour éviter une coupure brutale.

    Intégration dans les éditeurs et agents de code

    C’est là que DeepSeek brille au quotidien pour les développeurs. La gamme V4 s’intègre dans tous les outils majeurs du paysage vibe coding, soit nativement, soit via quelques variables d’environnement.

    Claude Code — intégration officielle de DeepSeek

    DeepSeek a publié le jour de la sortie de V4 une documentation officielle pour brancher Claude Code sur V4-Pro et V4-Flash. La configuration tient en cinq variables d’environnement à exporter dans votre shell.

    # Configuration Claude Code → DeepSeek V4 (Linux / macOS)
    export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
    export ANTHROPIC_AUTH_TOKEN=sk-VOTRE-CLE-DEEPSEEK
    export ANTHROPIC_MODEL=deepseek-v4-pro[1m]
    export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro[1m]
    export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro[1m]
    export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
    export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
    export CLAUDE_CODE_EFFORT_LEVEL=max

    Une fois ces variables exportées, vous rechargez votre shell, vous naviguez vers votre projet, vous lancez claude, et l’outil Anthropic dialogue désormais avec DeepSeek V4 au lieu des modèles Anthropic d’origine. Les fallbacks Sonnet et Haiku routent les sous-appels (les appels internes que Claude Code passe pour la planification ou les tâches courtes) vers V4-Flash automatiquement, ce qui maintient la facture au plancher.

    Important : le suffixe [1m] dans ANTHROPIC_MODEL=deepseek-v4-pro[1m] n’est pas optionnel si vous travaillez sur des codebases moyens à gros. Sans lui, vous restez bloqué à 200K de contexte alors que V4-Pro peut gérer 1M.

    Cursor — modèle custom OpenAI-compatible

    Cursor supporte DeepSeek de deux façons. D’abord, les modèles DeepSeek hébergés directement par Cursor sont proposés dans Settings → Models et inclus dans l’abonnement Cursor Pro à 20 $ par mois — pas de transit de données vers la Chine, c’est Cursor qui héberge l’inférence aux États-Unis. Ensuite, vous pouvez ajouter votre propre clé DeepSeek pour appeler V4-Pro ou V4-Flash directement : Settings → Models → Add Custom Model, nommez le modèle deepseek-v4-pro ou deepseek-v4-flash, base URL https://api.deepseek.com, collez votre clé. La seconde approche coûte au token, mais reste imbattable pour le volume.

    Continue.dev — VS Code et JetBrains

    Continue est l’extension open source qui transforme VS Code ou JetBrains en assistant de code IA. Le service supporte DeepSeek V4 via une configuration JSON simple dans ~/.continue/config.json.

    # config.json de Continue — DeepSeek V4 chat + autocomplete
    {
      "models": [
        {
          "title": "DeepSeek V4 Pro",
          "provider": "openai",
          "model": "deepseek-v4-pro",
          "apiBase": "https://api.deepseek.com",
          "apiKey": "sk-VOTRE-CLE-DEEPSEEK"
        },
        {
          "title": "DeepSeek V4 Flash",
          "provider": "openai",
          "model": "deepseek-v4-flash",
          "apiBase": "https://api.deepseek.com",
          "apiKey": "sk-VOTRE-CLE-DEEPSEEK"
        }
      ],
      "tabAutocompleteModel": {
        "title": "DeepSeek V4 Flash",
        "provider": "openai",
        "model": "deepseek-v4-flash",
        "apiBase": "https://api.deepseek.com",
        "apiKey": "sk-VOTRE-CLE-DEEPSEEK"
      }
    }

    Le pattern qui marche le mieux : V4-Pro pour le chat et les refactorings, V4-Flash pour l’autocomplétion en ligne (latence 200-500 ms, comparable à Copilot, à un coût quasi nul).

    Cline — agent autonome dans VS Code

    Cline est l’agent autonome de référence pour VS Code. La configuration consiste à choisir le provider OpenAI Compatible dans les paramètres, à pointer la base URL vers https://api.deepseek.com, à coller votre clé et à entrer deepseek-v4-pro ou deepseek-v4-flash comme nom de modèle. Cline tire alors parti du contexte 1M pour explorer un repo entier et chaîner les modifications multi-fichiers.

    OpenCode et OpenClaw — les agents communautaires

    OpenCode et OpenClaw sont les deux agents open source qui supportent V4 nativement. Versions minimales requises : OpenCode v1.14.24+ et OpenClaw v2026.4.24+. La configuration passe par un fichier JSON dédié à chaque outil — les deux acceptent une clé DeepSeek et le nom de modèle. Avantage : ils sont 100 % gratuits côté logiciel, vous payez uniquement les tokens API que vous consommez.

    Autres clients compatibles

    Tout outil qui accepte une API OpenAI ou Anthropic peut utiliser V4 en changeant la base_url. Cela inclut Aider (terminal), Open Interpreter, LiteLLM, LangChain, CrewAI, et la plupart des frameworks d’agents. Le format reste invariant : base_url + clé + nom du modèle.

    Les prompts qui fonctionnent avec DeepSeek V4

    V4 répond bien à certains styles de prompts et moins bien à d’autres. Voici les patterns qui ressortent des premiers retours communauté et de tests intensifs depuis le 24 avril 2026.

    Ce qui marche bien

    D’abord, les prompts structurés avec des exemples. V4 excelle quand vous lui donnez un format clair de sortie attendue. Le few-shot prompting (deux ou trois exemples avant la vraie requête) améliore significativement la qualité, et active le bon comportement plus rapidement que les instructions textuelles seules.

    # Prompt d'extraction structurée — copier-coller
    Extrais les informations suivantes de ce texte sous forme JSON :
    - nom_entreprise (string)
    - chiffre_affaires (number, en millions d'euros)
    - nombre_employes (number)
    - secteur (string)
    
    Exemple :
    Texte : "Doctolib, leader de la e-santé en Europe, emploie
    2 800 personnes et a généré 500 M€ de CA en 2024."
    Résultat : {"nom_entreprise": "Doctolib",
    "chiffre_affaires": 500, "nombre_employes": 2800,
    "secteur": "e-santé"}
    
    Texte à analyser :
    [COLLEZ VOTRE TEXTE ICI]

    Ensuite, le raisonnement pas à pas via Think High ou Think Max. Pour les problèmes de debug, de logique multi-étapes, de math ou d’analyse complexe, le mode thinking change radicalement la qualité de la réponse. Le modèle déroule sa réflexion, repère ses propres erreurs intermédiaires, et corrige avant de produire la réponse finale. La chaîne de pensée est par ailleurs visible dans reasoning_content, ce qui permet d’auditer la logique.

    Enfin, le code et le debug. V4-Pro pose le score le plus élevé jamais publié sur LiveCodeBench (93,5 %) et 80,6 % sur SWE-bench Verified — pour les fonctions isolées, les refactorings, les tests unitaires et le debug de code, le modèle produit du code fonctionnel dès le premier essai dans la majorité des cas. Sur Python, JavaScript, TypeScript, Java, C++, Rust et Go, les performances sont solides.

    Ce qui coince

    Les instructions longues et nuancées en français demandent un peu plus d’attention. V4 est entraîné majoritairement sur des données anglophones et sinophones. En français, l’outil comprend bien les requêtes directes, mais les instructions complexes avec de nombreuses contraintes simultanées peuvent perdre en précision sur les nuances éditoriales fines. Le contournement : décomposer les instructions en plusieurs étapes plutôt qu’un long bloc unique.

    Les sujets politiques chinois déclenchent un refus de réponse ou une réponse alignée sur la position officielle. Plus subtil : la simple présence des mots-clés sensibles dans un contexte sans rapport (par exemple, du code contenant une variable nommée tibet) peut affecter la qualité de la sortie. C’est documenté par les tests indépendants menés par CrowdStrike sur DeepSeek R1 et confirmé sur V4. Le contournement : éviter les mots-clés inutiles, ou auto-héberger les poids open-weight pour conserver le modèle mais contrôler son environnement.

    Le rappel factuel encyclopédique pur reste un point faible. V4-Pro score 57,9 % sur SimpleQA-Verified et V4-Flash 34,1 % — ainsi, pour les questions de connaissance pure, le modèle hallucine plus volontiers que la moyenne du marché. La parade classique : brancher V4 sur un système RAG qui injecte le contexte vérifié dans le prompt, plutôt que de compter sur la mémoire interne du modèle.

    Workflow type : une journée avec DeepSeek V4

    Voici comment intégrer V4 dans un workflow quotidien réaliste, en combinant les trois canaux d’accès.

    Matin
    Tâches rapides via le chat web

    Résumer un rapport PDF, rédiger un email de suivi, traduire un brief client. Instant Mode suffit largement. Gratuit, immédiat, aucune configuration.

    Après-midi
    Code dans Cursor, Claude Code ou Continue

    Écrire des fonctions, debug, refactorer, ajouter des tests. V4-Pro avec Think High pour les tâches complexes, V4-Flash pour l’autocomplétion et les sous-appels d’agent.

    Pipeline
    Volume via l’API V4-Flash

    Classifier 500 tickets support, extraire des données de 200 factures, étiqueter un dataset. V4-Flash en batch à 0,14 $/M tokens en entrée — quelques dollars par mois pour des volumes industriels.

    La règle qui ressort : ne pas demander à V4 ce qu’il fait moins bien. La gamme excelle sur le volume, le code et les tâches structurées. Pour le rappel factuel pur, branchez du RAG. Pour les nuances éditoriales en français, décomposez vos consignes.

    Ce qu’il faut retenir

    V4 s’utilise en cinq minutes : un compte sur platform.deepseek.com, une clé API, trois lignes de Python. Le chat web est gratuit et couvre 80 % des usages quotidiens avec ses modes Instant, Expert et Deep Think. L’API expose deux endpoints — OpenAI sur api.deepseek.com et Anthropic sur api.deepseek.com/anthropic — ce qui rend la migration depuis ChatGPT ou Claude Code triviale.

    Côté IDE, l’intégration est native dans Cursor et Continue, et passe par cinq variables d’environnement dans Claude Code. Ainsi, OpenCode (v1.14.24+) et OpenClaw (v2026.4.24+) supportent V4 directement, et tous les frameworks d’agents OpenAI-compatibles fonctionnent en changeant simplement la base_url.

    Trois pièges à éviter à la mise en production. D’abord, deepseek-chat et deepseek-reasoner seront retirés le 24 juillet 2026 : migrez vers deepseek-v4-flash et deepseek-v4-pro avant. Ensuite, le contexte 1M de V4-Pro nécessite explicitement le suffixe [1m] dans le nom du modèle. Enfin, la promo de lancement à -75 % sur V4-Pro ne court que jusqu’au 5 mai 2026 — c’est la fenêtre pour tester le modèle phare au tarif Flash.

    Article suivant
    DeepSeek pour le code

    V4-Pro pose le score le plus élevé jamais publié sur LiveCodeBench. Benchmarks détaillés, langages supportés, comparaison Pro vs Flash sur le code réel, et guide complet du self-hosting pour garder votre code propriétaire hors de tout serveur externe.

    DeepSeek pour le code
    Mise à jour : 27 avril 2026

    Étiquettes: