Aller au contenu
    API
    Guide IA – Série Mistral 7/10

    L’API Mistral et Mistral Studio : le guide complet pour les développeurs

    Vous avez testé les modèles Mistral via Vibe. La prochaine étape : les intégrer dans vos applications. L’API Mistral utilise un format compatible OpenAI — si vous avez déjà travaillé avec un SDK de ce type, la migration tient en deux lignes de code. Ce guide couvre le pricing détaillé par modèle, les fonctionnalités clés, le premier appel API, et la méthode pour choisir le bon modèle selon chaque usage.

    Mistral Studio (anciennement La Plateforme, puis AI Studio) est la console développeur de Mistral. C’est le point d’entrée de tout usage programmatique des modèles : clés API, playground, monitoring de la consommation, fine-tuning, Agent Builder, connecteurs et déploiement. L’API elle-même est un endpoint REST classique /v1/chat/completions, compatible avec les SDK officiels Python, TypeScript, Java et Go — et avec le SDK OpenAI moyennant un simple changement de base URL.

    Septième article de la série « De zéro à machine de guerre avec Mistral », ce guide s’adresse aux développeurs et aux responsables techniques qui évaluent l’API Mistral pour leurs projets.

    Pricing détaillé : tous les modèles, tous les prix

    Mistral facture au token, entrée et sortie séparément. La particularité de sa grille tient à des prix nettement plus bas que la moyenne, surtout en sortie : Large 3 affiche ainsi l’un des meilleurs tarifs du marché pour un modèle de niveau frontière. Tous les prix ci-dessous sont en dollars, par million de tokens, sur l’API publique.

    Modèle Entrée ($/M) Sortie ($/M) Contexte Spécialité
    Mistral Large 3 0,50 1,50 256K Raisonnement, sorties longues, multilingue
    Mistral Medium 3.5 1,50 7,50 256K Modèle par défaut : agentique + code
    Mistral Small 4 0,15 0,60 256K Tout-en-un (instruct + raisonnement + vision + code)
    Devstral 2 0,40 2,00 256K Code agentique
    Devstral Small 2 0,10 0,30 256K Code léger (Apache 2.0)
    Mistral Small 3.2 0,07 0,20 128K Instruct rapide et compact
    Codestral 2508 0,30 0,90 256K Complétion de code
    Mistral Nemo 0,02 0,04 128K Ultra-budget
    Mistral Embed 0,01 Embeddings
    Mistral OCR 3 Variable Extraction de texte depuis documents
    Voxtral TTS 0,016 $ / 1K caractères Synthèse vocale
    Voxtral Mini Transcribe Variable Transcription audio

    Un détail qui surprend, mais qui mérite l’attention : Large 3 sort à 1,50 $ le million de tokens quand Medium 3.5 sort à 7,50 $. Autrement dit, le plus gros modèle n’est pas le plus cher. Large 3, architecture Mixture-of-Experts, reste économique sur le raisonnement pur et les sorties longues ; Medium 3.5, dense, se paie davantage parce qu’il excelle sur l’agentique, l’appel d’outils et le code. Nous y revenons dans la méthode de choix plus bas.

    Un tier Experiment gratuit permet par ailleurs de tester les modèles sans engagement. Il impose des limites de débit, mais il suffit à valider un cas d’usage avant le passage en production.

    L’API et Vibe sont facturés séparément

    Un abonnement Vibe Pro à 14,99 €/mois ne donne aucun crédit API. Ce sont deux systèmes de facturation indépendants. Si vous développez une application qui appelle l’API Mistral, vous payez au token consommé, indépendamment de votre abonnement Vibe. C’est un point que beaucoup découvrent trop tard.

    Premier appel API en cinq minutes

    01
    Créer un compte sur Mistral Studio

    Rendez-vous sur console.mistral.ai, puis créez un compte ou connectez-vous. Vous accédez ensuite au tableau de bord avec le playground, la gestion des clés et le suivi de consommation.

    02
    Générer une clé API

    Dans la section API Keys, créez une nouvelle clé. Copiez-la immédiatement — elle ne sera plus visible ensuite. Stockez-la dans une variable d’environnement (MISTRAL_API_KEY), jamais en dur dans le code.

    03
    Installer le SDK

    Python : pip install mistralai. TypeScript : npm add @mistralai/mistralai. Les SDK Java et Go sont aussi disponibles. À défaut, l’API reste compatible avec le SDK OpenAI en changeant la base URL.

    04
    Envoyer votre première requête

    Un appel chat completion basique tient en 5 lignes (voir ci-dessous). Le modèle répond ensuite en streaming ou en bloc, selon votre paramétrage.

    # Premier appel API — Python
    import os
    from mistralai import Mistral
    
    client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])
    
    response = client.chat.complete(
        model="mistral-small-latest",
        messages=[
            {"role": "system", "content": "Tu es un assistant technique concis."},
            {"role": "user", "content": "Explique le concept de RAG en 3 phrases."}
        ]
    )
    
    print(response.choices[0].message.content)
    # Avec le SDK OpenAI (migration rapide)
    from openai import OpenAI
    
    client = OpenAI(
        api_key=os.environ["MISTRAL_API_KEY"],
        base_url="https://api.mistral.ai/v1"
    )
    
    response = client.chat.completions.create(
        model="mistral-small-latest",
        messages=[
            {"role": "user", "content": "Explique le concept de RAG en 3 phrases."}
        ]
    )
    
    print(response.choices[0].message.content)

    Les fonctionnalités clés de l’API

    Function calling

    L’API supporte le function calling sur tous les modèles commerciaux. Vous décrivez des fonctions avec leur signature JSON Schema, puis le modèle décide quand les appeler et fournit les arguments. C’est le mécanisme qui connecte un LLM à des bases de données, des API externes, des outils internes. L’appel parallèle de fonctions est par ailleurs supporté.

    Structured outputs

    Deux modes coexistent. Le mode JSON d’abord : ajoutez response_format: {"type": "json_object"} pour forcer une sortie JSON (à demander aussi dans le prompt). Les structured outputs personnalisés ensuite : fournissez un JSON Schema complet avec response_format: {"type": "json_schema"} et le modèle produit une sortie qui respecte exactement votre schéma — types, clés, structure. Plus fiable que le mode JSON simple, ce second mode est recommandé pour les pipelines de production.

    Reasoning configurable

    Le paramètre reasoning_effort (couvert dans l’article 2) est disponible via l’API sur Small 4 comme sur Medium 3.5. Ajoutez reasoning_effort="high" pour activer le raisonnement profond, ou "none" pour le mode rapide. Le paramètre est également accessible sur les endpoints Agents et Conversations via le champ completion_args.

    Vision et multimodal

    Small 4, Medium 3.5 et Large 3 acceptent des images en entrée via l’API. Envoyez une image en base64 ou via URL dans le tableau des messages, et le modèle l’analyse. Côté usages : OCR, analyse de graphiques, description d’images, comparaison visuelle.

    Mistral OCR 3

    Un endpoint dédié (/v1/ocr) prend en charge l’extraction de texte structuré depuis des documents scannés, avec support des tableaux en Markdown ou HTML, extraction des en-têtes et pieds de page, et liens hypertextes. Différent de la vision générale, il est optimisé spécifiquement pour le traitement documentaire.

    Embeddings

    Le modèle Mistral Embed génère des vecteurs pour la recherche sémantique, le clustering et les systèmes de recommandation. Le prix de 0,01 $ par million de tokens figure parmi les plus bas du marché. Il reste par ailleurs compatible avec les bases vectorielles standards (Pinecone, Weaviate, Qdrant, pgvector).

    Audio

    Voxtral Mini Transcribe gère la transcription (batch et temps réel, avec diarisation), tandis que Voxtral TTS couvre la synthèse vocale (9 langues, clonage vocal zero-shot). Les deux sont accessibles via des endpoints API dédiés.

    Connectors (MCP) dans Studio

    Depuis mai 2026, les connecteurs MCP intégrés et personnalisés sont disponibles directement via l’API et le SDK, et plus seulement dans l’interface Vibe. Vous branchez vos modèles et vos agents sur des systèmes externes (CRM, bases de connaissances, outils de productivité) sans réécrire la couche d’intégration à chaque fois. L’API ajoute aussi l’appel d’outil direct et les flux d’approbation human-in-the-loop, pour valider une action sensible avant exécution.

    Guardrails par requête

    Depuis mars 2026, les guardrails se passent directement dans chaque requête /v1/chat/completions via le champ guardrails. Vous fixez des seuils de modération par catégorie (sexuel, automutilation, etc.) et une action (bloquer ou signaler). Plus besoin, donc, d’appeler un endpoint de modération séparé.

    Batch inference

    Pour les traitements en volume (classification de milliers de documents, scoring, extraction), l’API supporte le batching inline — création de jobs batch sans upload de fichier préalable. C’est la voie indiquée pour les pipelines de données à fort volume et à moindre coût.

    Fine-tuning

    Le fine-tuning est disponible sur les modèles Small et Medium via l’API. Vous uploadez vos données d’entraînement (format JSONL), vous lancez un job, puis vous récupérez un modèle personnalisé déployable via la même API. Techniques supportées : SFT (Supervised Fine-Tuning) et LoRA. Un Small fine-tuné sur vos données métier remplace souvent un Large généraliste — dix fois moins cher pour des performances équivalentes sur des tâches ciblées.

    Quel modèle Mistral pour quel usage

    La vraie question n’est pas « quel modèle est le meilleur », mais « quel modèle pour quelle tâche ». La gamme Mistral est conçue pour le routage : vous envoyez chaque requête au modèle le plus adapté, et vous optimisez d’un coup la qualité et le coût. Voici la grille de décision.

    Besoin Modèle conseillé Pourquoi
    Classification, extraction, résumé, vision Small 4 Tout-en-un au meilleur ratio capacité/prix (0,15 $/0,60 $)
    Agents, appels d’outils, missions multi-étapes, code Medium 3.5 Modèle par défaut, le plus fiable sur l’agentique et le code
    Raisonnement exigeant, documents longs, multilingue Large 3 Puissant et économique en sortie (1,50 $/M)
    Code en auto-hébergement léger Devstral Small 2 24B sous Apache 2.0, tourne sur un seul GPU
    Volumes massifs, edge, ultra-budget Nemo / Ministral Coût plancher (0,02 $/0,04 $) pour les tâches simples
    RAG et recherche sémantique Mistral Embed Embeddings à 0,01 $/M, compatibles bases vectorielles
    Traitement documentaire Mistral OCR 3 Extraction structurée, tableaux, liens
    Audio (transcription, synthèse) Voxtral Transcribe et TTS via endpoints dédiés

    La stratégie de routage qui en découle : dirigez les requêtes simples vers Small 4 ou Nemo, les missions agentiques et le code vers Medium 3.5, et le raisonnement le plus lourd ou les documents longs vers Large 3. Cette approche par paliers réduit la facture API de 50 à 80 % face à un usage qui enverrait tout vers un seul modèle de pointe. Le format compatible OpenAI rend d’ailleurs ce routage trivial à implémenter, puisqu’il suffit de changer le nom du modèle dans l’appel.

    Quand l’API Mistral s’impose — et ses limites

    L’API Mistral devient le choix rationnel dans plusieurs situations bien identifiées :

    • La résidence des données en Europe — RGPD, HDS, secteur public : l’ensemble de l’API tourne dans des datacenters européens, et le Zero Data Retention est disponible sur demande.
    • Les charges riches en sortie — génération de contenu, de code, rapports longs : Large 3 affiche l’un des coûts de sortie les plus bas pour un modèle de pointe.
    • Le besoin de réversibilité — fine-tuning sur vos données et auto-hébergement des poids ouverts vous évitent toute dépendance à un fournisseur unique.
    • Un budget API serré — sur les tâches standard, le rapport qualité/prix est difficile à battre, et le routage par paliers amplifie l’économie.

    Quelques limites à connaître avant de bâtir dessus. La fenêtre de contexte plafonne à 256K tokens, suffisante pour la plupart des usages mais pas pour les corpus de plusieurs centaines de milliers de tokens. Sur le raisonnement le plus exigeant, Mistral progresse vite sans occuper systématiquement la première place. Enfin, l’API ne propose pas, à ce jour, de remise sur la mise en cache des prompts : pour des prompts système très répétitifs, le calcul de coût diffère de fournisseurs qui offrent ce mécanisme. Vérifiez ce point si votre architecture réutilise massivement un même contexte.

    Passer à l’action

    Créez un compte sur Mistral Studio, générez une clé API, puis lancez votre premier appel avec le code ci-dessus. Testez Small 4 en premier : c’est le modèle au meilleur rapport capacité/prix pour la majorité des cas. Montez à Medium 3.5 pour l’agentique et le code, à Large 3 pour le raisonnement le plus lourd, et descendez à Nemo quand le budget prime sur la finesse.

    L’API Mistral mise sur trois forces : la compétitivité du prix, l’ouverture vers l’auto-hébergement, et la garantie d’une résidence des données en Europe. Pour un développeur européen qui construit des applications conformes au RGPD, c’est le point de départ logique.

    Suite de la série Mistral
    Open source et auto-hébergement

    Faire tourner Mistral sur ses propres machines — comment passer de l’API cloud à vos propres GPU, sans qu’un seul token ne quitte votre réseau.

    Mistral en local
    Mise à jour : 2 juin 2026
    Étiquettes: