L’API Mistral et Mistral Studio : le guide complet pour les développeurs
Vous avez testé les modèles Mistral via Vibe. La prochaine étape : les intégrer dans vos applications. L’API Mistral utilise un format compatible OpenAI — si vous avez déjà travaillé avec un SDK de ce type, la migration tient en deux lignes de code. Ce guide couvre le pricing détaillé par modèle, les fonctionnalités clés, le premier appel API, et la méthode pour choisir le bon modèle selon chaque usage.
Mistral Studio (anciennement La Plateforme, puis AI Studio) est la console développeur de Mistral. C’est le point d’entrée de tout usage programmatique des modèles : clés API, playground, monitoring de la consommation, fine-tuning, Agent Builder, connecteurs et déploiement. L’API elle-même est un endpoint REST classique /v1/chat/completions, compatible avec les SDK officiels Python, TypeScript, Java et Go — et avec le SDK OpenAI moyennant un simple changement de base URL.
Septième article de la série « De zéro à machine de guerre avec Mistral », ce guide s’adresse aux développeurs et aux responsables techniques qui évaluent l’API Mistral pour leurs projets.
Pricing détaillé : tous les modèles, tous les prix
Mistral facture au token, entrée et sortie séparément. La particularité de sa grille tient à des prix nettement plus bas que la moyenne, surtout en sortie : Large 3 affiche ainsi l’un des meilleurs tarifs du marché pour un modèle de niveau frontière. Tous les prix ci-dessous sont en dollars, par million de tokens, sur l’API publique.
| Modèle | Entrée ($/M) | Sortie ($/M) | Contexte | Spécialité |
|---|---|---|---|---|
| Mistral Large 3 | 0,50 | 1,50 | 256K | Raisonnement, sorties longues, multilingue |
| Mistral Medium 3.5 | 1,50 | 7,50 | 256K | Modèle par défaut : agentique + code |
| Mistral Small 4 | 0,15 | 0,60 | 256K | Tout-en-un (instruct + raisonnement + vision + code) |
| Devstral 2 | 0,40 | 2,00 | 256K | Code agentique |
| Devstral Small 2 | 0,10 | 0,30 | 256K | Code léger (Apache 2.0) |
| Mistral Small 3.2 | 0,07 | 0,20 | 128K | Instruct rapide et compact |
| Codestral 2508 | 0,30 | 0,90 | 256K | Complétion de code |
| Mistral Nemo | 0,02 | 0,04 | 128K | Ultra-budget |
| Mistral Embed | 0,01 | — | — | Embeddings |
| Mistral OCR 3 | Variable | — | — | Extraction de texte depuis documents |
| Voxtral TTS | 0,016 $ / 1K caractères | — | Synthèse vocale | |
| Voxtral Mini Transcribe | Variable | — | — | Transcription audio |
Un détail qui surprend, mais qui mérite l’attention : Large 3 sort à 1,50 $ le million de tokens quand Medium 3.5 sort à 7,50 $. Autrement dit, le plus gros modèle n’est pas le plus cher. Large 3, architecture Mixture-of-Experts, reste économique sur le raisonnement pur et les sorties longues ; Medium 3.5, dense, se paie davantage parce qu’il excelle sur l’agentique, l’appel d’outils et le code. Nous y revenons dans la méthode de choix plus bas.
Un tier Experiment gratuit permet par ailleurs de tester les modèles sans engagement. Il impose des limites de débit, mais il suffit à valider un cas d’usage avant le passage en production.
Un abonnement Vibe Pro à 14,99 €/mois ne donne aucun crédit API. Ce sont deux systèmes de facturation indépendants. Si vous développez une application qui appelle l’API Mistral, vous payez au token consommé, indépendamment de votre abonnement Vibe. C’est un point que beaucoup découvrent trop tard.
Premier appel API en cinq minutes
Rendez-vous sur console.mistral.ai, puis créez un compte ou connectez-vous. Vous accédez ensuite au tableau de bord avec le playground, la gestion des clés et le suivi de consommation.
Dans la section API Keys, créez une nouvelle clé. Copiez-la immédiatement — elle ne sera plus visible ensuite. Stockez-la dans une variable d’environnement (MISTRAL_API_KEY), jamais en dur dans le code.
Python : pip install mistralai. TypeScript : npm add @mistralai/mistralai. Les SDK Java et Go sont aussi disponibles. À défaut, l’API reste compatible avec le SDK OpenAI en changeant la base URL.
Un appel chat completion basique tient en 5 lignes (voir ci-dessous). Le modèle répond ensuite en streaming ou en bloc, selon votre paramétrage.
# Premier appel API — Python
import os
from mistralai import Mistral
client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])
response = client.chat.complete(
model="mistral-small-latest",
messages=[
{"role": "system", "content": "Tu es un assistant technique concis."},
{"role": "user", "content": "Explique le concept de RAG en 3 phrases."}
]
)
print(response.choices[0].message.content)
# Avec le SDK OpenAI (migration rapide)
from openai import OpenAI
client = OpenAI(
api_key=os.environ["MISTRAL_API_KEY"],
base_url="https://api.mistral.ai/v1"
)
response = client.chat.completions.create(
model="mistral-small-latest",
messages=[
{"role": "user", "content": "Explique le concept de RAG en 3 phrases."}
]
)
print(response.choices[0].message.content)
Les fonctionnalités clés de l’API
Function calling
L’API supporte le function calling sur tous les modèles commerciaux. Vous décrivez des fonctions avec leur signature JSON Schema, puis le modèle décide quand les appeler et fournit les arguments. C’est le mécanisme qui connecte un LLM à des bases de données, des API externes, des outils internes. L’appel parallèle de fonctions est par ailleurs supporté.
Structured outputs
Deux modes coexistent. Le mode JSON d’abord : ajoutez response_format: {"type": "json_object"} pour forcer une sortie JSON (à demander aussi dans le prompt). Les structured outputs personnalisés ensuite : fournissez un JSON Schema complet avec response_format: {"type": "json_schema"} et le modèle produit une sortie qui respecte exactement votre schéma — types, clés, structure. Plus fiable que le mode JSON simple, ce second mode est recommandé pour les pipelines de production.
Reasoning configurable
Le paramètre reasoning_effort (couvert dans l’article 2) est disponible via l’API sur Small 4 comme sur Medium 3.5. Ajoutez reasoning_effort="high" pour activer le raisonnement profond, ou "none" pour le mode rapide. Le paramètre est également accessible sur les endpoints Agents et Conversations via le champ completion_args.
Vision et multimodal
Small 4, Medium 3.5 et Large 3 acceptent des images en entrée via l’API. Envoyez une image en base64 ou via URL dans le tableau des messages, et le modèle l’analyse. Côté usages : OCR, analyse de graphiques, description d’images, comparaison visuelle.
Mistral OCR 3
Un endpoint dédié (/v1/ocr) prend en charge l’extraction de texte structuré depuis des documents scannés, avec support des tableaux en Markdown ou HTML, extraction des en-têtes et pieds de page, et liens hypertextes. Différent de la vision générale, il est optimisé spécifiquement pour le traitement documentaire.
Embeddings
Le modèle Mistral Embed génère des vecteurs pour la recherche sémantique, le clustering et les systèmes de recommandation. Le prix de 0,01 $ par million de tokens figure parmi les plus bas du marché. Il reste par ailleurs compatible avec les bases vectorielles standards (Pinecone, Weaviate, Qdrant, pgvector).
Audio
Voxtral Mini Transcribe gère la transcription (batch et temps réel, avec diarisation), tandis que Voxtral TTS couvre la synthèse vocale (9 langues, clonage vocal zero-shot). Les deux sont accessibles via des endpoints API dédiés.
Connectors (MCP) dans Studio
Depuis mai 2026, les connecteurs MCP intégrés et personnalisés sont disponibles directement via l’API et le SDK, et plus seulement dans l’interface Vibe. Vous branchez vos modèles et vos agents sur des systèmes externes (CRM, bases de connaissances, outils de productivité) sans réécrire la couche d’intégration à chaque fois. L’API ajoute aussi l’appel d’outil direct et les flux d’approbation human-in-the-loop, pour valider une action sensible avant exécution.
Guardrails par requête
Depuis mars 2026, les guardrails se passent directement dans chaque requête /v1/chat/completions via le champ guardrails. Vous fixez des seuils de modération par catégorie (sexuel, automutilation, etc.) et une action (bloquer ou signaler). Plus besoin, donc, d’appeler un endpoint de modération séparé.
Batch inference
Pour les traitements en volume (classification de milliers de documents, scoring, extraction), l’API supporte le batching inline — création de jobs batch sans upload de fichier préalable. C’est la voie indiquée pour les pipelines de données à fort volume et à moindre coût.
Fine-tuning
Le fine-tuning est disponible sur les modèles Small et Medium via l’API. Vous uploadez vos données d’entraînement (format JSONL), vous lancez un job, puis vous récupérez un modèle personnalisé déployable via la même API. Techniques supportées : SFT (Supervised Fine-Tuning) et LoRA. Un Small fine-tuné sur vos données métier remplace souvent un Large généraliste — dix fois moins cher pour des performances équivalentes sur des tâches ciblées.
Quel modèle Mistral pour quel usage
La vraie question n’est pas « quel modèle est le meilleur », mais « quel modèle pour quelle tâche ». La gamme Mistral est conçue pour le routage : vous envoyez chaque requête au modèle le plus adapté, et vous optimisez d’un coup la qualité et le coût. Voici la grille de décision.
| Besoin | Modèle conseillé | Pourquoi |
|---|---|---|
| Classification, extraction, résumé, vision | Small 4 | Tout-en-un au meilleur ratio capacité/prix (0,15 $/0,60 $) |
| Agents, appels d’outils, missions multi-étapes, code | Medium 3.5 | Modèle par défaut, le plus fiable sur l’agentique et le code |
| Raisonnement exigeant, documents longs, multilingue | Large 3 | Puissant et économique en sortie (1,50 $/M) |
| Code en auto-hébergement léger | Devstral Small 2 | 24B sous Apache 2.0, tourne sur un seul GPU |
| Volumes massifs, edge, ultra-budget | Nemo / Ministral | Coût plancher (0,02 $/0,04 $) pour les tâches simples |
| RAG et recherche sémantique | Mistral Embed | Embeddings à 0,01 $/M, compatibles bases vectorielles |
| Traitement documentaire | Mistral OCR 3 | Extraction structurée, tableaux, liens |
| Audio (transcription, synthèse) | Voxtral | Transcribe et TTS via endpoints dédiés |
La stratégie de routage qui en découle : dirigez les requêtes simples vers Small 4 ou Nemo, les missions agentiques et le code vers Medium 3.5, et le raisonnement le plus lourd ou les documents longs vers Large 3. Cette approche par paliers réduit la facture API de 50 à 80 % face à un usage qui enverrait tout vers un seul modèle de pointe. Le format compatible OpenAI rend d’ailleurs ce routage trivial à implémenter, puisqu’il suffit de changer le nom du modèle dans l’appel.
Quand l’API Mistral s’impose — et ses limites
L’API Mistral devient le choix rationnel dans plusieurs situations bien identifiées :
- La résidence des données en Europe — RGPD, HDS, secteur public : l’ensemble de l’API tourne dans des datacenters européens, et le Zero Data Retention est disponible sur demande.
- Les charges riches en sortie — génération de contenu, de code, rapports longs : Large 3 affiche l’un des coûts de sortie les plus bas pour un modèle de pointe.
- Le besoin de réversibilité — fine-tuning sur vos données et auto-hébergement des poids ouverts vous évitent toute dépendance à un fournisseur unique.
- Un budget API serré — sur les tâches standard, le rapport qualité/prix est difficile à battre, et le routage par paliers amplifie l’économie.
Quelques limites à connaître avant de bâtir dessus. La fenêtre de contexte plafonne à 256K tokens, suffisante pour la plupart des usages mais pas pour les corpus de plusieurs centaines de milliers de tokens. Sur le raisonnement le plus exigeant, Mistral progresse vite sans occuper systématiquement la première place. Enfin, l’API ne propose pas, à ce jour, de remise sur la mise en cache des prompts : pour des prompts système très répétitifs, le calcul de coût diffère de fournisseurs qui offrent ce mécanisme. Vérifiez ce point si votre architecture réutilise massivement un même contexte.
Passer à l’action
Créez un compte sur Mistral Studio, générez une clé API, puis lancez votre premier appel avec le code ci-dessus. Testez Small 4 en premier : c’est le modèle au meilleur rapport capacité/prix pour la majorité des cas. Montez à Medium 3.5 pour l’agentique et le code, à Large 3 pour le raisonnement le plus lourd, et descendez à Nemo quand le budget prime sur la finesse.
L’API Mistral mise sur trois forces : la compétitivité du prix, l’ouverture vers l’auto-hébergement, et la garantie d’une résidence des données en Europe. Pour un développeur européen qui construit des applications conformes au RGPD, c’est le point de départ logique.
Faire tourner Mistral sur ses propres machines — comment passer de l’API cloud à vos propres GPU, sans qu’un seul token ne quitte votre réseau.