Choisir le bon modèle GLM : la décision par cas d’usage
Le sélecteur de chat.z.ai propose treize modèles. GLM-5.1 consomme trois fois le quota de GLM-4.7. GLM-5V-Turbo coûte trois fois le prix d’entrée mais traite les images. GLM-OCR bat Gemini 3 Pro sur la reconnaissance de documents avec 0,9 milliard de paramètres. Choisir le mauvais modèle, c’est perdre du temps ou épuiser son quota en deux heures. Voici la grille de décision que vous cherchiez.
La famille GLM s’est étoffée à un rythme rare. GLM-5 en février 2026. GLM-5-Turbo en mars. GLM-5V-Turbo, GLM-5.1, GLM-OCR, GLM-ASR entre février et avril. Treize modèles aujourd’hui disponibles, chacun conçu pour une situation précise. Les benchmarks publiés par Z.ai sont denses mais ne disent pas comment choisir au quotidien.
Ce guide répond à une question simple : pour chaque type de tâche que vous faites dans la semaine, quel modèle GLM lancer. On laisse de côté les variantes historiques (GLM-4.5, GLM-4.6) qui n’apportent plus rien face à leurs successeurs. Les cinq modèles qui comptent vraiment couvrent 100 % des usages.
Les cinq modèles GLM qui comptent en avril 2026
Trois modèles textuels pour le cœur du travail, deux modèles spécialisés pour la vision et la reconnaissance de documents. Tout le reste est soit une variante légère, soit une version antérieure conservée pour compatibilité.
| Modèle | Sortie | Rôle | Prix API entrée/sortie (1M tokens) |
|---|---|---|---|
| GLM-5.1 | Avril 2026 | Raisonnement profond, code long, agents 8h | 1,26 / 3,96 $ |
| GLM-5-Turbo | Mars 2026 | Agents rapides, workflows multi-étapes | 1,20 / 4,00 $ |
| GLM-4.7 | Déc. 2025 | Usage quotidien, rédaction, code standard | 0,39 / 1,75 $ |
| GLM-5V-Turbo | Avril 2026 | Vision multimodale, interfaces graphiques | 1,20 / 4,00 $ |
| GLM-OCR | Févr. 2026 | Reconnaissance de documents, tableaux, formulaires | 0,03 $ |
GLM-4.7-Flash complète le tableau côté entrée de gamme : 0,06 $/0,40 $ par million de tokens, gratuit dans chat.z.ai. C’est le modèle par défaut quand vous arrivez sans compte payant. Parfait pour tester, faire des brouillons, traiter du volume non critique.
GLM-4.7 : le cheval de trait du quotidien
GLM-4.7 est sorti fin décembre 2025. En avril 2026, il reste le meilleur choix pour 80 % des tâches ordinaires : rédiger un email, résumer un document, générer un script Python, formater des données, traduire un paragraphe. Il score 73,8 % sur SWE-bench Verified, au niveau de Claude Sonnet 4.5 en code, et 95,7 % sur AIME 2025 en mathématiques — où il dépasse même Gemini 3.0 Pro et GPT-5.1.
Sa vraie force : le mode « Interleaved Thinking » qui lui fait réfléchir avant d’agir. Là où GLM-4.6 se jetait sur une tâche et enchaînait des erreurs, GLM-4.7 prend quelques secondes pour planifier, puis exécute. Ce comportement se voit immédiatement dans Claude Code ou Cline : les sessions restent stables sur plusieurs tours au lieu de dériver.
Il produit aussi des interfaces visuellement propres — pages HTML aérées, CSS cohérent, slides correctement dimensionnées. Z.ai appelle cela le « Vibe Coding ». Pour un freelance qui génère des prototypes de landing pages ou des maquettes rapides, GLM-4.7 donne un rendu plus professionnel que la plupart des modèles pourtant plus gros.
GLM-5.1 : pour les tâches qui prennent une heure ou plus
GLM-5.1 est le flagship publié le 7 avril 2026. Il affiche 58,4 sur SWE-Bench Pro, devançant Claude Opus 4.6 (57,3), GPT-5.4 (57,7) et Gemini 3.1 Pro. Architecture Mixture-of-Experts de 744 milliards de paramètres dont 40 activés par token, fenêtre de contexte de 200K, sortie jusqu’à 128K tokens.
Ce qui le différencie vraiment, ce n’est pas le score brut. C’est sa capacité à tenir la distance. Les modèles antérieurs, y compris GLM-5, plafonnaient après 50 à 100 itérations — ils épuisaient leur répertoire de solutions et tournaient en rond. GLM-5.1 sustainne la productivité sur 1 700 étapes et 6 000 appels d’outils dans une même session. Le benchmark Z.ai le montre : construire de zéro un desktop Linux fonctionnel en huit heures, ou refactorer une base vectorielle de 3 500 QPS à 21 500 QPS sur 600 itérations.
Concrètement, vous lancez GLM-5.1 quand la tâche remplit au moins l’une de ces conditions : elle prendrait plus d’une heure à un humain, elle implique plusieurs fichiers ou plusieurs outils, elle nécessite un raisonnement en plusieurs étapes qui se nourrissent mutuellement. Pour demander la météo ou reformuler un paragraphe, c’est un gaspillage — GLM-5.1 consomme 3× le quota standard en heures de pointe.
GLM-5-Turbo : la vitesse pour les agents multi-étapes
Sorti le 15 mars 2026, GLM-5-Turbo n’est pas une version « allégée » de GLM-5.1. C’est un modèle différent conçu pour un cas précis : les agents qui doivent enchaîner rapidement beaucoup d’actions courtes. Scraping structuré, triage de tickets support, remplissage de formulaires, orchestration entre plusieurs APIs — tout ce qui ressemble à un enchaînement de micro-décisions plutôt qu’à une réflexion longue.
Il offre la même fenêtre de 200K tokens que GLM-5.1 mais avec une latence nettement plus basse. En contrepartie, il est propriétaire (non open source, contrairement à GLM-5 et GLM-5.1). Pour un agent IA en production qui doit répondre en moins de deux secondes, c’est le choix logique. Pour un agent qui réfléchit une heure avant d’agir, GLM-5.1 reste supérieur.
GLM-5V-Turbo : quand il faut voir avant de coder
GLM-5V-Turbo est le premier modèle multimodal natif de Z.ai, publié le 1er avril 2026. Il reçoit en entrée des images, des vidéos et du texte mélangés. Son angle n’est pas la description d’image classique — c’est le vision coding : regarder une maquette Figma et produire le HTML/CSS correspondant, analyser une capture d’écran d’erreur et proposer le correctif, piloter une interface graphique pas à pas.
Il sort à 221 tokens par seconde selon BridgeBench, ce qui en fait l’un des modèles multimodaux les plus rapides du marché — plus rapide que Gemini 3.1 Pro, Claude Opus et GPT-5.4 sur le même benchmark. C’est utile pour les agents qui doivent naviguer en temps réel sur une interface (tests automatisés, agents navigateur, assistants visuels).
Pour un usage ponctuel « décrire cette photo », GLM-4.6V reste suffisant et coûte 4× moins cher (0,30 / 0,90 $ par million de tokens). GLM-5V-Turbo ne se justifie que pour les workflows agentiques qui combinent vision + action.
GLM-OCR : l’outil caché qui vaut l’abonnement
GLM-OCR est la curiosité la plus intéressante de la famille. 0,9 milliard de paramètres seulement — 260 fois plus petit que Qwen3-VL-235B. Et pourtant, il signe 94,62 sur OmniDocBench V1.5, le benchmark de référence en parsing de documents. Il dépasse Gemini 3 Pro (90,33), GPT-5.2 (85,4) et tous les autres modèles open source.
Son rôle est précis : transformer n’importe quel document image en texte structuré. Factures scannées, contrats PDF, tableaux Excel photographiés, formules mathématiques manuscrites, tickets de caisse, documents d’identité. Sortie en Markdown, JSON ou LaTeX selon le besoin. Il traite 1,86 page PDF par seconde, ce qui en fait l’OCR le plus rapide de sa catégorie.
Côté prix API, c’est 0,03 $ par million de tokens — l’un des modèles les moins chers de tout le marché de l’IA. Vous pouvez aussi le télécharger gratuitement depuis Hugging Face (licence MIT) et le faire tourner en local sur une carte graphique de 4 Go de VRAM. Pour une PME qui traite quelques centaines de factures par mois, la différence de coût avec Gemini ou GPT se compte en milliers d’euros par an.
Moins d’une minute de travail humain équivalent ? GLM-4.7-Flash ou GLM-4.7. Entre une minute et trente minutes ? GLM-4.7 en mode thinking. Plus d’une heure ou plusieurs fichiers à coordonner ? GLM-5.1. Agent qui enchaîne vingt actions rapides ? GLM-5-Turbo. Image ou interface en entrée ? GLM-5V-Turbo. Document scanné à numériser ? GLM-OCR.
Tableau de décision par cas d’usage
Pour chaque tâche que vous rencontrez dans la semaine, voici le modèle qui maximise le rapport qualité/quota consommé. Les recommandations partent du principe que vous avez un GLM Coding Plan Lite ou Pro — donc un accès à tous les modèles, avec un quota à gérer.
| Tâche | Modèle recommandé | Pourquoi |
|---|---|---|
| Rédiger un email ou un post LinkedIn | GLM-4.7-Flash | Gratuit, 203K de contexte, largement suffisant |
| Résumer un rapport de 30 pages | GLM-4.7 | Bon équilibre coût/qualité, thinking mode |
| Traduire un document technique | GLM-4.7 | Multilingue solide, notamment français |
| Générer un script Python de 200 lignes | GLM-4.7 thinking | 89,4 sur code thinking benchmark, moins de quota |
| Refactorer un projet multi-fichiers | GLM-5.1 | Seul modèle qui tient sur des sessions longues |
| Construire une app web de zéro | GLM-5.1 | Vibe coding avancé, cohérence sur 1000+ étapes |
| Agent qui répond à 200 tickets support | GLM-5-Turbo | Vitesse d’exécution, tool calling optimisé |
| Reconnaître du texte sur une photo | GLM-OCR | 0,03 $/M tokens, SOTA absolu |
| Analyser une capture d’écran d’app | GLM-5V-Turbo | Multimodal natif, rapide |
| Générer une présentation de 10 slides | GLM Slide Agent (GLM-4.7) | Agent dédié, pas besoin de choisir le modèle |
| Faire une recherche web approfondie | GLM-4.7 + MCP Web | MCP inclus dans tous les plans payants |
| Raisonner sur un problème mathématique | GLM-4.7 thinking ou GLM-5.1 | 4.7 pour un exercice, 5.1 pour un cas complexe |
Comment basculer entre les modèles
Dans chat.z.ai, le sélecteur de modèle se trouve en haut à gauche de la conversation. Cliquez, choisissez, continuez. Le changement s’applique au message suivant — pas rétroactivement. Pensez à basculer avant d’envoyer un prompt complexe, pas après.
Dans Claude Code ou Cursor branché sur le GLM Coding Plan, la bascule passe par le fichier de configuration. Pour Claude Code, ouvrez ~/.claude/settings.json et ajustez les variables d’environnement :
# ~/.claude/settings.json — mapping modèles GLM
{
"env": {
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-4.7",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.1",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air"
}
}
Avec cette configuration, les raccourcis « Sonnet » et « Opus » de Claude Code appellent en réalité GLM-4.7 et GLM-5.1. Vous gardez vos habitudes sans changer votre workflow. La procédure complète d’installation fait l’objet du guide Z8 de cette série.
Dans les appels API directs, le nom du modèle se passe dans le paramètre model de la requête. Les identifiants exacts sont glm-5.1, glm-5-turbo, glm-4.7, glm-5v-turbo, glm-ocr. L’endpoint est compatible avec le format OpenAI, ce qui signifie que la plupart des SDK Python ou JavaScript fonctionnent avec un simple changement d’URL et de clé.
Ce que cela change pour vous
Le piège classique avec Z.ai, c’est de tout faire tourner sur GLM-5.1 parce que c’est le modèle « le plus puissant ». Résultat : quota épuisé en trois heures le mardi matin, et plus rien jusqu’à samedi. La bonne pratique consiste à réserver GLM-5.1 aux tâches où son avantage compte vraiment (long horizon, raisonnement profond), et à laisser GLM-4.7 absorber le travail courant.
Pour les cas visuels, le raisonnement est symétrique. GLM-OCR bat tous ses concurrents sur le parsing de documents, y compris Gemini 3 Pro — mais à 0,03 $ par million de tokens, personne n’a de raison d’hésiter. GLM-5V-Turbo, en revanche, ne se justifie que dans des workflows qui combinent vraiment vision et action. Sinon, GLM-4.6V fait l’affaire pour quatre fois moins cher.
Le prochain guide de la série aborde le prompt engineering spécifique à GLM. Certaines structures de prompt qui marchent très bien sur Claude ou GPT produisent des résultats médiocres sur GLM, et inversement. On verra notamment comment déclencher le mode thinking, comment cadrer un agent long horizon, et cinq templates prêts à copier.
Claude, GPT, Gemini, GLM, Mistral : des guides dédiés pour comprendre et choisir le bon modèle à chaque usage.