PROMPT

Guide IA · Série Z.ai 3/12

Prompt engineering pour GLM : 7 techniques pour des résultats pro

Un prompt qui donne de l’or sur Claude peut produire un résultat médiocre sur GLM. Les modèles Z.ai ont un biais marqué pour le début du prompt, un mode thinking qui s’active ou s’ignore selon la syntaxe, et une sensibilité particulière aux rôles explicites. Sept techniques précises pour que chaque prompt tire le maximum du modèle, avec exemples avant/après et cinq templates à copier.

Le 7 avril 2026, Cerebras publiait un guide de migration vers GLM-4.7 qui identifiait dix spécificités du modèle. La plus frappante : « GLM a un biais fort pour le début du prompt, encore plus marqué que les autres modèles ». Autrement dit, ce que vous mettez dans les cinquante premiers mots pèse trois fois plus lourd que la moyenne. Un détail à connaître avant de transposer aveuglément ses prompts Claude sur GLM.

Ce guide rassemble les sept techniques qui changent vraiment les résultats sur les modèles GLM (4.7 et 5.1). Elles exploitent l’architecture spécifique de ces modèles : le mode thinking à trois niveaux, le « preserved thinking » qui maintient le raisonnement entre les tours, et la capacité à soutenir un effort sur huit heures. Chaque technique est illustrée avec un exemple concret et un template réutilisable.

1. Mettre l’essentiel dans les cinquante premiers mots

GLM-4.7 et GLM-5.1 accordent un poids disproportionné au début du prompt. C’est une caractéristique mesurée par les équipes Cerebras sur des milliers de requêtes. Si vous enterrez l’instruction principale après trois paragraphes de contexte, le modèle risque de la traiter comme secondaire. À l’inverse, ce que vous placez en tête sera exécuté avec rigueur, même si le reste du prompt est brouillon.

La règle pratique : commencer par l’action et le format de sortie, puis donner le contexte. C’est l’inverse de la structure naturelle humaine (introduction → développement → demande finale).

# Avant (faible)
Je suis responsable marketing dans une PME de 50 personnes qui vend
des logiciels de gestion RH. On cible les DAF et DRH de sociétés
de 100 à 500 salariés. On prépare une campagne pour mai. J'aimerais
que tu rédiges une landing page.

# Après (fort)
Rédige une landing page de 400 mots pour une campagne SaaS RH.
Format : H1 accrocheur, 3 bénéfices en sous-titres H2, un CTA final.
Public : DAF et DRH de sociétés de 100 à 500 salariés.
Produit : logiciel de gestion RH en SaaS, PME de 50 personnes.
Campagne : mai 2026.

Le second prompt produit systématiquement un meilleur résultat sur GLM, parce que l’instruction principale (« Rédige une landing page de 400 mots ») et le format sont ancrés dans l’attention avant tout le contexte descriptif.

2. Activer ou désactiver le thinking mode selon la tâche

GLM-4.7 a introduit un système de raisonnement à trois niveaux hérité de GLM-4.5 : Interleaved Thinking (le modèle réfléchit avant chaque réponse et chaque appel d’outil), Preserved Thinking (il conserve son raisonnement entre les tours de conversation), et Turn-level Thinking (activable ou désactivable au cas par cas). GLM-5.1 pousse ce système encore plus loin.

Le problème pratique : le thinking mode est activé par défaut. Pour une question simple (« reformule ce paragraphe »), le modèle va produire des blocs de raisonnement internes qui ralentissent la réponse et consomment du quota inutilement. Il faut le désactiver explicitement.

# API Z.ai : désactiver le thinking
{
  "model": "glm-4.7",
  "messages": [...],
  "thinking": {"type": "disabled"}
}

# API OpenAI-compatible : désactiver via chat_template_kwargs
extra_body = {"chat_template_kwargs": {"enable_thinking": False}}

# Dans chat.z.ai : pas de toggle explicite
# Le thinking s'active automatiquement selon la complexité détectée.
# Pour forcer un mode rapide, ajouter en tête de prompt :
"Réponds directement, sans chaîne de réflexion. Format attendu : …"

À l’inverse, pour les tâches complexes (analyse juridique, debug, raisonnement mathématique), laisser le thinking activé et ajouter une instruction explicite : « Raisonne étape par étape avant de répondre. Liste d’abord les hypothèses, puis vérifie-les une par une, puis conclus. » Cette formulation active le mode profond et améliore significativement la qualité sur les tâches qui le méritent.

3. Donner un rôle explicite et motivé

Les modèles GLM répondent mieux que la moyenne aux rôles explicites, grâce à un alignement fort entre les thinking blocks et les personas. Un rôle bien défini déclenche un registre lexical, des références et un mode de raisonnement spécifiques. La règle : donner qui, pour qui, et dans quelle situation.

Formulation faible : « Tu es un expert en cybersécurité. » Formulation forte : « Tu es un consultant cybersécurité qui prépare un rapport pour le COMEX d’une ETI industrielle de 800 personnes. Le DAF est sceptique sur le ROI des investissements cyber. Tu dois convaincre sans techno-jargon, en appuyant chaque recommandation sur un coût évité chiffré. »

La seconde version produit un contenu calibré pour l’auditoire, avec des exemples adaptés au contexte industriel et un ton argumentatif. La première donne un texte générique qui aurait pu être produit par n’importe quel LLM.

La règle CATS pour cadrer un prompt GLM

Contexte (qui, pour qui, situation) · Action (verbe précis, pas « discuter » ou « analyser » sans complément) · Ton (registre, niveau de détail, public visé) · Structure (format attendu : titres, bullets, longueur). Un prompt qui coche les quatre cases produit systématiquement un meilleur résultat qu’un prompt long et flou.

4. Décomposer les tâches complexes en sous-étapes explicites

GLM-4.7 exécute mieux ce qui est découpé. Demander « refais toute la structure du site » donne un résultat moins propre que découper en trois prompts : lister les dépendances, proposer la nouvelle structure, générer et vérifier les migrations. Cette logique incrémentale correspond à la tendance d’exécution du modèle, qui préfère agir étape par étape.

Pour GLM-5.1, la règle change à cause de sa capacité long horizon. Vous pouvez lui donner une mission entière en un prompt, à condition de structurer l’objectif. Le modèle va décomposer lui-même les étapes et les exécuter en séquence.

# Template pour GLM-5.1 — tâche longue autonome
Objectif : [description complète de la mission, 2-3 phrases]

Critères de succès :
- [critère mesurable 1]
- [critère mesurable 2]
- [critère mesurable 3]

Contraintes :
- [contrainte technique ou de format]
- [contrainte de délai ou de ressource]

Processus attendu :
1. Planifie les étapes avant d'agir
2. Exécute chaque étape et vérifie le résultat
3. Si une étape échoue, propose un plan B avant de continuer
4. Produis un rapport final avec les résultats et les décisions prises

Démarre maintenant.

Ce template est celui qui fonctionne dans les benchmarks publiés par Z.ai, notamment pour les tâches de huit heures. La différence avec Claude ou GPT tient à la section « processus attendu » — GLM-5.1 tire beaucoup plus parti d’une instruction de planification explicite que ses concurrents qui la font automatiquement.

5. Figer les faits pour empêcher l’invention

GLM, comme tous les modèles, peut générer des statistiques plausibles mais fausses quand on lui demande un contenu factuel. Plutôt que d’espérer qu’il consulte sa mémoire correctement, on lui fournit les faits et on lui interdit d’en inventer. Cette technique réduit drastiquement les hallucinations sur les sujets chiffrés.

# Template "faits figés"
Rédige [format demandé]. Utilise UNIQUEMENT les faits ci-dessous.
Si une information est manquante, écris "Donnée non fournie".
Ne jamais inventer de chiffre, de date, de nom propre.

Faits autorisés :
- [fait 1 avec source]
- [fait 2 avec source]
- [fait 3 avec source]

Couplée à la recherche web native de Z.ai (MCP Web Search inclus dans tous les plans payants), cette approche donne un contenu factuellement solide. Le MCP Web Search va chercher des sources, vous les copiez dans le prompt, GLM rédige sans inventer.

6. Utiliser un agent critique en second passage

Pour les tâches critiques (code de production, analyse financière, document juridique), une technique particulièrement efficace sur GLM consiste à enchaîner deux prompts : le premier génère, le second critique. Le second passage attrape une bonne partie des erreurs que le premier a laissées passer.

Le template est simple : après la première réponse du modèle, on envoie un nouveau prompt avec la consigne de réviser. Pour profiter au maximum du « Preserved Thinking » de GLM-4.7 et GLM-5.1, on garde la même conversation — le modèle voit son propre raisonnement précédent et peut l’ajuster.

# Prompt critique en second tour
Relis ta réponse précédente comme un relecteur senior.
Identifie trois problèmes potentiels :
1. Une erreur factuelle ou une affirmation non sourcée
2. Une faiblesse dans le raisonnement ou l'argumentation
3. Une incohérence avec les contraintes initiales

Pour chaque problème, propose la correction.
Puis produis une version corrigée complète.

Sur GLM-5.1, cette technique est particulièrement puissante parce que le modèle conserve les blocs de réflexion entre les tours. Il ne recommence pas de zéro — il reprend son propre cheminement, ce qui rend la critique plus précise qu’avec un modèle sans preserved thinking.

7. Cinq templates prêts à copier

Ces cinq templates couvrent les cas d’usage les plus fréquents. Ils intègrent les six techniques précédentes. Copiez, remplissez les crochets, envoyez.

Template rédaction pro

Rédige [type de document] de [longueur].
Public cible : [profil précis].
Ton : [expert / commercial / pédagogique / institutionnel].
Structure : [éléments attendus — H2, bullets, CTA, etc.].
Contexte : [situation, produit, enjeu en 2-3 phrases max].
Contraintes :
- Pas de [formules à bannir : "dans un monde où...", etc.]
- Intégrer naturellement les mots-clés : [liste]
- Citer [sources exigées] uniquement.

Template analyse de document

Analyse le document ci-dessous comme un [rôle expert].
Produis un compte-rendu structuré avec :
1. Les trois points les plus importants (une phrase chacun)
2. Les risques ou biais que tu détectes
3. Les questions qu'il reste à clarifier
4. Une recommandation actionnable en une phrase

Document :
[coller le texte ou la transcription]

Template code + test

Objectif : [fonction/composant à coder en une phrase]
Langage : [Python 3.12 / TypeScript / etc.]
Contraintes :
- Respecter [style guide ou conventions du projet]
- Pas de dépendance externe hors [liste autorisée]
- Code commenté uniquement aux endroits non-évidents

Livrables :
1. Le code de la fonction
2. Un exemple d'utilisation
3. Trois tests unitaires couvrant un cas normal, un cas limite,
   un cas d'erreur

Template agent long horizon (GLM-5.1)

Mission : [description complète en 3-4 phrases]

Je ne serai pas disponible pendant [durée estimée]. Tu travailles
en autonomie complète. À la fin, tu produis :
- Un rapport de ce qui a été fait, étape par étape
- La liste des décisions que tu as prises et pourquoi
- Les blocages rencontrés et comment tu les as contournés
- Une liste des questions qui nécessitent ma validation

Ressources à disposition : [outils, accès, fichiers]

Plan d'attaque : commence par décomposer la mission en 5-10 étapes,
valide la cohérence du plan, puis exécute.

Démarre maintenant.

Template traduction ou adaptation

Adapte le texte suivant en [langue/registre cible].
Contraintes :
- Préserver le sens et l'intention de l'original
- Adapter les références culturelles au public [pays/région]
- Conserver le niveau de langue [formel / courant / familier]
- Signaler entre crochets [tout passage intraduisible ou
  nécessitant une décision éditoriale]

Texte :
[coller le texte source]

Ce que cela change pour vous

Les modèles GLM ne sont pas des clones des modèles occidentaux. Ils ont leur architecture, leurs biais et leurs forces spécifiques — notamment le thinking mode à trois niveaux et la capacité long horizon de GLM-5.1. Appliquer naïvement vos prompts Claude ou GPT donnera des résultats décevants. Les adapter avec les sept techniques ci-dessus change radicalement la qualité des sorties.

Les deux principes à retenir absolument : placer l’instruction principale en tête du prompt (biais de début très marqué), et expliciter le plan d’action attendu sur les tâches longues. Ces deux gestes suffisent à récupérer 80 % du potentiel du modèle. Les cinq autres techniques servent à grimper du bon au très bon.

Le prochain guide de la série aborde la rédaction longue et la traduction avec GLM. On verra comment exploiter la fenêtre de contexte de 200K tokens pour des synthèses multi-documents, et comment configurer un style éditorial personnalisé qui tient sur des centaines de pages.

Aller plus loin

Tous les guides IA

Prompt engineering, agents, LLM, outils du quotidien : notre bibliothèque complète pour maîtriser les IA génératives.

Explorer les guides IA ↗

Mise à jour : mai 2026