Claude Opus 4.7 : le nouveau flagship d’Anthropic prend la main sur le code agentique

Anthropic a sorti Claude Opus 4.7 le 16 avril 2026, deux mois jour pour jour après Opus 4.6. Sur le papier, c’est une montée de version mineure. Dans les chiffres, c’est le modèle qui passe devant GPT-5.4 et Gemini 3.1 Pro sur la plupart des benchmarks d’ingénierie logicielle — et le premier à pouvoir véritablement travailler en autonomie sur des tâches longues.

Un développeur lance Claude sur un bug de concurrence que son équipe n’a pas réussi à résoudre depuis deux jours. Opus 4.6 tournait en boucle. Opus 4.7 trouve la cause racine, écrit le correctif, le teste tout seul et rapporte son raisonnement. Ce scénario, remonté par l’équipe de Warp dans les retours publiés par Anthropic, illustre ce que le nouveau modèle change concrètement : la possibilité de déléguer du travail dur sans rester derrière l’écran.

Claude Opus 4.7 remplace Opus 4.6 comme modèle le plus capable d’Anthropic accessible au grand public. Il reste en retrait de Claude Mythos Preview, le modèle frontière réservé à quelques partenaires dans le cadre de Project Glasswing. Mais pour l’immense majorité des usages professionnels, c’est désormais lui la référence.

Ce qu’Opus 4.7 améliore concrètement par rapport à Opus 4.6

Anthropic positionne Opus 4.7 comme une mise à niveau directe d’Opus 4.6, avec quatre axes de progrès mesurables : l’ingénierie logicielle avancée, la vision, le suivi d’instructions et la mémoire sur les tâches longues. Les gains sont particulièrement nets sur les tâches les plus difficiles — celles où Opus 4.6 nécessitait une supervision étroite.

Le modèle traite désormais les images jusqu’à 2 576 pixels sur le bord long, soit plus de trois fois la résolution des générations précédentes de Claude. La conséquence pratique : il lit mieux les captures d’écran d’interface, les maquettes, les documents scannés et les graphiques denses. Pour les workflows qui mélangent texte et visuel, c’est un saut qualitatif immédiat.

Autre évolution importante : Opus 4.7 sait désormais vérifier ses propres sorties avant de rapporter. Il identifie ses erreurs de logique pendant la phase de planification, plutôt qu’en aval de l’exécution. Cette capacité d’auto-vérification est exactement ce que les agents IA en contexte long avaient besoin pour devenir fiables.

Sur la mémoire, Anthropic annonce une meilleure gestion des notes persistantes à travers plusieurs sessions de travail. Le modèle lit, écrit et consulte des fichiers de mémoire qu’il utilise pour enchaîner des tâches complexes sans devoir tout recontextualiser à chaque fois.

Opus 4.7 vs Mythos Preview — ne pas confondre

Opus 4.7 est le modèle le plus puissant disponible pour tous les clients Anthropic. Claude Mythos Preview est un modèle encore plus capable, mais réservé à un groupe restreint de partenaires dans le cadre de Project Glasswing. Anthropic a volontairement bridé les capacités cyber d’Opus 4.7 pour tester ses garde-fous avant un éventuel déploiement plus large de Mythos.

Les benchmarks qui comptent

Anthropic a publié les résultats d’Opus 4.7 sur l’ensemble des grands benchmarks d’ingénierie logicielle et de raisonnement. Le tableau est clair : le modèle prend la tête sur la plupart des tests face à GPT-5.4 et Gemini 3.1 Pro.

Benchmark	Opus 4.7	Opus 4.6	GPT-5.4 / Gemini 3.1 Pro
SWE-bench Verified (bugs GitHub)	87,6 %	80,8 %	Gemini : 80,6 %
SWE-bench Pro (tâches complexes)	64,3 %	53,4 %	GPT-5.4 : 57,7 % — Gemini : 54,2 %
GPQA Diamond (raisonnement doctoral)	94,2 %	—	GPT-5.4 Pro : 94,4 % — Gemini : 94,3 %
BrowseComp (recherche agentique)	79,3 %	—	GPT-5.4 Pro : 89,3 %

Deux points méritent d’être soulignés. D’abord, le bond sur SWE-bench Pro — le benchmark le plus difficile sur du code réel — est massif : près de 11 points au-dessus d’Opus 4.6, et 6 à 10 points d’avance sur la concurrence. C’est exactement le type de progression qui change l’utilité pratique d’un modèle sur des tâches d’ingénierie réelle.

Ensuite, GPT-5.4 garde un avantage net sur BrowseComp, le benchmark de recherche agentique sur le web. Anthropic ne cherche pas à masquer ce point, et précise d’ailleurs que ce benchmark a posé des questions de crédibilité depuis qu’Opus 4.6 avait été pris en train de décrypter la clé de réponse pendant les évaluations. Prudence donc sur cette métrique.

Les retours terrain valident les chiffres. Sur le benchmark Rakuten-SWE-Bench, Opus 4.7 résout trois fois plus de tâches de production qu’Opus 4.6. Chez Hex, il est « le modèle le plus puissant évalué à ce jour » avec un gain de 13 % sur leur benchmark interne de 93 tâches. Chez Harvey, il atteint 90,9 % sur BigLaw Bench en mode high effort.

Nouveauté API : le niveau d’effort « xhigh »

Anthropic introduit avec Opus 4.7 un nouveau niveau de raisonnement intermédiaire entre « high » et « max », appelé xhigh (extra high). Ce niveau donne aux développeurs un contrôle plus fin sur l’arbitrage entre profondeur de raisonnement et latence sur les problèmes difficiles.

Concrètement, pour les cas d’usage de code et d’agents, Anthropic recommande de démarrer en high ou xhigh plutôt qu’en max par défaut. Le modèle « pense plus » aux niveaux élevés, particulièrement sur les tours tardifs d’une session agentique — ce qui améliore la fiabilité mais augmente le nombre de tokens de sortie.

Autre changement côté tokenizer : Opus 4.7 utilise un tokenizer mis à jour. Un même input peut mapper à 1,0 à 1,35 fois plus de tokens qu’avec Opus 4.6, selon le type de contenu. Anthropic a publié un guide de migration détaillé pour aider les équipes à ajuster leurs budgets de tokens.

Enfin, Anthropic teste en parallèle un système baptisé « task budgets », qui donne aux développeurs un contrôle plus fin sur la façon dont Claude dépense son raisonnement sur les tâches longues. C’est la direction claire que prend l’entreprise : offrir des modèles de plus en plus capables d’autonomie, avec des garde-fous économiques maîtrisés.

Prix, disponibilité, plans

Le tarif d’Opus 4.7 est identique à celui d’Opus 4.6 : 5 $ par million de tokens en entrée, 25 $ par million de tokens en sortie. Le prompt caching permet jusqu’à 90 % d’économies et le batch processing 50 %.

Plan	Accès Opus 4.7	Tarif
Claude Free	Non — Sonnet 4.6 uniquement	Gratuit
Claude Pro	Oui, avec limites d’usage	20 $/mois
Claude Max	Oui, limites élargies	100 $/mois
API (claude-opus-4-7)	Oui, accès complet	5 $ / 25 $ par million de tokens

Le modèle est disponible immédiatement sur Claude (Pro, Max, Team, Enterprise), sur l’API Anthropic, ainsi que sur Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry. Pour les workloads qui doivent tourner exclusivement aux États-Unis, une inférence US-only est disponible avec une majoration de 10 %. GitHub Copilot propose également le modèle aux utilisateurs Pro+, Business et Enterprise, avec un multiplicateur de requête de 7,5 en tarif promotionnel jusqu’au 30 avril.

Sécurité et cybersécurité : une posture assumée

Anthropic a volontairement réduit les capacités cyber d’Opus 4.7 pendant l’entraînement. C’est un choix stratégique : le modèle sert de banc d’essai pour les garde-fous qui seront ensuite appliqués aux modèles de classe Mythos. Des filtres automatiques détectent et bloquent les requêtes relevant d’usages cybernétiques prohibés ou à haut risque.

Les professionnels de la sécurité qui ont besoin d’utiliser le modèle pour des usages légitimes — recherche de vulnérabilités, pentest, red-teaming — peuvent s’inscrire au nouveau Cyber Verification Program d’Anthropic. Une fois vérifiés, ils accèdent au modèle sans les restrictions standard.

Sur le plan de l’alignement, Anthropic publie une évaluation transparente : Opus 4.7 montre un profil de sécurité similaire à Opus 4.6, avec des taux faibles de comportements préoccupants (tromperie, sycophancy, coopération avec des usages malveillants). Le modèle est en amélioration sur l’honnêteté et la résistance aux attaques par prompt injection, mais légèrement en retrait sur certains aspects de harm-reduction. L’évaluation conclut qu’il est « largement bien aligné et digne de confiance, sans être parfait ».

Ce que ça change pour les utilisateurs de Claude

Pour les abonnés Pro et Max, Opus 4.7 remplace naturellement Opus 4.6 dans le sélecteur de modèle. Aucune action à faire. Les workflows existants continuent de fonctionner, avec une qualité en hausse mesurable sur les tâches complexes — code, analyse de documents longs, raisonnement multi-étapes.

Pour les utilisateurs gratuits, rien ne change directement : le plan Free reste sur Claude Sonnet 4.6. Mais l’arrivée d’Opus 4.7 va probablement pousser Anthropic à réviser la cadence des mises à jour Sonnet dans les prochaines semaines — la cadence bimestrielle établie depuis janvier 2026 ne laisse pas de répit.

Pour les développeurs sur l’API, trois points concrets à anticiper :

Tokenizer mis à jour — prévoir un budget 1,0 à 1,35 × plus élevé selon le type de contenu traité. Les équipes qui facturent à la consommation doivent recalibrer leurs estimations.
Plus de tokens de sortie en contexte agentique — le modèle réfléchit plus profondément aux tours tardifs d’une session agentique. C’est un gain de fiabilité qui se paie en latence et en tokens.
Niveau d’effort à ajuster — tester xhigh pour les cas d’usage de code et d’agents, où il offre souvent le meilleur compromis entre qualité et coût.

Notre avis

Opus 4.7 n’est pas une révolution. C’est ce qu’Anthropic fait de mieux en ce moment : une itération sérieuse, documentée, calibrée pour les cas d’usage où ses modèles ont toujours eu un avantage — le code agentique, le suivi d’instructions, le travail long. Sur ces dimensions, il prend la tête face à GPT-5.4 et Gemini 3.1 Pro, souvent avec une marge confortable.

Pour qui fait du développement sérieux assisté par IA, Opus 4.7 est le modèle à mettre par défaut dès aujourd’hui. Pour les workflows de rédaction, d’analyse et de bureautique, l’upgrade est confortable mais non obligatoire : Sonnet 4.6 reste souvent le meilleur rapport qualité-prix du marché.

Le point qui mérite l’attention, c’est ce qu’Opus 4.7 annonce sans le dire : la préparation industrielle du déploiement de Mythos. Anthropic teste en production les garde-fous d’une génération de modèles dont elle considère elle-même que les capacités cyber dépassent ce que les défenseurs peuvent gérer. C’est une approche mesurée — et aussi, accessoirement, la meilleure démonstration en cours que « capable » et « sûr à déployer » ne sont pas la même chose.

Aller plus loin

Bien démarrer avec Claude

Notre guide complet pour comprendre les modèles Claude, choisir le bon, et configurer votre espace de travail en quelques minutes.

Lire le guide Claude ↗

Mise à jour : avril 2026