Aller au contenu
    Gemini
    Actualité IA

    Gemini 3.1 Pro : le bond de raisonnement qui relance la guerre des IA

    Le 19 février 2026, Google a lancé Gemini 3.1 Pro. Performances de raisonnement doublées, niveaux de réflexion configurables, tarifs inchangés. Voici ce qui change concrètement — et ce qui ne change pas.

    Trois mois seulement après Gemini 3 Pro, Google revient avec une mise à jour qui marque un tournant. C’est la première fois que l’entreprise publie un incrément en « .1 » sur la gamme Gemini. Et les chiffres justifient cette entorse à la tradition.

    Ce lancement intervient dans un contexte sans précédent. En février 2026, les trois géants de l’IA ont dégainé quasi simultanément. Anthropic a ouvert le bal avec Claude Opus 4.6 le 5 février. OpenAI a riposté le même jour avec GPT-5.3-Codex. Google a complété la séquence deux semaines plus tard. Résultat : trois modèles de pointe en moins de vingt jours. Du jamais vu.

     

    Ce qui change concrètement

     

    Un bond de raisonnement mesurable

    Le chiffre le plus frappant concerne le benchmark ARC-AGI-2. Ce test évalue la capacité d’un modèle à résoudre des schémas logiques inédits, donc impossibles à « réviser » pendant l’entraînement. Gemini 3.1 Pro atteint 77,1 %, contre 31,1 % pour Gemini 3 Pro. Les performances ont donc plus que doublé en trois mois.

    Sur GPQA Diamond, un test de connaissances scientifiques de niveau doctoral, le modèle affiche 94,3 %. Sur Humanity’s Last Exam, conçu pour pousser les modèles dans leurs derniers retranchements académiques, il obtient 44,4 % sans outil externe. C’est le meilleur score du marché à date de sortie.

     

    Trois niveaux de réflexion configurables

    C’est sans doute la vraie innovation de cette version. Gemini 3 Pro ne proposait que deux modes : low et high. Gemini 3.1 Pro en ajoute un troisième — medium — et redéfinit complètement le mode high.

    En pratique, le mode high de Gemini 3.1 Pro se comporte comme une version allégée de Deep Think, le système de raisonnement avancé réservé aux abonnés Ultra. VentureBeat parle d’un « Deep Think Mini ». Ainsi, un seul modèle peut adapter son effort de réflexion selon la complexité de la tâche, de la réponse rapide au raisonnement en profondeur.

    Pour les développeurs, c’est un levier direct sur le rapport coût/qualité. Une question simple passe en low, une analyse complexe en high. Le tout sans changer de modèle.

     

    Code et capacités agentiques

    Gemini 3.1 Pro obtient 80,6 % sur SWE-Bench Verified, un test qui évalue la résolution de vrais problèmes GitHub. Sur APEX-Agents, qui mesure la capacité à enchaîner des actions autonomes (code, web, API), le score passe de 18,4 % à 33,5 %. C’est presque le double.

    Le modèle peut aussi générer des animations SVG à partir de descriptions textuelles. Google met en avant cette capacité pour expliquer visuellement des concepts scientifiques ou techniques. JetBrains, l’éditeur d’IntelliJ et WebStorm, rapporte un gain allant jusqu’à 15 % dans ses évaluations internes, avec un modèle qui nécessite moins de tokens pour un résultat plus fiable.

     

    Tarifs et accès

    Bonne surprise : Google n’a pas augmenté les prix. Gemini 3.1 Pro coûte le même tarif que Gemini 3 Pro, soit 2 dollars par million de tokens en entrée et 12 dollars en sortie (jusqu’à 200 000 tokens). Au-delà, les prix passent à 4 dollars en entrée et 18 dollars en sortie.

    Accès Prix Détails
    API développeurs 2 $/M tokens input Preview via AI Studio, Vertex AI, Gemini CLI, Android Studio. Même grille que Gemini 3 Pro.
    Google AI Pro 19,99 $/mois Accès à Gemini 3.1 Pro dans l’app Gemini et NotebookLM. Limites plus élevées.
    Google AI Ultra 249,99 $/mois Inclut Deep Think complet, Veo 3 et limites maximales.
    Gratuit (AI Studio) 0 $ Accès rate-limité pour tester. Suffisant pour évaluer le modèle.

    La fenêtre de contexte reste à 1 million de tokens, avec une sortie maximale de 64 000 tokens. Pour les développeurs déjà sur Gemini 3 Pro, c’est donc une mise à niveau gratuite en termes de coût par token.

     

    La guerre des trois : qui mène vraiment ?

    Les benchmarks donnent Gemini 3.1 Pro en tête sur 13 des 16 tests évalués par Google. Mais il faut nuancer sérieusement.

    Claude Opus 4.6 (Anthropic, 5 février) reste préféré par les évaluateurs humains experts sur GDPval-AA, un test qui mesure la performance sur des tâches concrètes de travail — finance, juridique, analyse. Opus 4.6 devance également Gemini sur les classements Arena de préférence humaine, en texte comme en code.

    GPT-5.3-Codex (OpenAI, 5 février) domine sur Terminal-Bench 2.0 avec un écart de près de 9 points. Ce benchmark mesure la maîtrise des tâches en ligne de commande — un terrain stratégique pour les agents de code autonomes. OpenAI a par ailleurs classé ce modèle comme son premier à risque « High » en cybersécurité, ce qui en dit long sur le niveau de capacité atteint.

    En résumé

    Google reprend la tête sur le raisonnement abstrait et les benchmarks scientifiques. Anthropic conserve l’avantage sur la qualité perçue par les experts humains. OpenAI mène sur le code spécialisé et l’exécution en terminal. Aucun des trois ne domine tous les terrains.

     

    Ce que ça change pour vous

    Au-delà de la course aux benchmarks, cette séquence de février 2026 signale un vrai changement de paradigme. La compétition ne se joue plus sur « quel modèle écrit le mieux ». Elle se joue désormais sur « quel modèle résout le mieux ».

    Concrètement, les trois acteurs poussent dans la même direction : des modèles capables de planifier une tâche, d’enchaîner des étapes, d’utiliser des outils (code, recherche web, API), de vérifier leur propre travail, puis de recommencer si nécessaire. C’est ce qu’on appelle les « workflows agentiques ».

    Pour un utilisateur quotidien de ChatGPT, Claude ou Gemini, la différence se sent surtout sur les tâches longues et structurées. Demander une analyse de document de 50 pages, faire déboguer un projet entier, synthétiser des données provenant de sources multiples — c’est sur ces usages que Gemini 3.1 Pro veut se démarquer.

    Pour les développeurs, le système de niveaux de réflexion est un vrai outil. Pouvoir ajuster la profondeur de raisonnement par requête permet d’optimiser à la fois la qualité et le budget API.

     

    Notre avis

    Gemini 3.1 Pro est une avancée réelle. Le bond sur ARC-AGI-2 n’est pas cosmétique — doubler les performances de raisonnement abstrait en trois mois, c’est significatif. Le système de niveaux de réflexion est la fonctionnalité la plus utile en pratique. Et le maintien des tarifs identiques met la pression sur la concurrence.

    Mais le modèle est encore en preview. Pas de version stable à ce jour. Et Gemini 3 Pro n’a lui-même jamais eu de version stable avant d’être remplacé par 3.1. C’est un rythme difficile à suivre pour les équipes qui ont besoin de stabilité en production.

    Les benchmarks mesurent ce qu’ils mesurent, pas ce que vous ferez avec le modèle dans votre contexte. Claude Opus 4.6 est préféré par les experts humains dans les tâches du quotidien professionnel. Ce n’est pas rien. Et les classements changent toutes les deux ou trois semaines — Gemini 3.2 a déjà été repéré dans les logs d’Arena.

    Si vous utilisez déjà Gemini 3 Pro via l’API, passez à 3.1. C’est le même prix pour de meilleures performances. Si vous êtes sur Claude ou ChatGPT et que tout fonctionne bien, il n’y a aucune urgence à migrer. La meilleure IA en mars 2026, c’est celle qui fait le travail dans votre workflow — pas celle qui a le meilleur pourcentage sur un tableau.

    Aller plus loin
    Découvrez tous nos articles IA

    Concepts, tendances, guides pratiques… Tout ce qu’il faut connaître sur l’IA.

    Explorer le blog
    Mise à jour : mars 2026