Computer-use : les agents IA qui pilotent tout votre ordinateur
Un cran au-dessus du navigateur. Ces agents voient votre écran entier, déplacent la souris, tapent au clavier, ouvrent Excel, Photoshop, votre CRM, enchaînent les tâches entre plusieurs logiciels. Claude Computer Use, ChatGPT Agent, Fara-7B de Microsoft : la catégorie la plus puissante et la plus sensible de l’IA agentique. État des lieux en avril 2026.
Les agents IA dans un navigateur savent cliquer et remplir des formulaires. Les extensions Chrome apprennent des routines. Les super-agents cloud livrent des rapports clés en main. Mais tous restent enfermés dans leur périmètre. Les agents computer-use, eux, vivent directement sur votre ordinateur et peuvent manipuler n’importe quelle application : Excel, PowerPoint, Photoshop, un CRM métier, votre client mail, un logiciel propriétaire. Le clavier et la souris deviennent leurs bras.
C’est la catégorie la plus ambitieuse de l’IA agentique, et aussi la plus sensible. Un agent qui peut tout voir et tout faire sur votre machine ouvre des possibilités énormes — et des risques du même ordre. En avril 2026, trois acteurs principaux se partagent le marché : Claude Computer Use d’Anthropic, ChatGPT Agent d’OpenAI (héritier d’Operator), et Fara-7B de Microsoft. Un outsider chinois avance en parallèle : GLM-PC de Z.ai.
Claude Computer Use : la stratégie Anthropic du connecteur-first
Anthropic a annoncé Claude Computer Use en research preview le 23 mars 2026, disponible sur macOS pour les abonnés Pro (20 dollars/mois) et Max (100 dollars/mois). La fonctionnalité est intégrée à Claude Cowork, l’agent desktop lancé en janvier 2026 et passé en disponibilité générale le 9 avril 2026 sur macOS et Windows.
L’approche Anthropic est hiérarchisée. Quand vous donnez une tâche à Claude, il regarde d’abord s’il dispose d’une intégration directe via les connecteurs (Slack, Google Calendar, Google Drive, Notion) — l’option la plus fiable et la plus rapide. Si aucune intégration ne couvre la tâche, il bascule sur le navigateur via l’extension Claude for Chrome. Et seulement si ni l’un ni l’autre ne suffit, il prend le contrôle de l’écran. Cette hiérarchie, que l’éditeur nomme « connector-first », évite de cliquer à l’aveugle quand une API propre existe.
Le cas d’usage phare mis en avant : un utilisateur en retard pour une réunion demande à Claude, depuis son téléphone via Dispatch, d’exporter une présentation en PDF et de l’attacher à une invitation calendrier. Claude ouvre PowerPoint, exporte, retrouve l’invitation, ajoute la pièce jointe. Exécution en arrière-plan pendant que l’utilisateur conduit. Autre exemple typique : ouvrir un IDE, lancer des tests, soumettre une pull request, retourner aux logs pour valider.
Anthropic est transparent sur les limites. La navigation par écran est plus lente et moins fiable qu’une intégration directe, les tâches complexes demandent parfois plusieurs essais, et l’éditeur recommande explicitement de ne pas utiliser la fonctionnalité avec des données sensibles pendant la phase preview. Les safeguards intégrés incluent le permission-gating avant chaque nouvelle action, la détection de prompt injection, et l’isolation dans une machine virtuelle pour Claude Cowork.
ChatGPT Agent : l’héritier d’Operator avec le navigateur virtuel
La trajectoire d’OpenAI sur le computer-use est plus ancienne. Operator a été lancé en janvier 2025 comme research preview pour les abonnés ChatGPT Pro américains, basé sur un modèle baptisé CUA (Computer-Using Agent) qui combine les capacités visuelles de GPT-4o avec un apprentissage par renforcement pour interagir avec les interfaces graphiques. Le 17 juillet 2025, OpenAI a fusionné Operator dans ChatGPT sous le nom « Agent Mode ». Le site operator.chatgpt.com est sunsetté. L’expérience standalone a été remplacée par une fonction intégrée directement dans ChatGPT.
ChatGPT Agent fusionne les forces d’Operator (cliquer, scroller, taper sur le web) et de Deep Research (synthétiser l’information), dans un « système agentique unifié ». Il dispose de son propre ordinateur virtuel sur les serveurs OpenAI, enchaîne raisonnement et action, et délivre des livrables éditables — deck PowerPoint, tableur Excel, rapport. Les benchmarks annoncés : 68,9 % sur BrowseComp (record), gains significatifs sur WebArena et sur l’évaluation interne de modélisation d’analyste banquier d’investissement.
Le mode agent est disponible pour les abonnés Plus, Pro, Business et Enterprise. Il se sélectionne via le menu « agent » ou la commande /agent. Les tâches complètent typiquement en 5 à 30 minutes selon la complexité. L’agent peut récupérer des données de connecteurs tiers (Gmail, Outlook, Google Drive), accéder à des sites derrière authentification en mode « takeover » (l’utilisateur se connecte, l’agent prend ensuite le relais), et demander des confirmations avant toute action irréversible.
Différence fondamentale avec Claude Computer Use : l’agent OpenAI tourne dans un ordinateur virtuel côté serveur, pas sur la machine de l’utilisateur. Tout se passe dans le cloud. Pas d’accès au système de fichiers local, pas d’interaction avec les applications desktop installées, pas de téléchargement réel sur le disque. L’approche est plus sécurisée mais plus limitée — ChatGPT Agent reste essentiellement un agent web, pas un pilote complet de PC.
Deux modèles s’affrontent. D’un côté l’approche cloud (OpenAI, Genspark, Manus) : l’agent tourne sur les serveurs de l’éditeur dans un environnement isolé, manipule un navigateur virtuel, et renvoie les résultats. Sécurité forte par design, pas de risque pour la machine utilisateur, mais aucun accès aux fichiers ni aux apps locales. De l’autre l’approche locale (Anthropic via Cowork, Microsoft avec Fara-7B, Z.ai avec GLM-PC) : l’agent vit sur votre ordinateur, voit tout, peut manipuler toutes les applications. Puissance maximale mais surface d’attaque également maximale. Le compromis hybride d’Anthropic — Cowork tourne dans une VM isolée sur la machine locale — est probablement la direction où la catégorie converge. Microsoft pousse au bout avec Fara-7B qui tourne entièrement on-device, sans même remonter les screenshots sur leurs serveurs.
Fara-7B : l’agent Microsoft qui tourne entièrement sur votre PC
Microsoft a dévoilé Fara-7B le 24 novembre 2025, sous licence MIT sur Hugging Face et Microsoft Foundry. Première différence qui saute aux yeux : seulement 7 milliards de paramètres, là où Claude Opus et GPT-5.4 en manipulent des centaines de milliards. Fara-7B est un « Small Language Model » (SLM) spécialisé computer-use, construit sur Qwen2.5-VL-7B et fine-tuné par Microsoft avec une pipeline de données synthétiques de 145 000 trajectoires.
Ce qui change tout : la taille réduite permet une exécution entièrement locale sur les Copilot+ PCs Windows 11. Microsoft publie une version quantifiée et optimisée silicium pour les NPU des machines Copilot+. Les screenshots, le raisonnement et les actions restent sur l’appareil — ce que Microsoft appelle la « pixel sovereignty ». Aucune donnée ne remonte aux serveurs Microsoft. L’argument de Yash Lara, Senior PM Lead chez Microsoft Research, est direct : cette approche répond aux exigences de secteurs régulés comme HIPAA (santé) ou GLBA (finance).
Les benchmarks sont impressionnants pour cette taille. Fara-7B atteint 73,5 % sur WebVoyager, dépassant GPT-4o (65,1 %) et UI-TARS-1.5-7B (66,4 %) alors qu’il tourne en local. Plus frappant encore : il complète les tâches en environ 16 étapes en moyenne, contre 41 pour UI-TARS-1.5-7B à taille identique. Coût d’exécution annoncé : quelques centimes par tâche, bien en-dessous des frontier models cloud.
Fara-7B opère en pure vision. Il analyse les screenshots, prédit des coordonnées pixels, et ne s’appuie ni sur les accessibility trees ni sur le HTML. Cette approche le rend indifférent aux sites qui obfusquent leur DOM ou qui changent souvent leur code. Le revers : une limite stricte à ce qui est visible à l’écran. L’agent intègre les « Critical Points », des moments où il s’arrête pour demander confirmation avant toute action irréversible (saisie d’informations personnelles, achats, envois d’emails, connexions à des comptes). Taux de refus sur les tâches dangereuses annoncé : 82 %.
Microsoft positionne Fara-7B comme une release expérimentale, à utiliser dans un environnement sandboxé. Mais le modèle est gratuit, MIT, et tourne sur du matériel grand public. C’est l’option la plus accessible pour qui veut expérimenter le computer-use sans abonnement mensuel.
GLM-PC et l’offensive chinoise
Z.ai (la nouvelle marque de ZhipuAI) a sorti GLM-PC fin 2024 puis régulièrement itéré. L’agent est disponible sur Windows et macOS, avec une version beta Linux. Il s’appuie sur le modèle CogAgent, un agent GUI open-source également publié par Z.ai, qui opère uniquement par captures d’écran sans accessibility tree — même philosophie pure vision que Fara-7B.
GLM-PC a été positionné comme agent « pour humains qui dorment » : l’utilisateur configure une tâche le soir, l’agent l’exécute la nuit et livre le résultat au réveil. Typologie de tâches : veille concurrentielle sur plusieurs sites, remplissage de rapports, mise à jour de fichiers Excel depuis plusieurs sources, extraction de données. La version open-source CogAgent-9B permet aux équipes techniques chinoises et internationales de construire leurs propres variantes sur des domaines spécifiques.
En dehors du marché chinois, GLM-PC reste peu médiatisé en Europe et aux États-Unis. Le modèle est pourtant l’un des plus matures de la catégorie computer-use, avec une approche stratégique différente des éditeurs occidentaux — l’autonomie complète plutôt que la validation systématique. Pour des usages de veille, scraping et traitement batch, il peut être pertinent. Pour des tâches sensibles, l’argument de souveraineté des données pèse dans l’autre sens si l’utilisateur est européen ou américain.
Les outsiders à connaître
D’autres acteurs occupent des niches. Writer Action Agent (États-Unis) vise le marché entreprise avec une spécialisation sur l’analyse de documents métier et l’exécution de workflows dans les logiciels d’entreprise (SAP, Oracle, Workday). Score record de 10,4 % sur le benchmark CUB fin 2025, le plus élevé du marché à date sur ce benchmark particulièrement difficile. OpenClaw reste le framework open-source le plus cité pour construire ses propres agents computer-use, avec un écosystème de « Claws » (plugins) qui connectent l’agent aux logiciels tiers. Manus (Butterfly Effect, Chine) combine browser et computer-use dans une approche super-agent cloud, avec 57,7 % sur GAIA.
Comparatif : les trois leaders en face à face
| Critère | Claude Computer Use 🇺🇸 | ChatGPT Agent 🇺🇸 | Fara-7B 🇺🇸 |
|---|---|---|---|
| Lancement | 23 mars 2026 (preview) | 17 juillet 2025 (post-Operator) | 24 novembre 2025 |
| Exécution | Locale (VM sur machine) | Cloud (serveurs OpenAI) | 100 % locale on-device |
| Plateformes | macOS (Windows bientôt) | Tous OS via web | Windows 11 Copilot+ PCs |
| Prix | 20 $/mois (Pro) | 20 $/mois (Plus) | Gratuit (MIT) |
| Approche | Connector-first, fallback écran | Navigateur virtuel cloud | Pure vision screenshots |
| Accès fichiers locaux | Oui (dossiers désignés) | Non | Oui |
| Benchmark phare | Integration Cowork/Code | 68,9 % BrowseComp (SOTA) | 73,5 % WebVoyager |
Les cas d’usage qui marchent vraiment aujourd’hui
Malgré l’emballement, tous les cas d’usage ne sont pas également mûrs. Ceux qui fonctionnent bien en avril 2026 partagent trois caractéristiques : tâches répétitives, sites web bien structurés, enjeux limités si erreur.
Le premier est la veille et le monitoring. Surveiller les prix de concurrents sur dix e-commerces, extraire les nouveaux articles d’une liste de publications, vérifier les mises à jour réglementaires sur des sites administratifs. L’agent parcourt la liste toutes les nuits et délivre un rapport synthétique. Les trois leaders font cela correctement.
Le deuxième est la préparation administrative. Remplir des formulaires longs à partir d’informations structurées, consolider des devis fournisseurs dans un tableau, générer une liste de courses depuis une recette et l’envoyer à Instacart. ChatGPT Agent excelle sur ce créneau avec son navigateur virtuel.
Le troisième est le workflow développeur. Ouvrir un IDE, lancer des tests, soumettre une PR, vérifier les logs. Claude Computer Use combiné à Claude Code est la configuration la plus aboutie pour cet usage.
Ce qui ne marche pas bien : les tâches longues avec des dizaines de clics sur des interfaces propriétaires peu standards, les sites e-commerce complexes (l’affaire Amazon vs Perplexity rend cela encore plus incertain juridiquement), et tout ce qui touche aux données sensibles. Anthropic et Microsoft recommandent explicitement d’éviter les données bancaires, médicales et juridiques pendant la phase actuelle.
Les vrais risques à connaître avant d’activer un agent computer-use
Un agent qui peut tout voir et tout faire sur votre machine pose trois questions de sécurité majeures. D’abord le prompt injection : une page web malveillante, un email piégé, un document PDF peuvent contenir des instructions cachées qui détournent l’agent. OpenAI a publié en mars 2026 un billet détaillé sur son adversarial training dédié, Anthropic communique régulièrement sur ses chiffres de réduction d’attaques, mais aucun éditeur ne revendique zéro.
Ensuite les erreurs d’exécution. L’agent peut cliquer au mauvais endroit, supprimer le mauvais fichier, envoyer un mail à la mauvaise personne. Les trois éditeurs demandent validation avant les actions irréversibles, mais cette validation suppose que l’utilisateur lise vraiment le prompt — en pratique, après quelques heures d’usage, l’approbation devient automatique. Le concept « approval fatigue » est reconnu par Microsoft lui-même comme un défi de design.
Enfin le périmètre d’accès. Claude Cowork accède aux dossiers que vous désignez, ChatGPT Agent opère en cloud, Fara-7B tourne on-device. Lisez bien ce que chaque outil peut voir avant de l’activer. La règle simple : jamais d’agent computer-use sur la machine principale si elle contient vos documents professionnels sensibles. Préférez une machine secondaire, un profil utilisateur dédié ou une VM isolée.
Quel agent choisir selon votre contexte
Pour les développeurs et consultants tech déjà dans l’écosystème Anthropic, Claude Computer Use via Cowork est la configuration la plus cohérente. L’intégration avec Claude Code, l’approche connector-first qui privilégie les API stables, et la VM isolée qui protège le système principal forment un ensemble solide. Budget : 20 dollars/mois minimum sur Pro.
Pour les équipes qui veulent tester le computer-use sans risque pour leur machine et qui ont déjà un abonnement ChatGPT, Agent Mode est le choix naturel. Le navigateur virtuel cloud limite les possibilités mais élimine les risques d’exécution locale. Parfait pour de la veille, des recherches, de la génération de livrables.
Pour les utilisateurs soucieux de souveraineté et de coûts, qui disposent d’un PC Copilot+ Windows 11, Fara-7B est une opportunité à saisir. Gratuit, local, MIT, benchmarks impressionnants. L’ergonomie et la documentation sont encore rudimentaires — c’est un modèle expérimental — mais pour une équipe technique ou un indépendant avec des compétences Python, c’est le meilleur rapport qualité-prix-souveraineté de la catégorie.
Ce que cela change pour vous
Les agents computer-use sont la catégorie la plus puissante de l’IA agentique. Ils incarnent la vision à terme : une IA qui fait vraiment votre travail, pas qui le décrit. Mais la catégorie est jeune, avec des bugs, des limites de fiabilité, et un cadre de sécurité encore immature. Anthropic, OpenAI et Microsoft le disent explicitement dans leur communication : research preview, experimental release, pas de données sensibles.
La recommandation en avril 2026 : commencer par ChatGPT Agent pour tester le concept sans risque (cloud, pas d’accès local), puis passer à Claude Computer Use si vous avez besoin de manipuler vos propres fichiers, ou à Fara-7B si vous voulez expérimenter le local complet. Dans tous les cas, utiliser un profil ou une machine dédiée, ne jamais activer sur des comptes sensibles, valider chaque action critique.
La suite est prévisible. Windows arrive sur Claude Computer Use d’ici l’été 2026. Les trois éditeurs convergent vers une VM locale isolée comme standard. Les benchmarks grimpent chaque trimestre. D’ici fin 2026, cette catégorie sera probablement la première à toucher le grand public au-delà des early adopters tech.
Le computer-use est la catégorie la plus puissante, mais pas la seule. La suite explore les agents mobiles, les super-agents cloud et les benchmarks qui permettent de les comparer.