IA locale : testez un modèle open source dans votre navigateur

Plus bas dans cette page, un modèle de langage open source se télécharge puis s’exécute entièrement sur votre machine. Votre puce graphique fait tout le travail. Une fois chargé, vos messages ne transitent par aucun serveur — coupez votre connexion, la conversation continue. Le test le plus simple qui existe avant de se lancer dans l’IA locale.

L’IA locale, c’est la promesse d’un assistant qui tourne chez vous. Vos questions, vos documents et les réponses du modèle ne quittent jamais votre machine. Pour un professionnel soumis au RGPD, pour quiconque refuse d’envoyer ses idées dans le cloud, l’argument est massif. Reste la vraie question, celle qu’on se pose avant d’installer quoi que ce soit : qu’est-ce que ça vaut, concrètement ?

Cette page vous donne la réponse en cinq minutes, sans rien installer. L’outil ci-dessous charge un modèle open source compact : Llama 3.2 de Meta, Gemma 2 de Google ou Qwen 2.5. Il l’exécute dans votre navigateur via WebGPU, la technologie qui donne aux pages web l’accès à votre puce graphique. Ainsi, vous discutez avec une IA qui calcule réellement sur votre ordinateur. Puis vous jugez sur pièces : la vitesse, la qualité du français, les erreurs.

Comment fonctionne ce test d’IA locale

Un téléchargement, une seule fois — 0,4 Go (Très léger), 0,9 Go (Rapide), 1,9 Go (Gemma 2). Le modèle reste ensuite en cache dans votre navigateur : les visites suivantes se lancent en quelques secondes. Prévoyez le wifi plutôt que la 4G.
Une exécution 100 % locale — moteur et poids du modèle viennent de dépôts publics, une seule fois au chargement. Ensuite, plus rien ne sort. Vos messages ne sont envoyés ni à blog-ia.com ni à aucun serveur. La preuve tient en un geste : modèle chargé, coupez votre connexion et continuez la conversation.
Un navigateur récent requis — WebGPU fonctionne sur Chrome et Edge récents, sur ordinateur. Le support s’étend également à Safari, Firefox et aux mobiles selon les appareils. Si le vôtre est incompatible, la page vous le dira clairement.
Une vitesse qui dépend de votre machine — après chaque réponse, l’outil affiche le débit réel en tokens par seconde. Ce chiffre est votre premier diagnostic : il dit ce que votre matériel vaut pour l’IA locale.

Trois questions à poser pour un test honnête

Une IA locale compacte brille et trébuche à des endroits précis. Alors posez-lui ces trois questions dans l’ordre : chacune teste une capacité différente.

Une explication générale

Demandez par exemple : « Explique-moi ce qu’est une IA locale en trois phrases. » C’est le terrain où les petits modèles s’en sortent le mieux. Les notions générales sont bien présentes dans leurs données d’entraînement. Observez la clarté du français et la tenue de la consigne des trois phrases.

Un fait précis et vérifiable

Demandez ensuite : « Dans quel département se trouvent les alignements de Carnac ? » La bonne réponse est le Morbihan. Lors de nos tests, l’un des modèles les a situés en Haute-Vienne, avec un aplomb parfait. C’est l’hallucination en démonstration vivante. Un petit modèle compressé sait moins de choses, et il ne sait pas toujours qu’il ne sait pas.

Une tâche sur votre texte

Collez enfin un de vos paragraphes et demandez : « Résume ce texte en deux phrases » ou « Corrige les fautes ». Travailler sur un texte fourni est le vrai point fort des modèles locaux. Le contenu est sous leurs yeux, alors le risque d’invention chute. C’est aussi l’usage le plus pertinent au quotidien, puisque vos textes restent chez vous.

L’outil est juste en dessous. Choisissez le modèle Rapide pour un premier essai, ou le Très léger si votre machine est ancienne. Puis rechargez la page pour tester Gemma 2.

Labo IA — Expérience interactive

IA locale : discutez avec un modèle qui tourne dans votre navigateur

Un modèle de langage open source va se télécharger puis s’exécuter directement sur votre machine, via votre puce graphique. Une fois chargé, vos messages et ses réponses ne transitent par aucun serveur. Coupez votre connexion : la conversation continue.

Exécution 100 % locale — le modèle est téléchargé une fois depuis un CDN, puis tout se passe sur votre machine.

Votre navigateur ne prend pas en charge WebGPU

Cette expérience repose sur WebGPU, la technologie qui donne au navigateur accès à la puce graphique. Elle fonctionne sur les versions récentes de Chrome et Edge sur ordinateur. Safari et Firefox la prennent en charge selon votre système.

Réessayez depuis un autre navigateur ou après une mise à jour. Le reste de la page se lit normalement. Et la démonstration du second cerveau fonctionne, elle, sur tous les navigateurs.

Choisissez votre modèle

Rapide — Llama 3.2 1B Téléchargement d’environ 0,9 Go. Le plus léger : réponses vives, qualité de base. Recommandé pour un premier essai. Équilibré — Gemma 2 2B Téléchargement d’environ 1,9 Go. Le modèle ouvert de Google : meilleur français, machine récente conseillée. Très léger — Qwen 2.5 0,5B Téléchargement d’environ 0,4 Go. Dépannage uniquement, qualité minimale : à choisir si les deux autres échouent chez vous.

Le téléchargement n’a lieu qu’une fois. Le modèle reste ensuite en cache dans votre navigateur, et les visites suivantes se lancent en quelques secondes. Les poids du modèle proviennent des dépôts officiels du projet open source WebLLM (MLC), hébergés sur Hugging Face. Le moteur d’exécution est chargé depuis le CDN jsDelivr. Rien n’est envoyé vers blog-ia.com ni vers aucun autre serveur pendant la conversation.

Modèle réduit et exécuté localement : les réponses peuvent contenir des erreurs, davantage qu’avec les grands modèles en ligne. Pour comprendre la technique : notre guide RAG. Pour la méthode des notes liées : la démonstration du second cerveau.

Ce que nos tests d’IA locale ont donné

Nous avons mené le test complet sur deux machines. La première est volontairement modeste, avec une puce graphique intégrée — le matériel de la plupart des gens. La seconde est plus récente : ses débits tournaient autour de 9 tokens par seconde. Les chiffres et constats qui suivent sont les nôtres. Les vôtres s’affichent dans l’outil après chaque réponse.

Llama 3.2 1B (Rapide) — environ 5 tokens par seconde sur la machine modeste, fluide sur la récente. La bonne surprise du test. Il sait dire « je ne sais pas » avec un certain humour et développe ses réponses avec des exemples. Il se trompe en calcul, puis comprend la correction qu’on lui apporte. On se demande comment tout cela tient dans 900 Mo. Le bon choix pour un premier contact.
Gemma 2 2B (Équilibré) — environ 2 tokens par seconde sur la machine modeste, où l’attente se sent ; à l’aise sur la récente. Compréhension solide, réponses pertinentes, français soigné. On s’est même dit qu’il y aurait moyen de travailler avec. Machine récente conseillée.
Qwen 2.5 0,5B (Très léger) — il tourne presque partout, et c’est son seul mérite : erreurs de calcul, contresens sur les textes fournis, fautes de français. À réserver au cas où les deux autres échouent sur votre machine. Il prouve alors que le principe fonctionne chez vous, rien de plus.
Les erreurs font partie du tableau — c’est lors de ces tests que Gemma 2 a déplacé les alignements de Carnac en Haute-Vienne. Un grand modèle en ligne fait aussi des erreurs, puis un petit modèle compressé en fait davantage. Retenez la règle d’or : vérifier tout fait précis, IA locale ou pas.

Pourquoi le chargement peut échouer chez vous

WebGPU est une technologie récente, et son comportement varie selon les machines. Nos propres tests ont rencontré trois obstacles, alors autant vous les donner avec leur solution. L’outil affiche de toute façon un message explicite pour chacun.

« Quota exceeded » ou espace insuffisant — le navigateur refuse d’écrire le modèle dans son cache. Cause classique : la navigation privée, dont le quota de stockage est minuscule. Repassez en fenêtre normale, vérifiez qu’il reste plusieurs Go libres sur le disque, puis relancez. L’outil vérifie désormais l’espace disponible avant de lancer le moindre téléchargement.
Le modèle se charge puis « se perd » — sur certaines puces graphiques intégrées, le pilote décroche en cours de réponse. L’outil recharge alors le modèle depuis le cache. Si nécessaire, il bascule sur une variante de compatibilité, plus lourde mais acceptée par davantage de cartes. Si le système a réinitialisé le pilote, fermez complètement le navigateur, rouvrez-le et relancez : tout repart du cache.
La puce refuse le modèle dès le départ — fréquent sur mobile : la compilation échoue avant même le premier message. Là encore, l’outil enchaîne seul sur la variante de compatibilité. Si même celle-ci échoue, votre appareil n’est simplement pas prêt pour l’IA locale dans le navigateur. Réessayez alors depuis un ordinateur récent.

Deux réglages de cette démo à connaître avant de juger

Cette démonstration est volontairement bridée sur deux points, à garder en tête pour interpréter vos résultats. Une installation locale complète lève ces deux limites.

La fenêtre de contexte est limitée à 2 048 tokens — environ 1 500 mots de conversation. C’est un choix délibéré. Une fenêtre réduite mobilise deux fois moins de mémoire graphique, ce qui évite les plantages sur les machines modestes. La conséquence : la démo n’avalera pas un document de dix pages. Une vraie installation locale ouvre des fenêtres bien plus larges, à la mesure de votre matériel.
Le modèle reçoit une consigne en français — répondre en français, et admettre ses incertitudes plutôt que d’inventer. Le « je ne sais pas » que vous croiserez vient en partie de là. Ce choix a un coût : ces petits modèles, entraînés majoritairement en anglais, donnent un peu mieux dans cette langue. Nous assumons : la page mesure ce que vaut l’IA locale pour un usage francophone réel.

Ce que ce test prouve, et ce qu’il ne prouve pas

Soyons précis sur la portée de l’expérience. Vous testez ici des modèles de 0,5 à 2 milliards de paramètres, compressés pour tenir dans un navigateur. Ajoutez les deux réglages ci-dessus : c’est l’entrée de gamme de l’IA locale, dans une démo prudente. Son intérêt est de répondre en cinq minutes, sur votre machine, à la question « est-ce que le principe me convient ? ». Au programme : confidentialité réelle, fonctionnement hors ligne, vitesse mesurée sur votre matériel.

L’IA locale sérieuse commence un cran au-dessus, avec des outils gratuits comme Ollama ou LM Studio. Ils installent sur votre ordinateur des modèles de 7 à 30 milliards de paramètres, autrement plus capables. Ces modèles exploitent pleinement votre mémoire et votre carte graphique. Si le test de cette page vous a convaincu sur le principe, c’est l’étape suivante naturelle. Et si votre machine a peiné ici, vous savez à quoi vous en tenir avant d’investir du temps.

La suite au Labo : vos notes interrogées en local

Une IA locale prend toute sa valeur quand elle travaille sur vos contenus. Poser des questions à ses documents sans qu’ils quittent la machine : c’est le principe expliqué dans notre guide du RAG. Le Labo prépare exactement cela. Ce moteur local sera branché sur la démonstration du second cerveau, pour interroger ses notes en toute confidentialité. Vos notes y sont déjà — elles n’ont jamais quitté votre navigateur.

Enfin, retenez la démonstration d’ensemble. Un modèle d’IA complet vient de tourner sur votre machine, dans un simple onglet, sans compte ni abonnement. Imparfait, parfois lent, capable de déplacer Carnac en Haute-Vienne — et pourtant entièrement à vous. C’est l’état réel de l’IA locale grand public en 2026, et il progresse à chaque génération de modèles. Cette page sera mise à jour au fil des évolutions.

Continuer l’expérience

Testez la méthode du second cerveau en ligne

L’autre expérience du Labo : créez des notes liées et visualisez votre graphe de connaissances. C’est le terrain de jeu que l’IA locale interrogera bientôt.

Tester le second cerveau en ligne ↗

Mise à jour : 12 juin 2026