START

Guide IA : Série Ollama #2

Installer Ollama et lancer son premier modèle en 5 minutes

Cinq minutes, c’est le temps qu’il faut en 2026 pour transformer votre ordinateur en serveur d’intelligence artificielle privée. Deux minutes pour installer Ollama, trente secondes pour télécharger un premier modèle, deux minutes pour comprendre les commandes qui comptent. Ce guide détaille l’installation sur macOS, Windows et Linux — en ligne de commande ou via l’application desktop — avec les pièges qui bloquent 80 % des débutants et comment les éviter. À la fin, vous aurez un LLM qui tourne sur votre machine, prêt à répondre à vos questions sans qu’un seul octet ne quitte votre disque dur.

Dans le premier article de la série, on a posé le contexte : pourquoi Ollama, pour qui, contre qui. Ici, on passe à la pratique. À la fin de cet article, vous aurez Ollama installé, un premier modèle téléchargé, et les commandes de base en main pour utiliser votre assistant IA local au quotidien. Les articles suivants creuseront le choix des modèles, la quantization, le hardware, le multimodal, l’API et le stack complet.

Choisir entre application desktop et ligne de commande

Depuis 2025, Ollama propose deux interfaces. Les deux peuvent coexister sur la même machine et partagent le même moteur.

L’application desktop (macOS et Windows) est arrivée en 2025. Elle offre une interface graphique pour télécharger des modèles, dialoguer en chat, gérer les sessions, et accéder aux paramètres sans taper une commande. C’est le choix évident si vous préférez cliquer que taper. Elle démarre automatiquement en arrière-plan et place une icône dans la barre des menus (macOS) ou la zone de notification (Windows).

La ligne de commande (ollama) reste l’interface canonique, disponible partout — y compris sur Linux et sur serveur. Elle est plus rapide pour les utilisateurs à l’aise avec le terminal, et elle est indispensable pour scripter, automatiser, ou exposer Ollama à d’autres outils (VS Code, Claude Code, n8n).

En pratique, la plupart des utilisateurs finissent par utiliser les deux : l’app desktop pour les conversations rapides, le CLI pour tout le reste. L’installation de l’app inclut systématiquement le CLI — vous n’avez donc rien à installer séparément.

Installation sur macOS

Requiert macOS 14 Sonoma ou ultérieur. Sur Apple Silicon (M1, M2, M3, M4, M5), Ollama utilise Metal et la mémoire unifiée — aucune configuration supplémentaire à faire.

Télécharger le DMG

Rendez-vous sur ollama.com/download et cliquez sur Download for macOS. Vous obtenez un fichier Ollama.dmg d’environ 500 Mo.

Installer l’application

Double-cliquez sur le DMG, puis glissez l’icône Ollama dans le dossier Applications. Au premier lancement, macOS demande une confirmation (application téléchargée depuis internet). L’app s’installe aussi automatiquement le CLI dans /usr/local/bin/ollama — elle demandera la permission la première fois.

Vérifier l’installation

Ouvrez le Terminal (Applications > Utilitaires > Terminal) et tapez ollama --version. Une version affichée confirme que tout fonctionne. L’icône lama dans la barre des menus confirme que le serveur Ollama tourne en arrière-plan.

Alternative : installation via Homebrew

Si vous utilisez déjà Homebrew, brew install ollama fait le travail. Pour démarrer le service en arrière-plan sans l’app graphique : brew services start ollama.

Installation sur Windows

Requiert Windows 10 ou 11 (64 bits). Support natif ARM64 depuis 2026 — les anciennes versions tournaient en émulation x86 avec une pénalité de performance, c’est désormais réglé.

Télécharger l’installeur

Sur ollama.com/download, cliquez sur Download for Windows. Vous obtenez OllamaSetup.exe. Windows Defender peut afficher un avertissement à cause de la fraîcheur de la signature : cliquez sur Informations complémentaires puis Exécuter quand même. Ollama est un logiciel open source signé par Ollama Inc.

Lancer l’installeur

Double-cliquez sur le .exe et suivez les étapes. L’installeur configure automatiquement le PATH système pour rendre la commande ollama accessible depuis n’importe quel terminal (PowerShell, cmd, Windows Terminal).

Vérifier l’installation

Ouvrez PowerShell et tapez ollama --version. Si la commande n’est pas reconnue, ouvrez une nouvelle fenêtre PowerShell (le PATH se met à jour à l’ouverture d’une nouvelle session). Une icône Ollama apparaît dans la zone de notification Windows.

GPU NVIDIA : vérifier les drivers

Si vous avez une carte NVIDIA, Ollama l’utilisera automatiquement. Vérifiez que le driver est à jour (531 minimum, 550+ recommandé) via GeForce Experience ou le site NVIDIA. Tapez nvidia-smi dans PowerShell pour confirmer que la carte est détectée.

Installation sur Linux

Distribution supportée : Ubuntu, Debian, Fedora, CentOS, RHEL, Arch, et la plupart des dérivés. L’installation automatique crée un service systemd qui démarre au boot.

# Installation en une commande
curl -fsSL https://ollama.com/install.sh | sh

# Vérifier que le service tourne
systemctl status ollama

# Vérifier la version
ollama --version

Le script télécharge le binaire, l’installe dans /usr/local/bin/, crée un utilisateur système ollama, configure le service systemd, et le démarre. Pour les configurations avancées (changer le port, activer l’accès réseau, personnaliser le dossier des modèles), il faudra éditer /etc/systemd/system/ollama.service — on y reviendra dans l’article sur l’API.

GPU NVIDIA sur Linux

Le script d’installation détecte automatiquement la présence d’une carte NVIDIA et active CUDA si les drivers sont présents. Prérequis : driver 531 minimum, CUDA 11.8+. Vérifiez avec nvidia-smi. Si Ollama ne détecte pas votre GPU malgré des drivers à jour, un redémarrage du service (sudo systemctl restart ollama) règle 90 % des cas.

GPU AMD sur Linux

Support ROCm 6.x en 2026, Linux uniquement. Cartes supportées : RX 7000/9000 series et Radeon Pro. L’ajout de l’utilisateur aux groupes render et video est géré automatiquement par le script d’installation. À noter : AMD sur Windows n’est pas supporté nativement par Ollama en 2026 — un mode Vulkan expérimental existe mais reste en retrait.

Installation via Docker (toutes plateformes)

L’image Docker officielle ollama/ollama est utile pour les environnements containerisés, les serveurs partagés, ou les tests isolés.

# CPU uniquement
docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

# Avec GPU NVIDIA (nécessite nvidia-container-toolkit)
docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

# Lancer une commande dans le conteneur
docker exec -it ollama ollama run llama4:8b

Le volume ollama:/root/.ollama persiste les modèles téléchargés entre les redémarrages du conteneur. Sans ce volume, vous retéléchargerez les modèles à chaque fois — et certains font 40 Go.

Lancer votre premier modèle

Une seule commande pour télécharger et lancer un modèle.

# Un modèle léger qui tourne partout (2 Go)
ollama run gemma3

# Un modèle équilibré (5 Go, recommandé pour débuter)
ollama run llama4:8b

# Un modèle pour le code (5 Go)
ollama run qwen3-coder:7b

Au premier lancement, Ollama télécharge le modèle depuis ollama.com/library. Comptez 1 à 10 minutes selon votre connexion et la taille du modèle. Les fois suivantes, le modèle se lance en quelques secondes depuis le cache local.

Une fois téléchargé, vous êtes dans une session interactive. Tapez votre question, Ollama répond. Quelques exemples pour vérifier que tout fonctionne :

# Dans la session interactive
>>> Bonjour, présente-toi en 2 phrases.

>>> Résume la Révolution française en 5 points.

>>> Écris une fonction Python qui calcule
    les nombres de Fibonacci.

# Pour quitter la session
>>> /bye

Quel modèle choisir pour débuter ? La règle rapide, qu’on détaillera dans l’article suivant :

8 Go de RAM, pas de GPU — gemma3:1b ou qwen3:0.6b. Léger, rapide, suffisant pour comprendre.
16 Go de RAM ou Mac M1-M4 — llama4:8b ou mistral-small:7b. Le vrai point d’équilibre qualité/vitesse.
32 Go+ de RAM ou GPU 16 Go+ VRAM — qwen3.5:32b ou llama4:70b-q4_K_M. Qualité proche du cloud.

Les commandes qui comptent vraiment

Dix commandes suffisent pour 95 % de l’usage quotidien. Elles se tapent toutes dans un terminal — PowerShell, cmd, Terminal macOS ou shell Linux, peu importe.

Commande	Ce qu’elle fait
`ollama run <modèle>`	Télécharge (si absent) et lance un modèle en mode interactif
`ollama pull <modèle>`	Télécharge un modèle sans le lancer (utile pour préparer)
`ollama list`	Liste tous les modèles installés sur votre disque
`ollama ps`	Affiche les modèles actuellement chargés en mémoire
`ollama show <modèle>`	Affiche les infos d’un modèle (taille, paramètres, license)
`ollama rm <modèle>`	Supprime un modèle du disque
`ollama cp <source> <dest>`	Copie un modèle (utile pour créer un variant)
`ollama serve`	Démarre le serveur manuellement (utile si pas d’app desktop)
`ollama stop <modèle>`	Décharge un modèle de la mémoire sans le supprimer
`ollama --help`	Affiche toutes les commandes disponibles

Dans une session interactive, quelques raccourcis méritent d’être connus. /bye pour quitter. /clear pour effacer la conversation en cours (le modèle oublie tout le contexte). /set parameter temperature 0.7 pour ajuster un paramètre à la volée. /show info pour afficher les paramètres du modèle en cours. /? pour la liste complète.

Dépannage : les 5 erreurs les plus fréquentes

Voici ce qui bloque 80 % des débutants — et la solution dans chaque cas.

« ollama : commande introuvable »

Le PATH n’est pas à jour. Sur macOS/Linux : source ~/.zshrc (ou ~/.bashrc) ou ouvrez un nouveau terminal. Sur Windows : fermez et rouvrez PowerShell. Si la commande reste introuvable après redémarrage, vérifiez que l’app Ollama est bien lancée (icône en barre des menus / zone de notification).

« model requires more system memory than available »

Le modèle est trop gros pour votre RAM. Solutions : utilisez une version plus quantifiée (on expliquera ça en détail dans l’article 4), utilisez un modèle plus petit, ou fermez les applications gourmandes en RAM avant de lancer Ollama. Règle de pouce : un modèle en Q4 a besoin d’environ 1,2 fois sa taille en Go de RAM libre.

Téléchargement qui s’interrompt

Depuis Ollama 0.5, les téléchargements sont résumables : relancez simplement ollama pull <modèle>, il reprend où il s’était arrêté. Si le téléchargement reste bloqué, vérifiez votre connexion et que le port de sortie 443 (HTTPS) n’est pas bloqué par un pare-feu d’entreprise.

Inférence très lente (2-5 tokens/seconde)

C’est normal sur CPU seul avec un modèle 7B. Pour accélérer : utilisez un modèle plus petit (1-3B), activez le GPU si vous en avez un, ou réduisez la fenêtre de contexte. Sur Mac M1-M4, la mémoire unifiée apporte un gain important — comptez 20-40 tokens/seconde sur un MacBook Pro M3 avec un modèle 8B.

GPU NVIDIA non détecté

Tapez nvidia-smi : si ça ne renvoie rien, votre driver est trop ancien ou absent. Installez le driver 550+ depuis le site NVIDIA. Redémarrez la machine, relancez le service Ollama (sudo systemctl restart ollama sur Linux, ou relancez l’app sur Windows). Vérifiez avec ollama ps qu’un modèle chargé utilise bien le GPU (colonne PROCESSOR doit afficher GPU, pas CPU).

Et maintenant ?

Vous avez Ollama installé, un premier modèle qui tourne, les commandes de base en main. Vous pouvez dès maintenant utiliser votre LLM local pour tout ce que vous feriez avec ChatGPT sur des données sensibles : résumer un document, analyser un contrat, brainstormer, traduire, générer du code, reformuler un email.

Mais un seul modèle, c’est un point de départ. Le vrai levier de performance avec Ollama, c’est d’avoir le bon modèle pour le bon usage : Llama 4 pour la polyvalence, Codestral pour le code, Qwen pour le multilingue et le raisonnement, DeepSeek R1 pour les problèmes logiques, Gemma pour la vitesse. C’est exactement ce qu’on traite dans le prochain article — une matrice complète pour choisir, comparer et switcher entre modèles selon vos besoins.

Aller plus loin

Tous nos guides pour maîtriser l’IA

Claude, ChatGPT, Gemini, Mistral, Ollama — des guides complets pour devenir performant sur chaque outil IA majeur.

Découvrir les guides IA ↗

Mise à jour : avril 2026