MODELS

Guide IA

Le Hub de modèles : naviguer, tester, télécharger

Deux millions de modèles sur le Hub. Face à cette masse, la plupart des utilisateurs tombent sur les trois mêmes grands noms et passent à côté des pépites qui feraient vraiment leur cas d’usage. Cet article vous apprend la méthode de recherche avancée, la lecture efficace d’une model card, la distinction entre safetensors et GGUF, le test dans le navigateur avant téléchargement, et les trois façons de récupérer un modèle en local. Après lecture, vous ne tapez plus « llama 7b » en vous fiant aux téléchargements.

Ouvrez huggingface.co/models, regardez la liste qui défile. Deux millions d’entrées, triées par téléchargements. Les dix premiers modèles concentrent à eux seuls plusieurs milliards de téléchargements cumulés. Les 0,01 % du haut du classement captent près de la moitié du trafic. Ce que cette statistique cache : la moitié des modèles du Hub ont moins de 200 téléchargements, et parmi eux se trouvent souvent des modèles spécialisés bien plus pertinents pour votre cas que la star du moment.

Savoir naviguer le Hub, c’est savoir contourner la gravité des téléchargements pour trouver le modèle qui correspond vraiment à votre tâche, votre matériel et votre contrainte de licence. C’est aussi savoir juger rapidement si un modèle mérite d’être téléchargé — ou si on passe au suivant.

La recherche par filtres, pas par téléchargements

L’interface du Hub propose deux modes de recherche. La barre en haut effectue une recherche textuelle classique sur les noms de modèles. Utile quand vous connaissez déjà ce que vous cherchez. Inutile quand vous explorez.

Le vrai outil, c’est la colonne de filtres à gauche sur la page huggingface.co/models. Elle est organisée par tâches (Tasks), librairies (Libraries), langues (Languages), licences (Licenses), autres paramètres. Chaque filtre affine la liste en temps réel. Commencez toujours par la tâche.

Filtrer par tâche

Les tâches regroupent les modèles par usage réel, pas par architecture. Les principales catégories pour un utilisateur francophone :

Text Generation — Les LLM génératifs. Llama, Mistral, Qwen, DeepSeek, Gemma. C’est là que se joue la bataille des modèles conversationnels.
Text Classification — Classer un texte (spam/non-spam, sentiment positif/négatif, catégorie de ticket support). Beaucoup plus léger qu’un LLM généraliste.
Translation — Modèles de traduction spécialisés. NLLB (Meta) et Helsinki-NLP couvrent la majorité des paires de langues.
Automatic Speech Recognition — Transcription audio. Whisper d’OpenAI domine, mais les variantes distillées sont souvent plus adaptées pour le temps réel.
Text-to-Image — Génération d’images. FLUX.1, Stable Diffusion 3, HiDream. Licences à vérifier systématiquement pour l’usage commercial.
Feature Extraction — Modèles d’embeddings pour la recherche sémantique et le RAG. BGE, E5, Sentence-Transformers.

Un conseil qui fait gagner des heures : quand plusieurs tâches collent à votre besoin, ne commencez pas par la plus spécifique. Text Generation avec un bon prompt fait souvent mieux qu’un modèle de classification fine-tuné médiocre. Mais pour les déploiements à haut volume, un modèle spécialisé de 110M paramètres reste infiniment plus rentable qu’un LLM de 70B.

Filtrer par librairie et par licence

Le filtre Libraries sert à ne voir que les modèles compatibles avec votre environnement de travail. Transformers pour Python, MLX pour Mac Apple Silicon, ONNX pour déploiement cross-framework, GGUF pour inférence locale via llama.cpp ou Ollama.

Le filtre Licenses est souvent négligé et c’est une erreur. Un modèle sous licence « non-commercial » ne peut pas aller en production dans votre SaaS, même si vous l’adorez. Les licences permissives à privilégier pour un usage commercial : Apache 2.0, MIT, BSD. La licence Llama est commerciale mais avec une clause spécifique au-delà de 700 millions d’utilisateurs actifs mensuels. Certains modèles portent une licence custom qu’il faut lire mot pour mot.

Lire une model card en 30 secondes

Chaque page de modèle s’ouvre sur sa model card. C’est l’équivalent d’un README mais pour un modèle d’IA. Elle devrait répondre à sept questions essentielles.

Quelle est l’architecture ?

Transformer décodeur (LLM génératif), encodeur (BERT), diffusion (image), MoE (mixture of experts). L’architecture détermine ce que le modèle sait faire et combien il consomme.

Combien de paramètres ?

7B, 24B, 70B, 405B. Un paramètre en FP16 = 2 octets. Un modèle 7B pèse donc ~14 Go en mémoire, un 70B environ 140 Go. La quantification divise ces chiffres par 2 à 8.

Sur quelles données entraîné ?

Web public, code GitHub, livres, dialogues synthétiques. Les modèles entraînés sur des données francophones explicites (comme Mistral ou Croissant-LLM) performent mieux sur le français.

Quels benchmarks ?

MMLU, HellaSwag, HumanEval, GSM8K. Regardez les scores dans le tableau de la model card. Les benchmarks ne disent pas tout, mais un modèle qui cache ses scores cache souvent autre chose.

Licence et restrictions ?

Affichée en haut à droite. Cliquez pour lire le texte complet avant tout usage commercial.

Quelle date de dernière mise à jour ?

Visible dans l’onglet « Files and versions ». Un modèle abandonné depuis 18 mois est probablement dépassé par une version plus récente.

Auteur et vérification ?

Les organisations vérifiées (Meta, Mistral, Google, Microsoft, Alibaba) ont un badge bleu. Préférez-les pour tout usage professionnel. Les contributeurs individuels peuvent produire d’excellents fine-tunes mais aussi héberger du code malveillant.

Les modèles « gated » demandent une demande d’accès

Certains modèles (Llama, Gemma, parfois Mistral Large) affichent un bandeau « You need to agree to share your contact information to access this model ». Cliquez, remplissez le formulaire, acceptez la licence. L’accès est accordé en quelques minutes à quelques heures. Sans cette étape, le téléchargement via Transformers renvoie une erreur 401 — même avec un token valide.

Tester un modèle dans le navigateur avant de le télécharger

Téléchargez un modèle de 40 Go pour constater qu’il ne fait pas ce que vous espériez : le gaspillage de temps et de bande passante est évitable. Hugging Face propose trois manières de tester avant de télécharger.

Le widget d’inférence intégré à la model card

La plupart des model cards affichent à droite un encadré « Inference API » avec un champ de saisie. Vous tapez une entrée (texte, image, audio selon la tâche), vous cliquez « Compute », le modèle répond en quelques secondes. Gratuit dans la limite d’un quota mensuel pour les utilisateurs connectés.

Ce widget a changé de nature en 2025. Hugging Face a lancé Inference Providers, un système qui route les requêtes vers des partenaires externes (Together AI, Fireworks, SambaNova, Replicate, Fal). Conséquence : un seul token Hugging Face donne accès à des dizaines de milliers de modèles via une API unifiée compatible OpenAI, avec facturation centralisée. C’est devenu la manière la plus simple de consommer n’importe quel modèle open source en production.

Les Spaces de démonstration

Beaucoup de modèles populaires ont un ou plusieurs Spaces associés. Un Space, c’est une petite application web (construite en Gradio ou Streamlit) qui permet une utilisation plus riche : upload d’image, paramètres avancés, comparaison côte-à-côte. Cherchez l’onglet « Spaces using this model » en bas de la model card.

Le playground de Chat

Pour les LLM conversationnels, la plateforme propose un chat playground sur huggingface.co/chat. Plusieurs modèles disponibles immédiatement : Llama 3 Instruct, Mistral, Qwen, DeepSeek. Utile pour comparer rapidement deux modèles sur la même question avant de décider lequel intégrer.

Les formats de modèles, expliqués pour choisir

Le même modèle (par exemple Llama 3 8B Instruct) est souvent disponible dans plusieurs formats de fichiers. Ce n’est pas de la duplication : chaque format est optimisé pour un cas d’usage différent.

Format	Extension	Cas d’usage principal	Outils compatibles
Safetensors	.safetensors	Usage Python avec Transformers, fine-tuning, chargement sécurisé	Transformers, Diffusers, PyTorch, JAX
GGUF	.gguf	Inférence locale sur CPU ou GPU grand public, avec quantification	llama.cpp, Ollama, LM Studio, vLLM
ONNX	.onnx	Déploiement cross-framework (C++, .NET, Java), edge computing	ONNX Runtime, TensorRT, OpenVINO
MLX	.safetensors (variante)	Inférence native sur Apple Silicon (M1 à M4)	mlx-lm, mlx-examples
PyTorch (legacy)	.bin / .pt / .pth	Anciens modèles avant 2024. À éviter pour téléchargement depuis sources non vérifiées.	PyTorch

Pourquoi safetensors a remplacé les fichiers .bin

Jusqu’en 2023, les modèles PyTorch utilisaient le format pickle (fichiers .bin ou .pt). Ce format permet d’embarquer du code Python dans le fichier, exécuté au chargement. Conséquence : télécharger un modèle depuis une source non vérifiée pouvait compromettre votre machine.

Hugging Face a développé safetensors pour régler ce problème. Le format stocke uniquement les poids, sans code. Le chargement est également plus rapide grâce au memory-mapping. Depuis 2024, safetensors est le format par défaut des bibliothèques Transformers et Diffusers. Tous les nouveaux modèles publiés par Meta, Google, Mistral, Alibaba l’utilisent.

GGUF, le format de l’IA locale

GGUF a été créé par Georgi Gerganov pour llama.cpp en 2023. Il regroupe dans un seul fichier les poids, le tokenizer et les métadonnées nécessaires à l’exécution. Son avantage décisif : il supporte nativement la quantification, c’est-à-dire la compression des poids en 8, 6, 5, 4, 3 ou 2 bits.

Un modèle Llama 3 8B en safetensors FP16 pèse 16 Go. Le même modèle en GGUF quantifié Q4_K_M pèse environ 4,5 Go. Tourne sur n’importe quel laptop récent avec 16 Go de RAM. C’est grâce à ce format qu’Ollama, LM Studio et Jan font tourner des LLM sur des machines ordinaires. Depuis l’arrivée de l’équipe ggml chez Hugging Face en février 2026, la conversion automatique safetensors → GGUF est devenue un objectif officiel de la plateforme.

Règle pratique : si vous fine-tunez ou entraînez, prenez du safetensors. Si vous déployez en local sans GPU serveur, prenez du GGUF.

Télécharger un modèle : les trois méthodes

Méthode 1 — Téléchargement manuel via le navigateur

Sur la page du modèle, onglet Files and versions. Cliquez sur le fichier voulu (config.json, tokenizer.json, model.safetensors). Téléchargement HTTP classique. Utile pour un test ponctuel, inadapté pour les modèles découpés en plusieurs fichiers (les gros modèles sont souvent split en model-00001-of-00004.safetensors, etc.).

Méthode 2 — La CLI `hf`

L’outil en ligne de commande officiel. Installation en une ligne, usage immédiat.

# Installation et authentification
pip install -U huggingface_hub
hf auth login

# Téléchargement d'un modèle complet
hf download mistralai/Mistral-7B-Instruct-v0.3

# Téléchargement d'un seul fichier
hf download TheBloke/Llama-2-7B-GGUF llama-2-7b.Q4_K_M.gguf

# Téléchargement dans un dossier précis
hf download mistralai/Mistral-Small-24B-Instruct \
  --local-dir ./models/mistral-small

Le modèle est stocké par défaut dans ~/.cache/huggingface/hub/. Le cache est partagé entre tous vos projets Python, ce qui évite les doublons. L’option --local-dir force un emplacement spécifique.

Méthode 3 — Chargement direct depuis Python

La méthode la plus courante en production. Transformers télécharge le modèle à la première utilisation et le met en cache pour les suivantes.

# Chargement d'un LLM en quelques lignes
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/Mistral-Small-24B-Instruct-2501"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype="auto",
    device_map="auto"
)

# Génération
inputs = tokenizer("Bonjour, peux-tu te présenter ?", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=200)
print(tokenizer.decode(outputs[0]))

Pour les modèles gated (Llama, Gemma), authentifiez-vous d’abord avec hf auth login et un token personnel généré sur huggingface.co/settings/tokens. Le token avec permission « read » suffit pour télécharger.

Pour l’IA locale : l’intégration Ollama

Si vous utilisez Ollama pour faire tourner des modèles en local, vous pouvez désormais pointer directement vers un modèle GGUF du Hub sans passer par la bibliothèque Ollama officielle :

# Syntaxe directe Hugging Face
ollama run hf.co/bartowski/Llama-3.3-70B-Instruct-GGUF:Q4_K_M

# Avec un quant différent
ollama run hf.co/unsloth/Mistral-Small-24B-Instruct-2501-GGUF:Q5_K_M

Ce support natif, annoncé fin 2024 et renforcé après l’arrivée de ggml chez Hugging Face, transforme le Hub en bibliothèque universelle pour l’IA locale.

La méthode pour trouver le bon modèle en cinq minutes

Étape 01

Définir la tâche

Génération texte, classification, traduction, transcription, embeddings. Filtre Task sur le Hub. Ne cherchez pas l’architecture, cherchez ce que le modèle doit faire.

Étape 02

Filtrer par contraintes

Licence compatible avec votre usage, langue supportée, taille qui tient sur votre matériel, date de publication récente. Trois filtres cumulatifs suffisent.

Étape 03

Tester, lire, décider

Widget d’inférence sur deux ou trois candidats. Lecture rapide des model cards. Choix final basé sur performance ressentie, pas uniquement sur les benchmarks.

Ce que vous saurez faire après cet article

Vous ne tapez plus de requête vague dans la barre de recherche en espérant tomber sur le bon modèle. Vous ouvrez huggingface.co/models, vous filtrez par tâche et licence, vous comparez trois candidats via le widget d’inférence, vous lisez la model card du gagnant, et vous téléchargez au format qui correspond à votre cas (safetensors pour Python, GGUF pour Ollama).

Pour la majorité des besoins courants — un assistant conversationnel francophone, un modèle de classification de tickets, un traducteur, un modèle d’embeddings pour du RAG — cette méthode suffit à trouver en quelques minutes un modèle adapté à votre matériel et à votre usage commercial.

L’article suivant va creuser l’autre grande colonne du Hub : les datasets. Comment naviguer les 500 000 jeux de données disponibles, comment préparer les vôtres pour du fine-tuning, et comment les charger efficacement dans vos pipelines Python.

Aller plus loin

Tous nos guides sur les modèles IA

LLM, modèles spécialisés, fine-tuning, inférence locale : retrouvez l’ensemble de nos guides pour choisir et déployer le bon modèle en 2026.

Voir tous les guides IA ↗

Mise à jour : mai 2026