Génération d’images : gpt-image-1.5 et les capacités visuelles de ChatGPT
Vous demandez à ChatGPT un visuel pour une présentation. Le résultat est correct, mais le texte sur l’image est illisible et le style ne correspond pas à votre brief. Avec gpt-image-1.5, la donne a changé. Ce septième article de la série vous montre comment produire des images exploitables pour un usage professionnel — et où se situent les limites.
En décembre 2025, OpenAI a lancé gpt-image-1.5, son modèle de génération d’images le plus abouti. Les trois améliorations qui comptent au quotidien : le texte rendu dans les images est enfin lisible (titres, labels, légendes), l’édition de zones spécifiques (inpainting) fonctionne sans régénérer l’image entière, et la vitesse de génération est jusqu’à quatre fois plus rapide. C’est le modèle qui se cache derrière l’onglet « Images » dans la barre latérale de ChatGPT.
Ce guide couvre la génération depuis zéro, l’édition d’images existantes, le prompting visuel efficace, les cas d’usage professionnels, et la comparaison avec Gemini — puisque Claude, lui, ne génère pas d’images du tout.
Ce que gpt-image-1.5 fait mieux que ses prédécesseurs
L’ancienne chaîne (DALL-E 3 via ChatGPT) réécrivait silencieusement votre prompt avant de générer l’image, ce qui produisait des résultats souvent décalés par rapport à votre intention. gpt-image-1.5 traite votre texte directement et suit vos instructions avec une fidélité nettement supérieure.
| Capacité | DALL-E 3 (ancien) | gpt-image-1.5 (actuel) |
|---|---|---|
| Texte dans l’image | Souvent illisible ou déformé | Lisible dans ~85 % des cas |
| Édition locale (inpainting) | Non — régénération complète | Oui — sélection de zone + instruction |
| Vitesse | 15-30 secondes | 4x plus rapide |
| Consistance entre éditions | Faible — chaque régénération change tout | Forte — préserve visage, éclairage, composition |
| Transparence (PNG) | Limité | Oui, sur demande |
| Résolution par défaut | 1024×1024 | 1024×1024 (carré), 1792×1024 (paysage), 1024×1792 (portrait) |
Côté droits d’usage, c’est clair : selon les conditions d’utilisation d’OpenAI, vous êtes propriétaire des images générées et pouvez les utiliser commercialement, même sur le plan gratuit. Les images contiennent des métadonnées C2PA (Coalition for Content Provenance and Authenticity) qui identifient leur origine IA — un standard de transparence en progression dans l’industrie.
L’onglet Images et l’édition par sélection
Depuis décembre 2025, ChatGPT dispose d’un onglet « Images » dédié dans la barre latérale. Cet espace propose des filtres de style prédéfinis, des prompts tendance pour l’inspiration, et un historique de vos créations. C’est plus qu’un gadget : l’onglet transforme ChatGPT en mini-studio créatif.
La fonctionnalité la plus utile pour un usage pro est l’édition par sélection (inpainting). Le processus :
Décrivez l’image souhaitée dans le chat, ou uploadez une photo existante que vous voulez modifier.
Un outil de sélection apparaît. Surlignez la zone que vous voulez modifier — le fond, un objet, un texte, une couleur.
Tapez votre instruction dans le champ : « Remplace le fond par un paysage urbain la nuit », « Ajoute un logo dans le coin supérieur gauche », « Change la couleur du mur en bleu marine ». ChatGPT applique la modification uniquement à la zone sélectionnée.
Répétez le processus pour d’autres zones. Chaque édition préserve le reste de l’image — éclairage, composition, visages restent cohérents. Attention : chaque édition consomme un crédit de génération.
Prompting visuel : les techniques qui produisent des résultats pros
La qualité d’une image IA dépend à 80 % de la qualité du prompt. Voici les techniques qui font la différence.
La structure d’un bon prompt visuel
# Structure d'un prompt image professionnel
[SUJET] : Quoi exactement — objet, scène, personne, concept
[STYLE] : Photoréaliste, illustration vectorielle, aquarelle,
flat design, 3D isométrique, cinématique
[COMPOSITION] : Plan large, gros plan, vue aérienne,
centré, rule of thirds
[ÉCLAIRAGE] : Lumière naturelle, golden hour, studio,
néon, clair-obscur
[COULEURS] : Palette précise ou ambiance (tons chauds,
pastel, monochrome, couleurs corporate)
[FORMAT] : Carré (1:1), paysage (16:9), portrait (9:16),
fond transparent (PNG)
Trois exemples avant/après
Prompt faible : « Fais-moi un visuel pour un post LinkedIn sur le télétravail. »
Résultat : une image générique d’ordinateur portable sur un bureau.
Prompt pro : « Photo réaliste d’un espace de travail à domicile, vue en légère plongée. Bureau en bois clair, écran externe avec un dashboard coloré, tasse de café, plante verte en arrière-plan. Lumière naturelle latérale, tons neutres et chaleureux. Format 16:9 pour LinkedIn. »
Résultat : un visuel publiable, cohérent avec une identité visuelle professionnelle.
Prompt faible : « Logo pour une agence digitale. »
Prompt pro : « Logo minimaliste pour une agence digitale nommée NovaTech. Lettres géométriques, sans empattement. Couleurs : bleu #1a73e8 et gris #4a4a4a sur fond transparent. Style flat, pas de dégradés, pas d’icône — typographie seule. Format carré, PNG avec transparence. »
gpt-image-1.5 gère les titres courts, labels, et légendes dans environ 85 % des cas. Les textes longs (paragraphes), les polices spécifiques, et certaines langues non latines (chinois, arabe, hébreu) restent problématiques. Pour les visuels avec du texte critique (affiches, flyers, bannières), générez l’image sans texte, puis ajoutez le texte dans Canva, Figma ou un outil de design — c’est plus fiable.
Cas d’usage professionnels
Voici les quatre contextes où la génération d’images ChatGPT apporte un gain de productivité réel.
Marketing et réseaux sociaux
Créer des visuels pour LinkedIn, Instagram, newsletters. La vitesse de gpt-image-1.5 (quelques secondes par image) permet de tester plusieurs variantes et de choisir la meilleure. L’édition par sélection est idéale pour décliner un même visuel en plusieurs versions (couleurs d’arrière-plan, textes différents, adaptation portrait/paysage).
Présentations et slides
Générer des illustrations sur mesure pour des présentations au lieu d’utiliser des banques d’images. Prompt type : « Illustration flat design d’un entonnoir de conversion en 4 étapes, couleurs corporate bleu et orange, fond blanc, style épuré pour une slide PowerPoint. »
Maquettes et mockups
Visualiser un concept avant de le développer. Écrans d’application, pages web, packaging produit, aménagement d’espace. Ce ne sont pas des maquettes pixel-perfect, mais elles suffisent pour valider une direction avec un client avant d’investir du temps de design.
E-commerce
Créer des variations de produit (couleurs, contextes d’usage), des mises en situation, des visuels d’ambiance. L’inpainting permet de changer le fond d’un produit photographié sans studio photo. Wix utilise déjà gpt-image-1.5 en production pour la création de catalogues à grande échelle.
Les limites par plan
| Plan | Images par période | Notes |
|---|---|---|
| Free | 2-3 / jour (rolling 24h) | Même modèle que les plans payants |
| Plus | ~50 / 3 heures (rolling) | ~200/jour en usage optimisé |
| Pro | Limites significativement plus élevées | Conçu pour un usage intensif |
| Business / Enterprise | Limites élevées ou illimitées | Soumis aux conditions du workspace |
Point important : chaque édition (inpainting) et chaque régénération compte comme une génération. Si vous affinez une image en 5 itérations, vous consommez 5 crédits. Travaillez votre prompt en amont pour réduire le nombre d’itérations.
ChatGPT vs Gemini vs Claude : qui fait quoi en image
| Capacité | ChatGPT (gpt-image-1.5) | Gemini (Imagen 3 / Nano Banana Pro) | Claude |
|---|---|---|---|
| Génération d’images | Oui | Oui | Non |
| Édition d’images | Oui (inpainting) | Oui | Non |
| Analyse d’images uploadées | Oui | Oui | Oui |
| Texte dans les images | Bon (~85 %) | Très bon (Nano Banana Pro) | — |
| Photoréalisme | Excellent | Excellent | — |
| Style artistique | Bon, certains styles en régression vs GPT Image 1 | Très bon (diversité stylistique supérieure) | — |
Où ChatGPT domine. L’intégration conversationnelle est la plus fluide : vous passez du texte à l’image et retour sans changer d’interface. L’inpainting avec préservation de la composition est un avantage concret pour l’itération. L’écosystème (Custom GPTs, Projects, mémoire) permet de créer des workflows visuels reproductibles.
Où Gemini fait mieux. Nano Banana Pro (basé sur Gemini 3.1 Flash) a pris la première place du classement LM Arena en avril 2026 pour la génération text-to-image. La diversité stylistique et le rendu du texte dans les images sont supérieurs. Si votre besoin principal est la création visuelle pure, Gemini mérite un test.
Ce que Claude ne fait pas. Claude ne génère pas d’images. Il peut analyser des images uploadées avec une précision remarquable, mais la création visuelle n’est pas dans ses capacités. Pour un workflow complet « analyse + création », ChatGPT est le seul des trois à tout faire dans une même conversation.
Les limites honnêtes de gpt-image-1.5
Les scènes complexes avec plusieurs personnes restent un défi. Les mains, les doigts, les poses dans des groupes de plus de 3 personnes sont souvent incohérents. Progrès réel par rapport à DALL-E 3, mais pas encore fiable.
La consistance de personnages entre images n’est pas garantie. Générer le même personnage dans 5 scènes différentes produira 5 variations. Des techniques existent (prompting avec « keep this character consistent » + upload de référence), mais le résultat reste approximatif.
Certains styles artistiques ont régressé par rapport à GPT Image 1. Les styles très spécifiques (anime détaillé, peinture impressionniste) sont parfois moins fidèles avec gpt-image-1.5. La régression est documentée par OpenAI eux-mêmes.
Les filtres de sécurité bloquent les contenus violents, sexuels, haineux, et la reproduction exacte de personnages sous copyright. Les images de personnes publiques sont autorisées mais encadrées. Ces filtres produisent parfois des faux positifs qui bloquent des prompts légitimes — un irritant pour les utilisateurs professionnels.
Ce que vous pouvez faire maintenant
Ouvrez l’onglet Images dans ChatGPT et testez trois prompts : un visuel marketing pour votre prochain post, une illustration pour une présentation, et une édition d’une photo existante via l’inpainting. Comparez le résultat avec ce que vous obtiendriez en 30 minutes sur Canva ou en stock photo. Pour la plupart des usages courants, le rapport temps/qualité penche en faveur de ChatGPT.
Le prochain article de la série couvre Advanced Voice : la conversation orale avec ChatGPT, la traduction en temps réel, et ce que le mode vocal change concrètement dans un workflow quotidien.
Découvrez notre sélection d’outils IA pour la création visuelle, textuelle et multimédia.