Aller au contenu
    IMAGE
    Guide IA

    Génération d’images : gpt-image-1.5 et les capacités visuelles de ChatGPT

    Vous demandez à ChatGPT un visuel pour une présentation. Le résultat est correct, mais le texte sur l’image est illisible et le style ne correspond pas à votre brief. Avec gpt-image-1.5, la donne a changé. Ce septième article de la série vous montre comment produire des images exploitables pour un usage professionnel — et où se situent les limites.

    En décembre 2025, OpenAI a lancé gpt-image-1.5, son modèle de génération d’images le plus abouti. Les trois améliorations qui comptent au quotidien : le texte rendu dans les images est enfin lisible (titres, labels, légendes), l’édition de zones spécifiques (inpainting) fonctionne sans régénérer l’image entière, et la vitesse de génération est jusqu’à quatre fois plus rapide. C’est le modèle qui se cache derrière l’onglet « Images » dans la barre latérale de ChatGPT.

    Ce guide couvre la génération depuis zéro, l’édition d’images existantes, le prompting visuel efficace, les cas d’usage professionnels, et la comparaison avec Gemini — puisque Claude, lui, ne génère pas d’images du tout.

    Ce que gpt-image-1.5 fait mieux que ses prédécesseurs

    L’ancienne chaîne (DALL-E 3 via ChatGPT) réécrivait silencieusement votre prompt avant de générer l’image, ce qui produisait des résultats souvent décalés par rapport à votre intention. gpt-image-1.5 traite votre texte directement et suit vos instructions avec une fidélité nettement supérieure.

    Capacité DALL-E 3 (ancien) gpt-image-1.5 (actuel)
    Texte dans l’image Souvent illisible ou déformé Lisible dans ~85 % des cas
    Édition locale (inpainting) Non — régénération complète Oui — sélection de zone + instruction
    Vitesse 15-30 secondes 4x plus rapide
    Consistance entre éditions Faible — chaque régénération change tout Forte — préserve visage, éclairage, composition
    Transparence (PNG) Limité Oui, sur demande
    Résolution par défaut 1024×1024 1024×1024 (carré), 1792×1024 (paysage), 1024×1792 (portrait)

    Côté droits d’usage, c’est clair : selon les conditions d’utilisation d’OpenAI, vous êtes propriétaire des images générées et pouvez les utiliser commercialement, même sur le plan gratuit. Les images contiennent des métadonnées C2PA (Coalition for Content Provenance and Authenticity) qui identifient leur origine IA — un standard de transparence en progression dans l’industrie.

    L’onglet Images et l’édition par sélection

    Depuis décembre 2025, ChatGPT dispose d’un onglet « Images » dédié dans la barre latérale. Cet espace propose des filtres de style prédéfinis, des prompts tendance pour l’inspiration, et un historique de vos créations. C’est plus qu’un gadget : l’onglet transforme ChatGPT en mini-studio créatif.

    La fonctionnalité la plus utile pour un usage pro est l’édition par sélection (inpainting). Le processus :

    01
    Générez ou uploadez une image

    Décrivez l’image souhaitée dans le chat, ou uploadez une photo existante que vous voulez modifier.

    02
    Cliquez sur l’image, puis sur l’icône Éditer

    Un outil de sélection apparaît. Surlignez la zone que vous voulez modifier — le fond, un objet, un texte, une couleur.

    03
    Décrivez la modification

    Tapez votre instruction dans le champ : « Remplace le fond par un paysage urbain la nuit », « Ajoute un logo dans le coin supérieur gauche », « Change la couleur du mur en bleu marine ». ChatGPT applique la modification uniquement à la zone sélectionnée.

    04
    Itérez

    Répétez le processus pour d’autres zones. Chaque édition préserve le reste de l’image — éclairage, composition, visages restent cohérents. Attention : chaque édition consomme un crédit de génération.

    Prompting visuel : les techniques qui produisent des résultats pros

    La qualité d’une image IA dépend à 80 % de la qualité du prompt. Voici les techniques qui font la différence.

    La structure d’un bon prompt visuel

    # Structure d'un prompt image professionnel
    [SUJET] : Quoi exactement — objet, scène, personne, concept
    [STYLE] : Photoréaliste, illustration vectorielle, aquarelle,
              flat design, 3D isométrique, cinématique
    [COMPOSITION] : Plan large, gros plan, vue aérienne,
                    centré, rule of thirds
    [ÉCLAIRAGE] : Lumière naturelle, golden hour, studio,
                  néon, clair-obscur
    [COULEURS] : Palette précise ou ambiance (tons chauds,
                 pastel, monochrome, couleurs corporate)
    [FORMAT] : Carré (1:1), paysage (16:9), portrait (9:16),
               fond transparent (PNG)

    Trois exemples avant/après

    Prompt faible : « Fais-moi un visuel pour un post LinkedIn sur le télétravail. »
    Résultat : une image générique d’ordinateur portable sur un bureau.

    Prompt pro : « Photo réaliste d’un espace de travail à domicile, vue en légère plongée. Bureau en bois clair, écran externe avec un dashboard coloré, tasse de café, plante verte en arrière-plan. Lumière naturelle latérale, tons neutres et chaleureux. Format 16:9 pour LinkedIn. »
    Résultat : un visuel publiable, cohérent avec une identité visuelle professionnelle.

    Prompt faible : « Logo pour une agence digitale. »
    Prompt pro : « Logo minimaliste pour une agence digitale nommée NovaTech. Lettres géométriques, sans empattement. Couleurs : bleu #1a73e8 et gris #4a4a4a sur fond transparent. Style flat, pas de dégradés, pas d’icône — typographie seule. Format carré, PNG avec transparence. »

    Le texte dans les images — enfin utilisable, mais pas parfait

    gpt-image-1.5 gère les titres courts, labels, et légendes dans environ 85 % des cas. Les textes longs (paragraphes), les polices spécifiques, et certaines langues non latines (chinois, arabe, hébreu) restent problématiques. Pour les visuels avec du texte critique (affiches, flyers, bannières), générez l’image sans texte, puis ajoutez le texte dans Canva, Figma ou un outil de design — c’est plus fiable.

    Cas d’usage professionnels

    Voici les quatre contextes où la génération d’images ChatGPT apporte un gain de productivité réel.

    Marketing et réseaux sociaux

    Créer des visuels pour LinkedIn, Instagram, newsletters. La vitesse de gpt-image-1.5 (quelques secondes par image) permet de tester plusieurs variantes et de choisir la meilleure. L’édition par sélection est idéale pour décliner un même visuel en plusieurs versions (couleurs d’arrière-plan, textes différents, adaptation portrait/paysage).

    Présentations et slides

    Générer des illustrations sur mesure pour des présentations au lieu d’utiliser des banques d’images. Prompt type : « Illustration flat design d’un entonnoir de conversion en 4 étapes, couleurs corporate bleu et orange, fond blanc, style épuré pour une slide PowerPoint. »

    Maquettes et mockups

    Visualiser un concept avant de le développer. Écrans d’application, pages web, packaging produit, aménagement d’espace. Ce ne sont pas des maquettes pixel-perfect, mais elles suffisent pour valider une direction avec un client avant d’investir du temps de design.

    E-commerce

    Créer des variations de produit (couleurs, contextes d’usage), des mises en situation, des visuels d’ambiance. L’inpainting permet de changer le fond d’un produit photographié sans studio photo. Wix utilise déjà gpt-image-1.5 en production pour la création de catalogues à grande échelle.

    Les limites par plan

    Plan Images par période Notes
    Free 2-3 / jour (rolling 24h) Même modèle que les plans payants
    Plus ~50 / 3 heures (rolling) ~200/jour en usage optimisé
    Pro Limites significativement plus élevées Conçu pour un usage intensif
    Business / Enterprise Limites élevées ou illimitées Soumis aux conditions du workspace

    Point important : chaque édition (inpainting) et chaque régénération compte comme une génération. Si vous affinez une image en 5 itérations, vous consommez 5 crédits. Travaillez votre prompt en amont pour réduire le nombre d’itérations.

    ChatGPT vs Gemini vs Claude : qui fait quoi en image

    Capacité ChatGPT (gpt-image-1.5) Gemini (Imagen 3 / Nano Banana Pro) Claude
    Génération d’images Oui Oui Non
    Édition d’images Oui (inpainting) Oui Non
    Analyse d’images uploadées Oui Oui Oui
    Texte dans les images Bon (~85 %) Très bon (Nano Banana Pro)
    Photoréalisme Excellent Excellent
    Style artistique Bon, certains styles en régression vs GPT Image 1 Très bon (diversité stylistique supérieure)

    Où ChatGPT domine. L’intégration conversationnelle est la plus fluide : vous passez du texte à l’image et retour sans changer d’interface. L’inpainting avec préservation de la composition est un avantage concret pour l’itération. L’écosystème (Custom GPTs, Projects, mémoire) permet de créer des workflows visuels reproductibles.

    Où Gemini fait mieux. Nano Banana Pro (basé sur Gemini 3.1 Flash) a pris la première place du classement LM Arena en avril 2026 pour la génération text-to-image. La diversité stylistique et le rendu du texte dans les images sont supérieurs. Si votre besoin principal est la création visuelle pure, Gemini mérite un test.

    Ce que Claude ne fait pas. Claude ne génère pas d’images. Il peut analyser des images uploadées avec une précision remarquable, mais la création visuelle n’est pas dans ses capacités. Pour un workflow complet « analyse + création », ChatGPT est le seul des trois à tout faire dans une même conversation.

    Les limites honnêtes de gpt-image-1.5

    Les scènes complexes avec plusieurs personnes restent un défi. Les mains, les doigts, les poses dans des groupes de plus de 3 personnes sont souvent incohérents. Progrès réel par rapport à DALL-E 3, mais pas encore fiable.

    La consistance de personnages entre images n’est pas garantie. Générer le même personnage dans 5 scènes différentes produira 5 variations. Des techniques existent (prompting avec « keep this character consistent » + upload de référence), mais le résultat reste approximatif.

    Certains styles artistiques ont régressé par rapport à GPT Image 1. Les styles très spécifiques (anime détaillé, peinture impressionniste) sont parfois moins fidèles avec gpt-image-1.5. La régression est documentée par OpenAI eux-mêmes.

    Les filtres de sécurité bloquent les contenus violents, sexuels, haineux, et la reproduction exacte de personnages sous copyright. Les images de personnes publiques sont autorisées mais encadrées. Ces filtres produisent parfois des faux positifs qui bloquent des prompts légitimes — un irritant pour les utilisateurs professionnels.

    Ce que vous pouvez faire maintenant

    Ouvrez l’onglet Images dans ChatGPT et testez trois prompts : un visuel marketing pour votre prochain post, une illustration pour une présentation, et une édition d’une photo existante via l’inpainting. Comparez le résultat avec ce que vous obtiendriez en 30 minutes sur Canva ou en stock photo. Pour la plupart des usages courants, le rapport temps/qualité penche en faveur de ChatGPT.

    Le prochain article de la série couvre Advanced Voice : la conversation orale avec ChatGPT, la traduction en temps réel, et ce que le mode vocal change concrètement dans un workflow quotidien.

    Aller plus loin
    Outils IA de création

    Découvrez notre sélection d’outils IA pour la création visuelle, textuelle et multimédia.

    Explorer les outils
    Mise à jour : avril 2026
    Étiquettes: