IA générative d'image : Trouver la bonne description pour une image réussie
Introduction
L'élément le plus fondamental dans la génération d'images via l'IA est de lui fournir une bonne description détaillant suffisamment ce que vous désirez mais sans trop se perdre dans les détails afin de ne pas perdre l'IA dans les éléments devant être inclus dans l'image finale.Vous trouverez ci-dessous quelques conseils vous permettant de trouver une bonne description pour décrire l'image que vous désirez créer.
Le contenu d'une description
Le sujet principal
Il s'agit de décrire les éléments principaux relatifs à votre image.Ne vous contentez pas d'un seul ou quelques mots, l'IA sera générer une image mais elle ne correspondra certainement pas à votre attente. Et rappelez vous une IA n'est qu'un modèle informatique et elle ne sait pas encore lire dans votre cerveau, il faut se forcer à être le plus précis possible sans pour autant se perdre dans des détails inutiles.
Par exemple : Si j'utilise la description
Un chatJ'obtiens bien un chat mais c'est certainement pas celui qui vous vouliez.
Soyons un peu plus précis :
un chat de race Chartreux portant des lunettes de soleil
On a laissé déjà moins de place au hasard.
Astuce 1 : évitez les compositions de mots très beau, très grand,..
Ces termes polluent plus l'IA qu'autre chose, essayez de trouvez le terme le plus adéquate.
Très beau = Magnifique
Très grand = Gigantesque
Très beau = Magnifique
Très grand = Gigantesque
Astuce 2 : attention aux noms de célébrités.
On peut être tenté d'utiliser le nom d'une célébrité pour nous éviter une plus longue description. C'est tout à fait possible mais le nom de la célébrité aura un impact fort sur l'ensemble de l'image : le visage bien sûr mais aussi l'allure physique, les vêtements, les postures et même l'environnement autour.
Johnny Hallyday conduit une motoJe n'ai jamais écrit Harley Davidson, ni blouson en cuir noir,...
Le contexte de l'image, l'époque,...
Il s'agit d'une description permettant de mieux situer le sujet principal comme l'environnement, l'époque,...
Les mêmes règles que précédemment s'appliquent pour cette partie.
Essayons :
un chat de race Chartreux portant des lunettes de soleil, assis sur une plage de sable
Arrière plan
Décrire l'arrière plan n'est pas obligatoire mais reste une bonne pratique pour guider l'IA dans son processus de génération de l'image.
Cette description se caractérise par la présence du mot clé "arrière plan".
Ne cherchez pas à mettre trop de détails dans le contenu de l'arrière plan car par définition un arrière plan est lointain et souvent flou donc ces détails ne se verront pas et cela risque de perturber le processus de l'IA.
Continuons :
un chat de race Chartreux portant des lunettes de soleil, assis sur une plage de sable, une mer agitée et un ciel dégagé en arrière plan
Style visuel
Il s'agit d'ajouter ou non d'ailleurs une liste de mots clés séparés par des virgules indiquant le style du rendu comme par exemple : Photographie, Peinture, Dessin,...
On peut utiliser aussi des styles artistiques comme : impressionnisme, cubisme, cyberpunk,...
Voir même nommé un ou plusieurs artistes.
On peut utiliser aussi des styles artistiques comme : impressionnisme, cubisme, cyberpunk,...
Voir même nommé un ou plusieurs artistes.
Je vous mets toutefois en garde sur ce dernier point comme il y a débat sur l'utilisation des noms d'artistes et les plagias.
un chat de race Chartreux portant des lunettes de soleil, assis sur une plage de sable, une mer agitée et un ciel dégagé en arrière plan, photographie de vacances
Couleurs, éclairage
La précision de couleurs a un impact global sur l'image et pas uniquement sur une partie, l'IA ne va pas se cantonner à l'utilisation uniquement de ces couleurs mais va plutôt s'en servir comme d'une palette d'inspiration.
Idem pour l'éclairage qui permet de donne un style plus particulier à l'image.
un chat de race Chartreux portant des lunettes de soleil, assis sur une plage de sable, une mer agitée et un ciel dégagé en arrière plan, photographie de vacances, couleur vibrantes contrastées, lumière naturelle fin d'après-midi
La prise de vue
Permet de positionner le sujet vis à vis de l'image : Portait, Panorama,...
Permet aussi de spécialiser l'aspect du rendu Photo HD, 8K, rendu 3D, unreal engine,...
un chat de race Chartreux portant des lunettes de soleil, assis sur une plage de sable, une mer agitée et un ciel dégagé en arrière plan, photographie de vacances, couleur vibrantes contrastées, lumière naturelle fin d'après-midi, HD, 4K, photo grand angle, panoramique
Ordre des mots dans la description
L'ordre des mots est très important car les IA génératives donnent beaucoup d'importances aux premiers mots, puis de mois en moins pour les mots suivants pour redonner un peu plus d'importances pour les derniers mots.
C'est pourquoi je préconise :
Sujet Contexte, époque Arrière plan Styles visuels Couleurs, éclairage Prise de vue
Rouge : mots avec le plus de poids
Jaune : mots avec un poids moyen
Vert : mots avec un poids faible
Longueur de la description
Comme déjà évoqué, la description doit être précise et concise.
En principe on préconise au moins 10 mots sinon on laisse trop de place au hasard.
Mais moins de 60 mots pour ne pas perturber le processus de l'IA qui ne sera plus trop ce qu'il doit prendre en compte ou pas.
Mais moins de 60 mots pour ne pas perturber le processus de l'IA qui ne sera plus trop ce qu'il doit prendre en compte ou pas.
Astuce 3 : Echelle de guidage et la précision de la description
L'échelle de guidage est une valeur comprise entre 6 et 20 et qui précise à l'IA si elle peut être imaginative (valeur très faible) au risque d'éliminer des éléments de la description ou si elle doit respecter scrupuleusement la description (valeur élevée).
Lors des premiers essais de descriptions, si vous ne savez pas trop décrire ce que vous voulez laisser la valeur 7.5 (valeur par défaut) ou baissez la un peu.
Plus vous avancez dans l'enrichissement de votre description réaugmentez légèrement cette valeur surtout si vous voyez que l'IA commence à ne plus prendre en compte certains éléments de votre description.
Grammaire d'une description
Les IA génératives basées sur Stable Diffusion notamment permettent un enrichissement de la description en utilisant des syntaxes particulières permettant de donner plus ou moins d'importance à un ou plusieurs mots dans la description.
Augmenter le poids d'un mot
On utilise les parenthèses pour augmenter le poids d'un mot qui est de 1 par défaut.
- (mot) : poids de 1.1
- ((mot)) : poids de 1.21
- (mot:1.5) : poids de 1.5
Diminuer le poids d'un mot
On utilise alors les crochets
- [mot] : poids de 0.9
- [[mot]] : poids de 0.79
- [mot:1.5] : n'existe pas
Alternance de mots
S'écrit [mot1 : mot2 : x] où x est un coefficient compris entre 0 et 1
mot1 sera utilisé par l'IA dans les x% premières itérations et le mot2 sera utilisé pour les itérations suivantes.
mot1 a donc plus d'importance puisqu'il est utilisé en premier et fixera donc les éléments globaux constituant l'image, mot2 étant utilisé à la fin aura de l'influence plutôt sur la finalisation des détails.
exemple : [voiture de sport: citrouille: 0.5]
Processus de création d'une description complète
Sauf dans de rares cas, on ne connaît pas précisément quelle description complète peut donner notre image désirée par une IA générative.
La construction d'une description complète est un processus itératif nécessitant plusieurs étapes de générations.
Commencez par une description simple du sujet et du contexte, ne renseignez pas les autres parties de la description sauf si vous ne voulez que certains éléments (par exemple vous voulez absolument une photo).
Lancez la génération des images en donnant une échelle de guidage peu importante et un nombre d'images égal à 4 (si vous en avez les moyens).
Etudiez le résultat et essayez d'ajouter quelques mots permettant d'améliorer un et un seul élément non satisfaisant. Cela vous permettra de savoir si ce que vous avez ajouté améliore bel et bien ce point ou non.
Relancez la génération avec 4 images et une échelle de guidage faible.
Et ainsi de suite...
Au fur et à mesure des itérations commencez à augmenter l'échelle de guidage pour contraindre un peu plus l'IA et si nécessaire vous pouvez également réduire le nombre d'images à générer pour avoir moins de temps d'attente et moins de coûts.
Voilà j'espère que vous serez plus à l'aise dans la construction de vos prochaines descriptions et obtenir des images réellement attendues.









Commentaires
Enregistrer un commentaire