L’IA générative d’images avec STABLE DIFFUSION | Labdap

SD_01

L’IA générative d’images avec STABLE DIFFUSION

1. Introduction

1.1. Wikipedia

Stable Diffusion est un modèle d’apprentissage automatique permettant de générer des images numériques photoréalistes à partir de descriptions en langage naturel. Le modèle peut également être utilisé pour d’autres tâches, comme la génération d’une image améliorée à partir d’une esquisse et d’une description textuelle.

Il peut fonctionner sur la plupart des matériels grand public équipés d’une carte graphique même de moyenne gamme.

1.2. Principe de fonctionnement

2. Mise en route : Démarrage de l’interface sur navigateur (Web UI)

Cliquer sur l’icône de Stability Matrix.

Cliquer sur « Launch » pour lancer le package de Stable Diffusion installé sur l’ordinateur.

Le Web UI (interface sur navigateur) se lance automatiquement sur le navigateur par défaut.

Note : lorsque le package est en cours d’exécution, on peut retrouver le Web UI en ouvrant un navigateur et en saisissant l’adresse « 127.0.0.1:7860 ».

3. Fonctionnement basique

3.1. Une première génération d’image

Sélectionner l’onglet « txtimg » (texte naturel vers image).
Saisir 🇬🇧 la description de l’image souhaitée dans le prompt. On peut saisir des éléments non souhaités dans le prompt négatif.
Régler l’échantillonnage « Sampling steps » (correspondent au nombre d’itérations exécutées par Stable Diffusion pour passer d’un bruit aléatoire à une image reconnaissable basée sur l’invite de texte).
Régler le nombre d’images produite par une génération avec « Batch size ».
Cliquer sur « Generate ».
Le résultat (dans ce cas 8 images + une planche contact) s’affiche dans l’interface.

3.2. Utilisation d’un « Prompt helper »

Il peut s’avérer utile d’utiliser un « Prompt helper » afin de structurer de manière optimale le prompt.

Il en existe plusieurs sur Internet.

3.3. Chemin d’accès aux images générées

Par défaut, le dossier de sauvegarde des images générées se trouve à l’emplacement :

Remarque : Le dossier AppData est caché par défaut, il faudra donc afficher les fichiers cachés pour l’atteindre.

Remarque 2 : Il peut être intéressant de créer un raccourci vers dossier sur le bureau.

3.4. Retrouver le prompt et les paramètres dans les métadonnées de l’image

Dans l’onglet « Settings », naviguer vers « Infotext ».

Vérifier que les paramètres sont cochés comme ci-contre.

Aller dans l’onglet « PNG Info » et cliquer dans la zone de dépôt d’image.

Sélectionner l’image dont vous souhaitez retrouver le prompt et les paramètres.

Ainsi, il est possible de reprendre le prompt et les paramètre dans une nouvelle génération.

4. ControlNet : génération à partir d’une image d’entrée et d’une description 🤯

4.1. Principe de fonctionnement

4.2. Préparation de l’image d’entrée

Dans cet exemple, l’image qui sert de base est une vue d’une pièce vide.

On recherche ses dimensions : 750 x 500 pixels (clic droit sur le fichier puis propriétés)

L’image manquant de contraste, on va la retoucher avec un logiciel de retouche photo (ici l’outil intégré à Windows 11).

4.3. Prompt et réglage de la taille d’image de sortie

Taper la description de l’image désirée dans le prompt :

« A moderne interior, couch, fireplace, glass table, plants ».

Régler la taille de l’image de sortie pour qu’elle corresponde à l’image d’entrée.

4.4. Utilisation de l’image d’entrée

Développer l’interface de « ControlNet »
Cocher l’utilisation de ControlNet
Cliquer pour déposer l’image d’entrée

Sélectionner l’image retouchée.

4.5. Pré-traitement de l’image d’entrée

Cocher « Enable » pour activer le pré-traitement
Cocher le type de contrôle « Canny »
Cliquer sur l’explosion 💥 pour afficher l’image d’entrée traitée

4.6. Génération de l’image de sortie

Cliquer sur « Generate » et observer le résultat.

4.7. Amélioration du processus

4.7.1. Amélioration du pré-traitement de l’image d’entrée

Réduire (100 > 51) le paramètre « Low threshold » afin d’augmenter la sensibilité du détourage de l’image d’entrée.

Cliquer sur l’explosion 💥 pour afficher l’image d’entrée traitée.

Des lignes supplémentaires apparaissent.

4.7.2. Amélioration de l’effet de ControlNet

Agir sur les paramètres suivants :

« Starting Control Step » : 0 > 0.05
« Ending Control Step » : 1 > 0.5
Cocher « My prompt is more important »

Résultat

4.7.3. Affinage du prompt

Les projets réalisés

Pour inspiration

Interior Design : concevoir et modéliser un espace en 3D

Équipements utilisés

Les ingrédients du projet

IA générative d'image - STABLE DIFFUSION