LABDAP

Réseau des laboratoires d’apprentissage

L’IA générative d’images avec STABLE DIFFUSION

1. Introduction

Stable Diffusion est un modèle d’apprentissage automatique permettant de générer des images numériques photoréalistes à partir de descriptions en langage naturel. Le modèle peut également être utilisé pour d’autres tâches, comme la génération d’une image améliorée à partir d’une esquisse et d’une description textuelle.

Il peut fonctionner sur la plupart des matériels grand public équipés d’une carte graphique même de moyenne gamme.

2. Mise en route : Démarrage de l’interface sur navigateur (Web UI)

Cliquer sur l’icône de Stability Matrix.

Cliquer sur « Launch » pour lancer le package de Stable Diffusion installé sur l’ordinateur.

Le Web UI (interface sur navigateur) se lance automatiquement sur le navigateur par défaut.

Note : lorsque le package est en cours d’exécution, on peut retrouver le Web UI en ouvrant un navigateur et en saisissant l’adresse « 127.0.0.1:7860 ».

3. Fonctionnement basique

  1. Sélectionner l’onglet « txtimg » (texte naturel vers image).
  2. Saisir 🇬🇧 la description de l’image souhaitée dans le prompt. On peut saisir des éléments non souhaités dans le prompt négatif.
  3. Régler l’échantillonnage « Sampling steps » (correspondent au nombre d’itérations exécutées par Stable Diffusion pour passer d’un bruit aléatoire à une image reconnaissable basée sur l’invite de texte).
  4. Régler le nombre d’images produite par une génération avec « Batch size ».
  5. Cliquer sur « Generate ».
  6. Le résultat (dans ce cas 8 images + une planche contact) s’affiche dans l’interface.

Il peut s’avérer utile d’utiliser un « Prompt helper » afin de structurer de manière optimale le prompt.

Il en existe plusieurs sur Internet.

Par défaut, le dossier de sauvegarde des images générées se trouve à l’emplacement :

Remarque : Le dossier AppData est caché par défaut, il faudra donc afficher les fichiers cachés pour l’atteindre.

Remarque 2 : Il peut être intéressant de créer un raccourci vers dossier sur le bureau.

Dans l’onglet « Settings », naviguer vers « Infotext ».

Vérifier que les paramètres sont cochés comme ci-contre.

Aller dans l’onglet « PNG Info » et cliquer dans la zone de dépôt d’image.

Sélectionner l’image dont vous souhaitez retrouver le prompt et les paramètres.

Ainsi, il est possible de reprendre le prompt et les paramètre dans une nouvelle génération.

4. ControlNet : génération à partir d’une image d’entrée et d’une description 🤯

Dans cet exemple, l’image qui sert de base est une vue d’une pièce vide.

On recherche ses dimensions : 750 x 500 pixels (clic droit sur le fichier puis propriétés)

L’image manquant de contraste, on va la retoucher avec un logiciel de retouche photo (ici l’outil intégré à Windows 11).

Taper la description de l’image désirée dans le prompt :

« A moderne interior, couch, fireplace, glass table, plants ».

Régler la taille de l’image de sortie pour qu’elle corresponde à l’image d’entrée.

  1. Développer l’interface de « ControlNet »
  2. Cocher l’utilisation de ControlNet
  3. Cliquer pour déposer l’image d’entrée

Sélectionner l’image retouchée.

  1. Cocher « Enable » pour activer le pré-traitement
  2. Cocher le type de contrôle « Canny »
  3. Cliquer sur l’explosion 💥 pour afficher l’image d’entrée traitée

Cliquer sur « Generate » et observer le résultat.

Réduire (100 > 51) le paramètre « Low threshold » afin d’augmenter la sensibilité du détourage de l’image d’entrée.

Cliquer sur l’explosion 💥 pour afficher l’image d’entrée traitée.

Des lignes supplémentaires apparaissent.

Agir sur les paramètres suivants :

  • « Starting Control Step » : 0 > 0.05
  • « Ending Control Step » : 1 > 0.5
  • Cocher « My prompt is more important »

Résultat

Les projets réalisés

Pour inspiration

Équipements utilisés

Les ingrédients du projet