AI
2023/08/12
飯沼 佑太

【AIエンジニア必見】Stable Diffusion web UIの各種パラメータの役割を徹底解説!

Stable Diffusion web UIは、ブラウザをインターフェースとして利用して、AIによる画像生成を行うことができるツールです。Stable Diffusionでは、多くのパラメータが用意されており、多々あるパラメータの設定次第で同じプロンプトでも出力形式が大きく変わります。今回は、Stable Diffusion web UIの各種パラメータの役割について解説します。

はじめに

Stable Diffusion web UIは、ブラウザをインターフェースとして利用して、AIによる画像生成を行うことができるツールです。下記図のように各種パラメータとプロンプトを設定しオレンジの「Generate」を押すと画像が生成されます。この多々あるパラメータの設定次第で同じプロンプトでも出力形式が大きく変わります。今回は、Stable Diffusion web UIの各種パラメータの役割について解説します。Stable Diffusion web UIの環境構築に関しては下記記事を参考にしてみてください。

【AIエンジニア必見】Stable Diffusion web UIをGoogle Colaboratoryで環境構築してみた | Data Driven Knowledgebase

モデルの選定

Stable Diffusionのモデルとは、AIが学習した画像生成のためのモデルです。このモデルによって、得意とするジャンルが異なるため、生成したい画像のイメージに近いモデルを選定することで、思い通りの画像を生成することができます。

選択方法は下記画像の①のStable Diffusuion checkpointをクリックすると、環境構築時にインポートしたモデルがメニューバーに出てきます。その中から、使用するモデルを選ぶことで、画像生成に使用するモデルを選定できます。

プロンプトの設定

Stable DiffusionではPositive PromptNegative Promptと呼ばれる2種類のプロンプトを使用して画像生成を行います。Positive Promptでは生成したい画像についてのテキストを入力します。一方Negative Promptでは、生成する画像に出てきて欲しくない要素についてのテキストを入力します。

例えば、Positive Promptに「ひまわり」と入力し、Negative Promptには何も入力せずに画像を生成すると、生成した画像の中に人がいたり、虫がいたり、ひまわり以外の要素が生成される可能性があります。ここで、Negative Promptに「人、虫」と入力すると人と虫が出現しないひまわりの画像を生成することができます。

Positive Promptは下記図の②に、Negative Promptは下記図の③に入力することで設定できます。

生成画像のクオリティを上げるためのパラメータ

ここからは、思い通りの画像を生成するのに役立つパラメータを各種紹介していきます。まずは下記画像の④に該当するパラメータです。

Restore faces

生成される画像の顔部分に補正処理を行うオプション。実写向きの機能のため、実写画像生成時はON、アニメイラスト生成時はOFF推奨しています。

Tiling


上下左右に繋ぎ目無く、綺麗に繋げられる画像を出力するためのオプション。テクスチャや模様を生成したい場合にのみ利用します。風景画や人物画像を出力する際などにはOFF推奨しています

Hires. fix


大きな画像を出力する際に、工程を2段階に分けることで構図の破綻を抑えようという機能。基本的にONにしておくことを推奨しています



次に紹介するのは、下記図の⑤にあたるSampling stepsです。このパラメータは画像のノイズを除去する回数を指します。このパラメータ値が高ければ高いほど、質の高い画像を生成できる反面、計算時間がかかってしまいます。デフォルトは20で設定されています。

個人的に検証期間はデフォルト値で、プロンプトが固まってきた段階で30~40に上げるのが良いと思います。



次に紹介するのは、下記図の⑥にあたる画像サイズに関してです。Widthが画像の横幅のサイズ、Heightが画像の縦幅のサイズです。⑦のボタンでは縦横比を逆転することができます。



次に紹介するのは、下記図の⑤にあたるバッチ処理についてです。

  • Batch count:一枚の画像生成行う回数。メモリの使用量に影響しません。

  • Batch size:一回の生成で出力する画像の枚数。メモリの使用量に影響します。


個人的にはBatch sizeを1に固定し、Batch countの量を変える方法が最適です。



次に紹介するパラメータは下記図の⑨にあたるCFG Scaleです。このパラメータでは、指示したpromptをどの程度反映させるかの強さに当たります。このパラメータの数値を高くするとpromptの要素を強く反映させる反面、自由度の範囲が狭まります。このパラメータの数値を低くするとpromptの要素の反映度が弱い反面、さまざまなバリエーションの画像を生成する事ができます。

自分の経験上7~11あたりが安定する印象です。

おわりに

今回は、Stable Diffusion web UIの各種パラメータの役割について解説しました。皆様もぜひ、色んなパラメータの数値を使ってみて、思い通りの画像を生成してみてください。

New call-to-action