広告
広告

Waifu Diffusion で効率的に画像を生成する

カテゴリ:その他

目次

ワークフロー

便利なツール

どのクローンを選ぶか

Stable Diffusion のモデルリンク

Stable Diffusion の解説

Guidance Scale(CFG)

サンプラーの比較

シード

バッチカウントとバッチサイズ

GPU の種類と画像生成時間

Tips

頭や脚がフレームアウトする

解像度テーブル

ラフを量産する

細部の修正

手の修正

背景と人物とを別々に生成する

高解像度化

画風を学習させる(Textual Inversion)

キャラ・オブジェクトと語彙とを同時に追加する(Dreambooth)

プロンプト

ツール

トークンの多い単語

意外とトークン数が少ない絵文字

プロンプトの語順

プロンプトのウェイト

ネガティブプロンプトで画力を上げる※重要

Danbooru タグ列挙法(Waifu Diffusion 限定)

Stable Diffusion のプロンプト Tips

単語チートシート

天気・時間帯

場所・背景

カメラ・ライティング

作風

NSFW(職場閲覧注意)

作例

解説リンク

ワークフロー

Waifu Diffusion(Stable Diffusion)はプロンプトで細部の指示はできない。Waifu Diffusion で大まかな方向性の画像を作り、細部は img2img を使って修正したり、フォトバッシュするのが効率的だ。

1. 低い Inference Step でシードガチャを行う

構図はプロンプトよりもシードの影響を受けやすい。なのでまずシードガチャでよい構図のシードを探す。ここでは顔や手や服の装飾が崩れていても問題にしない。顔や手や服の装飾は img2img で修正するのがはるかに効率的だ。欲しい構図の画像をすでに持っている場合はこの工程を飛ばしてもいい。この工程を飛ばす場合は4. 気に入らない部分をペイントソフトで修正するへ。

シードガチャは DDIM サンプラーで8~ 16 ステップぐらいで行う。DDIM サンプラーが選択できない場合は k_lms でも可。

2. プロンプトの修正

1. で手に入れたシードを使って、プロンプトの調整を行う。絵が描けるならこの工程は飛ばしてもいい。

3. 1. と 2. とで手に入れたシードとプロンプトとで Inference Step を上げて画像をクオリティアップさせた画像を生成する。

4. 気に入らない部分をペイントソフトで修正する

手動で気に入らない部分を修正する。

5. img2img で画像を再生成する

この工程でも複数枚生成して良いものを採用する。

6. 画像を合成して完成

実例

生成した画像

edit source
seed=214927526
inference steps=15

prompt
bishojo, full body, view straight on, a girl wearing white one-piece with white marble glowing skin and perfect symmetrical pretty face with blush cheeks and light green long hair and glaring eyes on sunny day standing, golden hour lighting, strong rim light, art by krenz cushart and violet evergarden

negative prompt
deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs,long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes

マスクと修正した画像

修正画像は描く必要はない。Google 画像検索でそれっぽいのを拾ってきて、張り付けてもいいし、DAZ Studio で作成してもいい。今回は画像を少し拡大している。採用した画像は 20 枚作成したうちの1枚。

mask
マスク
hint
加工した画像
generated image
seed=787776388
inference steps=26

prompt
bishojo, view straight on, a girl wearing luxury lingerie , jewelry, ring, louis comfort tiffany, garterbelt, stocking with white marble glowing skin and light green long hair and glaring eyes on sunny day standing, golden hour lighting, strong rim light, art by krenz cushart and violet evergarden

negative prompt
生成に使ったのと同じ

結果

result
合成結果

便利なツール

rembg

AI で背景を透過するツール。

txt2mask

テキストを使ってマスク部分を指定できるツール。

より詳細な解説

絵下手マンがWaifu Diffusionでファンアートを描く方法

続・絵下手マンがWaifu Diffusionでファンアートを描く方法 加筆ノウハウ編

より思い通りの画像を作る!img2img&フォトバッシュ複合ワークフローについて[StableDiffusion]

Google 画像検索+img2img

Waifu Diffusion(Stable Diffusion)で時間がかかるのは構図を決定するシードガチャだ。そこで Google 画像検索でいい感じの構図(3次2次問わない)の画像を img2img に入力すれば時短になる。

このワークフローを採用する場合、画像が見つかったら、工程2から始められる。

著作権について

Stable Diffusion には画像の一部だけを修正できる inpaint 機能がある。拾ってきた画像でこの inpaint 機能だけを使った場合、同一性保持権(20条1項)の侵害になる。なので同一性保持権の侵害を避けるためには、一度画像全体を img2img で変換する必要がある。

どのクローンを選ぶか

GPU で実行する

Waifu Diffusion を実行できるクローンはいくつもあるが、ユーザーが多いので AUTOMATIC1111NMKD とがおすすめだ。AUTOMATIC1111 はネガティブプロンプトをサポートしているのでこちらを推奨する。AUTOMATIC1111 は他にも作成した画像を拡張するアウトペインティングをサポートしている。両者とも nVidia の GPU が必要になる。

AUTOMATIC1111 に Waifu Diffusion を入れるには画像生成AI「Stable Diffusion」でイラストを描くのに特化したモデルデータ「Waifu-Diffusion」使い方まとめを、NMKD に Waifu Diffusion を入れるにはNMKD Stable Diffusion GUIの使い方#Model変更(Waifu Diffusionを使う)を参照。openvino で Waifu Diffusion を実行するにはWaifu Diffusion を CPU で実行するを参照。

CPU で実行する

CPU で実行する場合は openvino stable-diffusion-ui を使う。stable-diffusion-ui は出力解像度が変更できる。

Stable Diffusion モデル

Waifu Diffusion

GPU 用(stable-diffusion-ui を CPU で実行する場合もこちら)

オリジナル

推論に不要な情報を削除したバージョン(pruned-waifu-diffusion)

naclbit/trinart_stable_diffusion_v2/trinart2_step115000.ckpt とミックスしたバージョン( trinart-waifu-diffusion-mix )

CPU 用(openvino)

openvino バージョン(waifu-diffusion.openvino)

trinart V2 モデル

trinart_stable_diffusion_v2

NSFW

実写向き

LD-70k-1e-pruned.ckpt

LD-70k-2e-pruned.ckpt

gg1342_testrun1_pruned.ckpt

Furry と yiffy

Stable Diffusion Furry Finetune Models

yiffy はペニスを描くのが上手い。

そのほか

LD と Waifu Diffusion を3:7の比率でブレンドしたモデル

そのほかのモデル

がうるぐら(VTuber)モデル gura_no_hood_2k.ckpt

リゼロのレムのモデル

Merge Models

モデルを結合する .bat スクリプト。

リンク集

AIで描いてもらった二次画像置き場

Stable Diffusion のクローンリスト

Stable Diffusion Models

ERNIE-ViLG。中国のBaidu(百度)が開発した画像生成AI。これも2次元画像に強い。

AUTOMATIC1111

AUTOMATIC1111の便利な機能を紹介する。

Highres. fix

生成した画像をアップスケールして、ディティールを追加する機能。デフォルトの状態で高解像度にすると、人物が複数出現したり、人物が融合したりする問題の対策になる。

LDSR

拡散モデルで加筆しつつ高解像度化するアップスケーラー。

Face Restoration

顔を修復する機能。

ui-config.json

ui-cinfig.json は一度の生成する画像の枚数等の設定を変更できる。一度の生成する画像の枚数は "txt2img/Batch count/maximum": で変更できる。

コマンドラインが使えるなら --ui-config-file でカスタム設定ファイルを読み込むことも可能。

denoising strength について

denoising strength はただ単にステップ数を絞るだけの数値だ。計算式はsteps * denoising strength(端数切捨て)。また1以上の数値を指定するのも意味がない。 0.999 に置き換えられる。

なので denoising strength だけを書くのは意味がない。img2img のステップ数を書くときは、ステップ数+denoising strengh か計算後のステップ数を書く方がいい。

ソース

sd_samplers.py@46行目 setup_img2img_steps

Stable Diffusion のパラメーターの解説

Guidance Scale(CFG)

Guidance Scale はプロンプトの規制力を表現している。数値を大きくすれば、プロンプトを無視した出力が減るが、出力画像がおかしくなることも多い。Guidance Scale を変更するのではなく、無視してほしくない語を前方に配置する方向で調整した方がいい。

サンプラーの比較

サンプラーが何をやっているのかの解説は難しいので、主要なサンプラーの特徴を示す。サンプラーの比較画像はSampler / step count comparison with timing info が例が多い。

結論を言うと k_euler_a か DDIM を使うのがおすすめだ。理由はそれぞれ似た画風の中で一番速いから。k_eular_a はステップ数を変えると画像も大きく変わるところに注意が必要になる。

サンプラーは出力される画像の類似度で2つに分けられる。k_euler_a & k_dpm_2 とそれ以外とだ。

k_euler_a & k_dpm_2

k_euler_a & k_dpm_2 は画風が似ている。k_euler_a & k_dpm_2 の一番の特徴はステップ数が変わると得られる画像が大きく変わるところだ。

k_euler_a の特徴

k_eular_a はイラスト調の画風と相性が良い。

k_dpm_2 の特徴

k_dpm_2 はリアル調の画風と相性が良い。ステップ数が少なくても描きこみの量が多い。計算が遅い。

そのほかのサンプラー

k_euler_a & k_dpm_2 以外のサンプラーは画風が似ていて、ステップ数をあげると画像がより詳細になる。

k_lms

k_lms で高品質の画像を手に入れるには 50 ステップ必要になる。Guidance Scale は7~8でOK。出力が微妙な場合はステップを 80 ぐらいに上げてもよい。

DDIM

DDIM は速い。なのでシードガチャに向いている。プロンプトがシンプルなら8ステップで良い結果が得られる。複雑なプロンプトの場合は 25 以上のステップが必要になる。

解説リンク

Beginner/Intermediate Guide to Getting Cool Images from Stable Diffusion

シード

シードは構図と色とに影響を与える。なので8~16 程度の少ないステップでシードガチャから始めることが重要になる。悪いシードでプロンプトを工夫してもよい結果は得られない。k_euler_a & k_dpm_2 サンプラーを使う場合は、ステップを変えると作成される画像が大きく変わるので、小さいステップ数でガチャをする意味はない。

ただし、どのようなシードでもうまく機能するプロンプトを探しているならシードは重要ではない。

解説リンク

Tutorial: seed selection and the impact on your final image

バッチカウントとバッチサイズ

バッチカウントは画像の生成枚数。バッチサイズは並列生成する枚数だ。最終的な生成枚数はバッチカウント×バッチサイズになる。

バッチサイズは1でいい。バッチサイズを2以上にしてもたいして早くならない上に、VRAM を多く使用する

GPU の種類と画像生成時間

time stats
作成者不明
サンプラーとステップ数も不明なため参考程度に

Tips

頭や脚がフレームアウトする

アスペクト比が1:1の場合はよく頭や脚がフレームアウトする。生成する画像の解像度を変更できるクローンを使っている場合は、出力画像を縦長にすると、この問題は解決できる。

プロンプトを使う場合

ネガティブプロンプトに (out of frame) を入れる。

頭が切られるなら "focus on face" を入れる。

膝より上の場合なら "full body, thighhighs" をプロンプトの先頭に持ってくる。

すねも入れるなら "full body, legs" をプロンプトの先頭に持ってくる。

足も入れるなら "full body, shoes" をプロンプトの先頭に持ってくる。

解像度テーブル

brbbbq-dimensions.png

アスペクト比解像度
2:1512 * 1024
3:2512 * 768
4:3576 * 768
16:9576 * 1024
21:9384 * 896, 576 * 1344

ラフを量産する

DDIM サンプラーで inference step 8くらいで画像を量産して、その中から良さそうなものを inference step 50 で再生成するか、加筆修正して img2img に入力するのが効率的。

アスペクト比を維持したまま解像度を小さくしてラフを量産する方法は機能しない。解像度を変更すると作成される画像の構図や色が変更されるからだ。

細部の修正

Stable Diffusion(Waifu Diffusion)は細部が崩れやすい。全身が入る構図だと確実に顔が崩れる。なので、細部の修正に inpaint を使うのは意味がない。細部を修正する場合は inpaint を使うのではなく、以下のように自力で合成する。

  1. 適当なペイントソフトで修正したい部分を切り出して 512px * 512px に拡大
  2. 切り出した画像を img2img に入力して、同じプロンプトで再度画像を生成
  3. 生成した画像をペイントソフトで縮小して合成
fix src
元画像
extremely detailed CG unity 8k wallpaper of a loli girl with silver long wavy hairstyle and white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring red eyes, wearing fantasic dress with many frills, standing in the baroque architecture, art by krenz cushart and violet_evergarden, golden hour lighting, strong rim light, intense shadows, bokeh

seed=246225998
cut out
切り出して加筆した画像
generated image
生成された画像(10枚作成した内の1枚)
composite result
合成結果

手の修正

Waifu Diffusion(Stable Diffusion)は手が上手く描けない。この対策は3つある。ひとつはネガティブプロンプトを使う方法で、もうひとつは自分の手を使う方法、最後はプロンプトを使う方法だ。

プロンプトにウェイト込みで ((intricated hand)) や ((intricated fingers)) を入力する。

自分の手を使う方法

自分の手をスマホで撮影して、手の部分を切り出して出力画像に張り付ける。その加工した画像を img2img に入力する。

背景と人物とを別々に生成する

プロンプトは最長で 75 トークンなので、人物と背景とを詳細に制御しようとすると、プロンプトが足りなくなる。なので、最初に背景を作成してから、人物を配置したい場所に inpaint で人物を生成する。

高解像度化

高解像度化には2つの方法がある。アップスケーラーを使う方法と、アウトペインティングを使う方法とだ。

アップスケーラー

アップスケーラーは AI を使って画像を拡大する。AUTOMATIC1111 と NMKD とで使える。AUTOMATIC1111 では LDSR が使える。

アウトペインティング

アップスケーラーと違い、アウトペインティングはすでに作成した画像に追記して拡張する。アウトペインティングは AUTOMATIC1111 で使える。

画風を学習させる(Textual Inversion)

Textual Inversion は複数の画像から画風を学習させる機能だ。

学習方法はいろいろある Invoke AI を使うのが比較的簡単だ。Invoke AI は学習結果を .pt ファイルとして出力する。

出力した .pt ファイルは Invoke AI や AUTOMATIC1111、NMKD で使える。

AUTOMATIC1111 で呼び出すときは、プロンプトにファイル名を入れる。たとえばファイルが ○○.pt だとすると、プロンプトに "painting of ○○" や "image of ○○" を入れる。

学習には 512px * 512px の画像3~5枚を使う。RTX3090 を使った場合、学習にかかる時間は1時間ほど。

解説リンク

Google Colab ではじめる Textual Inversion

How to Fine-tune Stable Diffusion using Textual Inversion では手動(Python)で TI を行う方法を解説している。

[Tutorial] "Fine Tuning" Stable Diffusion using only 5 Images Using Textual Inversion.

--RETARD'S GUIDE TO TEXTUAL INVERSION--

Stable-textual-inversion_win

Invoke AI

Comparison of DreamBooth and Textual Inversion

Textual Inversion の論文によると、学習画像は5枚までがよいとのことだが、74 枚使った方が結果がよかった。

学習は 25,000 ステップまでにしておかないと、キャラが崩壊してくる。

Textual Inversion モデル(Embeddings)

さまざまなアーティストの TI Embeddings

A1

mignon

haruhisky

lasterk

kaoming

淫紋

キャラ・オブジェクトと語彙とを同時に追加する(Dreambooth)

Dreamtooth は Textual Inversion と違い、学習に使ったキャラ・オブジェクトを直接呼び出せる。

GPU で実行する

解説はDreamBooth Stable Diffusion を試すを参照。Dreambooth の実行には VRAM が 32 GB 必要になる。

12.5 GB VRAM で Dreambooth を動かす

Dreambooth-Stable-Diffusion-cpu

CPU で実行できる Dreambooth。推奨メモリ量は 32 GB 以上。Ryzen 3900X 3.6 GHz, メモリ 48 GB のマシンで 500 step の学習に7時間程度かかったらしい。

プロンプト

プロンプトで出力を詳細に制御するのは不可能だ。img2img を使って画像を加工する方がはるかに早い。今後も Stable Diffusion を使うつもりがあるならば、板タブか液タブを買って、基本的な画像編集ができるようになった方がいい。

ネガティブプロンプトはとても強力だ。『描いてほしくないもの』を指定することで効率的な絞り込みができる。

ツール

Deep Danbooru

アップロードした画像の Danbooru タグを教えてくれる。

Lexica

テキストから、他の Stable Diffusion のユーザーが作成した画像を調べられる。

clip-interrogator

画像からプロンプトを推測するツール。AUTOMATIC1111 版 Stable Diffusion web UI からも使える。

Stable Diffusion Prompt Generator

プロンプトを入力すると、アーティストや場所やライティングのプロンプトを追加してくれるジェネレーター。

プロンプトのトークン数を数えるツール

kawaiiprompter

Tokenizer

Google Colaboratory(Google Colab)でプロンプトをチェック

トークン数の多い単語

トークナイザーによっては数字はそれぞれ1トークン消費するものがある。たとえば 100 は3トークン消費する。GPT-3 のトークナイザーは 100 は1トークンしか消費しない。

絵文字は2トークン以上消費するものがあるので注意が必要。

単語トークン数
.1
,1
_1
&1
1girl2
loli2
highres2
4k(8kも)2
elaborately 2
frill2
bokeh2
glint2
tiala2
volumetric2
symmetrical2
parted2
glaring2
pixiv2
boobs2
busty2
tits2
nudity2
onsen2
renderer2
genshin2
arknights2
azur lane3
bishojo3
decollete3
leotard3
neckerchief3
alphonse mucha3
danbooru3
🩱(ワンピース水着)3
subsurface scattering4
peter mohrbacher4
krenz cushart5
👩‍❤‍💋‍👩(百合キス)7
ネガティブプロンプトでよく使われる単語
単語トークン数
deformed2
disfigured2
mutated2
disconnected2
malformed2
asymmetrical2
2girls(3girlsも)2
意外とトークン数が少ない絵文字
絵文字トークン数比較対象
👠(ハイヒール)1high heeled shoe(4トークン)
👭(手をつなぐ女性 )1women holding hands(3トークン)
💃(女性ダンサー)1woman dancing(2トークン)
🤱(授乳)2breast-feeding(3トークン)
🏖️(海とパラソル)2beach with umbrella(3トークン)
🌄(日の出)2sunrise over mountains(3トークン)
🌆(夕暮れの都市)2cityscape at dusk(3トークン)
🌉(夜の橋)2bridge at night(3トークン)
🍽️(フォークとナイフと皿)2a knife and a fork and a dish(8トークン)
⛈️(雷雨)3cloud with lightning and rain(5トークン)
👩‍👩‍👧(二人の女性と女児)4two women and a girl(5トークン)

ワードのウェイト

プロンプトの語順は前のほうが影響力が強く、後ろの方の語は無視されやすい。

無視してほしくない語は繰り返すのが有効。たとえばショートケーキを出したければ、"strawberry shortcake, tiny golden puppy eating strawberry shortcake” とする。これが単に "tiny golden puppy eating strawberry shortcake" だと、ショーケーキが無視されて苺だけが出現したりする。

AUTOMATIC1111 のウェイト

AUTOMATIC1111は () でポジティブなウェイト、[] でネガティブなウェイトをつけられる。() や [] は重ねると強調される。後ろの方のプロンプトは無視されがちなので、その対策によく使われる。

a girl with [silver] hair and ((blue eyes))

() や [] はカンマ ',' も強調する

ウェイトの場所
weight location
出典:boards.4chan.org/h/thread/6856108#p6856938

参考リンク

SD GUIDE FOR ARTISTS AND NON-ARTISTS IN-DEPTH TIPS, TRICKS, TUTORIALS AND MORE

Understanding Weights

プロンプトのトークンについて

プロンプトは最長で 75 トークン。1単語1トークンとは限らない。75 トークンを超えると "prompt truncated after tokenization" が出力される。

コンマ ',' も1トークン消費する。プロンプトを長くする場合はコンマやピリオドにも注意する必要がある。しかしプロンプトの後ろの方の語は無視される可能性が高い。

AI は大文字小文字を区別しない。

AI の語彙は3万語程度。

外部リンク

Stable Diffusion Akashic Records

ネガティブプロンプト

ネガティブプロンプトも通常のプロンプト同様に 75 トークンまでしか認識しない。

ネガティブプロンプトはプロンプトごとに設定する。たとえば目を閉じさせたいとする。closed eye をプロンプトに指定しても目を閉じない場合に、open eye をネガティブに入れるという風にする。

言外の意味(connotation)の除去にもネガティブプロンプトは使える。たとえば blonde は女性の金髪という意味を持っている。blonde から女性の意味を除去するにはネガティブプロンプトに woman や girl を入力する。

人体に関する汎用ネガティブプロンプト

以下のネガティブプロンプトを入れると画力が上がる。

全体

bad art, ugly, messy drawing, flesh pile

flesh pile=蓮コラ。

身体・手足

deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, fat, obese, missing limb, floating limbs, disconnected limbs, long neck, long body, part of the head, poorly drawn feet, mutated skeleton, long skeleton, bad proportions, 2girls, snuggled

変な場所から手や脚が生えるのは 2girls や 3girls、snuggled をネガティブに指定する。

分詞形(deformed や mutated、drawing など)は2トークン消費する。

手・指

mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, bad hands

poorly drawn face, poorly drawn asymmetrical eyes, big ears

nose:鼻を点で描いた画風になりやすくなる。

表情

smile, happy, pleasure

目のハイライト等を消したい場合。

乳首

extra nipples

画風に関するネガティブプロンプト

リアル風・3DCG風

portrait, portrait face は Danbooru のタグにないので、これを入れるとリアル風の画風を抑制してくれる。

portrait, portrait face, doll, photo face, Korean face, Asian face, African face

unity, unreal, octane renderer, maya:3DCG風になる場合

ボケ

blurry, blur, out of focus, bokeh, fog

フレームアウト

out of frame

グレー

grayscale:カラー画像を出力したい場合。漫画からデータを拾ってくるとよくグレーになる。

文字

text, text title signature

漫画の吹き出し

speech bubble

アーティスト

変な絵を描くアーティストをネガティブに入れておくと変な絵は出にくくなる。

(pablo picasso), (H.R. Giger), (Gustave Dore), (Chaim Soutine), (Flora Borsi), (vincent van gogh), (paul gauguin), cubism

複数人生成する場合

1girl, solo, symmetrical

symmetrical が入っているのは、全員が正面顔でこちらを見ている絵が出ないようにするため。

Danbooru タグ列挙法(Waifu Diffusion 限定)

文章を入力するのではなく、Danbooru タグを列挙することで出力を安定させる方法。以下の語順でプロンプトを並べると出力が安定する。

[作品タグ] [キャラクタータグ] [画風タグ] [アーティストタグ] [そのほか]

参考作品がない場合は、プロンプトの頭に original を指定する。

参考キャラクターがない場合はキャラクタータグは省略可能。

この時、各カテゴリごとにアルファベット順に並べ替える。

Danbooru タグの半角スペースはアンダーバーで置き換える。

タグは半角スペースを使って並べる。コンマやピリオドを使ってはならない。以下はプロンプト例。

kono_subarashii_sekai_ni_shukufuku_wo! megumin 1girl ^_^ backlighting blush brown_hair cape closed_eyes collar facing_viewer fingerless_gloves flat_chest gloves hat lens_flare short_hair short_hair_with_long_locks smile solo staff sunset witch_hat dacchi

タグではない句もアンダーバーを使う。たとえば cleavage_of_huge_breasts。

アンダーバーは1トークン消費するため、有効なプロンプト数が短くなるのがこの方法の欠点だ。

Stable Diffusion のプロンプト Tips

何も指定しない(たとえば "a kawaii girl")と平面的な絵しか出てこない。なのでディティールの足りない部分を見つけて、プロンプトに追加していく必要がある。

プロンプトの語順は前のほうが影響力が強く、後ろの方の語は無視されやすいので、複数の色を指定するプロンプトは制御しづらい。たとえば "a loli girl with long white hair wares pink dress and blue shoes." のようなプロンプトでは青い靴は無視されがちになる。青い靴を文頭に持ってくると、服や髪が青くなったりする。

"trending on art station" を入れてもほとんど結果は変わらない。ただし画風を指定していない場合、Art Station 風の画風になる。

語には言外の意味(connotation)が含まれる。たとえば blonde は金髪だけではなくて、女性にたいして使われることが多い。blonde から女性の意味を除去するにはネガティブプロンプトに woman や girl を入力する必要がある。

人物を作成するには、プロンプトに以下の5つの要素を入れるといい。ただしプロンプトの語順は前のほうが影響力が強いので、背景より人物が重要な場合は、人物を先に描写する必要がある。背景を先に描写してしまうと人物をどれだけ詳細に書いても無視されることがある。逆に人物を先に描写するとポートレート風の画像がよく作成される。

  • 天気・時間帯
  • 場所・背景
  • カメラ
  • 作風・アーティスト名

  • light(明るい)
  • dark(暗い)
  • pale(薄い)
  • deep(濃い)

天気・時間帯

逆光を一語で指定できないので、カンマ区切りで ", golden hour lighting, strong rim light, intense shadows," とすると逆光の画像が作成されやすい。

  • golden hour lighting
  • strong rim light
  • intense shadows
  • in the rain
  • rainy days
  • sunset
  • cloudy

場所・背景

背景にこだわりがない場合、下記の中のひとつを指定すればいい。bokeh や soft focus, F1.4 などの語で背景をぼかすのも可。

建物
  • in the baroque architecture
  • in the palace
  • at the castle(城の外観が背景)
  • in the castle(城の内部が背景)
  • in the street
  • in the cyberpunk city
    rainy night in a cyberpunk city with glowing neon lights,
  • at the lighthouse
  • in misty onsen(温泉)
  • by the moon
  • in a tavern(居酒屋)
  • Japanese arch(鳥居)
  • on a hill(丘で)
  • the top of the hill(山頂で)
  • on the beach
  • over the sea
  • in the ocean(海中にいる)
  • on the ocean(船か何かの上にいる)
よくわからない場所
  • against backlight at dusk
  • in the alice in wonderland

人は指定できる要素が多い。映す範囲、髪型、髪の長さ、色、肌の色、目の色、口の開け具合、ポーズ、表情、服、服の柄、年齢など。

highly-detailed symmetric faces や extremely detailed symmetric faces は定番。だが顔をトリミングして、img2img で顔だけ再生成したものを後からペイントソフトで合成する方が高品質だ。

目を強調したい場合は "symmetric highly detailed eyes, fantastic eyes, intricate eyes" を追加する。

人数
  • solo
  • 1girl
  • 2girls, 3girls
  • snuggled(分身? が量産される)
  • snuggled up selfie(くっついて自撮り;百合っぽい何かを作りたいときに)
  • in a ((crowd)) of people(背景が群集)
kawaii
  • kawaii
  • loli
  • bishojo
  • adorable girl, adorable face
映す範囲

アスペクト比が1:1の場合はよく頭や脚がフレームアウトする。生成する画像の解像度を変更できるクローンを使っている場合は、出力画像を縦長にすると、この問題は解決できる。

構図や映す範囲はシードで大体が決まってしまうので、プロンプトを頑張るよりシードガチャをする方がよい。

"mid shot, 背景描写, 人物描写" の順にプロンプトを記述すると、背景の中に人物がいる構図になりやすい。

身体を重視する場合は full body か breasts, navel, thighhighs, などの語をすべて入れる。靴を指定するのも有効。

アングル
  • view straight on
  • side-view
  • top view
  • from side
  • low angle shot
  • over the shoulder shot
  • overhead-angle
  • high angle
  • selfie
引き・俯瞰・全身
  • aerial
  • full body
  • whole body
  • birds eye view
  • establishing shot
  • wide shot
そのほか
  • macro shot
  • close up
  • portrait of girl
  • bust shot
  • long shot
  • medium shot
  • mid shot
  • landscape(横撮り)
  • portrait(縦撮り)
等身
  • chibi(SD キャラが生成されやすくなる)
  • nendoroid
年齢

中年は 30 years old や 40 yeas old など直接年齢を指定する。

  • loli
  • girl
  • boy
  • young
  • teen
  • old
感情
  • gloating(満足そうな)
  • mesugaki smile
  • angry
  • bitter
  • disgusted
  • embarrassed
  • evil
  • excited
  • fear
  • happy
  • horrifying
  • lonely
  • sad
  • serene
  • surprised
  • melancholic
  • closed mouth
  • half-closed mouth
  • open mouth
  • ahegao(口を開ける)
  • smirk(薄ら笑い)
  • :3(猫みたいな口 ω)
  • tongue(舌を出す)
  • blush(赤面)
  • dot nose

    • closed eye
    • jitome(ジト目)
    • half-closed eyes
    • heart symbol in eye(ハート目。生成率はすごく低い)
    • odd eyes(色違いの目)
    • mind control eyes
    • expressionless eyes
    • hollow eyes
    眼鏡
    • with glasses

    服についての検証は A test of seeds, clothing, and clothing modifications が詳しい。ネックラインや帽子の種類を指定してもほとんど無視される。おそらく学習用画像のタグを付ける人が服飾に詳しくないからだろう。

    • yukata
    • koshihimo(浴衣)
    • wrapped a large white towel
    • pantyhose
    • school uniform
    • school swimsuit
      スクール水着は生成率が低い。navy school suimsuit, shiny wet navy one-piece leotard, などで競泳水着を生成して img2img で加工するのが早い。
    • one-piece swimsuit
    • competition swimsuit
    • navel(へそ)
    • bare shoulder(肩出し)
    • choker, black choker
    • victorian
    • skindentation(ニーソックス等を穿いたときにできるふとももの膨らみ)

    透過

    • translucent(半透明)
    • transparent(透明)
    • see-through
    • covered by thin translucent cloth
    体形
    • voluptuous(ボンキュッボン体形の)
    • thicc(ボンキュッボン体形の)
    ポーズ
    • standing
    • walking
    • running
    • sitting on(~の上に座る)
    • kneeling(膝立ち)
    • tilting head(首をかしげる)
    • dakimakura of (ベッドの上で寝た画像になる)
      dakimakura of ~ from back(後姿)
      dakimakura of ~ looking back(後姿で振り向き)
      dakimakura medium from behind
    • arms up
    • finger to mouth
    • finger to cheek
    • spread legs
    • turning around(振り向き)
    • sitting thighhighs(着座のふともも)
    • looking back, from behind, looking at viewer(振り向き)
    そのほか
    • thick thighs(太い脚)
    • wide hips(でか尻)
    • (sweaty skin)(汗ばんだ)
    • wet(水びたし)

    カメラ

    view straight on, low angle view, side view などのカメラアングルを指定すると、構図を固定できることがある。

    カメラ、レンズ、シャッタースピード、絞り、ISO を指定するが、Waifu Diffusion では影響が小さい。

    ボケをなくしたいときは blur や bokeh をネガティブプロンプトに入れる。sharp focus みたいな語をプロンプトに入れても意味がない。なぜならピントが合っている写真にいちいち sharp focus みたいなタグをつけないから。

    • taken by Canon EOS
    • SIGMA Art Lens 35mm F1.4
    • ISO 200 Shutter Speed 2000
    • bokeh
    • soft focus
    • film grain
    • fisheye lens
    • macro
    • vintage
    • lens flare
    • sun flare

    ライティング

    • front lit(正面からの照明)
    • studio lighting
    • beautiful lighting
    • dynamic lighting
    • golden hour
    • volumetric lighting
    • worm lighting
    • cool lighting
    • sun light

    作風

    作風のリストは list of artists for SD v1.4 A-I/J-Zwww.urania.ai/top-sd-artists sgreens.notion.site/sgreens/4ca6f4e229e24da6845b6d49e6b08ae7 を参照。

    CGレンダラーや DCC ツールを指定することもできる。Octane Renderer や Arnold Renderer, Unreal Engine, Maya Model など。

    アウトライン
    • outline
    • line drawing
    • comic art
    ドローイングスタイル
    • cel shading
    • crosshatch
    • detailed and intricate
    • dot art
    • line art
    • sketch
    画風
    • bishojo(イラスト風になる)
    • illustration of
    • bishojo figure(Stable Diffusion でも使える)
    • 8-bit
    • 16-bit
    • isometric room
    • anime
    • cartoon
    • wallpaper
    • concept art
    • comic book
    • pastel
    • studio ghibli
    • by makoto shinkai
    • by krenz cushart
    • kyoto animation
    • akihiko yoshida
    • makoto shinkai
    • yoshitaka amano
    • illustrated by greg rutkowski and alphonse mucha
    • liraphael lacoste(風景画に強い)

    Stable Diffusion UI では以下のアーティストが列挙されている。

    artists
    Stable Diffusion UI で列挙されているアーティスト

    NSFW(職場閲覧注意)

    Google Colab で NSFW 画像を生成すると、Ban されるリスクがあるので、ローカルで生成するのを推奨する。openvino バージョンは NSFW フィルターは入っていない。

    ただしまともな画像が生成される確率は 100 枚に1枚ぐらいだ。以下はプロンプト例、環境は openvino。

    view straight on, focus_on_face, (one girl beautiful anime elf with long_hair (black_hair) (arms_up) and closed_mouth showing navel and (nipples)),((countless numerous large purple tentacle binding pussy), ((spread_legs)) presenting ((wet pussy)), cum_on_stomach, (half-closed_eyes blush empty_eyes), shiny
    seed=139693239
    inference steps=15

    bull_body, spread_legs, low_angle_view, naked, nudity, detailed cg unity 8k, a loli girl with silver long wavy hairstyle and white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring red eyes spred her legs wide open on a bed of love_hotel room, art by krenz cushart and violet_evergarden, golden hour lighting, strong rim light, intense shadows
    seed=776966321
    seed=918299684
    inference steps=30
    full_body を typo して bull_body になってます。spread も typo していて spred になってる。

    AUTOMATIC1111 用

    触手

    view straight on, focus_on_face, (one girl beautiful anime elf with long_hair (brown_hair) (arms_up) and open_mouth showing navel and (nipples)), ((countless numerous large pink tentacle binding pussy), ((spread_legs)) presenting ((wet pussy)), cum_on_stomach, (perfect oval half-opened_eyes blush empty_eyes), shiny
    Negative prompt: ((poorly_drawn_face)), ((poorly drawn hands)), ((poorly drawn feet)), fat, (disfigured), ((out of frame)), (((long neck))), (big ears), ((((tiling)))), ((bad hands)), (bad art), (((censored)))
    出典:mercury.bbspink.com/test/read.cgi/erocg/1662132381/260

    beautiful watercolor painting 8k wallpaper kawaii anime,(naked sex slave) with ((binding in thin chains ((into a torture room )))),(((intricate human hands fingers))), (navels),wearing Slave Collar
    出典:mercury.bbspink.com/test/read.cgi/erocg/1664246635/27

    エルフ

    prompt
    (portrait), (facing viewer), (ample breasts), loli elf, ((((((short))) petite))), female, ((sheer diaphanous cyan negligee dress)), chocker, (straw bonnet), (((bodycon))), Anders Zorn, [[Ilya Kuvshinov]], [[Jean-Baptiste Monge]], Sophie Anderson, Norman Rockwell, (detailed eyes), cute, [perfect face], high detail, (blonde), nipple, ((long_hair))
    
    negative
    [[adult]], out of frame, ugly, extra limbs, (bad anatomy), gross proportions, (malformed limbs), extra arms, extra legs, mutated hands, (fused fingers), (too many fingers), lipstick, blush, (((long neck)))
    
    出典:boards.4chan.org/h/thread/6858559#p6860031
    prompt
    midriff, (facing viewer), (small_breasts), [elf], heterochromia blue_eyes green_eyes, ((((((short))) petite))), female, ((nude)), cyan negligee, white choker, (blue_hairband), Anders Zorn, [[Ilya Kuvshinov]], [[Jean-Baptiste Monge]], Sophie Anderson, Norman Rockwell, (detailed eyes), cute, [perfect face], high detail, (blonde), nipple, ((long_hair))
    
    negative
     [[adult]], out of frame, ugly, extra limbs, (bad anatomy), gross proportions, (malformed limbs), extra arms, extra legs, mutated hands, (fused fingers), (too many fingers), lipstick, blush, (((long neck))), (large breasts), (flat_chest), ((((male))))
    
    出典:boards.4chan.org/h/thread/6858559#p6860092
    prompt
    ((midriff)), (facing viewer), (small_breasts), [elf], blue_eyes, ((((((short))) petite))), female, (nude), pout, (((lace see-through))) cyan sundress, white choker, (blue_hairband), Anders Zorn, [[Ilya Kuvshinov]], [[Jean-Baptiste Monge]], Sophie Anderson, Norman Rockwell, (detailed eyes), cute, [perfect face], high detail, (blonde), nipple, ((long_hair))
    
    negative
    [[adult]], out of frame, ugly, extra limbs, (bad anatomy), gross proportions, (malformed limbs), extra arms, extra legs, mutated hands, (fused fingers), (too many fingers), lipstick, blush, (((long neck))), (large breasts), (flat_chest), ((((male)))), [[[nipples]]]
    出典:boards.4chan.org/h/thread/6858559#p6860233
    

    Tips

    正面図が欲しい場合は view straight on を前の方に入れると、平均画力が上がる。

    pussy よりも vaginal の方が生成率は高いが、どちらも上手くはない。気に入った画像に、inner_thighs and labia を指定して、局部にマスクをしてガチャを回すのが早いかもしれない。

    場所

    • brothel(売春宿)

    ポーズ

    • skirt lifted by self(スカートたくし上げ)
    • spread legs
    • girl squatting spread legs widely like dog statue pose thighhighs(M字開脚)
    • fellatio, pov

    脱衣

    • changing clothes
    • undressing
    • pulled by self
    • changing room
    • take off a 衣類名

    • nightgown
    • lingerie
    • pantyhose
    • navel(へそ)
    • towel over breasts(高確率でタオルを描き忘れる)
    • wrapped a (large white towel)
    • torn clothes(破れた服)
    • wedding veil
    • animal collar
    • harness collar
    • harness cuffs
    • on a leash
    • restrain
    • naked

    巨乳

    • cleavage of huge breasts
    • large breasts

    普乳

    • medium breasts
    • small breasts
    • neckline
    • decollete

    貧乳

    貧乳は巨乳系の語をネガティブプロンプトに入れるのが確実だ。

    • [[[[[breasts]]]]]
    • flat chest

    • (sweaty skin)

    マヨネーズ

    • mayonnaise
    • slimy skin
    • oily skin
    • wet with opaque globs of mayonnaise
    • dripping with strands of white goo
    • ((((white slime)))), (wet)

    絵文字

    絵文字は2トークン以上消費ものがあるので使う前にトークン数を確認した方がいい。👩‍❤‍💋‍👩は7トークンも消費する。

    🤳(2トークン)より selfie (1トークン)がお得。breast-feeding(3トークン)より🤱(2トークン)がお得。

    絵文字トークン意味
    🔞218 禁
    👧 2
    💆 2マッサージ・マスターベーション
    🤱 2授乳
    🤳 2自撮り
    👩‍❤‍💋‍👩7百合キス

    作例

    作成環境はすべて openvino。

    cell shading
    1girl looking_at_viewer upper_body, too many flowers,kyoto animation, bishojo, bare_shoulders black_sleeves yellow_eyes emeraldblue_hair, sailor_collar and neckerchief, detached_sleeves frilled_shirt_collar frills grey_shirt headset heart long_hair sleeveless_shirt twintails very_long_hair wide_sleeves highres
    seed=514388629
    inference steps=15
    bold line
    seed=525803891
    inference steps=15

    prompt
    pinup Comic art, thick-line-drawing, bold outline, air-brush-paint, loli Turquoise twin tail, blush, extremely detailed symmetric faces, JoJo's Bizarre Adventure, decollete cleavage, simple studio lighting

    negative prompt
    deformed, bad_anatomy, disfigured, mutation, mutated, extra_limbs, ugly, fat, missing_limb, floating_limbs, disconnected_limbs, long_neck, long_body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly_drawn hands, malformed_hands, poorly_drawn face,poorly_drawn asymmetrical eyes
    kimono
    extremely detailed loli 1girl, beautiful character professional portrait of a kawaii girl in elaborately embroidered print_kimono, looking_away, golden hour, from_side, white marble glowing skin, pretty lively blue_eyes and iris, blush, dot_nose, gray bun hair, subsurface scattering, style of anime film, cobblestone road, soft ambient lighting, light_rays
    seed=637316554
    inference steps=30
    arice in wonderland
    cowboy_shot, too many flowers,loli,alice,elementary school student girl turning around with white marble glowing skin and dot nose and perfect symmetrical pretty face with blush cheeks,hair ornament, standing in the alice in wonderland, Genshin_Impact,azur_lane,blue_archive,arknights jewelry,glint, sparkle, light_rays lens_flare light_particles, hyper detailed, high detail, exquisite detail, golden hour lighting, strong rim light, intense shadows, bokeh
    seed=922722266
    inference steps=10
    chibi crown
    seed=34171926
    inference steps=8

    prompt
    extremely detailed, a chibi, girl with white marble glowing skin and dot nose and perfect symmetrical pretty face with blush cheeks, wavy hair slight smile pretty eyes with catchlight perfect oval iris, elegant dress with many frills, a crown on the head, gold accessories, jewelry, glint, light rays standing in castle with many flowers

    negative prompt
    deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs,long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes
    water
    beautiful kawaii 1girl with bare_shoulders blue_dress and black_choker, hair ornament of Silver flower, underwater, looking_at_viewer, full_body, breasts, cleavage, aqua_eyes, silver very_long_hair, parted_lips, cowboy_shot, beautiful female face, sparkling anime eyes and elegant eyelashes and perfect symmetrical face fine detail delicate features quiet gaze, intente beautiful light, sharp focus, vloumetric lighting, extremely detailed, official_art, hq, 8k, highres, pixiv ranking 1st
    seed=684821328
    inference steps=15
    flower
    original highly detailed bishojo teens girl under the starlight standing on flower garden. jewelry 1girl perspective, glowing eyes, pale lips, wearing ethnic garment, bokeh, cinematic lighting,
    seed=103004710
    inference steps=30
    mucha
    8k book cover art of girl, silk dress, lace frills, Platinum blonde wavy long hairstyle, cleavage breasts, white skin, starry eyes, perfect symmetrical face, by krenz cushart and stanley lau and artem demura and alphonse mucha and peter mohrbacher, soft focus, strong rim light, golden hour
    seed=78227016
    inference steps=8
    swimsuit
    seed=676040145
    inference steps=15

    prompt
    art by krenz cushart and violet evergarden, navy school suimsuit, shiny wet navy one-piece leotard, view straight on, a loli girl with white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring eyes wearing navy school swimsuit in the evening on sunny day standing in beach, golden hour lighting, strong rim light

    negative prompt
    2girls, deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs, long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes
    スクール水着は生成が難しい。1,000 枚以上作成して一番良かったものがこれ
    underware
    art by krenz cushart and violet_evergarden, a beautiful detailed bust shot of woman bathing wearing luxury lingerie bodysuit,jewelry, wedding veil, lace gloves, ring, tiala, neckless, earrings, blesslet, anklet from Tiffany & Co, louis comfort tiffany, garterbelt,Stocking in the romantic Outdoor very big bathtub with bloomed-white-flowers, in the bright heavenly realm room, atmospheric lighting, Strong Sunlight shining through the window, Perfectly shaded, highly detailed, concept art, sharp focus, cinematic lighting, 8k
    seed=684889441
    inference steps=15
    snuggled
    seed=888299913
    inference steps=15

    prompt
    2girl, two bishojo snuggled up selfie, with white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring eyes wearing a school uniform, golden hour lighting, strong rim light, intense shadows

    negative prompt
    1girl, solo, deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs,long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes
    rushia
    seed=722819143
    inference steps=8

    prompt
    hololive, uruha_rushia, 1girl, bangs, bare shoulders, red eyes, blue dress, blue green hair, blue sleeves, blush, bow, breasts, chick, collarbone, detached collar, detached sleeves, double bun, eyebrows visible through hair, frills, hair ornament, medium hair, off-shoulder dress

    negative prompt
    deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs, long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes

    絵下手マンがWaifu Diffusionでファンアートを描く方法

    続・絵下手マンがWaifu Diffusionでファンアートを描く方法 加筆ノウハウ編

    より思い通りの画像を作る!img2img&フォトバッシュ複合ワークフローについて[StableDiffusion]


    【AI論文解説】DALL-E 2へ至るまでの道のり:文章に沿った画像を高品質かつ多様に生成 -詳細編-

    Stable Diffusion with Diffusers

    Diffusers.ipynb

    The Annotated Diffusion Model

    What are Diffusion Models?

    Generative Modeling by Estimating Gradients of the Data Distribution

    Training custom Ai generative models

    論文

    画像生成も畳み込まない!TransformerによるGAN「TransGAN」誕生&解説!

    Neural Discrete Representation Learning(Vector Quantized – VAE)

    U-Net: Convolutional Networks for Biomedical Image Segmentation

    High-Resolution Image Synthesis with Latent Diffusion Models

    Diffusion Models Beat GANs on Image Synthesis

    Elucidating the Design Space of Diffusion-Based Generative Models

    k_euler_a のソース

    Denoising Diffusion Implicit Models(DDIM スケジューラー)

    Denoising Diffusion Probabilistic Models(DDPM スケジューラー)

    Pseudo Numerical Methods for Diffusion Models on Manifolds(PNDM スケジューラー)

    An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

    High-Resolution Image Synthesis with Latent Diffusion Models(LDSR)

    そのほかのリンク

    Tools and Resources for AI Art


    広告
    広告