Waifu Diffusion で効率的に画像を生成する
目次
ワークフロー
差分生成の実例
どのツールを選ぶか
Stable Diffusion の解説
Tips
Denoising Strength を下げると画質が落ちる
ファインチューニング
プロンプト
AUTOMATIC1111 の Prompt Editing※重要
Danbooru タグ列挙法(Waifu Diffusion v1.2 限定)
Danbooru タグ列挙法(Waifu Diffusion v1.3 限定)
Stable Diffusion のプロンプト Tips
単語チートシート
画力が上がる作品タグ
色
天気・時間帯
場所・背景
人
カメラ・ライティング
作風
検証
AI が描いた絵の見分け方
NSFW (職場閲覧注意)
単語集
作例
解説リンク
ワークフロー
Waifu Diffusion (Stable Diffusion)はプロンプトで細部の指示はできない。Waifu Diffusion で大まかな方向性の画像を作り、細部は img2img を使って修正したり、フォトバッシュするのが効率的だ。
1. プロンプトの調査
作成したい画像に近いイメージの画像を Deep Danbooru に入れてタグを調べる。もしくはどこかからプロンプトを拾ってくる。
AUTOMATIC1111 ならローカルで Deep Danbooru が使える。
2. 低い Inference Step でシードガチャを行う
構図はプロンプトよりもシードの影響を受けやすい。なのでまずシードガチャでよい構図のシードを探す。ここでは顔や手や服の装飾が崩れていても問題にしない。顔や手や服の装飾は img2img で修正するのがはるかに効率的だ。欲しい構図の画像をすでに持っている場合はこの工程を飛ばしてもいい。この工程を飛ばす場合は4. 気に入らない部分をペイントソフトで修正するへ。
シードガチャは DDIM や DPM++ 2M Karras サンプラーで8~ 16 ステップぐらいで行う。これらのサンプラーでは 20 ステップでほとんど構図は固定される。
3. プロンプトの修正
2. で手に入れたシードを使って、プロンプトの調整を行う。絵が描けるならこの工程は飛ばしてもいい。
4. 2. と 3. とで手に入れたシードとプロンプトとで Inference Step を上げて画像をクオリティアップさせた画像を生成する。
5. 気に入らない部分をペイントソフトで修正する
手動で気に入らない部分を修正する。
6. img2img で画像を再生成する
この工程でも複数枚生成して良いものを採用する。
7. 画像を合成して完成
便利なツール
rembg
AI で背景を透過するツール。
txt2mask
テキストを使ってマスク部分を指定できるツール。
より詳細な解説
絵下手マンがWaifu Diffusionでファンアートを描く方法
続・絵下手マンがWaifu Diffusionでファンアートを描く方法 加筆ノウハウ編
より思い通りの画像を作る!img2img&フォトバッシュ複合ワークフローについて[StableDiffusion]
AI画像生成を利用した着色高速化ワークフロー[NovelAI]
新機能『Depth to image』でベース画像の形状を維持したまま画像生成
差分生成の実例
AUTOMATIC1111 の Prompt S/R を使う方法
プロンプトを切り替えて差分を作成する方法。ただしポーズや構図が固定できない。
prompt (masterpiece:1.4), best quality, highly detailed 8k cg unity, 1girl, solo, full body, short purple hair, standing in the night cyberpunk city, genshin, clothing negative prompt lowres, bad anatomy, bad hands, missing fingers, pubic hair, extra digit, fewer digits, cropped, worst quality, low quality, blurry prompt S/R clothing, nsfw highly detailed race-trimmed bra panties undressing, nsfw completely nude

裸画像を先に作る実例
着せたい服がきまっている場合、先に裸画像を作る。そうすると肌のトーンの調整をする必要がなくなる。
ネガティブプロンプトは共通で long body, monochrome, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry

インペイントで下着差分をつくる


インペイントで服差分をつくる


服を先に作る実例
生成した画像

inference steps=15
prompt
bishojo, full body, view straight on, a girl wearing white one-piece with white marble glowing skin and perfect symmetrical pretty face with blush cheeks and light green long hair and glaring eyes on sunny day standing, golden hour lighting, strong rim light, art by krenz cushart and violet evergarden
negative prompt
deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs,long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes
マスクと修正した画像
修正画像は描く必要はない。Google 画像検索でそれっぽいのを拾ってきて、張り付けてもいいし、DAZ Studio で作成してもいい。今回は画像を少し拡大している。採用した画像は 20 枚作成したうちの1枚。



inference steps=26
denoising strength=0.5
prompt
bishojo, view straight on, a girl wearing luxury lingerie , jewelry, ring, louis comfort tiffany, garterbelt, stocking with white marble glowing skin and light green long hair and glaring eyes on sunny day standing, golden hour lighting, strong rim light, art by krenz cushart and violet evergarden
negative prompt
生成に使ったのと同じ
結果

写真を使う場合
使わせていただいた画像は[無料写真] メイド服を着て座る台湾人女性。自撮り画像を使ってもいいし、デッサン人形に服を着せた写真を使ってもいい。3Dなら MMD や VRoid Stduio、DAZ|Studio などがある。

結果

inference steps=50
denoising strength=0.55
prompt
view straight on, small breasts, a blonde bishojo wearing a black maid cosplay with white marble glowing skin and perfect symmetrical pretty face with blush cheeks and light green long hair and glaring eyes on sunny day standing, golden hour lighting, strong rim light, art by krenz cushart and violet evergarden
negative prompt
deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs,long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes
Google 画像検索+img2img
Waifu Diffusion (Stable Diffusion)で時間がかかるのは構図を決定するシードガチャだ。そこで Google 画像検索でいい感じの構図(3次2次問わない)の画像を img2img に入力すれば時短になる。
このワークフローを採用する場合、画像が見つかったら、工程2から始められる。
著作権について
Stable Diffusion には画像の一部だけを修正できる inpaint 機能がある。拾ってきた画像でこの inpaint 機能だけを使った場合、同一性保持権(20条1項)の侵害になる。なので同一性保持権の侵害を避けるためには、一度画像全体を img2img で変換する必要がある。
どのツールを選ぶか
Waifu Diffusion を実行できるツールはいくつもあるが、ユーザーが多いので AUTOMATIC1111 と NMKD とがおすすめだ。特に AUTOMATIC1111 は作成した画像を拡張するアウトペインティング、ネガティブプロンプト、途中でプロンプトを変更する Prompt Editing をサポートしているのでこちらを推奨する。
AMD や Mac 環境で実行するには SHARK を使う。
AUTOMATIC1111 の機能については AUTOMATIC1111 の便利な機能を参照。
Stable Diffusion モデル
モデルにはふたつの方向性がある。汎用モデルと特化モデルだ。汎用モデルは Stable Diffusion のように広く浅くさまざまなものを描けるようにする方向で、特化モデルは特定の分野に特化する方向だ。現在は美少女特化の Waifu や trinart、エロやケモ特化、特定のキャラ特化のモデルがある。
特化モデルは特化対象以外のものは上手く描けないので、特化対象以外のものを描かせたい場合には、モデルをマージする必要がある。マージには Merge Models か AUTOMATIC1111 の Checkpoint Merger を使う。
Waifu Diffusion は非 18 禁の画像を使って学習しているので、性器がうまく描けない。性器も出力したい場合は、NSFW モデルとマージする必要がある。
網羅的なモデル外部リンク
/hdg/ Stable Diffusion Models Cookbook
Stable-Diffusion 2.1
Stable-Diffusion 2.0
stable-diffusion-v1-5
Waifu Diffusion v1.4(プレビュー版)
使うには v2-inference.yaml ファイルを wd14-booru-step-14000-unofficial.yaml にリネームして、safetensors ファイルと同じフォルダに入れる必要がある。
Waifu Diffusion v1.3
wd-v1-3-float16.ckpt か wd-v1-3-float32.ckpt をダウンロードする。float16 と float32 で出力される結果は変わらない。ただし full と float とでは少し結果が変わる。opt にはトレーニング用データが入っている。
what is the difference between 16 32 and full?
Waifu Diffusion v1.2
推論に不要な情報を削除したバージョン(pruned-waifu-diffusion)
trinart2_step115000.ckpt と Waifu Diffusionを5:5の比率でマージしたモデル
openvino バージョン(waifu-diffusion.openvino)
Easter
NSFW。Waifu 1.3 に比べて頭が切られにくく安定している。ネガティブプロンプトに Letterbox を入れることが推奨されている。
trinart V2 モデル
Stable Diffusion TrinArt Derrida model (Characters v2)
Stable Diffusion TrinArt Characters model v1
trinart_characters_19.2m_stable_diffusion_v1
AUTOMATIC1111 を使う場合は、autoencoder_kl-f8-trinart_characters.ckpt を trinart_characters_it4_v1.vae.pt にリネームして同じフォルダに入れる。成功するとLoading VAE weights from:~trinart_charatcters_it4_v1.vae.pt が表示される。
Hentai Diffusion
Hentai Diffuison ウイルスが検出されるが作者は混入を否定している。実行は自己責任で。
Waifu Diffusion v1.2 に Rule34 と Gelbooru とから収集した画像 15 万枚を追加学習させたモデル。Waifu で出すのが難しいポーズや手の改善を目的として作成された。Rule34 と Gelbooru とは Danbooru 同様、無断転載画像が多く含まれる。
NSFW
実写向き
Zeipher Female Nude (better anatomy)
ケモエロ
Stable Diffusion Furry Finetune Models:Furry (ケモナー) と yiffy (エロ特化)
yiffy はペニスを描くのが上手い。
R34
そのほか
LD と Waifu Diffusion を3:7の比率でマージしたモデル
キャラ特化モデル
Re:ゼロから始める異世界生活のヴィルヘルム・ヴァン・アストレア
nanachi dreambooth model (42 images on top of yiffy-e15) keyword: nanachiDB cute_furry_girl nanachiDB-42imgs-5000steps.ckpt
ryza dreambooth model (54 images on top of WD 1.3 beta) keyword: rizaDB anime_girl (yes I misspelled the name) rizaDB-54imgs-4500steps.ckpt
SD_PixelArt_SpriteSheet_Generator
がうるぐら(VTuber)モデル
モデルマージ
Models, Embeddings, and Hypernetworks
STABLE DIFFUSION MIXING EMPORIUM
階層マージ
Merge Block Weighted - GUI (U-Net のブロックごとにマージ比率を変える)
Stable DiffusionのモデルをU-Netの深さに応じて比率を変えてマージする
sd_merge_numa (マージしてサンプル画像を出力する検証用 Extension)
Merge-Stable-Diffusion-models-without-distortion
Model Merging Method, anyone seen or tried? #2027
ASimilarityCalculatior
ckpt の類似度を計算する。
リンク集
diffusersで使える Stable Diffusionモデル一覧
画像生成AI「Stable Diffusion」でいろいろ特化した使えるモデルデータいろいろまとめ
Stable Diffusion のパラメーターの解説
CFG Scale (Guidance Scale)
CFG Scale はプロンプトの規制力を表現している。数値を大きくすれば、プロンプトを無視した出力が減るが、出力画像がおかしくなることも多い。CFG Scale を変更するのではなく、無視してほしくない語を前方に配置するか、語を () で囲む AUTOMATIC1111 の強調を使ったほうがいい。
プロンプトが長すぎて上手く出力されないときは CFG Scale を下げた方がいい。
サンプラーの比較
サンプラーが何をやっているのかの解説は難しいので、主要なサンプラーの特徴を示す。サンプラーの比較画像はSampler / step count comparison with timing info が例が多い。画像生成速度はStable Diffusionの各Sampling methodの違い (1)で検証されている。
結論を言うとEuler a か DPM++ 2M Karras を使うのがおすすめだ。理由はそれぞれ似た画風の中で一番速いから。速くて絵が変わるサンプラーは Euler a のほかに DPM fast がある。速くて絵が変わらないサンプラーはほかにもたくさんある。
サンプラーの重要な特徴として計算の速さと構図の安定度がある。
計算の速さ(it/s)
1ステップの計算が速いサンプラーと遅いサンプラーがある。1ステップの計算が遅いからと言って絵の仕上がりが遅いとは限らない。DPM++ SDE (Karras)、DPM2 や Heun は計算が遅いがその分少ないステップ数でいい感じに絵を仕上げてくれる。
速いサンプラー
Euler a, Euler, LMS, DPM++ 2M, DMP fast, LMS Karras, DPM++ 2M Karras, DDIM, PLMS, UniPC
遅いサンプラー
Heun, DPM2, DPM2 a, DPM++ 2S a, DPM++ SDE, DPM adaptive, DPM2 Karras, DPM2 a Karras, DPM++ 2S a Karras, DPM++ SDE Karras
構図の安定度
サンプラーはステップ数を上げると描きこみが多くなるタイプと、ステップ数を上げると絵が変わるタイプがある。後ろに小文字の a (Ancestral) がつくサンプラーはステップ数を上げると絵が変わる。
ステップ数を上げると描きこみが多くなるタイプ
Euler, LMS, Heun, DPM2, DPM++ 2M, DPM adaptive, LMS Karras, DPM2 Karras, DPM++ 2M Karras, DDIM, PLMS, UniPC
ステップ数を上げると絵が変わるタイプ
このタイプのサンプラーでシードガチャをする意味はない。
Euler a, DPM2 a, DPM++ 2S a, DPM fast, DPM2 a Karras, DPM++ 2S a Karras
Karras
DPM は仕上がりがノイズっぽいのでその対策をしたバージョンが Karras。絵画調や写真風の場合、ノイズがあったほうがリアルに見える。
DPM2 ancestral produces odd nosiy/sharpened output during final step #1435
Update K-Diffusion and include noise scheduler script #1560
UniPC
UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models
UniPC は収束が速いと宣伝されているが、実際に生成してみると言われているほど速くはない。
外部リンク
Beginner/Intermediate Guide to Getting Cool Images from Stable Diffusion
StableDiffusionのサンプリング法
DPM2、DPM2 a、Heun は1ステップあたり Euler の2倍の回数、拡散モデルを通過するので実行時間が増える。その分少ないステップで収束する。
シード
シードは構図と色とに影響を与える。なので8~16 程度の少ないステップでシードガチャから始めることが重要になる。悪いシードでプロンプトを工夫してもよい結果は得られない。Euler a & DPM2 a サンプラーを使う場合は、ステップを変えると作成される画像が大きく変わるので、小さいステップ数でガチャをする意味はない。
ただし、どのようなシードでもうまく機能するプロンプトを探しているならシードは重要ではない。
解説リンク
Tutorial: seed selection and the impact on your final image
Denoising Strength について
Denoising Strength はステップ数と絵を描く過程とに影響を与える。
Denoising Strength を小さくすると指定したステップ数より少ないステップ数しか実行されないので画質が下がる。Denoising Strength を 0.1 のような小さな値に設定する場合はステップ数は 200 以上必要になることもある。
AI は大まかな形を描いてから細部を描く。Denoising Strength が大きい(1に近い)と大まかな形を描く段階から始めるので絵が大きく変化する。Denoising Strength が小さいと細部の描きこみを行うステップから始めるので、全体像はほとんど変化しない。
バッチカウントとバッチサイズ
小さい画像サイズでプロンプトの調整をする場合は、バッチサイズを最大にすると速い。
バッチカウントは画像の生成枚数。バッチサイズは並列生成する枚数だ。最終的な生成枚数はバッチカウント×バッチサイズになる。
バッチサイズは余計に VRAM を消費するが生成は速くなる。RTX 3050 で 384x512 のサイズの画像を作成する場合、以下のような結果になった。
バッチカウント | バッチサイズ | 生成にかかった時間(秒) | VRAM 使用量(GB) |
8 | 1 | 15 | 4.1 |
1 | 8 | 10 | 5.1 |
16 | 1 | 31 | 4.1 |
1 | 16 | 19 | 5.9 |
GPU の種類と画像生成時間
【Stable Diffusion】AIイラストにおすすめなグラボをガチで検証【GPU別の生成速度】
RTX 4070。比較対象として RTX 3070~RTX4080 のスコアがある。
2023/01/24 のベンチはStable Diffusion Benchmarked: Which GPU Runs AI Fastest (Updated)がある。
Stable Diffusion のハイエンド GPU ベンチはAll You Need Is One GPU: Inference Benchmark for Stable Diffusion (2022-10-05)が詳しい。
NovelAI 5ch Wiki#結果一覧も情報が多い。

サンプラーとステップ数も不明なため参考程度に
Tips
上手く描けない場合はアスペクト比を変えてみる
1:1のアスペクト比で上手く描けない場合は、縦長や横長にすると上手く描ける場合がある。人物は縦長の方が形が崩れにくい。船は横長だと上手く描ける。
頭や脚がフレームアウトする
Waifu Diffusion 1.2 や 1.3 で頭が切られる確率を下げる方法は見つかっていない。「学習データを 512px * 512px にするときに頭が切られているのが原因」と言われている。修正は AUTOMATIC1111 のアウトペインティングで頭上を拡張して img2img が早い。以下は効果がなかったもの。
- アスペクト比を縦長にする
- clouds, tree などの頭上にあるオブジェクトを描写する
- アイレベルを上げる
- ネガティブプロンプトに out of frame や cropped を入れる
顔の大部分が切られる場合は head out of frame をネガティブに入れる。
身体が切られる場合は映す部位の指定する
顔に注目させたいなら face close-up。
膝や脚まで入れるなら head to knee や head to leg。
バストアップなら breast。
上半身なら upper body。
膝より上の場合なら "full body, thigh" をプロンプトの先頭に持ってくる。
すねも入れるなら "full body, legs" をプロンプトの先頭に持ってくる。
足も入れるなら "leg line" や "full body, shoes" をプロンプトの先頭に持ってくる。
解像度を上げると頭や体が複数融合する
AUTOMATIC1111 の Highres. fix を使う。
ラフを量産する
DDIM サンプラーで inference step 8くらいで画像を量産して、その中から良さそうなものを inference step 20 以上で再生成するか、加筆修正して img2img に入力するのが効率的。
アスペクト比を維持したまま解像度を小さくしてラフを量産する方法は機能しない。解像度を変更すると作成される画像の構図や色が変更されるからだ。
サンプラーの Euler a や DPM2 a はステップ数が変わると絵も変わるので、この方法は使えない。
細部の修正
AUTOMATIC1111 の Inpaint at full resolution はこの項の工程のほとんどを自動でやってくれる。
Stable Diffusion (Waifu Diffusion)は細部が崩れやすい。全身が入る構図だと確実に顔が崩れる。なので、細部の修正に inpaint を使うのは意味がない。細部を修正する場合は inpaint を使うのではなく、以下のように自力で合成する。
- 適当なペイントソフトで修正したい部分を切り出して 512px * 512px に拡大
- 切り出した画像を img2img に入力して、同じプロンプトで再度画像を生成
- 生成した画像をペイントソフトで縮小して合成

extremely detailed CG unity 8k wallpaper of a loli girl with silver long wavy hairstyle and white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring red eyes, wearing fantasic dress with many frills, standing in the baroque architecture, art by krenz cushart and violet_evergarden, golden hour lighting, strong rim light, intense shadows, bokeh
seed=246225998



手の修正
Waifu Diffusion (Stable Diffusion)は手が上手く描けない。この対策は2つある。ひとつはネガティブプロンプトを使う方法で、もうひとつは自分の手を使う方法だ。
自分の手を使う方法
自分の手をスマホで撮影して、手の部分を切り出して出力画像に張り付ける。その加工した画像を img2img に入力する。
Clip Studio Paint で手の3Dオブジェクトを使う方法がある。
高解像度化
AUTOMATIC1111での高解像度化は以下の方法が高品質だ。
- Highres fix でマシンが生成できるの最大解像度で生成する
- アップスケーラーで高解像度化する
高解像度化手法
高解像度化には2つの方法がある。アップスケーラーを使う方法と、アウトペインティングを使う方法とだ。
アップスケーラー
アップスケーラーは AI を使って画像を拡大する。AUTOMATIC1111 と NMKD とで使える。
アウトペインティング
アップスケーラーと違い、アウトペインティングはすでに作成した画像に追記して拡張する。アウトペインティングは AUTOMATIC1111 で使える。
色のコントロール
AI が色の指定を無視した場合に、色を修正する方法は5つある。
- ペイントアプリで編集する
- インペイントで編集する
- Guidance Scale を上げる
- AUTOMATIC1111 の Prompt Editing を使う
ディティールが欲しいとき
解像度を上げるか、img2img で追加するか、以下のような語をプロンプトに追加する。
- intricate details
- highly intricate
- extremely intricate
- absurdres detailed
- highly detailed
- extremely detailed
ファインチューニング
ファインチューニングの情報は Stable Diffusion のファインチューンの Tips に移動した。
プロンプト
プロンプトで出力を詳細に制御するのは不可能だ。img2img を使って画像を加工する方がはるかに早い。今後も Stable Diffusion を使うつもりがあるならば、板タブか液タブを買って、基本的な画像編集ができるようになった方がいい。
ネガティブプロンプトはとても強力だ。『描いてほしくないもの』を指定することで効率的な絞り込みができる。
プロンプトの探し方
- 外部のプロンプトリンクを見る
- 画像を Deepdanbooru に入れる。Deepdanbooru は AUTOMATIC1111 からも使える
- PNG file chunk inspectorで AI 製の画像にプロンプトが埋め込まれていないか調べる
- Lexica でほかのユーザーが作成したプロンプトを調べる
- danbooru のタググループを見る
- danbooru の検索を使う
外部のプロンプトリンク
I USE STABLE DIFFUSION USING DANBOORU/WAIFU MODEL (ビクトリア朝油彩)
中国語
ツール
プロンプトジェネレーター
Magic Generator (Novel AI プロンプトジェネレーター)
NovelAI Tag Generator。右クリックして翻訳できる。
NovelAIのプロンプトを管理・調整するChrome拡張を作りました
タグ調査
Deep Danbooru
アップロードした画像の Danbooru タグを教えてくれる。
メタデータ閲覧
画像が AUTOMATIC1111 で作成された場合、プロンプト等の情報は画像ファイルに埋め込むこともできる。画像があればプロンプト等が公開されていなくてもこれで確認できる可能性がある。
clip-interrogator
画像からプロンプトを推測するツール。AUTOMATIC1111 からも使える。
DeepL
日英翻訳。日本語で書いた文章を翻訳して、そのままプロンプトに入れる。
Lexica
テキストから、他の Stable Diffusion のユーザーが作成した画像を調べられる。
NovelAI Prompt整理ツール
スプレッドシートを使ったプロンプト管理ツール。
Stable Diffusion Prompt Generator
プロンプトを入力すると、アーティストや場所やライティングのプロンプトを追加してくれるジェネレーター。
ワードのウェイト
プロンプトの語順は前のほうが影響力が強く、後ろの方の語は無視されやすい。
無視してほしくない語は繰り返すのが有効。たとえばショートケーキを出したければ、"strawberry shortcake, tiny golden puppy eating strawberry shortcake” とする。これが単に "tiny golden puppy eating strawberry shortcake" だと、ショーケーキが無視されて苺だけが出現したりする。
AUTOMATIC1111 のウェイト
AUTOMATIC1111は () でポジティブなウェイト、[] でネガティブなウェイトをつけられる。() や [] は重ねると強調される。後ろの方のプロンプトは無視されがちなので、その対策によく使われる。
a girl with [silver] hair and ((blue eyes))
() や [] の直後のコンマは無視される。たとえば "a (((farm))), daytime" は "a farm daytime" とコンマを抜いた文として解釈される。2022-09-29 のアプデートでこのバグは修正された。
ウェイトの場所
文字通りの ()
AUTOMATIC1111 では "\(\)" で文字通りの () が入力できる。文字通りの () は danbooru タグで名前の衝突を解決するときによく使われる。ただし Waifu Diffusion v1.3 では () を削除して入力する。たとえば pokemon (anime) は pokemon anime にする。
- pokemon \(anime\)
- pokemon \(creature\)
- shimakaze \(kancolle\)
- shimakaze \(azur lane\)
- shimakaze \(azur lane\)\(cosplay\)
- tied up \(nonsexual\)
- tied up \(sexual\)
- photo \(background\)
- pom pom \(cheerleading\)
- pom pom \(clothes\)
- dakimakura \(medium\)(ベッドで寝ている画像を出したいときによく使う)
- dakimakura \(object\)(普通の抱き枕)
- masturbation \(female\)
- masturbation \(male\)
- stocking
- stocking \(psg\)
- lily \(flower\)
- lily \(vocaloid\)
- lily \(granblue_fantasy\)
- >:\((怒り顔)
- \(o\)_\(o\) :漫画でよく見る黒目
参考リンク
SD GUIDE FOR ARTISTS AND NON-ARTISTS IN-DEPTH TIPS, TRICKS, TUTORIALS AND MORE
プロンプトのトークンについて
プロンプトは最長で 75 トークン。1単語1トークンとは限らない。AUTOMATIC1111 にはプロンプトの長さ制限はない。
AI は大文字小文字を区別しない。
AI の語彙は3万語程度。
外部リンク
Stable Diffusion Akashic Records
ネガティブプロンプト
ネガティブプロンプトも通常のプロンプト同様に 75 トークンまでしか認識しない。AUTOMATIC1111 では 75 トークンを超えるネガティブプロンプトも認識される。
ネガティブプロンプトはプロンプトごとに設定する。たとえば目を閉じさせたいとする。closed eye をプロンプトに指定しても目を閉じない場合に、open eye をネガティブに入れるという風にする。
言外の意味(connotation)の除去にもネガティブプロンプトは使える。たとえば blonde は女性の金髪という意味を持っている。blonde から女性の意味を除去するにはネガティブプロンプトに woman や girl を入力する。
線画の着色にもネガティブプロンプトが使える。ラフを img2img するさいに monochrome をネガティブにすると線画に色をつけてくれる。ただし確実ではないので下塗りをした方がいい。
ネガティブプロンプトは検証が必要だ。 mutated hands and fingers の検証では手をうまく描くのではなく隠すようになっている。out of frame や cropped は頭が切られる問題の対策にはならなかった。
人体に関する汎用ネガティブプロンプト
以下のネガティブプロンプトを入れると画力が上がる。
Novel AI のデフォルトネガティブプロンプト
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
TrinArt のデフォルトネガティブプロンプト
bad anatomy, bad hands, bad quality, blurry, cropped, disconnected limbs, extra digit, extra limbs, fewer digits, jpeg artifacts, low quality, explicit, text
Novel AI と TrinArt の共通ネガティブプロンプト
bad anatomy, bad hands, blurry, cropped, extra digit, fewer digits, jpeg artifacts, low quality, text
全体
bad art, ugly, messy drawing, flesh pile
flesh pile=蓮コラ。
身体・手足
deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, fat, obese, missing limb, floating limbs, disconnected limbs, long neck, long body, part of the head, poorly drawn feet, mutated skeleton, long skeleton, bad proportions, 2girls, snuggled, dismemberment
変な場所から手や脚が生えるのは 2girls や 3girls、snuggled をネガティブに指定する。
分詞形(deformed や mutated、drawing など)は2トークン消費する。
手・指
mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, bad hands
顔
poorly drawn face, poorly drawn asymmetrical eyes, big ears, mutated face
nose:鼻を点で描いた画風になりやすくなる。
head out of frame :顔の大部分が切られる場合
smile, happy, pleasure:目のハイライトを消す
表情
troubled eyebrows, blush, smile, happy, pleasure:無表情を作りたいときに
open mouth, teeth:口を閉じさせたいときに
エルフ耳
sharp ears, pointy ears, animal ear
乳首
extra nipples
巨乳
tits, huge breast
横乳
sideboob
画風に関するネガティブプロンプト
リアル風・3DCG風
portrait, portrait face は Danbooru のタグにないので、これを入れるとリアル風の画風を抑制してくれる。
portrait, portrait face, doll, photo face, Korean face, Asian face, African face
octane render, 3d, unity, unreal, maya :3DCG風になる場合、octane render は特に効果がある。
アニメ・イラスト風
anime, comic, manga :リアル寄りにしたい場合
カートゥーン
western
ボケ
blurry, blur, out of focus, bokeh, fog
平坦な色使い
flat shading, flat color:画面が華やかになる
グレー
grayscale, black&white, monochrome :カラー画像を出力したい場合。漫画からデータを拾ってくるとよくグレーになる。
文字
text, text title signature
漫画の吹き出し
speech bubble
コマが割られる
multiple views, comic, manga, split screen
アーティスト
変な絵を描くアーティストをネガティブに入れておくと変な絵は出にくくなる。
(pablo picasso), (H.R. Giger), (Gustave Dore), (Chaim Soutine), (Flora Borsi), (vincent van gogh), (paul gauguin), cubism
複数人生成する場合
1girl, solo, symmetrical
symmetrical が入っているのは、全員が正面顔でこちらを見ている絵が出ないようにするため。
yiffy モデルでケモ成分をおさえる
animal, furry
AUTOMATIC1111 の Prompt Editing
Prompt Editing は画像生成の途中でプロンプトを変更する機能だ。Prompt Editing を使うと通常では不可能な表現が可能になる。たとえば "a girl [wearing a onepiece:naked:0.5]" とすると、服が透けている表現になる。これはステップ数が 50 とすると、最初の 1~25 ステップは "a girl wearing a onepiece" を実行し、26~50 ステップは "a girl naked" を実行する。
- [smile:sad:0.5] として表情をブレンドすることも可能。
- "[white::0.5] hair, [:red:0.5] eye" などで色移り対策
- [octane render::0.5] や [photo::0.5] で実写とイラストをブレンド
- [watercolor::0.5] で水彩の強さをコントロール
- [cloth:naked:0.5] で透けを表現できる
- [no wearing:wearing blue dungarees:0.1] や "naked,[:((blue)) Dungarees:0.3]" で裸オーバーオール
色のコントロール
色を複数指定すると色うつりする問題は、色の数が2~3ぐらいなら以下の方法で対処できる。
黒いドレスと銀髪の例
- [black dress:((((white silver)))) hair:0.8]
- [black::0.8] dress and [((((silver)))):0.8] hair
AI が絵を描く過程
AI はステップが小さいうちは大まかな形を描き、ステップが進むにつれて細部の描きこみを行う。たとえば牛からカエルへ変化する "a [cow:frog:0.5]" という Prompt Editing を考えてみる。最初は牛を描くので牛の外見をしている。そして細部の描きこみを行うステップでカエルを描くようになる。最終的には、牛の形だがディティールはカエルという絵になる。
Danbooru タグ列挙法(Waifu Diffusion v1.2 限定)
文章を入力するのではなく、Danbooru タグを列挙することで出力を安定させる方法。以下の語順でプロンプトを並べると出力が安定する。
[作品タグ] [キャラクタータグ] [コンテンツタグ] [アーティストタグ]
参考作品がない場合は、プロンプトの頭に original を指定する。
参考キャラクターがない場合はキャラクタータグは省略可能。
コンテンツタグは作品・キャラクター・アーティスト以外のすべてのタグ。ただし "highres" のような学習に時に使ってないメタタグは入れない。
この時、各カテゴリごとにアルファベット順に並べ替える。
Danbooru タグの半角スペースはアンダーバーで置き換える。
タグは半角スペースを使って並べる。コンマやピリオドを使ってはならない。以下はプロンプト例。
kono_subarashii_sekai_ni_shukufuku_wo! megumin 1girl ^_^ backlighting blush brown_hair cape closed_eyes collar facing_viewer fingerless_gloves flat_chest gloves hat lens_flare short_hair short_hair_with_long_locks smile solo staff sunset witch_hat dacchi
Danbooru タグ以外の語は入力しない方が安定する。しかしタグではない句を使う場合は半角スペースをアンダーバーにする。たとえば cleavage_of_huge_breasts 有効なプロンプト数が減るデメリットの方が多いと感じたので訂正。
アンダーバーは1トークン消費するため、有効なプロンプト数が短くなるのがこの方法の欠点だ。
Danbooru タグ列挙法(Waifu Diffusion v1.3 限定)
- Danbooru タグの空白はそのまま入力する(空白をアンダーバーにする必要はない)
- Danbooru タグの () は削除する(たとえば pokemon (anime) は pokemon anime)
- Danbooru タグはコンマで区切る
- タグを並べ替える必要はない
以下のような文章のプロンプトではなく
a girl wearing a hoodie in the rain
以下のように Danbooru タグをコンマ区切りで入力する。
original, 1girl, solo, portrait, hoodie, wearing hoodie
Tips
- 構図・構成タグを使う
- genshin impact や arknights のような作品タグを使う
- タグを使って具体的に指示する
Stable Diffusion のプロンプト Tips
何も指定しない(たとえば "a kawaii girl")と平面的な絵しか出てこない。なのでディティールの足りない部分を見つけて、プロンプトに追加していく必要がある。
プロンプトの語順は前のほうが影響力が強く、後ろの方の語は無視されやすいので、複数の色を指定するプロンプトは制御しづらい。たとえば "a loli girl with long white hair wares pink dress and blue shoes." のようなプロンプトでは青い靴は無視されがちになる。青い靴を文頭に持ってくると、服や髪が青くなったりする。
"trending on art station" を入れてもほとんど結果は変わらない。ただし画風を指定していない場合、Art Station 風の画風になる。
語には言外の意味(connotation)が含まれる。たとえば blonde は金髪だけではなくて、女性にたいして使われることが多い。blonde から女性の意味を除去するにはネガティブプロンプトに woman や girl を入力する必要がある。
Novel AI にはプロンプトの頭に "masterpiece, best quality, " を自動的に追加する設定がある。
2つのオブジェクトを融合するのに as が使える。たとえばヨーダのようなガンジーを描くには "ghandi as yoda" にする。
人物を作成するには、プロンプトに以下の5つの要素を入れるといい。ただしプロンプトの語順は前のほうが影響力が強いので、背景より人物が重要な場合は、人物を先に描写する必要がある。背景を先に描写してしまうと人物をどれだけ詳細に書いても無視されることがある。逆に人物を先に描写するとポートレート風の画像がよく作成される。
- 天気・時間帯
- 場所・背景
- 人
- カメラ
- 作風・アーティスト名
画力が上がる作品タグ
画風の指定にも使える。-like face を使うと顔だけ画風を変えられる。love live!-like face や disgaea-like face など。
- genshin impact
- arknights
- granblue fantasy
- azur lane
- love live!
- cygames
- kyoto animation
- gochuumon wa usagi desu ka?(ロリを描きたいときに使う)
- bang dream!
- disgaea
- amagami (ツリ目になりやすい)
- yugioh (髪がトゲトゲになる)
- senran kagura
色
色に関する Danbooru タグは tag group:colors を参照。
- light (明るい)
- dark (暗い)
- pale (薄い)
- deep (濃い)
天気・時間帯
- backlighting
- golden hour lighting
- strong rim light
- intense shadows
- in the rain
- rainy days
- sunset
- cloudy
場所・背景
背景にこだわりがない場合、beautiful landscape と書いておくといい感じにしてくれる。bokeh や soft focus などの語で背景をぼかすのも可。季節を表す語は最後においても結構効果があるのでおすすめ。
建物
- temple (神殿。inside temple で神殿内部)
- greece temple (ギリシャ神殿)
- in the baroque architecture
- in the romanesque architecture streets
- in the palace
- at the castle (城の外観が背景)
- in the castle (城の内部が背景)
- in the chapel
- in the street
- centralpark
- in the cyberpunk city
rainy night in a cyberpunk city with glowing neon lights - at the lighthouse
- in misty onsen (温泉)
- by the moon
- in a bar, in bars
- in a tavern (居酒屋)
- Japanese arch (鳥居)
- in a locker room
- cityspace
- power lines
- residential area, road
山
- on a hill (丘で)
- the top of the hill (山頂で)
海
- on the beach
- over the sea
- beautiful purple sunset at beach
- in the ocean (海中にいる)
- on the ocean (船か何かの上にいる)
- luxury pool
平地
- grassfield
- in a meadow (牧草地)
- plateau (台地)
- on a desert (砂漠)
季節
- in spring
- in summer
- in hawaii
- in autumn
- in winter
ダーク
- bloodborne
- dark soul
ファンタジー
- granblue fantasy
- octopath traveler
- medieval european city
- medieval european market
日本
- fireworks (花火)
- torii (鳥居)
- shrine (神社)
- shide (四手)
- gohei (御幣。博麗霊夢が持っている棒みたなやつ)
- oonusa (大幣)
- stone lantern (石灯籠)
- paper lantern (提灯)
- sky lantern (天灯。中国、タイ、ポーランドでよく使われる)
- donation box (賽銭箱)
- temizuya (手水舎)
- ema (絵馬)
- omikuji (おみくじ)
- omainu (狛犬)
- stone walkway
- stone stairs
- bamboo broom (竹箒)
- tatami
- shouji
- sake (日本酒)
- yakitori (焼き鳥)
ライブ
- idol
- looks fun singing on stage surrounded by crowd
- spot light, penlight
- action scene
- idol singing pose
よくわからない場所
- beautiful landscape
- against backlight at dusk
- in the alice in wonderland
- luminous particles
- ☢(ポストアポカリプス)
- burning inferno
- lightning effect
- dusk twilight light particles embers
人物なし
- no humans
- nobody
- scenery
部屋
- bed, pillow, in the private room, covered by a (blanket:1.4)
- punishment room
汚部屋
- messy room
- many garbage bags
- trash
- stains on wall
- garbage dump
人
人は指定できる要素が多い。映す範囲、髪型、髪の長さ、色、肌の色、目の色、口の開け具合、ポーズ、表情、服、服の柄、年齢など。
highly detailed symmetric faces や extremely detailed symmetric faces、very gorgeous face は定番。だが顔をトリミングして、img2img で顔だけ再生成したものを後からペイントソフトで合成する方が高品質だ。
目を強調したい場合は "symmetric highly detailed eyes, fantastic eyes, intricate eyes" を追加する。
人数
複数人出すと肌が融合しがちなので、長袖やスラックスを着せると融合しにくくなる。
- solo
- 2girls, 3girls
- fff threesome (女3人)
- everyone (集合絵)
- absolutely everyone (大人数の集合絵)
- snuggled (分身? が量産される)
- snuggled up selfie (くっついて自撮り;百合っぽい何かを作りたいときに)
- in a crowd of people (背景が群集)
- surrounded by crowd
kawaii
- kawaii
- bishoujo
- mesugaki
- succubus (サキュバス)
- demon girl (デーモン)
- adorable girl, adorable face
ロリ
Danbooru の loli タグは閲覧が有料なので、代わりに flat chest を使う。
- petite
- child
- flat chest (ロリ)
- ojousama (ロリ)
- petite little girl, animation eyes
- child, chibi, flat chest, sknny, lib
褐色
- tanned
- red skin
- brown skin
- suntanned red skin
- tanlines (日焼け後)
- bikini tan (ビキニ焼け)
- dark skin
- dark-skinned female
- 🧟♀(ゾンビ)
ロボ
- cyborg girl
- robot girl
映す範囲
構図や映す範囲は以下の要素で決まる。
- プロンプト
- アスペクト比
- シード
アスペクト比は重要だ。人物は縦長の方が良い結果が得られやすい。船は横長の方が上手く描ける。
身体を重視する場合は full body や tachi-e か breasts, navel, thighhighs, などの語をすべて入れる。靴を指定するのも有効。
アングル
- from above (上)
- top view (上)
- from below (下)
- looking up from below (見上げる)
- from side (横)
- from back (後姿)
- orthogonal view (真正面)
正面
- straight-on
- selfie
引き・俯瞰・全身
- aerial
- aerial perspective
- tachi-e (立ち絵)
- full body
- wide shot
- panorama
そのほか
- dutch angle (斜め)
- close-up
- pantyshot
- cowboy shot (頭部から中大腿部)
cowboy をネガティブに入れないとカウボーイが出てくる - landscape (横撮り)
- portrait (縦撮り)
等身
- tall female (高身長)
- chibi (SD キャラが生成されやすくなる)
- chibi inset (メインキャラの横に描かれているチビキャラ)
- nendoroid (ねんどろいどっぽくなる)
- nendoroid-like (等身が下がる)
- mini girl
- little child
- dwarf (ロリ)
- toddler body (身体だけロリ)
- kid
- baby
年齢
中年は 30 years old や 40 yeas old など直接年齢を指定する。30yo という短縮形も認識される。
- aged down (ロリ化)
- teenage
- gyaru (ギャル)
- mature female (成人女性)
- mature face (お姉さんっぽい顔)
- madame (マダム)
- milf
- elderly (初老)
- old woman (老女)
- old lady
表情
#NovelAI #WaifuDiffusion で表情を完全攻略するためのプロンプト辞典 [WIP]
無表情はネガティブプロンプトに troubled eyebrows, blush, smile を入れると作りやすい。
プロンプトに「confused, smile, crying, angry, multiple views」とすると、表情カタログが出力される。
- gloating (満足そうな)
- mesugaki smile
- grin
- evil grin
- excited
- happy
- smug (ドヤ顔)
- doyagao (ドヤ顔)
- dark persona (闇堕ち)
- pout (ふくれっ面)
- tempting mesugaki smile with blush cheeks (挑発的な表情)
- seductive smile
- showing ahegao, mesugaki smile, torogao with (frown eyebrows), excited (ドヤ顔)
- seductive face, nervous smile
- expressionless, bored, half-closed eyes, light frown
- surprised, constricted pupils, open mouth (驚き)
- shy girl (垂れ眉・困り顔・頬染め)
- sadly closing her eyes and screaming
- :o, head tilt (キョトン)
- afterglow (放心)
メイク
lips を入れると画風が変化するので、それを嫌う場合はネガティブに 3d を入れる。
- makeup (化粧)
- eyeshadow
- plump lips
- lipstick
感情
- angry
- annoyed (マイルドな angry)
- bitter
- disgust
- embarrassed
- evil smile
- scared
- horrified
- lonely
- sad
- surprised
口
- closed mouth
- open mouth
- mole under mouth (口の下のほくろ)
- chestnut mouth, triangle mouth (三角形の口)
- ahegao (口を開ける)
- smirk (薄ら笑い)
- clenched teeth (歯を食いしばる)
- sharp teeth (ギザ歯)
- sharp teeth fang (牙)
- :d (:D)
- xd (XD)
- :>
- :3(猫みたいな口 ω)
- :q (テヘペロ舌上向き)
- :p (テヘペロ舌下向き)
- :t (不機嫌)
- :i (ふくれっ面)
- :|
- :/
- :o
- :<
- tongue out (舌を出す)
- long tongue
- lips (Novel AI に入れると画風が大きく変わる)
食べる
eat が効かない場合は吐き出させる(vomit, spitting)。
- eat
- vomit
- blowing ramen out of her mouth
- spitting
- biting
- slurp (麺をすする)
- hold in her mouth
- mouth with 🚬 (タバコ)
頬
- blush (赤面)
耳
- pointy ears (エルフ耳)
鼻
dot nose
目
- trouble eyebrows (困り眉)
- long eyelashes (長いまつ毛)
- closed eyes
- half-closed eyes
- jitome (ジト目)
expressionless eyesの方が近いかもしれない - tsurime (ツリ目)
- tareme (タレ目)
- glaring (睨み)
- upturned eyes (上目づかい)
- heart-shaped pupils
- heterochromia (色違いの目)
- jewelry eyes, jewel like eyes (キラキラした目)
- mind control eyes
- empty eyes
- expressionless eyes
- hollow eyes
- slit pupils (猫目)
- (cat👁️🗨️:1.5)(猫目)
- @_@(ぐるぐる)
- | |(縦長の目)
- 0 0(縦長の丸目)
- > <
- = =
- ^ ^
- ^o^
- blindfold
(ニーアオートマタの YoRHa に影響を受けるので、yorha no. 2 type b, yorha no. 9 type s あたりをネガティブにれる)
ハイライトを消す
- empty eyes
- after rape, blank stare
眼鏡
- glasses
- semi-rimless eyewear
- rimless eyewear
- under-rim eyewear
- over-rim eyewear
- eyewear on head
髪
NovelAIで女性の髪形の呪文(コマンド)がわからないのでお団子ヘアーなど片っ端から検証してみた
- forehead (でこ出し)
- parted bangs (センター分け)
- hair pulled back (耳だし)
- blunt bangs (ぱっつん前髪)
- hair intakes (前髪の上の方にある三角のやつ)
- bob cut (ボブ)
- flipped hair (外ハネ)
- bedhead (寝ぐせ)
- fluffy (もふもふ)
- ahoge
- long hair
- very long hair
- absurdly long hair
- wavy hair
- curly hair (巻き毛)
- hair between eyes
- eyebrows hidden by hair (眉隠し)
- hair over one eye (片目隠れ)
- hair over eyes (両目隠れ)
- shiny hair
- braid (三つ編み)
- french braid (頭頂部から始まる三つ編み)
- single braid
- twin braids
- hair bun (おだんご)
- cone hair bun (三角形のおだんご)
- double bun
- hair flaps (頭の側面から生えている房状の毛)
- floating hair
- drill hair
- eyes visible through hair
- spiked hair (クラウドや遊戯王みたいな髪)
- messy hair (くせ毛・ぼさぼさ)
- hair spread out
- short hair with long locks (ショートヘアーに長いもみあげ。結月ゆかりみたいなやつ)
- hair rings (髪を結んで輪を作ってるやつ)
- tentacle hair (スプラトゥーン)
- hair behind ear (耳出し)
- big hair (ボリュームのある髪)
- low-tied long hair
- twintails
- low twintails
- low ponytail
- soviet ushanka hat
マルチカラー
- colored tips (毛先だけ色変え)
- colored inner hair (ヘアインナーカラー)
- split-color hair (二色髪)
- two-tone hair (二色髪)
- streaked hair (メッシュ)
- gradient hair (グラデ)
- multicolored hair
- iridescent hair (玉虫色の髪)
アクセサリー
- tiara
- hair scrunchie (シュシュ)
- x hair ornament
- maid headdress
- hair ornament (髪飾り)
- hair clip
- hair tubes
- hair bobbles (ヘアゴム)
- hair ribbon
- hair bow (リボン)
- choker
解像度
服や顔の前に解像度ワードを入れると複雑なテクスチャになる。highly detaiiled face や extremely detailed lace、insanely detailed frills など。
- highres
- absurdres
- detailed
服
NovelAIでの衣装呪文一覧カタログ、全身女性立ち絵呪文と絵文字立ち絵構文のカタログ
服についての検証は A test of seeds, clothing, and clothing modifications が詳しい。ネックラインや帽子の種類を指定してもほとんど無視される。おそらく学習用画像のタグを付ける人が服飾に詳しくないからだろう。
上下セット
- jiangshi (キョンシー)
- miko (巫女)
- white kimono and red hakama (巫女)
- white yukata, hakama skirt (巫女)
- otokoyaku (宮廷衣装)
- nun (修道女)
- habit (修道服)
- acolyte (ラグナロクオンラインの修道女)
- olympic スポーツ名 competition (lacrosse, wrestling, rhythmic gymnastics など)
- long sleeves, detached collar, breasts out, navel, (no panties:1.3), (pasties, maebari:1.1), (reverse bunnysuit:1.3), show off stomach (逆バニー)
- fantasy priest
- student training wear (体操着)
- ethnic costume-like bikini armor
- wedding dress
- wedding veil
- leotard wedding dress
- maid bikini
- strapless bikini
- china dress
- china cheongsam
- knightess (レディースの鎧)
- blue dungarees (オーバーオール)
- pelvic curtain (前掛けやふんどしみたいな服)
- yukata
- wrapped a large white towel
- school uniform
- school swimsuit
スクール水着は v1.2 では生成率が低い。v1.3 を使うか、navy school suimsuit, shiny wet navy one-piece leotard, などで競泳水着を生成して img2img で加工するのが早い。 - one-piece swimsuit
- competition swimsuit
- slingshot swimsuit
- waring white collard shirt and slacks
装飾
- cloak (マント)
- center frills (前立ての部分にフリルがついたやつ)
- epaulettes (軍服の肩についてるひらひら)
- pleated skirt
- victorian
- frilled
- embroidered (刺繍付き)
- filigree (金線細工)
- latex, wet, oily, metalic, shiny, luster (光沢のついた)
- latex rubber
- shiny slik (光沢のあるシルク)
- jewelry and accessories
- sash (帯・腰に巻いた布)
その他の服
- camisole (キャミソール)
- tank top (タンクトップ)
- pants (ズボン)
- collared shirt (ワイシャツ)
- blazer (ブレザー)
- cardigan (カーディガン)
- knit cardigan
- neck ribbon (ひも状のネクタイ)
- shirt tucked in
- sheer mesh tops
- button gap (パツパツのシャツ)
- lifebuoy (浮き輪)
- oversized clothes
- jirai kei (地雷系)
- navel (へそ):"服飾指定, navel" でへそ出しになることがある。例:"navel, black sleeveless shirt, bare arms, bare shoulder"
- panty peek (パンチラ)
- gold metallic Texture-like-skin (金粉)
- taut clothes (ピンと張った服)
- crinoline (裾広がりのスカート)
ascot (首で結んだスカーフ)
レース
- lace trim lingerie
- lace-trimmed negligee
- lace-trimmed panties
- lace-trimmed bra
- lace-trimmed choker
- lace-trimmed dress
- lace-trimmed hairband
- lace-trimmed legwear
胸
- criss-cross halter (紐が胸の上でクロスしてる)
- cleavage cutout (胸の開いたドレス)
- no bra (他の服(オーバーオールとか)と合わせて使う)
- off shoulders turtleneck sweater
脚
- thigh gap (絶対領域)
- highleg (ハイレグ)
highleg だけだと脚だけ描かれやすい。以下のように具体的に指定する必要がある。 - highleg leotard
- highleg panties
- highleg swimsuit
- highleg bikini
- highleg dress
- pantyhose
- garter straps
- garter belt
- thigh strap
- barefoot (裸足)
- skindentation (ニーソックス等を穿いたときにできるふとももの膨らみ)
- shoe soles (靴の裏)
腕・肩
- bare shoulder (肩出し)
- strap slip (肩ひもずらし)
- strap pull
- sleeveless (ノースリーブ)
- detached sleeves (アームカバー)
- sleeves past wrists (萌え袖)
- sleeves past fingers (萌え袖)
透過
AUTOMATIC1111の Prompt Editing で [cloth:nude:0.5] 等とする方法や、服を着た画像を img2img に入力して、nude 等のプロンプトで作成する方法がある。
- translucent (半透明)
- transparent (透明)
- see-through
- sweaty clothes
- covered by thin translucent cloth
- clear acrylic resin glass figma-like 衣服名
体形
- abs (割れた腹筋)
- plump (ぽっちゃりした)
- curvy (むちむち)
- plump (むちむち)
- skinny (やせた)
- wide hips (でか尻)
- thicc (巨乳でか尻)
- fat ass
- slender
- slim
- ribs (肋骨)
- ribs sticking out (肋骨)
ポーズ
- standing
- walking
- running
- down one knee (片膝立ち)
- dynamic pose
- indian style (胡坐)
- sitting on (~の上に座る)
- kneeling (膝立ち)
- tilting head (首をかしげる)
- dakimakura of (ベッドの上で寝た画像になる)
dakimakura of ~ from back (後姿)
dakimakura of ~ looking back (後姿で振り向き)
dakimakura medium from behind - lying on back (仰向け)
- lying on side
- lying on lap (膝枕)
- knees together feet apart
- arms up
- bent over
- flirt (いちゃつく)
- breast rest (何かに胸を乗せている)
- breasts on table
- finger to mouth
- finger to cheek
- spread legs (脚大開き)
- legs apart (立った状態で少し開いている)
- legs up
- leaning back (のけぞり)
- arched back (のけぞり [横からのアングル])
- armpit (脇)
- turning around (振り向き)
- sitting thighhighs (着座のふともも)
- looking back, from behind, looking at viewer (振り向き)
- looking back, from behind, looking at camera (振り向き)
- crossed arms (腕組み)
- hugging own legs (膝抱え)
- hold up knee (膝抱え)
- holding hands (手を握る)
- leg lift, leg up, standing on one leg, standing split (I字、片足立ち)
- ✌(ピース)
百合キス
- embrace each other
- hug from behind
- hug each other tight
- 2girls kiss
- french kiss (ディープキス)
- a girl kissing a girl
- symmetrical docking
- multiple giris, kissing nose, yuri
- touch each other's lips face to face
エフェクト
- dj club party (発光)
- heart shape particle
- ?, ??
- !, !!
- ...
- +++(笑っているときにでるやつ)
- ^^^(気付き、衝撃エフェクト)
- notice lines (気づいた時の3本のしたじき)
- !?
- spoken question mark
- spoken musical note
- motion lines
- jaggy lines (モーションブラー)
- speed lines
- emphasis lines (集中線)
- steam
- steaming body
- heavy breathing (息切れ)
- trembling (震えエフェクト)
椅子
- chair
- bench (屋外・だいたい木製)
- couch (ソファー)
- stool (背もたれのない椅子)
そのほか
銃は型番で指定すると品質が上がる。
- id card (学生証・身分証・社員証)
- oil-paper umbrella (和傘)
- thick thighs (太い脚)
- sweaty skin (汗ばんだ)
- wet
- call of duty, aiming, guns (銃)
- smoking a cigarette holding in her mouth (咥えたばこ)
- wand (小さい杖)
- staff (長い杖)
- sushi, nigiri (寿司)
カメラ
カメラ系の語は Stable Diffusion や Waifu Diffusion v1.2 で効果がある。
カメラ、レンズ、シャッタースピード、絞り、ISO を指定するが、Waifu Diffusion では影響が小さい。
ボケをなくしたいときは blur や bokeh をネガティブプロンプトに入れる。sharp focus みたいな語をプロンプトに入れても意味がない。なぜならピントが合っている写真にいちいち sharp focus みたいなタグをつけないから。
- taken by Canon EOS
- SIGMA Art Lens 35mm F1.4
- ISO 200 Shutter Speed 2000
- bloom
- bokeh
- soft focus
- film grain
- fisheye lens
- macro
- vintage
- lens flare
- sun flare
ライティング
シーンライティング
- twilight light
- volumetric lighting
- specular lighting
- cinematic lighting
オブジェクトライティング
- front lit (正面からの照明)
- soft lighting
- studio lighting
- beautiful lighting
- dynamic lighting
- dramatic lighting
- golden hour
- worm lighting
- cool lighting
- sun light
作風
作風リスト
- list of artists for SD v1.4 A-I/J-Z
- SD Artist Collection
- Midjourney の画風調査
- 画風・エフェクト関係の呪文の一覧【Waifu Diffusion・NovelAI】
リアル
- realistic
- octane render
アウトライン
- outline
- line drawing
- comic art
- outlined vector graphics
線画
- monochrome, white background
- line drawing, no color, white background, clear black lines on white background, fine writing
ドローイングスタイル
sketch, graphite (medium) を入れると、手や細部の粗が目立たない。
- no lineart (主線なし)
- crosshatching
- detailed and intricate
- lineart
- sketch
- graphite (medium)
- colored pencil (medium)
画風
アニメ
- animation cel
- cel shading
- anime
- anime coloring
- anime screencap (アニメのスクショ)
- magazine scan
- megami magazine
- official art
- toon (style)
- retro artstyle
- 1980s (style)
- 1990s (style)
- 2000s (style)
イラスト
- pop-art
- ukiyoe
- bishoujo
- illustration of
- bishoujo figure (Stable Diffusion でも使える)
- wallpaper
- concept art
- comic book
- color pencil drawing
- pastel
- watercolor (medium)
- watercolor pencil (medium)
- calligraphy brush (medium)
- oil painting (medium)
- one-hour drawing challenge
複数
character sheet of は横顔や斜め後ろ姿等を描いてくれるので、設定を作るときに便利。ただし服装や色が違ったりする。
- column lineup (枠で区切ったキャラ一覧)
- multiple views (設定画みたいに1画面に複数描かれている)
- character sheet of キャラ名
- character sheet, same size face, concept art (頭だけいろんな方向から描いたもの)
- character sheet,multiple views,same size face, expression chart
- sprite sheet
- collage (同じ画像が並ぶ)
- zoom layer
- projected inset
特殊
- pixel art
- dot art
- 8-bit
- 16-bit
- isometric room
- trading card
- meme
- soviet poster
- movie poster
- voxel art
- fake screenshot
- game screenshot
- magazine cover
- comic cover
- newtype cover
- adult comic cover)
- on the cover of a manga
モノクロ
- monochrome rough sketch
- grayscale
- screentones
人名
- kyoto animation
- studio ghibli
- cygames
- krenz cushart
- ilya kuvshinov
- greg rutkowski
- utagawa kuniyoshi
- william adolphe bouguereau
- makoto shinkai
- tsutomu nihei (白黒になりがち)
- kanna hashimoto
- suzu hirose
- range murata
- akihiko yoshida
- makoto shinkai
- yoshitaka amano
- alphonse mucha
- william adolphe bouguereau
- liraphael lacoste (風景画に強い)
Stable Diffusion UI では以下のアーティストが列挙されている。

Map
- TRPG, map, concept sheet, fantasy, rampart, walled city
- square combat map, quarter view
- map, a part of the continent
検証
mutated hands and fingers の検証では手をうまく描くのではなく隠すようになっている。out of frame や cropped は頭が切られる問題の対策にはならなかった。
PART3 -プロンプトの工夫で指定色が混ざるのを防ぐ方法-
AI が描いた絵の見分け方
ILLUMINARTY (AI の描いた絵を判定する Web アプリ)
手と拡大した目を見ればすぐにわかる。
1. 細部が甘い
- 手が崩れている・指の本数がおかしい
- 服やアクセサリーの細かい装飾が崩れている;ブラやショーツについているリボンが上手く描けない
- 毛先が不明瞭・毛先が溶けている
- 目のディティールが甘い
- 目の描き方が左右非対称
- ハイライトの形が崩れている・位置がおかしい
- 瞳孔が崩れている
- 耳の形がおかしい
- 歯の形がおかしい
2. 背景の連続性がない
- 閉領域の背景がおかしい;閉領域とはたとえば、手を腰に当てた時にできる、腕と身体で作る空間のこと。髪のループでもよく閉領域は生成される。閉領域では背景の連続性が失われやすい。
閉領域の背景の色が薄い - 水平線がずれている
水平線がずれている
NSFW (職場閲覧注意)
Google Colab で NSFW 画像を生成すると、Ban されるリスクがあるので、ローカルでの生成を推奨する。
正面図が欲しい場合は view straight-on を前の方に入れると、平均画力が上がる。
性器の描写が必要な場合はNSFW モデルをマージしたモデルを使う。気に入った画像に、inner_thighs and labia を指定して、局部にマスクをしてガチャを回す。
metart, MPL Studios を入れるだけでエロ画像になる。
単語集
nude と completely nude
danbooru タグの nude は胸と股間にだけ服がない状態。全裸は completely nude を使う。
場所
- brothel (売春宿)
- prostitution (売春)
- stone floor
- stone wall
- dungeon
- cage
- partially submerged (一部水に浸かっている)
大人数
- 6+boys
- gangbang
- crowd
- group sex
- surrounded by multiple guys
- in a mosh pit
- on a mosh pit, high angle view
- surrounded by crowd
- love train
性器など
- pussy (女性生殖器が見えているときに使う。アナルセックスにこのタグが付いていることも多い)
- vaginal (女性生殖器に何かが入っているときに使う)
- anus (肛門)
- anal (尻穴に何かが入っているときに使う)
- groin (鼠径部)
- pregnant (腹が露出している)
- maternity (服を着ている)
- cleft of venus (割れ目)
- partially visible vulva (食い込み)
- futanari (ふたなり)
- futa with female (ふたなりレズ)
- 1boy, huge breasts, large penis (ふたなり。男に乳を盛る)
- penis growing out of his crotch
- pubic hair (陰毛)
- female pubic hair
- male pubic hair
ペニス
irrumatio (イラマチオ)は竿役が動き、fellatio (フェラチオ)は咥える側が動く。
- foreskin small boy penis (包茎の小さいペニス)
- erection (勃起)
- multiple penises
- veiny penis (静脈)
- disembodied penis (宙に浮いているペニス)
- flaccid (勃起していないペニス)
- penis awe (見せ槍)
- twitching penis
- invisible penis
- penis outside (服や乳で隠されたペニス)
- irrumatio
- fellatio
- cuphand
- deepthroat
- covered penis (ズボンを穿いた状態での勃起ペニス)
触手
触手は髪と融合しがちなので splatoon, inkling, fused hair あたりをネガティブに入れる。
- tentacle pit
- surrounded tentacles swarm
- octopus, tentacles
- penis tentacle
- (tentacles:1.3) (tentacle sex:1.3)
- (tentacle-like:1.5) thigh strap (触手が脚に巻き付く)
- tentacle wrap neck around
- suction cups (吸盤)
- surrounded by many tentacles swarm in dungeon, soaked with dripping mayonnaise
- stationary restraints (強制絶頂)
表情
- ahegao
- ahegao, smile
- orgasm
- tearing up
- crying with eyes open, sad, tears
- mouth drool (よだれ)
- heavy breathing (息切れ)
体位
This Is What Your Sex-Position Bucket List Should Look Like。
- intercourse with a man
- hug from behind (バック)
- girl on top, from behind, from above (バック)
- from behind, looking at viewer, looking back, doggy style
- prone bone (寝バック)
- 69
- cunnilingus
- doggystyle
- girl on top (騎乗位)
- cowgirl position (騎乗位)
- reverse cowgirl position
- missionary (正常位)
- standing missionary (立ち正常位)
- table sex (角オナ)
- full nelson (アナル固め)
- tribadism (貝合わせ)
- view straight on, (from front:1.2), sex, doggy style, all fours (四つん這い正面)
ポーズ
- :>=(ひょっとこフェラ・バキュームフェラ)
- implied sex (結合描写なし)
- skirt lifted by self (スカートたくし上げ)
- lifted by another
- skirt lift
- skirt hold
- wind lift
- curtesy
- top-down bottom-up (ケツ上げ)
- breast press (おっぱい押し付け)
- clasp with hands (手ブラ)
- cupping hands (手で受ける)
- all fours (四つん這い)
- squatting, paw pose (ちんちん)
- wall,bend over backwards (壁尻)
- spread legs
- legs apart (立った状態で少し開いている)
- spread pussy
- showing pussy
- cervix
- pussy looking through (局部見せつけ)
- holding another's wrist
- squatting and arms behind head (エロ蹲踞)
- spread legs, squatting, arms behind back (エロ蹲踞手後ろ)
- girl squatting spread legs widely like dog statue pose thighhighs (M字開脚)
- on the ground, asian squat, wide spread legs, tiptoeing, show off crotch (ガニ股)
- sitting on potty (便座に座る)
- fellatio, pov
- eating a sausage
- licking a sausage
- a sausage is inserted into her mouth
- cameltoe (下着のマンスジ)
- sleep molestation (睡眠姦)
- pov male body
- hands on breasts, covering breasts (手ブラ)
- kneading breasts, pov male hands (胸をもむ)
- jack-o' challenge
バックの場合
stomach, navel, boob のような正面から見えるパーツをネガティブに入れる。
- back boob
脱衣
ネガティブに see-through を入れると服の上から乳首が描かれるのを軽減できる。
- undressing
- open clothes (前開け)
- bra visible through clothes
- clothes pull
- changing clothes
- pulled by self
- changing room
- take off a 衣類名
露出
- public indecency (公然わいせつ)
- exhibitionism (露出症)
- public nudity (露出)
- pee (放尿)
- peeing self (おもらし)
- urinate, yellow urine pool out of pussy
装飾
- padlock (南京錠)
- pillory (拘束板)
- nipple piercing
- nipless
- body writing (落書き)
- tally (体に描かれた正の字)
- wedding veil
- choker
- leash
- chain leash
- viewer holding leash
- collar connected by a chain
- animal collar
- harness collar
- harness cuffs
- handcuffs
- shackles (手枷)
- restrained
- pubic tattoo (下腹部の淫紋)
- stomach tattoo
- barcode tattoo
服
- cling wrap (サランランップ)
- nightgown
- lingerie
- negligee
- pantyhose
- torn pantyhose
- navel (へそ)
- open fly (ズボンの前ボタンやチャックを開けた状態)
- strap gap (紐と体の隙間)
- bra peek (ブラチラ)
- cloth aside
- panties aside (ショーツずらし)
- side-tie panties
- panty pull
- towel over breasts
- wrapped a (large white towel)
- strapless, naked towel (danbooru タグ)
- naked towel, [strapless onepiece::0.3]
- see-through white bikini
- torn clothes (破れた服)
- torn chainmail
- loincloth (ふんどし)
- diaper (おむつ、おしめ)
- boyshort panties (ボーイレッグ)
- bondage rope bind (緊縛)
- belted (ベルトいっぱい)
- fish net
- nipple slip (乳首チラ)
- areola slip (乳輪チラ)
- nipple cutout
- pussy cutout
- pubic hair (陰毛)
- anus peek
- topless
- crotchless panties (股間部なし)
- panty pull (脱ぎかけ)
pulling down panties - no panties
- naked
乳全般
サイズや形状については breasts を参照。
oppai も使える。
- colored nipples (変な色の乳首)
- puffy nipples
- huge nipples (デカ乳首)
- large areolae (デカ乳輪)
- inverted nipples (陥没乳首)
- lactation (乳の分泌、授乳)
- breast grab
- grabbing from behind
- heart pasties (ハート形のニップレス・前張り)
- sideboob (横乳)
- underboob (下乳)
- open at the chest
巨乳
- (huge breasts:1.5)
- huge bomb breasts
- cleavage of huge breasts
- large breasts
- huge breasts
- sagging breasts (垂れ乳)
普乳
- medium breasts
- small breasts
- neckline
- decollete
貧乳
貧乳は巨乳系の語をネガティブプロンプトに入れるのが確実だ。flat chest は有料の loli タグの代わりに使われていて、ロリ化する傾向にある。9yo のように年齢を指定する方法もある。
大人の貧乳は tall female, mature female, skinny, narrow waist, 190cm 等を併用して、ネガティブに child 等を入れる。
- 9yo
- flat chest
- skinny
- [[[[[breasts]]]]]
汗
- (sweaty skin)
マヨネーズ
汗やマヨネーズのようなエフェクトは img2img で後付けの方が効率的。身体が崩れにくくなる。
- mayonnaise
- slimy skin
- shiny
- shiny skin
- covered in white gooey paint
- wet with opaque globs of mayonnaise
- opaque sticky white goo
- dripping with strands of white goo
- ((((white slime)))), (wet)
精液
img2img を使うと好きな場所に精液を配置できる。
- pile of cum
- cum in pussy
- internal cumshot
- cumdrip (ペニスなし)
- overflow (ペニスあり)
- cum pool (床の精液)
- ejaculating while penetrated
- facial
- bukkake
- cum string
- pussy juice trail
- projectile cum
- cum in mouth
- cum on tongue
- cum on breasts
- cum on stomach
- cum on ass
- fertilization, ovum (受精エフェクト)
- cum bath filled with (mayonnaise:1.3)(精液風呂)
ゴム
- condom (ゴムの箱)
- single condom
- used condom
- condom wrapper (未開封のゴムひとつ)
- condom packet strip
事後
- after sex
- after vaginal
暴力
- molestation (痴漢)
breast grab, groping, fingering - bdsm
- bruise (打撲・あざ)
- injury (ケガ)
- punching
- ryona
- strangling (首絞め)
- asphyxiation (窒息)
- abuse (虐待・酷使)
- pain
- defloration (破瓜)
- bound
- bondage
- restrained
- breast grab
- pillory (首枷・晒し台)
- box tie (手を後ろで縛る)
- hanged (吊る)
- full-harness made of rope (ロープで縛る)
- full-harness made of chain
- chained
- stomach bulge
- force-feeding
そのほか
- pussy juice (愛液)
- uterus at viewer penis inserted into pussy from cross section looking through (断面図)
- mtu virus (立ち絵とスカートの中とを描いたもの)
- loli training wear
- sexy busty female teacher
- artificial vagina (オナホ)
- rainbow colorful luminescence long penis on bonsai (ゲーミングペニス盆栽)
- (ikebana:1.2), (glowing penis:1.3)(ゲーミングチンポ華道部)
作例
Waifu Diffusion v1.3

Steps=20
Sampler=Euler a
CFG scale=7.5
Size=384x640
prompt
absurdres, 1girl, jirai kei, choker, collared shirt, earrings, frills, looking at viewer, medium hair, pink hair, ring,
negative prompt
pablo picasso, long neck, long body, extra heads, bad anatomy, bad proportions, extra limbs, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, skin defects, Shoulder oracle bone, backshot tooth
Waifu Diffusion v1.2
作成環境
- ツール:openvino
- サンプラー:LMS
- モデル:Waifu Diffusion v1.2 openvino
typo が含まれているのでプロンプトは適宜直してください。たとえば bishojo 間違いで、正しい綴りは bishoujo。

seed=514388629
inference steps=15

inference steps=15
prompt
pinup Comic art, thick-line-drawing, bold outline, air-brush-paint, loli Turquoise twin tail, blush, extremely detailed symmetric faces, JoJo's Bizarre Adventure, decollete cleavage, simple studio lighting
negative prompt
deformed, bad_anatomy, disfigured, mutation, mutated, extra_limbs, ugly, fat, missing_limb, floating_limbs, disconnected_limbs, long_neck, long_body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly_drawn hands, malformed_hands, poorly_drawn face,poorly_drawn asymmetrical eyes

seed=637316554
inference steps=30

seed=922722266
inference steps=10

inference steps=8
prompt
extremely detailed, a chibi, girl with white marble glowing skin and dot nose and perfect symmetrical pretty face with blush cheeks, wavy hair slight smile pretty eyes with catchlight perfect oval iris, elegant dress with many frills, a crown on the head, gold accessories, jewelry, glint, light rays standing in castle with many flowers
negative prompt
deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs,long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes

seed=684821328
inference steps=15

seed=103004710
inference steps=30

seed=78227016
inference steps=8

inference steps=15
prompt
art by krenz cushart and violet evergarden, navy school suimsuit, shiny wet navy one-piece leotard, view straight on, a loli girl with white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring eyes wearing navy school swimsuit in the evening on sunny day standing in beach, golden hour lighting, strong rim light
negative prompt
2girls, deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs, long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes
スクール水着は生成が難しい。1,000 枚以上作成して一番良かったものがこれ

seed=684889441
inference steps=15

inference steps=15
prompt
2girl, two bishojo snuggled up selfie, with white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring eyes wearing a school uniform, golden hour lighting, strong rim light, intense shadows
negative prompt
1girl, solo, deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs,long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes

inference steps=15
prompt
two bishojo embrace each other, 2girl hug each other tight, with white marble glowing skin and perfect symmetrical pretty face with blush cheeks and glaring eyes wearing a school uniform, golden hour lighting, strong rim light, intense shadows, too many flowers
negative prompt
1girl, solo, deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs,long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eye

inference steps=8
prompt
hololive, uruha_rushia, 1girl, bangs, bare shoulders, red eyes, blue dress, blue green hair, blue sleeves, blush, bow, breasts, chick, collarbone, detached collar, detached sleeves, double bun, eyebrows visible through hair, frills, hair ornament, medium hair, off-shoulder dress
negative prompt
deformed, bad anatomy, disfigured, mutation, mutated, extra limbs, ugly, fat, missing limb, floating limbs, disconnected limbs, long neck, long body, part of the head, mutated hands and fingers, intricate human hands fingers, poorly drawn hands, malformed hands, poorly drawn face, poorly drawn asymmetrical eyes
解説リンク
絵下手マンがWaifu Diffusionでファンアートを描く方法
続・絵下手マンがWaifu Diffusionでファンアートを描く方法 加筆ノウハウ編
より思い通りの画像を作る!img2img&フォトバッシュ複合ワークフローについて[StableDiffusion]
AI画像生成を利用した着色高速化ワークフロー[NovelAI]
Stable Diffusion に関するニュース
DeepFloyd IF
Stable Diffusion は潜在空間で描いた絵を VAE でピクセル空間に戻し、VAE でアップスケールしていた。このとき VAE にプロンプトの情報を入力していないので、細部の再現性に問題があった。
DeepFloyd IF はピクセル空間で 64x64 の絵を描き、アップスケーラーを2回実行して 1024x1024 の画像を作成する。アップスケーラーにはプロンプトの情報が入力されるので、通常のアップスケーラーより高性能である。
DeepFloyd IF の描画フロー
DeepFloyd IF は3ステージで絵を描く。
ステージ1ではプロンプトから生成した Text Embedding を利用して、64x64 の画像をピクセル空間で描く。
ステージ2では 64x64 の画像と Text Embedding とを利用して、256x256 の画像へアップスケーリングする。
ステージ3では 256x256 の画像と Text Embedding とを利用して、1024x1024 の画像へアップスケーリングする。
ステージ2とステージ3とのアップスケーラーは個別に専用のモデルが使用される。
外部リンク
IF by DeepFloyd Lab at StabilityAI
Stability AIが大規模言語モデルを取り入れた高性能なテキストから画像への変換モデル「DeepFloyd IF」を発表
Attention
論文解説 Attention Is All You Need (Transformer)
30分で完全理解するTransformerの世界VAE
VAEは画像を生成する生成モデル。
AutoEncoderはあくまで潜在空間の取得が目的で、(エンコーダーで得られる)高次の特徴をアップサンプリング+Skip-connectionで解像度を上げていくU-Netとは目的が違うような… / “オートエンコーダーとして…” https://t.co/3Fvrx8E9G6
— yu4u (@yu4u) November 12, 2018
【Tensorflowによる実装付き】Variational Auto-Encoder(VAE)を理解する
【PyTorch】VAE(Variational Auto-Encoder)を実装する
深層学習/VAE (Variational Autoencoder) を実装する
【論文解説+Tensorflowで実装】VQ-VAEを理解する
CLIP
話題のOpenAIの新たな画像分類モデルCLIPを論文から徹底解説!
U-Net
DiffusionモデルをPyTorchで実装する② ~ U-Net編
拡散モデル
The Illustrated Stable Diffusion
Stable Diffusion を基礎から理解したい人向け論文攻略ガイド【無料記事】
画像生成 AI の最前線!拡散モデル・画像生成モデルの最新研究を解説
Stable Diffusion with Diffusers
Generative Modeling by Estimating Gradients of the Data Distribution
Training custom Ai generative models
Cross-Attention in Transformer Architecture
NovelAI
NovelAI Improvements on Stable Diffusion
NovelAI Aspect Ratio Bucketing
NovelAI Aspect Ratio Bucketing の翻訳
論文
DiffusionによるText2Imageの系譜と生成画像が動き出すまで
世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!
【AI論文解説】DALL-E 2へ至るまでの道のり:文章に沿った画像を高品質かつ多様に生成 -詳細編-
画像生成も畳み込まない!TransformerによるGAN「TransGAN」誕生&解説!
Neural Discrete Representation Learning (Vector Quantized – VAE)
U-Net: Convolutional Networks for Biomedical Image Segmentation
High-Resolution Image Synthesis with Latent Diffusion Models
Diffusion Models Beat GANs on Image Synthesis
Elucidating the Design Space of Diffusion-Based Generative Models
Denoising Diffusion Implicit Models (DDIM スケジューラー)
Denoising Diffusion Probabilistic Models (DDPM スケジューラー)
Pseudo Numerical Methods for Diffusion Models on Manifolds (PNDM スケジューラー)
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
High-Resolution Image Synthesis with Latent Diffusion Models (LDSR)
HyperNetwork
Contextual HyperNetworks for Novel Feature Adaptation
Hypernetwork functional image representation
eDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers
eDiffi はテストエンコーダーに CLIP と T5XXL を使い、64x64 の画像をつくる。そして 4x アップスケーラーを2回適用し 1k x 1k の画像にする。
従来の拡散モデルはデノイザ1つでデノイズしていたが、eDiffi はデノイズのステップごとにデノイザを分けて個別に学習させることで合成能力を向上させている。
そのほかのリンク
Tools and Resources for AI Art
Video Diffusion Models Cascaded Diffusion Models × 3D U-Net
paint-with-words-sd (テキストでオブジェクト位置を指定できる)
Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold
DAAM
プロンプトの各単語が画像のどの部分に効いているかを可視化する。
Poisson Flow Generative Models
拡散モデルより 10 倍~ 20 倍高速に動作するらしい。
Phenaki - Pytorch
テキストから動画を作成する。
Make-A-Video
テキストや画像から動画を作成するサービス。
DreamFusion: Text-to-3D using 2D Diffusion
テキストから 3D を生成する AI の調整に画像を生成する AI を使うことで、学習用 3D データなしでテキストから 3D データが出力できるようになるという論文。
Point·E
テキストから 3D の point clouds を生成する。
Mubert-Text-to-Music
テキストから音楽を作成する。
Text2LIVE
プロンプトで指示して、画像や動画を編集する。
EbSynth
動画を絵画調にする。
Anime2Sketch
イラストを線画にする。
Sketch-Guided Text-to-Image Diffusion Models
絵心がない線画を“いい感じの作品”に変える画像生成AI「Sketch-to-Image」 Googleなどが開発
[ RIFFUSION ]
Stable Diffusion を使って音楽を生成する。
動画
AI 動画で高解像度の動画を変換する Tips
低解像度(512x512 前後)かつ低 Denoising Strength で変換したものを SD Upscale する。