Stable Diffusion の古い情報
モデルリンク
stable-diffusion-xl-base-0.9
Stable-Diffusion 2.1
Stable-Diffusion 2.0
stable-diffusion-v1-5
waifu-diffusion-xl
Waifu Diffusion v1.5
WD 1.5 は5つのモデルがリリースされている。WD 1.5 Base はファインチューン用で、それ以外(Radiance, Ink, Mofu, Illusion)はデフォルト画風が違う。画風の違いは WD 1.5 Beta 3 - Release Notes で確認できる。
Waifu Diffusion v1.4(プレビュー版)
使うには v2-inference.yaml ファイルを wd14-booru-step-14000-unofficial.yaml にリネームして、safetensors ファイルと同じフォルダに入れる必要がある。
Waifu Diffusion v1.3
wd-v1-3-float16.ckpt か wd-v1-3-float32.ckpt をダウンロードする。float16 と float32 で出力される結果は変わらない。ただし full と float とでは少し結果が変わる。opt にはトレーニング用データが入っている。
what is the difference between 16 32 and full?
Waifu Diffusion v1.2
推論に不要な情報を削除したバージョン(pruned-waifu-diffusion)
trinart2_step115000.ckpt と Waifu Diffusionを5:5の比率でマージしたモデル
openvino バージョン(waifu-diffusion.openvino)
Easter
NSFW。Waifu 1.3 に比べて頭が切られにくく安定している。ネガティブプロンプトに Letterbox を入れることが推奨されている。
trinart V2 モデル
Stable Diffusion TrinArt Derrida model (Characters v2)
Stable Diffusion TrinArt Characters model v1
trinart_characters_19.2m_stable_diffusion_v1
AUTOMATIC1111 を使う場合は、autoencoder_kl-f8-trinart_characters.ckpt を trinart_characters_it4_v1.vae.pt にリネームして同じフォルダに入れる。成功するとLoading VAE weights from:~trinart_charatcters_it4_v1.vae.pt が表示される。
Hentai Diffusion
Hentai Diffuison ウイルスが検出されるが作者は混入を否定している。実行は自己責任で。
Waifu Diffusion v1.2 に Rule34 と Gelbooru とから収集した画像 15 万枚を追加学習させたモデル。Waifu で出すのが難しいポーズや手の改善を目的として作成された。Rule34 と Gelbooru とは Danbooru 同様、無断転載画像が多く含まれる。
NSFW
実写向き
Zeipher Female Nude (better anatomy)
ケモエロ
Stable Diffusion Furry Finetune Models:Furry (ケモナー) と yiffy (エロ特化)
yiffy はペニスを描くのが上手い。
R34
そのほか
LD と Waifu Diffusion を3:7の比率でマージしたモデル
キャラ特化モデル
Re:ゼロから始める異世界生活のヴィルヘルム・ヴァン・アストレア
nanachi dreambooth model (42 images on top of yiffy-e15) keyword: nanachiDB cute_furry_girl [nanachiDB-42imgs-5000steps.ckpt](https://mega.nz/file/xE9gFQYK#f61_2_OvDSOd4VRW3W9EoLpImwCBf1hauUFhW-iNtRw)
ryza dreambooth model (54 images on top of WD 1.3 beta)
keyword: rizaDB anime_girl (yes I misspelled the name)
SD_PixelArt_SpriteSheet_Generator
がうるぐら(VTuber)モデル
リンク集
diffusersで使える Stable Diffusionモデル一覧
画像生成AI「Stable Diffusion」でいろいろ特化した使えるモデルデータいろいろまとめ
Danbooru タグ列挙法
Danbooru タグ列挙法(Waifu Diffusion v1.2 限定)
文章を入力するのではなく、Danbooru タグを列挙することで出力を安定させる方法。以下の語順でプロンプトを並べると出力が安定する。
[作品タグ] [キャラクタータグ] [コンテンツタグ] [アーティストタグ]
参考作品がない場合は、プロンプトの頭に original を指定する。
参考キャラクターがない場合はキャラクタータグは省略可能。
コンテンツタグは作品・キャラクター・アーティスト以外のすべてのタグ。ただし "highres" のような学習に時に使ってないメタタグは入れない。
この時、各カテゴリごとにアルファベット順に並べ替える。
Danbooru タグの半角スペースはアンダーバーで置き換える。
タグは半角スペースを使って並べる。コンマやピリオドを使ってはならない。以下はプロンプト例。
kono_subarashii_sekai_ni_shukufuku_wo! megumin 1girl ^_^ backlighting blush brown_hair cape closed_eyes collar facing_viewer fingerless_gloves flat_chest gloves hat lens_flare short_hair short_hair_with_long_locks smile solo staff sunset witch_hat dacchi
Danbooru タグ以外の語は入力しない方が安定する。しかしタグではない句を使う場合は半角スペースをアンダーバーにする。たとえば cleavage_of_huge_breasts 有効なプロンプト数が減るデメリットの方が多いと感じたので訂正。
アンダーバーは1トークン消費するため、有効なプロンプト数が短くなるのがこの方法の欠点だ。
Danbooru タグ列挙法(Waifu Diffusion v1.3 限定)
- Danbooru タグの空白はそのまま入力する(空白をアンダーバーにする必要はない)
- Danbooru タグの () は削除する(たとえば pokemon (anime) は pokemon anime)
- Danbooru タグはコンマで区切る
- タグを並べ替える必要はない
以下のような文章のプロンプトではなく
a girl wearing a hoodie in the rain
以下のように Danbooru タグをコンマ区切りで入力する。
original, 1girl, solo, portrait, hoodie, wearing hoodie
Stable Diffusion に関するニュース
DeepFloyd IF
Stable Diffusion は潜在空間で描いた絵を VAE でピクセル空間に戻していた。このとき VAE にプロンプトの情報を入力していないので、細部の再現性に問題があった。
DeepFloyd IF はピクセル空間で 64x64 の絵を描き、アップスケーラーを2回実行して 1024x1024 の画像を作成する。アップスケーラーにはプロンプトの情報が入力されるので、通常のアップスケーラーより高性能である。
DeepFloyd IF の描画フロー
DeepFloyd IF は3ステージで絵を描く。
ステージ1ではプロンプトから生成した Text Embedding を利用して、64x64 の画像をピクセル空間で描く。
ステージ2では 64x64 の画像と Text Embedding とを利用して、256x256 の画像へアップスケーリングする。
ステージ3では 256x256 の画像と Text Embedding とを利用して、1024x1024 の画像へアップスケーリングする。
ステージ2とステージ3とのアップスケーラーは個別に専用のモデルが使用される。
外部リンク
IF by DeepFloyd Lab at StabilityAI
Stability AIが大規模言語モデルを取り入れた高性能なテキストから画像への変換モデル「DeepFloyd IF」を発表
eDiffi: Text-to-Image Diffusion Models with Ensemble of Expert Denoisers
eDiffi はテストエンコーダーに CLIP と T5XXL を使い、64x64 の画像をつくる。そして 4x アップスケーラーを2回適用し 1k x 1k の画像にする。
従来の拡散モデルはデノイザ1つでデノイズしていたが、eDiffi はデノイズのステップごとにデノイザを分けて個別に学習させることで合成能力を向上させている。