Stable Diffusion のファインチューンの Tips
カテゴリ:deeplearning
LoRA はLoRA の学習方法へ移動した。
LoRA 以外の情報(Hypernetwork や Textual Inversion、Dreambooth)はStable Diffusion の古い情報へ移動した。
目次
U-Net の学習
わかりやすい解説として「U-Net は画像のデノイズを行う」という説明がされるが、これは正確には間違いだ。U-Net は除去すべきノイズを出力する。
学習のプロセスは以下のようになる。
- ランダムにタイムステップ t ∈ [0, 1000]を選ぶ
- 教師画像にタイムステップ t に対応するノイズを付与する
- U-Net にノイズを付与した教師画像とタイムステップ t とコンテクスト(embedding 化したキャプション)を入力
- U-Net が除去すべきノイズを出力する
- 付与したノイズと U-Net が出力したノイズとの差分から平均二乗誤差(MSE)を計算する
- 差分を逆伝播して学習する
タイムステップはノイズの量をきめる。0 が教師画像そのもので、1000 が純粋なノイズ画像だ。
概要
2023 年8月現在 LoRA 一強の状況で、Textual Inversion・Hypernetwork・Dreambooth(正則化画像) はほとんど使われていない。
U-Net や Diffusion Transformer はどのようにして可変解像度に対応しているのか
カテゴリ:deeplearning
固定幅入力・逆順生成の動画生成 AI FramePack の論文の解説
カテゴリ:deeplearning
NoobAI-XL 1.0 のアーティストブレンド例
カテゴリ:deeplearning
Textual Inversion の使い方
カテゴリ:deeplearning
目次
- Textual Inversion
- Textual Inversion の特徴
- AUTOMATIC1111WebUI で Embedding の作成
- パラメータの説明
- Embedding のトレーニング
- Do not resize image
- Gradient Accumulation
- Shuffle tags by ',' when creating prompts.
- Drop out tags when creating prompts.
- latent sampling method
- 例1
ControlNet のネットワーク構造
カテゴリ:deeplearning
ControlNet は追加のネットワークを挿入するタイプのファインチューン技法だ。ControlNet のネットワークは U-Net の IN と MID のコピーで、学習開始前の状態ではウェイトも丸々コピーする。
通常は U-Net にノイズ画像を入力してデノイズするように学習させる。しかし ControlNet の入力には目的タスクに応じて線画画像や棒人間などを入力して、コピーした U-Net の IN と MID を学習させる。
Hypernetwork の使い方
カテゴリ:deeplearning
目次
- Hypernetwork
- Modules
- Move VAE and CLIP to RAM when training hypernetwork. Saves VRAM
- Hypernetwork layer structure
- Select activation function of hypernetwork
- Add layer normalization
- Use dropout
- Overwrite Old Hypernetwork
- tips
- 使わない方がいい活性化関数
- 活性化関数ガイド
- Hypernetwork training #2284
- Hypernetwork Style Training, a tiny guide #2670
- Hypernetwork training for dummies
- 例1
AUTOMATIC1111 Web UI の Clip skip とは何か
カテゴリ:deeplearning
Stable Diffusion 1.x で使われている CLIP
Stable Diffusion XL の改善点
カテゴリ:deeplearning
sdxl_report.pdf
openvino(CPU)版で Waifu Diffusion を実行する(Windows, Linux)
カテゴリ:deeplearning