dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

Stable Diffusion のファインチューンの Tips

カテゴリ:deeplearning

LoRA はLoRA の学習方法へ移動した。

LoRA 以外の情報(Hypernetwork や Textual Inversion、Dreambooth)はStable Diffusion の古い情報へ移動した。

目次

U-Net の学習

わかりやすい解説として「U-Net は画像のデノイズを行う」という説明がされるが、これは正確には間違いだ。U-Net は除去すべきノイズを出力する

学習のプロセスは以下のようになる。

  1. ランダムにタイムステップ t ∈ [0, 1000]を選ぶ
  2. 教師画像にタイムステップ t に対応するノイズを付与する
  3. U-Net にノイズを付与した教師画像とタイムステップ t とコンテクスト(embedding 化したキャプション)を入力
  4. U-Net が除去すべきノイズを出力する
  5. 付与したノイズと U-Net が出力したノイズとの差分から平均二乗誤差(MSE)を計算する
  6. 差分を逆伝播して学習する

タイムステップはノイズの量をきめる。0 が教師画像そのもので、1000 が純粋なノイズ画像だ。

概要

2023 年8月現在 LoRA 一強の状況で、Textual Inversion・Hypernetwork・Dreambooth(正則化画像) はほとんど使われていない。

続きを読む

U-Net や Diffusion Transformer はどのようにして可変解像度に対応しているのか

カテゴリ:deeplearning

続きを読む

固定幅入力・逆順生成の動画生成 AI FramePack の論文の解説

カテゴリ:deeplearning

続きを読む

NoobAI-XL 1.0 のアーティストブレンド例

カテゴリ:deeplearning

続きを読む

Textual Inversion の使い方

カテゴリ:deeplearning

目次

続きを読む

ControlNet のネットワーク構造

カテゴリ:deeplearning

ControlNet は追加のネットワークを挿入するタイプのファインチューン技法だ。ControlNet のネットワークは U-Net の IN と MID のコピーで、学習開始前の状態ではウェイトも丸々コピーする。

通常は U-Net にノイズ画像を入力してデノイズするように学習させる。しかし ControlNet の入力には目的タスクに応じて線画画像や棒人間などを入力して、コピーした U-Net の IN と MID を学習させる。

続きを読む

Hypernetwork の使い方

カテゴリ:deeplearning

目次

続きを読む

AUTOMATIC1111 Web UI の Clip skip とは何か

カテゴリ:deeplearning

Stable Diffusion 1.x で使われている CLIP

続きを読む