Python 3.13 で kohya-ss sd-scripts の環境構築
カテゴリ:deeplearning
xformers は使わない(--sdpa を使う)ので入れていない。
NovelAI Diffusion V3 の改善点
カテゴリ:deeplearning
YOLO v8 のファインチューニング
カテゴリ:deeplearning
バッチ正規化の Tips
カテゴリ:deeplearning
バッチ正規化自体に性能を向上させる能力はない
NVIDIA の AMP が遅くなる理由
カテゴリ:deeplearning
GAN の学習
カテゴリ:deeplearning
llama-cpp-python + CUDA + Windows ビルドメモ
カテゴリ:deeplearning
Stable Diffusion のファインチューンの Tips
カテゴリ:deeplearning
LoRA はLoRA の学習方法へ移動した。
LoRA 以外の情報(Hypernetwork や Textual Inversion、Dreambooth)はStable Diffusion の古い情報へ移動した。
目次
U-Net の学習
わかりやすい解説として「U-Net は画像のデノイズを行う」という説明がされるが、これは正確には間違いだ。U-Net は除去すべきノイズを出力する。
学習のプロセスは以下のようになる。
- ランダムにタイムステップ t ∈ [0, 1000]を選ぶ
- 教師画像にタイムステップ t に対応するノイズを付与する
- U-Net にノイズを付与した教師画像とタイムステップ t とコンテクスト(embedding 化したキャプション)を入力
- U-Net が除去すべきノイズを出力する
- 付与したノイズと U-Net が出力したノイズとの差分から平均二乗誤差(MSE)を計算する
- 差分を逆伝播して学習する
タイムステップはノイズの量をきめる。0 が教師画像そのもので、1000 が純粋なノイズ画像だ。
概要
2023 年8月現在 LoRA 一強の状況で、Textual Inversion・Hypernetwork・Dreambooth(正則化画像) はほとんど使われていない。
U-Net や Diffusion Transformer はどのようにして可変解像度に対応しているのか
カテゴリ:deeplearning
固定幅入力・逆順生成の動画生成 AI FramePack の論文の解説
カテゴリ:deeplearning