Danbooru タグ検索
カテゴリ:deeplearning
画像生成 AI の限界
カテゴリ:deeplearning
画像生成の出力は以下の限界がある。
- 学習データセット
- テキストエンコーダー・モデルの表現力
- 汎化能力が思ったほど高くない
- オペレータの語彙と想像力
言語の限界が現在の画像・動画生成の限界で、手書きの場合は言語化不可能な概念を画像で表現できる。言い換えると、Danbooru 語で訓練された AI は Danbooru タグを追加できないが、手書きなら Danbooru タグにない絵を描いて新しい Danbooru タグを追加できる。
1. データセットと汎化能力
バッチ正規化の Tips
カテゴリ:deeplearning
バッチ正規化自体に性能を向上させる能力はない
NVIDIA の AMP が遅くなる理由
カテゴリ:deeplearning
GAN の学習
カテゴリ:deeplearning
llama-cpp-python + CUDA + Windows ビルドメモ
カテゴリ:deeplearning
Stable Diffusion のファインチューンの Tips
カテゴリ:deeplearning
LoRA はLoRA の学習方法へ移動した。
LoRA 以外の情報(Hypernetwork や Textual Inversion、Dreambooth)はStable Diffusion の古い情報へ移動した。
目次
U-Net の学習
わかりやすい解説として「U-Net は画像のデノイズを行う」という説明がされるが、これは正確には間違いだ。U-Net は除去すべきノイズを出力する。
学習のプロセスは以下のようになる。
- ランダムにタイムステップ t ∈ [0, 1000]を選ぶ
- 教師画像にタイムステップ t に対応するノイズを付与する
- U-Net にノイズを付与した教師画像とタイムステップ t とコンテクスト(embedding 化したキャプション)を入力
- U-Net が除去すべきノイズを出力する
- 付与したノイズと U-Net が出力したノイズとの差分から平均二乗誤差(MSE)を計算する
- 差分を逆伝播して学習する
タイムステップはノイズの量をきめる。0 が教師画像そのもので、1000 が純粋なノイズ画像だ。
概要
2023 年8月現在 LoRA 一強の状況で、Textual Inversion・Hypernetwork・Dreambooth(正則化画像) はほとんど使われていない。
U-Net や Diffusion Transformer はどのようにして可変解像度に対応しているのか
カテゴリ:deeplearning
固定幅入力・逆順生成の動画生成 AI FramePack の論文の解説
カテゴリ:deeplearning
NoobAI-XL 1.0 のアーティストブレンド例
カテゴリ:deeplearning