NAG Normalized Attention Guide の原理
カテゴリ:deeplearning
CFG との違い
CFG はプロンプトとネガティブプロンプトとを使用して推論し、モデルの出力を引き算する。なので推論時間は約2倍になる。
NAG のアルゴリズム
NAG はプロンプトとネガティブプロンプトとでアテンションの KV 行列を2つ作成する。Q はノイズ画像。プロンプトで計算した QKV の出力と、ネガティブプロンプトで計算した QKV の出力を引き算する。KV キャッシュが効くので CFG より計算が速い。
外部リンク
Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models