dskjal
広告
広告

NAG Normalized Attention Guide の原理

カテゴリ:deeplearning

CFG との違い

CFG はプロンプトとネガティブプロンプトとを使用して推論し、モデルの出力を引き算する。なので推論時間は約2倍になる。

NAG のアルゴリズム

NAG はプロンプトとネガティブプロンプトとでアテンションの KV 行列を2つ作成する。Q はノイズ画像。プロンプトで計算した QKV の出力と、ネガティブプロンプトで計算した QKV の出力を引き算する。KV キャッシュが効くので CFG より計算が速い。

外部リンク

Normalized Attention Guidance

Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models

GitHub


広告
広告

カテゴリ