NAG Normalized Attention Guide の原理

カテゴリ：deeplearning

CFG はプロンプトとネガティブプロンプトとを使用して推論し、モデルの出力を引き算する。なので推論時間は約２倍になる。

CFG は数ステップで推論する蒸留モデルでは効果が小さい。

NAG は CFG よりも計算が速く、蒸留モデルでも使える。

NAG はプロンプトとネガティブプロンプトとでアテンションの KV 行列を２つ作成する。Q はノイズ画像。プロンプトで計算した QKV の出力と、ネガティブプロンプトで計算した QKV の出力を引き算する。

SDXL は U-Net を使用し、プロンプトの取り込みにしかアテンションを使わないので、SDXL では NAG は効果は小さい。

外部リンク