広告
広告

AUTOMATIC1111 Web UI の Clip skip とは何か

カテゴリ:deeplearning

Stable Diffusion 1.x で使われている CLIP

Stable Diffusion 1.x で使われている CLIP は 12 層からなるモデルだ。層が深くなるにつれて複雑な概念を表現する。実際は違うが、例えば1層は person、2層は man, woman, boy, girl 3層は father, mother など。つまり層が深いほどプロンプトの複雑な概念を拾える。

Clip skip

Clip skip は CLIP 層のどこで止めるかを指定する。Clip skip1は全ての層を通過する。Clip skip2は最後の1層をスキップする。Clip skip3は最後の2層をスキップ(つまり 10 層通過)する。

Clip skip は danbooru タグで学習されたモデルで使うことを想定されている。danbooru タグは構造化されており、1girl や solo のようなメジャータグはマイナータグの影響を受けてしまう。Clip skip を設定することで、より後ろの層で評価されるマイナータグの影響力を小さくすることができる。

注意点

複雑なプロンプトで Clip skip を大きくするとプロンプトが単純化されてしまう。

Stable Diffusion 2.x のモデルは OpenCLIP を使っているので、Clip skip は無視される。

外部リンク

What exactly is clip skip? #5674


広告
広告