AUTOMATIC1111 Web UI の Clip skip とは何か

Stable Diffusion 1.x で使われている CLIP

Stable Diffusion 1.x で使われている CLIP は 12 層からなるモデルだ。層が深くなるにつれて複雑な概念を表現する。実際は違うが、例えば１層は person、２層は man, woman, boy, girl ３層は father, mother など。つまり層が深いほどプロンプトの複雑な概念を拾える。

Clip skip

Clip skip は CLIP 層のどこで止めるかを指定する。Clip skip１は全ての層を通過する。Clip skip２は最後の１層をスキップする。Clip skip３は最後の２層をスキップ（つまり 10 層通過）する。

Clip skip は danbooru タグで学習されたモデルで使うことを想定されている。danbooru タグは構造化されており、1girl や solo のようなメジャータグはマイナータグの影響を受けてしまう。1girl や solo のようなタグはあらゆる画像についているので、それ自身のタグ以外の概念を多く学習してしまっている。Clip skip を設定することで、より後ろの層で評価されるマイナータグの影響力を小さくすることができる。

具体的には、プロンプトに pubic tattoo を指定すると pubic hair が現れる場合、Clip skip を２以上に設定することで pubic hair の影響を除去できる。

注意点

複雑なプロンプトで Clip skip を大きくするとプロンプトが単純化されてしまう。

Stable Diffusion 2.x のモデルは OpenCLIP を使っているので、Clip skip は無視される。Stable Diffusion XL でも Clip Skip は無視される。

外部リンク

What exactly is clip skip? #5674