dskjal
広告
広告

NoobAI のテキストエンコーダーは壊れている

カテゴリ:deeplearning

Text Encoders in Noobai are dramatically flawed - a bit long thread about topic you probably heard about, but never could find much practical information on. PART 1

Text encoders in Noobai are... PART 2

上記の記事の中で Recall@1 が出てくるが、これはキャプションに対応した画像を選択する確率が 1 位になる確率だ。Recall@5 になると5位以内に入る確率になる。

NoobAI のテキストエンコーダーは両方壊れていて、タグ数が増えると性能が劣化する。NoobAI の Clip G は タグ数 35 で Recall@1 は 0.3(MAX 1.0)だが、記事作者が作成したファインチューンモデルではタグ数 35 で 0.8 の Recall@1 を達成している。記事作者はテキストエンコーダーの再学習に 4060ti を 1 晩使っただけだ。

NoobAI の Clip L は何もしていないので、これを差し替えると性能が上がる。ということは NoobAI は Clip G に全面的に依存しており、これを差し替えるとまともに機能しなくなる。

性能の上がった Clip G を使うには、テキストエンコーダーをフリーズして NoobAI を再学習させる必要がある。


広告
広告

カテゴリ