NoobAI のテキストエンコーダーは壊れている
カテゴリ:deeplearning
Text encoders in Noobai are... PART 2
上記の記事の中で Recall@1 が出てくるが、これはキャプションに対応した画像を選択する確率が 1 位になる確率だ。Recall@5 になると5位以内に入る確率になる。
NoobAI のテキストエンコーダーは両方壊れていて、タグ数が増えると性能が劣化する。NoobAI の Clip G は タグ数 35 で Recall@1 は 0.3(MAX 1.0)だが、記事作者が作成したファインチューンモデルではタグ数 35 で 0.8 の Recall@1 を達成している。記事作者はテキストエンコーダーの再学習に 4060ti を 1 晩使っただけだ。
NoobAI の Clip L は何もしていないので、これを差し替えると性能が上がる。ということは NoobAI は Clip G に全面的に依存しており、これを差し替えるとまともに機能しなくなる。
性能の上がった Clip G を使うには、テキストエンコーダーをフリーズして NoobAI を再学習させる必要がある。