YOLO v8 のファインチューニング
AUTOMATIC1111 の Dreambooth の使い方
LoRA はLoRA の学習方法に移動した。
目次
- 概要
- 正則化画像の必要性
- Parameters
- Advanced
- Concepts
- A Few Dreambooth Observations and Tips, Leafier Closer Shots With the New Vae File (higher CFG)
- モデルの圧縮(脱水)
画像生成 AI の限界
画像生成の出力は以下の限界がある。
- 学習データセット
- テキストエンコーダー・モデルの表現力
- 汎化能力が思ったほど高くない
- オペレータの語彙と想像力
言語の限界が現在の画像・動画生成の限界で、手書きの場合は言語化不可能な概念を画像で表現できる。言い換えると、Danbooru 語で訓練された AI は Danbooru タグを追加できないが、手書きなら Danbooru タグにない絵を描いて新しい Danbooru タグを追加できる。
1. データセットと汎化能力
Flow-GRPO の学習方法
Flow-GRPO: Training Flow Matching Models via Online RL
Flow-GRPO より Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models の方が学習が早い。
Flow-GRPO の強み
DDPO はユーザーの選好データを集めるコストが高い。Flow-GRPO は以下のような画像評価モデルを使用し、教師画像を使わずモデルのみで画質やプロンプトの追従性を向上させられる。ただし Flow-GRPO は非常に計算コストが高く、予算もしくは豊富な計算資源を持っている場合に使える。
評価モデル例
ComfyUI の ModelSamplingAuraFlow とは何か
ModelSamplingAuraFlow は高解像度画像を生成する際に、ノイズが不足しないようにするノード。
中身は ModelSamplingSD3 ノードと同じ。詳細は SD3 論文の p. 10 Resolution-dependent shifting of timestep schedules を参照。
ノイズを増量することで画像にディティールを追加する使い方もできる。
Stable Video Infinity のエラーリサイクリングファインチューニングとは何か
vita-epfl/Stable-Video-Infinity
この論文の考え方はとても重要だ。既存の生成 AI は推論時にエラーが発生するにも関わらず、学習時には推論エラーがないものとして学習していた。なので推論が長くなるとエラーが蓄積し出力が劣化する。これは動画だけでなく LLM でも同様の現象が起こる。
エラーリサイクリングファインチューニングは意図的にモデルの推論エラーを学習データに注入することで、モデルに自己修正能力を持たせるファインチューニング手法だ。