画像生成 AI の限界
画像生成の出力は以下の限界がある。
- 学習データセット
- テキストエンコーダー・モデルの表現力
- 汎化能力が思ったほど高くない
- オペレータの語彙と想像力
言語の限界が現在の画像・動画生成の限界で、手書きの場合は言語化不可能な概念を画像で表現できる。言い換えると、Danbooru 語で訓練された AI は Danbooru タグを追加できないが、手書きなら Danbooru タグにない絵を描いて新しい Danbooru タグを追加できる。
1. データセットと汎化能力
画像生成 AI の能力は以下の3つが重要だ。
- モデル
- 画像の多様性
- キャプション
モデルと画像の多様性との重要さは理解されている。テキストエンコーダーの能力が高くても、キャプションが貧弱なら適切な画像を作成できない。
キャプションを詳しく書いて学習させるとモデルの能力は上がるが、オペレーターに長文を書く能力が要求されるようになる。
2. テキストエンコーダー・モデルの表現力
テキストエンコーダーの語彙や関係性表現力、モデルの表現力も制限になる。
現在は LLM や VLM をテキストエンコーダーに採用することが一般化しており、テキストエンコーダー自体の能力が不足することはない。どちらかと言うとキャプションの不十分さの方が問題が多い。
3. 汎化能力の低さ
学習内容の応用能力の低さはあまり周知されていない。
たとえば「The clock that the hands are showing 8:20.」というプロンプトで画像を生成させても、10:10 の画像を生成してしまう。人間なら 10:10 の画像1枚から 8:20 の画像を作成可能だ。
上の画像を FLUX.1 Kontext [dev] に入力し「Change the clock hands to 8:20.」としても画像を修正できない。
FLUX.1 Kontext・Qwen Image Edit・ChatGPT・Gemini のようなマルチモーダルモデルは、色変え・コラージュ・削除・スタイル変換はうまくできる。これはデータセットを作成して学習させているからで、AI が自力で編集能力を獲得したのではない。
4. オペレータの語彙と想像力
オペレータの語彙と文章生成能力とが生成される画像の品質に直接影響する。オペレーターの語彙が少ない場合は i2i を使ったコラージュぐらいしかできない。