画像生成 AI の限界

画像生成の出力は以下の限界がある。

言語の限界が現在の画像・動画生成の限界で、手書きの場合は言語化不可能な概念を画像で表現できる。言い換えると、Danbooru 語で訓練された AI は Danbooru タグを追加できないが、手書きなら Danbooru タグにない絵を描いて新しい Danbooru タグを追加できる。

画像生成 AI の能力は以下の３つが重要だ。

モデルと画像の多様性との重要さは理解されている。テキストエンコーダーの能力が高くても、キャプションが貧弱なら適切な画像を作成できない。

キャプションを詳しく書いて学習させるとモデルの能力は上がるが、オペレーターに長文を書く能力が要求されるようになる。

テキストエンコーダーの語彙や関係性表現力、モデルの表現力も制限になる。

現在は LLM や VLM をテキストエンコーダーに採用することが一般化しており、テキストエンコーダー自体の能力が不足することはない。どちらかと言うとキャプションの不十分さの方が問題が多い。

学習内容の応用能力の低さはあまり周知されていない。

たとえば「The clock that the hands are showing 8:20.」というプロンプトで画像を生成させても、10:10 の画像を生成してしまう。人間なら 10:10 の画像１枚から 8:20 の画像を作成可能だ。

ChatGPT 5

Gemini 2.5

Qwen Image

Gemini 2.5 Flash Image（nano-banana）

上の画像を FLUX.1 Kontext [dev] に入力し「Change the clock hands to 8:20.」としても画像を修正できない。

FLUX.1 Kontext・Qwen Image Edit・ChatGPT・Gemini のようなマルチモーダルモデルは、色変え・コラージュ・削除・スタイル変換はうまくできる。これはデータセットを作成して学習させているからで、AI が自力で編集能力を獲得したのではない。

オペレータの語彙と文章生成能力とが生成される画像の品質に直接影響する。オペレーターの語彙が少ない場合は i2i を使ったコラージュぐらいしかできない。