dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

スケール則の終わり

カテゴリ:deeplearning

LLM のスケール則はモデルサイズ、データセットサイズ、学習に使う計算量の3つを適切な比率で増加させれば、LLM の性能は増加量に比例して向上する、という経験則だ。

しかし LLM のデータセットは Web のスクレイピングデータで、それで差別化するのが困難になった。その結果 CoT や RLVR のような計算リソースをつぎ込んで性能を上げる手法を使うようになった。現在の方向では最も低コストな計算リソースを所有する企業が勝者になり、それは自社で学習・推論用 TPU を設計・製造できる Google になる可能性が高い。

続きを読む

タグキャプションを使用した大規模学習

カテゴリ:deeplearning

続きを読む

Advantage Weighted Matching のアルゴリズム

カテゴリ:deeplearning

続きを読む

AI の手がうまく描けない問題はどのように解決されたか

カテゴリ:deeplearning

続きを読む

YOLO v8 のファインチューニング

カテゴリ:deeplearning

続きを読む

AUTOMATIC1111 の Dreambooth の使い方

カテゴリ:deeplearning

LoRA はLoRA の学習方法に移動した。

目次

続きを読む

画像生成 AI の限界

カテゴリ:deeplearning

画像生成の出力は以下の限界がある。

  1. 学習データセット
  2. テキストエンコーダー・モデルの表現力
  3. 汎化能力が思ったほど高くない
  4. オペレータの語彙と想像力

言語の限界が現在の画像・動画生成の限界で、手書きの場合は言語化不可能な概念を画像で表現できる。言い換えると、Danbooru 語で訓練された AI は Danbooru タグを追加できないが、手書きなら Danbooru タグにない絵を描いて新しい Danbooru タグを追加できる。

1. データセットと汎化能力

続きを読む

Flow-GRPO の学習方法

カテゴリ:deeplearning

Flow-GRPO: Training Flow Matching Models via Online RL

Flow-GRPO より Advantage Weighted Matching: Aligning RL with Pretraining in Diffusion Models の方が学習が早い。

Flow-GRPO の強み

DDPO はユーザーの選好データを集めるコストが高い。Flow-GRPO は以下のような画像評価モデルを使用し、教師画像を使わずモデルのみで画質やプロンプトの追従性を向上させられる。ただし Flow-GRPO は非常に計算コストが高く、予算もしくは豊富な計算資源を持っている場合に使える。

評価モデル例

続きを読む

Stable Video Infinity のエラーリサイクリングファインチューニングとは何か

カテゴリ:deeplearning

vita-epfl/Stable-Video-Infinity

この論文の考え方はとても重要だ。既存の生成 AI は推論時にエラーが発生するにも関わらず、学習時には推論エラーがないものとして学習していた。なので推論が長くなるとエラーが蓄積し出力が劣化する。これは動画だけでなく LLM でも同様の現象が起こる。

エラーリサイクリングファインチューニングは意図的にモデルの推論エラーを学習データに注入することで、モデルに自己修正能力を持たせるファインチューニング手法だ。

既存技術

続きを読む