dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

Diffusion-DPO(Diffusion-Direct Preference Optimization)の学習方法

カテゴリ:deeplearning

Diffusion-DPO Diffusion Model Alignment Using Direct Preference Optimization は SD3 でも使われた強化学習手法。SD3 ではランク 128 の LoRA として作成している。

ただし、画風や新しい概念の学習のような一般的なタスクは SFT(教師ありファインチューニング)が適している。「○○がうまく描けない」というニーズは○○が言語化できているので SFT を使うべき。SFT はデータセットを用意しやすいし学習負荷も低い。

Diffusion-DPO を使うケース

SFT(教師ありファインチューニング)と Diffusion-DPO との違い

続きを読む

bong_tangent スケジューラーの特徴

カテゴリ:deeplearning

続きを読む

ComfyUI のスタックトレースを取得する

カテゴリ:deeplearning

続きを読む

ComfyUI の EmptyLatentImage と EmptySD3LatentImage の違い

カテゴリ:deeplearning

続きを読む

スケール則の終わり

カテゴリ:deeplearning

LLM のスケール則はモデルサイズ、データセットサイズ、学習に使う計算量の3つを適切な比率で増加させれば、LLM の性能は増加量に比例して向上する、という経験則だ。

しかし LLM のデータセットは Web のスクレイピングデータで、それで差別化するのが困難になった。その結果 CoT や RLVR のような計算リソースをつぎ込んで性能を上げる手法を使うようになった。現在の方向では最も低コストな計算リソースを所有する企業が勝者になり、それは自社で学習・推論用 TPU を設計・製造できる Google になる可能性が高い。

続きを読む

タグキャプションを使用した大規模学習

カテゴリ:deeplearning

続きを読む

python, torch, cuda の tips

カテゴリ:deeplearning

CUDA は後方互換性があるので、nvcc -V の出力より前のライブラリでビルドされているものも実行できる。

続きを読む

Python 3.13 で kohya-ss sd-scripts の環境構築

カテゴリ:deeplearning

xformers は使わない(--sdpa を使う)ので入れていない。

続きを読む