deeplearning カテゴリの記事一覧を表示しています。

広告

広告

DDPO（Diffusion-Direct Preference Optimization）の学習方法

カテゴリ：deeplearning

Diffusion-DPO Diffusion Model Alignment Using Direct Preference Optimization は SD3 でも使われた強化学習手法。SD3 ではランク 128 の LoRA として作成している。

ただし、画風や新しい概念の学習のような一般的なタスクは SFT（教師ありファインチューニング）が適している。「○○がうまく描けない」というニーズは○○が言語化できているので SFT を使うべき。SFT はデータセットを用意しやすいし学習負荷も低い。

DDPO を使うケース

言語化が困難だが描いてほしくないもの（暴力的・性的表現）がある
ユーザーの選好データを持っている
細部のディールの甘さを改善したい

SFT（教師ありファインチューニング）と DDPO との違い

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ：deeplearning

目次

学習方法

性能検証

高速化

Cache

量子化と枝刈り

SFT vs RL

続きを読む

Qwen Image Edit 2509 を ComfyUI で実行する＋プロンプトリスト

カテゴリ：deeplearning

目次

量子化比較

手の編集

続きを読む

DDIM とオイラー法は何が違うか

カテゴリ：deeplearning

続きを読む

ComfyUI で使える高速化・VRAM 技術

カテゴリ：deeplearning

ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers（中身は FlashAttention）も使われていたが、最近では PyTorch attention を使うことが多い。

ComfyUI のオプションは comfy/cli_args.py を見るのが早い。

目次

続きを読む

Flow-GRPO の学習方法

カテゴリ：deeplearning

Flow-GRPO: Training Flow Matching Models via Online RL

Flow-GRPO の強み

DDPO はユーザーの選好データを集めるコストが高い。Flow-GRPO は以下のような画像評価モデルを使用し、教師画像を使わずモデルのみで画質やプロンプトの追従性を向上させられる。ただし Flow-GRPO は非常に計算コストが高く、予算もしくは豊富な計算資源を持っている場合に使える。

評価モデル例

続きを読む

ComfyUI で NetaYume-Lumina-Image-2.0

カテゴリ：deeplearning

目次

続きを読む

Waifu Diffusion で効率的に画像を生成する

カテゴリ：deeplearning

プロンプトリストはプロンプトやよく検索されているプロンプト（R18）、danbooru タグ検索を参照。

目次

ワークフロー

Stable Diffusion の解説

Tips

ファインチューニング

プロンプト

AI が描いた絵の見分け方

解説リンク

続きを読む

LoRA の学習方法

カテゴリ：deeplearning

画像加工

データの水増し

過学習防止

正則化画像は必要か

prior_loss_weight

学習

高速化

シードの固定

画風の学習

外部リンク

続きを読む

AUTOMATIC1111 の便利な機能

カテゴリ：deeplearning

AUTOMATIC1111 は更新を停止している。以下の移行先がある。

ComfyUI：最もユーザーが多く最新技術がいち早く取り入れられる。AUTOMATIC1111 と互換性はない
sd-webui-forge-classic：SD 1.5・SDXL 専用。AUTOMATIC1111 と互換性あり
sd-webui-forge-neo：classic と同じ作成者で最新機能を取り入れるブランチ。すでに Qwen Image Edit・Lumina Image 2.0・Wan・SageAttention などの技術は実装済み。AUTOMATIC1111 と互換性あり

目次

アップスケーラー

生成可能解像度

デティール追加

img2img

プロンプト

ファインチューン

操作

Generate ボタンを右クリック > Generate forever で止めるまで生成。止めるときは右クリック > cancel
Ctrl + Enter で Generate
Ctrl + Z プロンプトを元に戻す
スライダーをクリックした後十字キーで１ずつ増減できる
Alt + ← or → カンマ区切りの文字を選択して左右移動（1.5.0 以降）

検証

UI

高速化

省メモリ

fp8 設定（forge）

そのほか

Extension など

Controlnet

ポーズ・構図の指定と着色ができる。Image2Image はグレースケール画像の着色ができなかったが Controlnet ではそれができる。
ControlNet の新モデル Anystyle
Reference-Only（参考画像を基にイラスト作成）
ControlNetでポーズや構図を指定してAIイラストを生成する方法
AUTOMATIC1111+ControlNetのつかいかた2(目当ては自動塗り)
AIで適当な線画を清書し、さらに色を塗って高品質なイラストに仕上げる方法【ControlNet活用術】
画像生成AIを線画整えツールや自動彩色ツールにする
Character bones that look like Openpose for blender _ Ver_6 Depth+Canny+Landmark（Blender 上でポージングできるツール）
「ControlNet 1.1」の新機能まとめ！新しいモデルや改善点を紹介【Stable Diffusion】
ControlNet(v1.1)の詳しい解説！輪郭やポーズから思い通りの絵を書かせる
入力線画を全く変えずに画像生成AIに色塗りさせる方法
MLSD
プリプロセッサの dw_openpose（写真から棒人間を作成して入力）
Multi-Controlnet

Multi ControlNetによる画像の構図制御

Extension

Model

controlnet-canny-sdxl-1.0

モデルマージ

続きを読む

広告

広告

カテゴリ