Waifu Diffusion で効率的に画像を生成する
カテゴリ:deeplearning
プロンプトリストはプロンプトやよく検索されているプロンプト(R18)、danbooru タグ検索を参照。
目次
- ワークフロー
- ツールの選択
- Stable Diffusion のモデルリンク
- Stable Diffusion の解説
- Tips
- 上手く描けない場合(胴が長いなど)はアスペクト比を変えてみる
- クオリティタグを使う
- CFG Scale を上げる
- 解像度を上げると頭や体が複数融合する
- Denoising Strength を下げると画質が落ちる
- 細部の修正
- 手の修正
- 手の自由度
- 高解像度化
- 色のコントロール
- 顔に影ができる
- ファインチューニング
AI を使用した漫画作画
カテゴリ:deeplearning
この記事の作例は指定がなければ Qwen Image Edit 2511 を使っている。
目次
ComfyUI の ConditioningZeroOut ノードの使い方
カテゴリ:deeplearning
蒸留技術まとめ
カテゴリ:deeplearning
Qwen Image Layered を ComfyUI で動かす
カテゴリ:deeplearning
Qwen Image Layered は画像1枚とプロンプトを入力すると、複数枚の透過画像を出力するモデルだ。
学習画像は主にポスターで、文字・画像・背景・小物を分離するのが得意だ。Live2D 用に人体のパーツを分解することはできない。
Wan 2.1 の論文メモ
カテゴリ:deeplearning
Diffusion-DPO(Diffusion-Direct Preference Optimization)の学習方法
カテゴリ:deeplearning
Diffusion-DPO Diffusion Model Alignment Using Direct Preference Optimization は SD3 でも使われた強化学習手法。SD3 ではランク 128 の LoRA として作成している。
ただし、画風や新しい概念の学習のような一般的なタスクは SFT(教師ありファインチューニング)が適している。「○○がうまく描けない」というニーズは○○が言語化できているので SFT を使うべき。SFT はデータセットを用意しやすいし学習負荷も低い。
Diffusion-DPO を使うケース
- 言語化が困難だが描いてほしくないもの(暴力的・性的表現)がある
- ユーザーの選好データを持っている
- 細部の表現の崩れを改善したい
SFT(教師ありファインチューニング)と Diffusion-DPO との違い
bong_tangent スケジューラーの特徴
カテゴリ:deeplearning
ComfyUI のスタックトレースを取得する
カテゴリ:deeplearning
ComfyUI の EmptyLatentImage と EmptySD3LatentImage の違い
カテゴリ:deeplearning