Qwen Image Edit 2511 を ComfyUI で実行する+プロンプトリスト
目次
- 特徴
- 概要
- ComfyUI のアップデート
- モデル
- ワークフロー
- 動作速度
- 解像度リスト
- keypoint pose 編集
- 日本語のレンダリング
- プロンプト
- 入力画像認識
- 知っておくべき2種類のプロンプトパターン
- プロンプトガイド
- Qwen-Image-Edit-2509 公式プロンプト例
- Qwen-Image-Edit-2511 公式プロンプト例
- カメラアングル変更 LoRa
- Mask Editor
- 作例
RTX3050+ComfyUI で SageAttention の導入
目次
- 1. ComfyUI のインストールと venv の有効化
- 2. 環境情報の取得
- 3. Visual Studio 2015-2022 用 Visual C++ 再頒布可能パッケージのインストール
- 4. triton-windows のインストール
- 5. SageAttention のインストール
- 6. ComfyUI で SageAttention の有効化
- 7. TorchCompile のパス制限について
- Patch Sage Attention KJ ノード
【NSFW 注意】ComfyUI で circlestone-labs の Anima を使う
A1111系列はforge-neoが対応している(Anima #738)。
Anima は軽量で NSFW の絡みが出せるのが特徴だ。
しかしテキストエンコーダーが 0.6B しかない(現在の軽量モデルは 4B を使うのが主流)ので細かい指示はできない。たとえばダンボールデータセットにないポーズは自然言語でポーズを指定できなかったり、タグの伝染が起こったり、プロンプトが長くなると指示が守られなかったりする。
ただしテキストエンコーダーの能力が低くても、個数指定や左右指定ぐらいはできる。例えば thigh strap の個数や左右位置を指定できたり、左右非対称の衣装を固定したりできる。
Anima はダンボールデータセットにあるポーズしか出せないし、ダンボールデータセットにあるオブジェクトしか描けない。Z-Image や FLUX.2 klein は自然言語でポーズを指示でき、多様なオブジェクトを知っているが、Anima はテキストエンコーダーもモデルも貧弱かつ、データセットが偏っているので汎用性がない。
なので Anima だけですべての作業をするのではなく、ダンボールタグ外の要素は FLUX.2 klein や Qwen Image Edit のような編集モデルを使う割り切りが必要。
アーティストタグを使うなら以下のワークフローはすでに実用レベル:
- Anima で下絵
- アップスケール
- Illustrious の派生モデルで i2i (ディティールの追加・シャープネスアップ・画風の固定)
- SAM2 や SAM3 でセグメンテーション(なくてもいい)
- Illustrious の派生モデルで Detailer
目次
- 利点
- 欠点
- モデル
- ワークフロー
- 設定
- プロンプト
- タグと自然言語との使い分け
- 画力を上げる
- タグの記述順
- クオリティタグ
- 自然言語
- タグの伝染
- 強調構文
- 枠・帯
- 面積制御
- 顔の影対策
- テキストレンダリング
- コマの位置の指定
- ComfyUI のプロンプト編集機能
- コンマの後ろのスペースは必須
- オノマトペ
- tips
- 作例
- LoRa 作成
よく検索されているプロンプト(R18)
ComfyUI で FLUX.2 klein 9B を使う
FLUX.2 klein 9B の編集能力は高い。物体除去、画像のモノクロトーン化、線画を維持した着色が高速でできる。FLUX.2 klein 9B をデフォルトで使い、できないタスクは Qwen Image Edit や FLUX.2 dev や Nano Banana Pro に投げるのがいいだろう。
Klein 4B は MCP サーバーを立てて LLM と同時に使うと楽しい。
昨今の強化学習で絵が固定されたモデルと違い、シードで多様性が出せるのもよい。
欠点
- 一貫性の維持ができない
- 編集すると色が変化する
- FLUX.2 は HEX コードや参照色で色を指定できるが、klein では機能しない
- 1~2ピクセルのピクセルシフトがおこる(ピクセルシフトが問題なら Qwen Image Layered や FLUX.2 dev を使う)
- 参照画像の顔をコピペできない場合は顔がそこそこ変化する
- t2i の性能は Z Image Turbo の方がよりリアルでプロンプトの追従性が高い
- 指が溶けたり腕が増えたりする(蒸留モデルでガチャをすればいいので、あまり問題ではない)
目次
- 必要スペック
- モデル
- ワークフロー
- 実行速度
- サンプラーなど
- プロンプト
- LoRa 作成
- 作例
T2I 拡散モデルの設計メモ
目次
- 概要
- クラウド GPU
- テキストエンコーダー
- VAE
- GAN
- コンディショニング
- 位置埋め込み
- 目的関数
- Transformer アーキテクチャ
- Transformer を使わないアーキテクチャ
- Gated MLP
- ブロック図
- データセット
- キャプショニング
- スケジューラー
- 学習方法
- Classifier Free Guidance
- Adaptive Projected Guidance
- Reinforcement Learning Guidance
- タイムステップスケジューラー
- ノイズスケジューラー
- 蒸留
- 画像編集
- 省メモリ学習
- 性能検証
- 高速化
- ワーキングメモリー
- 教師ありファインチューニング
- 強化学習
- 丸暗記の仕組み
Python 3.13, torch 2.10, cu130 で kohya-ss sd-scripts の環境構築
xformers は使わない(--sdpa を使う)ので入れていない。
ComfyUI で使える高速化・VRAM 技術
ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers(中身は FlashAttention)も使われていたが、最近では PyTorch attention を使うことが多い。
ComfyUI のオプションは comfy/cli_args.py を見るのが早い。
目次
動画生成 AI に関するメモ
目次
Z Image Turbo を ComfyUI で実行する+プロンプトガイド
Z Image Turbo はベースモデルではなく蒸留モデル(DMD)であることに注意。
Automatic1111 互換の forge-neo でも実行できる。
Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない。
LoRa 作成用モデル
- Z Image Omni Base:生成と編集の事前学習のみ。ファインチューニングも強化学習もされておらず画質が良くない。大規模追加学習向け
- Z Image:ファインチューニングはされているが、強化学習・RLHF はされていない
- Z Image Edit:共通事前学習・Edit 用事前学習・Edit 用ファインチューニングが施されたバージョン。蒸留はされていないのである程度のステップ数が必要。論文によると CFG ありで 50 ステップ
生成用モデル
- Z Image Turbo:ファインチューニング・蒸留・強化学習・RLHF が適用されたフルスペック版。Z Image は蒸留と強化学習とを同時に行う DMDR を採用している
Z-Image VS Turbo
Turbo は実写の画像生成のリアルさに強い。シードで多様性は出せないが、破綻した画像を出す確率が低い。
Z-Image(Turbo でない方)は多様なアニメ・イラストスタイルが表現できる。実写の品質もそこそこ高く、シードで多様性が出せる。ただし推論に時間がかかる(Turbo のおよそ5倍)。
Turbo と Z-Image との比較は Z-Image Base VS Z-Image Turbo を参照。