dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

Qwen Image Edit 2511 を ComfyUI で実行する+プロンプトリスト

カテゴリ:deeplearning

目次

続きを読む

RTX3050+ComfyUI で SageAttention の導入

カテゴリ:deeplearning

目次

RTX3000 世代は fp8 モデルは非対応

続きを読む

【NSFW 注意】ComfyUI で circlestone-labs の Anima を使う

カテゴリ:deeplearning

A1111系列はforge-neoが対応している(Anima #738)。

Anima は軽量で NSFW の絡みが出せるのが特徴だ。

しかしテキストエンコーダーが 0.6B しかない(現在の軽量モデルは 4B を使うのが主流)ので細かい指示はできない。たとえばダンボールデータセットにないポーズは自然言語でポーズを指定できなかったり、タグの伝染が起こったり、プロンプトが長くなると指示が守られなかったりする。

ただしテキストエンコーダーの能力が低くても、個数指定や左右指定ぐらいはできる。例えば thigh strap の個数や左右位置を指定できたり、左右非対称の衣装を固定したりできる。

Anima はダンボールデータセットにあるポーズしか出せないし、ダンボールデータセットにあるオブジェクトしか描けない。Z-Image や FLUX.2 klein は自然言語でポーズを指示でき、多様なオブジェクトを知っているが、Anima はテキストエンコーダーもモデルも貧弱かつ、データセットが偏っているので汎用性がない。

なので Anima だけですべての作業をするのではなく、ダンボールタグ外の要素は FLUX.2 klein や Qwen Image Edit のような編集モデルを使う割り切りが必要。

アーティストタグを使うなら以下のワークフローはすでに実用レベル:

  1. Anima で下絵
  2. アップスケール
  3. Illustrious の派生モデルで i2i (ディティールの追加・シャープネスアップ・画風の固定)
  4. SAM2 や SAM3 でセグメンテーション(なくてもいい)
  5. Illustrious の派生モデルで Detailer

目次

続きを読む

よく検索されているプロンプト(R18)

カテゴリ:deeplearning

続きを読む

ComfyUI で FLUX.2 klein 9B を使う

カテゴリ:deeplearning

FLUX.2 klein 9B の編集能力は高い。物体除去、画像のモノクロトーン化、線画を維持した着色が高速でできる。FLUX.2 klein 9B をデフォルトで使い、できないタスクは Qwen Image Edit や FLUX.2 dev や Nano Banana Pro に投げるのがいいだろう。

Klein 4B は MCP サーバーを立てて LLM と同時に使うと楽しい。

昨今の強化学習で絵が固定されたモデルと違い、シードで多様性が出せるのもよい。

欠点

  • 一貫性の維持ができない
    • 編集すると色が変化する
    • FLUX.2 は HEX コードや参照色で色を指定できるが、klein では機能しない
    • 1~2ピクセルのピクセルシフトがおこる(ピクセルシフトが問題なら Qwen Image Layered や FLUX.2 dev を使う)
    • 参照画像の顔をコピペできない場合は顔がそこそこ変化する
  • t2i の性能は Z Image Turbo の方がよりリアルでプロンプトの追従性が高い
  • 指が溶けたり腕が増えたりする(蒸留モデルでガチャをすればいいので、あまり問題ではない)

目次

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ:deeplearning

目次

続きを読む

Python 3.13, torch 2.10, cu130 で kohya-ss sd-scripts の環境構築

カテゴリ:deeplearning

xformers は使わない(--sdpa を使う)ので入れていない。

続きを読む

ComfyUI で使える高速化・VRAM 技術

カテゴリ:deeplearning

ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers(中身は FlashAttention)も使われていたが、最近では PyTorch attention を使うことが多い。

ComfyUI のオプションは comfy/cli_args.py を見るのが早い。

目次

続きを読む

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

続きを読む

Z Image Turbo を ComfyUI で実行する+プロンプトガイド

カテゴリ:deeplearning

Z Image Turbo はベースモデルではなく蒸留モデル(DMD)であることに注意。

Automatic1111 互換の forge-neo でも実行できる。

Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない

LoRa 作成用モデル
  • Z Image Omni Base:生成と編集の事前学習のみ。ファインチューニングも強化学習もされておらず画質が良くない。大規模追加学習向け
  • Z Image:ファインチューニングはされているが、強化学習・RLHF はされていない
  • Z Image Edit:共通事前学習・Edit 用事前学習・Edit 用ファインチューニングが施されたバージョン。蒸留はされていないのである程度のステップ数が必要。論文によると CFG ありで 50 ステップ
生成用モデル
  • Z Image Turbo:ファインチューニング・蒸留・強化学習・RLHF が適用されたフルスペック版。Z Image は蒸留と強化学習とを同時に行う DMDR を採用している

Z-Image VS Turbo

Turbo は実写の画像生成のリアルさに強い。シードで多様性は出せないが、破綻した画像を出す確率が低い。

Z-Image(Turbo でない方)は多様なアニメ・イラストスタイルが表現できる。実写の品質もそこそこ高く、シードで多様性が出せる。ただし推論に時間がかかる(Turbo のおよそ5倍)。

Turbo と Z-Image との比較は Z-Image Base VS Z-Image Turbo を参照。

目次

特徴

続きを読む


広告
広告