dskjal
広告
広告

ComfyUI で FLUX.2 klein 9B を使う

カテゴリ:deeplearning

Klein はテキストエンコーダーに Qwen 3 8B を使う。dev は Mistral-Small-3.2-24B-Instruct-2506。

目次

続きを読む

ComfyUI で使える高速化・VRAM 技術

カテゴリ:deeplearning

ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers(中身は FlashAttention)も使われていたが、最近では PyTorch attention を使うことが多い。

ComfyUI のオプションは comfy/cli_args.py を見るのが早い。

目次

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ:deeplearning

目次

続きを読む

Qwen Image Edit 2511 を ComfyUI で実行する+プロンプトリスト

カテゴリ:deeplearning

目次

続きを読む

Z Image Turbo を ComfyUI で実行する+プロンプトガイド

カテゴリ:deeplearning

Z Image Turbo はベースモデルではなく蒸留モデル(DMD)であることに注意。

軽量モデルの中ではダントツの基本性能を持っており、SDXL 以降のモデルをファインチューンして使うなら Z Image のベースモデル一択だろう。

Automatic1111 互換の forge-neo でも実行できる。

Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない

LoRA 作成用モデル
  • Z Image Omni Base:生成と編集の事前学習のみ。ファインチューニングも強化学習もされておらず画質が良くない。大規模追加学習向け
  • Z Image:ファインチューニングはされているが、強化学習・RLHF はされていない
  • Z Image Edit:共通事前学習・Edit 用事前学習・Edit 用ファインチューニングが施されたバージョン。蒸留はされていないのである程度のステップ数が必要。論文によると CFG ありで 50 ステップ
生成用モデル
  • Z Image Turbo:ファインチューニング・蒸留・強化学習・RLHF が適用されたフルスペック版。Z Image は蒸留と強化学習とを同時に行う DMDR を採用している

base が公開されれば、「Turbo - base」を LoRA 化することで蒸留 LoRA を作成可能。base に自作 LoRA と蒸留 LoRA を適用すれば、自作 LoRA でも高速高画質な生成が可能。

目次

特徴

続きを読む

RTX3050+ComfyUI で SageAttention の導入

カテゴリ:deeplearning

目次

RTX3000 世代は fp8 モデルは非対応

続きを読む

Windows で Radeon を使って ComfyUI や Automatic1111WebUI を動かす

カテゴリ:deeplearning

続きを読む

LoRA の学習方法

カテゴリ:deeplearning

続きを読む

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

続きを読む

Waifu Diffusion で効率的に画像を生成する

カテゴリ:deeplearning

プロンプトリストはプロンプトよく検索されているプロンプト(R18)danbooru タグ検索を参照。

目次

続きを読む


広告
広告