広告

広告

Z Image Turbo を ComfyUI で実行する

カテゴリ：deeplearning

Z Image Turbo はベースモデルではなく蒸留モデル（DMD）であることに注意。

軽量モデルの中ではダントツの基本性能を持っており、SDXL 以降のモデルをファインチューンして使うなら Z Image の Turbo ではないベースモデル一択だろう。

Automatic1111 互換の forge-neo でも実行できる。

Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない。

Z Image ベース：ファインチューニングはされているが、強化学習はされていない。LoRA 作成用モデル
Z Image Turbo：ファインチューニング・蒸留・強化学習が適用されたフルスペック版
Z Image Edit：共通事前学習・Edit 用事前学習・Edit 用ファインチューニングが施されたバージョン。蒸留はされていないのである程度のステップ数が必要

目次

特徴

欠点

作例

特徴

続きを読む

res_multistep サンプラーの特徴

カテゴリ：deeplearning

続きを読む

ComfyUI で使える高速化・VRAM 技術

カテゴリ：deeplearning

ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers（中身は FlashAttention）も使われていたが、最近では PyTorch attention を使うことが多い。

ComfyUI のオプションは comfy/cli_args.py を見るのが早い。

目次

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ：deeplearning

目次

Transformer アーキテクチャ

学習方法

性能検証

高速化

Cache

量子化と枝刈り

SFT vs RL

続きを読む

LoRA の学習方法

カテゴリ：deeplearning

画像加工

データの水増し

過学習防止

正則化画像は必要か

prior_loss_weight

学習

高速化

シードの固定

画風の学習

外部リンク

続きを読む

Qwen Image Edit 2509 を ComfyUI で実行する＋プロンプトリスト

カテゴリ：deeplearning

目次

量子化比較

手の編集

続きを読む

Diffusion-DPO（Diffusion-Direct Preference Optimization）の学習方法

カテゴリ：deeplearning

Diffusion-DPO Diffusion Model Alignment Using Direct Preference Optimization は SD3 でも使われた強化学習手法。SD3 ではランク 128 の LoRA として作成している。

ただし、画風や新しい概念の学習のような一般的なタスクは SFT（教師ありファインチューニング）が適している。「○○がうまく描けない」というニーズは○○が言語化できているので SFT を使うべき。SFT はデータセットを用意しやすいし学習負荷も低い。

Diffusion-DPO を使うケース

言語化が困難だが描いてほしくないもの（暴力的・性的表現）がある
ユーザーの選好データを持っている
細部の表現の崩れを改善したい

SFT（教師ありファインチューニング）と Diffusion-DPO との違い

続きを読む

よく検索されているプロンプト（R18）

カテゴリ：deeplearning

続きを読む

ComfyUI の CFGNorm・Adaptive Projected Guidanceノードとは何か

カテゴリ：deeplearning

続きを読む

Waifu Diffusion で効率的に画像を生成する

カテゴリ：deeplearning

プロンプトリストはプロンプトやよく検索されているプロンプト（R18）、danbooru タグ検索を参照。

目次

ワークフロー

Stable Diffusion の解説

Tips

ファインチューニング

プロンプト

AI が描いた絵の見分け方

解説リンク

続きを読む

広告

広告

カテゴリ