dskjal
広告
広告

タグキャプションを使用した大規模学習

カテゴリ:deeplearning

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ:deeplearning

目次

続きを読む

Z Image Turbo を ComfyUI で実行する+プロンプトガイド

カテゴリ:deeplearning

Z Image Turbo はベースモデルではなく蒸留モデル(DMD)であることに注意。

軽量モデルの中ではダントツの基本性能を持っており、SDXL 以降のモデルをファインチューンして使うなら Z Image のベースモデル一択だろう。

Automatic1111 互換の forge-neo でも実行できる。

Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない

LoRA 作成用モデル
  • Z Image Omni Base:生成と編集の事前学習のみ。ファインチューニングも強化学習もされておらず画質が良くない。大規模追加学習向け
  • Z Image:ファインチューニングはされているが、強化学習・RLHF はされていない
  • Z Image Edit:共通事前学習・Edit 用事前学習・Edit 用ファインチューニングが施されたバージョン。蒸留はされていないのである程度のステップ数が必要。論文によると CFG ありで 50 ステップ
生成用モデル
  • Z Image Turbo:ファインチューニング・蒸留・強化学習・RLHF が適用されたフルスペック版。Z Image は蒸留と強化学習とを同時に行う DMDR を採用している

base が公開されれば、「Turbo - base」を LoRA 化することで蒸留 LoRA を作成可能。base に自作 LoRA と蒸留 LoRA を適用すれば、自作 LoRA でも高速高画質な生成が可能。

目次

特徴

続きを読む

python, torch, cuda の tips

カテゴリ:deeplearning

CUDA は後方互換性があるので、nvcc -V の出力より前のライブラリでビルドされているものも実行できる。

続きを読む

Waifu Diffusion で効率的に画像を生成する

カテゴリ:deeplearning

プロンプトリストはプロンプトよく検索されているプロンプト(R18)danbooru タグ検索を参照。

目次

続きを読む

Python 3.13 で kohya-ss sd-scripts の環境構築

カテゴリ:deeplearning

xformers は使わない(--sdpa を使う)ので入れていない。

続きを読む

Qwen Image Edit 2511 を ComfyUI で実行する+プロンプトリスト

カテゴリ:deeplearning

目次

続きを読む

よく検索されているプロンプト(R18)

カテゴリ:deeplearning

続きを読む

Z Image の LoRA 作成 tips

カテゴリ:deeplearning

続きを読む

Qwen Image Layered を ComfyUI で動かす

カテゴリ:deeplearning

Qwen/Qwen-Image-Layered

Qwen Image Layered は画像1枚とプロンプトを入力すると、複数枚の透過画像を出力するモデルだ。

学習画像は主にポスターで、文字・画像・背景・小物を分離するのが得意だ。Live2D 用に人体のパーツを分解することはできない。

続きを読む


広告
広告