dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

続きを読む

Z Image Turbo を ComfyUI で実行する+プロンプトガイド

カテゴリ:deeplearning

Z Image Turbo はベースモデルではなく蒸留モデル(DMD)であることに注意。

軽量モデルの中ではダントツの基本性能を持っており、SDXL 以降のモデルをファインチューンして使うなら Z Image のベースモデル一択だろう。

Automatic1111 互換の forge-neo でも実行できる。

Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない

LoRA 作成用モデル
  • Z Image Omni Base:生成と編集の事前学習のみ。ファインチューニングも強化学習もされておらず画質が良くない。大規模追加学習向け
  • Z Image:ファインチューニングはされているが、強化学習・RLHF はされていない
  • Z Image Edit:共通事前学習・Edit 用事前学習・Edit 用ファインチューニングが施されたバージョン。蒸留はされていないのである程度のステップ数が必要。論文によると CFG ありで 50 ステップ
生成用モデル
  • Z Image Turbo:ファインチューニング・蒸留・強化学習・RLHF が適用されたフルスペック版。Z Image は蒸留と強化学習とを同時に行う DMDR を採用している

目次

特徴

続きを読む

musubi-tuner で FLUX.2 klein の LoRa 作成

カテゴリ:deeplearning

FLUX.2 klein 4b は RAM 32 GB、VRAM8GB で余裕をもって LoRA を作成できるが、4b はベースの能力がそれほど高くないので実用性は限られる。

学習画像枚数 * エポック数が 1,000 未満だと不十分。学習画像枚数 * エポック数は 1,500 以上、できれば 3,000 あるといい。

目次

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ:deeplearning

目次

続きを読む

LoRA の学習方法

カテゴリ:deeplearning

続きを読む

ComfyUI で FLUX.2 klein 9B を使う

カテゴリ:deeplearning

FLUX.2 klein 9B の編集能力は高い。物体除去、画像のモノクロトーン化、線画を維持した着色が高速でできる。FLUX.2 klein 9B をデフォルトで使い、できないタスクは Qwen Image Edit や Nano Banana Pro に投げるのがいいだろう。

Klein 4B は MCP サーバーを立てて LLM と同時に使うと楽しい。

昨今の強化学習で絵が固定されたモデルと違い、シードで多様性が出せるのもよい。

欠点

  • 一貫性の維持ができない
    • 編集すると色が変化する
    • FLUX.2 は HEX コードや参照色で色を指定できるが、klein では機能しない
    • 1~2ピクセルのピクセルシフトがおこる
    • 参照画像の顔をコピペできない場合は顔がそこそこ変化する
  • t2i の性能は Z Image Turbo の方がよりリアルでプロンプトの追従性が高い
  • 指が溶けたり腕が増えたりする(蒸留モデルでガチャをすればいいので、あまり問題ではない)

目次

続きを読む

Windows で Radeon を使って ComfyUI や Automatic1111WebUI を動かす

カテゴリ:deeplearning

続きを読む

Waifu Diffusion で効率的に画像を生成する

カテゴリ:deeplearning

プロンプトリストはプロンプトよく検索されているプロンプト(R18)danbooru タグ検索を参照。

目次

続きを読む

Qwen Image Edit 2511 を ComfyUI で実行する+プロンプトリスト

カテゴリ:deeplearning

目次

続きを読む