dskjal
広告
広告

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

続きを読む

LLM を使ったストーリー作成

カテゴリ:deeplearning

LLM を使ったストーリー作成が一発でうまくいく事はない。なので、ストーリー作成の各工程ごとにアイデア出しの補助をさせることでストーリーを作成する。

AI のべりすとは日本語が使えるが性能は高くない。無料で公開されているローカル実行できる LLM を英語で使ったり、Chat GPT を使う方が効率がいい。AI のべりすとの強みはアダルト文章を日本語で出力できることだ。

モデルについてはおすすめの日本語対応ローカル大規模言語モデルを参照。

目次

続きを読む

Qwen Image Edit 2511 を ComfyUI で実行する+プロンプトリスト

カテゴリ:deeplearning

目次

続きを読む

ComfyUI で使える高速化・VRAM 技術

カテゴリ:deeplearning

ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers(中身は FlashAttention)も使われていたが、最近では PyTorch attention を使うことが多い。

ComfyUI のオプションは comfy/cli_args.py を見るのが早い。

目次

続きを読む

Z Image Turbo を ComfyUI で実行する+プロンプトガイド

カテゴリ:deeplearning

Z Image Turbo はベースモデルではなく蒸留モデル(DMD)であることに注意。

軽量モデルの中ではダントツの基本性能を持っており、SDXL 以降のモデルをファインチューンして使うなら Z Image のベースモデル一択だろう。

Automatic1111 互換の forge-neo でも実行できる。

Qwen Image Edit や FLUX.2 は編集も生成もできるが、Z Image はそうではない

LoRA 作成用モデル
  • Z Image Omni Base:生成と編集の事前学習のみ。ファインチューニングも強化学習もされておらず画質が良くない。大規模追加学習向け
  • Z Image:ファインチューニングはされているが、強化学習・RLHF はされていない
  • Z Image Edit:共通事前学習・Edit 用事前学習・Edit 用ファインチューニングが施されたバージョン。蒸留はされていないのである程度のステップ数が必要。論文によると CFG ありで 50 ステップ
生成用モデル
  • Z Image Turbo:ファインチューニング・蒸留・強化学習・RLHF が適用されたフルスペック版。Z Image は蒸留と強化学習とを同時に行う DMDR を採用している

base が公開されれば、「Turbo - base」を LoRA 化することで蒸留 LoRA を作成可能。base に自作 LoRA と蒸留 LoRA を適用すれば、自作 LoRA でも高速高画質な生成が可能。

目次

特徴

続きを読む

RTX3050+ComfyUI で SageAttention の導入

カテゴリ:deeplearning

RTX3000 世代は fp8 モデルは非対応

続きを読む

LoRA の学習方法

カテゴリ:deeplearning

続きを読む

T2I 拡散モデルの設計メモ

カテゴリ:deeplearning

目次

続きを読む