LLM を使ったストーリー作成

カテゴリ：deeplearning

LLM を使ったストーリー作成が一発でうまくいく事はない。なので、ストーリー作成の各工程ごとにアイデア出しの補助をさせることでストーリーを作成する。

AI のべりすとは日本語が使えるが性能は高くない。無料で公開されているローカル実行できる LLM を英語で使ったり、Chat GPT を使う方が効率がいい。AI のべりすとの強みはアダルト文章を日本語で出力できることだ。

モデルについてはおすすめの日本語対応ローカル大規模言語モデルを参照。有名なものでは：

gpt-oss-20b
gemma3 27b
mistral-3.1 24b
Qwen 3 14b
nemotron-nano-9b-v2-japanese

T2I 拡散モデルの設計メモ

カテゴリ：deeplearning

よく検索されているプロンプト（R18）

カテゴリ：deeplearning

【NSFW 注意】ComfyUI で circlestone-labs の Anima を使う

カテゴリ：deeplearning

A1111系列はforge-neoが対応している（Anima #738）。

Anima は軽量で NSFW の絡みが出せるのが特徴だ。

しかしテキストエンコーダーが 0.6B しかない（現在の軽量モデルは 4B を使うのが主流）ので細かい指示はできない。たとえばダンボールデータセットにないポーズは自然言語でポーズを指定できなかったり、タグの伝染が起こったり、プロンプトが長くなると指示が守られなかったりする。

ただしテキストエンコーダーの能力が低くても、個数指定や左右指定ぐらいはできる。例えば thigh strap の個数や左右位置を指定できたり、左右非対称の衣装を固定したりできる。

Anima はダンボールデータセットにあるポーズしか出せないし、ダンボールデータセットにあるオブジェクトしか描けない。Z-Image や FLUX.2 klein は自然言語でポーズを指示でき、多様なオブジェクトを知っているが、Anima はテキストエンコーダーもモデルも貧弱かつ、データセットが偏っているので汎用性がない。

なので Anima だけですべての作業をするのではなく、ダンボールタグ外の要素は FLUX.2 klein や Qwen Image Edit のような編集モデルを使う割り切りが必要。

アーティストタグを使うなら以下のワークフローはすでに実用レベル：

Anima で下絵
アップスケール
Illustrious の派生モデルで i2i （ディティールの追加・シャープネスアップ・画風の固定）
SAM2 や SAM3 でセグメンテーション（なくてもいい）
Illustrious の派生モデルで Detailer

動画生成 AI に関するメモ

カテゴリ：deeplearning

Qwen Image Edit 2511 を ComfyUI で実行する＋プロンプトリスト

カテゴリ：deeplearning

RTX3050+ComfyUI で SageAttention の導入

カテゴリ：deeplearning

ComfyUI で FLUX.2 klein 9B を使う

カテゴリ：deeplearning

FLUX.2 klein 9B の編集能力は高い。物体除去、画像のモノクロトーン化、線画を維持した着色が高速でできる。FLUX.2 klein 9B をデフォルトで使い、できないタスクは Qwen Image Edit や FLUX.2 dev や Nano Banana Pro に投げるのがいいだろう。

Klein 4B は MCP サーバーを立てて LLM と同時に使うと楽しい。

昨今の強化学習で絵が固定されたモデルと違い、シードで多様性が出せるのもよい。

欠点

一貫性の維持ができない

編集すると色が変化する
FLUX.2 は HEX コードや参照色で色を指定できるが、klein では機能しない
１～２ピクセルのピクセルシフトがおこる（ピクセルシフトが問題なら Qwen Image Layered や FLUX.2 dev を使う）
参照画像の顔をコピペできない場合は顔がそこそこ変化する

t2i の性能は Z Image Turbo の方がよりリアルでプロンプトの追従性が高い
指が溶けたり腕が増えたりする（蒸留モデルでガチャをすればいいので、あまり問題ではない）

Python 3.13, torch 2.10, cu130 で kohya-ss sd-scripts の環境構築

カテゴリ：deeplearning

xformers は使わない（--sdpa を使う）ので入れていない。

ComfyUI で使える高速化・VRAM 技術

カテゴリ：deeplearning

ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers（中身は FlashAttention）も使われていたが、最近では PyTorch attention を使うことが多い。

ComfyUI のオプションは comfy/cli_args.py を見るのが早い。

LLM を使ったストーリー作成

目次

T2I 拡散モデルの設計メモ

目次

よく検索されているプロンプト（R18）

【NSFW 注意】ComfyUI で circlestone-labs の Anima を使う

目次

動画生成 AI に関するメモ

目次

Qwen Image Edit 2511 を ComfyUI で実行する＋プロンプトリスト

目次

RTX3050+ComfyUI で SageAttention の導入

目次

ComfyUI で FLUX.2 klein 9B を使う

欠点

目次

Python 3.13, torch 2.10, cu130 で kohya-ss sd-scripts の環境構築

ComfyUI で使える高速化・VRAM 技術

目次