LLM を使ったストーリー作成
LLM を使ったストーリー作成が一発でうまくいく事はない。なので、ストーリー作成の各工程ごとにアイデア出しの補助をさせることでストーリーを作成する。
AI のべりすとは日本語が使えるが性能は高くない。無料で公開されているローカル実行できる LLM を英語で使ったり、Chat GPT を使う方が効率がいい。AI のべりすとの強みはアダルト文章を日本語で出力できることだ。
モデルについてはおすすめの日本語対応ローカル大規模言語モデルを参照。有名なものでは:
- gpt-oss-20b
- gemma3 27b
- mistral-3.1 24b
- Qwen 3 14b
- nemotron-nano-9b-v2-japanese
目次
T2I 拡散モデルの設計メモ
目次
- 概要
- クラウド GPU
- テキストエンコーダー
- VAE
- GAN
- コンディショニング
- 位置埋め込み
- 目的関数
- Transformer アーキテクチャ
- Transformer を使わないアーキテクチャ
- Gated MLP
- ブロック図
- データセット
- キャプショニング
- スケジューラー
- 学習方法
- Classifier Free Guidance
- Adaptive Projected Guidance
- Reinforcement Learning Guidance
- タイムステップスケジューラー
- ノイズスケジューラー
- 蒸留
- 画像編集
- 省メモリ学習
- 性能検証
- 高速化
- ワーキングメモリー
- 教師ありファインチューニング
- 強化学習
- 丸暗記の仕組み
よく検索されているプロンプト(R18)
【NSFW 注意】ComfyUI で circlestone-labs の Anima を使う
A1111系列はforge-neoが対応している(Anima #738)。
Anima は軽量で NSFW の絡みが出せるのが特徴だ。
しかしテキストエンコーダーが 0.6B しかない(現在の軽量モデルは 4B を使うのが主流)ので細かい指示はできない。たとえばダンボールデータセットにないポーズは自然言語でポーズを指定できなかったり、タグの伝染が起こったり、プロンプトが長くなると指示が守られなかったりする。
ただしテキストエンコーダーの能力が低くても、個数指定や左右指定ぐらいはできる。例えば thigh strap の個数や左右位置を指定できたり、左右非対称の衣装を固定したりできる。
Anima はダンボールデータセットにあるポーズしか出せないし、ダンボールデータセットにあるオブジェクトしか描けない。Z-Image や FLUX.2 klein は自然言語でポーズを指示でき、多様なオブジェクトを知っているが、Anima はテキストエンコーダーもモデルも貧弱かつ、データセットが偏っているので汎用性がない。
なので Anima だけですべての作業をするのではなく、ダンボールタグ外の要素は FLUX.2 klein や Qwen Image Edit のような編集モデルを使う割り切りが必要。
アーティストタグを使うなら以下のワークフローはすでに実用レベル:
- Anima で下絵
- アップスケール
- Illustrious の派生モデルで i2i (ディティールの追加・シャープネスアップ・画風の固定)
- SAM2 や SAM3 でセグメンテーション(なくてもいい)
- Illustrious の派生モデルで Detailer
目次
- 利点
- 欠点
- モデル
- ワークフロー
- 設定
- プロンプト
- タグと自然言語との使い分け
- 画力を上げる
- タグの記述順
- クオリティタグ
- 自然言語
- タグの伝染
- 強調構文
- 枠・帯
- 面積制御
- 顔の影対策
- テキストレンダリング
- コマの位置の指定
- ComfyUI のプロンプト編集機能
- コンマの後ろのスペースは必須
- オノマトペ
- tips
- 作例
- LoRa 作成
動画生成 AI に関するメモ
目次
Qwen Image Edit 2511 を ComfyUI で実行する+プロンプトリスト
目次
- 特徴
- 概要
- ComfyUI のアップデート
- モデル
- ワークフロー
- 動作速度
- 解像度リスト
- keypoint pose 編集
- 日本語のレンダリング
- プロンプト
- 入力画像認識
- 知っておくべき2種類のプロンプトパターン
- プロンプトガイド
- Qwen-Image-Edit-2509 公式プロンプト例
- Qwen-Image-Edit-2511 公式プロンプト例
- カメラアングル変更 LoRa
- Mask Editor
- 作例
RTX3050+ComfyUI で SageAttention の導入
目次
- 1. ComfyUI のインストールと venv の有効化
- 2. 環境情報の取得
- 3. Visual Studio 2015-2022 用 Visual C++ 再頒布可能パッケージのインストール
- 4. triton-windows のインストール
- 5. SageAttention のインストール
- 6. ComfyUI で SageAttention の有効化
- 7. TorchCompile のパス制限について
- Patch Sage Attention KJ ノード
ComfyUI で FLUX.2 klein 9B を使う
FLUX.2 klein 9B の編集能力は高い。物体除去、画像のモノクロトーン化、線画を維持した着色が高速でできる。FLUX.2 klein 9B をデフォルトで使い、できないタスクは Qwen Image Edit や FLUX.2 dev や Nano Banana Pro に投げるのがいいだろう。
Klein 4B は MCP サーバーを立てて LLM と同時に使うと楽しい。
昨今の強化学習で絵が固定されたモデルと違い、シードで多様性が出せるのもよい。
欠点
- 一貫性の維持ができない
- 編集すると色が変化する
- FLUX.2 は HEX コードや参照色で色を指定できるが、klein では機能しない
- 1~2ピクセルのピクセルシフトがおこる(ピクセルシフトが問題なら Qwen Image Layered や FLUX.2 dev を使う)
- 参照画像の顔をコピペできない場合は顔がそこそこ変化する
- t2i の性能は Z Image Turbo の方がよりリアルでプロンプトの追従性が高い
- 指が溶けたり腕が増えたりする(蒸留モデルでガチャをすればいいので、あまり問題ではない)
目次
- 必要スペック
- モデル
- ワークフロー
- 実行速度
- サンプラーなど
- プロンプト
- LoRa 作成
- 作例
Python 3.13, torch 2.10, cu130 で kohya-ss sd-scripts の環境構築
xformers は使わない(--sdpa を使う)ので入れていない。
ComfyUI で使える高速化・VRAM 技術
ComfyUI は PyTorch attention = FlashAttention がデフォルトで使われる。昔は xformers(中身は FlashAttention)も使われていたが、最近では PyTorch attention を使うことが多い。
ComfyUI のオプションは comfy/cli_args.py を見るのが早い。