動画生成 AI に関するメモ
目次
メモリ
動画生成 AI は生成する動画データが巨大で、数 GB の VRAM を占有する。これはアップスケーラーも同様で、むしろアップスケーラーの拡大率が大きすぎるせいで、OOM が発生することも多い。
パフォーマンス
動画シーケンスのトークン長が長いので、アテンションの計算がボトルネックになる。Transformer アーキテクチャはアテンションの計算がトークン長の2乗の長さに比例する。なので高速化 LoRA と SageAttention の導入はほぼ必須。
LTX-2
2026/01/06 公開。Lightricks/LTX-2 公式 から以下のモデルがダウンロードできる。
- bf16
- fp8
- fp4
- 蒸留モデル
- 蒸留 LoRa
- 解像度アップスケーラー
- fps アップスケーラー
Q4_K_M でもテキストエンコーダーとモデルで 26 GB 程度あるので、RAM 32 GB だとスワップが必ず発生する。RAM の最低ラインは 48 GB。
ワークフロー
ComfUI 公式ワークフローは Download T2V workflow からダウンロードできる。
モデル
| モデル | URL |
|---|---|
| 公式 video VAE | diffusion_pytorch_model.safetensors(audio VAE と同名なのでリネーム必須) |
| 公式 audio VAE | diffusion_pytorch_model.safetensors(video VAE と同名なのでリネーム必須) |
| 公式 spatial upscaler | ltx-2-spatial-upscaler-x2-1.0.safetensors |
| GGUF モデル | unsloth/LTX-2-GGUF |
| テキストエンコーダー | Comfy-Org/ltx-2 fp4 fp8 fpmixed |
| テキストエンコーダーのコネクター | diffusion_pytorch_model.safetensors |
tips
- 幅と高さとは 32 で割り切れる必要がある
- フレーム数 = 8の倍数+1
NSFW
- Phr00t/LTX2-Rapid-Merges
- LTX-2 - Improved Female Nudity
- LTX-2 NSFW Text Encoder - Gemma 3 12b Abliterated
外部リンク
I2V で動きが少ない問題を解消する LoRa MachineDelusions/LTX-2_Image2Video_Adapter_LoRa
LTX-2 on RTX 3070 mobile (8GB VRAM) AMAZING
How to generate proper Japanese in LTX-2
Wan 2.2
2025/08/07 公開。Wan 2.2
出力される動画の fps が 16 なので、24 fps や 30 fps を前提とするツール(MMAudio など)との相性が悪い。フレーム補間で fps を調整する。
高速化 LoRA 問題
動画生成 AI はステップ数で動画の内容が大きく変わる。高速化 LoRA を有効にした低ステップ生成では以下のような問題が起こる。
- オブジェクトが途中で消滅
- 動作が省略される
- 動きが小さい
- 内容がワンパターン
モデル
高速化
- lightx2v/Wan2.2-Lightning
- thu-ml/TurboDiffusion:高速化手法全部盛りファインチューンモデル
Wan 2.2 NSFW LoRA
- WAN General NSFW model
- DaSiWa WAN 2.2 I2V 14B v8-v1 | Lightspeed | Safetensors リリース記事:high に別のモデルを使い、low に DaSiWa を使うのが流行っている
- WAN 2.2 Enhanced NSFW | camera prompt adherence (Lightning Edition) I2V and T2V fp8 GGUF
- EXITIUM VICTRIX
長尺動画生成
- 動画の続きを生成(シングルカット):princepainter/ComfyUI-PainterLongVideo
- シングルカットの長い動画を生成:vita-epfl/Stable-Video-Infinity
- マルチカットで一貫性を維持:Kevin-thu/StoryMem
アップスケーラー
フレーム補間
- Fannovel16/ComfyUI-Frame-Interpolation
- yuvraj108c/ComfyUI-Rife-Tensorrt
- 98mxr/GMFSS_Fortuna
- princepainter/Comfyui-PainterFLF2V
- princepainter/ComfyUI-PainterI2V:スローモーション問題を解消する
ネガティブプロンプト
- WanVideoNAG ノード
- KSamplerWithNAG (Advanced)
音
ボイスチェンジャーを使う方法もある。
Text to Speech
- NandemoGHS/Anime-Llasa-3B-Captions
- Aratako/T5Gemma-TTS-2b-2b GitHub
- 生成が遅いので、バッチサイズを大きくしてスループットを上げる
- Respaired/Tsukasa-Speech
- QwenLM/Qwen3-TTS
- litagin02/Style-Bert-VITS2
効果音
リップシンク
Text to Music
- HeartMuLa 公式+プロンプトサンプル HeartMuLa: A Family of Open Sourced Music Foundation Models
- Suno 風の UI fspecii/HeartMuLa-Studio
- キーワードからスタイルタグと歌詞を自動生成する:knishika62/ComfyUI-LyricForge
- benjiyaya/HeartMuLa_ComfyUI
- filliptm/ComfyUI_FL-HeartMuLa
そのほか
- Cerzi/videoswarm:複数の動画を同時に再生
- bytedance/BindWeave:TI2V モデル
- PozzettiAndrea/ComfyUI-SAM3:テキストでマスク作成