動画生成 AI に関するメモ
カテゴリ:deeplearning
目次
メモリ
動画生成 AI は生成する動画データが巨大で、数 GB の VRAM を占有する。これはアップスケーラーも同様で、むしろアップスケーラーの拡大率が大きすぎるせいで、OOM が発生することも多い。
パフォーマンス
動画シーケンスのトークン長が長いので、アテンションの計算がボトルネックになる。Transformer アーキテクチャはアテンションの計算がトークン長の2乗の長さに比例する。なので高速化 LoRA と SageAttention の導入はほぼ必須。
Wan 2.2
出力される動画の fps が 16 なので、24 fps や 30 fps を前提とするツール(MMAudio など)との相性が悪い。フレーム補間で fps を調整する。
高速化 LoRA 問題
動画生成 AI はステップ数で動画の内容が大きく変わる。高速化 LoRA を有効にした低ステップ生成では以下のような問題が起こる。
- オブジェクトが途中で消滅
- 動作が省略される
- 動きが小さい
- 内容がワンパターン
モデル
高速化
- lightx2v/Wan2.2-Lightning
- thu-ml/TurboDiffusion:高速化手法全部盛りファインチューンモデル
NSFW LoRA
- WAN General NSFW model
- DaSiWa WAN 2.2 I2V 14B v8-v1 | Lightspeed | Safetensors リリース記事
- WAN 2.2 Enhanced NSFW | camera prompt adherence (Lightning Edition) I2V and T2V fp8 GGUF
- EXITIUM VICTRIX
長尺動画生成
アップスケーラー
フレーム補間
- Fannovel16/ComfyUI-Frame-Interpolation
- yuvraj108c/ComfyUI-Rife-Tensorrt
- 98mxr/GMFSS_Fortuna
- princepainter/Comfyui-PainterFLF2V
- princepainter/ComfyUI-PainterI2V:スローモーション問題を解消する
ネガティブプロンプト
- WanVideoNAG ノード
- KSamplerWithNAG (Advanced)
音
ボイスチェンジャーを使う方法もある。
T2A
効果音
リップシンク
そのほか
- Cerzi/videoswarm:複数の動画を同時に再生
- bytedance/BindWeave:TI2V モデル
- PozzettiAndrea/ComfyUI-SAM3:テキストでマスク作成