広告

広告

動画生成 AI に関するメモ

カテゴリ：deeplearning

目次

メモリ
パフォーマンス
LTX-2

NSFW

Wan 2.2

高速化 LoRA 問題
モデル
Wan 2.2 NSFW LoRA

長尺動画生成
アップスケーラー
フレーム補間
ネガティブプロンプト
音

Text to Speech
効果音
リップシンク
Text to Music

そのほか

メモリ

動画生成 AI は生成する動画データが巨大で、数 GB の VRAM を占有する。これはアップスケーラーも同様で、むしろアップスケーラーの拡大率が大きすぎるせいで、OOM が発生することも多い。

パフォーマンス

動画シーケンスのトークン長が長いので、アテンションの計算がボトルネックになる。Transformer アーキテクチャはアテンションの計算がトークン長の２乗の長さに比例する。なので高速化 LoRA と SageAttention の導入はほぼ必須。

LTX-2

2026/01/06 公開。Lightricks/LTX-2 公式から以下のモデルがダウンロードできる。

bf16
fp8
fp4
蒸留モデル
蒸留 LoRa
解像度アップスケーラー
fps アップスケーラー

Q4_K_M でもテキストエンコーダーとモデルで 26 GB 程度あるので、RAM 32 GB だとスワップが必ず発生する。RAM の最低ラインは 48 GB。

ワークフロー

ComfUI 公式ワークフローは Download T2V workflow からダウンロードできる。

Multimodal Guider の公式ドキュメント

モデル

Lightricks/LTX-2 公式

モデル	URL
公式 video VAE	diffusion_pytorch_model.safetensors（audio VAE と同名なのでリネーム必須）
公式 audio VAE	diffusion_pytorch_model.safetensors（video VAE と同名なのでリネーム必須）
公式 spatial upscaler	ltx-2-spatial-upscaler-x2-1.0.safetensors
GGUF モデル	unsloth/LTX-2-GGUF
テキストエンコーダー	Comfy-Org/ltx-2 fp4 fp8 fpmixed
テキストエンコーダーのコネクター	diffusion_pytorch_model.safetensors

tips

幅と高さとは 32 で割り切れる必要がある
フレーム数 = ８の倍数＋１

NSFW

外部リンク

I2V で動きが少ない問題を解消する LoRa MachineDelusions/LTX-2_Image2Video_Adapter_LoRa

LTX-2 on RTX 3070 mobile (8GB VRAM) AMAZING

LTX-2 Lora Training

How to generate proper Japanese in LTX-2

Wan 2.2

2025/08/07 公開。Wan 2.2

出力される動画の fps が 16 なので、24 fps や 30 fps を前提とするツール（MMAudio など）との相性が悪い。フレーム補間で fps を調整する。

高速化 LoRA 問題

動画生成 AI はステップ数で動画の内容が大きく変わる。高速化 LoRA を有効にした低ステップ生成では以下のような問題が起こる。

オブジェクトが途中で消滅
動作が省略される
動きが小さい
内容がワンパターン

モデル

高速化

lightx2v/Wan2.2-Lightning
thu-ml/TurboDiffusion：高速化手法全部盛りファインチューンモデル

Wan 2.2 NSFW LoRA

WAN General NSFW model
DaSiWa WAN 2.2 I2V 14B v8-v1 | Lightspeed | Safetensors リリース記事：high に別のモデルを使い、low に DaSiWa を使うのが流行っている
WAN 2.2 Enhanced NSFW | camera prompt adherence (Lightning Edition) I2V and T2V fp8 GGUF
EXITIUM VICTRIX

長尺動画生成

動画の続きを生成（シングルカット）：princepainter/ComfyUI-PainterLongVideo
シングルカットの長い動画を生成：vita-epfl/Stable-Video-Infinity

マルチカットで一貫性を維持：Kevin-thu/StoryMem

モデル

アップスケーラー

フレーム補間

Fannovel16/ComfyUI-Frame-Interpolation
yuvraj108c/ComfyUI-Rife-Tensorrt
98mxr/GMFSS_Fortuna
princepainter/Comfyui-PainterFLF2V
princepainter/ComfyUI-PainterI2V：スローモーション問題を解消する

ネガティブプロンプト

WanVideoNAG ノード
KSamplerWithNAG (Advanced)

音

ボイスチェンジャーを使う方法もある。

Text to Speech

NandemoGHS/Anime-Llasa-3B-Captions

dskjal/Anime-Llasa-webui

Aratako/MioTTS
Aratako/T5Gemma-TTS-2b-2b GitHub

生成が遅いので、バッチサイズを大きくしてスループットを上げる

Respair/Mirei
Respaired/Tsukasa-Speech

Tsukasa-Speech を Windows で GPU で動かす

QwenLM/Qwen3-TTS

Qwen-TTSに自分の声でしゃべらせる

litagin02/Style-Bert-VITS2

効果音

kijai/ComfyUI-MMAudio

リップシンク

Text to Music

HeartMuLa 公式＋プロンプトサンプル HeartMuLa: A Family of Open Sourced Music Foundation Models

Suno級の音楽生成AIがローカルで使い放題？「HeartMuLa」を試した
Suno 風の UI fspecii/HeartMuLa-Studio
キーワードからスタイルタグと歌詞を自動生成する：knishika62/ComfyUI-LyricForge
benjiyaya/HeartMuLa_ComfyUI
filliptm/ComfyUI_FL-HeartMuLa

ace-step/ACE-Step-1.5

公式の日本語ガイド：ACE-Step 1.5 究極ガイド（必読）
インストールが簡単で便利な UI：fspecii/ace-step-ui
モデル（huggingface）

そのほか

Cerzi/videoswarm：複数の動画を同時に再生
bytedance/BindWeave：TI2V モデル
PozzettiAndrea/ComfyUI-SAM3：テキストでマスク作成

広告

広告

カテゴリ