dskjal
広告
広告

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

メモリ

動画生成 AI は生成する動画データが巨大で、数 GB の VRAM を占有する。これはアップスケーラーも同様で、むしろアップスケーラーの拡大率が大きすぎるせいで、OOM が発生することも多い。

パフォーマンス

動画シーケンスのトークン長が長いので、アテンションの計算がボトルネックになる。Transformer アーキテクチャはアテンションの計算がトークン長の2乗の長さに比例する。なので高速化 LoRA と SageAttention の導入はほぼ必須。

LTX-2

Lightricks/LTX-2 公式 から以下のモデルがダウンロードできる。

2026/01/06 公開。

ComfUI 公式ワークフローは Download T2V workflow からダウンロードできる

テキストエンコーダー:Comfy-Org/ltx-2

テキストエンコーダー Abliterated:LTX-2 NSFW Text Encoder - Gemma 3 12b Abliterated

tips

外部リンク

LTX-2 on RTX 3070 mobile (8GB VRAM) AMAZING

LTX-2 Lora Training

Wan 2.2

Wan 2.2

2025/08/07 公開。

出力される動画の fps が 16 なので、24 fps や 30 fps を前提とするツール(MMAudio など)との相性が悪い。フレーム補間で fps を調整する。

高速化 LoRA 問題

動画生成 AI はステップ数で動画の内容が大きく変わる。高速化 LoRA を有効にした低ステップ生成では以下のような問題が起こる。

モデル

高速化

Wan 2.2 NSFW LoRA

長尺動画生成

アップスケーラー

フレーム補間

ネガティブプロンプト

ボイスチェンジャーを使う方法もある。

Text to Speech

効果音

リップシンク

そのほか


広告
広告

カテゴリ