dskjal
広告
広告

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

メモリ

動画生成 AI は生成する動画データが巨大で、数 GB の VRAM を占有する。これはアップスケーラーも同様で、むしろアップスケーラーの拡大率が大きすぎるせいで、OOM が発生することも多い。

パフォーマンス

動画シーケンスのトークン長が長いので、アテンションの計算がボトルネックになる。Transformer アーキテクチャはアテンションの計算がトークン長の2乗の長さに比例する。なので高速化 LoRA と SageAttention の導入はほぼ必須。

Wan 2.2

出力される動画の fps が 16 なので、24 fps や 30 fps を前提とするツール(MMAudio など)との相性が悪い。フレーム補間で fps を調整する。

高速化 LoRA 問題

動画生成 AI はステップ数で動画の内容が大きく変わる。高速化 LoRA を有効にした低ステップ生成では以下のような問題が起こる。

モデル

高速化

NSFW LoRA

長尺動画生成

アップスケーラー

フレーム補間

ネガティブプロンプト

ボイスチェンジャーを使う方法もある。

T2A

効果音

リップシンク

そのほか


広告
広告

カテゴリ