dskjal
広告
広告

動画生成 AI に関するメモ

カテゴリ:deeplearning

目次

メモリ

動画生成 AI は生成する動画データが巨大で、数 GB の VRAM を占有する。これはアップスケーラーも同様で、むしろアップスケーラーの拡大率が大きすぎるせいで、OOM が発生することも多い。

パフォーマンス

動画シーケンスのトークン長が長いので、アテンションの計算がボトルネックになる。Transformer アーキテクチャはアテンションの計算がトークン長の2乗の長さに比例する。なので高速化 LoRA と SageAttention の導入はほぼ必須。

LTX-2

2026/01/06 公開。Lightricks/LTX-2 公式 から以下のモデルがダウンロードできる。

Q4_K_M でもテキストエンコーダーとモデルで 26 GB 程度あるので、RAM 32 GB だとスワップが必ず発生する。RAM の最低ラインは 48 GB。

ワークフロー

ComfUI 公式ワークフローは Download T2V workflow からダウンロードできる

モデル

Lightricks/LTX-2 公式

モデルURL
公式 video VAEdiffusion_pytorch_model.safetensors(audio VAE と同名なのでリネーム必須)
公式 audio VAEdiffusion_pytorch_model.safetensors(video VAE と同名なのでリネーム必須)
公式 spatial upscalerltx-2-spatial-upscaler-x2-1.0.safetensors
GGUF モデルunsloth/LTX-2-GGUF
テキストエンコーダーComfy-Org/ltx-2 fp4 fp8 fpmixed
テキストエンコーダーのコネクターdiffusion_pytorch_model.safetensors

tips

NSFW

外部リンク

I2V で動きが少ない問題を解消する LoRa MachineDelusions/LTX-2_Image2Video_Adapter_LoRa

LTX-2 on RTX 3070 mobile (8GB VRAM) AMAZING

LTX-2 Lora Training

How to generate proper Japanese in LTX-2

Wan 2.2

2025/08/07 公開。Wan 2.2

出力される動画の fps が 16 なので、24 fps や 30 fps を前提とするツール(MMAudio など)との相性が悪い。フレーム補間で fps を調整する。

高速化 LoRA 問題

動画生成 AI はステップ数で動画の内容が大きく変わる。高速化 LoRA を有効にした低ステップ生成では以下のような問題が起こる。

モデル

高速化

Wan 2.2 NSFW LoRA

長尺動画生成

アップスケーラー

フレーム補間

ネガティブプロンプト

ボイスチェンジャーを使う方法もある。

Text to Speech

効果音

リップシンク

Text to Music

そのほか


広告
広告

カテゴリ