Wan 2.1 の論文メモ

カテゴリ：deeplearning

Wan: Open and Advanced Large-Scale Video Generative Models

Wan 2.1 14B の埋め込み次元は 5,120

3.3.3 MODEL DESIGN

入力画像を最大で７つのパッチに分割し、12 x 12 のグリッド状の vision embeddings に変換している。

動画についてはサンプル頻度は 4 フレームに 1 回、最大 129 フレーム。４フレームごとにオリジナル解像度で embeddings 化。

4 MODEL DESIGN AND ACCELERATION

4.1 SPATIO-TEMPORAL VARIATIONAL AUTOENCODER

動画は VAE で、解像度は 1/8、fps は 1/4 の潜在空間に圧縮される。動画の次元は次のように変換される：[1 + T, H, W, 3] -> [1 + T/4, H/8, W/8, 16]

4.1.2 TRAINING

VAE は 2D で学習させてから 3D（動画）を学習させることで、学習を高速化した。

Loss は L1, KL, LPIPLS でウェイトはそれぞれ、3, 3e-6, 3。

4.1.3 EFFICIENT INFERENCE

動画はチャンク単位で処理される。例えば 25（1 + 24）フレームの動画は、７（1 + 24/4）つのチャンクに分割されて処理される。

時間方向の畳み込みのカーネルサイズが３なので、古いチャンクのキャッシュを２つ持っている。

4.2.1 VIDEO DIFFUSION TRANSFORMER

パッチサイズが２なので、モデルに渡されるトークン数 L は (1+ T/4) x H/16 x W/16 になる。

テキストエンコーダーに umT5 を選択した理由

中国語と英語能力が高い
他の LLM を使うより動画生成 AI 性能が良い
学習の収束が早かった

4.3.1 WORKLOAD ANALYSIS

Wan のトークン数は 10 万を超えることもあり、アテンションがボトルネックになる。テキストエンコーダー・VAE・FFN の計算負荷は無視できる。

動画が高解像度で 100 万トークンを超える場合、最適化をしない 14B モデルの学習に必要な VRAM は 8 "T"B を超える。

4.4.2 DIFFUSION CACHE

アテンションの出力はタイムステップが異なっていてもほとんど同じなので、数ステップで使いまわす。

CFG もキャッシュする。デノイズ後半では、プロンプトありのデノイズ結果とプロンプトなしのデノイズ結果とが似ている。なので、数ステップに１回プロンプトなしのデノイズ結果アップデートする。その時のプロンプトありのデノイズ結果は前回の結果をキャッシュしておいて使う。

この結果推論速度は 1.62 倍高速になった。

4.5 PROMPT ALIGNMENT

WAN 2.1 は以下のリライトされたプロンプト（実際は中国語）で訓練されている。

プロンプトは以下の順で記述することが推奨されている。

動画のスタイル
コンテンツの内容（あらすじ）
詳細な内容

元のプロンプト	リライトされたプロンプト	日本語訳
A Viking warrior wields a great axe with both hands, battling a mammoth at dusk, amidst a snowy landscape with snowflakes swirling in the air.	An epic battle scene, unfolds as a tall and muscular Viking warrior wields a heavy great axe with both hands, facing off against a massive mammoth. The warrior is clad in leather armor and a horned helmet, with prominent muscles and a fierce, determined expression. The mammoth is covered in long hair, with sharp tusks, and roars angrily. It is dusk, and the snowy landscape is filled with swirling snowflakes, creating an intense and dramatic atmosphere. The backdrop features a barren ice field with the faint outlines of distant mountains. The use of cool-toned lighting emphasizes strength and bravery. The scene is captured in a dynamic close-up shot from a high-angle perspective.	長身で筋骨隆々のバイキング戦士が、両手に重々しい大斧を振りかざし、巨大なマンモスに立ち向かう壮大な戦闘シーンが展開される。戦士は革の鎧と角のある兜を身にまとい、筋肉隆々で、獰猛で決意に満ちた表情を浮かべている。マンモスは長い毛と鋭い牙に覆われ、怒りの咆哮を上げる。夕暮れ時、雪景色は渦巻く雪の結晶で埋め尽くされ、緊迫感とドラマチックな雰囲気を醸し出している。背景には、遠くの山々のかすかな輪郭と、荒涼とした氷原が描かれている。クールトーンの照明が、力強さと勇敢さを強調している。このシーンは、ハイアングルからのダイナミックなクローズアップショットで捉えられている。
The camera follows a motorboat chasing dolphins in the sea.	In a documentary photography style, the camera follows a motorboat chasing a pod of dolphins leaping out of the vast ocean. On the motorboat, there is a driver wearing a life jacket and a safety helmet, with a focused and excited expression. The dolphins are sleek and smooth-skinned, occasionally leaping out of the water and diving back in with agility. The sky is bright blue, the sun is shining, and the sea is shimmering with light. A few white clouds dot the distant sky. The scene is dynamic and full of energy, captured from a medium shot in a tracking perspective.	ドキュメンタリー調のカメラワークで、広大な海から飛び出すイルカの群れを追うモーターボートをカメラが追う。モーターボートには、ライフジャケットと安全ヘルメットを装着した操縦士が、集中力と興奮に満ちた表情で立っている。イルカたちは滑らかでしなやかな肌をしており、時折水面から飛び出し、はっとするような動きで再び水面に飛び込む。空は鮮やかな青空に輝き、太陽は輝き、海はきらめく光を放っている。遠くの空には白い雲が点在している。ミディアムショットのトラッキング視点で捉えられた、躍動感とエネルギーに満ちた光景だ。
The tiny Potato King, wearing a majestic crown, sits on the throne as potato subjects pay homage to it.	In a surrealist style, the tiny Potato King wears a magnificent gold crown and sits on a towering throne. Its skin has a natural earthy yellow tone with subtle bumpy textures. The potato subjects are lined up on either side, bowing their heads in homage to the king. The background features the grand interior of a palace, with gold and red decorations that appear luxurious and solemn. A beam of light shines down from above, creating a sacred atmosphere. The scene is captured in a close-up shot from a high-angle perspective.	シュールレアリズム的な作風で、小さなジャガイモの王が壮麗な金の王冠を戴き、そびえ立つ玉座に座っている。その肌は自然な土っぽい黄色を基調とし、微妙な凹凸が感じられる。ジャガイモの像は両脇に並び、王に敬意を表して頭を下げている。背景には宮殿の壮麗な内部が描かれ、金と赤の装飾が豪華で荘厳な雰囲気を醸し出している。上からは一筋の光が降り注ぎ、神聖な雰囲気を醸し出している。この場面は、ハイアングルからのクローズアップショットで捉えられている。

5.1.1 MODEL DESIGN

I2V ではバイナリマスクを使って入力画像を保護している。

5.7 AUDIO GENERATION

動画と音声とを同時に生成しているのではなく、動画とキャプションとから音声や環境音を生成する V2A モデルがある。

5.7.1

umT5 の埋め込み次元は 4,096。

感想

動画生成 AI は I2V で続きを作らせると、動きの情報がないのでつなぎ目が不自然になる。しかしバイナリマスクで保護して複数フレーム入力することで、この不自然さは解消できる可能性が高い。