dskjal
広告
広告

Qwen Image Layered を ComfyUI で動かす

カテゴリ:deeplearning

Qwen/Qwen-Image-Layered

Qwen Image Layered は画像1枚とプロンプトを入力すると、複数枚の透過画像を出力するモデルだ。

学習画像は主にポスターで、文字・画像・背景・小物を分離するのが得意だ。Live2D 用に人体のパーツを分解することはできない。

Qwen Image Edit についてはこちらを参照

スペック

最新の ComfyUI は VRAM の量は重要ではなくなっている。なぜなら RAM にモデルをロードして、必要な分を VRAM に転送して処理するようなアルゴリズムになったからだ。画像生成 AI は演算ボトルネックなので、RAM からモデルを転送しつつ推論しても生成速度はほとんど低下しない。

ただし Qwen Image Layered は複数枚画像を出力するので、出力解像度が大きく枚数も多い場合、画像データだけで VRAM をすべて消費することがある。その場合、共有 VRAM が使われ、推論に非現実的な時間がかかる。

モデル

配置場所モデル
models/unetQwen_Image_Layered-Q4_K_M.gguf(RAM が多い場合は Q6_K や Q8_0 を使う)
models/text_encodersqwen_2.5_vl_7b_fp8_scaled.safetensors(Qwen Image Edit と同じ)
models/vaeqwen_image_layered_vae.safetensors

bf16 や fp8 は Comry-Org 公式(Comfy-Org/Qwen-Image-Layered_ComfyUI)からダウンロードできる。

ワークフロー

ワークフロー

使い方

どのように分解されるのかを制御するのが難しく、一度に必要枚数分解するのは現実的ではない。一度に2枚や3枚分割して、不足している画像をさらに分割する方が確実。

以下の要素を分解するのに使うのが現実的

レイヤー枚数

出力画像枚数は Empty HunyuanVideo 1.0 Latent ノードで制御する。Length とレイヤー枚数とは length = 1 + layer * 4 で計算できる。

レイヤー
枚数
length
15
29
313
417
521

作例

速度

結果

Q4_K_M が悪いのか、プロンプトに改善の余地があるのか不明。1回 50 分かかるので調査する気がなくなる。

外部リンク

Disappointment about Qwen-Image-Layered


広告
広告

カテゴリ