Qwen Image Layered を ComfyUI で動かす

Qwen Image Layered は画像１枚とプロンプトを入力すると、複数枚の透過画像を出力するモデルだ。

学習画像は主にポスターで、文字・画像・背景・小物を分離するのが得意だ。Live2D 用に人体のパーツを分解することはできない。

スペック

最新の ComfyUI は VRAM の量は重要ではなくなっている。なぜなら RAM にモデルをロードして、必要な分を VRAM に転送して処理するようなアルゴリズムになったからだ。画像生成 AI は演算ボトルネックなので、RAM からモデルを転送しつつ推論しても生成速度はほとんど低下しない。

ただし Qwen Image Layered は複数枚画像を出力するので、出力解像度が大きく枚数も多い場合、画像データだけで VRAM をすべて消費することがある。その場合、共有 VRAM が使われ、推論に非現実的な時間がかかる。

配置場所	モデル
models/unet	Qwen_Image_Layered-Q8_0.gguf
models/text_encoders	qwen_2.5_vl_7b_fp8_scaled.safetensors（Qwen Image Edit と同じ）
models/vae	qwen_image_layered_vae.safetensors
models/lora	lightx2v/Qwen-Image-Lightning-2509

bf16 や fp8 は Comry-Org 公式（Comfy-Org/Qwen-Image-Layered_ComfyUI）からダウンロードできる。

品質は良くないが Qwen Image Edit 用の Lightning LoRA が使える。

ワークフロー

オブジェクト単位の分割しかできない。文字の切り抜き精度は高いが、キャラの切り抜き精度は良くない。輪郭のはっきりしたイラストの分解用。

どのように分解されるのかを制御するのが難しく、一度に必要枚数分解するのは現実的ではない。一度に２枚や３枚分割して、不足している画像をさらに分割する方が確実。

１枚の画像を以下の要素に分解するのに使うのが現実的

出力画像枚数は Empty HunyuanVideo 1.0 Latent ノードで制御する。Length とレイヤー枚数とは length = 1 + layer * 4 で計算できる。

精度が低くノイズがなくならないので Q4_K_M は非推奨。

Q4_K_M

ノイズが乗っているのは Qwen Image Edit の Lightning LoRA が原因。Qwen Image Edit の Lightning LoRA を使わない場合はノイズは乗らない。

Q6_K
Qwen Image Edit の Lightning LoRA がノイズの原因

文字の切り抜き精度は高いが、キャラの切り抜き精度は良くない。輪郭のはっきりしたイラストの分解用。

Q8_0

等倍