Qwen Image Layered を ComfyUI で動かす
Qwen Image Layered は画像1枚とプロンプトを入力すると、複数枚の透過画像を出力するモデルだ。
学習画像は主にポスターで、文字・画像・背景・小物を分離するのが得意だ。Live2D 用に人体のパーツを分解することはできない。
スペック
最新の ComfyUI は VRAM の量は重要ではなくなっている。なぜなら RAM にモデルをロードして、必要な分を VRAM に転送して処理するようなアルゴリズムになったからだ。画像生成 AI は演算ボトルネックなので、RAM からモデルを転送しつつ推論しても生成速度はほとんど低下しない。
ただし Qwen Image Layered は複数枚画像を出力するので、出力解像度が大きく枚数も多い場合、画像データだけで VRAM をすべて消費することがある。その場合、共有 VRAM が使われ、推論に非現実的な時間がかかる。
モデル
| 配置場所 | モデル |
|---|---|
| models/unet | Qwen_Image_Layered-Q8_0.gguf |
| models/text_encoders | qwen_2.5_vl_7b_fp8_scaled.safetensors(Qwen Image Edit と同じ) |
| models/vae | qwen_image_layered_vae.safetensors |
| models/lora | lightx2v/Qwen-Image-Lightning-2509 |
bf16 や fp8 は Comry-Org 公式(Comfy-Org/Qwen-Image-Layered_ComfyUI)からダウンロードできる。
品質は良くないが Qwen Image Edit 用の Lightning LoRA が使える。
ワークフロー
workflow wanted for qwen image layered #11427
使い方
オブジェクト単位の分割しかできない。文字の切り抜き精度は高いが、キャラの切り抜き精度は良くない。輪郭のはっきりしたイラストの分解用。
どのように分解されるのかを制御するのが難しく、一度に必要枚数分解するのは現実的ではない。一度に2枚や3枚分割して、不足している画像をさらに分割する方が確実。
1枚の画像を以下の要素に分解するのに使うのが現実的
- 文字
- キャラ
- 背景
- オブジェクト
レイヤー枚数
出力画像枚数は Empty HunyuanVideo 1.0 Latent ノードで制御する。Length とレイヤー枚数とは length = 1 + layer * 4 で計算できる。
| レイヤー 枚数 | length |
|---|---|
| 1 | 5 |
| 2 | 9 |
| 3 | 13 |
| 4 | 17 |
| 5 | 21 |
作例
- ComfyUI のバージョン:v0.5.1-20-g0899012a | Released on '2025-12-19'
- Win11 24H2
- RTX3050 8GB
- RAM 32GB
- ModelSamplingAuraFlow の shift:1
Qwen_Image_Layered-Q4_K_M.gguf(非推奨)
- 推論速度:82 s/it
- 832 x 1216 の解像度の画像を1枚入力し、出力画像は3枚
- CFG 4
- 20 step
精度が低くノイズがなくならないので Q4_K_M は非推奨。
Qwen_Image_Layered-Q6_K.gguf
ノイズが乗っているのは Qwen Image Edit の Lightning LoRA が原因。Qwen Image Edit の Lightning LoRA を使わない場合はノイズは乗らない。
- 832 x 1216 の解像度の画像を1枚入力し、出力画像は4枚
- 推論速度:41 s/it(レイヤー3枚出力の場合)
- 推論速度:55 s/it(レイヤー4枚出力の場合)
- Qwen Image Edit 用の Lightning LoRA 使用
- CFG1
- 8step
Qwen_Image_Layered-Q8_0.gguf
文字の切り抜き精度は高いが、キャラの切り抜き精度は良くない。輪郭のはっきりしたイラストの分解用。
- 832 x 1216 の解像度の画像を1枚入力し、出力画像は3枚
- 推論速度:82 s/it(レイヤー3枚出力の場合)
- CFG 2.5
- 20 step




