Qwen Image Layered を ComfyUI で動かす
カテゴリ:deeplearning
Qwen Image Layered は画像1枚とプロンプトを入力すると、複数枚の透過画像を出力するモデルだ。
学習画像は主にポスターで、文字・画像・背景・小物を分離するのが得意だ。Live2D 用に人体のパーツを分解することはできない。
スペック
最新の ComfyUI は VRAM の量は重要ではなくなっている。なぜなら RAM にモデルをロードして、必要な分を VRAM に転送して処理するようなアルゴリズムになったからだ。画像生成 AI は演算ボトルネックなので、RAM からモデルを転送しつつ推論しても生成速度はほとんど低下しない。
ただし Qwen Image Layered は複数枚画像を出力するので、出力解像度が大きく枚数も多い場合、画像データだけで VRAM をすべて消費することがある。その場合、共有 VRAM が使われ、推論に非現実的な時間がかかる。
モデル
| 配置場所 | モデル |
|---|---|
| models/unet | Qwen_Image_Layered-Q4_K_M.gguf(RAM が多い場合は Q6_K や Q8_0 を使う) |
| models/text_encoders | qwen_2.5_vl_7b_fp8_scaled.safetensors(Qwen Image Edit と同じ) |
| models/vae | qwen_image_layered_vae.safetensors |
bf16 や fp8 は Comry-Org 公式(Comfy-Org/Qwen-Image-Layered_ComfyUI)からダウンロードできる。
使い方
どのように分解されるのかを制御するのが難しく、一度に必要枚数分解するのは現実的ではない。一度に2枚や3枚分割して、不足している画像をさらに分割する方が確実。
以下の要素を分解するのに使うのが現実的
- 文字
- キャラ
- 背景
- オブジェクト
レイヤー枚数
出力画像枚数は Empty HunyuanVideo 1.0 Latent ノードで制御する。Length とレイヤー枚数とは length = 1 + layer * 4 で計算できる。
| レイヤー 枚数 | length |
|---|---|
| 1 | 5 |
| 2 | 9 |
| 3 | 13 |
| 4 | 17 |
| 5 | 21 |
作例
- ComfyUI のバージョン:v0.5.1-20-g0899012a | Released on '2025-12-19'
- Win11 24H2
- RTX3050 8GB
- RAM 32GB
- Qwen_Image_Layered-Q4_K_M.gguf
- CFG 4
- 40 step
- 832 x 1216 の解像度の画像を1枚入力し、出力画像は3枚
速度
- 82 s/it
- かかった時間は 54 分
結果
Q4_K_M が悪いのか、プロンプトに改善の余地があるのか不明。1回 50 分かかるので調査する気がなくなる。

