dskjal
広告
広告

Qwen Image Layered を ComfyUI で動かす

カテゴリ:deeplearning

Qwen/Qwen-Image-Layered

Qwen Image Layered は画像1枚とプロンプトを入力すると、複数枚の透過画像を出力するモデルだ。

学習画像は主にポスターで、文字・画像・背景・小物を分離するのが得意だ。Live2D 用に人体のパーツを分解することはできない。

Qwen Image Edit についてはこちらを参照

スペック

最新の ComfyUI は VRAM の量は重要ではなくなっている。なぜなら RAM にモデルをロードして、必要な分を VRAM に転送して処理するようなアルゴリズムになったからだ。画像生成 AI は演算ボトルネックなので、RAM からモデルを転送しつつ推論しても生成速度はほとんど低下しない。

ただし Qwen Image Layered は複数枚画像を出力するので、出力解像度が大きく枚数も多い場合、画像データだけで VRAM をすべて消費することがある。その場合、共有 VRAM が使われ、推論に非現実的な時間がかかる。

モデル

配置場所モデル
models/unetQwen_Image_Layered-Q8_0.gguf
models/text_encodersqwen_2.5_vl_7b_fp8_scaled.safetensors(Qwen Image Edit と同じ)
models/vaeqwen_image_layered_vae.safetensors
models/loralightx2v/Qwen-Image-Lightning-2509

bf16 や fp8 は Comry-Org 公式(Comfy-Org/Qwen-Image-Layered_ComfyUI)からダウンロードできる。

品質は良くないが Qwen Image Edit 用の Lightning LoRA が使える。

ワークフロー

workflow wanted for qwen image layered #11427

ワークフロー

ワークフロー

使い方

オブジェクト単位の分割しかできない。文字の切り抜き精度は高いが、キャラの切り抜き精度は良くない。輪郭のはっきりしたイラストの分解用。

どのように分解されるのかを制御するのが難しく、一度に必要枚数分解するのは現実的ではない。一度に2枚や3枚分割して、不足している画像をさらに分割する方が確実。

1枚の画像を以下の要素に分解するのに使うのが現実的

レイヤー枚数

出力画像枚数は Empty HunyuanVideo 1.0 Latent ノードで制御する。Length とレイヤー枚数とは length = 1 + layer * 4 で計算できる。

レイヤー
枚数
length
15
29
313
417
521

作例

Qwen_Image_Layered-Q4_K_M.gguf(非推奨)

精度が低くノイズがなくならないので Q4_K_M は非推奨。

Q4_K_M

Q4_K_M

Qwen_Image_Layered-Q6_K.gguf

ノイズが乗っているのは Qwen Image Edit の Lightning LoRA が原因。Qwen Image Edit の Lightning LoRA を使わない場合はノイズは乗らない。

Q6_K<br/>Qwen Image Edit の Lightning LoRA がノイズの原因

Q6_K
Qwen Image Edit の Lightning LoRA がノイズの原因

Qwen_Image_Layered-Q8_0.gguf

文字の切り抜き精度は高いが、キャラの切り抜き精度は良くない。輪郭のはっきりしたイラストの分解用。

Q8_0

Q8_0

等倍

等倍

外部リンク

Disappointment about Qwen-Image-Layered


広告
広告

カテゴリ