SDXL Q8_0 量子化が流行らない理由
カテゴリ:deeplearning
VRAM を 800 MB 節約できるだけで、生成速度は fp16 と変わらないから。
環境
- ツール:ComfyUI 0.3.60
- torch 2.6.0+cu124
- GGUF モデル: NoobAI-XL-Epsilon-v1.1-unet-Q8_0.gguf
- fp16 モデル:noobai-XL-1.1
- RTX3050 VRAM 8 GB
- Windows 11 24H2
結果
- 解像度 1024 x 1024
- ステップ数 20
- CFG 5.0
- Euler a
モデル | 生成時間(sec) | VRAM 使用量(GB) |
---|---|---|
fp16 | 24 | 6.7 |
Q8_0 | 24 | 5.9 |