Python 3.11.6 で reforge を使う
ROCm の whl のサポートが 3.11 からなので、3.11 で動作することは重要だ。
forge-classic は python 3.11、torch 2.8.0、cuda 12.8 なのでこちらを使った方が早い。
Wan 2.1 の論文メモ
Windows で llama.cpp のビルド
oobabooga の tips
AIのべりすとのようにプロンプトを編集しながらテキストを生成する
Default タブでできる。
テキスト生成のショートカットは Shift + Enter。
CPU のスレッド数を制限する
CPU で処理する場合4スレッドあたりで性能の限界が来る。E コアや Hyperthreading がスレッドをつかむと遅くなるので、Model タブで実行スレッドを制限する。
一部の処理を GPU にオフロードする
ComfyUI の ModelSamplingAuraFlow とは何か
ModelSamplingAuraFlow は高解像度画像を生成する際に、ノイズが不足しないようにするノード。
中身は ModelSamplingSD3 ノードと同じ。詳細は SD3 論文の p. 10 Resolution-dependent shifting of timestep schedules を参照。
ノイズを増量することで画像にディティールを追加する使い方もできる。
NoobAI のテキストエンコーダーは壊れている
Apple の The Illusion of Thinking の誤解
X(旧 Twitter)では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。
しかし、この論文はそのような主張はしていない。
実際の論文の内容
torch と cuda の tips
CUDA は後方互換性があるので、nvcc -V の出力より前のライブラリでビルドされているものも実行できる。
Pytorch モデルを fp16 で動作させる方法
pytorch のモデルは half() を呼び出せば fp16 になる。しかし、LayerNormalization などのレイヤーは非常に小さな値を扱うので、fp32 で動作させた方が良い。
SDXL Q8_0 量子化が流行らない理由
VRAM を 800 MB 節約できるだけで、生成速度は fp16 と変わらないから。