Apple の The Illusion of Thinking の誤解
X(旧 Twitter)では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。
しかし、この論文はそのような主張はしていない。
実際の論文の内容
torch と cuda の tips
CUDA は後方互換性があるので、nvcc -V の出力より前のライブラリでビルドされているものも実行できる。
Pytorch モデルを fp16 で動作させる方法
pytorch のモデルは half() を呼び出せば fp16 になる。しかし、LayerNormalization などのレイヤーは非常に小さな値を扱うので、fp32 で動作させた方が良い。
SDXL Q8_0 量子化が流行らない理由
VRAM を 800 MB 節約できるだけで、生成速度は fp16 と変わらないから。
Windows で Radeon を使って ComfyUI や Automatic1111WebUI を動かす
Tsukasa-Speech を Windows で GPU で動かす
デフォルトの状態ではメモリが解放されず、動作を続けると VRAM が不足するのでアプリの再起動が必要になる。
512 トークン制限があり、一度に生成できる文字数は日本語の場合 200 文字に届かない程度。
ファイルアップロードバグ
gr.Audio にはバグがあり、"Too little data for declared Content-Length" のエラーメッセージで、リファレンス音声の再アップロードに失敗する。詳細は Audio component: gradio RuntimeError: Response content shorter than Content-Length #8878 を参照。大きいファイルではエラーが起こらず、小さいファイルを再アップロードすると発生することから、キャッシュが悪さをしている可能性がある。
対処法としては
- アプリを再起動
- ファイルをリネームしてアップロード
Windows で llama.cpp のビルド
Python 3.13 で kohya-ss sd-scripts の環境構築
xformers は使わない(--sdpa を使う)ので入れていない。