oobabooga の tips
カテゴリ:deeplearning
AIのべりすとのようにプロンプトを編集しながらテキストを生成する
Default タブでできる。
テキスト生成のショートカットは Shift + Enter。
CPU のスレッド数を制限する
CPU で処理する場合4スレッドあたりで性能の限界が来る。E コアや Hyperthreading がスレッドをつかむと遅くなるので、Model タブで実行スレッドを制限する。
一部の処理を GPU にオフロードする
NoobAI のテキストエンコーダーは壊れている
カテゴリ:deeplearning
Apple の The Illusion of Thinking の誤解
カテゴリ:deeplearning
X(旧 Twitter)では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。
しかし、この論文はそのような主張はしていない。
実際の論文の内容
Pytorch モデルを fp16 で動作させる方法
カテゴリ:deeplearning
pytorch のモデルは half() を呼び出せば fp16 になる。しかし、LayerNormalization などのレイヤーは非常に小さな値を扱うので、fp32 で動作させた方が良い。
SDXL Q8_0 量子化が流行らない理由
カテゴリ:deeplearning
VRAM を 800 MB 節約できるだけで、生成速度は fp16 と変わらないから。
NovelAI Diffusion V3 の改善点
カテゴリ:deeplearning
バッチ正規化の Tips
カテゴリ:deeplearning
バッチ正規化自体に性能を向上させる能力はない
NVIDIA の AMP が遅くなる理由
カテゴリ:deeplearning
GAN の学習
カテゴリ:deeplearning
llama-cpp-python + CUDA + Windows ビルドメモ
カテゴリ:deeplearning