dskjal
deeplearning カテゴリの記事一覧を表示しています。
広告
広告

Wan 2.1 の論文メモ

カテゴリ:deeplearning

続きを読む

スケール則の終わり

カテゴリ:deeplearning

LLM のスケール則はモデルサイズ、データセットサイズ、学習に使う計算量の3つを適切な比率で増加させれば、LLM の性能は増加量に比例して向上する、という経験則だ。

そしてこのスケール則は以下の要因で終わりに近づいている。

続きを読む

LoRA の学習方法

カテゴリ:deeplearning

続きを読む

Python 3.11.6 で reforge を使う

カテゴリ:deeplearning

ROCm の whl のサポートが 3.11 からなので、3.11 で動作することは重要だ。

続きを読む

NoobAI のテキストエンコーダーは壊れている

カテゴリ:deeplearning

続きを読む

VRAM 8 GB・ComfyUI で NetaYume-Lumina-Image-2.0

カテゴリ:deeplearning

続きを読む

Apple の The Illusion of Thinking の誤解

カテゴリ:deeplearning

X(旧 Twitter)では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。

しかし、この論文はそのような主張はしていない。

実際の論文の内容

続きを読む

torch と cuda の tips

カテゴリ:deeplearning

CUDA は後方互換性があるので、nvcc -V の出力より前のライブラリでビルドされているものも実行できる。

続きを読む

Pytorch モデルを fp16 で動作させる方法

カテゴリ:deeplearning

pytorch のモデルは half() を呼び出せば fp16 になる。しかし、LayerNormalization などのレイヤーは非常に小さな値を扱うので、fp32 で動作させた方が良い。

続きを読む