Apple の The Illusion of Thinking の誤解
X(旧 Twitter)では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。
しかし、この論文はそのような主張はしていない。
実際の論文の内容
現在の推論モデルのベンチマークは数学とコーディングとに偏っている。そこで、ハノイの塔や川渡りやチェッカージャンピングのような、問題の複雑さを変更できる論理パズルを利用して推論能力を調査した。
得られた結論は以下の通り。
- SOTA LRMs(o3-mini, DeepSeek-R1, Claude-3.7-Sonnet-Thinking)は、あるしきい値を超えると一般化可能な推論能力(generalizable reasoning capabilities)を発揮できなくなる
- 解法を教えても、解法通りに駒を操作できず、解法を教えなかった時とだいたい同じ位置で間違える
- 簡単な問題では LLM の方が正答率が高く、中難易度では LRM の正答率が高く、高難易度では両方正答できない
- 問題の複雑さが上がると正答率が悪化し、最終的に正答率は0になる
- 問題の複雑さがあるラインに達すると、出力するトークン数が減る
- 簡単な問題では早期に正答を見つけた後に、考えすぎることで誤答することがよくある(overthinking)
- 中難易度の問題では、LRM は最初に間違った解法を提案した後に、考え直して正答に到達することが多い
これらの洞察から、現在のアプローチでは LRM は一般化可能な推論能力が獲得できない可能性が示唆される。
LLM パターンマッチング論の誤解のソース
論文に引用されている GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models の内容を、The Illusion of Thinking の内容と誤読している。GSM-Symbolic 論文は、LLM に GSM-Symbolic benchmark の数値を変更した問題や質問の項目を増やした問題を解かせるとパフォーマンスが悪化したことから、LLM は論理的な推論を行えないのではないかという疑問を呈している。
問題の文章は GSM-Symbolic 論文の 5 Conclusion にある。
"It may resemble sophisticated pattern matching more than true logical reasoning." 出典:Seyed Iman Mirzadeh et al. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
まともな批判
このポストは、高難度の問題はモデルのコンテキストサイズが不足しているので物理的に正答が不可能であることを指摘している。これはハノイの塔においてはその通りだが、川渡りの問題ではこの批判は当てはまらない。
ProRL
NVidia の研究チームは ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models で、GRPO の正則化にカルバックライブラーダイバージェンスを追加する新手法と大規模な論理推論のデータセットとで訓練することで、LLM に未知の論理パズルを解かせることに成功している。
LLM で強化学習を実施する際にエントロピー崩壊が問題となっていた。訓練早々にモデルの出力分布がピークに到達して学習が不十分になっていた。そこで GRPO の正則化にカルバックライブラーダイバージェンスを追加することで、より大規模なデータセットでの強化学習ができるようになった。