dskjal
広告
広告

Apple の The Illusion of Thinking の誤解

カテゴリ:deeplearning

X(旧 Twitter)では Apple の The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity という論文が「LRM は推論をしてるのではなくパターンマッチングをしているだけ」と主張しているという、間違いを信じている人が多い。

しかし、この論文はそのような主張はしていない。

実際の論文の内容

現在の推論モデルのベンチマークは数学とコーディングとに偏っている。そこで、ハノイの塔や川渡りやチェッカージャンピングのような、問題の複雑さを変更できる論理パズルを利用して推論能力を調査した。

得られた結論は以下の通り。

これらの洞察から、現在のアプローチでは LRM は一般化可能な推論能力が獲得できない可能性が示唆される。

LLM パターンマッチング論の誤解のソース

論文に引用されている GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models の内容を、The Illusion of Thinking の内容と誤読している。GSM-Symbolic 論文は、LLM に GSM-Symbolic benchmark の数値を変更した問題や質問の項目を増やした問題を解かせるとパフォーマンスが悪化したことから、LLM は論理的な推論を行えないのではないかという疑問を呈している。

問題の文章は GSM-Symbolic 論文の 5 Conclusion にある。

"It may resemble sophisticated pattern matching more than true logical reasoning."  
   
出典:Seyed Iman Mirzadeh et al. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

まともな批判

このポストは、高難度の問題はモデルのコンテキストサイズが不足しているので物理的に正答が不可能であることを指摘している。これはハノイの塔においてはその通りだが、川渡りの問題ではこの批判は当てはまらない。

ProRL

NVidia の研究チームは ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models で、GRPO の正則化にカルバックライブラーダイバージェンスを追加する新手法と大規模な論理推論のデータセットとで訓練することで、LLM に未知の論理パズルを解かせることに成功している。

LLM で強化学習を実施する際にエントロピー崩壊が問題となっていた。訓練早々にモデルの出力分布がピークに到達して学習が不十分になっていた。そこで GRPO の正則化にカルバックライブラーダイバージェンスを追加することで、より大規模なデータセットでの強化学習ができるようになった。


広告
広告

カテゴリ