蘋果《思考的錯覺》再挨批，Claude與人類共著論文指出其三大關鍵缺陷

2025-06-16 08:48:00

著名 LLM 唱衰者 Gary Marcus 也發文指出這項研究的缺點，并再次批評 LLM。

幾天前，蘋果一篇《思考的錯覺》論文吸睛無數又爭議不斷，其中研究了當今「推理模型」究竟真正能否「推理」的問題，而這里的結論是否定的。

論文中寫到：「我們的研究表明，最先進的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking）仍然未能發展出可泛化的解決問題能力 —— 在不同環境中，當達到一定復雜度時，準確度最終會崩潰至零。」

不過，這篇論文的研究方法也受到了不少質疑，比如我們的一位讀者就認為「給數學題題干加無關內容，發現大模型更容易答錯，而質疑大模型不會推理」的做法并不十分合理。

著名 LLM 唱衰者 Gary Marcus 也發文指出這項研究的缺點，并再次批評 LLM。總結起來，他的意見有 7 點：

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

人類在處理復雜問題和記憶需求方面存在困難。
大型推理模型 (LRM) 不可能解決這個問題，因為輸出需要太多的輸出 token。
這篇論文是由一名實習生撰寫的。
更大的模型可能表現更好。
這些系統可以用代碼解決這些難題。
這篇論文只有四個例子，其中至少有一個（漢諾塔）并不完美。
這篇論文并不新鮮；我們已經知道這些模型的泛化能力很差。

而現在，我們迎來了對這項研究更強有力的質疑：《思考的錯覺的錯覺》。是的，你沒有看錯，這就是這篇來自 Anthropic 和 Open Philanthropy 的評論性論文的標題！其中指出了那篇蘋果論文的 3 個關鍵缺陷：

漢諾塔實驗在報告的失敗點系統性地超出了模型輸出 token 的限制，而模型在其輸出中明確承認了這些限制；
蘋果論文作者的自動評估框架未能區分推理失敗和實際約束，導致對模型能力分類錯誤；
最令人擔憂的是，由于船容量不足，當 N ≥ 6 時，他們的「過河（River Crossing）」基準測試包含在數學上不可能出現的實例，但模型卻因未能解答這些本就無法解決的問題而被評為失敗。

論文很短，加上參考文獻也只有短短 4 頁內容。而更有趣的是，來自 Anthropic 的作者名為 C. Opus，實際上就是 Claude Opus。另需指出，另一位作者 Alex Lawsen 是一位「AI 治理與政策高級項目專員」，曾經也擔任過英國 Sixth Form College（第六學級學院）的數學和物理學教師。（第六學級學院是英國教育體系中的一種專門為 16 至 19 歲學生開設的學院，是英國中學教育（Secondary Education）之后、大學教育（Higher Education）之前的一個關鍵階段。）

https://x.com/lxrjl/status/1932499153596149875

所以，這其實是一篇 AI 與人類合著的論文，并且 AI 還是第一作者。

論文標題：The Illusion of the Illusion of Thinking
論文地址：https://arxiv.org/pdf/2506.09250v1

下面我們就來看看這篇評論性論文的具體內容。

1 引言

Shojaee et al. (2025) 聲稱通過對規劃難題的系統評估，發現了大型推理模型（LRM）的根本局限性。他們的核心發現對 AI 推理研究具有重要意義，即：在超過某些復雜度閾值后，模型準確度會「崩潰」為零。

然而，我們的分析表明，這些明顯的失敗源于實驗設計的選擇，而非模型固有的局限性。

2 模型能識別輸出約束

蘋果的原始研究中忽略了一個關鍵觀察結果：模型在接近輸出極限時能夠主動識別。?? 用戶 @scaling01 最近進行了一項復現研究，表明在進行漢諾塔實驗時，模型會顯式地陳述「這種模式仍在繼續，但為了避免內容過長，我將在此停止」。這表明模型其實已經理解了該問題的求解模式，但會由于實際限制而選擇截斷輸出。

https://x.com/scaling01/status/1931817022926839909

這種將模型行為錯誤地描述為「推理崩潰」的行為反映了自動化評估系統的一個更廣泛的問題，即未能考慮模型的感知和決策。當評估框架無法區分「無法解決」和「選擇不進行詳盡列舉」時，它們可能會錯誤評估模型的基本能力。

2.1 僵化評估的后果

這種評估限制可能導致其他分析錯誤。考慮以下統計論證：如果我們逐個字符地對漢諾塔的解進行評分，而不允許糾錯，那么完美執行的概率將變為：

其中 p 表示每個 token 的準確度，T 表示 token 總數。如果 T = 10,000 個 token，則有：

p = 0.9999: P (success) < 37%
p = 0.999: P (success) < 0.005%

實際上，已有文獻《Faith and fate: Limits of transformers on compositionality》提出，這類「統計必然性」是 LLM scaling 的一個基本限制，但它假設模型無法識別并適應自身的局限性，而這一假設與上述證據相悖。

3 不可能解答的難題

在「過河」實驗中，評估問題大幅復雜化。Shojaee et al. 測試了有 N ≥ 6 個參與者 / 主體的實例，但使用的船的容量只有 b = 3。然而，研究界已經公認：傳教士 - 食人族謎題（及其變體）在 N > 5 且 b = 3 時無解，詳見論文《River Crossing Problems: Algebraic Approach》，arXiv:1802.09369。

由于蘋果研究者自動將這些不可能的實例計為失敗，就無意中暴露了純程序化評估的弊端。模型獲得零分并非因為推理失敗，而是因為正確識別了不可解的問題 —— 這相當于懲罰 SAT 求解器，因為該程序對不可滿足的公式返回了「不可滿足」。