
譯者 | 核子可樂
審校 | 重樓
蘋果公司近期發表《思考的幻覺》論文,認為大推理模型必然不具備思考能力,仍只是進行模式匹配。其論據可概括為:當問題規模持續增大,采用思維鏈推理的大推理模型將無法使用預定義算法進行計算。
但這種認證存在根本性缺陷。畢竟哪怕面對漢諾塔(小圓盤始終在大圓盤之上)這樣簡單的問題,人類也不可能解開20層的問題。換言之,大推理模型能否思考仍是一樁懸案。
本文將提出更大膽的診斷:大推理模型幾乎必然具備思考能力。之所以說“幾乎”,是因為未來研究仍可能有新發現,但整個論證過程已經相當有力。
思考是什么?
在探討之前,我們需要先界定什么是“思考”。
1. 問題表征(額葉與頂葉)
思考問題時,前額葉皮層會啟動運作,負責實現工作記憶、注意力與執行功能。這些能力幫助我們在腦海中保持住問題,將其拆分為多個元素并設定目標。頂葉皮層則協助編碼數學或解決問題的符號結構。
2. 心理模擬(工作記憶與自我對話)
這個過程包含兩部分:其一是聽覺回路,能夠進行自我對話——這與概念生成的過程極為相似。其二是視覺意象,讓我們通過視覺操作物體。幾何學對于探索世界至關重要,因此我們發展出了專門能力。聽覺部分與布羅卡區及聽覺皮層相關,而二者又均由語言中樞支撐而來;視覺皮層與頂葉區域則主要控制視覺功能。
3. 模式匹配與檢索(海馬體與顳葉)
這些行為依賴于長期記憶中存儲的過往經驗與知識:
海馬體協助檢索相關記憶與事實。
顳葉提供語義知識——包括詞義、規則與分類體系。
這類似于神經網絡依賴訓練來處理任務的方式。
4. 監控與評估(前扣帶皮層)
前扣帶皮層負責監測錯誤、沖突或僵局——當察覺矛盾或死胡同時,正是此區域在運作。此過程本質上基于對既往經驗的模式匹配。
5. 洞察或重構(默認模式網絡與右腦)
陷入困境時,大腦可能切換至默認模式——一種更放松、內向的網絡狀態。此時我們會抽身而出,放下當前思路,有時會“突然”發現新視角(即「啊哈」時刻)。
這類似于DeepSeek-R1在缺乏思維鏈訓練數據的情況下,仍能掌握思維鏈推理機制。實際上,大腦在處理數據和解決問題時,會始終處于持續學習狀態。
反觀大推理模型,其預測和生成過程無法根據現實反饋進行調整。但DeepSeek-R1通過思維鏈訓練掌握了學習能力,即在解決問題的過程中持續更新推理模型。
思維鏈推理與生物思維的相似性
大推理模型并不具備上述能力,而多數人類可以通過構建空間模型解決問題。但這是否意味著大推理模型就無法思考?我個人持不同意見。部分人類同樣難以對思考概念形成空間模型,即“無象思維癥”。患者思維能力完全正常,生活狀態也與常人無異。其中很多人擅長符號推理且數學能力出眾,往往足以彌補視覺推理的缺陷。由此相見,也許神經網絡模型同樣能夠借此突破局限。
若從更抽象的角度審視人類思維過程,可以提取出以下要素:
1. 模式匹配,即調用已掌握的經驗、問題表征以及監控與評估思維鏈。
2. 工作記憶,即存儲所有中間步驟。
3. 回溯搜索得出結論:當前思維鏈無法推進,于是回溯至某個合理節點。
大推理模型中的模式匹配源自訓練過程,其核心在于同樣習得世界知識與有效處理知識的模式。由于大推理模型屬于分層網絡,整個工作記憶須容納于單層結構之內。權重則存儲世界知識并遵循模式,而處理過程通過各層間調用以立足模型參數習得相應模式。
需要注意的是,即使在思維鏈過程中,整個文本都必須被容納于各層當中。而工作記憶則僅占一層(若采用注意力機制,則采用KV緩存)。
思維鏈的運作模式實際跟人類的自言自語(自我對話)極為相似。我們習慣將思維過程語言化,思維鏈推理機制也是如此。
現有充分證據表明,當某條推理路徑看似徒勞時,思維鏈推理機制能夠采取回溯策略。蘋果研究人員在要求大推理模型解決更大規模的簡單問題時,觀察到的正是這種現象。大推理模型正確意識到直接解決會超出其工作記憶容量,于是嘗試尋找更優捷徑——與人類思維方式如出一轍。這進一步證明大推理模型具備思考能力,而非盲目遵循預設模式。
但作為持續預測下一token的僵化成果,大模型為何具備思考能力?
規模足夠大的神經網絡可以學習任何計算,包括思考。而詞序預測系統同樣可以掌握思考能力,以下詳述。
主流觀點認為大推理模型的本質只是在預測下一token,并不能真正思考——這種觀點存在根本性謬誤。事實上,token預測絕非思維的簡化表征;相反,它堪稱人類所能企及的最通用的知識表征形式。
當我們需要表征某種知識時,都需借助語言或符號體系。不同形式化語言在表達能力上存在明確差異,且在知識表征類型方面也存在根本性局限。
例如,由于一階謂詞邏輯無法表征所有滿足特定屬性的謂詞,所以無法直接用謂詞描述謂詞。
當然,高階謂詞演算能在任意深度上用謂詞描述謂詞。但即便如此,其仍無法表達缺乏精確性或具有抽象性的概念。
自然語言卻擁有更完備的表達能力,可以用任意細節程度或抽象層次描述任何概念。事實上,我們甚至可以用自然語言本身來描述關于自然語言的概念。其中的挑戰在于,如此豐富的表達力使得自然語言編碼的信息變得難以處理。但只要通過訓練過程,就能實現用數據直接對機器進行編程的效果。
下一token預測程序的本質,是在給定前置token上下文時計算下一token的概率分布。任何試圖精確計算該概率的機器,都必須能以某種形式表達世界知識。
舉例來說:考慮補全“世界最高峰是……”,要預測下一詞為“珠穆朗瑪峰”,則模型必須存儲有該知識。
就是說即便每次只預測單一token,模型內部仍然在工作記憶中至少儲備后續幾個token以確保邏輯路徑。
實際上,人類同樣是在這樣不斷預測下一token。若要保持持續的正確token輸出能力與良好的補全效果,頭腦中必須儲備豐富的知識。當然,我們永遠無法達到極致完美的境界。
而通過參數調優來表征知識,并借助數據與強化學習實現的參數化模型,其確實能夠掌握思考能力。
這是否屬于思考效果?
歸根結底,思考力的終極檢驗體現在系統能否解決思考型問題。只要系統能夠回答這類需要推理且以往從未出現過的問題,那它必需具備思考力,或者至少學會了通過推理來尋求答案。
考慮到某些模型可能通過后門機制在基準測試上做過微調,因此為確保公平性與透明度,這里僅關注開源模型。
這里采用以下基準進行評估:

可以看到,在某些基準測試中,大推理模型確實能解決偏重邏輯的問題。雖然多數情況下其表現仍遜于人類,但參與比照的人類受試者往往已經很熟悉這類測試。而在特定情境下,大推理模型甚至超越了未經訓練的普通人類。
總結
基于基準測試結果,思維鏈推理與生物推理擁有驚人相似性,而且“任何具備足夠表征能力、充足訓練數據和適配計算力的系統,均可執行任意可計算任務”。而大推理模型已經幾乎可以滿足這些條件。
因此可以合理推斷,大推理模型幾乎必然具備思考能力。
原文標題:Large reasoning models almost certainly can think,作者:Debasish Ray Chawdhuri




































