精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果《思考的錯覺》再挨批,Claude與人類共著論文指出其三大關鍵缺陷

人工智能 新聞
著名 LLM 唱衰者 Gary Marcus 也發文指出這項研究的缺點,并再次批評 LLM。

幾天前,蘋果一篇《思考的錯覺》論文吸睛無數又爭議不斷,其中研究了當今「推理模型」究竟真正能否「推理」的問題,而這里的結論是否定的。

論文中寫到:「我們的研究表明,最先進的 LRM(例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)仍然未能發展出可泛化的解決問題能力 —— 在不同環境中,當達到一定復雜度時,準確度最終會崩潰至零。」

不過,這篇論文的研究方法也受到了不少質疑,比如我們的一位讀者就認為「給數學題題干加無關內容,發現大模型更容易答錯,而質疑大模型不會推理」的做法并不十分合理。

著名 LLM 唱衰者 Gary Marcus 也發文指出這項研究的缺點,并再次批評 LLM。總結起來,他的意見有 7 點:

圖片

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

  1. 人類在處理復雜問題和記憶需求方面存在困難。
  2. 大型推理模型 (LRM) 不可能解決這個問題,因為輸出需要太多的輸出 token。
  3. 這篇論文是由一名實習生撰寫的。
  4. 更大的模型可能表現更好。
  5. 這些系統可以用代碼解決這些難題。
  6. 這篇論文只有四個例子,其中至少有一個(漢諾塔)并不完美。
  7. 這篇論文并不新鮮;我們已經知道這些模型的泛化能力很差。

而現在,我們迎來了對這項研究更強有力的質疑:《思考的錯覺的錯覺》。是的,你沒有看錯,這就是這篇來自 Anthropic 和 Open Philanthropy 的評論性論文的標題!其中指出了那篇蘋果論文的 3 個關鍵缺陷:

  1. 漢諾塔實驗在報告的失敗點系統性地超出了模型輸出 token 的限制,而模型在其輸出中明確承認了這些限制;
  2. 蘋果論文作者的自動評估框架未能區分推理失敗和實際約束,導致對模型能力分類錯誤;
  3. 最令人擔憂的是,由于船容量不足,當 N ≥ 6 時,他們的「過河(River Crossing)」基準測試包含在數學上不可能出現的實例,但模型卻因未能解答這些本就無法解決的問題而被評為失敗。

論文很短,加上參考文獻也只有短短 4 頁內容。而更有趣的是,來自 Anthropic 的作者名為  C. Opus,實際上就是 Claude Opus。另需指出,另一位作者 Alex Lawsen 是一位「AI 治理與政策高級項目專員」,曾經也擔任過英國 Sixth Form College(第六學級學院)的數學和物理學教師。(第六學級學院是英國教育體系中的一種專門為 16 至 19 歲學生開設的學院,是英國中學教育(Secondary Education)之后、大學教育(Higher Education)之前的一個關鍵階段。)

圖片

https://x.com/lxrjl/status/1932499153596149875

所以,這其實是一篇 AI 與人類合著的論文,并且 AI 還是第一作者。

圖片


  • 論文標題:The Illusion of the Illusion of Thinking 
  • 論文地址:https://arxiv.org/pdf/2506.09250v1

下面我們就來看看這篇評論性論文的具體內容。

1 引言

Shojaee et al. (2025) 聲稱通過對規劃難題的系統評估,發現了大型推理模型(LRM)的根本局限性。他們的核心發現對 AI 推理研究具有重要意義,即:在超過某些復雜度閾值后,模型準確度會「崩潰」為零。

然而,我們的分析表明,這些明顯的失敗源于實驗設計的選擇,而非模型固有的局限性。

2 模型能識別輸出約束

蘋果的原始研究中忽略了一個關鍵觀察結果:模型在接近輸出極限時能夠主動識別。?? 用戶 @scaling01 最近進行了一項復現研究,表明在進行漢諾塔實驗時,模型會顯式地陳述「這種模式仍在繼續,但為了避免內容過長,我將在此停止」。這表明模型其實已經理解了該問題的求解模式,但會由于實際限制而選擇截斷輸出。

圖片

https://x.com/scaling01/status/1931817022926839909

這種將模型行為錯誤地描述為「推理崩潰」的行為反映了自動化評估系統的一個更廣泛的問題,即未能考慮模型的感知和決策。當評估框架無法區分「無法解決」和「選擇不進行詳盡列舉」時,它們可能會錯誤評估模型的基本能力。

2.1 僵化評估的后果

這種評估限制可能導致其他分析錯誤。考慮以下統計論證:如果我們逐個字符地對漢諾塔的解進行評分,而不允許糾錯,那么完美執行的概率將變為:

圖片

其中 p 表示每個 token 的準確度,T 表示 token 總數。如果 T = 10,000 個 token,則有:

  • p = 0.9999: P (success) < 37%
  • p = 0.999: P (success) < 0.005%

實際上,已有文獻《Faith and fate: Limits of transformers on compositionality》提出,這類「統計必然性」是 LLM scaling 的一個基本限制,但它假設模型無法識別并適應自身的局限性,而這一假設與上述證據相悖。

3 不可能解答的難題

在「過河」實驗中,評估問題大幅復雜化。Shojaee et al. 測試了有 N ≥ 6 個參與者 / 主體的實例,但使用的船的容量只有 b = 3。然而,研究界已經公認:傳教士 - 食人族謎題(及其變體)在 N > 5 且 b = 3 時無解,詳見論文《River Crossing Problems: Algebraic Approach》,arXiv:1802.09369。

由于蘋果研究者自動將這些不可能的實例計為失敗,就無意中暴露了純程序化評估的弊端。模型獲得零分并非因為推理失敗,而是因為正確識別了不可解的問題 —— 這相當于懲罰 SAT 求解器,因為該程序對不可滿足的公式返回了「不可滿足」。

4 物理 token 限制導致明顯崩潰

回到漢諾塔分析,我們可以量化問題規模與 token 需求之間的關系。

圖片

漢諾塔游戲規則:將所有圓盤從起始柱按大小順序完整移動到目標柱,且每次只能移動一個圓盤,且大圓盤不能疊在小圓盤上。 

蘋果研究者的評估格式要求在每一步輸出完整的移動序列,從而導致 token 數量呈二次方增長。如果序列中每一步大約需要 5 個 token:

圖片

考慮到分配的 token 預算(Claude-3.7-Sonnet 和 DeepSeek-R1 為 64,000 個,o3-mini 為 100,000 個),則最大可解規模為:

圖片

原始論文報告的超出這些規模的所謂「崩潰」與這些約束一致。

5 使用另一種表示來恢復性能

為了檢驗模型失敗能否反映推理限制或格式限制,這位 AI 作者與 Alex Lawsen 使用了不同的表示方法,初步測試了相同的模型在 N = 15 的漢諾塔上的表現:

圖片


提示詞:求解有 15 個圓盤的漢諾塔問題。輸出一個被調用時會 print 答案的 Lua 函數。

結果:所有被測模型(Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3、Google Gemini 2.5)的準確度都非常高,且使用的 token 數都不到 5000。

下面展示了 ?? 用戶 @janekm 分享的一次測試結果

圖片

https://x.com/janekm/status/1933481060416799047

6 重新評估原始論文的復雜性主張

蘋果的作者使用了「組合深度(compositional depth)」(最小步數)作為復雜度指標,但這其實將機械執行與問題求解難度混為一談了:

圖片

問題的復雜度不僅僅由解答的長度決定

漢諾塔雖然需要指數級數量的步數,但每步的決策過程都很簡單,為 O (1)。過河問題步數少得多,但需要滿足復雜的約束條件并進行搜索。這解釋了為什么模型可能有能力完成 100 步以上的漢諾塔,卻無法解決 5 步的過河問題。

7 總結

Shojaee et al. 的結果只能表明,模型輸出的 token 數量無法超過其上下文限制,程序化評估可能會同時遺漏模型能力極限和難題的不可解性,并且解答長度無法準確預測問題的難度。這些都是寶貴的工程見解,但它們并不支持關于基本推理局限性的論斷。

未來的研究應該:

  • 設計能夠區分推理能力和輸出約束的評估方法;
  • 在評估模型性能之前驗證難題的可解性;
  • 使用能夠反映計算難度而非僅僅反映解答長度的復雜度指標;
  • 考慮多種解答表示,以區分算法理解和執行。

問題不在于大型推理模型(LRM)能否推理,而在于我們的評估方法能否區分推理和文本生成。

網友怎么看?

同樣,這篇論文也吸引了不少眼球,并且基本都是好評。


圖片   

https://x.com/janekm/status/1933481060416799047

有讀者打聽了這兩位作者的合作模式 —— 其實就是聊天。

圖片

https://x.com/lxrjl/status/1932557168278188517

也許,我們可以將這篇論文稱為氛圍論文(vibe paper),正如 CMU PhD Behnam Mohammadi 調侃的那樣 :')

圖片

https://x.com/OrganicGPT/status/1932502854960366003

不過,反對意見當然也還是存在的。

圖片

對此,你怎么看?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-17 08:52:00

蘋果AI論文

2011-08-10 10:37:45

智能管道PCC融合架構

2018-09-01 16:17:08

2009-02-01 16:17:00

李開復云計算應用云計算

2012-03-12 13:15:36

云管理時代

2024-07-12 14:26:07

AI工程趨勢

2023-10-24 14:56:26

首席數據官

2014-10-29 10:33:46

物聯網

2013-07-16 11:07:20

2019-11-11 14:28:11

云計算數據IT

2012-06-13 14:29:06

2020-12-10 11:33:10

云計算

2013-07-19 11:05:31

2025-06-10 07:11:00

2020-04-09 09:33:30

創新領導者團隊

2013-10-29 09:09:58

SDN關鍵

2014-05-13 09:05:09

2011-08-03 09:34:08

戴爾

2015-09-02 14:47:22

寬帶光網絡
點贊
收藏

51CTO技術棧公眾號

国产视频精品自拍| 成人欧美一区二区三区小说| 欧美一级免费视频| 中文天堂资源在线| 香蕉久久一区| 亚州成人在线电影| 亚洲欧洲国产精品久久| 丰满人妻av一区二区三区| 国产农村妇女毛片精品久久莱园子| 亚洲一区第一页| 无码国产精品一区二区高潮| 天堂中文在线播放| 樱桃视频在线观看一区| 日韩欧美手机在线| 97免费观看视频| 久久经典综合| 久久久久久国产免费 | 怡红院成永久免费人全部视频| 韩国精品一区二区三区| 在线观看免费高清视频97| 国产原创剧情av| 精品麻豆剧传媒av国产九九九| 色综合视频一区二区三区高清| 成人午夜免费剧场| 在线观看免费黄视频| 福利电影一区二区三区| 成人天堂噜噜噜| 亚洲第一区av| 久久狠狠一本精品综合网| 久久青草精品视频免费观看| 三级全黄做爰视频| 色综合天天爱| 在线观看欧美视频| 自拍视频一区二区| 大奶在线精品| 欧美日韩成人在线一区| 国产精品人人妻人人爽人人牛| 51精品在线| 亚洲午夜电影在线| 久久精品xxx| 欧美日韩色网| 一二三四区精品视频| 男插女免费视频| 免费在线看黄网站| 久久久精品一品道一区| 麻豆av一区二区三区| 天天操天天干天天爽| av电影在线观看不卡| 国产日本一区二区三区| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 久久99国产精品久久99大师| 精品国产乱码久久久久久夜甘婷婷| 91在线第一页| 99精品中文字幕在线不卡 | 国产精品日韩久久久久| 中文字幕人妻一区二区三区视频 | 国产福利电影在线| 欧美激情一区二区三区蜜桃视频 | 黄色片在线免费看| 久久久91精品国产一区二区三区| 欧美人与性禽动交精品| 国外av在线| 国产精品你懂的| 黄色a级在线观看| 性欧美videoshd高清| 亚洲一区精品在线| 成人在线观看你懂的| 涩涩涩在线视频| 在线观看一区二区视频| 亚洲高清免费在线观看| 精品国产一区二区三区2021| 日韩免费视频线观看| 午夜剧场免费看| 久久av综合| 久久久999精品视频| 免费一级肉体全黄毛片| 亚洲国产片色| 国产精品久久久久久一区二区| 亚洲网站在线免费观看| 国产成人免费在线视频| 久久久久久艹| 精品欧美色视频网站在线观看| 亚洲一区二区三区视频在线播放 | 精品视频久久久| 69xxx免费| 欧美日韩视频一区二区三区| 欧美亚洲另类制服自拍| 一本大道伊人av久久综合| 福利一区二区在线| 婷婷久久五月天| 天堂av资源在线观看| 欧美日韩在线另类| 超碰中文字幕在线观看| 精品国内亚洲2022精品成人| 在线日韩日本国产亚洲| 国产午夜福利片| 免费成人你懂的| 精品国产一区二区三区久久久久久| 黄网在线免费| 亚洲va韩国va欧美va| 最新中文字幕免费视频| 精品视频高潮| 不卡av电影院| 国产成人无码专区| 成人午夜激情片| 亚洲砖区区免费| 亚洲妇女成熟| 日韩一区二区精品葵司在线| 免费黄色片网站| 亚洲精一区二区三区| 成人国产精品一区二区| 国产一级免费在线观看| 亚洲成人一区在线| 少妇愉情理伦片bd| 日韩国产在线| 国产精品成人v| 亚洲欧美丝袜中文综合| 亚洲宅男天堂在线观看无病毒 | 国产精品中文字幕一区二区三区| 欧美极品色图| 欧美久久天堂| 日韩视频三区| 欧美视频在线观看免费网址| 三级黄色片免费观看| 精品黄色一级片| 欧美在线亚洲一区| 亚洲 国产 欧美 日韩| 亚洲天天做日日做天天谢日日欢| 欧美亚洲日本在线观看| 亚洲69av| 91av在线播放视频| 国产91久久久| 亚洲制服欧美中文字幕中文字幕| 中文字幕55页| 欧美一区成人| 91在线直播亚洲| 日本a级在线| 欧美精品一级二级| 五月天色婷婷丁香| 久久91精品国产91久久小草| 亚洲欧洲免费无码| av成人免费看| 中文字幕av日韩| 亚洲免费在线观看av| 国产精品亚洲一区二区三区在线| 欧美日韩国产不卡在线看| 欧美xxx黑人xxx水蜜桃| 日韩一区二区三区视频在线| 国产探花在线免费观看| 国产一区二区三区不卡在线观看| 五月天综合婷婷| 57pao国产一区二区| 久久全球大尺度高清视频| 韩国中文字幕hd久久精品| 亚洲成a人v欧美综合天堂| 亚洲一级av无码毛片精品| 一区二区福利| 日韩av电影免费在线观看| 日韩一级二级| www.久久久久久.com| 99久久精品国产成人一区二区| 一区二区三区欧美亚洲| 久草免费资源站| 在线视频精品| 色播五月综合| 精品国产不卡一区二区| 欧美激情三级免费| 免费看男男www网站入口在线| 在线精品国精品国产尤物884a| 911国产在线| 成人晚上爱看视频| 黄色av免费在线播放| 97久久视频| 国产精品欧美久久| 欧美自拍电影| 美女视频黄免费的亚洲男人天堂| 丰满肉嫩西川结衣av| 一本色道久久综合亚洲aⅴ蜜桃 | 超碰97在线资源| 欧美日韩在线观看首页| 中文字幕日韩欧美精品在线观看| va视频在线观看| 懂色av中文一区二区三区天美| 99精品欧美一区二区| 国产麻豆精品视频| 99久久激情视频| 欧美激情精品久久久六区热门| 国产呦系列欧美呦日韩呦| 成人在线观看免费视频| 久久久爽爽爽美女图片| 黄色片在线看| 欧美精品一区二区久久久| 欧美另类高清videos的特点| 亚洲综合久久av| 日本一区二区视频在线播放| 成人av在线看| 91pony九色| 日日嗨av一区二区三区四区| bt天堂新版中文在线地址| av永久不卡| 激情欧美一区二区三区中文字幕| 玖玖精品在线| 日本91av在线播放| 国产精品国精产品一二| 日韩中文字幕网站| 日本韩国在线不卡| 四虎影院在线播放| 日韩欧美中文字幕一区| 日本一区二区三区久久| 午夜伦理一区二区| 69av.com| 国产精品久久精品日日| 亚洲精品成人无码熟妇在线| 国产麻豆一精品一av一免费 | 三级在线观看视频| 欧美成人精品xxx| 91.xxx.高清在线| 日韩高清欧美高清| 亚洲国产精彩视频| 欧美一区二区视频网站| 中文字幕免费播放| 一本大道久久a久久精品综合 | 欧美性受xxxx黑人xyx| 日韩久久久久久久久| 夜夜亚洲天天久久| 欧美毛片在线观看| 亚洲男人的天堂av| 欧美一级片在线视频| 国产精品久久久久久久久动漫| 亚洲成人黄色av| 国产亚洲女人久久久久毛片| 精品黑人一区二区三区观看时间| 成人午夜激情视频| 日韩精品人妻中文字幕有码| 高清视频一区二区| 国产xxxxhd| 麻豆成人在线观看| 中文字幕免费高清在线| 男男视频亚洲欧美| 日本黄大片一区二区三区| 蜜臀久久99精品久久久画质超高清| 北条麻妃av高潮尖叫在线观看| 蜜桃久久av| 人人爽人人av| 免费观看在线色综合| 国产视频手机在线播放| 久久黄色级2电影| 亚洲综合在线一区二区| 国产99久久久国产精品潘金 | 国产女无套免费视频| 91精品国产欧美一区二区| 精品国产av鲁一鲁一区| 欧美大片拔萝卜| 特黄aaaaaaaaa真人毛片| 日韩精品免费在线视频| 国产一二在线观看| 最新中文字幕亚洲| 国产在线高清视频| 欧美高清无遮挡| 色综合亚洲图丝熟| 国产精品亚洲自拍| 伊人精品综合| 欧美极品色图| 午夜激情久久| 免费看欧美黑人毛片| 亚洲中字黄色| 欧美成人黄色网址| 国产成人午夜精品影院观看视频| xxxwww国产| 国产日韩综合av| 日本黄色免费片| 亚洲福利一区二区三区| 台湾佬中文在线| 777色狠狠一区二区三区| 免费观看黄色av| 国产一区二区三区在线播放免费观看| 午夜在线视频播放| 国内精品一区二区三区| 四虎成人在线| 国产91视觉| 日本精品黄色| 免费一级淫片aaa片毛片a级| 久久裸体视频| gogo亚洲国模私拍人体| 国产视频911| 久久精品国产亚洲AV无码麻豆| 91国偷自产一区二区三区成为亚洲经典 | 国产精彩视频在线观看| 91国产丝袜在线播放| 亚洲成a人片77777精品| 国产亚洲精品高潮| 成年人视频免费在线播放| 国产精品91免费在线| 99re6热只有精品免费观看| 日韩资源av在线| 在线观看视频日韩| 国产乱码一区二区三区四区| 99久久精品99国产精品| 成人在线观看高清| 在线观看视频一区| 无码国精品一区二区免费蜜桃| 最近的2019中文字幕免费一页| 国产盗摄——sm在线视频| 成人乱人伦精品视频在线观看| 日韩高清三区| 国产又粗又猛又爽又黄的网站| 日精品一区二区| 亚洲午夜久久久久久久久红桃| 一区二区三区在线视频观看58 | 中文字幕 在线观看| 69174成人网| 日本不卡高清| 三级a在线观看| 久久综合一区二区| 国产精品自拍视频一区| 91精品国产色综合久久久蜜香臀| 波多野结衣在线影院| 91精品国产沙发| 成人h动漫精品一区二区器材| 自拍偷拍一区二区三区| 免费久久精品视频| 欧洲av一区二区三区| 狠狠躁18三区二区一区| 少妇精品高潮欲妇又嫩中文字幕 | 韩国主播福利视频一区二区三区| 成人免费视频网站| 欧美aa国产视频| 交换做爰国语对白| 自拍偷拍亚洲欧美日韩| 一级特黄色大片| 日韩在线视频二区| 欧美另类激情| 在线国产99| 九色porny丨国产精品| 中文字幕求饶的少妇| 欧美色综合天天久久综合精品| 国产在线观看免费| 国产精品久久久久久久7电影| 啪啪亚洲精品| 亚洲免费看av| 国产精品狼人久久影院观看方式| 一本色道久久综合精品婷婷| www.日韩视频| 国产视频一区二| 欧美a级免费视频| 成人综合在线视频| 日韩成人一区二区三区| 亚洲精品国产精品乱码不99按摩 | 欧美一区国产二区| 在线你懂的视频| 国产成人免费电影| 亚洲一区区二区| 日本乱子伦xxxx| 欧美日韩国产欧美日美国产精品| 秋霞午夜理伦电影在线观看| 91在线无精精品一区二区| 国内自拍视频一区二区三区| 国产麻豆剧传媒精品国产av| 日本乱码高清不卡字幕| 在线观看免费版| 18成人在线| 亚洲另类黄色| 欧美大波大乳巨大乳| 欧美日韩国产成人在线91| 在线视频国产区| 免费在线观看91| 久久精品国内一区二区三区| 波多野结衣亚洲色图| 亚洲精品mp4| 97成人超碰| 成人在线免费观看视频网站| av欧美精品.com| 在线免费观看av片| 欧美黑人视频一区| 久久99国产成人小视频| 日韩a一级欧美一级| 精品福利视频导航| 欧美一区二区三区在线观看免费| yellow视频在线观看一区二区| 美女网站久久| 欧美日韩在线视频免费播放| 亚洲黄色免费三级| 亚洲成人高清| 国产网站免费在线观看| 国产精品免费久久| 欧美特黄一级视频| 国产日韩av在线| 国产欧美日韩一区二区三区在线| 日韩精品久久久久久久的张开腿让 | 97视频国产在线| 国产精品99一区二区三区| www.88av| 欧美一区二区啪啪| free欧美| 国产精品入口芒果| 1区2区3区欧美| 久久国产精品高清一区二区三区| 91丝袜脚交足在线播放| 天堂在线亚洲视频| 国产极品美女高潮无套嗷嗷叫酒店|