精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Claude與人類共著論文,蘋果再遭打臉!實驗黑幕曝光

人工智能 新聞
蘋果一篇論文,再遭打臉。研究員聯(lián)手Claude Opus用一篇4頁論文再反擊,揭露實驗設(shè)計漏洞,甚至指出部分測試無解卻讓模型「背鍋」的華點。

幾天前,蘋果怒斥大模型根本不會推理論文,引發(fā)全網(wǎng)無數(shù)討論與爭議。

在許多人看來,沒有站在AI前沿的人, 卻質(zhì)疑當今最領(lǐng)先推理模型o3-mini、DeepSeek-R1推理能力,實在沒有說服力。

論文一出,備受質(zhì)疑。

一位研究員發(fā)文稱,其研究方法并不可靠,比如通過在數(shù)學題中添加無關(guān)內(nèi)容測試模型的表現(xiàn)。

最近,Open Philanthropy研究人員聯(lián)手Anthropic發(fā)表的一篇論文——The Illusion of the Illusion of Thinking,再次將矛頭指向蘋果。

圖片

論文地址:https://arxiv.org/pdf/2506.09250

這篇僅4頁論文一針見血,揭露了蘋果論文在漢諾塔實驗、自動評估框架,以及「過河」基準測試中的三大缺陷。

甚至,文中還指出部分測試用例在數(shù)學上無解,模型卻因此被誤判為「推理失敗」。

更引人注目的是,論文作者之一,還有一個是AI——Claude Opus。

圖片

論文中,具體指出了哪些問題,讓我們一探究竟。

推理大模型失敗,是非戰(zhàn)之罪

在The illusion of thinking中,作者給出了四個例子,說明當問題的尺度變大時,大模型的表現(xiàn)變得越來越差。

他們據(jù)此得出結(jié)論:大模型實際上只是在進行著模式匹配,從訓練數(shù)據(jù)集中找出對該問題的已有解答。

圖片

漢諾塔問題示例

然而Lawsen和Claude指出上述研究中,推理大模型失敗源頭在于token數(shù)超過了模型的上限。

例如,在漢諾塔的任務中,模型必須打印指數(shù)級數(shù)量的步驟——僅15個盤子就需要超過32,000次移動,這導致它們達到輸出上限。

Sonnet 3.7的輸出限制是128k,DeepSeek R1是64K,以及o3-mini是100k token。

這包括他們在輸出最終答案之前使用的推理token,所有模型在超過13個盤子的情況下都會出現(xiàn)0準確率,僅僅因為它們無法輸出那么多!

圖片

不同大模型能夠應對的漢諾塔盤子數(shù),不考慮任何推理token,大模型最大可解決規(guī)模為DeepSeek: 12個盤子,Sonnet 3.7和o3-mini為13個盤子

在使用Claude測試時,作者觀察到當問題規(guī)模過大時,它們甚至不會進行推理,而是會說,「由于移動次數(shù)眾多,我將解釋解決方案方法」,而不是逐一列出所有32,767次移動。

針對非常小的問題(大約5-6個盤子)的,大模型會進行推理。

之后,它只是:重復問題,重復算法,打印步驟,然后到了9-10個盤子時,這時模型遇到了其輸出的上限,這時,模型也許應該給出回復,「我寫不下2^n_圓盤-1步,這超過了我的輸出上限」。

圖片

不同尺度的問題,大模型輸出的token數(shù)在9-10個盤子時達到峰值

此外,大模型給出的解答之所以是錯誤的,可能的原因是在每一步推理過程中,大模型由于其是概念模型,會忘記之前選定的盤子。

即使大模型每一步選對正確盤子的概率是99.99%,當盤子數(shù)超過11%個時,大模型給出正確回答的概率,也會呈現(xiàn)指數(shù)衰減。

這意味著即使大模型能夠進行推理,但由于其在推理過程中,某漢諾塔盤頂?shù)谋P子編號從A記錯成了B,也會導致其給出的指令無法執(zhí)行。

而當前的評價要求大模型給出的回答完全沒有錯誤,這樣的評價標準,未免有些過于嚴苛了。

圖片

大模型不同觀察準確性下,隨著問題復雜度增長其回答準確性的變化

至于The illusion of thinking文中列出的另一案例過河問題(River Crossing),當問題變?yōu)閚=6時,問題在數(shù)學上就是無解的,這樣的不可解的問題數(shù)目并不少。將大模型面對這些不可解問題的失敗,當做大模型缺少推理能力的證據(jù),這樣做無疑是不妥的。

除了指出The illusion of thinking中的評價缺陷,最新論文也指出對大模型推理能力對正確評價方法。

即不是讓大模型逐行編寫每個步驟時,而是其給出一個Lua程序去解答問題,然后運行大模型給出的程序,再判斷程序的輸出否是正確的解答。

結(jié)果顯示,Claude-3.7-Sonnet,Claude Opus 4,OpenAI  o3,Google Gemini 2.5都能夠在5000個token的限制下,輸出能得到正確解答的程序,準確率極高。

這完全消除了所謂的推理能力崩潰現(xiàn)象,表明模型并非未能進行推理。它們只是未能遵循一個人為的、過于嚴格的評分標準。

LLM推理能力引熱議

蘋果發(fā)布「思考的幻覺」論文的時間,恰逢WWDC之前,這進一步加劇了其影響力,使得其被廣泛討論。

這其中就包含不少批評的聲音,比如有人暗示蘋果在大模型方面落后于OpenAI和谷歌等競爭對手,可能試圖降低人們的期望。

他們戲稱,提出了一些關(guān)于「這一切都是假的,毫無意義」的研究,可以挽救蘋果在Siri等表現(xiàn)不佳的AI產(chǎn)品上的聲譽。

圖片

還有人批評道,即使是人類,也大多無法準確無誤的寫出針對13個盤子的漢諾塔問題的一步步解法,如果沒有進行這樣的比較,蘋果又如何知道這樣隨著問題規(guī)模變大而遇到的準確性下降,不會出現(xiàn)在人類身上。

圖片

而法國高效能AI初創(chuàng)公司Pleias的工程師Alexander Doria指出思考的幻覺一文略了細微差別,認為模型可能在學習部分啟發(fā)式方法,而不是簡單地匹配模式。

圖片

而賓夕法尼亞大學沃頓商學院專注于人工智能的教授Ethan Mollick認為,認為大語言模型正在「遇到瓶頸」的觀點為時過早,并將此比作那些未能應驗的關(guān)于「模型崩潰」的類似主張。

上述爭議凸顯了一個日益增長的共識:設(shè)計合理的大模型評估方案,如今與模型設(shè)計同等重要。

要求大模型枚舉每一步可能更多地考驗它們的輸出上限而非規(guī)劃能力,而輸出程序化答案或給予大模型外部臨時工作區(qū)則能更清晰地展現(xiàn)其實際推理能力。

該案例還突出了開發(fā)者在部署自主系統(tǒng)時面臨的實際限制——上下文窗口、輸出預算和任務表述可能決定或破壞用戶可見的性能。對于在企業(yè)技術(shù)決策者構(gòu)建基于推理大模型的應用而言,這場辯論不僅僅是學術(shù)性的。它提出了關(guān)于在生產(chǎn)工作流程中何時、何地以及如何信任這些模型的關(guān)鍵問題——尤其是在任務涉及長規(guī)劃鏈或需要精確的逐步輸出時。

如果一個模型在處理復雜提示時看似「失敗」,問題可能不在于其推理能力,而在于任務如何被構(gòu)建、需要多少輸出,或模型能訪問多少內(nèi)存。這對于構(gòu)建如協(xié)作者、自主代理或決策支持系統(tǒng)等工具的產(chǎn)業(yè)尤其相關(guān),在這些產(chǎn)業(yè)中,可解釋性和任務復雜性都可能很高。

理解上下文窗口、token預算以及評估中使用的評分標準對于可靠的系統(tǒng)設(shè)計至關(guān)重要。開發(fā)者可能需要考慮外部化內(nèi)存、分塊推理步驟或使用函數(shù)或代碼等壓縮輸出,而不是完整的語言解釋。

更重要的是,這篇論文的爭議提醒我們,基準測試與現(xiàn)實應用并不相同。

企業(yè)團隊應謹慎避免過度依賴那些不能反映實際應用場景的合成基準測試——或者那些無意中限制模型展示其能力的基準測試。對機器學習研究人員來說,一個重要的啟示是:在宣稱一個人工智能里程碑或訃告之前,務必確保測試本身沒有將系統(tǒng)置于一個太小而無法思考的框框之中。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-16 08:48:00

2025-06-10 09:25:27

2024-11-14 09:59:23

2025-07-03 01:45:00

LLMCoT思維鏈

2023-02-09 16:09:46

2012-03-17 09:06:56

2023-03-28 12:11:23

AI人類

2021-02-25 10:23:01

人工智能科技機器學習

2022-06-08 10:29:28

人工智能機器人

2024-07-29 09:47:00

2021-12-09 15:03:10

人工智能AI人類思維

2021-12-23 09:38:07

微軟圖像加密

2025-05-15 14:39:17

AI模型數(shù)據(jù)

2015-03-16 13:31:31

2020-10-28 15:37:12

人臉識別技術(shù)安全

2023-09-29 18:46:06

谷歌AI代碼

2021-02-19 13:17:19

比特幣機器人加密貨幣

2020-10-06 19:05:09

神經(jīng)網(wǎng)絡人類思維人工智能

2021-03-09 10:37:59

人工智能超人工智能

2017-08-28 09:16:27

識別水平人類
點贊
收藏

51CTO技術(shù)棧公眾號

一区二区视频网| 中文字幕制服丝袜| 搞黄视频在线观看| 日日骚欧美日韩| 综合av色偷偷网| 在线免费av播放| 二区在线播放| 成人高清av在线| 日韩av手机在线看| 91ts人妖另类精品系列| 日韩在线激情| 亚洲在线观看免费视频| 国产精品一区二区免费| 不卡av电影在线| 国产网站在线免费观看| 美女在线一区二区| 久久精品欧美视频| 免费观看污网站| 大胆人体一区二区| 国产精品色哟哟网站| 91久久国产婷婷一区二区| 538精品在线观看| 欧美成人午夜77777| 欧洲一区二区三区在线| 欧洲美女和动交zoz0z| 韩国av免费在线观看| 日韩有码一区二区三区| 久久久国产成人精品| 小毛片在线观看| 欧美成a人片免费观看久久五月天| 国产精品国产a| 国产高清自拍一区| 探花国产精品一区二区| 在线成人黄色| 色多多国产成人永久免费网站 | 日韩www视频| 欧亚一区二区| 中文字幕永久在线不卡| 国产欧美日韩一区| 一级做a爱片久久毛片| 99成人在线| 久久影院模特热| 日本黄色特级片| 久久综合给合| 欧美日韩和欧美的一区二区| av免费看网址| av大片在线| 国产欧美精品区一区二区三区 | 99视频热这里只有精品免费| 国产一区私人高清影院| 中文字幕第四页| 欧美777四色影| 最近2019年好看中文字幕视频 | 成人av中文字幕| 亚洲va久久久噜噜噜| 久久久久精彩视频| 亚洲欧美日韩在线观看a三区 | 豆国产97在线| 国产伦理一区二区| 老司机精品视频在线| 欧美专区中文字幕| 国产一级做a爱免费视频| 亚洲91中文字幕无线码三区| 在线播放亚洲激情| 国产高清自拍视频| 巨人精品**| 精品欧美一区二区久久| 久久综合久久色| 不卡av影片| 黑人巨大精品欧美一区二区一视频 | 精品日韩中文字幕| 日本不卡一区二区三区四区| 国产高清av在线| 国产精品丝袜一区| 日韩欧美99| 精品999视频| www欧美成人18+| 久久综合伊人77777麻豆| 亚洲第一大网站| 岛国精品在线播放| 久久精品日产第一区二区三区精品版| 亚洲精品福利网站| 国产99久久久精品| 国产视频在线观看一区| 亚洲爱情岛论坛永久| 成人免费av资源| 精品国产乱码久久久久软件| 日韩偷拍自拍| 国产欧美日韩中文久久| 精品欧美一区二区在线观看视频 | 国产一区免费| 欧美在线一卡| 国产精品欧美一区二区三区| 亚洲欧美日韩另类精品一区二区三区| 在线视频二区| 亚洲欧美日韩国产成人精品影院| 超薄肉色丝袜足j调教99| 国产在线激情| 亚洲一二三级电影| 亚洲熟妇av一区二区三区漫画| 中文字幕在线看片| 欧美日韩国产精选| 日韩精品――色哟哟| 国产精品调教| 亚洲精品影视在线观看| 天堂在线中文视频| 成人同人动漫免费观看| 欧美成人免费网| 四虎精品永久在线| 麻豆成人免费电影| 粉嫩av一区二区三区免费观看| 神宫寺奈绪一区二区三区| 久久日一线二线三线suv| 欧美亚洲爱爱另类综合| 麻豆网站在线免费观看| 亚欧色一区w666天堂| 男人的天堂日韩| 亚洲午夜剧场| 日韩成人免费视频| 国产一区二区三区视频播放| 很黄很黄激情成人| 国产精品国产三级国产专播精品人 | av成人资源| 亚洲午夜av久久乱码| 欧美丰满熟妇bbbbbb| 裸体一区二区| 国产 高清 精品 在线 a| 免费在线超碰| 一区二区三区在线看| 欧美私人情侣网站| 亚洲精品a区| 中文字幕亚洲欧美| 色婷婷av国产精品| 久久99精品一区二区三区三区| 国产免费一区二区三区| 在线观看完整版免费| 亚洲成人免费看| 激情文学亚洲色图| 国产一区二区三区探花| 色综合久久悠悠| 亚洲免费视频二区| 久久综合色8888| 久青草视频在线播放| 成人国产网站| 亚洲人精品午夜在线观看| 日本妇女毛茸茸| 日韩成人免费电影| 欧美日韩国产精品一区二区| 国产99re66在线视频| 在线成人免费观看| 在线观看日本黄色| 久久综合五月| 久久精品人成| 99riav视频在线观看| 日韩欧美你懂的| 精品人妻伦九区久久aaa片| 奇米综合一区二区三区精品视频| 欧美理论一区二区| 日本三级在线观看网站| 9191久久久久久久久久久| www成人啪啪18软件| 老司机午夜精品99久久| 日韩视频在线观看视频| 欧美经典一区| 午夜精品久久久久久久白皮肤| 性猛交xxxx| 欧美最新大片在线看| 人人干在线观看| 国产成人在线影院| 国产婷婷一区二区三区| 女厕嘘嘘一区二区在线播放| 国产精品高清网站| av毛片在线播放| 亚洲国产精品资源| 午夜一区二区三区四区| 自拍偷自拍亚洲精品播放| 国产人妻精品午夜福利免费| 亚洲少妇诱惑| 亚洲精品一区二区三区四区五区 | 日韩精品无码一区二区三区久久久 | 精品久久无码中文字幕| 亚洲国产日韩综合久久精品| 色呦呦一区二区| 蜜桃视频第一区免费观看| 国产又粗又大又爽的视频| 国内精品免费| 国产精品视频白浆免费视频| 91麻豆国产福利在线观看宅福利| 亚洲福利视频二区| 亚洲乱码国产乱码精品| 亚洲天堂成人网| 免费黄色三级网站| 美腿丝袜在线亚洲一区| 人人干视频在线| 日韩理论片av| 精品久久中出| 91精品国产色综合久久不卡粉嫩| 777午夜精品福利在线观看| av大片在线播放| 精品国产1区二区| 中文字幕第315页| 午夜国产不卡在线观看视频| 午夜国产福利视频| 久久看人人爽人人| 伊人免费视频二| 葵司免费一区二区三区四区五区| 久久精品在线免费视频| 日本不卡高清| 久久国产精品一区二区三区四区| 不卡亚洲精品| 热久久免费视频精品| 伊人影院蕉久影院在线播放| 中文字幕精品网| 日本精品999| 337p亚洲精品色噜噜噜| 久久精品视频2| 岛国精品视频在线播放| 午夜免费激情视频| 中文字幕一区二区三区在线不卡 | 亚洲欧洲制服丝袜| 国产一二三四区在线| 91色九色蝌蚪| 图片区偷拍区小说区| 久久国产剧场电影| 欧美日韩在线免费播放| 欧美 日韩 国产一区二区在线视频| 色视频一区二区三区| 久久综合五月婷婷| 国产伦精品一区二区三区免费视频| 91精品福利观看| 成人国产精品久久久久久亚洲| 欧美一区久久久| 国产91精品青草社区| 亚洲色图美国十次| 欧美成人免费一级人片100| 精品麻豆一区二区三区| 自拍亚洲一区欧美另类| 97视频在线观看网站| 亚洲欧美日韩一区在线| 你懂的在线网址| 亚洲美女av在线| 韩国三级av在线免费观看| 日韩黄在线观看| 刘亦菲毛片一区二区三区| 欧美丰满高潮xxxx喷水动漫| 国产精品视频第一页| 欧美美女一区二区三区| 96日本xxxxxⅹxxx17| 欧美日韩在线综合| 91成人一区二区三区| 欧美日韩精品一区视频| 中文字幕在线网站| 欧美精品日韩一区| 国产精品久久久久久久免费看| 欧美日韩国产123区| 91亚洲国产成人精品一区| 欧美一级二级三级乱码| 丰满人妻一区二区三区免费| 欧美精品一区二区在线观看| 天堂网在线观看视频| 亚洲精品视频久久| 第三区美女视频在线| 中文字幕国产精品| 成人短视频在线| 高清一区二区三区四区五区| 最近高清中文在线字幕在线观看1| 欧美一级电影免费在线观看| 欧美xxxx做受欧美护士| 国产欧美va欧美va香蕉在线| 韩国三级成人在线| 国产精品日韩欧美一区二区三区| 色爱综合av| 五码日韩精品一区二区三区视频| 五月天激情综合网| 日本一本中文字幕| 亚洲欧美日韩精品一区二区| 日本激情视频在线播放| 国产一区999| 最新在线黄色网址| 国产视频在线观看一区二区三区| www.97视频| 亚洲国产毛片aaaaa无费看| 欧美一区二区三区不卡视频| 91精品国产色综合久久| 视频一区 中文字幕| 在线视频中文亚洲| 国产蜜臀在线| 国产精品一二三视频| 91精品国产自产精品男人的天堂| 欧美日韩国产三区| 一区二区三区网站| 37pao成人国产永久免费视频| 久久99精品国产91久久来源| 国产大学生视频| 国产婷婷精品av在线| 丰满少妇高潮久久三区| 色成年激情久久综合| 国内精品久久久久久久久久 | 亚洲字幕在线观看| 免费成人结看片| 91精品国产吴梦梦| 久久精品国产清高在天天线| 亚洲热在线视频| 国产欧美日产一区| 国产成人无码精品亚洲| 欧美欧美欧美欧美首页| 色哟哟在线观看| 欧美精品久久一区二区| 国产香蕉久久| 免费亚洲一区二区| 欧美精品黄色| 三上悠亚在线一区二区| 99re这里只有精品6| 波多野结衣家庭教师| 91福利社在线观看| 深爱激情五月婷婷| 欧美大片免费观看在线观看网站推荐| 欧美福利在线播放| 精品欧美国产| 欧美日韩亚洲三区| www.cao超碰| 日本一区二区三区四区在线视频| 久久久久久久久久久久久av| 日韩欧美国产小视频| 欧美精品videos另类| 国产精品久久久久久久久久99 | xxxxx.日韩| 蜜桃网站成人| 亚洲男人影院| 少妇精品一区二区| 香蕉成人啪国产精品视频综合网 | 成人在线高清| 日本不卡久久| 玖玖精品视频| xxxx日本黄色| 色婷婷av一区二区三区gif| 日产精品久久久久久久性色| 97热在线精品视频在线观看| 国产伦理久久久久久妇女 | 久久天堂成人| 日本黄色特级片| 色香色香欲天天天影视综合网| 日韩福利一区二区| 欧美亚洲另类制服自拍| 欧美一区自拍| 国产主播在线看| 久久天天做天天爱综合色| 9i精品福利一区二区三区| 国产亚洲视频在线| 电影在线观看一区二区| 亚洲自拍三区| 国产精品中文字幕一区二区三区| 日日骚一区二区三区| 亚洲成人网av| 中文字幕在线官网| 亚洲成人av动漫| 久久99精品一区二区三区三区| 精品国产欧美日韩不卡在线观看| 日韩一区二区视频在线观看| 国内老司机av在线| 精品视频在线观看| 日韩精品乱码免费| 999精品视频在线观看播放| 欧美一级二级三级乱码| av男人的天堂在线观看| 精品一区二区三区国产| 日本中文字幕不卡| 91视频青青草| 亚洲福利视频网| 一区一区三区| 一区二区三区四区五区视频 | 欧美性xxxx极品hd满灌| 国产午夜在线观看| 国产日韩中文在线| 今天的高清视频免费播放成人| 久久精品国产亚洲av久| 在线不卡免费av| 18aaaa精品欧美大片h| 日韩精品福利视频| 国产精品一区二区久久精品爱涩| 日本五十路女优| 中文字幕在线观看亚洲| 日韩中文在线| 午夜dv内射一区二区| 亚洲三级理论片| 五月婷婷伊人网| 91精品久久久久久久| 日韩网站在线| 精品女人久久久| 亚洲韩国日本中文字幕| 亚洲电影有码| 日韩国产一级片| 国产精品国产a级| 日韩亚洲视频在线观看| 91久久精品一区| 久久久蜜桃一区二区人| 青青草原国产视频| 亚洲性线免费观看视频成熟| 日韩在线精品强乱中文字幕| 精品少妇无遮挡毛片|