精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

蘋果拆解AI大腦，推理模型全是「裝」的？Bengio兄弟合著

2025-06-06 14:13:46

人工智能新聞

蘋果最新研究揭示大推理模型（LRM）在高復(fù)雜度任務(wù)中普遍「推理崩潰」：思考路徑雖長(zhǎng)，卻常在關(guān)鍵時(shí)刻放棄。即便給予明確算法提示，模型亦無法穩(wěn)定執(zhí)行，暴露推理機(jī)制的局限性。

AI「思考」只是假象？

剛剛，一項(xiàng)來自蘋果的重磅研究揭示了「大推理模型（LRM）」背后的驚人真相——這些看似聰明的模型，在面對(duì)稍復(fù)雜點(diǎn)的題目時(shí)，準(zhǔn)確率居然會(huì)全面崩潰！

隨著問題變難，推理模型初始會(huì)延長(zhǎng)思考，但隨后思考深度反而下降，盡管仍有充足token預(yù)算——它們恰在最需要深入思考時(shí)選擇了放棄！

這太違背直覺了，似乎Scaling Law在推理時(shí)完全失效了。

值得一提的是，論文作者中還有Samy Bengio，他也是圖靈三巨頭Yoshua Bengio的兄弟。

論文地址：https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「寫出思考過程」而備受期待，被認(rèn)為是AI推理能力躍升的關(guān)鍵。

DeepSeek-R1 <think>模式的開源開啟了LLM進(jìn)化到LRM的進(jìn)程

但研究人員通過可控游戲環(huán)境的系統(tǒng)實(shí)驗(yàn)證明：現(xiàn)有LRMs不僅在高復(fù)雜度任務(wù)上力不從心，甚至還展現(xiàn)出一種「反常的推理崩潰曲線」——題目越難，它們反而越不「努力」。

研究還通過在相同計(jì)算token預(yù)算下對(duì)比思考模型與普通模型，發(fā)現(xiàn)：

簡(jiǎn)單題目，反而是傳統(tǒng)大模型（LLMs）更強(qiáng)；
中等復(fù)雜度，LRMs憑借「思考路徑」勝出；
一旦太復(fù)雜，兩類模型準(zhǔn)確率同時(shí)坍塌至0%

不同于大多數(shù)僅衡量最終性能的研究，這項(xiàng)最新研究分析了它們實(shí)際的推理軌跡——深入觀察其冗長(zhǎng)的「思考」過程。

三種不同的性能區(qū)間

與以往主要依賴數(shù)學(xué)問題來評(píng)估語言模型推理能力的研究不同，本研究引入了可控的解謎環(huán)境。

這種環(huán)境可以精確調(diào)節(jié)問題的復(fù)雜度，同時(shí)保持邏輯過程的一致性，從而更嚴(yán)謹(jǐn)?shù)胤治瞿Ｐ偷耐评砟Ｊ胶途窒扌浴?/span>

頂部的「LLM Response」部分表示研究設(shè)置了可以驗(yàn)證模型的最終答案和中間推理過程，從而能夠更細(xì)致地分析模型的思維行為。

左下準(zhǔn)確率和中間的回答長(zhǎng)度表示：在任務(wù)復(fù)雜度較低時(shí)，不進(jìn)行推理的模型表現(xiàn)得更準(zhǔn)確，也更節(jié)省Token。

隨著復(fù)雜度提升，具備推理能力的模型開始表現(xiàn)更好，但也消耗更多Token——直到復(fù)雜度超過某個(gè)臨界點(diǎn)后，兩類模型的表現(xiàn)都會(huì)迅速下降，同時(shí)推理過程變得更簡(jiǎn)短。

右下表示在成功解題的情況下，Claude 3.7 Thinking 通常會(huì)在任務(wù)復(fù)雜度低時(shí)較早找到正確答案，而在復(fù)雜度高時(shí)則更晚得出答案。

而在失敗案例中，它往往會(huì)在一開始就陷入錯(cuò)誤答案，之后繼續(xù)浪費(fèi)剩余的 Token 預(yù)算。這兩種情況都暴露了推理過程中存在的效率問題。

數(shù)學(xué)和謎題環(huán)境

對(duì)思考型與非思考型模型在數(shù)學(xué)基準(zhǔn)測(cè)試中的對(duì)比分析顯示出模型的性能表現(xiàn)并不一致。

在MATH-500數(shù)據(jù)集上，兩類模型的表現(xiàn)相近；但在AIME24和AIME25基準(zhǔn)上，思考模型的表現(xiàn)明顯更優(yōu)。

此外，從AIME24到AIME25的性能下降也揭示出這些基準(zhǔn)數(shù)據(jù)易受到數(shù)據(jù)污染問題的影響。

研究設(shè)置了四種謎題環(huán)境。

每列展示一個(gè)謎題從初始狀態(tài)（頂部）、中間狀態(tài)（中部）到目標(biāo)狀態(tài)（底部）的變化過程。

四個(gè)謎題分別是：漢諾塔（將圓盤在柱子間移動(dòng)）、跳跳棋（交換不同顏色棋子的位置信息）、過河（將多個(gè)對(duì)象安全運(yùn)送過河）、積木世界（重新排列積木的堆疊結(jié)構(gòu)）。

在所有謎題環(huán)境中，不同復(fù)雜度問題下，思考型模型（Claude 3.7 Sonnet with thinking、DeepSeek-R1）與其非思考型對(duì)應(yīng)模型（Claude 3.7 Sonnet、DeepSeek-V3）的準(zhǔn)確率對(duì)比。

最明顯的依然是，當(dāng)問題復(fù)雜度突破一定閾值后，所有模型的準(zhǔn)確率同時(shí)坍塌至0%！

實(shí)驗(yàn)和結(jié)果

上圖為在tokens預(yù)算相同的情況下，思考型模型與非思考型模型在低、中、高三種復(fù)雜度謎題環(huán)境中的 pass@k表現(xiàn)對(duì)比。

結(jié)果顯示：

非思考型模型在簡(jiǎn)單問題上表現(xiàn)更佳；
思考型模型在中等復(fù)雜度問題中展現(xiàn)出優(yōu)勢(shì)；
而在高復(fù)雜度問題中，無論計(jì)算資源分配如何，兩個(gè)模型的表現(xiàn)都未能取得明顯突破。

推理模型的崩潰

上圖表示推理模型在不同謎題環(huán)境中，準(zhǔn)確率與思考token使用量隨問題復(fù)雜度變化的趨勢(shì)圖。

隨著復(fù)雜度上升，模型在一開始會(huì)投入更多思考token，準(zhǔn)確率則逐漸下降；

但當(dāng)復(fù)雜度達(dá)到某個(gè)臨界點(diǎn)時(shí)，模型的推理能力開始崩潰——表現(xiàn)急劇下降，同時(shí)思考token的使用量也隨之減少。

深入「思考模型內(nèi)部」

左圖與中圖展示了在不同復(fù)雜度下，四種謎題中推理過程中間解的出現(xiàn)位置及其正確性。? 表示中間解正確，? 表示錯(cuò)誤，陰影表示分布密度。

右圖則顯示了在不同復(fù)雜度下，漢諾塔謎題中解決方案的準(zhǔn)確率隨思考過程位置的變化情況。

結(jié)果顯示：

對(duì)于簡(jiǎn)單問題（N=1-3），準(zhǔn)確率在思考初期較高，但隨著推理繼續(xù)反而下降，出現(xiàn)「過度思考」的現(xiàn)象；
對(duì)于中等難度問題（N=4-7），推理的持續(xù)略微提升了準(zhǔn)確率；
對(duì)于復(fù)雜問題（N≥8），準(zhǔn)確率始終接近于零，表明模型在這類問題上推理完全失敗。

未解之謎：推理模型的異常行為

如上圖a和b所示，在漢諾塔游戲環(huán)境中，即便在提示中直接提供了解法算法，讓模型只需按步驟執(zhí)行，模型的表現(xiàn)仍未改善，推理崩潰的現(xiàn)象依然出現(xiàn)在大致相同的位置。

這一點(diǎn)非常值得注意，因?yàn)樵O(shè)計(jì)并找到一個(gè)解法通常比僅僅執(zhí)行一個(gè)已知算法需要更多的計(jì)算（比如搜索與驗(yàn)證）。這一現(xiàn)象進(jìn)一步突顯了推理模型在「驗(yàn)證」以及按邏輯步驟解決問題方面的能力局限。

如圖c和d所示，觀察到Claude 3.7 Sonnet思考模型在不同環(huán)境中表現(xiàn)出明顯不同的行為。

在漢諾塔環(huán)境中，當(dāng)N=10時(shí)，模型通常直到大約第100步才會(huì)出現(xiàn)第一處錯(cuò)誤；

而在過河環(huán)境中，同一個(gè)模型卻只能正確地完成前4步，之后便無法繼續(xù)生成有效解。

這種差異非常顯著。

值得注意的是，當(dāng) N=5（即需要31步解）時(shí)，模型幾乎可以完美解決漢諾塔問題；但在 N=3（僅需11步解）的過河謎題中，模型卻完全失敗。

這一現(xiàn)象很可能說明：在網(wǎng)絡(luò)數(shù)據(jù)中，N>2 的過河問題案例非常稀少，因此大語言模型（LRMs）在訓(xùn)練中幾乎沒有見過或記住這類實(shí)例。

這項(xiàng)研究系統(tǒng)性地評(píng)估了大推理模型（LRMs），低復(fù)雜度下，標(biāo)準(zhǔn)LLM反而更穩(wěn)；中等復(fù)雜度時(shí)，LRM暫時(shí)領(lǐng)先；可一旦問題變得復(fù)雜到一定程度——兩者雙雙崩盤。

分析推理軌跡后，研究者發(fā)現(xiàn)模型在簡(jiǎn)單問題上「過度思考」，在復(fù)雜問題上則徹底罷工。

甚至連直接提供解題算法都救不了它們——比如漢諾塔問題，算法提示給到位了，模型卻依然原地打轉(zhuǎn)。

模型在漢諾塔中可連續(xù)操作100步不出錯(cuò)，到了過河問題里，卻五步都撐不過去！

這背后的原因成謎，但無疑為后續(xù)探索AI推理極限打開了一個(gè)新的突破口。

眼下的LRM，距離「通用推理」這座大山，顯然還有不少路要走。

責(zé)任編輯：張燕妮來源：新智元

蘋果 AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

日韩欧美一区二区三区在线观看 | 国产精品视频资源| youjizz亚洲女人| 国产精品成人3p一区二区三区| 亚洲国产精品视频| 日韩欧美精品在线不卡| 精品国产伦一区二区三| 老司机精品视频网站| 久久精品国产欧美激情| 丰满少妇一区二区三区| 精品国产鲁一鲁****| 狠狠爱在线视频一区| 自拍亚洲欧美老师丝袜| 日韩亚洲视频在线观看| 国产精品一卡二| 国产91在线高潮白浆在线观看| 色欲一区二区三区精品a片| 久久国产精品免费精品3p| 欧美中文字幕久久| 一本在线高清不卡dvd| 97人人做人人人难人人做| 伊人手机在线视频| 欧美激情视频一区二区三区免费| 一区二区三区在线播放欧美| 漂亮人妻被黑人久久精品| 99精品国产九九国产精品| 色综合欧美在线| 男人插女人视频在线观看| 免费网站免费进入在线| 久久精品视频免费观看| 国产日本一区二区三区| 国产美女免费看| 美女高潮久久久| 日韩美女激情视频| 中日韩精品视频在线观看| 欧美激情1区2区| 久久精品亚洲热| 国产性猛交xx乱| 欧美人与物videos另类xxxxx| 精品国产一区二区三区不卡| 日本女人黄色片| 亚洲国产天堂| 9191久久久久久久久久久| 久久国产精品国产精品| 欧美与亚洲与日本直播| 色婷婷精品久久二区二区蜜臂av| 国产一区二区网| 日韩伦理福利| 欧美日韩午夜视频在线观看| 蜜臀av无码一区二区三区| 欧美另类tv| 亚洲福中文字幕伊人影院| a天堂资源在线观看| 青草视频在线免费直播| 一区二区三区精密机械公司| 日本三级中文字幕在线观看| caopo在线| 亚洲精品视频观看| 999一区二区三区| а√在线中文网新版地址在线| 亚洲网友自拍偷拍| 国产黄色一级网站| 91午夜在线观看| 可以直接在线观看的av| 久久久久99精品一区| 欧美一区二区三区精美影视| 国产免费永久在线观看| 日本一区二区高清| 懂色av粉嫩av蜜臀av| 超碰在线caoporn| 亚洲午夜免费电影| 国产无套内射久久久国产| 在线观看欧美日韩电影| 精品视频在线视频| 污视频在线观看免费网站| youjizz欧美| 亚洲精品一区中文| 男人天堂资源网| 欧美成人日韩| 欧美亚洲一级片| 中文字幕一区二区在线视频 | 中文字幕第三区| 中文在线综合| 亚洲人成网在线播放| 免费看一级黄色| 亚洲毛片av| 国产精品h片在线播放| 国产精品伊人久久| 91丨九色丨尤物| 一区二区三区四区视频在线观看| 最新黄网在线观看| 一本色道亚洲精品aⅴ| 激情在线观看视频| 网友自拍一区| www.日韩.com| 麻豆久久久久久久久久| 久久精品国产99久久6| 国产一区二区三区免费不卡| 搞黄视频免费在线观看| 亚洲自拍与偷拍| 999在线免费视频| 国产精品xxxav免费视频| 一区二区成人精品| 国产成人无码精品久久久久| 美女视频黄频大全不卡视频在线播放 | 国产精彩视频在线| 三级在线观看视频| 国产成人av电影在线| 欧美日韩无遮挡| 日本aa在线| 欧美日韩你懂得| 成人免费av片| 国产精品激情| 国产欧美日韩最新| 黄视频在线播放| 亚洲一区二区欧美日韩| 日本久久久久久久久久久久| 欧美1区2区3区4区| 精品中文字幕在线2019| 中文字幕乱码人妻二区三区| 97成人超碰视| 久久久久久www| 国产精久久一区二区| 国产亚洲精品激情久久| 丁香六月婷婷综合| 成人一级片在线观看| 国产四区在线观看| 亚洲成av在线| 亚洲男人av在线| 亚洲欧美在线观看视频| 国产一区欧美日韩| 亚洲一区二区精品在线| 精品欧美一区二区三区在线观看 | 欧美aaa级片| 久久高清国产| 国产综合第一页| tube8在线hd| 精品国产人成亚洲区| 精品一区在线观看视频| 久久99精品久久久久久久久久久久| 欧美日韩亚洲一区二区三区四区| jizzjizz中国精品麻豆| 日韩午夜激情电影| 毛片a片免费观看| 国产成人av在线影院| 国产欧美自拍视频| 精品一区二区三区四区五区| 久久久精品国产一区二区| 国产又粗又猛又爽又黄的视频一 | 国产一级大片在线观看| 亚洲天堂男人av| 久久国产综合精品| 最新av在线免费观看| 麻豆精品久久| 久久免费国产视频| 手机av免费在线观看| 欧美日韩在线影院| 蜜臀久久99精品久久久久久| 日本中文字幕一区二区有限公司| 天堂精品一区二区三区| 国产成人精品一区二区三区免费| 日日骚久久av| av片免费播放| 欧美国产一级| 97久久超碰国产精品电影| 久久这里只有精品23| 日日天天久久| 国产精品夜色7777狼人| av在线免费网址| 亚洲国产毛片完整版| 中文字幕一区在线播放| 欧美极品xxx| 三级性生活视频| 亚洲午夜在线| 老牛影视免费一区二区| 日韩三区免费| 欧美日韩福利视频| 日韩精品123| 欧美高清精品3d| 国产真实夫妇交换视频| 久久精品一区二区三区不卡 | 久久国际精品| 77777亚洲午夜久久多人| 成人18在线| 日韩视频中午一区| 久久中文字幕免费| 亚洲三级在线观看| 亚洲少妇18p| 久久电影网站中文字幕| 国产欧美日韩一区| 久久91麻豆精品一区| 91热福利电影| 中文在线аv在线| 欧美xxxx18性欧美| 国内在线免费高清视频| 日韩欧美在线一区二区三区| 久久久久99精品成人片我成大片 | 国产成人免费观看视频| 中文字幕中文字幕中文字幕亚洲无线| 一级少妇精品久久久久久久| 蜜桃久久精品一区二区| 男人插女人视频在线观看| 日韩一区二区中文| 极品日韩久久| 国产中文欧美日韩在线| 国产成人精品一区二区| 日本不卡影院| 日韩专区在线播放| 黄色软件在线| 亚洲国产精品人久久电影| 91中文字幕在线播放| 欧美性极品xxxx做受| 欧美日韩免费做爰视频| 国产精品美女久久久久aⅴ | 亚洲欧洲三级电影| 欧美老熟妇乱大交xxxxx| 福利一区在线观看| 在线视频观看一区二区| 日韩va欧美va亚洲va久久| 国内自拍在线观看| 在线精品一区二区| 红桃一区二区三区| 婷婷六月综合| 亚洲最新在线| 日韩免费在线| 小说区图片区图片区另类灬| 亚洲自拍电影| 国产一区二区在线观看免费播放 | 久久av免费观看| 91嫩草精品| 亚洲aⅴ男人的天堂在线观看| 成人在线免费av| 国产福利视频一区二区| 亚洲黄色网址| 欧美在线精品免播放器视频| 成人ssswww在线播放| 色综合天天狠天天透天天伊人| 乱人伦中文视频在线| 色偷偷88888欧美精品久久久| 黄色片视频在线观看| 亚洲色图25p| 黄色电影免费在线看| 亚洲精品一区中文字幕乱码| 免费黄色在线视频网站| 精品亚洲国产视频| 麻豆app在线观看| 国产亚洲精品美女| youjizz在线播放| 中文字幕亚洲专区| 日本综合在线| 久久成人国产精品| 色图在线观看| 国产精品自产自拍| heyzo国产| 亚洲综合欧美| 99久久国产宗和精品1上映| 日本色综合中文字幕| 亚洲77777| 国产伦理精品不卡| 大尺度做爰床戏呻吟舒畅| 99久久精品国产一区二区三区 | 97精品久久久| 中文日产幕无线码一区二区| 欧美一级久久| 欧美丰满少妇xxxxx做受| av在线播放观看| 九九热r在线视频精品| av中文字幕在线看| 日本91av在线播放| 巨大黑人极品videos精品| 亚洲aa在线观看| 久久精品凹凸全集| 午夜免费电影一区在线观看| 午夜激情久久| 日韩欧美一区二| 日本女人一区二区三区| 污视频在线观看免费网站| av不卡一区二区三区| 香蕉视频久久久| 亚洲女同女同女同女同女同69| 国产香蕉在线视频| 欧美主播一区二区三区| 精品国精品国产自在久不卡| 亚洲精品自产拍| 黄色网页在线看| 57pao国产精品一区| 亚洲精品第一| 久久福利电影| 国产精品91一区二区三区| 大陆av在线播放| 久久精品国产一区二区| 玖玖爱在线精品视频| 国产精品成人在线观看| 日韩女同强女同hd| 欧美日韩一区二区三区四区五区| 丁香六月色婷婷| 最近2019中文字幕mv免费看| 黄色污污视频在线观看| 国产精品户外野外| 美日韩黄色大片| 桥本有菜av在线| 六月丁香综合| 国产免费a级片| 国产精品午夜久久| 可以免费在线观看的av| 欧美一区二区人人喊爽| 精品一二三区视频| 久久久久国产视频| 四虎精品永久免费| 日韩av电影免费在线| 99国产精品久久久久久久成人热| 成人性生交免费看| 久久亚洲免费视频| 久久久久久福利| 女人色偷偷aa久久天堂| 欧美亚洲丝袜| 亚洲激情在线| wwwxxxx在线观看| 中文字幕制服丝袜一区二区三区 | 亚洲综合欧美综合| 午夜不卡av免费| 人妻91麻豆一区二区三区| 欧美美最猛性xxxxxx| 成人在线啊v| 亚洲色图自拍| 免费在线观看成人| av网在线播放| 色呦呦国产精品| 亚洲日本国产精品| 97精品国产97久久久久久免费| 91蝌蚪精品视频| 国产亚洲黄色片| 成人性生交大合| 日本视频www| 亚洲第一精品夜夜躁人人爽 | 国产精品久久久久久搜索 | 久久精品五月天| 亚洲天堂第二页| 日韩久久一区二区三区| 欧美一区二区三区精美影视| 视频一区在线播放| 免费看裸体网站| 欧美少妇性性性| 在线免费看黄| 成人国产精品av| 亚洲激情中文在线| 韩国三级在线播放| 亚洲成人动漫av| 五月婷婷六月丁香| 热99在线视频| 成人网18免费网站| 色噜噜狠狠一区二区| 成人免费在线观看入口| 国产丰满果冻videossex| 欧美理论电影在线播放| 白嫩白嫩国产精品| 国产精品宾馆在线精品酒店| 久久久久久久久久久久久夜| 欧美国产一级片| 久久精品在线播放| 风间由美中文字幕在线看视频国产欧美| 性高湖久久久久久久久aaaaa| 成人av免费网站| 国产精品久久久久久久久久精爆| 伊人av综合网| 日本成人精品| 亚洲欧美日韩国产综合在线| 久久综合九色综合欧美亚洲| 欧美另类高清videos的特点| 精品国产自在精品国产浪潮| 香蕉大人久久国产成人av| 免费看的黄色大片| 国产欧美日韩视频在线观看| 国产口爆吞精一区二区| 97视频免费看| 欧美一区二区性| 国产吃瓜黑料一区二区| 国产.欧美.日韩| xxxxxx在线观看| 日韩一级不卡| 99热6这里只有精品| 欧美不卡激情三级在线观看| 免费成人直播| 2021国产视频| 久久久久久电影| 国产又爽又黄免费软件| 91国产精品视频在线| 999精品色在线播放| 97人妻精品一区二区三区免费| 色狠狠桃花综合| 色图在线观看| 午夜老司机精品| 成人av手机在线观看| 国产又粗又猛视频免费| 午夜精品福利视频| 亚洲无中文字幕| 亚洲精品国产一区黑色丝袜 | 国产日韩精品一区二区| 精品电影一区| 中国一级片在线观看|