精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果拆解AI大腦,推理模型全是「裝」的?Bengio兄弟合著

人工智能 新聞
蘋果最新研究揭示大推理模型(LRM)在高復(fù)雜度任務(wù)中普遍「推理崩潰」:思考路徑雖長(zhǎng),卻常在關(guān)鍵時(shí)刻放棄。即便給予明確算法提示,模型亦無法穩(wěn)定執(zhí)行,暴露推理機(jī)制的局限性。

AI「思考」只是假象?

剛剛,一項(xiàng)來自蘋果的重磅研究揭示了「大推理模型(LRM)」背后的驚人真相——這些看似聰明的模型,在面對(duì)稍復(fù)雜點(diǎn)的題目時(shí),準(zhǔn)確率居然會(huì)全面崩潰!

隨著問題變難,推理模型初始會(huì)延長(zhǎng)思考,但隨后思考深度反而下降,盡管仍有充足token預(yù)算——它們恰在最需要深入思考時(shí)選擇了放棄!

這太違背直覺了,似乎Scaling Law在推理時(shí)完全失效了。

值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。

圖片

論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「寫出思考過程」而備受期待,被認(rèn)為是AI推理能力躍升的關(guān)鍵。

圖片

DeepSeek-R1 <think>模式的開源開啟了LLM進(jìn)化到LRM的進(jìn)程

但研究人員通過可控游戲環(huán)境的系統(tǒng)實(shí)驗(yàn)證明:現(xiàn)有LRMs不僅在高復(fù)雜度任務(wù)上力不從心,甚至還展現(xiàn)出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。

研究還通過在相同計(jì)算token預(yù)算下對(duì)比思考模型與普通模型,發(fā)現(xiàn):

  • 簡(jiǎn)單題目,反而是傳統(tǒng)大模型(LLMs)更強(qiáng);
  • 中等復(fù)雜度,LRMs憑借「思考路徑」勝出;
  • 一旦太復(fù)雜,兩類模型準(zhǔn)確率同時(shí)坍塌至0%

不同于大多數(shù)僅衡量最終性能的研究,這項(xiàng)最新研究分析了它們實(shí)際的推理軌跡——深入觀察其冗長(zhǎng)的「思考」過程。

三種不同的性能區(qū)間

與以往主要依賴數(shù)學(xué)問題來評(píng)估語言模型推理能力的研究不同,本研究引入了可控的解謎環(huán)境。

這種環(huán)境可以精確調(diào)節(jié)問題的復(fù)雜度,同時(shí)保持邏輯過程的一致性,從而更嚴(yán)謹(jǐn)?shù)胤治瞿P偷耐评砟J胶途窒扌浴?/span>

圖片

頂部的「LLM Response」部分表示研究設(shè)置了可以驗(yàn)證模型的最終答案和中間推理過程,從而能夠更細(xì)致地分析模型的思維行為。

左下準(zhǔn)確率和中間的回答長(zhǎng)度表示:在任務(wù)復(fù)雜度較低時(shí),不進(jìn)行推理的模型表現(xiàn)得更準(zhǔn)確,也更節(jié)省Token。

隨著復(fù)雜度提升,具備推理能力的模型開始表現(xiàn)更好,但也消耗更多Token——直到復(fù)雜度超過某個(gè)臨界點(diǎn)后,兩類模型的表現(xiàn)都會(huì)迅速下降,同時(shí)推理過程變得更簡(jiǎn)短。

右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會(huì)在任務(wù)復(fù)雜度低時(shí)較早找到正確答案,而在復(fù)雜度高時(shí)則更晚得出答案。

而在失敗案例中,它往往會(huì)在一開始就陷入錯(cuò)誤答案,之后繼續(xù)浪費(fèi)剩余的 Token 預(yù)算。這兩種情況都暴露了推理過程中存在的效率問題。

數(shù)學(xué)和謎題環(huán)境

圖片

對(duì)思考型與非思考型模型在數(shù)學(xué)基準(zhǔn)測(cè)試中的對(duì)比分析顯示出模型的性能表現(xiàn)并不一致。

在MATH-500數(shù)據(jù)集上,兩類模型的表現(xiàn)相近;但在AIME24和AIME25基準(zhǔn)上,思考模型的表現(xiàn)明顯更優(yōu)。

此外,從AIME24到AIME25的性能下降也揭示出這些基準(zhǔn)數(shù)據(jù)易受到數(shù)據(jù)污染問題的影響。

圖片

研究設(shè)置了四種謎題環(huán)境。

每列展示一個(gè)謎題從初始狀態(tài)(頂部)、中間狀態(tài)(中部)到目標(biāo)狀態(tài)(底部)的變化過程。

四個(gè)謎題分別是:漢諾塔(將圓盤在柱子間移動(dòng))、跳跳棋(交換不同顏色棋子的位置信息)、過河(將多個(gè)對(duì)象安全運(yùn)送過河)、積木世界(重新排列積木的堆疊結(jié)構(gòu))。

圖片

在所有謎題環(huán)境中,不同復(fù)雜度問題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對(duì)應(yīng)模型(Claude 3.7 Sonnet、DeepSeek-V3)的準(zhǔn)確率對(duì)比。

最明顯的依然是,當(dāng)問題復(fù)雜度突破一定閾值后,所有模型的準(zhǔn)確率同時(shí)坍塌至0%!

實(shí)驗(yàn)和結(jié)果

圖片

上圖為在tokens預(yù)算相同的情況下,思考型模型與非思考型模型在低、中、高三種復(fù)雜度謎題環(huán)境中的 pass@k表現(xiàn)對(duì)比。

結(jié)果顯示:

  • 非思考型模型在簡(jiǎn)單問題上表現(xiàn)更佳;
  • 思考型模型在中等復(fù)雜度問題中展現(xiàn)出優(yōu)勢(shì);
  • 而在高復(fù)雜度問題中,無論計(jì)算資源分配如何,兩個(gè)模型的表現(xiàn)都未能取得明顯突破。

推理模型的崩潰

圖片

上圖表示推理模型在不同謎題環(huán)境中,準(zhǔn)確率與思考token使用量隨問題復(fù)雜度變化的趨勢(shì)圖。

隨著復(fù)雜度上升,模型在一開始會(huì)投入更多思考token,準(zhǔn)確率則逐漸下降;

但當(dāng)復(fù)雜度達(dá)到某個(gè)臨界點(diǎn)時(shí),模型的推理能力開始崩潰——表現(xiàn)急劇下降,同時(shí)思考token的使用量也隨之減少。

深入「思考模型內(nèi)部」

圖片

左圖與中圖展示了在不同復(fù)雜度下,四種謎題中推理過程中間解的出現(xiàn)位置及其正確性。? 表示中間解正確,? 表示錯(cuò)誤,陰影表示分布密度。

右圖則顯示了在不同復(fù)雜度下,漢諾塔謎題中解決方案的準(zhǔn)確率隨思考過程位置的變化情況。

結(jié)果顯示:

  • 對(duì)于簡(jiǎn)單問題(N=1-3),準(zhǔn)確率在思考初期較高,但隨著推理繼續(xù)反而下降,出現(xiàn)「過度思考」的現(xiàn)象;
  • 對(duì)于中等難度問題(N=4-7),推理的持續(xù)略微提升了準(zhǔn)確率;
  • 對(duì)于復(fù)雜問題(N≥8),準(zhǔn)確率始終接近于零,表明模型在這類問題上推理完全失敗。

未解之謎:推理模型的異常行為

圖片

如上圖a和b所示,在漢諾塔游戲環(huán)境中,即便在提示中直接提供了解法算法,讓模型只需按步驟執(zhí)行,模型的表現(xiàn)仍未改善,推理崩潰的現(xiàn)象依然出現(xiàn)在大致相同的位置。

這一點(diǎn)非常值得注意,因?yàn)樵O(shè)計(jì)并找到一個(gè)解法通常比僅僅執(zhí)行一個(gè)已知算法需要更多的計(jì)算(比如搜索與驗(yàn)證)。這一現(xiàn)象進(jìn)一步突顯了推理模型在「驗(yàn)證」以及按邏輯步驟解決問題方面的能力局限。

如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環(huán)境中表現(xiàn)出明顯不同的行為。

在漢諾塔環(huán)境中,當(dāng)N=10時(shí),模型通常直到大約第100步才會(huì)出現(xiàn)第一處錯(cuò)誤;

而在過河環(huán)境中,同一個(gè)模型卻只能正確地完成前4步,之后便無法繼續(xù)生成有效解。

這種差異非常顯著。

值得注意的是,當(dāng) N=5(即需要31步解)時(shí),模型幾乎可以完美解決漢諾塔問題;但在 N=3(僅需11步解)的過河謎題中,模型卻完全失敗。

這一現(xiàn)象很可能說明:在網(wǎng)絡(luò)數(shù)據(jù)中,N>2 的過河問題案例非常稀少,因此大語言模型(LRMs)在訓(xùn)練中幾乎沒有見過或記住這類實(shí)例。

這項(xiàng)研究系統(tǒng)性地評(píng)估了大推理模型(LRMs),低復(fù)雜度下,標(biāo)準(zhǔn)LLM反而更穩(wěn);中等復(fù)雜度時(shí),LRM暫時(shí)領(lǐng)先;可一旦問題變得復(fù)雜到一定程度——兩者雙雙崩盤。

分析推理軌跡后,研究者發(fā)現(xiàn)模型在簡(jiǎn)單問題上「過度思考」,在復(fù)雜問題上則徹底罷工。

甚至連直接提供解題算法都救不了它們——比如漢諾塔問題,算法提示給到位了,模型卻依然原地打轉(zhuǎn)。

模型在漢諾塔中可連續(xù)操作100步不出錯(cuò),到了過河問題里,卻五步都撐不過去!

這背后的原因成謎,但無疑為后續(xù)探索AI推理極限打開了一個(gè)新的突破口。

眼下的LRM,距離「通用推理」這座大山,顯然還有不少路要走。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-17 17:19:31

AIOpenAIGoogle

2025-03-05 00:22:00

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-06-10 03:30:00

2025-05-30 02:00:00

獎(jiǎng)勵(lì)模型RRMAI

2025-06-08 14:15:42

2025-03-17 08:15:00

AI技術(shù)模型

2025-05-08 16:45:32

開源Phi-4推理模型

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-06-27 08:40:00

模型推理AI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-03-11 08:37:42

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2025-02-13 09:20:00

2024-09-24 11:01:03

2025-06-11 14:39:50

AILLMMistral

2025-02-25 09:13:16

2025-05-13 05:11:00

推理模型微調(diào)

2025-01-15 13:01:07

2025-06-11 09:19:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩欧美一区二区三区在线观看 | 国产精品视频资源| youjizz亚洲女人| 国产精品成人3p一区二区三区| 亚洲国产精品视频| 日韩欧美精品在线不卡| 精品国产伦一区二区三| 老司机精品视频网站| 久久精品国产欧美激情| 丰满少妇一区二区三区| 精品国产鲁一鲁****| 狠狠爱在线视频一区| 自拍亚洲欧美老师丝袜| 日韩亚洲视频在线观看| 国产精品一卡二| 国产91在线高潮白浆在线观看| 色欲一区二区三区精品a片| 久久国产精品免费精品3p| 欧美中文字幕久久| 一本在线高清不卡dvd| 97人人做人人人难人人做| 伊人手机在线视频| 欧美激情视频一区二区三区免费| 一区二区三区在线播放欧美| 漂亮人妻被黑人久久精品| 99精品国产九九国产精品| 色综合欧美在线| 男人插女人视频在线观看| 免费网站免费进入在线| 久久精品视频免费观看| 国产日本一区二区三区| 国产美女免费看| 美女高潮久久久| 日韩美女激情视频| 中日韩精品视频在线观看| 欧美激情1区2区| 久久精品亚洲热| 国产性猛交xx乱| 欧美人与物videos另类xxxxx| 精品国产一区二区三区不卡| 日本女人黄色片| 亚洲国产天堂| 9191久久久久久久久久久| 久久国产精品国产精品| 欧美与亚洲与日本直播| 色婷婷精品久久二区二区蜜臂av| 国产一区二区网| 日韩伦理福利| 欧美日韩午夜视频在线观看| 蜜臀av无码一区二区三区| 欧美另类tv| 亚洲福中文字幕伊人影院| a天堂资源在线观看| 青草视频在线免费直播| 一区二区三区精密机械公司| 日本三级中文字幕在线观看| caopo在线| 亚洲精品视频观看| 999一区二区三区| а√在线中文网新版地址在线| 亚洲网友自拍偷拍| 国产黄色一级网站| 91午夜在线观看| 可以直接在线观看的av| 久久久久99精品一区| 欧美一区二区三区精美影视| 国产免费永久在线观看| 日本一区二区高清| 懂色av粉嫩av蜜臀av| 超碰在线caoporn| 亚洲午夜免费电影| 国产无套内射久久久国产| 在线观看欧美日韩电影| 精品视频在线视频| 污视频在线观看免费网站| youjizz欧美| 亚洲精品一区中文| 男人天堂资源网| 欧美成人日韩| 欧美亚洲一级片| 中文字幕一区二区在线视频 | 中文字幕第三区| 中文在线综合| 亚洲人成网在线播放| 免费看一级黄色| 亚洲毛片av| 国产精品h片在线播放| 国产精品伊人久久| 91丨九色丨尤物| 一区二区三区四区视频在线观看| 最新黄网在线观看| 一本色道亚洲精品aⅴ| 激情在线观看视频| 网友自拍一区| www.日韩.com| 麻豆久久久久久久久久| 久久精品国产99久久6| 国产一区二区三区免费不卡| 搞黄视频免费在线观看| 亚洲自拍与偷拍| 999在线免费视频| 国产精品xxxav免费视频| 一区二区成人精品| 国产成人无码精品久久久久| 美女视频黄频大全不卡视频在线播放 | 国产精彩视频在线| 三级在线观看视频| 国产成人av电影在线| 欧美日韩无遮挡| 日本aa在线| 欧美日韩你懂得| 成人免费av片| 国产精品激情| 国产欧美日韩最新| 黄视频在线播放| 亚洲一区二区欧美日韩| 日本久久久久久久久久久久| 欧美1区2区3区4区| 精品中文字幕在线2019| 中文字幕乱码人妻二区三区| 97成人超碰视| 久久久久久www| 国产精久久一区二区| 国产亚洲精品激情久久| 丁香六月婷婷综合| 成人一级片在线观看| 国产四区在线观看| 亚洲成av在线| 亚洲男人av在线| 亚洲欧美在线观看视频| 国产一区欧美日韩| 亚洲一区二区精品在线| 精品欧美一区二区三区在线观看 | 欧美aaa级片| 久久高清国产| 国产综合第一页| tube8在线hd| 精品国产人成亚洲区| 精品一区在线观看视频| 久久99精品久久久久久久久久久久| 欧美日韩亚洲一区二区三区四区| jizzjizz中国精品麻豆| 日韩午夜激情电影| 毛片a片免费观看| 国产成人av在线影院| 国产欧美自拍视频| 精品一区二区三区四区五区| 久久久精品国产一区二区| 国产又粗又猛又爽又黄的视频一 | 国产一级大片在线观看| 亚洲天堂男人av| 久久国产综合精品| 最新av在线免费观看| 麻豆精品久久| 久久免费国产视频| 手机av免费在线观看| 欧美日韩在线影院| 蜜臀久久99精品久久久久久| 日本中文字幕一区二区有限公司| 天堂精品一区二区三区| 国产成人精品一区二区三区免费| 日日骚久久av| av片免费播放| 欧美国产一级| 97久久超碰国产精品电影| 久久这里只有精品23| 日日天天久久| 国产精品夜色7777狼人| av在线免费网址| 亚洲国产毛片完整版| 中文字幕一区在线播放| 欧美极品xxx| 三级性生活视频| 亚洲午夜在线| 老牛影视免费一区二区| 日韩三区免费| 欧美日韩福利视频| 日韩精品123| 欧美高清精品3d| 国产真实夫妇交换视频| 久久精品一区二区三区不卡 | 久久国际精品| 77777亚洲午夜久久多人| 成人18在线| 日韩视频中午一区| 久久中文字幕免费| 亚洲三级在线观看| 亚洲少妇18p| 久久电影网站中文字幕| 国产 欧美 日韩 一区| 久久91麻豆精品一区| 91热福利电影| 中文在线аv在线| 欧美xxxx18性欧美| 国内在线免费高清视频| 日韩欧美在线一区二区三区| 久久久久99精品成人片我成大片 | 国产成人免费观看视频| 中文字幕中文字幕中文字幕亚洲无线| 一级少妇精品久久久久久久| 蜜桃久久精品一区二区| 男人插女人视频在线观看| 日韩一区二区中文| 极品日韩久久| 国产中文欧美日韩在线| 国产成人精品一区二区| 日本不卡影院| 日韩专区在线播放| 黄色软件在线| 亚洲国产精品人久久电影| 91中文字幕在线播放| 欧美性极品xxxx做受| 欧美日韩免费做爰视频| 国产精品美女久久久久aⅴ | 亚洲欧洲三级电影| 欧美老熟妇乱大交xxxxx| 福利一区在线观看| 在线视频观看一区二区| 日韩va欧美va亚洲va久久| 国内自拍在线观看| 在线精品一区二区| 红桃一区二区三区| 婷婷六月综合| 亚洲最新在线| 日韩免费在线| 小说区图片区图片区另类灬| 亚洲自拍电影| 国产一区二区在线观看免费播放 | 久久av免费观看| 91嫩草精品| 亚洲aⅴ男人的天堂在线观看| 成人在线免费av| 国产福利视频一区二区| 亚洲黄色网址| 欧美在线精品免播放器视频| 成人ssswww在线播放| 色综合天天狠天天透天天伊人| 乱人伦中文视频在线| 色偷偷88888欧美精品久久久| 黄色片视频在线观看| 亚洲色图25p| 黄色电影免费在线看| 亚洲精品一区中文字幕乱码| 免费黄色在线视频网站| 精品亚洲国产视频| 麻豆app在线观看| 国产亚洲精品美女| youjizz在线播放| 中文字幕亚洲专区| 日本综合在线| 久久成人国产精品| 色图在线观看| 国产精品自产自拍| heyzo国产| 亚洲综合欧美| 99久久国产宗和精品1上映| 日本色综合中文字幕| 亚洲77777| 国产伦理精品不卡| 大尺度做爰床戏呻吟舒畅| 99久久精品国产一区二区三区 | 97精品久久久| 中文日产幕无线码一区二区| 欧美一级久久| 欧美丰满少妇xxxxx做受| av在线播放观看| 九九热r在线视频精品| av中文字幕在线看| 日本91av在线播放| 巨大黑人极品videos精品| 亚洲aa在线观看| 久久精品凹凸全集| 午夜免费电影一区在线观看| 午夜激情久久| 日韩欧美一区二| 日本女人一区二区三区| 污视频在线观看免费网站| av不卡一区二区三区| 香蕉视频久久久| 亚洲女同女同女同女同女同69| 国产香蕉在线视频| 欧美主播一区二区三区| 精品国精品国产自在久不卡| 亚洲精品自产拍| 黄色网页在线看| 57pao国产精品一区| 亚洲精品第一| 久久福利电影| 国产精品91一区二区三区| 大陆av在线播放| 久久精品国产一区二区| 玖玖爱在线精品视频| 国产精品成人在线观看| 日韩女同强女同hd| 欧美日韩一区二区三区四区五区| 丁香六月色婷婷| 最近2019中文字幕mv免费看| 黄色污污视频在线观看| 国产精品户外野外| 美日韩黄色大片| 桥本有菜av在线| 六月丁香综合| 国产免费a级片| 国产精品午夜久久| 可以免费在线观看的av| 欧美一区二区人人喊爽| 精品一二三区视频| 久久久久国产视频| 四虎精品永久免费| 日韩av电影免费在线| 99国产精品久久久久久久成人热| 成人性生交免费看| 久久亚洲免费视频| 久久久久久福利| 女人色偷偷aa久久天堂| 欧美亚洲丝袜| 亚洲激情在线| wwwxxxx在线观看| 中文字幕制服丝袜一区二区三区 | 亚洲综合欧美综合| 午夜不卡av免费| 人妻91麻豆一区二区三区| 欧美美最猛性xxxxxx| 成人在线啊v| 亚洲色图自拍| 免费在线观看成人| av网在线播放| 色呦呦国产精品| 亚洲日本国产精品| 97精品国产97久久久久久免费| 91蝌蚪精品视频| 国产亚洲黄色片| 成人性生交大合| 日本视频www| 亚洲第一精品夜夜躁人人爽 | 国产精品久久久久久搜索 | 久久精品五月天| 亚洲天堂第二页| 日韩久久一区二区三区| 欧美一区二区三区精美影视| 视频一区在线播放| 免费看裸体网站| 欧美少妇性性性| 在线免费看黄| 成人国产精品av| 亚洲激情中文在线| 韩国三级在线播放| 亚洲成人动漫av| 五月婷婷六月丁香| 热99在线视频| 成人网18免费网站| 色噜噜狠狠一区二区| 成人免费在线观看入口| 国产丰满果冻videossex| 欧美理论电影在线播放| 白嫩白嫩国产精品| 国产精品宾馆在线精品酒店| 久久久久久久久久久久久夜| 欧美国产一级片| 久久精品在线播放| 风间由美中文字幕在线看视频国产欧美| 性高湖久久久久久久久aaaaa| 成人av免费网站| 国产精品久久久久久久久久精爆| 伊人av综合网| 日本成人精品| 亚洲 欧美 日韩 国产综合 在线| 久久综合九色综合欧美亚洲| 欧美另类高清videos的特点| 精品国产自在精品国产浪潮| 香蕉大人久久国产成人av| 免费看的黄色大片| 国产欧美日韩视频在线观看| 国产口爆吞精一区二区| 97视频免费看| 欧美一区二区性| 国产吃瓜黑料一区二区| 国产.欧美.日韩| xxxxxx在线观看| 日韩一级不卡| 99热6这里只有精品| 欧美不卡激情三级在线观看| 免费成人直播| 2021国产视频| 久久久久久电影| 国产又爽又黄免费软件| 91国产精品视频在线| 999精品色在线播放| 97人妻精品一区二区三区免费| 色狠狠桃花综合| 色图在线观看| 午夜老司机精品| 成人av手机在线观看| 国产又粗又猛视频免费| 午夜精品福利视频| 亚洲无中文字幕| 亚洲精品国产一区黑色丝袜 | 国产日韩精品一区二区| 精品电影一区| 中国一级片在线观看|