精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

收益遞減的假象:大語言模型長視野執(zhí)行能力的真相

人工智能
當(dāng)模型設(shè)置為用順序測試時(shí)間計(jì)算進(jìn)行思考時(shí),即使歷史充滿錯誤答案,固定后期輪次的準(zhǔn)確率也保持穩(wěn)定,這顯示深思熟慮的推理步驟打破了負(fù)反饋循環(huán)。

論文(The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs)發(fā)現(xiàn):擴(kuò)大模型規(guī)模不僅讓模型在知識方面更聰明,還讓它們在多步驟任務(wù)中持續(xù)更久,這才是agent真正需要的。研究顯示,小模型通常能完美完成單個(gè)步驟,但當(dāng)要求它們持續(xù)執(zhí)行多個(gè)步驟時(shí),就會迅速崩潰。即使它們在第一步從不出錯,隨著任務(wù)變長,準(zhǔn)確率也會快速下降。相反,大模型在更多步驟中保持可靠,盡管基本任務(wù)本身并不需要額外的知識或推理。

圖片圖片

論文指出這不是因?yàn)榇竽P?知道更多",而是因?yàn)樗鼈兏瞄L持續(xù)執(zhí)行而不偏離錯誤。論文命名了一種名為自條件化的失敗模式,即看到早期錯誤會導(dǎo)致更多錯誤,并顯示通過思維步驟,GPT-5能一次運(yùn)行1000+步,而其他模型遠(yuǎn)低于此。

論文將規(guī)劃與執(zhí)行分離,然后顯示即使將計(jì)劃和所需知識提供給模型,隨著任務(wù)變長,可靠性仍會下降,這使得小的準(zhǔn)確率提升突然變得非常重要。

即使在單步水平上的微小準(zhǔn)確率提升,也會導(dǎo)致模型能可靠執(zhí)行完整任務(wù)的時(shí)長呈指數(shù)級增長。這就是為什么擴(kuò)大模型規(guī)模仍然值得,即使短基準(zhǔn)測試看起來進(jìn)展停滯。左側(cè)可以看到,步驟準(zhǔn)確率(模型每個(gè)小步驟正確的頻率)幾乎持平,在新模型中幾乎沒有改善。這看起來像收益遞減,因?yàn)槊看伟l(fā)布在單個(gè)步驟上只是略有改善。但在右側(cè),當(dāng)你將這個(gè)微小的步驟改善擴(kuò)展到連續(xù)的多個(gè)步驟時(shí),收益爆發(fā)了。任務(wù)長度(模型能持續(xù)運(yùn)行而不失敗的時(shí)間)從幾乎為零躍升到數(shù)千步。

為什么模型運(yùn)行時(shí)間越長表現(xiàn)越差。如果模型犯小的隨機(jī)錯誤,那么準(zhǔn)確率應(yīng)該隨時(shí)間保持平穩(wěn)。隨著任務(wù)變長,準(zhǔn)確率持續(xù)下降。原因稱為自條件化。一旦模型犯錯,該錯誤就會反饋到其自身歷史中。下次查看過去答案時(shí),它看到了錯誤的答案,這使它更可能再次出錯。如果歷史是干凈的,模型會持續(xù)正確回答。如果歷史已有錯誤,就會螺旋式地犯更嚴(yán)重的錯誤。LLM不僅因隨機(jī)錯誤而失敗——它們失敗是因?yàn)樽约旱腻e誤污染了上下文,導(dǎo)致后續(xù)更多錯誤。

當(dāng)早期錯誤出現(xiàn)在歷史中時(shí),大模型的表現(xiàn)如何。綠色條是上下文干凈(0%錯誤)的情況。在這種情況下,較大的模型(如14B和32B)在第100步時(shí)比小模型保持更高的準(zhǔn)確率。所以,如果一切進(jìn)行順利,擴(kuò)展顯然有幫助。粉色條是歷史中一半已有錯誤的情況。在這里,準(zhǔn)確率急劇下降,模型越大,崩潰越嚴(yán)重。32B模型從干凈情況下的最佳變成錯誤存在時(shí)的低得多。信息是:大模型在歷史干凈時(shí)更強(qiáng)大地執(zhí)行長任務(wù),但它們也更容易受到自條件化影響,意味著一旦看到自己早期的錯誤,它們會更嚴(yán)重地螺旋下降。

圖片圖片

論文如何以非常受控的方式測試執(zhí)行。論文將長任務(wù)轉(zhuǎn)化為簡單循環(huán),每輪說明從字典中讀取哪些鍵,并要求模型更新運(yùn)行總和,所以任何失敗都是關(guān)于執(zhí)行的,而不是缺少知識或規(guī)劃。論文通過剝離規(guī)劃和知識來隔離執(zhí)行,測試模型是否能在多輪中保持簡單運(yùn)行總和的正確。左側(cè)解釋了長任務(wù)可以分解為重復(fù)步驟:首先檢索正確信息,然后將其組合到運(yùn)行結(jié)果中,最后存儲更新的狀態(tài)。規(guī)劃部分(要做什么步驟)已經(jīng)給出,所以測試只衡量模型是否能在多步驟中持續(xù)正確執(zhí)行。右側(cè)顯示了他們使用的測試任務(wù)。基本上是一個(gè)字典,每個(gè)單詞都附有一個(gè)數(shù)字。告訴模型選擇哪些鍵(如"Apple"和"Grape"),它檢索它們的數(shù)字,然后加到運(yùn)行總計(jì)中。這種設(shè)置確保任務(wù)不依賴外部知識或創(chuàng)造性規(guī)劃,只依賴輪輪正確執(zhí)行。

圖片圖片

為什么小收益會爆炸式擴(kuò)展視野:在沒有自我糾正的簡單恒定準(zhǔn)確率模型下,一旦單步準(zhǔn)確率超過約70%,微小提升就會在保持50%成功目標(biāo)的任務(wù)長度上產(chǎn)生超指數(shù)級跳躍,所以短任務(wù)上的收益遞減隱藏了長任務(wù)上的巨大現(xiàn)實(shí)收益。

圖片圖片

即使沒有新知識,擴(kuò)展也能帶來什么:大模型在更多輪中保持運(yùn)行總和正確,即使小模型已有100%單步準(zhǔn)確率,這說明這里規(guī)模的好處是更可靠的長期執(zhí)行,而不是更好的事實(shí)。

自條件化效應(yīng):一旦上下文顯示早期錯誤,模型就更可能再次出錯,所以每輪準(zhǔn)確率隨長度持續(xù)漂移,這獨(dú)立于長上下文限制,不能僅通過使用更大模型來修復(fù)。

思維修復(fù)漂移:當(dāng)模型設(shè)置為用順序測試時(shí)間計(jì)算進(jìn)行思考時(shí),即使歷史充滿錯誤答案,固定后期輪次的準(zhǔn)確率也保持穩(wěn)定,這顯示深思熟慮的推理步驟打破了負(fù)反饋循環(huán)。

單輪能力:沒有思維鏈時(shí),即使很大的指令調(diào)優(yōu)模型也難以在一輪中鏈接2步,但有了思維,GPT-5執(zhí)行1000+步,Claude 4 Sonnet約432步,Grok-4是384步,Gemini 2.5 Pro和DeepSeek R1徘徊在120步左右**。

并行采樣不能替代思維:運(yùn)行多個(gè)并行樣本并投票只帶來小收益,相比順序推理,所以對于長視野執(zhí)行,關(guān)鍵是順序測試時(shí)間計(jì)算,而不是更多并行猜測。

通過修剪歷史的實(shí)用緩解:刪除舊輪次的滑動窗口通過隱藏累積錯誤改善可靠性,這減少了像這種任務(wù)的簡單馬爾可夫設(shè)置中的自條件化。

錯誤實(shí)際來源:查找和加法本身長時(shí)間保持近乎完美,但將它們與可靠狀態(tài)跟蹤結(jié)合會使錯誤增長,所以薄弱環(huán)節(jié)是在組合小操作時(shí)對狀態(tài)的持續(xù)管理。

作為agent構(gòu)建者該做什么:直接測量視野長度,使用思維進(jìn)行多步執(zhí)行,優(yōu)先選擇順序計(jì)算而非純并行采樣,管理上下文以避免向模型反饋其自身早期錯誤。

責(zé)任編輯:武曉燕 來源: AI帝國
相關(guān)推薦

2023-04-27 13:46:08

語言模型ChatGPT人工智能

2023-05-05 13:29:04

模型推理

2025-04-02 01:25:00

2025-10-14 01:00:00

2025-02-25 09:49:12

2025-02-07 16:07:39

2024-12-30 13:13:35

2025-04-02 08:40:00

人工智能大模型AI

2023-09-05 14:43:15

2025-04-22 08:08:37

2025-09-04 07:00:00

GenAILLM大語言模型

2023-12-22 14:31:52

2024-04-11 11:35:03

大語言模型LLMs

2024-03-19 13:12:36

自動駕駛模型

2024-06-20 10:52:27

2023-10-07 08:28:06

語言模型代碼技術(shù)

2025-07-10 09:14:11

2025-03-13 11:18:14

2024-03-26 06:40:06

大語言模型人工智能AI

2024-06-06 09:47:56

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

日韩欧美国产网站| 国内一区二区视频| 亚洲香蕉成视频在线观看| 美女网站免费观看视频| 成人在线播放免费观看| 国产精品一区在线观看乱码| 午夜精品蜜臀一区二区三区免费| 最近中文字幕免费视频| 99精品国产九九国产精品| 亚洲福利一区二区三区| 翔田千里亚洲一二三区| 欧美一级在线免费观看| 日韩av电影免费观看高清完整版| 久操成人在线视频| 阿v天堂2014| 91国内精品白嫩初高生| 色诱亚洲精品久久久久久| 91制片厂免费观看| 青青国产在线| 国产精品一区二区久久精品爱涩| 欧洲中文字幕国产精品| 欧美色图一区二区| 日韩精品免费一区二区三区| 日韩av影视在线| 欧美一级免费在线| 国产欧美自拍| 岛国av在线不卡| 国产人妻人伦精品| 日本在线观看视频| 久久综合色婷婷| 亚洲自拍偷拍色片视频| 小泽玛利亚一区二区三区视频| 亚洲视频免费| 久久久精品一区| 亚洲人成人无码网www国产| 在线视频亚洲欧美中文| 欧美日韩国产欧美日美国产精品| 久久免费视频3| 国内在线视频| 一区二区三区四区在线免费观看| 亚洲欧美日产图| 国产人成在线视频| 久久久久久久久久美女| 国产一区二区三区无遮挡| a级片在线免费看| 久久99热这里只有精品| 国产精品美女免费看| 影音先锋在线国产| 国产精品一页| 韩国福利视频一区| 久久亚洲AV无码| 欧美69wwwcom| 欧美日韩xxx| 欧美精品一级片| 欧美在线亚洲综合一区| 久久亚洲综合国产精品99麻豆精品福利 | 免费日韩av片| 91成人国产在线观看| 国产性xxxx高清| 夜夜嗨av一区二区三区网站四季av| 欧美老妇交乱视频| 青青草国产在线观看| 狠狠爱综合网| 97超级碰碰人国产在线观看| 日本一级淫片免费放| 亚洲国产一区二区三区高清 | 英国三级经典在线观看| 午夜精品免费在线观看| 成人免费播放器| 乱人伦视频在线| 日韩欧美在线国产| 免费看a级黄色片| 成人在线中文| 91精品黄色片免费大全| wwwww在线观看| 国产丝袜一区| 亚洲图片欧洲图片av| 人妻aⅴ无码一区二区三区| 精品久久久久中文字幕小说| 日韩中文字幕网站| 精品处破女学生| 国产欧美精品| 国产精品一区二区久久| 精品国产99久久久久久宅男i| 国产成人午夜精品5599 | 久久av导航| 中文字幕亚洲字幕| 欧美精品xxxxx| 国产精品一二| 成人av资源在线播放| www.蜜臀av| 91啪九色porn原创视频在线观看| 日韩电影天堂视频一区二区| 成人日日夜夜| 欧美日韩精品在线视频| 手机看片一级片| 亚洲精品观看| 亚洲一级免费视频| 69av视频在线| 日韩国产在线观看| av资源一区二区| 国产九色在线| 亚洲国产精品久久久久婷婷884| 精品www久久久久奶水| 成人永久在线| 精品亚洲一区二区三区在线观看| 蜜桃av免费在线观看| 日韩网站在线| 成人在线国产精品| 美国成人毛片| 夜夜嗨av一区二区三区网页| 国产一级片黄色| 97久久亚洲| 最近2019中文免费高清视频观看www99 | 成 人片 黄 色 大 片| 国产日韩欧美亚洲| www.av片| 天堂va欧美ⅴa亚洲va一国产| 亚洲性视频网址| 久久不卡免费视频| 国产一区二区三区免费在线观看| 欧美一区1区三区3区公司 | 亚洲五码中文字幕| 日本美女视频一区| 妖精视频一区二区三区免费观看 | 日韩精彩视频| 不卡视频观看| 日韩欧美一二三| 国产黄色录像视频| 久久久久看片| 精品久久精品久久| 国产二区三区在线| 欧美日韩在线综合| 国产高清一区二区三区四区| 99在线精品视频在线观看| 91av一区二区三区| 超碰在线免费播放| 欧美日韩日日摸| 亚洲午夜精品久久久久久高潮| 亚洲精选在线| 国产精品毛片一区视频| 污污网站在线看| 91精品国产麻豆国产自产在线 | 亚洲福利国产精品| 色诱av手机版| 欧美粗暴jizz性欧美20| 91精品免费视频| 麻豆网站在线免费观看| 欧美日韩www| 欧日韩不卡视频| 麻豆精品一二三| 亚洲一区bb| 日本免费成人| 日韩在线观看免费| 国产精品永久久久久久久久久| 国产精品毛片久久久久久久| 中文字幕在线综合| 欧美超碰在线| 91欧美激情另类亚洲| 粗大黑人巨茎大战欧美成人| 日韩西西人体444www| 国产这里有精品| www.欧美.com| av网站在线观看不卡| 久操精品在线| 国产精品美乳在线观看| 免费高清完整在线观看| 日韩欧美一区二区三区在线| 免费中文字幕视频| 99精品偷自拍| 久久综合久久色| 久久国产精品亚洲人一区二区三区 | 日本熟女毛茸茸| 欧美激情综合在线| 国产大片一区二区三区| 一区三区视频| 欧美久久电影| 激情久久免费视频| 久久久久亚洲精品| 蜜桃视频在线观看网站| 欧美久久婷婷综合色| 免费在线一级片| 久久久久久一级片| 在线免费黄色网| 精品白丝av| 日韩亚洲视频| 欧美h版在线观看| 91av成人在线| 色视频在线免费观看| 精品国产乱码91久久久久久网站| 在线观看 亚洲| 国产精品国产馆在线真实露脸| 91精品人妻一区二区三区蜜桃2| 国产日韩精品视频一区二区三区| 翔田千里亚洲一二三区| 高清日韩中文字幕| 国产日本欧美在线观看| 91超碰在线| 最近更新的2019中文字幕| www.国产.com| 在线免费观看一区| 久久久全国免费视频| 国产农村妇女精品| 成人在线观看一区二区| 日本午夜精品视频在线观看| 日本一道在线观看| 欧美理论在线播放| 国产精品三区四区| 欧美在线一级| 日本精品免费观看| 久久电影网站| 日韩专区中文字幕| 亚洲色欧美另类| 日韩三级在线免费观看| 国产免费a视频| 婷婷六月综合亚洲| 日韩a级片在线观看| 国产日产欧美一区二区视频| 国产xxxx视频| 国产电影一区二区三区| 超碰在线人人爱| 亚洲自啪免费| 日韩成人手机在线| 欧美高清在线| 日韩高清在线播放| 免费精品国产的网站免费观看| 99久久久久国产精品免费| 成人精品高清在线视频| 欧洲成人免费视频| 美女视频在线免费| 欧美精品videos另类日本| 麻豆影院在线| 日日骚久久av| 成人精品一区二区三区免费| 日韩高清免费观看| 少妇高潮一区二区三区69| 欧美大片在线观看| www.亚洲欧美| 日韩一区和二区| 国产黄色美女视频| 51精品国自产在线| 一道本在线视频| 欧美日韩午夜在线视频| 中文字幕 国产精品| 日本高清成人免费播放| 无码人妻丰满熟妇精品| 欧美小视频在线观看| 综合激情网五月| 欧美午夜www高清视频| 久久午夜免费视频| 亚洲成a人v欧美综合天堂下载 | 一本色道久久综合亚洲精品高清| 成人一区二区av| 欧美a级一区| 欧美一级爱爱视频| 黄色成人在线网址| 亚洲色成人www永久在线观看| 欧美精品三级| 成人网站免费观看入口| 亚洲激情在线| 97国产精东麻豆人妻电影 | 成 人 黄 色 小说网站 s色| 美女一区二区久久| 天天看片天天操| 国产麻豆成人传媒免费观看| 欧美一级片在线免费观看| 波多野结衣中文字幕一区| 黄色国产在线观看| 国产亚洲欧美色| 三上悠亚在线观看视频| 亚洲免费观看高清完整版在线观看熊 | 国产欧美日韩精品高清二区综合区| 欧洲亚洲一区| 91tv精品福利国产在线观看| 8x8x华人在线| 亚洲免费观看| 波多野结衣xxxx| 国产成人在线视频网站| 中文字幕 亚洲一区| 国产欧美精品一区aⅴ影院 | 天天影视网天天综合色在线播放| 97免费在线观看视频| 欧美中文字幕不卡| 精品久久久久久亚洲综合网站| 欧美精品一区二区三区久久久| 麻豆影视在线| 久久亚洲成人精品| 啊啊啊久久久| 国产女人18毛片水18精品| 午夜日韩影院| 日韩精品久久一区二区三区| 91精品国产自产在线观看永久∴ | 久久综合久久综合这里只有精品| 精品视频网站| 日韩精品手机在线观看| 久久婷婷激情| 熟妇女人妻丰满少妇中文字幕| 91麻豆123| 精品欧美一区二区久久久久| 色婷婷香蕉在线一区二区| 国产免费一区二区三区最新不卡 | 国产亚洲午夜| www.亚洲自拍| 久久久电影一区二区三区| 外国一级黄色片| 欧美色偷偷大香| 欧美一级淫片aaaaaa| 久久久国产精品一区| 亚洲美女久久精品| 999视频在线观看| 欧美日韩伦理| 日韩激情免费视频| 国产一区二区视频在线| 西西444www无码大胆| 亚洲国产日韩a在线播放性色| 中文字字幕在线观看| 日韩av一区二区在线| 91精品久久| 成人黄色短视频在线观看| 午夜欧洲一区| 精品久久一二三| 国产精品一二三区| 欧美a级片免费看| 在线精品视频一区二区三四| 嫩草影院一区二区| 久久最新资源网| 黑人一区二区三区| 久久精品中文字幕一区二区三区 | 国产成人夜色高潮福利影视| 在线观看日韩片| 日韩高清不卡一区二区| 亚洲av无码一区二区二三区| 亚洲一区二区三区不卡国产欧美| 国产尤物在线观看| 深夜精品寂寞黄网站在线观看| 亚洲人成午夜免电影费观看| 国产精品区一区二区三含羞草| 综合久久婷婷| 超碰人人cao| 亚洲六月丁香色婷婷综合久久 | 精品一区二区三区的国产在线播放| 在线免费观看麻豆| 欧美性猛交xxxx久久久| 神马电影在线观看| 91wwwcom在线观看| 在线成人动漫av| 99精品免费在线观看| 久久老女人爱爱| 日本久久综合网| 在线播放日韩av| 78精品国产综合久久香蕉| 视频一区二区三| 青青草国产成人99久久| 黄色免费一级视频| 欧美日韩国产乱码电影| 美女黄视频在线观看| 91亚洲精品视频| 欧美午夜免费影院| 免费a v网站| 精品日韩视频在线观看| 日本在线丨区| 国产精品激情自拍| 欧美hd在线| xxxx国产视频| 精品国产成人在线| 国产小视频福利在线| 国产精品综合久久久| 亚洲一区 二区 三区| 在线播放av网址| 红桃av永久久久| 久草在线青青草| 国产精品日韩久久久久| 欧美一区二区| 国产精品成人99一区无码| 色悠悠久久综合| 免费在线观看av片| 成人欧美一区二区三区视频 | 亚洲一区av在线| 天天操天天干天天爱| 国产99在线|中文| 国产精品精品| 人妻av一区二区| 91官网在线免费观看| а√资源新版在线天堂| 国产欧美一区二区视频| 日韩激情av在线| 欧美日韩中文字幕在线观看 | 国产写真视频在线观看| 好吊色欧美一区二区三区视频| 日韩综合一区二区| 婷婷在线精品视频| 精品偷拍各种wc美女嘘嘘| www.久久| 91九色丨porny丨国产jk| 日本一区二区三区久久久久久久久不 | 欧美bbbbb| 久久久久久久伊人| 中文日韩在线观看| 99久久人爽人人添人人澡| 热久久精品免费视频|