精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

給模型狂堆參數的“大力出奇跡”真的失效了嗎?劍橋說:AI的真正潛力才剛開始

人工智能 新聞
他們用一套極其巧妙的實驗告訴世界:所謂的“遞減收益”很可能只是一種錯覺。

在人們都認為瘋狂砸錢,拼命地把大語言模型的參數規模往上堆的Scaling Law已經到頭了的時候。一篇叫《遞減收益的錯覺:衡量LLMs中的長時程執行能力》的論文又給大家來了一劑“強心針”。

這篇報告由劍橋大學、斯圖加特大學人工智能研究所、馬克斯普朗克智能系統研究所以及圖賓根ELLIS研究所的大神們聯手發布。他們用一套極其巧妙的實驗告訴世界:所謂的“遞減收益”很可能只是一種錯覺。

研究員們發現:“單步準確度的邊際收益可以復合成模型成功完成任務長度的指數級改進?!?/span>

意思就是,你別看模型每次升級,在單個小問題上的準確率就提升那么一丟丟,好像進步慢下來了。但就是這微不足道的“一丟丟”,在處理需要成百上千個步驟的超長任務時,會像滾雪球一樣,最終帶來指數級的爆炸性提升。

你想想,AI的真正價值是啥?不就是能干活,能干又長又復雜的活嘛。自動駕駛汽車得能跑長途,不能只在停車場里轉悠吧?AI助手得能幫你搞定一個完整的項目,而不是只能解決簡單任務吧?這種長時間、多步驟連續作戰的能力,就是“長時程執行能力”,它一直是深度學習這個領域難啃的骨頭,也就是最要命的短板。

我們到底該怎么衡量一個模型到底能連續、可靠地執行多少步操作呢?這篇研究,就是來回答這個靈魂拷問的。

一個簡單到極致的實驗,卻扒了所有模型的秘密

要搞明白AI為啥在長任務上容易“掉鏈子”,首先得把問題簡化。研究團隊設計了一個堪稱“天才”的實驗,這個實驗的核心思想就是“控制變量”,把影響模型表現的幾個大因素——推理能力、知識儲備、規劃能力——全都給按住,只留下最純粹的“執行能力”來考察。

想象你是老板,要測試一個員工執行力。你不會給他一個開放性問題讓他自由發揮,而是把任務清單、所有需要的資料、甚至每一步該怎么做都寫得清清楚楚,然后跟他說:“來,照著這個做,一字不差地執行就行。”如果這樣他還能搞砸,那就不是他聰不聰明的問題,而是他能不能專注、穩定地把一件簡單的事情重復做好的問題。

研究團隊設計的這個任務叫做“鍵值字典添加任務”。

首先,給模型一個“字典”,里面是一堆常見的五個字母的英文單詞(比如“apple”、“water”),每個單詞對應一個隨機的整數(比如-99到99之間)。這個字典就是模型完成任務所需的所有“知識”,直接擺在它面前,不用它去記憶和回憶。

然后,設定一個初始數字,比如0。

接下來,一輪一輪地給模型下指令。每一輪的指令就是幾個單詞,比如第一輪給“apple”、“grape”。這個指令就是“計劃”,也直接告訴模型了,不用它自己想。

模型需要干兩件事:第一,去字典里查這兩個單詞對應的數字是多少,這叫“檢索”。第二,把查到的數字加起來,再加到之前的總數上,更新結果,這叫“組合”。比如“apple”是10,“grape”是5,上一輪的總數是0,那這一輪結束,模型就應該算出15。下一輪再給新單詞,就在15的基礎上繼續累加。

這個任務簡單到小學生都會。它不需要復雜的推理,不需要廣博的知識,甚至連計劃都不用自己做。研究團隊之所以這么設計,就是為了把所有可能的干擾項都排除掉,就看模型在連續不斷的“查找-相加”這種機械操作中,能堅持多久不出錯。

為了衡量模型的表現,他們定義了幾個關鍵指標,就是從不同角度給模型打分。比如“步驟準確度”,就是看每一步加法算對了沒;“輪次準確度”,就是看每一輪的總數更新對了沒;“任務準確度”,就是從頭到尾一次錯都沒犯的概率;還有一個最重要的指標叫“地平線長度”(Horizon Length,簡稱Hs),這個名字很酷,意思是,在保證成功率不低于某個值(比如50%)的前提下,這個模型最多能連續執行多少步。地平線長度越長,說明模型越“持久”,越靠譜。

實驗團隊找來了市面上好幾個系列的“當紅炸子雞”模型,比如GPT-5、Claude-4 Sonnet、Grok 4、Gemini 2.5 Pro、Kimi K2、Qwen3-Instruct-235B-2507和DeepSeek R1等。

AI的“自我PUA”和“王者思維”

當實驗數據徐徐展開。科學家們發現了幾個讓人拍案叫絕,又細思極恐的現象。

單步準確率上的一點點進步,到了長任務里就變成了指數級的巨大優勢。研究團隊甚至給出了一個數學公式來解釋:

這就好比投資里的復利,每天多賺一點點,時間一長,財富就會爆炸式增長。這完美解釋了為什么大家感覺模型進步慢了,但實際上它們能處理的任務越來越復雜。所謂的“遞減收益”,不過是因為我們只盯著單步任務這個“活期利息”,而忽略了長時程任務這個“超級復利”罷了。

實驗里,除了兩個最小的模型,其他所有模型在第一步操作時,準確率都是100%。這說明,它們絕對理解任務,也具備完成任務的能力。但是,隨著輪次的增加,哪怕是最牛的模型,在連續執行了15輪這種簡單任務后,準確率也掉到了50%以下。

在知識和推理都被“鎖死”的情況下,模型規模越大的,長時程執行能力就越強,堅持的時間就越長。研究者猜測,可能是大模型內部的神經回路更復雜,有更多的“冗余備份”,不容易因為一個小地方出錯就全盤崩潰。

這次研究最重磅的發現,是一個足以改變AI訓練范式的現象:“自我條件效應”(self-conditioning effect)。這是什么意思呢?研究團隊發現,當模型在執行任務的過程中犯了一個錯,這個錯誤的輸出會成為它下一步行動的“上下文”或“歷史記錄”。然后,怪事發生了:模型看到自己之前犯過錯,它接下來就更容易犯錯。一次失誤,會導致接二連三的失誤,形成惡性循環。

這簡直就像一種“自我PUA(精神打壓)”。模型在潛意識里告訴自己:“哦,看來我就是個會犯錯的模型”,于是就心安理得地繼續犯錯。我們通常是“吃一塹,長一智”,在錯誤中學習和進步。而AI呢,卻是在錯誤中“學習”如何繼續犯錯。研究團隊做了一個絕妙的實驗來驗證這一點:他們人為地在模型的歷史記錄里“投毒”,注入一些錯誤的答案。結果發現,注入的錯誤率越高,模型在后續任務中的表現就越差。

研究人員還發現,擴大模型規模,并不能解決這個“自我PUA”的問題。雖然更大的模型在處理長上下文時表現更好,但它們同樣會受到自我條件效應的困擾。就算是參數量超過2000億的Kimi-K2和Qwen3-235B這種巨無霸模型,一旦歷史記錄里有了錯誤,它們的性能照樣會持續下滑。說明,“自我PUA”是可能一種根植于當前AI訓練范式深處的“心病”,光靠“吃胖”是治不好的。

就在大家覺得這問題無解的時候,轉機出現了。最新的“思考模型”(thinking models)可以完美修復“自我PUA”。這些模型,比如用了強化學習的,它們在輸出最終答案之前,會先在內部生成一個“思考過程”或者說“草稿”。研究團隊發現,這些模型完全不受歷史錯誤的影響。不管你在它們的歷史記錄里注入多少錯誤,它們在當前這一步的表現都穩如泰山。

為什么呢?研究者推測有兩個原因。第一,強化學習的訓練目標是“任務成功”,而不是像傳統模型那樣,僅僅是“預測最可能的下一個詞”。所以它有更強的目標感,不會輕易被歷史帶偏。第二,也是更關鍵的,它們在思考新一輪任務時,似乎能做到“翻篇”,把上一輪的思考過程和結果(無論是對是錯)隔離開,每一次都像一次全新的獨立計算。這就從根本上切斷了錯誤傳播的鏈條。

整篇論文最高能的部分,是思考模型不僅能修復“自我PUA”,它們在一次交互中能夠執行的任務長度,簡直是碾壓式的存在。研究團隊搞了個“單輪極限挑戰賽”,看各個模型在不出“思維鏈”(chain of thought)的情況下,一次性最多能處理多少個鍵值對的累加。

結果讓人目瞪口呆。那些非思考模型,哪怕是像DeepSeek-V3和Kimi K2這樣的萬億巨獸,表現都不佳。而思考模型這邊,則完全是另一個次元的景象。

GPT-5可以一口氣執行超過1000步!而排在第二名的Claude-4-Sonnet是432步。

游戲規則,該改改了?

但這篇研究告訴我們,在各種各樣的基準測試集上刷榜,看誰的單步任務準確率更高,這種方式可能不全面。研究者指出:“如果AI代理的經濟價值也來自于它能夠完成的任務長度,那么單輪或短期任務基準可能是評估進一步投資大型語言模型計算收益的虛幻參考?!币簿褪切碌?、專注于長任務執行的基準測試,將會變得越來越重要。

這對投資決策來說,可能意味著“繼續燒錢,而且要燒得更理直氣壯”。

對于那些致力于開發AI代理(Agent)的公司來說,這篇研究清楚地指出了通往成功的幾條路:第一,必須想辦法克服“自我條件效應”。第二,大力擁抱“思考模型”的技術路線,讓AI學會“三思而后行”。第三,模型規模依然重要,它是長時程執行能力的基礎保障。第四,要研究更聰明的上下文管理方法,別讓過去的錯誤成為未來的包袱。

研究結果表明,像強化學習這種更注重“任務成功”的訓練范式,可能是解鎖長時程能力的關鍵。未來的訓練,可能需要加入更多的長時程任務,甚至專門訓練模型的“思考軌跡”生成能力和“自我糾錯”能力,而不是簡單地模仿和預測。

但也有業內人士表示,這項研究并不嚴謹。你怎么看?

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-02-19 10:28:22

2020-05-06 23:00:46

5G運營商疫情

2021-10-08 10:50:44

加密貨幣比特幣貨幣

2009-03-22 19:06:51

多核多核服務器

2020-03-03 19:15:30

多云云計算云廠商

2018-11-13 11:55:57

快遞黑產信息泄露

2021-01-11 11:04:53

人工智能AI人工智能技術

2023-03-27 11:37:25

物聯網

2023-05-08 06:28:26

2020-04-20 12:01:37

網絡安全綜合科技信息技術

2019-03-11 08:58:25

物聯網IOT物聯網技術

2021-04-13 15:56:24

JavaPython技術

2018-02-08 17:22:14

智能辦公企業微信釘釘

2015-03-12 09:33:23

云分析自助分析云數據倉庫

2018-06-05 11:27:12

2014-08-20 09:41:08

2018-08-15 14:18:34

算法AI機器學習

2015-05-27 09:17:50

AzureDocker

2018-12-20 10:59:38

BAT騰訊阿里

2015-06-09 15:28:14

編程能力編程
點贊
收藏

51CTO技術棧公眾號

欧美一性一交| 成人影院在线播放| 久久99久久99| 久久频这里精品99香蕉| 日本不卡视频一区| 三上悠亚亚洲一区| 亚洲老司机在线| 精品欧美国产| 国产精品久久久久久久久毛片 | 在线观看中文字幕2021| 欧美在线三区| 一区二区日韩精品| 免费黄视频在线观看| 日本精品不卡| 亚洲五月六月丁香激情| 亚洲精品日韩成人| 五月婷中文字幕| 精品一区二区在线观看| 欧美中文字幕视频在线观看| 美女福利视频在线观看| 精品国产一区二区三区久久久蜜臀 | 九九热这里只有精品免费看| 国产美女免费网站| 韩国精品福利一区二区三区| 欧美男人的天堂一二区| 丰满人妻中伦妇伦精品app| a毛片在线播放| 中文字幕免费不卡在线| 精品国产福利| 丰满人妻一区二区三区无码av| 蜜臀av性久久久久蜜臀aⅴ流畅| 97在线观看视频国产| 成人在线观看免费完整| 欧美亚洲高清| 亚洲欧美国产精品va在线观看| 一区二区在线免费观看视频| 97人人做人人爽香蕉精品| 疯狂做受xxxx高潮欧美日本| 欧美极品少妇无套实战| 成人免费观看视频大全| 国产精品久久久久久久久搜平片| 欧美重口乱码一区二区| 深夜福利视频在线免费观看| 成人一区在线观看| 国产一区二区自拍| 蜜桃视频久久一区免费观看入口| 国产精品一区一区三区| 亚洲va欧美va国产综合久久| 中文字幕精品无码亚| 日日摸夜夜添夜夜添精品视频| 91精品国产精品| 日韩精品一区二区不卡| 在线电影一区| 777777777亚洲妇女| 日韩av在线电影| 亚洲经典三级| 欧美一区视频在线| 日韩一级在线视频| 免费视频一区二区| 国产欧美最新羞羞视频在线观看| 中文字幕乱码人妻二区三区| 麻豆国产91在线播放| 91精品久久久久久久久久久久久久 | 神马久久精品综合| 一区二区电影| 久久久综合av| 亚洲综合久久网| 日本女优在线视频一区二区| 国产日韩中文字幕在线| av中文字幕免费在线观看| 国产成人午夜精品5599| 国产精品美女黄网| 亚洲三区在线播放| 国产精品无遮挡| 久久av秘一区二区三区| 丁香花高清在线观看完整版| 色婷婷久久久综合中文字幕| 天天色综合天天色| 久久影院一区二区三区| 亚洲精品国产电影| 在线观看亚洲大片短视频| 五月综合激情| 国内精品久久久| 国产成人精品777777| 麻豆精品一区二区| 国产精品日韩高清| www.亚洲免费| 亚洲自拍欧美精品| 99热成人精品热久久66| 中文字幕成人| 亚洲精品国产综合久久| 精品国产av无码| 亚洲电影影音先锋| 91国产精品视频在线| 国产乡下妇女三片| 成人激情免费网站| 一区二区精品在线观看| 99在线视频影院| 欧美少妇bbb| 欧类av怡春院| 亚洲精品国产偷自在线观看| 欧美中文字幕在线播放| a天堂在线视频| 国产午夜亚洲精品不卡| 黄色一级片黄色| 8av国产精品爽爽ⅴa在线观看| 日韩欧美一二三区| 人与嘼交av免费| 91久久黄色| 成人女保姆的销魂服务| 国产日本在线视频| 亚洲mv大片欧洲mv大片精品| 天天干天天草天天| 蜜臀久久99精品久久一区二区 | 黄色一级视频免费观看| 日本欧美在线观看| 久久久久久久久久久久久久久久av | 超碰成人免费| 久久综合久中文字幕青草| 国产三级精品三级在线观看| 大胆亚洲人体视频| 老汉色影院首页| 羞羞视频在线观看一区二区| 亚洲欧洲一区二区三区久久| 国产在线综合网| 国产一区 二区 三区一级| 日韩一区二区三区高清| www.色在线| 精品久久久三级丝袜| 成人一级黄色大片| 青青草97国产精品免费观看| 久久伊人一区二区| av成人 com a| 精品国产一区二区三区不卡| 性欧美videos| 国产一区二区三区精品视频| 一区二区三区免费看| 免费高清视频在线一区| 亚洲欧洲xxxx| 天天操天天干天天摸| 久久久久久久久伊人| 无码人妻丰满熟妇区96| 蜜臀av一区| 国产91|九色| 日韩a在线观看| 欧美日韩在线影院| 少妇大叫太粗太大爽一区二区| 夜夜嗨av一区二区三区网站四季av| av成人午夜| 成人福利影视| 日韩av一卡二卡| 日本中文字幕第一页| 91视频在线看| 国产男女激情视频| 成人av国产| 国产精品一区久久| 老司机免费在线视频| 日韩一区二区在线看片| jizz亚洲少妇| 成人视屏免费看| 女性女同性aⅴ免费观女性恋| 欧美日韩夜夜| 日韩免费在线播放| 91精彩在线视频| 亚洲二区中文字幕| 能在线观看的av| 色哟哟精品丝袜一区二区| 欧美亚洲国产视频小说| 激情小视频在线| 欧美性高清videossexo| 91香蕉视频网| 国产高清不卡一区| 欧美不卡在线播放| 精品一区亚洲| 国产精品一区二区女厕厕| av在线下载| 亚洲国产精品久久久久秋霞蜜臀 | 久久不射影院| 日韩精品视频在线免费观看| 99成人精品视频| 亚洲卡通动漫在线| 日b视频在线观看| 蜜臀a∨国产成人精品| 最近免费观看高清韩国日本大全| 成人av婷婷| 国产精品久久久久久久天堂 | 日韩国产欧美一区二区| av在线不卡一区| 成人免费直播| 欧美成人黄色小视频| 色哟哟在线观看| 91精品久久久久久久91蜜桃| 在线能看的av| 一区二区三区资源| 亚洲一区视频在线播放| 丁香亚洲综合激情啪啪综合| 午夜视频在线瓜伦| 韩国亚洲精品| youjizz.com亚洲| 自拍视频一区| 成人一区二区在线| 成人黄色在线| 91大神福利视频在线| 国产精品刘玥久久一区| 亚洲欧美日韩精品久久亚洲区| 国产欧美日韩成人| 欧美在线不卡一区| 中文字幕亚洲精品一区| 一区二区三区成人| 西西444www无码大胆| 成人亚洲一区二区一| 男生操女生视频在线观看| 久久一二三四| 国产精品久久..4399| 一二三区不卡| 一本一道久久a久久精品综合 | 久久精品欧美视频| 黄色毛片在线看| 亚洲精品久久久久久久久久久久| 国产精品无码免费播放| 欧美视频在线一区| 日日夜夜狠狠操| 第一福利永久视频精品| 妺妺窝人体色www聚色窝仙踪| 亚洲欧美在线另类| 精品人体无码一区二区三区| 久久久久久99久久久精品网站| 女性生殖扒开酷刑vk| 国产尤物一区二区在线| 天天综合天天添夜夜添狠狠添| 日韩不卡手机在线v区| 少妇性饥渴无码a区免费| 一本久道久久综合婷婷鲸鱼| 隔壁人妻偷人bd中字| 欧美日韩国产亚洲一区| 无颜之月在线看| 2023国产精品久久久精品双| 一区二区三区四区视频在线观看| 欧美日韩伦理在线免费| 日本一区免费看| 精品精品久久| 亚洲国产日韩综合一区| 成人情趣视频网站| 一区二区三区四区| 婷婷亚洲综合| 韩国黄色一级大片| 亚洲影视一区二区三区| 特级西西人体www高清大胆| 亚洲精品888| 精品久久久无码人妻字幂| 欧美三级网页| 日韩欧美一区三区| 国产精品日韩久久久| aaa毛片在线观看| 视频一区二区三区中文字幕| 妓院一钑片免看黄大片| 久久激情五月婷婷| 深夜福利网站在线观看| 成人中文字幕电影| 久久精品国产亚洲av麻豆| 国产性做久久久久久| 五月天精品在线| 亚洲精品乱码久久久久久黑人| 久久精品女人毛片国产| 精品福利樱桃av导航| 免费av中文字幕| 欧美人伦禁忌dvd放荡欲情| 国产情侣自拍小视频| 亚洲国产一区二区三区在线观看| 欧美另类自拍| 久久久av网站| 九色porny丨入口在线| 国产精品久久综合av爱欲tv| 国产精品国产亚洲精品| 国产在线精品一区| 精品久久精品| 黄色成人在线免费观看| 午夜在线播放视频欧美| 91高清国产视频| 成人爱爱电影网址| 黄大色黄女片18免费| 一区二区国产盗摄色噜噜| 欧美日韩综合在线观看| 欧美日韩亚洲不卡| 人妻视频一区二区三区| 一个色综合导航| 懂色av一区| 91精品久久久久久久久不口人| 国产精品一区二区三区美女| 色播亚洲婷婷| 亚洲日本黄色| 最新免费av网址| 26uuu另类欧美| 成年人av电影| 91黄色免费观看| 亚洲国产精品久久久久爰性色 | 精品日本一区二区| 香蕉视频官网在线观看日本一区二区| 丁香花在线影院观看在线播放| 麻豆免费看一区二区三区| 中国一级特黄录像播放| 亚洲图片激情小说| 精产国品一区二区| 亚洲国产精品电影| 18+激情视频在线| 国产精品第1页| 群体交乱之放荡娇妻一区二区| 国产一区一区三区| 日韩电影一区二区三区四区| 国产精品嫩草69影院| 亚洲欧洲另类国产综合| 青青草视频在线观看免费| 精品国产乱码久久久久久久 | 免费视频一区三区| 777av视频| 成人丝袜高跟foot| 精品99在线观看| 欧美一区二区大片| 一本一道波多野毛片中文在线| 日韩美女写真福利在线观看| 豆花视频一区二区| 成人av在线播放观看| 国产一区激情在线| 一级性生活免费视频| 精品污污网站免费看| 可以在线观看的av| 欧美伊久线香蕉线新在线| 精品自拍偷拍| 久操网在线观看| 国产69精品久久久久777| 国产免费一区二区三区四区| 精品1区2区3区| xxxxx日韩| 国产人妖伪娘一区91| 日本不卡高清| 少妇一级淫免费播放| 欧美国产日韩a欧美在线观看 | 欧美电影免费提供在线观看| 成年视频在线观看| 亚洲aⅴ日韩av电影在线观看 | 1024av视频| 2023国产一二三区日本精品2022| 日韩欧美国产亚洲| 日韩精品一二三四区| 正在播放日韩精品| 欧美一区视久久| 日韩二区三区在线观看| 在线看片中文字幕| 7878成人国产在线观看| 国产在线69| 国产精品日本一区二区| 国产精品一二| 人妻av无码一区二区三区| 91久久国产综合久久| 自拍视频在线播放| 亚洲一区国产精品| 欧美日本三区| 一级特级黄色片| 91高清在线观看| 日本中文字幕在线播放| 2020国产精品久久精品不卡| 国产综合网站| 香蕉网在线播放| 欧美三级电影在线观看| 操你啦视频在线| 黄色99视频| 秋霞av亚洲一区二区三| 久草视频手机在线| 亚洲第一精品夜夜躁人人爽| 中文字幕在线看片| 亚洲精品中字| 成人午夜精品在线| 欧美性猛交bbbbb精品| 日韩中文字幕免费| 澳门精品久久国产| 欧美一级黄色影院| 亚洲欧美日韩中文播放 | 最近2019年手机中文字幕 | 欧美国产二区| 捆绑调教美女网站视频一区| 久久在线视频精品| 亚洲欧美精品一区| 精品一区二区三区中文字幕视频| 男女视频网站在线观看| 欧美激情综合在线| 亚洲第一大网站| 国产精品久久久久久久午夜| 欧美三级不卡| 成人在线观看免费高清| 欧美va亚洲va在线观看蝴蝶网| 久九九久频精品短视频| 日本a级片在线观看| 久久久久免费观看| 不卡的日韩av| 国产美女精品视频| 国产一区91| 欧美日韩精品亚洲精品| 亚洲最新在线视频| 欧美精品中文字幕亚洲专区| 高潮一区二区三区|