給模型狂堆參數的“大力出奇跡”真的失效了嗎?劍橋說:AI的真正潛力才剛開始
在人們都認為瘋狂砸錢,拼命地把大語言模型的參數規模往上堆的Scaling Law已經到頭了的時候。一篇叫《遞減收益的錯覺:衡量LLMs中的長時程執行能力》的論文又給大家來了一劑“強心針”。

這篇報告由劍橋大學、斯圖加特大學人工智能研究所、馬克斯普朗克智能系統研究所以及圖賓根ELLIS研究所的大神們聯手發布。他們用一套極其巧妙的實驗告訴世界:所謂的“遞減收益”很可能只是一種錯覺。
研究員們發現:“單步準確度的邊際收益可以復合成模型成功完成任務長度的指數級改進?!?/span>

意思就是,你別看模型每次升級,在單個小問題上的準確率就提升那么一丟丟,好像進步慢下來了。但就是這微不足道的“一丟丟”,在處理需要成百上千個步驟的超長任務時,會像滾雪球一樣,最終帶來指數級的爆炸性提升。
你想想,AI的真正價值是啥?不就是能干活,能干又長又復雜的活嘛。自動駕駛汽車得能跑長途,不能只在停車場里轉悠吧?AI助手得能幫你搞定一個完整的項目,而不是只能解決簡單任務吧?這種長時間、多步驟連續作戰的能力,就是“長時程執行能力”,它一直是深度學習這個領域難啃的骨頭,也就是最要命的短板。
我們到底該怎么衡量一個模型到底能連續、可靠地執行多少步操作呢?這篇研究,就是來回答這個靈魂拷問的。
一個簡單到極致的實驗,卻扒了所有模型的秘密
要搞明白AI為啥在長任務上容易“掉鏈子”,首先得把問題簡化。研究團隊設計了一個堪稱“天才”的實驗,這個實驗的核心思想就是“控制變量”,把影響模型表現的幾個大因素——推理能力、知識儲備、規劃能力——全都給按住,只留下最純粹的“執行能力”來考察。
想象你是老板,要測試一個員工執行力。你不會給他一個開放性問題讓他自由發揮,而是把任務清單、所有需要的資料、甚至每一步該怎么做都寫得清清楚楚,然后跟他說:“來,照著這個做,一字不差地執行就行。”如果這樣他還能搞砸,那就不是他聰不聰明的問題,而是他能不能專注、穩定地把一件簡單的事情重復做好的問題。
研究團隊設計的這個任務叫做“鍵值字典添加任務”。

首先,給模型一個“字典”,里面是一堆常見的五個字母的英文單詞(比如“apple”、“water”),每個單詞對應一個隨機的整數(比如-99到99之間)。這個字典就是模型完成任務所需的所有“知識”,直接擺在它面前,不用它去記憶和回憶。
然后,設定一個初始數字,比如0。
接下來,一輪一輪地給模型下指令。每一輪的指令就是幾個單詞,比如第一輪給“apple”、“grape”。這個指令就是“計劃”,也直接告訴模型了,不用它自己想。
模型需要干兩件事:第一,去字典里查這兩個單詞對應的數字是多少,這叫“檢索”。第二,把查到的數字加起來,再加到之前的總數上,更新結果,這叫“組合”。比如“apple”是10,“grape”是5,上一輪的總數是0,那這一輪結束,模型就應該算出15。下一輪再給新單詞,就在15的基礎上繼續累加。
這個任務簡單到小學生都會。它不需要復雜的推理,不需要廣博的知識,甚至連計劃都不用自己做。研究團隊之所以這么設計,就是為了把所有可能的干擾項都排除掉,就看模型在連續不斷的“查找-相加”這種機械操作中,能堅持多久不出錯。
為了衡量模型的表現,他們定義了幾個關鍵指標,就是從不同角度給模型打分。比如“步驟準確度”,就是看每一步加法算對了沒;“輪次準確度”,就是看每一輪的總數更新對了沒;“任務準確度”,就是從頭到尾一次錯都沒犯的概率;還有一個最重要的指標叫“地平線長度”(Horizon Length,簡稱Hs),這個名字很酷,意思是,在保證成功率不低于某個值(比如50%)的前提下,這個模型最多能連續執行多少步。地平線長度越長,說明模型越“持久”,越靠譜。
實驗團隊找來了市面上好幾個系列的“當紅炸子雞”模型,比如GPT-5、Claude-4 Sonnet、Grok 4、Gemini 2.5 Pro、Kimi K2、Qwen3-Instruct-235B-2507和DeepSeek R1等。
AI的“自我PUA”和“王者思維”
當實驗數據徐徐展開。科學家們發現了幾個讓人拍案叫絕,又細思極恐的現象。
單步準確率上的一點點進步,到了長任務里就變成了指數級的巨大優勢。研究團隊甚至給出了一個數學公式來解釋:

這就好比投資里的復利,每天多賺一點點,時間一長,財富就會爆炸式增長。這完美解釋了為什么大家感覺模型進步慢了,但實際上它們能處理的任務越來越復雜。所謂的“遞減收益”,不過是因為我們只盯著單步任務這個“活期利息”,而忽略了長時程任務這個“超級復利”罷了。

實驗里,除了兩個最小的模型,其他所有模型在第一步操作時,準確率都是100%。這說明,它們絕對理解任務,也具備完成任務的能力。但是,隨著輪次的增加,哪怕是最牛的模型,在連續執行了15輪這種簡單任務后,準確率也掉到了50%以下。

在知識和推理都被“鎖死”的情況下,模型規模越大的,長時程執行能力就越強,堅持的時間就越長。研究者猜測,可能是大模型內部的神經回路更復雜,有更多的“冗余備份”,不容易因為一個小地方出錯就全盤崩潰。
這次研究最重磅的發現,是一個足以改變AI訓練范式的現象:“自我條件效應”(self-conditioning effect)。這是什么意思呢?研究團隊發現,當模型在執行任務的過程中犯了一個錯,這個錯誤的輸出會成為它下一步行動的“上下文”或“歷史記錄”。然后,怪事發生了:模型看到自己之前犯過錯,它接下來就更容易犯錯。一次失誤,會導致接二連三的失誤,形成惡性循環。

這簡直就像一種“自我PUA(精神打壓)”。模型在潛意識里告訴自己:“哦,看來我就是個會犯錯的模型”,于是就心安理得地繼續犯錯。我們通常是“吃一塹,長一智”,在錯誤中學習和進步。而AI呢,卻是在錯誤中“學習”如何繼續犯錯。研究團隊做了一個絕妙的實驗來驗證這一點:他們人為地在模型的歷史記錄里“投毒”,注入一些錯誤的答案。結果發現,注入的錯誤率越高,模型在后續任務中的表現就越差。
研究人員還發現,擴大模型規模,并不能解決這個“自我PUA”的問題。雖然更大的模型在處理長上下文時表現更好,但它們同樣會受到自我條件效應的困擾。就算是參數量超過2000億的Kimi-K2和Qwen3-235B這種巨無霸模型,一旦歷史記錄里有了錯誤,它們的性能照樣會持續下滑。說明,“自我PUA”是可能一種根植于當前AI訓練范式深處的“心病”,光靠“吃胖”是治不好的。
就在大家覺得這問題無解的時候,轉機出現了。最新的“思考模型”(thinking models)可以完美修復“自我PUA”。這些模型,比如用了強化學習的,它們在輸出最終答案之前,會先在內部生成一個“思考過程”或者說“草稿”。研究團隊發現,這些模型完全不受歷史錯誤的影響。不管你在它們的歷史記錄里注入多少錯誤,它們在當前這一步的表現都穩如泰山。

為什么呢?研究者推測有兩個原因。第一,強化學習的訓練目標是“任務成功”,而不是像傳統模型那樣,僅僅是“預測最可能的下一個詞”。所以它有更強的目標感,不會輕易被歷史帶偏。第二,也是更關鍵的,它們在思考新一輪任務時,似乎能做到“翻篇”,把上一輪的思考過程和結果(無論是對是錯)隔離開,每一次都像一次全新的獨立計算。這就從根本上切斷了錯誤傳播的鏈條。
整篇論文最高能的部分,是思考模型不僅能修復“自我PUA”,它們在一次交互中能夠執行的任務長度,簡直是碾壓式的存在。研究團隊搞了個“單輪極限挑戰賽”,看各個模型在不出“思維鏈”(chain of thought)的情況下,一次性最多能處理多少個鍵值對的累加。
結果讓人目瞪口呆。那些非思考模型,哪怕是像DeepSeek-V3和Kimi K2這樣的萬億巨獸,表現都不佳。而思考模型這邊,則完全是另一個次元的景象。

GPT-5可以一口氣執行超過1000步!而排在第二名的Claude-4-Sonnet是432步。
游戲規則,該改改了?
但這篇研究告訴我們,在各種各樣的基準測試集上刷榜,看誰的單步任務準確率更高,這種方式可能不全面。研究者指出:“如果AI代理的經濟價值也來自于它能夠完成的任務長度,那么單輪或短期任務基準可能是評估進一步投資大型語言模型計算收益的虛幻參考?!币簿褪切碌?、專注于長任務執行的基準測試,將會變得越來越重要。
這對投資決策來說,可能意味著“繼續燒錢,而且要燒得更理直氣壯”。
對于那些致力于開發AI代理(Agent)的公司來說,這篇研究清楚地指出了通往成功的幾條路:第一,必須想辦法克服“自我條件效應”。第二,大力擁抱“思考模型”的技術路線,讓AI學會“三思而后行”。第三,模型規模依然重要,它是長時程執行能力的基礎保障。第四,要研究更聰明的上下文管理方法,別讓過去的錯誤成為未來的包袱。
研究結果表明,像強化學習這種更注重“任務成功”的訓練范式,可能是解鎖長時程能力的關鍵。未來的訓練,可能需要加入更多的長時程任務,甚至專門訓練模型的“思考軌跡”生成能力和“自我糾錯”能力,而不是簡單地模仿和預測。
但也有業內人士表示,這項研究并不嚴謹。你怎么看?






















