為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析
?核心觀點
當前輿論場中彌漫的“AI泡沫論”與“瓶頸論”,本質(zhì)上是線性思維與指數(shù)級技術(shù)演進之間的認知錯覺。這正如疫情初期的誤判:人們往往因當下的微小瑕疵(模型出錯、幻覺)而無視了底層能力的指數(shù)級爬升。
基于兩份最新的權(quán)威評估報告,我們必須重新校準對AI進程的預(yù)期。核心結(jié)論非常直接:Scaling Law并未失效,AI正在以驚人的速度突破工業(yè)界應(yīng)用的臨界點。
一、雙重證據(jù)驗證:從“代碼深度”到“行業(yè)廣度”
評估AI進步不能僅靠感性的聊天體驗,需要引入量化指標。兩份不同維度的報告均指向了同一個指數(shù)增長趨勢。
1. 深度驗證:METR報告(軟件工程領(lǐng)域的長程自主性)
METR專注于衡量AI完成長周期任務(wù)的能力。
- 核心指標:模型自主完成軟件工程任務(wù)的持續(xù)時長。
- 數(shù)據(jù)趨勢:清晰的指數(shù)增長。此前Sonnet 3.7已能以50%成功率完成1小時時長的任務(wù)。
- 最新驗證:包括 Grok 4、Opus 4.1、GPT-5 在內(nèi)的新一代模型,不僅驗證了此前的預(yù)測曲線,甚至略微超出了趨勢線,目前已具備自主完成超過2小時復(fù)雜任務(wù)的能力。
2. 廣度驗證:OpenAI GDPval評估(全行業(yè)經(jīng)濟價值)
為了排除“過擬合”嫌疑,GDPval將測試范圍擴大至經(jīng)濟層面。
- 樣本規(guī)模:覆蓋9大行業(yè)、44種職業(yè),由資深專家(平均14年經(jīng)驗)設(shè)計的1320個盲測任務(wù)。
- 核心發(fā)現(xiàn):
- 最新模型(如GPT-5)已極其逼近人類專家水平。
- 競品優(yōu)勢:OpenAI誠實地披露了競爭對手 Claude Opus 4.1 的表現(xiàn),指出其已超越趨勢線,幾乎達到了行業(yè)專家水準。這既證明了趨勢的普適性,也體現(xiàn)了良性競爭的格局。
二、激進但可信的未來推演(2026-2027)
基于上述指數(shù)曲線的保守外推,未來兩年的時間表比大多數(shù)所謂“專家”的預(yù)測更為緊迫。我們即將迎來AI融入實體經(jīng)濟的關(guān)鍵奇點:
- 2026年中期(時長突破):模型將具備自主完成整整一個工作日(8小時)任務(wù)的能力。這意味著AI不再是輔助工具,而是獨立的數(shù)字勞動力。
- 2026年底(能力突破):至少有一款模型將在廣泛的行業(yè)中,正式達到人類專家水平。
- 2027年底(全面超越):AI將在許多任務(wù)上頻繁超越行業(yè)資深專家。
三、專家的冷思考:警惕“古德哈特定律”
雖然總體趨勢樂觀,但報告也提出了一個關(guān)鍵警示:并非所有高分模型都具備實戰(zhàn)價值。
部分模型(如提及的 Grok 4 和 Gemini 2.5 Pro)雖然在公開的基準測試中分數(shù)亮眼,但在上述深度的能力評估中表現(xiàn)明顯滯后。這驗證了古德哈特定律(Goodhart's law):當某個指標成為目標時,它就不再是一個好的指標。
為何AI“瓶頸論”是一場認知錯覺——基于METR與GDPval的趨勢分析
當前圍繞AI進步以及所謂“泡沫”的討論,讓我聯(lián)想起Covid-19疫情暴發(fā)初期的那幾個星期。彼時,盡管基于指數(shù)趨勢的外推,全球疫情爆發(fā)的時機與規(guī)模早已昭然若揭,但政界人士、新聞記者及大多數(shù)公共評論者仍將其視為遙不可及的可能性或局限于特定區(qū)域的現(xiàn)象。
類似這種令人費解的情形,如今正在AI的能力演進和進一步突破上重演。大家關(guān)注到AI現(xiàn)在已能編寫程序、設(shè)計網(wǎng)站等,但因為其過程中常有出錯或方向偏差,便武斷地推論出:AI永遠無法達到人類水平,或者只會帶來微不足道的影響。然而,就在短短幾年前,讓AI完成這些任務(wù)還完全是科幻范疇!或者,他們僅憑連續(xù)體驗兩個模型版本,在對話中未察覺到顯著差異,就斷言AI正在觸及性能上限,認為擴展(Scaling)的效用已然終結(jié)。
METR
準確評估AI的進步難度極高,通常需要同時具備AI專業(yè)知識和對特定應(yīng)用領(lǐng)域的深入理解。幸運的是,有一些機構(gòu)專注于AI能力衡量,例如METR。我們可以參考他們近期發(fā)布的研究報告《Measuring AI Ability to Complete Long Tasks》(衡量AI完成長周期任務(wù)的能力),該研究量化了模型自主完成軟件工程任務(wù)所能持續(xù)的時長:

我們能夠觀察到清晰的指數(shù)增長趨勢,其中Sonnet 3.7表現(xiàn)最為出色,能以50%的成功率完成最長達1小時的任務(wù)。
然而截至目前,Sonnet 3.7已經(jīng)發(fā)布了7個月,這與METR研究中聲稱的倍增周期恰好一致。我們能否以此來驗證METR的結(jié)論是否仍然成立呢?
答案是肯定的!事實上,METR在其研究網(wǎng)站上持續(xù)維護著一張實時更新的圖:

我們看到最新模型,如Grok 4、Opus 4.1和GPT-5等已被添加進來,位于圖的右上角區(qū)域。這不僅證明了此前的預(yù)測完全成立,這些新模型的實際表現(xiàn)甚至略微超越了原有趨勢,目前已能自主完成超過2小時的任務(wù)!
GDPval
有人可能會提出合理的質(zhì)疑:不能僅憑軟件工程任務(wù)的表現(xiàn)就將其外推至整個經(jīng)濟層面,畢竟這類任務(wù)是AI實驗室工程師最熟悉的,可能在某種程度上存在對測試集的“過擬合”現(xiàn)象。
值得慶幸的是,還有另一項完全不同的研究——OpenAI最近發(fā)布的GDPval,該評估覆蓋了9個行業(yè)共計44個職業(yè):

評估任務(wù)由平均擁有14年從業(yè)經(jīng)驗的行業(yè)資深專家提供,每個職業(yè)包含30個任務(wù),總計1320個任務(wù)。評分采用盲測方式,直接對比人類與模型提供的解決方案,支持給出明確的偏好判斷或判定為平局。
這項評估同樣揭示了相似的指數(shù)趨勢,最新的GPT-5已極其接近人類專家的表現(xiàn)水平:

你可能會認為這張圖看起來似乎開始趨于平穩(wěn),但這很可能主要是因為GPT-5的產(chǎn)品定位更偏向消費級。好在OpenAI還納入了其他模型進行對比[1],我們看到更早發(fā)布的Claude Opus 4.1表現(xiàn)出顯著的優(yōu)勢,已領(lǐng)先于此前的趨勢,幾乎達到了行業(yè)專家的水平!

在此特別值得贊揚OpenAI,他們發(fā)布了一項顯示競爭對手模型大幅領(lǐng)先于自家模型的評估結(jié)果,這體現(xiàn)了難能可貴的誠信,以及對實現(xiàn)有益AI結(jié)局的真正關(guān)注!
展望
在歷經(jīng)多年、跨越多個行業(yè)持續(xù)展現(xiàn)出指數(shù)級性能提升的大背景下,如果這些進步會突然停止,那將是極其反常的現(xiàn)象。相反,即便我們采取相對保守的外推方式,這些趨勢也表明2026年將成為AI大規(guī)模融入經(jīng)濟的關(guān)鍵年份:
- 到2026年中期,模型將能夠自主完成整整一個工作日(8小時工作日)的任務(wù)。
- 2026年底之前,至少將有一款模型在眾多行業(yè)中達到人類專家水平。
- 到2027年底,模型將在許多任務(wù)上頻繁超越行業(yè)專家。
這聽起來或許過于簡單化,但事實證明,沿著圖上的直線進行外推,往往比大多數(shù)“專家”——甚至比多數(shù)真實領(lǐng)域的專家——所能給出的未來圖景更為準確!
另外值得注意的是,Grok 4和Gemini 2.5 Pro在這些評估中的表現(xiàn)明顯落后,盡管它們在發(fā)布時曾在眾多基準測試中宣稱達到了當時的最佳水平。這再次提醒我們,必須警惕古德哈特定律(Goodhart's law)的潛在影響!
參考資料:Schrittwieser, Julian. 2025. “Failing to Understand the Exponential, Again.” Julian Schrittwieser Blog, September 27, 2025. https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/.
本文轉(zhuǎn)載自?????Andy730?????,作者:常華

















