精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析

發(fā)布于 2025-11-21 00:28
瀏覽
0收藏

?核心觀點

當前輿論場中彌漫的“AI泡沫論”與“瓶頸論”,本質(zhì)上是線性思維與指數(shù)級技術(shù)演進之間的認知錯覺。這正如疫情初期的誤判:人們往往因當下的微小瑕疵(模型出錯、幻覺)而無視了底層能力的指數(shù)級爬升。

基于兩份最新的權(quán)威評估報告,我們必須重新校準對AI進程的預(yù)期。核心結(jié)論非常直接:Scaling Law并未失效,AI正在以驚人的速度突破工業(yè)界應(yīng)用的臨界點。

一、雙重證據(jù)驗證:從“代碼深度”到“行業(yè)廣度”

評估AI進步不能僅靠感性的聊天體驗,需要引入量化指標。兩份不同維度的報告均指向了同一個指數(shù)增長趨勢。

1. 深度驗證:METR報告(軟件工程領(lǐng)域的長程自主性)

METR專注于衡量AI完成長周期任務(wù)的能力。

  • 核心指標:模型自主完成軟件工程任務(wù)的持續(xù)時長。
  • 數(shù)據(jù)趨勢:清晰的指數(shù)增長。此前Sonnet 3.7已能以50%成功率完成1小時時長的任務(wù)。
  • 最新驗證:包括 Grok 4、Opus 4.1、GPT-5 在內(nèi)的新一代模型,不僅驗證了此前的預(yù)測曲線,甚至略微超出了趨勢線,目前已具備自主完成超過2小時復(fù)雜任務(wù)的能力。

2. 廣度驗證:OpenAI GDPval評估(全行業(yè)經(jīng)濟價值)

為了排除“過擬合”嫌疑,GDPval將測試范圍擴大至經(jīng)濟層面。

  • 樣本規(guī)模:覆蓋9大行業(yè)、44種職業(yè),由資深專家(平均14年經(jīng)驗)設(shè)計的1320個盲測任務(wù)。
  • 核心發(fā)現(xiàn):
  • 最新模型(如GPT-5)已極其逼近人類專家水平。
  • 競品優(yōu)勢:OpenAI誠實地披露了競爭對手 Claude Opus 4.1 的表現(xiàn),指出其已超越趨勢線,幾乎達到了行業(yè)專家水準。這既證明了趨勢的普適性,也體現(xiàn)了良性競爭的格局。

二、激進但可信的未來推演(2026-2027)

基于上述指數(shù)曲線的保守外推,未來兩年的時間表比大多數(shù)所謂“專家”的預(yù)測更為緊迫。我們即將迎來AI融入實體經(jīng)濟的關(guān)鍵奇點:

  • 2026年中期(時長突破):模型將具備自主完成整整一個工作日(8小時)任務(wù)的能力。這意味著AI不再是輔助工具,而是獨立的數(shù)字勞動力。
  • 2026年底(能力突破):至少有一款模型將在廣泛的行業(yè)中,正式達到人類專家水平。
  • 2027年底(全面超越):AI將在許多任務(wù)上頻繁超越行業(yè)資深專家。

三、專家的冷思考:警惕“古德哈特定律”

雖然總體趨勢樂觀,但報告也提出了一個關(guān)鍵警示:并非所有高分模型都具備實戰(zhàn)價值。

部分模型(如提及的 Grok 4 和 Gemini 2.5 Pro)雖然在公開的基準測試中分數(shù)亮眼,但在上述深度的能力評估中表現(xiàn)明顯滯后。這驗證了古德哈特定律(Goodhart's law):當某個指標成為目標時,它就不再是一個好的指標。

為何AI“瓶頸論”是一場認知錯覺——基于METR與GDPval的趨勢分析

當前圍繞AI進步以及所謂“泡沫”的討論,讓我聯(lián)想起Covid-19疫情暴發(fā)初期的那幾個星期。彼時,盡管基于指數(shù)趨勢的外推,全球疫情爆發(fā)的時機與規(guī)模早已昭然若揭,但政界人士、新聞記者及大多數(shù)公共評論者仍將其視為遙不可及的可能性或局限于特定區(qū)域的現(xiàn)象。

類似這種令人費解的情形,如今正在AI的能力演進和進一步突破上重演。大家關(guān)注到AI現(xiàn)在已能編寫程序、設(shè)計網(wǎng)站等,但因為其過程中常有出錯或方向偏差,便武斷地推論出:AI永遠無法達到人類水平,或者只會帶來微不足道的影響。然而,就在短短幾年前,讓AI完成這些任務(wù)還完全是科幻范疇!或者,他們僅憑連續(xù)體驗兩個模型版本,在對話中未察覺到顯著差異,就斷言AI正在觸及性能上限,認為擴展(Scaling)的效用已然終結(jié)。

METR

準確評估AI的進步難度極高,通常需要同時具備AI專業(yè)知識和對特定應(yīng)用領(lǐng)域的深入理解。幸運的是,有一些機構(gòu)專注于AI能力衡量,例如METR。我們可以參考他們近期發(fā)布的研究報告《Measuring AI Ability to Complete Long Tasks》(衡量AI完成長周期任務(wù)的能力),該研究量化了模型自主完成軟件工程任務(wù)所能持續(xù)的時長:

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

我們能夠觀察到清晰的指數(shù)增長趨勢,其中Sonnet 3.7表現(xiàn)最為出色,能以50%的成功率完成最長達1小時的任務(wù)。

然而截至目前,Sonnet 3.7已經(jīng)發(fā)布了7個月,這與METR研究中聲稱的倍增周期恰好一致。我們能否以此來驗證METR的結(jié)論是否仍然成立呢?

答案是肯定的!事實上,METR在其研究網(wǎng)站上持續(xù)維護著一張實時更新的圖:

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

我們看到最新模型,如Grok 4、Opus 4.1和GPT-5等已被添加進來,位于圖的右上角區(qū)域。這不僅證明了此前的預(yù)測完全成立,這些新模型的實際表現(xiàn)甚至略微超越了原有趨勢,目前已能自主完成超過2小時的任務(wù)!

GDPval

有人可能會提出合理的質(zhì)疑:不能僅憑軟件工程任務(wù)的表現(xiàn)就將其外推至整個經(jīng)濟層面,畢竟這類任務(wù)是AI實驗室工程師最熟悉的,可能在某種程度上存在對測試集的“過擬合”現(xiàn)象。

值得慶幸的是,還有另一項完全不同的研究——OpenAI最近發(fā)布的GDPval,該評估覆蓋了9個行業(yè)共計44個職業(yè):

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

評估任務(wù)由平均擁有14年從業(yè)經(jīng)驗的行業(yè)資深專家提供,每個職業(yè)包含30個任務(wù),總計1320個任務(wù)。評分采用盲測方式,直接對比人類與模型提供的解決方案,支持給出明確的偏好判斷或判定為平局。

這項評估同樣揭示了相似的指數(shù)趨勢,最新的GPT-5已極其接近人類專家的表現(xiàn)水平:

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

你可能會認為這張圖看起來似乎開始趨于平穩(wěn),但這很可能主要是因為GPT-5的產(chǎn)品定位更偏向消費級。好在OpenAI還納入了其他模型進行對比[1],我們看到更早發(fā)布的Claude Opus 4.1表現(xiàn)出顯著的優(yōu)勢,已領(lǐng)先于此前的趨勢,幾乎達到了行業(yè)專家的水平!

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

在此特別值得贊揚OpenAI,他們發(fā)布了一項顯示競爭對手模型大幅領(lǐng)先于自家模型的評估結(jié)果,這體現(xiàn)了難能可貴的誠信,以及對實現(xiàn)有益AI結(jié)局的真正關(guān)注!

展望

在歷經(jīng)多年、跨越多個行業(yè)持續(xù)展現(xiàn)出指數(shù)級性能提升的大背景下,如果這些進步會突然停止,那將是極其反常的現(xiàn)象。相反,即便我們采取相對保守的外推方式,這些趨勢也表明2026年將成為AI大規(guī)模融入經(jīng)濟的關(guān)鍵年份:

  • 到2026年中期,模型將能夠自主完成整整一個工作日(8小時工作日)的任務(wù)。
  • 2026年底之前,至少將有一款模型在眾多行業(yè)中達到人類專家水平。
  • 到2027年底,模型將在許多任務(wù)上頻繁超越行業(yè)專家。

這聽起來或許過于簡單化,但事實證明,沿著圖上的直線進行外推,往往比大多數(shù)“專家”——甚至比多數(shù)真實領(lǐng)域的專家——所能給出的未來圖景更為準確!

另外值得注意的是,Grok 4和Gemini 2.5 Pro在這些評估中的表現(xiàn)明顯落后,盡管它們在發(fā)布時曾在眾多基準測試中宣稱達到了當時的最佳水平。這再次提醒我們,必須警惕古德哈特定律(Goodhart's law)的潛在影響!

參考資料:Schrittwieser, Julian. 2025. “Failing to Understand the Exponential, Again.” Julian Schrittwieser Blog, September 27, 2025. https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/.

本文轉(zhuǎn)載自?????Andy730?????,作者:常華

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
caoprom在线| 亚洲精品国产手机| 欧美va久久久噜噜噜久久| 777色狠狠一区二区三区| 人人妻人人澡人人爽欧美一区| 后进极品白嫩翘臀在线视频| 日韩va亚洲va欧美va久久| 久久精品人人爽| 中日韩精品一区二区三区| 日韩亚洲国产免费| 欧美日韩亚洲天堂| 7777在线视频| 九一国产在线| 顶级嫩模精品视频在线看| 国产精品久久久久久av下载红粉| 黄色片在线观看网站| 天天躁日日躁狠狠躁欧美| 欧美精品乱码久久久久久按摩| 免费看国产一级片| 日本精品在线| 久久网站最新地址| 成人性色av| 91一区二区视频| 亚洲美女炮图| 亚洲欧美激情小说另类| 美女被啪啪一区二区| 性少妇videosexfreexxx片| 日韩—二三区免费观看av| 国内外成人免费激情在线视频网站| 天堂资源在线视频| 中文字幕伦av一区二区邻居| 精品国产乱子伦一区| 中文字幕66页| 69堂免费精品视频在线播放| 第一福利永久视频精品| 久久人人爽人人爽人人av| 在线观看免费版| 国产亚洲成av人在线观看导航| 国产福利久久精品| www.色播.com| 国产一区二区在线影院| 国产在线观看精品| 中文字幕第三页| 丝袜诱惑亚洲看片| 26uuu日韩精品一区二区| 精品97人妻无码中文永久在线| 97精品国产| www.亚洲一区| 中文字幕美女视频| 色琪琪久久se色| 深夜精品寂寞黄网站在线观看| 在线视频第一页| 欧美在线观看视频一区| 亚洲色图在线观看| 99久久久无码国产精品衣服| 国产一区不卡| 在线成人中文字幕| 性少妇xx生活| 99视频精品视频高清免费| 日韩一区二区av| 美女福利视频在线观看| 你懂的网址国产 欧美| 欧美成年人在线观看| 波多野结衣爱爱视频| 欧美国产先锋| 久久久中精品2020中文| 日韩欧美激情视频| 亚洲欧美日韩国产一区二区| 日韩av电影手机在线| 欧美特黄aaaaaa| 日韩精彩视频在线观看| 成人福利在线视频| 亚洲va久久久噜噜噜无码久久| 国产99久久久久久免费看农村| 国产精品12| 欧美精品久久久久久久久久丰满| 久久久精品tv| 日韩人妻精品一区二区三区| 免费污视频在线| 欧美日韩国产专区| www.99在线| 国产一区二区| 精品调教chinesegay| 蜜桃久久精品成人无码av| 欧美xxav| 91国产一区在线| 最近中文字幕在线视频| 国产老肥熟一区二区三区| 国产精品免费视频一区二区| 欧美日韩国产综合视频| 国产精品理伦片| 草b视频在线观看| 日本欧美不卡| 日韩你懂的在线观看| 亚洲天堂久久新| 亚洲精品第一| 精品91自产拍在线观看一区| 精品人妻无码一区二区三区 | 欧美一区二区三区精美影视 | 激情五月俺来也| 99精品中文字幕在线不卡| 亚洲欧美三级在线| 成年人av电影| 日产国产高清一区二区三区| 国产高清一区视频| 日本www在线观看视频| 亚洲成人资源网| 天天干天天玩天天操| 日本成人a网站| 久久成人一区二区| 日本精品入口免费视频| 成人视屏免费看| 伊人久久大香线蕉午夜av| 久草免费在线视频| 日韩欧美123| 女人黄色一级片| 99在线精品视频在线观看| 成人在线小视频| 酒色婷婷桃色成人免费av网| 亚洲国产视频网站| 少妇性l交大片7724com| 成人在线免费观看网站| 97国产精品人人爽人人做| 99热这里只有精品3| 亚洲国产成人午夜在线一区| 黄www在线观看| 黑色丝袜福利片av久久| 美女福利精品视频| 国产精品一区二区av白丝下载 | 不卡av在线免费观看| 浴室偷拍美女洗澡456在线| 国产麻豆久久| 亚洲欧美日韩国产成人| 日韩久久中文字幕| 9久草视频在线视频精品| 成人在线视频一区二区三区| 国产日韩中文在线中文字幕| www.日韩免费| 91极品身材尤物theporn| 亚洲国产精品激情在线观看| 人妻无码视频一区二区三区| 思热99re视热频这里只精品| 国语自产精品视频在线看抢先版图片| 久久久久久亚洲| 国产美女三级视频| 一区二区三区四区视频免费观看| 中日韩美女免费视频网址在线观看| 日韩少妇裸体做爰视频| 国产精品99久久久久久似苏梦涵| 亚洲乱码一区二区三区| 高清av一区| 中文字幕精品久久久久| 亚洲视频一区在线播放| 国产精品久久久久久久蜜臀 | 国产视频一区免费看| 国产女主播一区二区| av在线视屏| 日韩电影中文字幕一区| 最新中文字幕一区| 2020国产成人综合网| 日韩中文字幕二区| av中字幕久久| 成人a在线观看| 污片视频在线免费观看| 亚洲激情国产精品| 中文字幕在线看人| 国产欧美日韩三级| 亚洲精品国产久| 欧美三级特黄| 精品午夜一区二区| 樱桃视频成人在线观看| 亚洲最新av网址| 国产伦精品一区二区三区免.费| 日韩美女视频一区| 免费在线观看日韩av| 国产日韩一区| 亚洲精品在线视频观看| 日韩av综合| 奇米4444一区二区三区| av国产在线观看| 日韩精品一区二区三区视频在线观看 | 国产一区二区在线播放视频| 一区二区三区小说| 一本久道久久综合狠狠爱亚洲精品| 天天色天天射天天综合网| 欧美大胆一级视频| 久久久黄色大片| 国产精品久久久久影院老司| www.com日本| 免费在线看一区| 17c丨国产丨精品视频| 久久av影视| 亚洲va欧美va国产综合剧情| 国产经典三级在线| 中文字幕精品久久久久| 高清一区二区三区四区| 欧美私人免费视频| 国产精品二区一区二区aⅴ| 久久精品一区二区三区四区| 亚洲一区二区三区四区精品| 国产日韩一区二区三区在线| 99亚洲精品视频| 伊人久久大香线蕉无限次| 成人国产精品av| 另类图片综合电影| 欧美福利视频在线| 成人在线观看网站| 色婷婷久久一区二区三区麻豆| 亚洲色图欧美色| 99精品视频免费在线观看| 久久久久xxxx| 久久国产精品久久w女人spa| 欧美一区二区视频在线播放| 成人精品视频| 久久综合给合久久狠狠色| 精品国产不卡一区二区| 国产精品久久久亚洲| 神马久久午夜| 久久久久久国产免费| 老司机精品影院| 亚洲性线免费观看视频成熟| 男人的天堂a在线| 欧美一级一区二区| 在线免费av片| 在线观看av一区二区| 欧美videossex极品| 亚洲午夜在线观看视频在线| 三级在线观看免费大全| 欧美激情综合五月色丁香小说| 好吊日免费视频| av激情亚洲男人天堂| 亚洲av综合色区无码另类小说| 久久精品999| 国产视频手机在线播放| 日韩国产精品91| 99爱视频在线| 国产精品毛片在线| av7777777| 国产精品嫩草99av在线| 浮妇高潮喷白浆视频| 韩日视频一区| 99久久免费观看| 亚洲激情自拍| 成年人网站免费视频| 亚洲精品女人| 美女日批免费视频| 国产欧美日韩亚洲一区二区三区| 成人免费性视频| 亚洲经典自拍| 欧美丰满熟妇bbbbbb百度| 中日韩视频在线观看| 男人的天堂狠狠干| 亚洲综合国产| av动漫在线观看| 日韩精品视频网| 三上悠亚在线一区二区| 久久99精品久久久久婷婷| 亚洲三级在线观看视频| 国产乱色国产精品免费视频| 天堂网成人在线| 成人av在线一区二区三区| 男人网站在线观看| 91麻豆精品一区二区三区| 巨胸大乳www视频免费观看| 国产亚洲自拍一区| 色哟哟一一国产精品| 一区二区三区四区中文字幕| 日韩网红少妇无码视频香港| 欧美日韩国产丝袜另类| 国产91精品看黄网站在线观看| 91福利视频久久久久| 在线观看免费观看在线| 欧美一区二区国产| 亚洲av无码乱码国产麻豆| 日韩精品一二三四区| 国产三区四区在线观看| 久久精品亚洲94久久精品| 懂色av一区| 国产成人在线播放| 欧美一区在线观看视频| 免费成人av网站| 色88久久久久高潮综合影院| 久久久久久久香蕉| 日韩中文字幕av电影| 污污视频在线免费| 久久新电视剧免费观看| 日韩亚洲欧美中文字幕| 亚洲国产美女搞黄色| 国产在线观看第一页| 欧美一区二区三区免费| 日本在线视频1区| 精品国产一区二区三区在线观看 | 在线精品视频播放| 国产欧美一区二区在线| 久久久久久久久久久久久久久久久 | 亚洲精品久久视频| 秋霞a级毛片在线看| 97国产在线观看| 欧美大片网站| 蜜桃久久精品乱码一区二区 | 久久久中文字幕| 国产成人免费| 精品无码久久久久国产| 羞羞答答成人影院www| 日韩av在线综合| 国产黑丝在线一区二区三区| av永久免费观看| 亚洲成人免费视| 91中文字幕在线播放| 精品小视频在线| 午夜伦理在线视频| 国产精品午夜一区二区欲梦| 欧美大胆视频| 中文字幕日韩精品无码内射| 麻豆国产欧美一区二区三区| 欲求不满的岳中文字幕| 亚洲综合丁香婷婷六月香| 中文字幕在线观看国产| 亚洲免费av电影| xxx性欧美| 97se亚洲综合在线| 天天天综合网| 色综合天天色综合| 久久亚洲综合色一区二区三区| 久久久久久久久久久97| 日韩一区二区不卡| 欧美激情免费| 国产精品一区二区女厕厕| 国产伦一区二区三区| 久久国产成人精品国产成人亚洲| 国产成人自拍网| 国产少妇在线观看| 欧美精品丝袜久久久中文字幕| 国产日本在线视频| 国产成人精品av| 欧美欧美黄在线二区| 国产成人无码一二三区视频| 99久久精品免费看| 日韩三级视频在线| 亚洲精品国产综合久久| а√天堂8资源中文在线| 国产精品日韩一区二区 | 亚洲国产岛国毛片在线| 日本熟妇一区二区三区| 亚洲性xxxx| 精品欧美一区二区三区在线观看| 蜜桃成人在线| 日韩二区三区在线观看| 国产又粗又猛又爽又黄的视频小说| 精品视频一区三区九区| 日本天堂在线观看| 91精品一区二区| 亚洲情侣在线| 欧美丰满熟妇bbb久久久| 亚洲国产视频一区| 天堂在线中文字幕| 日韩av手机在线看| 日韩欧美视频在线播放| 五月花丁香婷婷| 一区二区在线观看不卡| 午夜精品小视频| 午夜精品三级视频福利| 欧美热在线视频精品999| 亚洲老女人av| 亚洲精品国产成人久久av盗摄 | 欧美成人精品一区| 51社区在线成人免费视频| 欧美一级视频免费看| 国产亚洲欧洲一区高清在线观看| 男操女视频网站| 久久亚洲精品一区二区| 国产调教精品| 无遮挡又爽又刺激的视频| 一区在线观看免费| 韩国av免费在线| 国产97在线|日韩| 天天色天天射综合网| xxxwww国产| 欧美午夜在线观看| 天堂av在线电影| 免费久久一级欧美特大黄| 久久99这里只有精品| 国产无码精品在线播放| 国产性猛交xxxx免费看久久| av一级久久| 亚欧无线一线二线三线区别| 国产精品美女久久久久久久网站| 国产超碰人人模人人爽人人添| 午夜精品久久久久久久99热| 精品久久久久久久久久久下田| 亚洲国产综合av| 91国内精品野花午夜精品| www久久日com| 欧美精品欧美精品| 国产99久久久国产精品潘金网站| www.com国产| 欧美男插女视频| 成人无号精品一区二区三区| www.88av| 日韩免费在线观看|