精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-5慘遭零分打臉,頂級(jí)AI全軍覆沒!奧特曼AI博士級(jí)能力神話破滅

人工智能 新聞
頂級(jí)大模型在AAI提出的FormulaOne基準(zhǔn)集體翻車:三層難度遞進(jìn),GPT-5進(jìn)階題僅約4%正確,最深層零分;Grok 4、o3 Pro全部失手。該基準(zhǔn)以圖上MSO邏輯與動(dòng)態(tài)規(guī)劃生成問題,貼近路徑規(guī)劃等現(xiàn)實(shí)優(yōu)化,旨在衡量超越競(jìng)賽編程的算法推理深度。

奧特曼在GPT-5的發(fā)布會(huì)上曾說過一個(gè)結(jié)論。

「以后每個(gè)人的兜里都有一個(gè)博士級(jí)AI隨時(shí)隨地的提供建議」。

GPT-5的發(fā)布后也被全球的瘋狂實(shí)測(cè),API使用量暴增。

當(dāng)然,有些討論重點(diǎn)關(guān)注的是「還我GPT-4o」這種情緒化的能力方面。

但重點(diǎn)是,奧特曼一直強(qiáng)調(diào),GPT-5有「博士級(jí)」推理能力。

這事兒,真的靠譜嗎?

這不,一個(gè)叫FormulaOne的硬核測(cè)試,就讓世界上這些最頂級(jí)的模型「現(xiàn)了原形」。

FormulaOne題目分三關(guān),一關(guān)比一關(guān)難。

論文地址:https://arxiv.org/pdf/2507.13337

結(jié)果呢?有點(diǎn)扎心了。

基礎(chǔ)題,AI們還算頂?shù)米。_率還可以,唯一一個(gè)GPT-5能接近50%。

可到了進(jìn)階題,畫風(fēng)突變。

就算是GPT-5,也只做對(duì)了4%。其他模型更是慘不忍睹。

至于最難的「最深層問題」部分?所有模型,全軍覆沒。直接交了白卷,全部零分。

FormulaOne測(cè)試基準(zhǔn)給自己取名字叫做:超越競(jìng)賽編程的算法推理深度測(cè)量。

這是由一家名為AAI的公司出品的,他們的官網(wǎng)是:doubleai.com。

公司是由Mobileye聯(lián)合創(chuàng)始人、希伯來大學(xué)教授Amnon Shashua發(fā)起的科研向AI創(chuàng)業(yè)公司,2023年8月在耶路撒冷成立,長(zhǎng)期「半隱身」。

Amnon Shashua曾于2020年榮獲丹·大衛(wèi)獎(jiǎng)(Dan David Prize)人工智能領(lǐng)域的獲獎(jiǎng)?wù)撸⒂?022年被汽車名人堂(Automotive Hall of Fame)評(píng)為移動(dòng)創(chuàng)新者。

1999年,Shashua聯(lián)合創(chuàng)立了Mobileye,該公司于2014年成為以色列歷史上規(guī)模最大的IPO。

2017年,公司被Intel以153億美元收購(gòu)。

2022年,公司再次于納斯達(dá)克證券交易所上市。

AI必須硬核

現(xiàn)在的AI離真正的專家,到底還有多遠(yuǎn)?

真正的專家,那可是要解決硬核難題的,他們是推動(dòng)科學(xué)邊界的人。

所以,得給AI上點(diǎn)真正的強(qiáng)度了。

目前的基準(zhǔn)測(cè)試往往無法完整描繪出人工智能理解的深度。

盡管最近取得了一些顯著成就,例如OpenAI在CodeForces上獲得了2724的評(píng)分,或是在國(guó)際信息學(xué)奧林匹克競(jìng)賽中獲得金牌。

但這些成績(jī)?nèi)匀谎谏w了一個(gè)令人清醒的現(xiàn)實(shí):為這些競(jìng)賽磨煉出的技能,并不能涵蓋解決大規(guī)模現(xiàn)實(shí)世界研究問題所需的全部推理能力。

例如優(yōu)化全球供應(yīng)鏈、管理大規(guī)模電網(wǎng)、設(shè)計(jì)具有彈性的網(wǎng)絡(luò)基礎(chǔ)設(shè)施等任務(wù)要困難多個(gè)數(shù)量級(jí),它們所需的算法洞察力遠(yuǎn)遠(yuǎn)超出了典型競(jìng)技編程的范疇。

FormulaOne包含220個(gè)新穎的、基于圖的動(dòng)態(tài)編程問題。這些問題分為三個(gè)類別,從適中的難度到研究級(jí)別的難度不等。

FormulaOne是一個(gè)處于圖論、邏輯和算法交叉點(diǎn)的基準(zhǔn)測(cè)試,完全在前沿模型的訓(xùn)練分布范圍內(nèi)。

這些問題極具挑戰(zhàn)性,需要一系列推理步驟,涉及拓?fù)浜蛶缀味床臁?shù)學(xué)知識(shí)、組合考慮、精確實(shí)現(xiàn)等。

FormulaOne具有三個(gè)關(guān)鍵特性。

  • 第一,它具有商業(yè)價(jià)值,與實(shí)際的大規(guī)模優(yōu)化問題相關(guān),例如路徑規(guī)劃、調(diào)度和網(wǎng)絡(luò)設(shè)計(jì)中出現(xiàn)的問題。
  • 第二,它生成自圖上的單一二階(Monadic Second-Order,MSO)邏輯這一高度表達(dá)的框架,為大規(guī)模自動(dòng)問題生成鋪平了道路——非常適合構(gòu)建強(qiáng)化學(xué)習(xí)(RL)環(huán)境。
  • 第三,許多問題與理論計(jì)算機(jī)科學(xué)的前沿以及其中的核心猜想密切相關(guān),例如強(qiáng)指數(shù)時(shí)間假設(shè)(Strong Exponential Time Hypothesis,SETH)。

為什么模型在「deepest」(最深層)任務(wù)上會(huì)出現(xiàn)概念崩潰,即使它們?cè)谒惴ň幊谈?jìng)賽中達(dá)到了超越人類頂尖選手的水平?

「deepest」層級(jí)的問題需要非常深入的推理能力,而這是現(xiàn)有模型根本無法做到的。

FormulaOne可能需要一種定性不同的方法,正通過一個(gè)實(shí)時(shí)排行榜評(píng)估框架與社區(qū)分享它。

FormulaOne中的問題都很簡(jiǎn)潔,僅由一兩句話組成,任何本科生都能理解,但解決這些問題卻需要?jiǎng)?chuàng)造力和深入的推理。

雖然這些問題通常很容易描述,但它們的解決方案遠(yuǎn)非顯而易見。這一大類問題的可解性由一個(gè)Courcelle提出的算法元定理所保證,該定理大致表述為:

對(duì)于每個(gè)足夠樹狀的圖,任何可在一種表達(dá)能力強(qiáng)的形式邏輯——單子二階(MSO)邏輯中定義的問題,都可以通過一個(gè)動(dòng)態(tài)規(guī)劃算法來求解,該算法的運(yùn)行時(shí)間與圖的階數(shù)成線性關(guān)系。

FormulaOne中的問題源自一個(gè)單一的無限族:圖上的單階二階(MSO)邏輯。

簡(jiǎn)單來說,這些問題就是圖上的自然動(dòng)態(tài)規(guī)劃問題。 

雖然許多問題在一般情況下是NP難的,但在「樹狀」圖上它們變得易于處理。

在這種情況下,這些問題可以通過一種線性時(shí)間的動(dòng)態(tài)規(guī)劃算法來解決——該算法在一個(gè)稱為「bags」的小圖窗口上進(jìn)行操作。

「包」是使用一種稱為樹分解的結(jié)構(gòu),它將圖的頂點(diǎn)組織成一系列重疊的集合,這些集合本身以樹的形式排列。

然后,算法可以遍歷這個(gè)包(bag)樹,使用動(dòng)態(tài)規(guī)劃逐塊解決該問題。

此過程包括設(shè)計(jì)一個(gè)「狀態(tài)」,用以概括包中部分解決方案的所有必要信息,并定義當(dāng)頂點(diǎn)被引入、遺忘或包被合并時(shí),該狀態(tài)如何轉(zhuǎn)換。

「最深層」級(jí)別問題難在哪里

那么,是什么讓「最深層」級(jí)別的難度遠(yuǎn)高于「淺層」級(jí)別呢?換句話說,如何解釋前沿模型在這些問題上的崩潰?

是因?yàn)閿?shù)據(jù)不足嗎?還是因?yàn)樵趧?dòng)態(tài)規(guī)劃方面的專業(yè)知識(shí)水平較低?

不,前沿模型最近在算法編程競(jìng)賽和奧林匹克競(jìng)賽中已經(jīng)達(dá)到了頂尖人類水平,而動(dòng)態(tài)規(guī)劃(DP)正是這類競(jìng)賽中的關(guān)鍵技術(shù)之一。

相反,像CodeForces中的競(jìng)賽題目通常是這樣構(gòu)建的:一個(gè)人想出一個(gè)非常巧妙的技巧(或者可能兩個(gè)),然后圍繞這個(gè)技巧設(shè)計(jì)一個(gè)問題。

一旦參賽者理解了這個(gè)技巧,通常很快就能寫出一個(gè)簡(jiǎn)短的解決方案。對(duì)于「淺層」階段來說,情況某種程度上也是如此。

相比之下,現(xiàn)實(shí)世界的問題,以及「更深」和「最深」階段的問題,通常涉及多個(gè)不確定的步驟,并且沒有任何簡(jiǎn)單的捷徑可循。

設(shè)計(jì)一個(gè)正確且高效的動(dòng)態(tài)規(guī)劃程序很難。

關(guān)鍵在于每個(gè)包所存儲(chǔ)的信息——「狀態(tài)」。

狀態(tài)設(shè)計(jì)既是一門藝術(shù),也是一門科學(xué)。

狀態(tài)必須足夠豐富,以便在我們從一個(gè)包過渡到下一個(gè)包時(shí)能夠進(jìn)行更新,但同時(shí)又必須足夠簡(jiǎn)潔,以確保計(jì)算上的可行性。 

模型傾向于急切地過度承諾;做出過早且不可逆的決策,而這些決策的無效性往往要到很久之后才會(huì)顯現(xiàn)出來。

隨著不確定性的增加,這種情況會(huì)變得更加明顯。

事實(shí)上,這僅僅是模型所犯的一系列分類錯(cuò)誤之一。

為了幫助理解模型的優(yōu)勢(shì)與不足,每個(gè)FormulaOne問題都由一系列標(biāo)簽進(jìn)行標(biāo)注,代表其核心思想。

那么要突破這個(gè)新基準(zhǔn)需要什么?

雖然GPT-5在「更深」層級(jí)上顯示出一些進(jìn)展跡象,但這種進(jìn)展非常有限,而在「最深」層級(jí)上則完全沒有進(jìn)展。

這可能可以解釋為一種「信號(hào)缺失」,因?yàn)樵凇缸钌睢箤蛹?jí)的問題中存在太多不確定點(diǎn)和需要做出的決策,要讓所有這些都正確對(duì)齊變得異常困難——以至于傳統(tǒng)的訓(xùn)練技術(shù)都失效了。


責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-09-23 09:13:37

2024-08-12 12:40:40

2025-09-15 09:13:00

2025-09-08 18:08:28

AIClockBenchAGI

2025-07-16 09:18:06

2025-07-07 08:42:00

大模型AIChatGPT

2025-08-15 12:50:19

2025-08-08 09:29:29

2020-09-09 11:32:41

Android漏洞應(yīng)用安全

2024-01-22 13:57:00

模型訓(xùn)練

2024-09-13 12:34:54

2014-10-13 10:04:42

2025-08-08 09:22:40

2018-05-24 14:01:47

服務(wù)器英特爾高通

2025-10-15 09:02:25

2025-08-08 08:19:45

2009-12-03 10:33:27

2025-08-20 09:02:00

2025-09-18 12:41:22

2025-06-09 08:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产一级久久久久毛片精品| 欧美精品123| 中文字幕在线观看亚洲| 国产毛片久久久久久国产毛片| 丰满肉嫩西川结衣av| 日韩视频精品在线观看| 精品免费av| 91视频福利网| 日韩欧美不卡在线观看视频| 成人午夜免费电影| 亚洲精品久久久一区二区三区| 人妻有码中文字幕| 麻豆免费在线观看| av电影一区二区| 国产精品夜色7777狼人| 国产乡下妇女做爰| 97色伦图片97综合影院| 亚洲黄色av女优在线观看| 亚洲xxxx2d动漫1| 久操av在线| 国产日韩一级二级三级| 国产高清不卡av| 最近中文字幕在线免费观看| 午夜久久影院| 在线观看日韩www视频免费| 中文字幕无人区二| 看片一区二区| 色先锋aa成人| www.日本在线播放| 国产cdts系列另类在线观看| 国产亚洲综合av| 精品国产区在线| va视频在线观看| 免费观看成人av| 全亚洲最色的网站在线观看| 天天天天天天天天操| 亚洲欧美电影| 亚洲91视频| aaa欧美日韩| 欧美午夜美女看片| 中文字幕一区综合| 青青青免费视频在线2| 国产1区2区3区精品美女| 国产欧美中文字幕| 黄色一级视频免费看| 亚洲精品偷拍| 久久久久久91| 久久久久久久久久久97| 在线一区电影| 欧美成人精品在线视频| 久久人妻无码aⅴ毛片a片app| 国内成人自拍| 亚洲色图第三页| 一级特级黄色片| 欧美变态挠脚心| 亚洲成人a**站| 免费看毛片的网站| 97视频一区| 精品国产一区二区三区忘忧草| 久久婷婷中文字幕| 麻豆精品在线| 日韩三级在线观看| 亚洲av无码久久精品色欲| 免费成人黄色网| 色综合一区二区三区| 成人观看免费完整观看| 在线成人av观看| 在线欧美日韩国产| 日本中文字幕片| 国产精品久久不能| 国产在线观看精品| 国产无码精品一区二区| 欧美精品日韩| 99精品中文字幕在线不卡 | 无码人妻h动漫| 一个人www视频在线免费观看| 成人国产在线观看| 亚洲午夜未删减在线观看| 国产熟女一区二区| 99tv成人| 欧美黑人极品猛少妇色xxxxx| 久久免费在线观看视频| 亚洲综合不卡| 国产精品视频一区国模私拍| 国产美女www爽爽爽视频| 国产一区二区三区蝌蚪| 狠狠干一区二区| 成人在线免费电影| 亚洲乱码中文字幕| 国产美女主播在线播放| 欧美最新精品| 91精品国产欧美日韩| 久久久无码人妻精品无码| 色88888久久久久久影院| 亚洲性无码av在线| 2021亚洲天堂| 性感少妇一区| 91在线免费网站| 成人精品在线播放| 国产欧美综合在线| 99久久久精品视频| 台湾佬成人网| 日韩欧美中文字幕精品| 国产精品久久久久无码av色戒| 久久亚洲国产| 2024亚洲男人天堂| 中文字幕日日夜夜| av网站免费线看精品| 亚洲精品在线观看免费| 欧美xxxx性xxxxx高清| 91久久精品一区二区三| 绯色av蜜臀vs少妇| 欧美在线色图| 68精品久久久久久欧美 | 亚洲福利久久| 国产日韩在线精品av| 四虎精品成人影院观看地址| 国产精品二三区| 欧美日韩激情视频在线观看| 亚洲欧美综合久久久久久v动漫| 日韩激情视频在线| 久久久精品视频在线| 免费成人美女在线观看.| 加勒比在线一区二区三区观看| 免费黄色网址在线观看| 色综合天天天天做夜夜夜夜做| 无套白嫩进入乌克兰美女| 国产亚洲精品美女久久久久久久久久| 欧美精品videos性欧美| 国产精品欧美久久久久天天影视| 国产亚洲综合av| 两根大肉大捧一进一出好爽视频| 蜜桃精品视频| 丝袜美腿精品国产二区| 日韩人妻精品中文字幕| www.亚洲在线| 韩日视频在线观看| 日韩视频在线直播| 成年无码av片在线| 91精品国产乱码久久久| 中文在线一区二区| 三年中国国语在线播放免费| 欧美美女在线直播| 国外成人在线播放| 欧洲成人一区二区三区| 樱桃视频在线观看一区| 国产91在线免费观看| 91tv官网精品成人亚洲| 91影院未满十八岁禁止入内| 2024最新电影在线免费观看| 久久久久高潮毛片免费全部播放| 免费av不卡在线观看| 国产精品探花在线| 麻豆成人在线| 久久婷婷国产综合尤物精品| www在线观看黄色| 亚洲精品国产精品自产a区红杏吧 亚洲精品国产精品乱码不99按摩 亚洲精品国产精品久久清纯直播 亚洲精品国产精品国自产在线 | 中文字幕在线官网| 亚洲日本中文字幕免费在线不卡| 成人av网站在线播放| 国产一区二区高清在线| 精品久久香蕉国产线看观看gif| 人妻无码中文久久久久专区| 一区二区国产在线观看| 日本不卡一区二区三区视频| 午夜激情成人网| 中文字幕亚洲在线| 国产视频在线观看免费 | 久久久久亚洲天堂| 高清国产一区二区| cao在线观看| 日韩欧美中文字幕一区二区三区| 久久久精品视频成人| 一区不卡在线观看| 国产亚洲欧洲997久久综合| 久久婷婷国产91天堂综合精品| 国产一区二区三区四区| 国产精欧美一区二区三区| 都市激情在线视频| 日韩一区和二区| 欧美精品成人久久| 懂色av一区二区三区蜜臀| 无码粉嫩虎白一线天在线观看| 99tv成人影院| 97av在线视频| 国产视频二区在线观看| 欧美日韩国产免费一区二区| 在线观看亚洲网站| 99在线视频精品| av网站在线观看不卡| 欧美美乳视频| 国产日韩中文在线| 免费a级在线播放| 精品国产乱码久久久久久久 | 国产精品日韩在线一区| fc2ppv国产精品久久| 国产视频久久网| 亚洲天堂国产精品| 一区二区三区在线视频免费 | 国产一区二区三区毛片| 国产人妻精品一区二区三区| 亚洲影视资源网| 久久免费视频在线观看| 精品一区二三区| 日韩成人亚洲| 亚洲精品在线免费观看视频| 探花视频在线观看| 国产精品美女久久久久久久久 | 亚洲无毛电影| 神马影院我不卡午夜| 国产中文欧美日韩在线| 69久久夜色精品国产69乱青草| 国产在线黄色| 欧美一区二区三区免费观看视频 | 国产精品永久免费| 伊人福利在线| 亚洲欧美在线看| 一区二区三区免费在线视频| 丰满岳妇乱一区二区三区| 刘亦菲国产毛片bd| 99久久精品国产导航| 最新国产黄色网址| 视频一区二区中文字幕| 欧美在线观看黄| 欧美影院三区| 韩日午夜在线资源一区二区| av成人在线看| 77777少妇光屁股久久一区| 欧美成人性生活视频| 精品香蕉在线观看视频一| 精品国产九九九| 在线电影院国产精品| 中文字幕黄色片| 亚洲一区欧美一区| 乱老熟女一区二区三区| 国产欧美精品一区二区色综合| 国产ts在线观看| 九九九久久久精品| 欧美日韩一区二区在线免费观看| 9色精品在线| 日本一道在线观看| 日韩欧美午夜| 欧美成人免费在线| 久久99精品久久久久久欧洲站| 91深夜福利视频| 色豆豆成人网| 欧美综合第一页| 在线男人天堂| 91精品国产一区| 欧美xxxx少妇| 欧美日韩国产二区| 国产第一页在线| 欧美丰满片xxx777| 国内精品久久久久久野外| 最近更新的2019中文字幕| yiren22亚洲综合伊人22| 亚洲欧美在线免费观看| 毛片在线能看| 亚洲美女精品成人在线视频| 天堂在线视频免费| 亚洲国产成人久久综合| 丁香六月色婷婷| 日韩精品中文字幕在线| 蜜桃在线一区二区| 精品成人佐山爱一区二区| 成人小说亚洲一区二区三区| 精品va天堂亚洲国产| 亚洲xxxx天美| 日韩一级视频免费观看在线| 国产乱淫av片免费| 在线播放中文字幕一区| 91精东传媒理伦片在线观看| 欧美成人免费网站| 色窝窝无码一区二区三区| 亚洲精一区二区三区| 色妞www精品视频| 手机在线免费看毛片| 亚洲免费在线视频一区 二区| 黄色国产在线播放| 日本一区二区在线不卡| 91视频免费在观看| 亚洲色图欧美在线| 强行糟蹋人妻hd中文| 亚洲综合视频在线| 日韩久久精品视频| 欧美性高清videossexo| 一级黄色a视频| 51精品国自产在线| 亚洲男人第一天堂| 国产亚洲精品高潮| 免费黄色在线| 欧美激情视频网| 国产免费不卡| 国产欧美亚洲精品| 日韩在线观看中文字幕| 精品不卡在线| 久久视频精品| 东北少妇不带套对白| 久久免费高清| 欧美伦理视频在线观看| 国产成人在线电影| 国产精品无码在线| 中国色在线观看另类| 日本少妇做爰全过程毛片| 色婷婷久久一区二区三区麻豆| 亚洲综合精品国产一区二区三区| 日韩天堂在线观看| 第九色区av在线| 欧美激情精品久久久久久蜜臀| 极品美鲍一区| 国产欧美精品va在线观看| 欧美日韩一本| 不卡中文字幕在线| 亚洲欧美日韩国产| jjzz黄色片| 亚洲国产成人在线| 久久国产免费观看| 亚洲va国产va欧美va观看| 国产女同在线观看| 6080日韩午夜伦伦午夜伦| 婷婷开心激情网| 久久成年人免费电影| 免费看av不卡| 久久精品一二三区| 欧美一区亚洲| 亚洲综合欧美激情| 久久伊人蜜桃av一区二区| 欧美丰满熟妇bbbbbb| 欧美中文字幕一区二区三区亚洲| 亚洲国产精品国自产拍久久| 精品国产一区二区三区久久狼黑人| 美女的胸无遮挡在线观看| 91美女片黄在线观看游戏| 日韩黄色网络| 777精品久无码人妻蜜桃| 国产在线播放一区| 久久久精品成人| 欧美中文字幕一区| 四虎影视2018在线播放alocalhost| 欧美乱人伦中文字幕在线| 国产一区二区在线观| 亚洲视频小说| 日本最新不卡在线| 艳妇乳肉豪妇荡乳xxx| 一区二区三区高清在线| 国产精品免费无遮挡| 中文字幕亚洲无线码a| 欧美成人黄色| 手机成人在线| 久久亚洲一区| 国产精品jizz| 欧美日韩免费一区| 人妻中文字幕一区| 午夜美女久久久久爽久久| 日本一区二区三区播放| 一区二区不卡在线视频 午夜欧美不卡' | 欧美日韩国产精品激情在线播放| 国产精品一区二区免费不卡| 欧美色图亚洲视频| 69久久夜色精品国产69蝌蚪网 | 日韩中文在线观看| 电影91久久久| 免费成人深夜夜行网站视频| 久久99精品久久久久久动态图| 久久av红桃一区二区禁漫| 欧美伦理视频网站| 黄网址在线观看| av蓝导航精品导航| 亚洲东热激情| 中文字幕av观看| 黑人巨大精品欧美一区二区一视频 | 禁断一区二区三区在线| 9久久婷婷国产综合精品性色| 国产视频一区二区在线| 波多野结衣黄色网址| www.久久久久久.com| 国产亚洲字幕| 欧洲精品在线播放| 久久久天堂av| 日韩乱码一区二区三区| 三级精品视频久久久久| 日韩一二三区在线观看| 日韩中字在线观看| 久久久欧美精品sm网站| 国产aⅴ一区二区三区| 欧美高清在线播放| 日韩在线麻豆| 爽爽爽在线观看| 五月激情综合婷婷| 国产51人人成人人人人爽色哟哟| 成人xvideos免费视频| 欧美精品网站| 一本色道综合久久欧美日韩精品 | 在线看片国产福利你懂的| 亚洲无玛一区| 国产麻豆91精品| 在线免费观看毛片| 亚洲人成在线电影| 久久精品一级| 免费观看精品视频|