精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多元推理刷新「人類的最后考試」記錄,o3-mini(high)準(zhǔn)確率最高飆升到37%

人工智能 新聞
近日,波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中,提出了一種在測試時(shí)結(jié)合多種模型和方法的多元推理方法。

近段時(shí)間,DeepSeek R1 推理模型引爆了國內(nèi)外社交媒體,讓人們見識到了大語言模型類人的深度思考能力。

雖然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在數(shù)學(xué)和編程領(lǐng)域取得了重大進(jìn)展,但在面對一些測試基準(zhǔn)時(shí)仍然力不從心,比如國際數(shù)學(xué)奧林匹克競賽(IMO)組合問題、抽象和推理語料庫(ARC)謎題和人類的最后考試(HLE)問題。以 HLE 為例,主流的推理模型集體翻車,結(jié)果顯示 DeepSeekR1、o1 的準(zhǔn)確率都低于 10%。

如何提升推理模型在這些較難基準(zhǔn)上的準(zhǔn)確率呢?近日,波士頓大學(xué)、 NotBadMath.AI、谷歌等機(jī)構(gòu)的研究者在最新的論文中,提出了一種在測試時(shí)結(jié)合多種模型和方法的多元推理方法。結(jié)果顯示,該推理方法在驗(yàn)證數(shù)學(xué)和編碼問題以及其他問題的拒絕采樣時(shí)簡單而高效。

具體來講,研究者通過交互式定理證明器 Lean 來自動(dòng)驗(yàn)證 IMO 問題答案的正確性,通過代碼自動(dòng)驗(yàn)證 ARC 謎題,以及通過 best-of-N 算法有效地回答 HLE 問題。

  • 論文標(biāo)題:Diverse Inference and Verification for Advanced Reasoning
  • 論文地址:https://arxiv.org/pdf/2502.09955

從實(shí)驗(yàn)結(jié)果來看,研究者將 IMO 組合問題答案的準(zhǔn)確率從 33.3% 提升到 77.8%將 HLE 問題的準(zhǔn)確率從 8% 提升到 37%,并解決了 948 名人類無法攻克的 80%的 ARC 謎題和 o3 high 無法解決的 26.5 % 的 ARC 謎題

研究者表示,通過調(diào)整代理圖表示和不同的提示詞、代碼和數(shù)據(jù)集,測試時(shí)模擬、強(qiáng)化學(xué)習(xí)和具有推理反饋的元學(xué)習(xí)等可以提高推理模型的泛化能力。

此外,研究者還發(fā)現(xiàn)了基礎(chǔ)語言模型的第三個(gè)實(shí)證性 scaling law,即多種模型、方法的數(shù)量與可驗(yàn)證問題性能之間的關(guān)系,它們呈正向關(guān)系。前兩個(gè) scaling law 分別如下:

  • 模型大小、數(shù)據(jù)大小和損失之間的關(guān)系,即更多參數(shù)、訓(xùn)練數(shù)據(jù)和訓(xùn)練時(shí)的語言模型表現(xiàn)更好。
  • 模型性能和測試時(shí)算力之間的關(guān)系,早期棋盤游戲中驗(yàn)證了訓(xùn)練時(shí)和測試時(shí)算力之間的權(quán)衡,增加其中任何一項(xiàng)都會帶來更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了測試時(shí)算力擴(kuò)展對推理型 LLM 的助益。

方法概覽

研究者在方法部分主要有以下三項(xiàng)成果:

一是多元推理(diverse inference)。研究者在測試時(shí)聚合了多個(gè)模型、方法和代理,而不是依賴單個(gè)模型和方法。任何一個(gè)正確的解決方案都會對 IMO 組合題和 ARC 謎題的可驗(yàn)證任務(wù)進(jìn)行自動(dòng)驗(yàn)證。具體如下:

  • IMO:研究者使用 8 種不同的方法,分別是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV,可以顯著提高推理模型準(zhǔn)確率。其中將英語題目自動(dòng)形式化為 Lean,從而完成了完美驗(yàn)證。
  • ARC:合成代碼解決方案在訓(xùn)練示例上作為單元測試(unit test)進(jìn)行驗(yàn)證。
  • HLE:使用 best-of-N 作為不完美驗(yàn)證器,隨著示例增加而解決率提升。

二是測試時(shí)模擬和強(qiáng)化學(xué)習(xí)。研究者在推理時(shí)生成了額外的特定于問題的信息,其中:

  • IMO:將組合題轉(zhuǎn)化為了可交互游戲環(huán)境,并使用組合搜索或深度強(qiáng)化學(xué)習(xí)來得出部分結(jié)果或邊界。
  • ARC:通過合成代碼來探索謎題轉(zhuǎn)換,從而刪除不正確的解決方案并優(yōu)化候選解決方案。

另外,研究者表示,在給定相同數(shù)據(jù)集的情況下,使用訓(xùn)練過的驗(yàn)證器進(jìn)行搜索往往比監(jiān)督微調(diào)效果要好,這激發(fā)了強(qiáng)化學(xué)習(xí)微調(diào)。他們通過運(yùn)行測試時(shí)模擬和強(qiáng)化學(xué)習(xí)來生成額外數(shù)據(jù),從而能夠正確證明 2024 IMO 組合題并求解困難的 ARC 謎題。

下圖 1 展示了研究者求解 IMO 組合題所用方法的高級架構(gòu),其流程包含了幾個(gè)組件,分別是編碼、模擬以及深度強(qiáng)化學(xué)習(xí)和解碼

在編碼階段,研究者通過將問題形式化為狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)來找到答案,然后提示 LLM 將問題轉(zhuǎn)化為一個(gè)游戲環(huán)境。研究者將問題表示為 Gymnasium 開源項(xiàng)目中的 Python 代碼,其中包括代理和策略,并使用模擬和深度強(qiáng)化學(xué)習(xí)來找到最優(yōu)策略。他們重復(fù)此過程,為每個(gè)問題生成具有不同維的多個(gè)游戲,并為每個(gè)游戲的不同情節(jié)生成對應(yīng)的數(shù)據(jù)和視頻。

在解碼階段,研究者提取數(shù)據(jù)和幀并通過轉(zhuǎn)換對它們進(jìn)行擴(kuò)充,并使用 LLM 以摘要的形式為每個(gè)序列的圖像和策略解釋編寫文本表示。最后,研究者利用這些信息以及附錄 M 和 N 中的問題陳述、答案、書籍和指南,通過上下文學(xué)習(xí)來自動(dòng)形式化證明。

三是代碼圖的元學(xué)習(xí)。研究者使用 LLM 和其他工具來追蹤 pipeline 運(yùn)行,并生成超參數(shù)、提示詞、代碼標(biāo)題和數(shù)據(jù)的 A/B 測試,并自適應(yīng)地修改代理圖。

實(shí)驗(yàn)結(jié)果

研究者使用了不同的模型和方法對 IMO 組合問題進(jìn)行了廣泛的評估,他們測試了來自未污染(non-contaminated)考試中的所有組合問題。

結(jié)果顯示,零樣本 o1 回答對了 1/9(準(zhǔn)確率約 11%)的問題,使用 o3-mini 的最佳方法回答對了 3/9(準(zhǔn)確率約 33.3%)的問題,而使用了 o3-mini high 的 8 種多元方法回答對了 7/9(準(zhǔn)確率約 77.8%)的問題,并進(jìn)行了自動(dòng)驗(yàn)證。

類似地,使用 o1 的最佳方法回答對了 3/9(準(zhǔn)確率約 33.3%)的問題,而使用了 o1 的多元方法回答對了 6/9(準(zhǔn)確率約 66.7%)的問題,也進(jìn)行了自動(dòng)驗(yàn)證。

其次,研究者使用了 400 個(gè) ARC 評估謎題,對 16 個(gè)模型和方法進(jìn)行了廣泛的評估,結(jié)果如下圖 4 和圖 5 所示,共有以下幾項(xiàng)發(fā)現(xiàn)

  • 沒有 o3,16 個(gè)多元模型和方法將模型性能從 53%提升到了 69.5%。
  • 有了 o3,16 個(gè)多元模型和方法將模型性能從 91.5% 提升到了 93.75%。
  • 16 個(gè)多元模型和方法解決了 948 名人類無法解決的 80% 的謎題。
  • 16 個(gè)多元模型和方法解決了 o3 high 失敗的 26.5% 的謎題。

最后對于 HLE 問題,由于計(jì)算成本的原因,研究者隨機(jī)抽取了 100 個(gè)問題進(jìn)行測試。不同模型和方法的準(zhǔn)確率如下表 1 所示,其中 o3-mini high 非多模態(tài),取得了 13.0%的準(zhǔn)確率;Deep Research 使用了網(wǎng)絡(luò)搜索和代碼,取得了最高 26.6%的準(zhǔn)確率。

此外,使用 o3-mini high 對這 100 個(gè)隨機(jī)采樣問題進(jìn)行 best-of-N 拒絕采樣(N=3),所有類別的準(zhǔn)確率為 37%,數(shù)學(xué)問題的準(zhǔn)確率為 33.3%;使用 o1 時(shí)所有類別的準(zhǔn)確率為 21%,數(shù)學(xué)問題的準(zhǔn)確率為 29.6%,具體如下圖 6 和圖 7 所示。


更多方法細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請參閱論文附錄。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-08 17:00:11

2024-12-24 16:15:04

2025-01-20 19:52:50

2025-09-03 09:05:00

AI模型框架

2025-02-03 14:06:32

2025-02-03 00:15:00

DeepSeek?o3-mini?資源

2025-02-08 11:44:03

2023-10-26 08:40:15

模型隱私推理

2023-12-12 13:51:00

AI訓(xùn)練

2025-02-10 00:00:01

2025-10-23 12:46:39

2025-02-18 09:00:00

2025-02-25 12:30:00

2025-05-13 08:24:14

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2025-04-27 09:15:40

2020-10-29 15:58:43

阿里AI雙11

2025-04-23 08:30:05

2025-02-07 11:20:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

亚洲国产欧美自拍| 亚洲福中文字幕伊人影院| 国产精品欧美日韩一区二区| 天天操天天摸天天舔| www.久久东京| 色综合久久久久久久久久久| 国产成人精品免费看在线播放| 乱色精品无码一区二区国产盗| 日韩和欧美一区二区三区| 久久香蕉国产线看观看av| 999精品免费视频| 四虎影视国产精品| 亚洲韩国一区二区三区| 亚洲精品一区二区三区av| 丰满少妇高潮在线观看| 美腿丝袜亚洲综合| 久久久久久国产免费 | 日韩毛片一区二区三区| 国产精品福利在线观看播放| 亚洲精品一区二区三区不| 成人h猎奇视频网站| 免费网站观看www在线观| 国产中文精品久高清在线不| 亚洲成人av在线播放| 欧美 日韩 国产精品| 欧美视频综合| 国产成人在线视频播放| 国产精品欧美激情| 亚洲大片免费观看| 亚洲欧洲日本mm| 欧美刺激性大交免费视频| 无码人妻丰满熟妇啪啪欧美| 黑人久久a级毛片免费观看| 在线电影一区二区三区| 热久久精品免费视频| 欧美亚洲日本精品| 亚洲成av人影院在线观看网| 人妻互换免费中文字幕| 黄色片一区二区| 国产在线麻豆精品观看| 国产精品无av码在线观看| 黄色污污网站在线观看| 国产视频一区三区| 992tv在线成人免费观看| 久久久久久久久久久久久女过产乱| 日产午夜精品一线二线三线| 91精品欧美久久久久久动漫| 国产又爽又黄ai换脸| 国产一二三区在线视频| 国产亚洲欧美在线| 欧美久久久久久久| 久青青在线观看视频国产| 91在线视频网址| 国产日韩欧美二区| 午夜视频1000| 久久综合av免费| 久久99精品久久久久久三级| 亚洲欧美丝袜中文综合| av电影天堂一区二区在线| 国内成+人亚洲| 天天干在线观看| 91网站在线播放| 欧美一级片免费观看| 国产尤物视频在线观看| 黄网站免费久久| 亚洲综合在线小说| 四虎成人永久免费视频| 久久久国产精品一区二区中文| 欧美诱惑福利视频| av首页在线观看| 久久精品国产精品亚洲红杏| 91系列在线观看| 亚洲第一天堂网| 91在线精品秘密一区二区| 欧美一区二区视频17c| √天堂资源地址在线官网| 岛国av在线一区| 国产精品你懂得| 国产普通话bbwbbwbbw| 丁香六月综合激情| 欧美高清性xxxxhdvideosex| 国产在线观看免费网站| 国产精品国产自产拍在线| 日韩人妻精品一区二区三区| 久久av色综合| 色爱区综合激月婷婷| 欧美第一页浮力影院| 欧美h版在线观看| 亚洲福利精品在线| 97人妻人人揉人人躁人人| 一区二区三区四区在线观看国产日韩| 欧美日韩第一视频| 蜜臀精品一区二区三区| 国产综合色产在线精品| 国内视频一区| av网在线观看| 亚洲图片欧美一区| 亚洲少妇久久久| 超碰成人97| 日韩在线观看免费全| 丰满大乳奶做爰ⅹxx视频| 欧美日韩精品一区二区视频| 久久成人这里只有精品| 黄色在线免费观看| 国产伦精品一区二区三区视频青涩| 久久国产精品一区二区三区四区 | 久久久久成人黄色影片| 懂色av粉嫩av蜜臀av| 中文字幕在线看片| 日韩欧美一级精品久久| 亚洲国产日韩在线一区| 免费电影一区二区三区| 欧美黄色片在线观看| 中文字幕在线2019| 91丨九色丨黑人外教| 久久天天东北熟女毛茸茸| 朝桐光一区二区| 精品视频色一区| 国产精品无码一区二区三| 亚洲成人99| 国产精品免费观看在线| 天堂在线资源库| 亚洲最色的网站| 91在线第一页| 久久人体视频| 国产精品jizz在线观看麻豆| 色欲av永久无码精品无码蜜桃| 亚洲男同性视频| 91香蕉视频导航| 国产精品三级| 欧美一区二区影院| 天堂av资源在线| 亚洲福利视频三区| 激情小说欧美色图| 亚洲成人一区| 91精品国产综合久久男男| 午夜在线视频| 欧美一a一片一级一片| 性色av蜜臀av色欲av| 激情亚洲网站| 国产精品日韩一区二区| 污污在线观看| 日韩欧美电影一区| a级黄色片免费看| 国产乱码精品一区二区三区五月婷| 亚洲一区二区高清视频| www.26天天久久天堂| 国产一区二区三区视频在线观看 | 成人福利片网站| 夜夜爽夜夜爽精品视频| 操人视频免费看| 中文字幕一区二区三三| 成人3d动漫一区二区三区91| 欧美高清另类hdvideosexjaⅴ| 日韩一区二区影院| 久草国产在线观看| www.亚洲精品| 国产精品视频一区二区三区四区五区| 国产精品男女| 欧美亚洲国产视频小说| 精品成人一区二区三区免费视频| 欧美在线视频日韩| 免费黄色国产视频| 国产一区二区91| 女人被男人躁得好爽免费视频 | 久久精品99国产精品日本| 一本久道久久综合| 欧美h版在线观看| 羞羞色国产精品| 猫咪在线永久网站| 欧美日韩1区2区| 69av.com| 久久亚洲综合色一区二区三区| 黄色免费网址大全| 亚洲人体av| 久久99精品久久久久久久久久| 日本精品不卡| 久久综合久久88| 天天干天天草天天射| 色婷婷综合久久久| 成人自拍小视频| hitomi一区二区三区精品| 丰满少妇在线观看| 亚洲九九在线| 蜜桃狠狠色伊人亚洲综合网站| jizzyou欧美16| 久久久久国产一区二区三区| 国产在线免费观看| 精品免费日韩av| 潘金莲一级黄色片| 成人一区在线看| 日韩爱爱小视频| 亚洲精品一二| 中文字幕日韩一区二区三区不卡 | 日韩美女在线视频| www.久久久久久久| 亚洲一区中文在线| 亚洲第一视频区| 久久一区亚洲| avove在线观看| 精品久久影院| 国产精品久久久久久久小唯西川| 久久久人成影片一区二区三区在哪下载| 另类天堂视频在线观看| 国产一二在线观看| 欧美精品一区二区蜜臀亚洲| 亚洲一级视频在线观看| 精品久久久久久久久中文字幕| 一级片一级片一级片| 久久久综合激的五月天| 国产51自产区| 国内精品写真在线观看| 黄色成人免费看| 亚洲永久网站| 国产aaa免费视频| 亚洲欧美在线专区| 亚洲春色在线| 综合色就爱涩涩涩综合婷婷| 国产免费一区| 无码国模国产在线观看| 国产精品影片在线观看| 456成人影院在线观看| …久久精品99久久香蕉国产| 国产美女一区视频| 欧美高清无遮挡| 国产不卡在线| 色av中文字幕一区| 波多野结衣在线影院| 欧美亚洲丝袜传媒另类| 久热这里只有精品6| 亚洲国产一区视频| 免费在线黄色片| 亚洲精品视频一区二区| 99成人在线观看| 国产精品国产馆在线真实露脸 | 在线观看欧美一区二区| 久88久久88久久久| 亚洲 欧美 日韩系列| 日日夜夜精品视频免费| 成年人观看网站| 99在线观看免费视频精品观看| 成人性免费视频| 99综合在线| 欧美 日韩精品| 裸体素人女欧美日韩| 国产综合免费视频| 视频一区欧美精品| 男人的天堂日韩| 丝袜亚洲另类欧美| 手机在线看福利| 久热成人在线视频| 亚欧美一区二区三区| 高清国产一区二区| 中文字幕无码人妻少妇免费| 972aa.com艺术欧美| 久久美女免费视频| 国产精品久久一卡二卡| 欧美另类videoxo高潮| 亚洲精品v日韩精品| 国产成人精品亚洲男人的天堂| 五月天一区二区| 看黄色一级大片| 欧美日韩激情一区二区| av男人天堂网| 欧美性一二三区| 中文字幕人妻色偷偷久久| 欧美酷刑日本凌虐凌虐| 亚洲爱情岛论坛永久| 日韩极品精品视频免费观看| 欧美成熟毛茸茸| 精品国偷自产在线| 欧美高清另类hdvideosexjaⅴ| 91av视频导航| 岛国精品在线| 都市激情久久久久久久久久久| 日韩一级电影| 亚洲视频导航| 伊人久久久大香线蕉综合直播 | 亚洲人成欧美中文字幕| 日p在线观看| 97精品视频在线播放| 日韩中文影院| 99久久一区三区四区免费| 九九免费精品视频在线观看| 国产日本欧美在线| 亚洲激情黄色| 国内外成人免费在线视频| 丰满岳乱妇一区二区三区| 成年人在线免费看片| 一卡二卡欧美日韩| 特级西西444www大胆免费看| 欧美日韩国产一中文字不卡| 中文字幕视频免费观看| 亚洲成人av在线播放| 日本www在线观看| 秋霞成人午夜鲁丝一区二区三区| 欧美色图天堂| 国产精品久久精品| 欧美日韩大片| 97久久精品午夜一区二区| 欧美精美视频| 无码熟妇人妻av在线电影| 日本不卡在线视频| 亚洲自拍偷拍精品| 国产精品九色蝌蚪自拍| 91午夜精品亚洲一区二区三区| 欧美videos中文字幕| 一区二区三区视频网站| 2019中文字幕在线免费观看| 日韩视频在线直播| 中文字幕日韩精品一区二区| 久久午夜电影| 一本加勒比波多野结衣| 亚洲黄色录像片| 国产精品久久免费| 亚洲性视频网站| 日韩激情电影| 国产传媒一区| 亚洲综合婷婷| 在线不卡一区二区三区| 久久久久国产精品人| 久久久久久久黄色片| 欧美sm美女调教| 成人欧美在线| 成人春色激情网| 第一会所亚洲原创| 国产欧美高清在线| 91丝袜国产在线播放| 国产无精乱码一区二区三区| 欧美一二三四在线| 黄色成年人视频在线观看| 国产精品亚发布| 日韩在线看片| 五月婷婷丁香综合网| 国产日韩欧美不卡在线| 成年人视频免费| 国产亚洲欧美日韩美女| 日韩性xxx| 午夜午夜精品一区二区三区文| 久久天堂成人| 精品人妻中文无码av在线| 欧美视频在线一区二区三区 | 久久久免费视频网站| 99国产欧美另类久久久精品| 日本三级2019| 亚洲精品suv精品一区二区| 国产中文在线播放| 九色综合日本| 美女精品一区| 超碰人人干人人| 欧美精品在欧美一区二区少妇| 日本激情视频在线观看| 91精品综合久久久久久五月天| 在线一区电影| 成年人小视频在线观看| 精品国产91乱高清在线观看 | 成人看片爽爽爽| 亚洲精品久久久久久久蜜桃臀| 粉嫩绯色av一区二区在线观看| 久久露脸国语精品国产91| 亚洲免费av网址| 黄色成人小视频| 特级黄色录像片| 成人av资源网站| 久久久久久在线观看| 在线丨暗呦小u女国产精品| 青春草在线视频| 韩国一区二区三区美女美女秀| 亚洲自拍另类| 美国一级片在线观看| 日韩亚洲电影在线| 天堂√8在线中文| 亚洲精品二区| 粉嫩一区二区三区在线看| 久草视频一区二区| www.日韩系列| 国产毛片久久久| 不卡av免费在线| 伊人婷婷欧美激情| 日本啊v在线| 成人黄色在线观看| 日韩视频一区| 国产精品国产三级国产传播| 欧美精品一区在线观看| 日本韩国欧美| 欧美做受777cos| 久久精品人人做人人爽人人| 国产乱淫a∨片免费观看| 91国自产精品中文字幕亚洲| 欧美aaaaaaaaaaaa| 伊人网综合视频| 在线观看91av| 亚洲高清黄色| 久久久天堂国产精品| 国产欧美日产一区| 亚洲成人精品女人久久久| 国产精品丝袜久久久久久高清 | 69**夜色精品国产69乱| 四虎8848精品成人免费网站| 久久久久久久无码|