精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

六小時復刻AI IMO金牌成果,螞蟻多智能體新進展已開源

人工智能 新聞
AWorld的復現實驗,拋出了一個激進結論:當前多智能體系統的數學能力,已超越99%人類選手(雖然測試集有限)。

2025年的IMO,好戲不斷。

7月19日,全世界頂尖大模型在2025年的IMO賽場上幾乎全軍覆沒。時隔1天,OpenAI、DeepMind等頂尖實驗室就在IMO 2025賽場斬獲5/6題,震驚數學圈。

有意思的是,7月23日——兩位來自Harvard和UCLA的學生,用Gemini 2.5 Pro+自研多輪驗證框架,在arXiv扔下一篇論文,首次系統性拆解了「解題+驗證」的IMO解題方法論。48小時后,他們開源了完整代碼。

來自螞蟻的多智能體框架AWorld項目團隊也加入了這場卷王之爭:

7月24日啟動,僅僅6小時,采用AWorld智能體框架,復現并開源了DeepMind的5/6道解題結果,并直接給出了可一鍵運行的多智能體IMO系統。

圖片

果然,大家好奇的點還是跟傳統長思維鏈LangChain等框架有什么不一樣。作者給出的回復,核心就是一個詞,自我進化。即,多智能體能夠超越單個智能體,能夠用于復雜問題協同,以及強化學習的獎勵模型等,最終實現AGI。

圖片

IMO 2025,把復雜推理模型推向了一種新的高度(盡管還處在實驗室階段,但DeepMind透露會對外)。

不過,能解IMO級別數學題的超級單智能體實屬稀有。AWorld的實驗也首次用工程系統證明:多智能體協同的智力上限,有可能超越其依賴的單個模型。

單模的「不可能三角」:為什么必須上多智能體?

單個裸模型,包括Gemini 2.5 pro,幾乎無法一次推理答對IMO賽題:level 1的第1,第4題在小概率下一次推理能答對(背景:IMO包括六道競賽題目,分為兩天進行,參賽者每天需完成3道題目,因此第一題難度相對較低),但是其余4題,一定需要多智能體協同才能完成,這揭露了一個殘酷現實:IMO級問題=單模的不可達之地。

AWorld的實測數據更扎心:

  • 單模嘗試第3題:連續10次推理全部失敗。
  • 多智能體協同:通過「解題者+驗證者」雙角色對話,第3題在第5輪迭代就生成了完整的解答。
  • “多智能體協同的智力上限,有可能超越其依賴的單個模型”的本質是什么呢?

為此,AWorld團隊嘗試提出了幾種解釋視角:

構建最優輸入:從“好問題”到“完美上下文”

多智能體協同的核心優勢在于它能動態地構造出一個遠超初始提問的、高質量的輸入信息。

基本原理(y = f(x)):我們可以將大模型視為一個固定的函數f,其輸出y的質量完全取決于輸入x的質量。

初始輸入的局限:對于如IMO競賽題這類復雜任務,最初的提問(x_0)信息稀疏,缺乏足夠的引導“腳手架”。這使得模型難以在其龐大的能力空間中,僅憑一次嘗試就找到通往正確答案的路徑。

協同的價值:多智能體系統并非提升模型f本身,而是設計了一個“智能流程”:通過生成和整合中間思想(如解題草稿、批判性反饋、改進建議),共同構建出一個信息極其豐富的“超級上下文”。這最終解鎖了模型早已具備、但通過簡單提問難以觸達的深層能力。

實現“元認知”:為系統外掛一個“反思模塊”

元認知,即“關于思考的思考”,是高級智能的核心標志。它包括自我監控、自我評估和自我修正的能力。單個LLM本身不具備真正的元認知,但可以通過角色定義(Role-Play)來執行元認知功能。

它不解決問題,而是評估解決方案的合理性、尋找邏輯漏洞、提出改進建議,從而避免了單模型容易陷入的思維定式和錯誤。

通過交互降低“信息熵”(Reducing Information Entropy)

一個復雜的IMO問題,其解空間的不確定性(信息熵)非常高。每一次有效的多智能體交互都在為系統提供新的約束,從而降低這種不確定性。

例如,審閱者指出“你的第一步假設A是無證據的”,這個反饋極大地減少了后續需要探索的可能性,使計算資源能更集中地探索更有希望的路徑,從而顯著提升了求解的效率和準確性。

綜上,多智能體協同的優越性源于其智能化的流程,而非個體能力的提升。該流程通過協作分解與迭代修正,能有效解鎖基礎模型的深層潛力,最終涌現出超越個體能力之和的系統級智能。

AWorld的「六小時魔法」:把論文變成可運行系統

面對地獄級難度的IMO,相比模型頂流拿下成績秀肌肉,能夠復現的解題過程可能更加有利于技術的演進,所以我們更希望看到有一些開源的工作。AWorld的復現方式,提供了一些思路:

  • 核心結構:采用了”做題家”和”驗證者”的雙智能體對話機制,兩者均依賴于相同的基礎模型(如Gemini 2.5 pro)來構建。其中,做題家負責生成數學解答,驗證者扮演IMO考官角色進行嚴格驗證,兩者通過多輪對話迭代優化解答質量。
  • 核心要素:設計了完整的對話循環機制,包括自動檢測終止條件、最終答案、記錄完整對話歷史,以及基于驗證者反饋的解答重構策略,有效挖掘了基礎模型的潛在能力。
  • 身份設定與上下文工程:做題家采用嚴格的數學證明格式要求,驗證者則具備詳細的錯誤分類體系和標準化的驗證流程,這種專業化的角色分工顯著提升了問題解決的質量和準確性。

目前,AWorld在著名的GAIA Test榜單(即通過增加工具支持、更高效的提示、接入搜索等手段獲得增強能力的新一代大語言模型的基準)上達到了77.08分,在所有署名的智能體中排名第三,在所有開源工作中排名第一。

為多智能體協同而生

作為一個為構建生產級、可擴展多智能體系統而設計的下一代框架,AWorld核心優勢是采用事件驅動的群體智能架構,徹底超越了傳統LangChain等框架的局限。

智能體之間通過事件總線進行異步通信與協作,而非簡單的順序調用。這使得復雜的實時交互成為可能。

強大的工具與模型生態

  • 模型即插即用:通過統一接口,可在30秒內輕松切換OpenAI、Gemini、Claude等任意大語言模型,方便對比測試與成本優化。
  • MCP協議支持:將MCP作為核心能力,允許智能體將其他模型或智能體作為工具調用,極大拓展了能力邊界。所有工具均在安全沙箱中執行,保障企業級安全。

生產級的穩健性與可觀測性

  • 全鏈路可觀測性:提供覆蓋智能體決策、工具調用全過程的追蹤、指標與日志,讓復雜的系統行為清晰透明,易于調試。
  • 精密的上下文與內存管理:支持長短期記憶和復雜編排,確保智能體在執行長周期任務時能保持狀態、不“失憶”。

支持模型持續進化的學習閉環

  • 開放訓練接口:AWorld不僅是執行框架,更是進化平臺。它提供開放接口,可與主流訓練框架結合,利用智能體在真實任務中產生的交互數據對底層模型進行訓練。
  • 實現智能體自我進化:通過“數據-訓練-部署”的閉環,讓智能體在特定領域變得越來越“聰明”,構建真正的專家智能體系統。

如何體驗「IMO級多智能體」?

3步運行(詳見README.md):

  • 一鍵準備環境

進入項目目錄AWorld/examples/imo,然后直接運行腳本./setup_env.sh。自動創建獨立的Conda環境并安裝所有必需的依賴。

  • 配置API密鑰

復制模板文件cp.env_template.env,然后編輯新生成的.env文件,填入你自己的大模型API密鑰(LLM_API_KEY)、模型名稱(LLM_MODEL_NAME)和接口地址(LLM_BASE_URL)。

  • 激活環境并運行

首先激活環境,然后執行主程序來解決指定的數學問題,例如運行python run.py —q imo4來解決IMO2025第4題。

寫在最后:IMO只是開始

AWorld的復現實驗,拋出了一個激進結論:當前多智能體系統的數學能力,已超越99%人類選手(雖然測試集有限)。

當單模在IMO折戟時,多智能體系統已經證明:AI的智能上限,可能不只在于模型有多大,更在于我們如何組織它們工作。

多智能體協作,可能是一條通往更高群體智能的有效路徑。更震撼的是未來潛力:這套系統正在作為reward model訓練下一代模型——用多智能體生成的「高階推理軌跡」作為訓練數據,相當于讓模型從IMO金牌選手的草稿紙里學習。

下一站,AWorld團隊透露正在測試「多智能體+形式化驗證」組合,目標直指Lean4形式化證明。

IMO 2026,可能將是人類最后一次有機會戰勝AI的數學競賽。

Gemini 2.5 Pro+:論文地址:https://arxiv.org/pdf/2507.15855

AWorld:GitHub:https://github.com/inclusionAI/AWorld

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-10-12 11:47:35

Facebook宕機WhatsApp

2012-12-19 11:10:54

2022-02-18 09:53:17

AI芯片設計

2019-05-07 14:28:34

工具性能數據

2023-01-26 00:15:05

AI百萬瀏覽量

2023-07-17 10:21:25

TC39JavaScript

2017-02-22 18:15:31

AI谷歌

2019-11-15 10:11:03

人工智能埃博拉技術

2009-09-25 09:27:33

Ubuntu 2010最新進展Lucid Lynx

2022-10-25 14:01:46

AI游戲

2024-09-13 09:18:49

2012-11-19 10:50:39

思杰CloudStack開源

2015-11-12 09:27:13

C++最新進展

2012-11-19 10:37:57

思杰OpenStack

2013-02-27 16:28:27

思科軟硬件一體化Intucell

2023-08-15 14:35:48

2020-07-02 16:00:53

?Flutter桌面應用代碼

2021-09-14 10:03:35

RustLinux開發工作

2022-03-02 09:53:51

微軟FlutterEngine PR
點贊
收藏

51CTO技術棧公眾號

亚洲成人亚洲激情| 亚洲欧洲综合另类| 国产精品久久久久久久久久小说| 懂色av蜜桃av| 日本一区二区三区视频在线看| 亚洲一区在线电影| 日韩aⅴ视频一区二区三区| 亚洲一区二区影视| 最新国产乱人伦偷精品免费网站| 一区二区三区美女xx视频| 波多野结衣网页| 成人做爰视频www网站小优视频| 亚洲丝袜另类动漫二区| 麻豆传媒一区二区| av中文字幕免费在线观看| 六月天综合网| 高清亚洲成在人网站天堂| 69xxx免费| 欧美1区二区| 欧美一卡二卡三卡四卡| 91最新在线观看| 蜜桃视频在线观看免费视频| 自拍偷在线精品自拍偷无码专区| 欧美日韩一区二区视频在线| 黄色成人一级片| 精品一区二区三区免费毛片爱| 日韩免费精品视频| 色网站在线播放| 欧美三级特黄| 久久亚洲欧美日韩精品专区 | www.激情成人| 91在线在线观看| 国产精品视频一区二区三区,| 久久亚洲精品伦理| 51精品在线观看| 国产黄色片视频| 欧美不卡高清| 久久成年人免费电影| 亚洲区一区二区三| 日韩大片在线观看| 亚洲一区二区福利| 97超碰在线资源| 台湾亚洲精品一区二区tv| 亚洲成人黄色在线观看| 亚洲熟女一区二区三区| 日韩中文字幕在线一区| 91精品国产综合久久久久久久| 亚洲36d大奶网| 人人精品久久| 欧美日韩成人一区| 日韩在线一区视频| 亚洲伊人伊成久久人综合网| 欧美日韩不卡在线| 日本高清一区二区视频| 亚洲一区有码| 日韩欧美你懂的| 人妻互换一二三区激情视频| 成人性生交大片免费看96| 欧美va亚洲va在线观看蝴蝶网| 久久黄色一级视频| 国产精伦一区二区三区| 日韩av综合网| 少妇久久久久久久久久| 欧美手机视频| 久久久999国产| 欧美黄色免费看| 在线视频观看日韩| 青青草精品毛片| 这里只有精品999| 精品一区二区三区在线播放| 99在线视频免费观看| 四虎永久在线观看| 国产亚洲综合色| 一本色道久久99精品综合| 久热国产在线| 亚洲国产一区视频| 成年人免费在线播放| 成人一区视频| 日韩精品一区二区三区老鸭窝| 亚洲中文字幕无码一区| 国产91一区| 欧美精品在线观看91| 日本特黄特色aaa大片免费| 乱人伦精品视频在线观看| 国产在线999| 少妇高潮一区二区三区99小说| 91女厕偷拍女厕偷拍高清| 亚洲va久久久噜噜噜久久狠狠| 老司机精品视频在线观看6| 亚洲综合一区二区| 国产视频在线视频| 91成人入口| 国产亚洲欧洲在线| 久久久一区二区三区四区| 久久国产直播| 99re在线观看| av在线天堂播放| 亚洲成a人片综合在线| 日韩视频免费在线播放| 一区二区日韩| 色999日韩欧美国产| 日韩欧美三级在线观看| 激情综合网av| 欧美尤物一区| √最新版天堂资源网在线| 欧美色图在线观看| 国产精品边吃奶边做爽| 亚洲影视一区| 国产精品久久久久久久久久| 天堂成人在线视频| 亚洲男人的天堂网| 亚洲无吗一区二区三区| 日韩欧美影院| 久久久噜久噜久久综合| 国产精品熟女久久久久久| 久久久蜜桃精品| 国产真人做爰毛片视频直播| 日韩综合久久| 在线观看日韩欧美| 黄色免费av网站| 99精品久久免费看蜜臀剧情介绍| 91麻豆天美传媒在线| 亚洲成av在线| 国产午夜精品久久久| 日本一区二区欧美| 国产不卡免费视频| 在线观看三级网站| 伊人久久大香线蕉综合影院首页| 亚洲一级免费视频| 国产污视频网站| 99久久99久久久精品齐齐| av网站大全免费| 亚洲成人偷拍| 久久99热精品这里久久精品| 97国产成人无码精品久久久| 国产精品久久久久一区二区三区 | 国产盗摄一区二区三区在线| 麻豆中文一区二区| 一本一本a久久| 日韩一级视频| 久久精品一区中文字幕| 国产伦精品一区二区三区免.费| 国产精品久久看| 免费精品99久久国产综合精品应用| 黑人操亚洲人| 国产精品视频成人| 黄网页在线观看| 91 com成人网| 午夜写真片福利电影网| 国产主播一区二区三区| 欧洲精品视频在线| 玖玖精品一区| 欧美国产日韩一区| 欧美少妇bbw| 大荫蒂欧美视频另类xxxx| 在线免费观看污视频| 国产精品一二| 青青草成人网| 精品乱码一区二区三区四区| 久久精品国产69国产精品亚洲| a在线观看视频| 亚洲成年人影院| 成人免费无遮挡无码黄漫视频| 噜噜爱69成人精品| 亚洲最大色综合成人av| 91综合久久爱com| 午夜精品一区二区三区av| 亚洲人在线观看视频| 欧洲av在线精品| 日韩欧美123区| 97se亚洲国产综合自在线观| 久久九九国产视频| 重囗味另类老妇506070| 国产综合色一区二区三区| 伊人久久综合一区二区| 综合网日日天干夜夜久久| 999久久久久久| 福利视频一区二区| 亚洲欧洲综合网| 国产91在线观看丝袜| 成年人视频在线免费| 色喇叭免费久久综合| 99一区二区| 国产综合色在线观看| 欧美人与物videos| 国产在线一二三区| 欧美一二区视频| 国产成人精品777777| 日韩美女视频一区| 极品白嫩丰满美女无套| 极品尤物av久久免费看| 久色视频在线播放| 亚洲精品tv久久久久久久久久| 韩国成人av| 欧美伊人亚洲伊人色综合动图| 国产综合在线视频| 黄在线免费看| 亚洲开心激情网| www日本高清| 欧美性色aⅴ视频一区日韩精品| 九九热只有精品| 中文字幕免费在线观看视频一区| aaa黄色大片| 久久精品国产免费看久久精品| cao在线观看| 综合在线一区| 亚洲不卡一卡2卡三卡4卡5卡精品| 国产午夜精品一区在线观看| 国产精品久久91| 亚洲十八**毛片| 欧美高清videos高潮hd| 91网在线播放| 亚洲男人天堂手机在线| 免费看国产片在线观看| 欧美精品黑人性xxxx| 欧美成人一区二区三区四区| 亚洲午夜国产一区99re久久| 登山的目的在线| 欧美经典一区二区三区| 欧美精品黑人猛交高潮| 丰满放荡岳乱妇91ww| 一级黄色片在线免费观看| 奇米777欧美一区二区| 免费在线激情视频| 99精品欧美| 国产精品久久中文字幕| 亚洲天堂偷拍| 在线观看成人av| 久久人人88| 亚洲成色最大综合在线| 精品久久久久久久| 欧美日韩精品不卡| 免费毛片在线不卡| 免费毛片一区二区三区久久久| h视频久久久| 国产精品久久久久av福利动漫| 国产精品亚洲一区二区在线观看| 国产精品网址在线| 九七影院97影院理论片久久| 国产精品美女主播| 成人亚洲综合| 成人免费视频在线观看超级碰| 欧美黄页免费| 成人免费视频a| 麻豆一区在线| 粉嫩av四季av绯色av第一区| 在线播放一区二区精品视频| av一本久道久久波多野结衣| 国产精品1luya在线播放| 国产精品免费一区二区三区在线观看 | 日本激情一区二区| 亚洲福利小视频| 亚洲av毛片成人精品| 亚洲欧美日韩中文视频| bbbbbbbbbbb在线视频| 深夜福利亚洲导航| 91小视频xxxx网站在线| 欧美激情国产日韩精品一区18| 麻豆av在线播放| 91极品女神在线| 日韩在线免费| 96sao精品视频在线观看| 最新精品在线| 欧美13一14另类| 欧美好骚综合网| 日本久久久网站| 免播放器亚洲| 在线观看日本一区二区| 国产精品一区二区91| 亚洲欧美日本一区| 亚洲国产精品激情在线观看| 麻豆视频在线免费看| 亚洲成a人v欧美综合天堂| 樱花视频在线免费观看| 538prom精品视频线放| 日本韩国免费观看| 国产亚洲一级高清| 神马午夜伦理不卡| 日本三级韩国三级久久| 日韩电影免费观看高清完整版在线观看| 91夜夜未满十八勿入爽爽影院| 日本精品影院| 中文字幕中文字幕99| 亚洲激情不卡| 成人日韩在线视频| 9l国产精品久久久久麻豆| 粉嫩精品久久99综合一区| 亚洲一区二区三区四区中文字幕| 亚洲第一网站在线观看| 日韩欧美精品在线视频| 国产系列在线观看| 欧美激情在线观看| 国产精品成人国产| 精品无码久久久久国产| 久久久久久久久久久妇女| 国产精品丝袜久久久久久消防器材| 久草在线在线精品观看| 素人fc2av清纯18岁| 中文字幕亚洲视频| 中日韩黄色大片| 日韩精品中文字幕一区| 欧美人体大胆444www| 九九热在线精品视频| 日本精品另类| 精品国产一区二区三区麻豆免费观看完整版| 欧美日韩激情在线一区二区三区| 国产91沈先生在线播放| 久99久精品视频免费观看| 在线免费观看麻豆| 精品久久久免费| www.国产免费| 久久久国产一区二区三区| 欧美男女交配| 精品国产一区二区三区四区vr| 在线成人激情| 999这里有精品| 日本一区二区动态图| 欧美啪啪小视频| 亚洲国产欧美一区| 女同视频在线观看| 亚洲一区二区三区四区视频| 青青草97国产精品麻豆| 37pao成人国产永久免费视频| 成人午夜碰碰视频| 久久精品99国产精| 欧美大片在线观看| 在线中文字幕视频观看| 91在线免费观看网站| 婷婷综合社区| 国产福利精品一区二区三区| 国产精品热久久久久夜色精品三区 | 色噜噜夜夜夜综合网| 九色蝌蚪在线| 日本91av在线播放| 亚洲电影一级片| 97超碰青青草| 91小视频在线| 人妻丰满熟妇av无码区| 亚洲精品在线视频| 蜜臀国产一区| 欧美一区免费视频| 日本少妇一区二区| 青青青视频在线播放| 欧美日韩日日骚| 好吊日视频在线观看| 91麻豆国产精品| 永久91嫩草亚洲精品人人| 欧美一区二区三区影院| 一区二区三区四区av| 国产91免费在线观看| 亚州成人av在线| 嫩草一区二区三区| 亚洲欧美激情网| 国产精品色婷婷| 国产精品主播一区二区| 九九精品在线观看| 欧美在线关看| 可以免费在线看黄的网站| 中文字幕+乱码+中文字幕一区| 亚洲综合网av| 欧美疯狂xxxx大交乱88av| 免费看久久久| 日韩福利视频在线| 国产精品久久网站| 精品国产va久久久久久久| 欧美精品18videos性欧美| 秋霞综合在线视频| 久久99爱视频| 伊人婷婷欧美激情| 亚洲日本香蕉视频| 国产精品羞羞答答| 黄色欧美成人| 成年人免费观看视频网站| 欧美人成免费网站| 2021中文字幕在线| 日本一区二区三不卡| 国产麻豆视频一区| 午夜婷婷在线观看| 久久精品国产91精品亚洲| 乱亲女h秽乱长久久久| 美女一区二区三区视频| 伊人性伊人情综合网| 男女视频在线观看| 69堂成人精品视频免费| 久久蜜桃精品| 久久久久久久久久久网| 亚洲图片欧美日产| 中文字幕一区二区三区四区久久| 日本熟妇人妻xxxxx| 亚洲人成电影网站色mp4| 美女做暖暖视频免费在线观看全部网址91| 国产日韩欧美影视| 亚洲欧美日韩专区| 青青草手机在线观看| 亚洲人成欧美中文字幕| 日韩在线观看一区二区三区| 91小视频网站| 欧美色欧美亚洲高清在线视频| 国产激情在线| 三区精品视频观看|