Meta ARE:構(gòu)建大規(guī)模agent測試環(huán)境的開源利器
Meta 論文(ARE: scaling up agent environments and evaluations)開源了Meta agent研究環(huán)境(ARE)。ARE + Gaia2 — 一個用于在現(xiàn)實(shí)的、時間驅(qū)動環(huán)境中構(gòu)建和壓力測試agent系統(tǒng)的研究平臺和基準(zhǔn)。論文介紹了一個模塊化模擬器(ARE)和一個移動端風(fēng)格基準(zhǔn)(Gaia2),強(qiáng)調(diào)異步事件、寫入操作驗證以及在嘈雜、動態(tài)環(huán)境中的多agent協(xié)調(diào)。
圖片
ARE:模擬器 --所有內(nèi)容都建模為應(yīng)用程序、事件、通知和場景 ;時間持續(xù)流動,即使在agent思考時也是如此,因此慢速模型會錯過截止時間 ;agent使用工具、接收異步通知,并在有向無環(huán)圖定義的規(guī)則下運(yùn)行。
圖片
圖片
Gaia2:基準(zhǔn)測試 --在類似智能手機(jī)的世界中有1,120個場景,包含12個應(yīng)用程序(聊天、日歷、購物、郵件等) ;六種主要挑戰(zhàn)類型:搜索、執(zhí)行、適應(yīng)性、時間、模糊性和agent間協(xié)作(示例見第12-14頁,GUI截圖中顯示了事件圖) ;場景可驗證:通過硬檢查(ID、順序)和軟LLM判斷(內(nèi)容)將預(yù)言機(jī)寫入操作與agent操作進(jìn)行比較。
結(jié)果: 沒有單一模型占主導(dǎo)地位:GPT-5"高"推理在困難任務(wù)上領(lǐng)先,但在時間關(guān)鍵任務(wù)上崩潰。Claude-4 Sonnet在速度與準(zhǔn)確性之間取得平衡,但成本更高。開源模型(如Kimi-K2)在適應(yīng)性方面顯示出潛力。擴(kuò)展曲線趨于平緩,顯示在相同框架上投入更多計算資源的收益遞減。
圖片
強(qiáng)推理模型經(jīng)常在及時性方面失敗("逆向擴(kuò)展"效應(yīng))。即時模式實(shí)驗證實(shí),當(dāng)截止時間很重要時,長時間推理會有害。多agent設(shè)置幫助較弱的模型更好地協(xié)調(diào),但對最強(qiáng)系統(tǒng)產(chǎn)生混合結(jié)果。
圖片
本文轉(zhuǎn)載自??AI帝國??,作者:無影寺

















