精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

田淵棟團隊新作祭出Agent-as-a-Judge!AI智能體自我審判,成本暴跌97%

人工智能 新聞
AI評估AI可靠嗎?來自Meta、KAUST團隊的最新研究中,提出了Agent-as-a-Judge框架,證實了智能體系統能夠以類人的方式評估。它不僅減少97%成本和時間,還提供豐富的中間反饋。

AI智能體,能否像人類一樣有效地評估其他AI智能體?

對于AI智能體來說,評估決策路徑一直是棘手的問題。

已有的評估方法,要么只關注結果,要么要要過多的人工完成。

為了解決這一問題,田淵棟、Jürgen Schmidhuber帶領的團隊提出了「Agent-as-a-Judge」框架。

圖片

簡言之,讓智能體來評估智能體系統,讓AI審AI。

它不僅可以減少97%的成本和時間,還能提供豐富的中間反饋。

這是「LLM-as-a-Judge」框架的有機延伸,通過融入智能體特性,能夠為整個任務解決過程提供中間反饋。

圖片

論文地址:https://arxiv.org/abs/2410.10934v1

研究人員提出了DevAI基準,為全新框架提供概念驗證測試平臺。包含55個真實的AI開發任務,帶有詳細的手動注釋。

通過對三個領先的智能體系統進行基準測試,發現它大大優于「LLM-as-a-Judge」框架。

圖片

總之,這項研究真正的變革之處在于:它提供了可靠的獎勵信號,為可擴展的、自我改進的智能體系統鋪平了道路。

「法官」智能體,擊敗大模型

現有評估方法,無法為智能體系統的中間任務解決階段,提供足夠的反饋。

另一方面,通過人工進行更好的評估,代價太大。

而智能體系統的思考方式,更像人類,通常是逐步完成,并且在內部經常使用類人的符號通信來解決問題。

因此,智能體也能夠提供豐富的反饋,并關注完整的思考和行動軌跡。

「Agent-as-a-Judge」不僅保留了「LLM-as-a-Judge」成本效益,還具備智能體特性,使其在整個過程中提供中間反饋。

下圖展示了,大模型、智能體、人類作為評判者的示意圖。

圖片

DevAI:自動化AI開發數據集

另外,在代碼生成領域,基準測試的發展也落后于智能體系統的快速進步。

比如,HumanEval僅關注算法問題,而MBPP則處理簡單的編程任務,但這兩者都沒有反映出開發者面臨的最實際的挑戰。

作為一個改進,SWE-Bench基準確實引入了GitHub現實問題,提供一種全新評估的方法。

不過,它仍需要關注自動修復任務的開發過程。

為了解決當前代碼生成基準測試中的上述問題,研究人員引入了DevAI:AI開發者數據集,其中包含55個由專家注釋者創建的真實世界綜合AI應用開發任務。

圖片

DevAI結構是這樣的:智能體系統首先接收用戶查詢以開始開發,然后根據AI系統滿足需求的程度來評估它,其中偏好作為可選的、較為柔性的標準。

圖3展示了DevAI任務的一個例子。

圖片

DevAI中的任務規模相對較小,但涵蓋了常用的關鍵開發技術。

如圖2所示,任務被標記并覆蓋了AI的多個關鍵領域:監督學習、強化學習、計算機視覺、自然語言處理、生成模型等。

每個任務都是,可能交給研究工程師的真實世界問題,并降低了在這個基準上評估方法的計算成本。

接下來,研究人員將領先的開源代碼生成智能體框架,應用于DevAI中的任務:MetaGPT、GPT-Pilot、OpenHands。

他們讓人類評判者、大模型評判者、以及智能體評判者框架,來評估其性能。

結果如表1所示,MetaGPT最具成本效益(1.19美元),而OpenHands是最昂貴的(6.38美元)。

從開發時間來看,OpenHands完成任務平均耗時362.41秒,而GPT-Pilot耗時最長,為1622.38秒。

平均而言,使用這三者之一對DevAI進行完整評估,大約需要210.65美元和14小時才能完成。

圖片

Human-as-a-Juge:DevAI手動評估

為了確定DevAI的實用有效性,并準確估計當前最先進的智能體系統實際代碼生成能力,研究人員手動評估三個AI開發者基線在DevAI中的應用。

如表2所示,(I)和(D)代表獨立性能與考慮任務依賴性的性能。圖片表示多個專家的進化,并且意味著評估使用白盒測試(允許訪問生成的workspace、人類收集的軌跡和開源代碼庫)。

兩種性能最好的方法(GPT-Pilot和OpenHands)可以滿足大約29%的要求,但只有一項任務可以滿足所有要求。

圖片

另外,在三位人類評估者之間,他們的個人評估存在大量分歧,說明了單一人類評估的不可靠性。

圖片

下圖5總結了人類評估和共識評估的不匹配度。

圖片

??????????-????-??-??????????:智能體評估智能體

根據以往智能體設計的經驗,并通過模仿人類評估過程,研究人員涉及了8個模塊化交互組件,具體包括:

1 圖像模塊:構建一個圖像,獲取項目整個結構,包括文件、模塊、依賴項,還可以將代碼塊分解為代碼片段

2 定位模塊:識別需求所引用的特定文件夾/文件

3 讀取模塊:超越了簡單的文件解析,支持跨33種不同格式的多模態數據的讀取和理解

4 搜索模塊:提供了對代碼的上下文理解,并且可以快速檢索高度相關的代碼片段,以及其背后細微差別

5 檢索模塊:從上下文中提取信息,識別軌跡中相關片段

6 查詢模塊:確定是否滿足給定要求

7 記憶模塊:存儲歷史判斷信息,允許智能體基于過去記憶評估

8 規劃模塊:允許智能體根據當前狀態和項目目標制定策略,并排序任務。

圖片

具體操作流程,如下圖9所示。

圖片

下表3展示了,Agent-as-a-Judge在各項任務中始終優于 LLM-as-a-Judge,特別是在那些訓在任務依賴關系的情況下。

圖片

評判開發者智能體,是一項類別不平衡的任務,滿足要求的情況要比失敗的情況少的多。

而判斷轉移和對齊率等指標可能會產生誤導。比如,由于MetaGPT很少滿足要求, LLM-as-a-Judge很容易將大多數情況識別為負面(在黑盒設置中達到84.15%)。

PR曲線通過平衡精確度和召回率,提供更清晰的性能衡量標準。

這表明,在某些情況 下,Agent-as-a-Judge幾乎可以取代人類評估員。

圖片

最后,在消融研究中,研究人員分析了各種組件的添加,對Agent-as-a-Judge判斷OpenHands性能的影響。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-19 09:48:07

2024-10-18 15:20:00

2024-02-26 00:20:00

AI模型

2023-06-12 09:57:22

AIChatGPT

2023-08-04 13:42:41

2021-10-28 15:41:07

計算機AI 技術

2025-10-08 10:19:29

2024-12-12 09:00:00

2023-03-17 08:28:17

GPT-4AI

2024-03-08 12:35:41

模型數據

2023-12-07 06:51:18

AI模型

2025-03-25 09:12:00

LIMAI模型

2024-10-17 14:10:00

模型訓練

2023-06-30 09:49:23

模型Meta

2023-06-28 18:10:27

羊駝家族大模型集體進化

2024-10-16 13:50:00

模型AI

2020-09-22 09:54:19

谷歌Android開發者

2025-06-20 08:47:00

量子計算AI模型

2022-12-25 13:46:37

生成器

2025-02-17 09:30:00

AI訓練模型
點贊
收藏

51CTO技術棧公眾號

91精品国产91久久久久久一区二区 | 日韩女优一区二区| 欧美2区3区4区| 亚洲二区在线视频| 小说区图片区图片区另类灬| av手机免费看| 丝袜国产日韩另类美女| 蜜臀久久99精品久久久久久宅男 | 欧美激情网友自拍| 中文字幕免费视频| 日韩中文字幕无砖| 色婷婷久久久综合中文字幕| 干日本少妇视频| 欧美日韩激情视频一区二区三区| 久久精品99国产精品日本| 韩日精品中文字幕| 一本在线免费视频| 欧美午夜18电影| 欧美美女黄视频| 18岁网站在线观看| 宅男在线观看免费高清网站| 国产欧美日韩亚州综合 | 一本色道久久综合狠狠躁的番外| 欧美精品一卡两卡| 国产综合免费视频| 蜜乳av一区| 亚洲日本中文字幕区| 日韩av电影在线观看| 好吊色视频一区二区| 九色综合狠狠综合久久| 日韩av观看网址| 日韩精品一区二区三| 亚洲啊v在线观看| 这里精品视频免费| 色婷婷av777| 欧美18xxxx| 日韩欧美电影一区| 6080国产精品| 少妇高潮一区二区三区99| 色老综合老女人久久久| 丁香花在线影院观看在线播放| 国产黄a三级三级三级av在线看| 欧美激情一二三区| 日韩在线国产| 二区三区在线播放| 国产欧美一区二区精品忘忧草| 久久精彩视频| 午夜一区在线观看| 99久久久精品免费观看国产蜜| 波多野结衣成人在线| 国产乱人乱偷精品视频| 激情综合一区二区三区| 国产精品午夜视频| 91成人在线免费| 久久精品国内一区二区三区| 国产精品福利观看| 欧美性受xxx黑人xyx性爽| 天堂午夜影视日韩欧美一区二区| 欧美在线激情网| 欧美黑人一区二区| 日韩高清一级片| 国产精品美女免费看| 正在播放亚洲精品| 久久aⅴ国产欧美74aaa| 成人福利视频在线观看| 99热这里只有精品3| 国产精品一区二区久激情瑜伽| 99re在线播放| 亚洲人午夜射精精品日韩| 91色九色蝌蚪| 亚洲 日韩 国产第一区| 日本高清视频在线观看| 亚洲精选视频在线| 狠狠干 狠狠操| 欧美黑人疯狂性受xxxxx野外| 色欧美88888久久久久久影院| 亚洲成人福利在线观看| 4438五月综合| 精品久久久久久最新网址| 精品一区二区视频在线观看| 九九在线精品| 久久久av亚洲男天堂| 久久久久黄色片| 亚洲一区观看| 国产精品视频免费在线| www.xxx国产| 91麻豆国产香蕉久久精品| 日韩偷拍一区二区| 91极品在线| 欧美日韩国产色视频| 天天爽人人爽夜夜爽| 日韩免费成人| 日韩精品在线观看一区二区| 无码人中文字幕| 欧美特黄一区| 国产精品欧美风情| 免费观看成年人视频| 欧美激情一区二区| 国产96在线 | 亚洲| 日韩一级特黄| 日韩av在线免播放器| 免费黄色激情视频| 在线综合亚洲| 91老司机在线| 九色在线播放| 亚洲国产中文字幕| 国产美女18xxxx免费视频| 久久97精品| 久久久999精品视频| 国产午夜麻豆影院在线观看| 粉嫩久久99精品久久久久久夜| 神马一区二区影院| a'aaa级片在线观看| 欧美精品久久一区| 久久久久久久毛片| 在线国产欧美| 91成人免费视频| sese在线视频| 一本大道av伊人久久综合| 亚洲av无一区二区三区久久| 中文字幕伦av一区二区邻居| 久久久久成人网| 国产精品久久久久久久久久久久久久久久久久 | 岛国av一区二区三区| 亚洲av无一区二区三区久久| 91偷拍一区二区三区精品| 日韩av片电影专区| 天堂在线观看免费视频| 亚洲精品老司机| 加勒比av中文字幕| 久久久综合色| 国产精品美女久久久久久免费| 污污网站在线免费观看| 亚洲一区在线看| 麻豆精品国产传媒| 1024精品久久久久久久久| 国产精品网站入口| 尤物在线视频| 欧美日韩国产综合一区二区 | 日本精品黄色| 国产91色在线免费| 日韩精品系列| 日韩欧美在线观看视频| 黄色a一级视频| 午夜在线一区| 久久亚洲高清| 中文av在线全新| 日韩成人在线电影网| 国产精品自拍99| 成人国产在线观看| 成人性免费视频| 精品福利一区| 欧美有码在线观看视频| 视频一区二区在线播放| 黑人与娇小精品av专区| 波多野吉衣中文字幕| 久久影院亚洲| 欧美日韩国产综合视频在线| 成人性生活av| 影音先锋欧美精品| 国产又大又粗又硬| 玉米视频成人免费看| 精品熟女一区二区三区| 国产欧美69| 日韩资源av在线| 99精品国产九九国产精品| 欧美成人免费全部| 色网站免费观看| 一本高清dvd不卡在线观看| 国产剧情日韩欧美| 日韩黄色影片| 欧美在线色视频| 精品一区二区三孕妇视频| 免费成人小视频| 免费观看国产视频在线| 中文字幕亚洲在线观看| 7777精品视频| 午夜视频在线看| 日韩精品一区二区三区四区视频 | 色悠悠久久综合| 呻吟揉丰满对白91乃国产区| 国产自产2019最新不卡| 农民人伦一区二区三区| 国产亚洲电影| 99久久精品无码一区二区毛片 | 欧美性猛交xxxx偷拍洗澡| 免费黄在线观看| 国产精品一区久久久久| 无码播放一区二区三区| 久久久影院免费| 国产一区二区三区色淫影院| 日本欧美一区| 欧美高清激情视频| 国产高清视频在线播放| 精品久久久久久久一区二区蜜臀| 欧美国产成人精品一区二区三区| 亚洲欧美日韩国产手机在线 | 日本久久久久久久久| 菠萝菠萝蜜在线视频免费观看| 亚洲护士老师的毛茸茸最新章节| 亚洲天堂视频网| 天天综合色天天综合色h| 欧美性生给视频| 92精品国产成人观看免费| 粉色视频免费看| 国产精品美女| 国产成人一区二区三区别| 精品免费在线| 精品久久久三级| 少妇精品在线| 国产精品一二三视频| 亚洲少妇视频| 欧美日韩国产成人在线| √天堂资源地址在线官网| 日韩高清a**址| 亚洲国产精品视频在线| 欧美日本乱大交xxxxx| 无码人妻精品一区二区三区9厂| 亚洲国产日韩精品| 日韩欧美国产成人精品免费| 中文字幕国产精品一区二区| 91视频免费观看网站| 北岛玲一区二区三区四区| 男人的天堂免费| 国内久久精品视频| 香蕉视频禁止18| 狂野欧美一区| 黄色片久久久久| 亚洲综合精品| 国产精品无码人妻一区二区在线| 欧美精品首页| 黄色网在线视频| 亚洲综合激情在线| 中文字幕一区二区三区四区五区| 精品国产一区二区三区四区| 欧美日本韩国一区二区三区| 网红女主播少妇精品视频| 国产精品三区在线| silk一区二区三区精品视频| 成人黄动漫网站免费| 911精品国产| 国产66精品久久久久999小说| 久久九九精品视频| 91视频免费在线| 国产亚洲精aa在线看| 91在线看www| 涩爱av色老久久精品偷偷鲁| 99免费在线观看视频| 亚洲1区在线| 国产精品对白刺激久久久| 国产69精品久久久久9999人| 国产精品夜间视频香蕉| 伊人久久精品| 999国产在线| 韩国女主播一区二区三区| 国产一级精品aaaaa看| 女仆av观看一区| 日韩福利影院| 国产精品精品国产一区二区| 男同互操gay射视频在线看| 欧美天天在线| 国产高清精品在线观看| 久久久久.com| 中文字幕永久有效| 国产精品一区2区| 亚洲久久久久久| 国产午夜三级一区二区三| 国产三级精品三级观看| 亚洲主播在线播放| 中文字幕一区二区人妻电影| 欧美亚洲日本一区| aaa一区二区三区| 亚洲国产精品一区二区久| 手机福利在线| 日韩中文有码在线视频| 日皮视频在线观看| 日韩女在线观看| 亚洲狼人在线| 国产亚洲福利社区| 日韩电影免费网站| a级片一区二区| 麻豆久久精品| 免费不卡av网站| 久久久美女艺术照精彩视频福利播放| 毛片视频免费播放| 五月天丁香久久| 亚洲中文一区二区三区| 亚洲成人1234| 日韩伦理在线观看| 91成人性视频| 综合久草视频| 欧美亚洲免费高清在线观看| 2023国产精品久久久精品双| 91看片就是不一样| 国产麻豆精品视频| 成人黄色免费网址| 午夜视频在线观看一区| 亚洲天堂男人网| 亚洲精品自在久久| 在线黄色网页| 国产精品一区二区性色av | 成人交换视频| 国产精品一区二区av| 久久精品高清| 粗暴91大变态调教| 成人综合在线网站| 极品魔鬼身材女神啪啪精品| 色婷婷综合久久久久中文| www三级免费| 精品国内自产拍在线观看| 女生影院久久| 国产日韩亚洲精品| 亚洲一区二区| 成人日韩在线视频| 久久久91精品国产一区二区精品 | 色狠狠色噜噜噜综合网| 神马午夜一区二区| 欧美日本精品在线| 亚洲天堂网站| 欧美一区免费视频| 国产欧美欧美| 妖精视频一区二区| 一区二区三区在线免费播放| 一级片一区二区三区| 亚洲香蕉在线观看| 亚洲黄色免费看| 国产一区二区三区色淫影院| 欧美视频久久| 精品人妻人人做人人爽夜夜爽| 中文字幕永久在线不卡| 欧美性受xxx黑人xyx性爽| 亚洲午夜未删减在线观看| 成人av观看| 久久五月天婷婷| 国产欧美69| 精品人妻一区二区三区日产乱码卜| 亚洲女人****多毛耸耸8| 97在线公开视频| 久久国产加勒比精品无码| 亚洲欧美专区| 自拍亚洲欧美老师丝袜| 极品销魂美女一区二区三区| 久久av红桃一区二区禁漫| 91精选在线观看| 1区2区3区在线视频| 99久久一区三区四区免费| 国语对白精品一区二区| 精品久久久久一区二区| 午夜伦欧美伦电影理论片| 少妇人妻精品一区二区三区| 7777kkkk成人观看| 国产一区二区精品福利地址| 日本va中文字幕| 中文在线免费一区三区高中清不卡| 久久精品99北条麻妃| 综合网中文字幕| 日韩成人在线电影| 久久香蕉视频网站| 99久久国产综合精品色伊 | 久久夜色精品| 性色国产成人久久久精品| 欧美精选一区二区| 四虎亚洲成人| 久久人人爽爽人人爽人人片av| 久久久久99| 91av手机在线| 精品国产免费人成在线观看| 综合日韩av| 一本色道久久综合亚洲精品婷婷| 麻豆成人久久精品二区三区红| 91嫩草丨国产丨精品| 欧美精品一区视频| 麻豆精品蜜桃| 天堂av在线中文| 91色婷婷久久久久合中文| 国产精品51麻豆cm传媒| 欧美成人自拍视频| 日韩深夜影院| 国产无遮挡猛进猛出免费软件| 亚洲综合无码一区二区| 欧美色综合一区二区三区| 国产日本欧美一区| 亚洲国内欧美| 亚洲一二三四视频| 精品美女一区二区| 国产精品无码久久久久| www.xxx麻豆| 国产欧美日韩精品一区| 精品人妻一区二区三区三区四区 | 91亚洲大成网污www| 一级特黄特色的免费大片视频| 久久久之久亚州精品露出| 精品久久国产| 国产精品扒开腿做爽爽爽a片唱戏 亚洲av成人精品一区二区三区 | 全网免费在线播放视频入口| 亚洲精品资源美女情侣酒店| 成人激情久久| 亚洲一区在线不卡| 午夜精品久久久久久久久久| 美女羞羞视频在线观看|