精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

跨平臺多模態智能體基準測試來了!但全班第一只考了35.26分

人工智能 新聞
近日,來自CAMEL AI、KAUST、CMU、斯坦福、清華等高校和機構的研究人員推出了一個跨平臺的多模態智能體基準測試,全面覆蓋了Agent系統的真實工作場景。

假如你目前正在使用和研究類似CAMEL的多智能體系統,現在已經有了扮演研究者的Agent和負責寫論文的Agent,再添加一個事實核查Agent會改善結果嗎?

圖片

如果無法有效評估這種更改的影響,就很難確定前進的方向。

當然,從另一個角度來說,有一個令人信服的基準測試用來給大家刷分也是很重要的(狗頭)。

近日,來自CAMEL AI、KAUST、清華等高校和機構的研究人員推出了一個跨平臺的多模態智能體基準測試——CRAB。

值得一提的是,CAMEL AI團隊最早做出了基于大語言模型的多智能體開源項目:https://www.camel-ai.org/、https://github.com/camel-ai/camel。

圖片

論文地址:https://arxiv.org/abs/2407.01511

這個Benchmark涉及當前AI應用的幾個重點:多模態、多智能體和跨平臺。

多模態能力就不用說了,畢竟是現實需求。

而多智能體系統則能夠更好的為人類服務,解決更佳復雜的任務。

對于跨平臺,可以舉個例子:比如用手機拍完照片,然后發到電腦上P圖,這就需要跨越了兩種操作系統(平臺)。

所以,多模態、多智能體和跨平臺,是當下AI打工人能夠完成真實場景下的復雜任務所必備的能力。

圖片

上圖展示了CRAB的總體架構,同時也是多智能體系統基準測試的工作流程。

通過將指令分配給基準測試系統內的主Agent和圖評估器,來初始化任務。

工作流是一個循環:主Agent觀察、計劃和指示子Agent,子Agent在各自的平臺中執行操作。

圖評估器監控平臺中任務的狀態,在整個工作流中不斷更新和輸出任務完成指標。

總的來說,CRAB是一個與現實世界情況密切相關的基準測試,能夠更準確地反映多智能體系統在復雜任務中的表現。

那么,在這種要求甚高的測試中,最強大的一些模型能考多少分呢?

圖片

——答:全班第一考了35.26分(CR指的是完成率)。

其實還行,畢竟是突擊考試。而現在靶子已經畫好了,可以期待今后的模型或者AI系統進化出更貼近現實的能力。

跨平臺多模態智能體評估

Crab提供了一個全面的交互式的任務評估框架,Agent需要在各種設備和平臺上同時運行,滿足在不同系統中高效完成任務的條件。

作者提出了一種稱為圖評估器的新型評估方法,與傳統的基于目標或者軌跡的方法不同,圖評估器通過檢查完成任務的中間過程將任務分解為多個子目標。

每個子目標都被分配了一個判斷函數來驗證其完整性,并且每個節點都被視為圖評估器中的一個節點。

圖結構描述了子目標之間的順序和并行關系,因此提供了細粒度的指標,同時又適應多種解決方案。

圖片

上表將Crab與現有框架進行了比較,包括測試涉及的幾項關鍵能力:

Interactive Environment區分是使用交互式平臺還是靜態數據集;


Multimodal Observation指定了基于視覺的觀察(例如屏幕截圖)的可用性;


Cross-platform表示支持多個操作系統或平臺;


Evaluation描述了評估指標,分為基于目標(僅根據最終目標檢查平臺狀態)、基于軌跡(將Agent操作軌跡與標準操作序列進行比較)、多重(因任務而異)或基于圖(每個節點作為中間檢查點的 DAG);


Task Construction展示了任務構建方法,包括人工制作、LLM啟發(比如LLM生成任務草稿,但由人工驗證和注釋)、模板(填寫任務模板中的空白)或子任務組合(組成多個子任務以構建任務和評估器)。

基于Crab框架,作者開發了一個基準測試Crab Benchmark-v0,支持Android環境和Ubuntu環境。

基準測試總共包含100個真實世界的任務,包括跨平臺和單平臺跨多個難度級別的任務。

圖片

任務涉及各種常見問題,以及實際應用程序和工具,包括但不限于日歷、電子郵件、地圖、網絡瀏覽器、和終端,以及智能手機和臺式機之間的常見交互。

框架

假設Agent在數字設備(比如臺式機)上自主執行任務。這種設備通常有輸入設備(鼠標和鍵盤)用于人機交互,以及輸出設備(屏幕)來允許人類觀察其狀態。

作者將這種類型的設備表示為一個平臺。在形式上可以定義為一個無獎勵的部分可觀測馬爾可夫決策過程(POMDP),用元組M:=(S,A,T,O)表示。

圖片

其中S表示狀態空間,A表示動作空間,T:S×A→S是轉移函數,O是觀測空間。

考慮到現實場景中多個設備的協作性質,可以將多個平臺組合成一個集合M=M1,M2,...,Mn,其中n是平臺的數量,每個平臺Mj=(Sj,Aj,Tj,Oj)。

定義一個需要跨多個平臺操作的任務,該任務被形式化為一個元組(M,I,R),其中M是平臺集合,I是以自然語言指令的形式表示的任務目標,R是任務的獎勵函數。

系統中的Agent使用預定義的系統提示、并保留其對話歷史記錄。

Agent系統由負責規劃、推理和執行操作的單個Agent組成,或者由多個Agent進行協作。

圖片

把復雜任務分解為多個更簡單的子任務,是讓Agent系統能夠更加精準的完成復雜任務的方法之一。

研究人員將這一概念引入基準測試領域,將復雜任務分解為具有順序和并行連接的子任務,也就是上圖中的分解任務圖(GDT)。

GDT提供了一種新的任務分解方法:用DAG結構表示分解后的子任務。在GDT中,每個節點都是一個子任務,形式化為一個元組(m,i,r),其中m指定了執行子任務的平臺,i提供了自然語言指令,r表示獎勵函數。

這個函數評估m的狀態并輸出一個布爾值,以確定子任務是否完成。GDT中的邊表示子任務之間的順序關系。

跨平臺

與單一平臺任務相比,跨平臺任務有三個主要優勢:

首先,跨平臺任務反映了現實世界場景,人類同時使用多個設備來完成任務。

其次,這些任務需要在平臺之間進行復雜的消息處理和信息傳遞,要求Agent規劃行動、為每個平臺構建輸出,并記住需要傳遞的內容,從而展示出對現實世界的高層次理解,和解決復雜任務的能力。

最后,多Agent系統被證明在執行復雜任務時更加有效,而跨平臺任務非常適合多Agent系統,因為它們可以通過每個平臺中不同的觀測空間、行動空間和專門知識進行劃分。

圖片

Crab使用統一接口允許Agent在所有平臺中操作。作者通過名稱、所屬平臺、功能的具體描述和參數來定義一個動作。

Agent必須在每個回合提供動作名稱、參數和目標平臺。Crab將動作轉換為相應的功能,并通過網絡將其路由到物理或虛擬設備。

圖評估器

為了評估大語言模型作為Agent的能力,大多數基準測試僅基于Agent操作后平臺的最終狀態來評估Agent。

只判斷最終目標是成功還是失敗,顯然不夠公平,就像大題不會做,但寫個解是應該給分的。

另一種方法是基于軌跡匹配,將Agent的操作與每個任務的預定義標準操作序列進行比較。

然而,在現實世界系統中,任務可能有多條有效的執行路徑,比如復制文件可以使用文件管理器,也可以使用命令行。

評估指標

所以本文采用了與平臺狀態同步的圖評估器,通過子任務完成的當前狀態來跟蹤Agent的進度。

除了傳統的成功率(SR),只有在所有子任務都完成時才將任務標記為成功,作者還引入了三個指標,衡量Agent的性能和效率:

完成率(CR)測量完成子任務節點數的比例,計算方式為C/N,其中C是已完成節點的數量,N是總節點數。該指標直觀地反映了Agent在給定任務上的進展情況。

執行效率(EE)計算為CR/A,其中A表示執行的動作次數,反映了Agent的任務執行效率。

成本效率(CE)計算為CR/T,其中T是Agent使用的總token數,評估了Agent消耗資源的效率。

實驗

要在Crab Benchmark-v0中運行,多模態模型需要支持:

(1)接受多模態混合輸入,系統同時提供屏幕截圖和文本指令作為提示;

(2)處理多輪對話,大多數任務需要Agent執行多個操作,必須在上下文中存儲歷史消息;

(3)通過函數調用生成結構化輸出。

實驗選擇了四種滿足這些標準的多模態模型:GPT-4o、GPT-4 Turbo、Gemini 1.5 Pro和Claude 3 Opus,下表給出了其中一部分結果:

圖片

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-07-04 16:50:07

工具AI模型

2025-06-09 08:50:00

2016-05-19 13:44:53

云計算大數據

2024-08-14 15:00:00

模型數據

2024-07-23 14:10:48

2025-05-26 09:49:59

多模態智能體RAG

2025-10-15 14:02:29

AI模型自動駕駛

2025-06-26 09:01:14

2018-02-05 10:43:16

旅行青蛙

2024-11-14 10:40:00

智能體模型

2017-11-09 19:22:08

華為

2024-12-13 07:30:40

2017-05-15 12:00:05

2016-06-06 10:12:16

攝像頭智能硬件

2019-08-09 17:53:41

戴爾

2025-07-16 08:54:00

AI模型智能體

2025-04-14 10:58:53

Agno多模態智能體LangGraph

2019-10-30 15:27:28

Google谷歌Alphabet

2022-10-18 22:20:36

CSS矩形border
點贊
收藏

51CTO技術棧公眾號

黄色录像一级片| 麻豆传传媒久久久爱| 国产a级免费视频| 99伊人成综合| 中文字幕欧美日韩| 1314成人网| 都市激情亚洲一区| ...xxx性欧美| 老司机精品福利在线观看| 中文字幕网址在线| 在线国产欧美| 色噜噜狠狠狠综合曰曰曰| 中文字幕久久久久久久| 日韩成人av电影| 亚洲另类中文字| 日本一区二区三区免费看| 国产精品视频在线观看免费| 在线亚洲伦理| 久久综合五月天| 国产jjizz一区二区三区视频| 日本黄色成人| 日韩欧美第一页| 青青青在线观看视频| 久久这里精品| 成人免费精品视频| 91久久精品国产| 一二三区免费视频| 精品动漫3d一区二区三区免费| 国产一区二区三区在线视频| 人妻体内射精一区二区三区| 在线视频成人| 欧美亚一区二区| 精品久久一二三| 色呦呦呦在线观看| 国产精品美女久久久久av爽李琼 | 51一区二区三区| 亚洲一级电影视频| 男女激烈动态图| 视频一区二区三区不卡 | 登山的目的在线| 精品国产乱码久久久| 亚洲精美色品网站| 看全色黄大色黄女片18| 亚洲精品一区国产| 3d动漫精品啪啪1区2区免费| 中文字幕天天干| 欧美成人黑人| 日韩欧美在线视频| 少妇人妻在线视频| 美女搞黄视频在线观看| 亚洲成av人片在线| 成人免费在线网| 丰满大乳少妇在线观看网站| 亚洲精品乱码久久久久久久久 | 日韩欧美精品在线观看| 欧美综合在线播放| а√天堂8资源在线| 亚洲福利一区二区| 日韩精品xxxx| 亚洲欧美小说色综合小说一区| 红桃av永久久久| 一本大道熟女人妻中文字幕在线 | 怡红院一区二区| 超碰cao国产精品一区二区| 日韩免费电影网站| 91传媒理伦片在线观看| 久久a爱视频| 日韩精品极品在线观看| 欧美激情aaa| 日本一二区不卡| 久久的精品视频| 久久机热这里只有精品| 亚洲免费精品| 国产成人精品视频在线| 91theporn国产在线观看| 国产麻豆精品久久一二三| 岛国视频一区| 欧美新色视频| 国产精品久线在线观看| 中文字幕日韩一区二区三区| 色婷婷av在线| 精品久久在线播放| 凹凸日日摸日日碰夜夜爽1| 东京一区二区| 欧美日韩日本视频| 九九热在线免费| 久久福利在线| 这里是久久伊人| 日韩精品在线播放视频| 久久香蕉网站| 一本色道久久综合狠狠躁篇怎么玩 | 久久国产人妖系列| 亚洲va男人天堂| www.五月天激情| 99精品偷自拍| 欧美精品久久| av在线播放av| 亚洲一区二区av在线| 国产精品无码一区二区在线| 奇米777日韩| 欧美精品vⅰdeose4hd| 日本在线视频播放| 日本天堂一区| 日韩专区中文字幕| 九九热在线免费观看| 日韩成人伦理电影在线观看| 91在线看网站| 欧洲亚洲精品视频| 亚洲精品成人悠悠色影视| 精品少妇人妻av免费久久洗澡| 成人免费看黄| 欧美一区二区女人| 亚洲av永久无码精品| 久久国产影院| 4p变态网欧美系列| 99热这里只有精| 97精品国产露脸对白| 在线不卡日本| 亚洲人成在线网站| 91精品国产一区二区三区| 一级特级黄色片| 欧美 亚欧 日韩视频在线 | 国产成人午夜99999| 免费国产在线精品一区二区三区| 日本免费中文字幕在线| 黑人巨大精品欧美一区二区免费| 久久精品一卡二卡| 成人精品久久| 欧美一级电影免费在线观看| 国产精品人人妻人人爽| 久久中文字幕电影| 欧美视频在线第一页| yy6080久久伦理一区二区| 亚洲国产精品大全| 免费高清在线观看电视| 久久久精品午夜少妇| 都市激情久久久久久久久久久| 国产小视频在线播放| 精品女同一区二区三区在线播放 | 浪潮色综合久久天堂| 日韩精品一区二区三区视频播放| 国产7777777| 亚洲在线免费| 国产一区二区黄色| 视频在线这里都是精品| 制服丝袜亚洲网站| 成年人一级黄色片| 久久99精品国产麻豆不卡| 欧美日韩喷水| www.com.cn成人| 精品亚洲一区二区三区四区五区 | 无码国产伦一区二区三区视频 | 色网站在线播放| 成人av在线资源| 天天想你在线观看完整版电影免费| 亚洲国产91视频| 日韩一区二区三区国产| 97人妻精品视频一区| 国产农村妇女毛片精品久久麻豆 | 5566中文字幕| 美女一区二区三区| 亚洲精美视频| 欧美日韩破处视频| 久久久精品在线观看| 中文亚洲av片在线观看| 91丨九色丨国产丨porny| 男人和女人啪啪网站| 欧美调教在线| 国产不卡在线观看| 成人高清免费在线播放| 欧美在线免费观看视频| 懂色av蜜桃av| 久久精品国产精品亚洲精品| 中文字幕中文字幕一区三区| 国产一区二区三区四区五区3d| 中文字幕在线精品| 97超碰人人模人人人爽人人爱| 1区2区3区精品视频| 五月天婷婷在线观看视频| 伊人成综合网| 国产欧美日韩一区二区三区| 一区二区三区短视频| 精品伊人久久97| 国产又粗又黄又爽的视频| 亚洲精选一二三| 欧洲熟妇的性久久久久久| 99热免费精品在线观看| 奇米视频888战线精品播放| 成人mm视频在线观看| 日韩视频在线一区| 国产91视频在线| 黑人与娇小精品av专区| 少妇视频在线播放| 国产精品伊人色| 18禁免费无码无遮挡不卡网站| 国产午夜一区| 91久久久久久国产精品| а√天堂中文在线资源8| 亚洲精品视频免费| av网站免费播放| 欧美性猛交xxxx乱大交| 人妻互换一区二区激情偷拍| 国产精品一区一区| 99re在线视频免费观看| 亚洲女同一区| 国外成人在线视频网站| 中文在线免费二区三区| 久久综合伊人77777尤物| 性xxxx18| 欧美一级黄色片| 亚洲s码欧洲m码国产av| 亚洲另类在线视频| 69视频在线观看免费| 国产成人精品一区二| 日日碰狠狠添天天爽超碰97| 99视频精品全部免费在线视频| 国产美女在线精品免费观看| 福利一区二区| 午夜精品久久久久久久久久久久| 亚洲乱亚洲乱妇| 亚洲精品少妇网址| 亚洲精品久久久蜜桃动漫 | 91视频在线观看免费| 三级一区二区三区| 国产一区二区三区久久久久久久久| 伊人久久大香线蕉午夜av| 美女视频亚洲色图| 亚洲自拍另类欧美丝袜| ririsao久久精品一区| 久久这里有精品| www.中文字幕久久久| 亚洲国产精品久久91精品| 国产美女精品视频国产| 欧美最新大片在线看| 国产精品18p| 一区二区三区在线播| www.av免费| 中文字幕av一区二区三区| 人妻在线日韩免费视频| 国产99久久久国产精品潘金| 91pony九色| 久久精品国产一区二区| 亚洲爆乳无码专区| 在线播放日韩| 国产乱子伦农村叉叉叉| 精品91视频| 蜜臀av色欲a片无码精品一区| 91成人精品视频| 一区二区av| 成人精品视频| 中国成人在线视频| 国产精品88久久久久久| 曰韩不卡视频| 99久久夜色精品国产亚洲1000部 | 精品久久电影| 你懂的网址一区二区三区| 欧美猛男同性videos| 欧美日韩在线不卡一区| 亚洲+变态+欧美+另类+精品| 国产视频不卡| 精品综合久久88少妇激情| 国产精品久久久久久免费观看| 一区二区网站| 92福利视频午夜1000合集在线观看| 日韩精品三级| 国产精品国产精品国产专区蜜臀ah | 欧美亚洲精品在线| 亚洲精品一区二区毛豆| 精品一区二区三区在线| 中文字幕制服丝袜在线| 久久久人成影片免费观看| 亚洲美女自拍偷拍| 欧美久色视频| 青娱乐自拍偷拍| 久久综合图片| 欧美国产日韩在线视频| 国产成人自拍网| 东京热av一区| www国产精品av| 蜜桃传媒一区二区亚洲| 国产精品乱人伦| 国产熟女一区二区| 一区二区三区在线观看欧美| 国产精品7777| 日韩人在线观看| 国产精品无码粉嫩小泬| 欧美一区二区三区性视频| 91国产精品一区| 亚洲精品美女在线观看播放| 国产二区视频在线观看| 久久精品国产亚洲| a毛片不卡免费看片| 国产97在线观看| www.成人| 精品蜜桃一区二区三区| 91欧美大片| 欧美三级在线观看视频| 日本aⅴ免费视频一区二区三区 | 99久久伊人网影院| 一级特黄曰皮片视频| 亚洲成人av中文| 一区二区日韩视频| 亚洲国产精品一区二区三区| 1769在线观看| 亚洲91精品在线观看| 亚洲欧美在线成人| 亚洲最大成人免费视频| 无码少妇一区二区三区| 久久精品国产一区| 久久婷婷一区二区| 另类小说综合欧美亚洲| 看全色黄大色黄女片18| 国产精品热久久久久夜色精品三区| 国产又黄又粗又猛又爽的| 黑人与娇小精品av专区| 99视频在线观看免费| 亚洲人av在线影院| 欧美人与禽性xxxxx杂性| 国产成一区二区| 国产精一区二区| 亚洲激情一区二区三区| 99热免费精品在线观看| 欧美激情国内自拍| 国产情人综合久久777777| 国产一级特黄视频| 精品视频一区二区三区免费| 欧美女优在线| 国内外成人免费激情在线视频网站| 日本成人在线网站| 日产国产精品精品a∨| 亚洲精品乱码| 污污免费在线观看| 亚洲人成网站色在线观看| 国产99久久久久久免费看| 精品爽片免费看久久| 超黄网站在线观看| av一区二区三区四区电影| 色婷婷综合网| 亚洲一区在线不卡| 久久久777精品电影网影网 | 亚洲黄一区二区三区| 波多野结衣大片| 怡红院精品视频| 唐人社导航福利精品| 蜜桃欧美视频| 国产精品久久久久久久免费软件| 久久精品aⅴ无码中文字字幕重口| 国产精品久久久久aaaa| 五月天中文字幕| 亚洲午夜激情免费视频| 亚洲美女尤物影院| 久久精品日韩精品| 免费亚洲一区| 男人天堂资源网| 欧美三级视频在线播放| jizz日韩| 成人精品视频久久久久| 久久国产电影| 国产精品区在线| 亚洲欧美综合色| 91亚洲视频在线观看| 久久精品99久久久香蕉| 四虎国产精品成人免费影视| 亚洲精品免费在线看| 国产精品91一区二区| 久草免费在线观看视频| 精品国产91洋老外米糕| 国产深夜视频在线观看| 好吊色欧美一区二区三区四区| 日韩午夜电影| 国产精品无码一区二区三区免费| 欧美丝袜一区二区| 国产在线中文字幕| 国产精品老女人精品视频| 国产亚洲一区二区三区不卡| 国产3p在线播放| 亚洲乱码精品一二三四区日韩在线| 午夜精品小视频| 欧美有码在线视频| 欧美综合视频| 在线观看一区二区三区四区| 精品国产91久久久| 黄色毛片在线看| 成人激情视频在线观看| 国内精品嫩模av私拍在线观看| 成年人在线观看av| 欧美日韩国产系列| 色婷婷av在线| 欧美亚州在线观看| 国产精品1区2区| 全部毛片永久免费看| 国产亚洲一区精品| 日韩成人在线观看视频| 2022亚洲天堂| 亚洲一区二区三区四区五区中文| 五月婷婷在线观看视频| 国产欧美日韩专区发布| 亚洲午夜精品久久久久久app| 在线免费播放av| 欧美一区二区观看视频|