精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NeurIPS 2024 | 真實世界復雜任務,全新基準GTA助力大模型工具調用能力評測

人工智能 新聞
GTA 通過設計真實世界場景的用戶問題、真實部署的工具和多模態輸入,建立了一個全面、細粒度的評估框架,能夠有效評估大語言模型在復雜真實場景下的工具使用能力。

本篇論文已被 NeurIPS 2024 Dataset & Benchmark Track 接收,作者來自上海交通大學 IWIN 計算智能團隊和上海人工智能實驗室。其中,第一作者王驥澤是上海交通大學自動化系一年級博士生,研究方向涉及大模型智能體、自然語言處理。

利用語言模型調用工具,是實現通用目標智能體(general-purpose agents)的重要途徑,對語言模型的工具調用能力提出了挑戰。然而,現有的工具評測和真實世界場景存在很大差距,局限性主要體現在以下幾個方面:

  • 評估問題通常是 AI 生成的,形式固定;
  • 邏輯鏈簡單,不涉及復雜多步推理;
  • 輸入是純文本形式,模態單一;
  • 沒有部署真實可執行的工具,無法端到端評測。

為了突破這些局限,來自上海交通大學與上海人工智能實驗室的研究團隊提出了 GTA(a benchmark for General Tool Agents),一個用于評估通用工具智能體的全新基準,主要特性包括:

  • 真實的用戶問題
  • 真實部署的工具
  • 多模態輸入輸出

GTA 通過設計真實世界場景的用戶問題、真實部署的工具和多模態輸入,建立了一個全面、細粒度的評估框架,能夠有效評估大語言模型在復雜真實場景下的工具使用能力。

圖片

  • 論文標題:GTA: A Benchmark for General Tool Agents
  • 論文鏈接:https://arxiv.org/abs/2407.08713
  • 代碼和數據集鏈接: https://github.com/open-compass/GTA
  • 項目主頁:  https://open-compass.github.io/GTA
  • Hugging Face:https://huggingface.co/datasets/Jize1/GTA

圖片

GTA 中的用戶問題與現有工具評測的用戶問題對比如下表所示。ToolBench 和 m&m's 中的問題明顯地包含了需要調用的工具(藍色字)以及步驟(紅色字)。APIBench 中的問題較為簡單,僅包含單個步驟。相較而言,GTA 的問題既是步驟隱含的,也是工具隱含的,并且是基于現實世界場景的、對人類有幫助的任務。

圖片

GTA 的評估結果表明,GPT-4 在面對真實世界問題時僅完成不到 50% 的任務,而大多數模型完成率低于 25%。揭示了現有模型在處理真實世界問題時面臨的工具使用瓶頸,為未來的通用工具智能體提供了改進方向。

設計準則

GTA 主要有三個核心特性,來評估大語言模型在真實世界場景下的工具使用能力:

  • 真實用戶查詢:包含 229 個人類撰寫的問題,問題具有簡單的真實世界目標,但解決步驟是隱含的,工具也是隱含的,要求模型通過推理來選擇合適的工具并規劃操作步驟。
  • 真實部署的工具:GTA 提供了工具部署平臺,涵蓋感知、操作、邏輯和創作四大類共 14 種工具,能夠真實反映智能體實際的任務執行性能。
  • 多模態輸入輸出:除了文本,GTA 還引入了空間場景、網頁截圖、表格、代碼片段、手寫 / 打印材料等多模態輸入,要求模型處理這些豐富的上下文信息,并給出文本或圖像輸出。這使得任務更加接近實際應用場景,進一步提升了評估的真實性和復雜性。

數據集構建

數據集構建流程包含兩個步驟:

1. 問題構建。專家設計問題樣例和標注文檔,標注人員按照標注文檔中的指示,進行頭腦風暴,基于問題樣例設計更多的問題,最終得到問題集。

2. 答案構建。標注人員手動調用部署好的工具,確保每個問題都可以用提供的工具解決。然后,標注人員根據工具調用過程和工具返回結果,對每個問題的工具調用鏈進行標注。

為了讓評測集更全面地覆蓋真實場景,研究團隊采用了多樣化的擴展策略,包括場景多樣化、工具組合多樣化等。最終得到的評測集包含多圖推理、圖表分析、編程、視覺交互、網頁瀏覽、數學、創意藝術等多種場景,確保了評估任務的全面性和多樣性。

圖片

問題示例

最終共得到 229 個真實場景下的任務,所有問題都隱含工具和步驟,并且包含多模態上下文輸入。這些任務基于現實世界場景,目標明確且易于理解,完成任務對人類有幫助,但對于 AI 助手來說較為復雜。JSON 格式的數據示例可以在 Hugging Face 上找到。

圖片

圖片

圖片

圖片

模型評測

GTA 在兩種模式下評估語言模型:

  • 逐步模式 (step-by-step mode)。該模式旨在細粒度地評估模型的工具使用能力。在該模式下,ground truth 工具鏈的前 n 步作為 prompt,模型預測第 n + 1 步的操作。在逐步模式下,設計四個指標:InstAcc(指令遵循準確率)、ToolAcc(工具選擇準確率)、ArgAcc(參數預測準確率)和 SummAcc(答案總結準確率)。
  • 端到端模式 (end-to-end mode)。該模式旨在反映智能體實際執行任務時的表現。在這種模式下,模型會自主調用工具并解決問題,而無外部引導。使用 AnsAcc(最終答案準確率)來衡量執行結果的準確性。此外,還計算了工具選擇方面的四個 F1 score:P、L、O、C,分別衡量感知 (Perception)、操作 (Operation)、邏輯 (Logic) 和創作 (Creativity) 類別的工具選擇能力。

圖片

評測結果表明,目前的大語言模型在復雜真實場景任務的工具調用上仍存在明顯的局限性。GPT-4 在 GTA 上僅能完成 46.59% 的任務,而大多數模型僅能完成不到 25% 的任務。

研究團隊發現,目前語言模型在完成 GTA 任務的關鍵瓶頸是參數傳遞準確率。研究人員計算了各指標與最終結果準確率 AnsAcc 之間的皮爾森相關系數,發現 ArgAcc 的相關系數最高,說明參數傳遞是目前大多數模型的瓶頸。例如,Llama-3-70B-Chat 的 InstAcc,ToolAcc,SummAcc 都比 Qwen1.5-14B-Chat 高,但 ArgAcc 比 Qwen1.5-14B-Chat 低,導致最終結果準確率更低。

錯因分析

為了進一步理解模型在參數傳遞上的失誤原因,研究團隊選擇兩個典型模型 GPT-4-1106-Preview 和 Llama-3-8B-Instruct,對它們進行了深入的錯誤原因分析,如下表所示。

圖片

分析顯示,GPT-4 與 Llama-3 的錯誤分布存在顯著差異。GPT-4 模型傾向于生成 “無動作”(No Action)的響應,在 38.7% 的錯誤中,GPT-4 嘗試與用戶互動,錯誤地認為問題表述不夠明確,要求提供額外信息。而在 50% 的錯誤中,模型僅生成內部思考過程,而未采取實際行動。

而 Llama-3 的大部分錯誤來自于格式錯誤,特別是調用工具或生成最終答案時。45.4% 的錯誤是由于參數未能遵循合法的 JSON 格式。此外,在 16.5% 的情況下,Llama-3 試圖同時調用多個工具,這并不被智能體系統支持。19.6% 的錯誤則源于生成冗余信息,導致參數解析不正確。

總結

本文構建了面向復雜真實場景的通用工具智能體(General Tool Agents)評測基準:

  • 構建了通用工具智能體的評測數據集。問題由人類設計,是步驟隱含、工具隱含的,且立足于真實世界場景,并提供了多模態語境輸入。每個問題都標注了可執行的工具鏈,以支持細粒度的工具使用能力評測。
  • 提供了包含感知、操作、邏輯、創作類別工具的評測平臺。針對工具調用設計了細粒度的評測指標,揭示工具增強的語言模型在真實世界場景中的推理和規劃能力。
  • 評測和分析了主流大語言模型。從多個維度評測了 16 個大語言模型,反映了目前的語言模型在真實世界場景下的工具調用能力瓶頸,為通用目標智能體的發展路徑提供建議。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-11-20 12:17:59

2023-07-07 12:30:00

模型技術

2023-08-02 13:50:06

2025-04-10 09:10:00

模型AI評測

2025-02-08 14:10:00

模型系統AI

2025-02-19 09:34:01

2024-07-15 07:52:00

2024-10-16 16:20:00

AI機器人

2024-10-12 13:30:00

2025-11-11 08:45:00

2023-05-05 13:29:04

模型推理

2025-04-17 09:12:00

2024-10-11 14:00:00

模型數據

2025-03-05 08:40:00

2025-01-16 08:40:00

2025-07-18 10:08:17

2024-07-05 15:06:00

2023-06-15 14:06:13

2025-06-09 09:32:35

2023-06-05 10:01:18

模型測評
點贊
收藏

51CTO技術棧公眾號

毛片在线播放网站| 国产情侣在线视频| 欧州一区二区三区| 一区二区三区在线观看国产| 亚洲第一精品自拍| 亚洲一区高清| 亚洲大尺度网站| 久久久久国产精品午夜一区| 中文字幕亚洲一区| 在线观看一区二区三区四区| 日韩伦理三区| 亚洲男同性视频| 国产伦视频一区二区三区| 欧美一区二区三区久久久| 亚洲自拍偷拍网| 日韩精品有码在线观看| 尤物网站在线看| 国产高清不卡| 亚洲高清视频在线| 在线观看欧美激情| 国产伦精品一区二区三区视频我| 不卡一区2区| 亚洲电影免费观看高清完整版在线观看| 日韩在线第三页| 黄色成人在线网| 国产精品综合二区| 日韩色av导航| 日本aaa视频| 国产一区二区高清在线| 在线欧美日韩国产| 黄色av网址在线播放| av超碰免费在线| 国产精品色在线| 欧美一区2区三区4区公司二百| 在线观看黄网站| 一区二区三区四区日韩| 中文字幕在线精品| 精品人妻无码一区二区三区换脸| 99久久免费精品国产72精品九九 | 黑人巨大精品一区二区在线| 免费看日本一区二区| 亚洲国产古装精品网站| 欧美性受xxxx黒人xyx性爽| 激情小说亚洲| 亚洲日本丝袜连裤袜办公室| 日韩国产一区久久| 可以在线观看的黄色| 91原创在线视频| 国产精品免费观看高清| 免费观看a视频| 成人永久免费视频| 日本国产欧美一区二区三区| 久久精品欧美一区二区| 欧美精选一区| 久久久久久尹人网香蕉| 一起草在线视频| japanese色系久久精品| 精品国产区一区| 欧美人与性动交α欧美精品| 理论片午夜视频在线观看| 一区二区三区四区五区视频在线观看 | 不卡av电影院| 国产一区二区播放| 国产伦精品一区二区三区免费优势 | 欧美爱爱视频免费看| sm性调教片在线观看| 婷婷一区二区三区| 国产91在线免费| 电影一区二区三区| 欧美日韩综合在线免费观看| 色噜噜狠狠一区二区| 欧美午夜三级| 欧美一级片在线观看| 无人码人妻一区二区三区免费| 日韩精品一区二区三区中文在线| 欧美精品一区二区三区蜜桃视频| 国产视频久久久久久| 欧美人与拘性视交免费看| 在线电影av不卡网址| 国产午夜手机精彩视频| 妖精视频成人观看www| 国产成人啪精品视频免费网| 一级做a爱片性色毛片| 国产精品一级黄| 大波视频国产精品久久| 你懂得网站在线| 国产精品的网站| 亚洲一区二区三区av无码| 美女一区网站| 欧美一级欧美三级在线观看| 最新中文字幕视频| 色琪琪久久se色| 欧美精品国产精品日韩精品| 日日夜夜狠狠操| 国产麻豆9l精品三级站| 久久久av水蜜桃| 含羞草www国产在线视频| 五月激情综合婷婷| 日韩欧美亚洲另类| 丝袜连裤袜欧美激情日韩| 久久精品一区中文字幕| 国产午夜在线播放| 国产麻豆成人传媒免费观看| 欧美不卡在线一区二区三区| a级网站在线播放| 色国产精品一区在线观看| 精品成在人线av无码免费看| 桃花岛成人影院| 日韩精品一区二区三区中文不卡 | 一级做a爰片久久毛片16| av成人动漫在线观看| 国产精品h视频| 欧美一级大片| 亚洲精品一区二区三区香蕉 | 特黄aaaaaaaaa真人毛片| 国产一区二区三区精品视频| 精品一区二区三区国产| 羞羞的视频在线观看| 欧美探花视频资源| 菠萝菠萝蜜网站| 欧美先锋影音| 91午夜理伦私人影院| 国产影视一区二区| 国产三级欧美三级日产三级99| 黄色一级片黄色| 9999在线视频| 欧美精品 日韩| 国产1区2区在线观看| 国产欧美在线| 成人一区二区在线| 在线中文免费视频| 欧美精品日韩精品| 超碰人人干人人| 日韩成人av影视| 欧美日韩国产综合在线| 亚洲十八**毛片| 日韩av中文字幕在线免费观看| 麻豆精品一区二区三区视频| 精品在线播放免费| 正在播放一区| 亚洲欧洲二区| 久久人人爽亚洲精品天堂| 中文字幕+乱码+中文| 欧美激情一区二区在线| 久久久久久久久久久福利| 色先锋久久影院av| 国产91|九色| 日韩精品系列| 色综合久久综合网| 免费人成又黄又爽又色| 日韩中文字幕一区二区三区| 日韩区国产区| 国产精品66| 久久精品亚洲热| 不卡av中文字幕| 一区二区三区欧美激情| 99亚洲国产精品| 电影91久久久| 欧美大片免费看| 免费的黄色av| 日韩欧美中文在线| 微拍福利一区二区| 麻豆一区二区三区| 天堂av免费看| jizz久久精品永久免费| 91精品国产91久久久| 三区在线视频| 欧美日韩一本到| 东方av正在进入| av中文一区二区三区| 欧美色图另类小说| 成人在线免费观看91| 日韩精品亚洲一区二区三区免费| 精品无码在线视频| 日韩www.| 国产欧美日韩中文| 国产精品剧情一区二区在线观看| 欧美一区二区三区男人的天堂| 久草资源在线视频| 91在线一区二区三区| 看欧美ab黄色大片视频免费| 91欧美国产| 成人在线看片| 成人自拍视频网| 欧美黑人性生活视频| 欧美婷婷久久五月精品三区| 欧美日韩国产一二三| 国产无码精品在线观看| 日本一区二区三区高清不卡| 国产不卡的av| 国产亚洲精品v| 一区二区三区在线观看www| 久久久久久久久成人| 精品伦理精品一区| 香蕉影院在线观看| 亚洲欧美另类综合偷拍| 在线 丝袜 欧美 日韩 制服| 精品一区免费av| 自慰无码一区二区三区| 亚洲精品一二三区区别| 久久精品丝袜高跟鞋| 精品一区二区三区中文字幕视频 | 男人与禽猛交狂配| 久久久久久久免费视频了| www成人免费| 你微笑时很美电视剧整集高清不卡 | 久久国产精品波多野结衣av| 欧美激情自拍偷拍| 亚洲一级Av无码毛片久久精品| 视频在线观看91| av免费看网址| 国产精品毛片一区二区在线看| 国产www精品| 四虎影视成人| 色噜噜狠狠色综合网图区| 在线观看xxx| 日韩免费看网站| 亚洲一区二区视频在线播放| 狠狠色香婷婷久久亚洲精品| 欧美人妻精品一区二区免费看| 国产精品色一区二区三区| 国产国语性生话播放| 国产成人在线免费观看| 亚洲美女爱爱视频| 日韩高清在线不卡| 91免费视频网站在线观看| 欧美视频四区| 永久免费网站视频在线观看| 欧美丰满日韩| 亚洲精品二区| 精品免费视频| 日韩成人在线资源| 久久不见久久见免费视频7| 黄色小网站91| 精品综合久久88少妇激情| 成人免费看片网站| 亚洲精品一区在线| 亚洲一区二区久久久久久久 | 国产精品一区二区三区精品| 久久爱www.| 亚洲wwwav| 欧美经典一区| 91久久久一线二线三线品牌| 国产999精品在线观看| 91久久国产婷婷一区二区| 伊人久久一区| 亚洲一区二区三区在线免费观看| 福利一区三区| 99久久精品无码一区二区毛片 | 中文字幕v亚洲ⅴv天堂| 成人av一区| 日韩一二三在线视频播| aaa在线免费观看| 丝袜一区二区三区| 操你啦视频在线| 色综合久久88| 川上优av中文字幕一区二区| 8x拔播拔播x8国产精品| 亚洲一区资源| 国产精品美女主播在线观看纯欲| 日韩在线你懂得| 1卡2卡3卡精品视频| 成人性生交大片免费看96| 精品国产一二| 国产剧情在线观看一区| 亚洲一区二区免费视频软件合集 | 久久精品国产电影| 色呦呦在线观看视频| 国模精品视频一区二区| 毛片无码国产| 亚洲free嫩bbb| 国产ts一区| 日韩精品一区二区三区丰满| 国产精品久久久久无码av| 欧美一区二区激情| 老司机亚洲精品| 日本一二三四区视频| www.亚洲在线| 国产精品一区二区亚洲| 亚洲香肠在线观看| 自拍偷拍18p| 91精品国产免费| 婷婷色在线视频| 在线观看亚洲视频| 91福利在线尤物| 国产精品美女主播| 国产精品毛片久久久| 日韩和欧美的一区二区| 欧美69视频| 久久九九国产视频| 国产99久久精品| 亚洲图片第一页| 91亚洲精品乱码久久久久久蜜桃| 公侵犯人妻一区二区三区| 国产精品午夜免费| 日韩精品久久久久久久| 一区二区在线观看av| 五月婷婷亚洲综合| 91麻豆精品国产自产在线| 午夜性色福利视频| 久热99视频在线观看| 日韩电影免费观| 国产精品视频免费观看| 久久美女精品| 国产性生交xxxxx免费| 国产不卡在线一区| 亚洲 欧美 国产 另类| 欧美日韩免费区域视频在线观看| 国产精品美女一区| 国产亚洲欧美日韩一区二区| 免费在线观看一级毛片| 不卡中文字幕av| 欧美日韩五区| 久久综合中文色婷婷| 亚洲午夜激情在线| www.com久久久| 国产亚洲自拍一区| 久久国产精品免费看| 欧美不卡123| 黄色在线视频网站| 国产精品永久在线| av成人在线播放| 久久精品女人的天堂av| 欧美日韩一区二区高清| 国产3p在线播放| 日本一区二区免费在线观看视频 | 先锋影音一区二区三区| 亚洲一区二区免费看| 美女黄色一级视频| 一区二区三区在线免费| 国产精品高潮呻吟久久久| 一级做a爰片久久毛片美女图片| 亚洲电影观看| 精品国产一区二区三区四区vr | 久久99久久人婷婷精品综合| 男女猛烈激情xx00免费视频| 高清久久久久久| 久久亚洲av午夜福利精品一区| 欧美一区二区三区视频免费| 欧美性天天影视| 久久的精品视频| 欧美伊人亚洲伊人色综合动图| 亚洲欧美日韩综合一区| 日本欧美一区二区三区乱码| 污视频在线观看免费网站| 中文字幕中文字幕中文字幕亚洲无线| 久久久久精彩视频| 国产一区二区三区在线播放免费观看| 日韩大尺度黄色| 亚洲二区三区四区| 久久成人免费电影| 来吧亚洲综合网| 91精品国产综合久久小美女| 国产精品久久麻豆| 国产91免费视频| 99精品国产在热久久| 成人影视免费观看| 91九色最新地址| 日韩精品黄色| 欧美一级视频一区二区| 欧美毛片免费观看| 成人羞羞国产免费网站| 国产午夜精品一区二区| 亚洲在线视频播放| 久久伊人精品一区二区三区| 91精品啪在线观看国产爱臀| 无码人妻丰满熟妇区96| 国产视频一区二区在线观看| 国产精品国产三级国产普通话对白 | 精品人体无码一区二区三区| 欧美人成免费网站| 欧美人体视频xxxxx| 久久综合九色99| 蜜臀av性久久久久蜜臀aⅴ四虎| 特一级黄色录像| 亚洲国产精品推荐| 草莓视频成人appios| 热久久最新网址| www国产成人免费观看视频 深夜成人网| 亚洲色成人www永久网站| 久久精品一本久久99精品| 精品淫伦v久久水蜜桃| 亚洲成人福利在线观看| 亚洲六月丁香色婷婷综合久久 | 中文在线观看av| 欧美精品videosex牲欧美| 激情五月综合| 午夜性福利视频| 在线国产电影不卡| 麻豆av在线免费观看| 日韩成人在线资源| 国产福利一区二区| 波多野结衣在线电影| 日韩成人在线电影网| 粉嫩91精品久久久久久久99蜜桃| 91成人综合网| 国产精品成人免费| 天堂av中文在线资源库| 91亚洲精品在线| 日韩av中文字幕一区二区|