精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果大模型新成果:GPT-4o扮演用戶,在場景中考察大模型工具調用,網友:Siri也要努力 | 開源

人工智能 新聞
這套Benchmark創新性地采用了場景化測評方法,可以更好體現模型在真實環境中的水平。

蘋果團隊,又發布了新的開源成果——一套關于大模型工具調用能力的Benchmark。

這套Benchmark創新性地采用了場景化測評方法,可以更好體現模型在真實環境中的水平。

而且還引入了對話交互、狀態依賴等傳統標準中沒有關注到的重要場景。

圖片

這套測試基準名叫ToolSandbox,蘋果基礎模型團隊負責人龐若鳴也參與了研究工作。

ToolSandbox彌補了現有測試標準缺乏場景化評估的不足,縮小了測試條件與實際應用之間的差距。

圖片

而且在交互上,作者讓GPT-4o扮演用戶和被測模型進行對話,從而模擬真實世界中的場景。

比如告訴GPT-4o你不再是一個助理,而是要扮演正在和用戶B對話的用戶A,然后提出一系列具體要求。

圖片

另外,作者也利用ToolSandbox對一些主流模型進行了測試,結果整體上看閉源比開源模型分數更高,其中最強的是GPT-4o。

iOS應用開發者Nick Dobos表示,蘋果的這套標準簡潔明了。

同時他指出,現在ChatGPT面對三個工具就已經有些捉襟見肘,Siri要想管理好手機中幾十上百個應用,也需要提高工具調用能力。

言外之意,ToolSandbox的研究,或許是為了給Siri之后的研發探明方向。

圖片

在場景中測試模型

如前文所述,ToolSandbox采用了場景化、交互式的測試方法。

具體來說,ToolSandbox中一共包括了單/多工具調用、單/多輪對話、狀態依賴、標準化和信息不足等七種類型的近2000個場景。

前面的相對比較好理解,這里針對后面的三種場景類型這里做一下解釋:

  • 狀態依賴:工具的執行依賴于某些全局狀態,需要先通過其他工具對該狀態進行修改;
  • 規范化:將自然語言表達轉換為工具需要的標準形式,過程中可能需要借助其他工具;
  • 信息不足:故意缺失完成任務所需的關鍵工具,考察模型能否識別無法完成的情況。

圖片

在這些場景下,ToolSandbox會關注模型的三個指標:

  • 整體表現,即各類場景下的與預設答案的平均相似度
  • 魯棒性,用多種方式對工具進行魔改、干擾,觀察模型在這種環境下的表現
  • 效率,也就是平均任務完成輪次

工具方面,作者選用了34個可組合的Python函數作為工具,與真實場景的復雜性相當。

其中既有原生Python工具,也集成了部分RapidAPI工具,功能覆蓋搜索、對話、導航、天氣、圖像處理等多個常見領域。

流程上,首先是準備測試場景,研究人員會定義初始世界狀態并存儲,同時使用經過校準的GPT-4o模型生成初始用戶消息。

然后進入交互式執行階段,系統首先初始化Message Bus作為角色間的通信渠道,并配置好扮演用戶的模型以及被測模型。

對話循環開始后,模擬用戶的模型發送初始消息,被測模型接收這條消息并決定下一步行動——直接回復用戶,或調用工具與環境交互。

如果模型選擇調用工具,它會以JSON格式提供必要的參數,執行環境隨后解釋并執行這個調用,可能會更新世界狀態,并處理潛在的并行調用條件。

執行結果返回給被測模型后,被測模型再次決定下一步行動,這個過程持續進行,直到用戶模擬器認為任務完成(或無法完成),此時它會調用end_conversation工具結束對話。

圖片

在整個交互過程中,系統記錄所有的消息和狀態變化,形成一個完整的“對話軌跡”,這個“軌跡”隨后進入評估階段。

評估則使用預定義的“里程碑”和“雷區”來衡量代理模型的表現。

里程碑定義了完成任務的關鍵事件,形成一個有向無環圖來反映時間依賴關系。

系統會尋找軌跡中事件與里程碑之間的最佳匹配,同時保持里程碑的拓撲順序。

雷區則定義了禁止發生的事件,主要用于檢測模型是否在信息不足的情況下產生幻覺。

舉個例子,下圖展示了“不充分信息”場景下一個地雷場(Minefield)評估的例子。

在這個任務中,由于當前時間戳不可用,模型不應該調用timestamp_diff工具,但模型錯誤地猜測了當前時間戳并調用了工具,導致這一輪得分為0。

圖片

最終,系統計算出一個綜合得分,這個得分是平均里程碑匹配分數與雷區懲罰的乘積。

此外,系統還會統計完成任務所需的平均輪次,作為評估模型效率的補充指標。

復雜交互場景仍然是挑戰

從整體上看,閉源模型在工具調用上的表現要好于開源模型。

平均分最高的是GPT-4o,成績是73.0,唯一一個超過了70,且在作者設置的七個場景中的四個里都取得了最高成績。

而且GPT-4o魯棒性也極強,作者用了8種方法對工具進行魔改,GPT-4o對其中的其中都有最高的魯棒性評分。

緊隨其后的是Claude 3-Opus,平均分為69.2,在信息不足 的場景當中表現還超過了GPT-4o,再然后就是GPT和Claude的一些其他版本。

谷歌的Gemini則相對落后,1.5 Pro的成績為60.4,剛剛及格,還不如GPT-3.5,不過在信息不足這個單項上表現不錯。

開源模型的最高平均分就只有31.4了,其中比較有名的Mistral-7B得分是29.8,但在信息不足這個單項上取得了76.8的最好成績。

甚至其中的Gorilla、Command-R等部分開源模型根本無法處理工具響應,或者只能勉強完成單輪工具調用。

圖片

進一步分析表明,開源模型在識別何時該調用工具方面表現不佳,更傾向于將問題當作純文本生成任務。

從任務維度上看,大模型在單/多工具調用和單輪用戶請求上表現優異,但在多輪對話和狀態依賴任務上優勢減弱。

在GPT、Claude、Gemini等家族中,更大的模型在多工具調用和多輪對話任務上的優勢更明顯;但在狀態依賴任務上,中小模型(如GPT-3.5、Claude-3-Sonnet)反而比大模型(GPT-4、Claude-3-Opus)表現更好。

另外,規范化是所有模型的一大挑戰,尤其是需要借助工具進行規范化的場景,以及時間相關參數的規范化也十分困難。

針對魯棒性的研究表明,模型對工具描述、參數信息等變化的敏感程度差異較大,沒有發現明顯的規律。

效率上,更強的模型通常更高效,但也有例外,比如Claude系列模型的效率普遍優于GPT。

總之,大模型在工具使用方面,應對現實世界的復雜交互場景時仍面臨諸多挑戰。

作者簡介

ToolSandbox團隊成員來自蘋果公司的機器學習、數據科學、基礎大模型等多個團隊。

第一作者是華人機器學習工程師Jiarui Lu,本科畢業于清華大學,就讀期間還在朱軍教授實驗室中擔任研究助理。

隨后,Lu在卡內基梅隆大學取得了機器學習碩士學位,畢業后于2020年加入蘋果公司。

圖片

包括Lu在內,署名的12位作者當中有10位都是華人,而且都有名校背景。

其中也包括基礎大模型團隊負責人龐若鳴(Ruoming Pang)。

圖片

另外,在蘋果工作了8年的工程主管Bernhard Aumayer也參與了這一項目。

圖片

論文地址:https://arxiv.org/abs/2408.04682

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-09-06 13:00:29

2025-08-07 14:05:40

OpenAI大模型開源

2024-08-09 12:50:02

2025-05-26 08:33:00

2024-06-05 13:09:26

2024-10-17 14:05:34

2024-05-14 11:29:15

2025-01-15 10:28:21

2024-09-06 13:31:31

2025-02-17 09:35:00

ChatGPT模型AI

2024-11-12 14:00:00

AI編程

2024-06-12 11:50:23

2025-10-10 01:00:00

8B模型GPT-4oAgent

2024-07-24 12:40:44

2024-11-04 08:40:00

2025-01-22 16:57:32

字節跳動豆包大模型

2025-04-30 16:48:07

2025-05-15 09:10:00

2025-05-12 08:50:00

點贊
收藏

51CTO技術棧公眾號

久久精品无码一区二区三区| 日韩va亚洲va欧美va久久| 亚洲成人中文字幕| chinese少妇国语对白| 欧美成人hd| 成人毛片在线观看| 国产精品视频免费在线观看| 九九热精品在线观看| 精品国产午夜肉伦伦影院| 在线观看成人小视频| 路边理发店露脸熟妇泻火| 婷婷伊人综合中文字幕| 精品一区二区久久久| 538国产精品一区二区在线| 视频国产一区二区| 色婷婷综合久久久久久| 欧美一区二区三区人| 99re在线视频免费观看| 一二三四区在线观看| 国产校园另类小说区| 国产精品福利视频| 一级黄色小视频| 天堂蜜桃一区二区三区| 久久久久久久久网站| 亚洲欧美综合7777色婷婷| 亚洲区小说区| 亚洲国产精久久久久久久| 99视频在线观看视频| 精品欧美一区二区三区在线观看| 亚洲超碰精品一区二区| 国产精品88久久久久久妇女| 999在线视频| 91在线视频在线| 国产亚洲精品美女久久久m| 国产精品一区二区三区在线免费观看| 天堂精品中文字幕在线| 2021久久精品国产99国产精品| 日本天堂中文字幕| 99精品在线| 中文字幕国产精品久久| 亚洲а∨天堂久久精品2021| 欧美日韩一本| 亚洲国产中文字幕在线观看| 国产a级片视频| 日韩精品中文字幕吗一区二区| 欧美精品在线一区二区三区| 天天操,天天操| 日韩三区在线| 在线国产电影不卡| 国产精品igao| 亚洲日本在线观看视频| 色丁香久综合在线久综合在线观看| 成人综合视频在线| 国产伦精品一区二区三区视频金莲| 午夜精品影院在线观看| 成人午夜精品久久久久久久蜜臀| 国产99re66在线视频| 亚洲一区自拍偷拍| 黄色成人在线看| 色老头在线一区二区三区| 欧美日韩国内自拍| 韩国日本在线视频| 国产一区一一区高清不卡| 欧美色图一区二区三区| 老司机午夜性大片| 久久久91麻豆精品国产一区| 日韩欧美视频一区| av黄色一级片| 国产剧情一区| 精品国产拍在线观看| 无码黑人精品一区二区| 狠狠综合久久av一区二区老牛| 欧美国产中文字幕| 黄色大片网站在线观看| 久久久久久夜| 国产色婷婷国产综合在线理论片a| 国产一区二区女内射| 国产成人自拍网| 国产综合精品一区二区三区| 三级在线观看| 综合激情成人伊人| 韩日视频在线观看| 日韩福利一区| 日韩一区二区麻豆国产| 中文字幕乱码一区| 第一会所亚洲原创| 欧美激情区在线播放| 一级黄色av片| 国产福利91精品一区二区三区| 精品一区二区三区自拍图片区| 最新av网站在线观看| 亚洲影视在线播放| 91在线视频观看免费| 日本在线成人| 国产一区二区三区在线看| 男女免费视频网站| 日韩综合一区二区| 97超碰人人看人人| av网在线观看| 亚洲高清久久久| 中文字幕在线综合| 欧美色图五月天| 久久成年人视频| 日本免费在线观看视频| 国产一区二区美女| 欧洲成人一区二区| 2020国产在线| 在线观看91精品国产麻豆| 国产男女猛烈无遮挡a片漫画| 91精品国产91久久综合| 日本高清视频精品| 亚洲av无码国产综合专区 | www男人天堂| 欧美日韩一二三四| 国产69精品久久久久久| 国产成人麻豆精品午夜在线| 国产性做久久久久久| 欧美深夜福利视频| 日韩一级淫片| 美女福利视频一区| 怡红院男人的天堂| 久久久国产精品麻豆| www.av中文字幕| 2023国产精华国产精品| 久久久av网站| 在线观看国产黄| 久久久精品2019中文字幕之3| 欧美日韩性生活片| 韩国女主播一区二区三区| 美女av一区二区| 一级aaaa毛片| 中文字幕欧美日韩一区| 久久综合久久色| 国产欧美一区二区三区精品观看| 97在线看福利| 在线观看xxx| 精品福利视频导航| 特大黑人巨人吊xxxx| 亚洲青涩在线| 精品国产乱码久久久久| 俺来俺也去www色在线观看| 欧美成人官网二区| 国产一级二级毛片| 成人av电影在线网| 天堂…中文在线最新版在线| 欧美黄色网视频| 1769国产精品| 精品无吗乱吗av国产爱色| 日韩欧美黄色动漫| 一区二区三区伦理片| 日韩精品电影在线| 五月天丁香综合久久国产| 成人av色网站| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 免费人成年激情视频在线观看| 国产老肥熟一区二区三区| 男人j进女人j| 超碰成人免费| 欧美中文字幕在线观看| 国产黄在线播放| 欧美日韩一区小说| 欧美国产日韩在线观看成人| 丁香亚洲综合激情啪啪综合| 男人日女人下面视频| 国产91精品对白在线播放| 国产精品久久久久久久久久久新郎| 风间由美一区| 欧美一级午夜免费电影| 日本一本高清视频| 久久你懂得1024| 亚洲小视频网站| 国内精品美女在线观看| 久久综合色一本| 精品国产黄a∨片高清在线| 久久久精品在线| 亚洲国产成人在线观看| 日韩欧美亚洲综合| jizzjizz日本少妇| 成人av在线资源网| av视屏在线播放| 欧美1区免费| 蜜桃狠狠色伊人亚洲综合网站| 日本a人精品| 久久久亚洲国产| 国产三级在线免费观看| 日韩天堂在线观看| 精品久久久久久久久久久国产字幕| 成人欧美一区二区三区视频网页| 免费黄视频在线观看| 母乳一区在线观看| 久久精品国产精品亚洲精品色| 久久电影在线| 成人黄色免费看| 欧美aa在线| 久久中文字幕在线视频| 亚洲av成人精品一区二区三区在线播放| 日本精品一级二级| 久久视频免费看| 国产精品久久网站| 亚洲av无码一区二区三区观看| 久久精品国产成人一区二区三区 | 欧美精品一区二区三区在线| 亚洲精品无码久久久久| 亚洲成人动漫在线观看| 99热在线观看精品| 久久精子c满五个校花| 四虎国产精品免费| 看片网站欧美日韩| 久久美女福利视频| 欧美视频网站| 在线观看成人av电影| 伊人久久大香线蕉综合网站| av资源站久久亚洲| 久久伊人国产| 国产精品精品视频| 忘忧草在线影院两性视频| 美女久久久久久久| 午夜视频在线观看网站| 亚洲欧美在线播放| 日韩在线观看视频一区二区三区| 在线成人av网站| 中文天堂在线资源| 在线免费观看日韩欧美| 51国产偷自视频区视频| 亚洲国产中文字幕| 欧美交换国产一区内射| 亚洲天堂网中文字| 5566中文字幕| 欧美韩国日本综合| 久久精品国产亚洲AV熟女| 91网上在线视频| 精品人妻伦一二三区久| 国产大片一区二区| 国内精品国产三级国产aⅴ久| 另类综合日韩欧美亚洲| 9久久婷婷国产综合精品性色 | 91黄视频在线| 午夜精品一区二| 色综合久久久久久久久久久| 草久久免费视频| 高跟丝袜欧美一区| xxxx.国产| 色猫猫国产区一区二在线视频| 国产香蕉视频在线| 欧美日韩在线第一页| 六月丁香激情综合| 日本道色综合久久| 69亚洲精品久久久蜜桃小说| 在线精品视频一区二区三四| 欧美成人精品网站| 欧美日韩高清一区二区三区| 91久久国语露脸精品国产高跟| 在线91免费看| www.黄色片| 亚洲国产精品网站| 四虎影视精品成人| 国产一区二区三区免费视频| 日本三级视频在线播放| 久久国产精彩视频| wwwww亚洲| 日韩女优人人人人射在线视频| 欧洲一级精品| 91九色国产社区在线观看| 精品国产乱码久久久久久樱花| 97人人澡人人爽| 亚洲电影一级片| 亚洲免费视频一区| 欧美在线国产| 成人免费毛片网| 蜜乳av一区二区三区| 丰满少妇中文字幕| www.欧美.com| 99久久精品免费视频| 亚洲图片激情小说| 日韩成人免费在线观看| 在线观看视频91| 成 人 黄 色 片 在线播放| 日韩黄色高清视频| 色三级在线观看| 97视频com| 成人国产在线| 福利视频一区二区三区| 国产成人手机高清在线观看网站| 在线观看成人一级片| 99在线|亚洲一区二区| 成人性生生活性生交12| 国产精品538一区二区在线| 日本黄色片在线播放| 国产精品久久久久久户外露出 | 女人黄色免费在线观看| 日本免费在线精品| 欧美激情三级| 色999五月色| 国产日韩亚洲| 婷婷激情小说网| 国产三级三级三级精品8ⅰ区| 欧美日韩偷拍视频| 91国偷自产一区二区三区观看 | 久久这里只有精品首页| 久久久久久久久久97| 岛国av午夜精品| 精品人妻无码一区二区三区蜜桃一| 亚洲人成在线播放| 黑人极品ⅴideos精品欧美棵| 国产精品一区二区久久久| 无码国模国产在线观看| 日韩欧美亚洲v片| 亚洲日本视频| 亚洲成人av免费观看| 日本一区二区免费在线观看视频| 日韩av在线播| 精品人在线二区三区| 性开放的欧美大片| 日韩免费精品视频| 日韩激情毛片| 男女啪啪免费视频网站| 国产高清不卡一区二区| 在线观看天堂av| 日本韩国欧美国产| 亚洲av片在线观看| 久久久噜噜噜久噜久久| 国内不卡的一区二区三区中文字幕| 日本在线播放不卡| 久久av一区| 中文字幕一区二区久久人妻网站| 一区二区三区在线观看国产 | 日韩av在线网站| 手机在线免费av| 91久久大香伊蕉在人线| 小说区亚洲自拍另类图片专区| 中文字幕网av| 欧美激情一区二区| 最新国产中文字幕| 在线播放日韩精品| 色8久久影院午夜场| 欧美日韩一区综合| 视频一区中文字幕国产| 性久久久久久久久久| 欧美日韩免费看| 三级视频在线播放| 日韩美女福利视频| 精品国产一区二区三区久久久蜜臀 | 日本激情视频在线观看| 国产精品久久久久77777| 女人丝袜激情亚洲| 九色porny91| 中文字幕在线不卡视频| 国产精品视频无码| 久久资源免费视频| 一区二区在线视频观看| 女人被男人躁得好爽免费视频| 国产乱对白刺激视频不卡| 久久国产露脸精品国产| 亚洲成人精品视频| 在线看片福利| 日韩免费av电影| 久久99这里只有精品| 在线观看亚洲网站| 欧美va日韩va| 男人的天堂免费在线视频| 日韩影院一区| 加勒比av一区二区| 精品亚洲永久免费| 亚洲欧美国产制服动漫| 玖玖精品在线| 97碰在线视频| 久久久欧美精品sm网站| 中文字幕一区二区人妻| 美女福利精品视频| 欧美三级午夜理伦三级在线观看 | 久久99久久久精品欧美| 日韩视频在线观看视频| 成人黄色一级视频| 日本丰满少妇做爰爽爽| 欧美wwwxxxx| 亚洲春色h网| 国产性生活一级片| 懂色av影视一区二区三区| 在线看黄色av| 国产精品手机视频| 日韩成人一区二区三区在线观看| 国产精品成人69xxx免费视频| 精品av综合导航| a成人v在线| 欧美视频在线免费播放| 国产精品麻豆欧美日韩ww| 丰满熟女一区二区三区| 国产精品久久久久久久久| 中文字幕亚洲综合久久五月天色无吗''| 一级欧美一级日韩片| 欧美人与z0zoxxxx视频| 日韩av影片| 欧美少妇一级片| 久久久国际精品| 黄色片网站免费在线观看| 国产精品狼人色视频一区| 99这里有精品| 免费一级片视频| 色婷婷久久av| 国产精品片aa在线观看|