精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果發布新基準,重新定義大模型強弱!

原創 精選
人工智能
近日,蘋果公司的研究人員推出了ToolSandbox,這是一種全新的基準,旨在比以往更全面地評估人工智能助手的實際能力。這項研究發表在 arXiv 上,解決了使用外部工具完成任務的大型語言模型 (LLM) 的現有評估方法中的關鍵缺陷。

現在的大模型基準評測,蘋果要重新定義了!

近日,蘋果公司的研究人員推出了ToolSandbox,這是一種全新的基準,旨在比以往更全面地評估人工智能助手的實際能力。這項研究發表在 arXiv 上,解決了使用外部工具完成任務的大型語言模型 (LLM) 的現有評估方法中的關鍵缺陷。

1、現有評估基準有哪些關鍵缺陷?

現在大模型評估基準,更多還是從大模型本身的基本功出發,諸如多語言理解、問答推理、數學邏輯等“文理科考試”,像MMLU、GSM8K、ARC、HumanEval、Math、BBH,這些都是大模型的通用能力的基準測試,除此之外,還有行業能力的基準測試,比如FinEval、PubMedQA、JEC-QA等。

但這些數據集存在一個很大的問題,即評估方式非常“自嗨”,忽略了現在AI產品/應用,已經不能單單靠大模型來完成了,大模型還需要具備調用大量的外在工具才能完成真正的應用。

像智能體這樣的應用,需要大模型去按照用戶預定義的本體去完成復雜的任務,就需要調用N多工具。

難點就在于,用戶表述問題的方式雖然變得更加簡化,但面向任務的對話仍然具有狀態性、會話性和交互性,這為系統且準確地評估使用工具的大型語言模型帶來了重大挑戰

應用方面,當然也有。智能客服、數據分析、辦公助手、代碼助手、智能代理等方面,則有測評數據集GAIA、APPS、AgentBench等。

圖片

TOOLSANDBOX 提供了一個有狀態的、對話式的和交互式的評估基準,用于評估大型語言模型(LLM)的工具使用能力。通過有狀態和狀態依賴的工具、模擬的用戶以及具有里程碑和雷區的靈活評估方式,它展示了開源模型和專有模型之間顯著的性能差距,并揭示了即使是對于最先進的模型(包括狀態依賴、規范化和信息不足等場景)也極具挑戰性的情況,為理解工具使用能力帶來了新的見解。

ToolSandbox 包含其他基準測試中經常缺少的三個關鍵元素:狀態交互、對話能力和動態評估。主要作者 Jiarui Lu 解釋說:“ToolSandbox 包括狀態工具執行、工具之間的隱式狀態依賴關系、支持策略對話評估和動態評估策略的內置用戶模擬器。”

這項新基準旨在更貼近真實場景。例如,它可以測試人工智能助手是否理解在發送短信之前需要啟用設備的蜂窩服務——這項任務需要推理系統的當前狀態并做出適當的更改。

圖片

TOOLSANDBOX評估軌跡示例

那么,TOOLSANDBOX究竟是怎么評估的呢?不妨來看論文中的示例。可以看出評估軌跡分為消息總線(Message Bus)、世界狀態(World State)、里程碑(Milestones)三個關鍵要素。

其中,消息總線表示用戶、智能體和執行環境之間的完整對話歷史。世界狀態表示在給定回合中可變數據庫的快照。里程碑表示在此軌跡中需要發生的預定義關鍵事件。

示例中,用戶打算發送消息,但蜂窩服務已關閉。智能體應首先理解用戶的意圖,并向用戶提示必要的參數。在借助search_contacts工具收集所有參數后,智能體嘗試發送消息,在失敗后意識到需要啟用蜂窩服務,并重新嘗試。為了評估此軌跡,研發團隊在每個回合中,在保持拓撲順序的同時,在消息總線和世界狀態中找到與所有里程碑的最佳匹配。

圖片

據介紹,TOOLSANDBOX的核心是一個Python原生的大型語言模型(LLM)測試環境,它以執行上下文作為世界狀態的抽象,并以Python函數作為工具。在這個環境中,用戶、智能體和執行環境通過消息總線相互通信以完成任務,該任務會根據預定義的里程碑和雷區進行評估。如圖2所示,一個典型的測試用例從用戶與智能體對話開始。之后,被呼叫的角色將進行下一步對話,直到達到最終狀態。

在收到用戶請求后,智能體可以選擇回應用戶以獲取更多信息,或者通知執行環境執行一個工具,并提供所需的工具名稱和參數。執行環境在InteractiveConsole(Foundation, 2024)中執行工具,這取決于工具會修改存儲在執行上下文中的世界狀態,并向智能體做出響應。

一旦用戶決定任務已完成,它會通知執行環境執行end_conversation工具,使系統進入最終狀態,準備根據對話與里程碑和雷區的相似度進行評估。本節的其余部分將更詳細地介紹每個組件的功能。

2、開源模型依舊落后

研究人員使用 ToolSandbox 測試了一系列 AI 模型,發現專有模型和開源模型之間存在顯著的性能差距。

研究發現,在工具調用層面,專有模型和開源模型之間存在顯著的性能差距,即便是表現最好的開源模型Hermes,也依舊落后于倒數第二的專有模型Claude-3-Haiku Anthropic(2024)20多分。

圖片

據論文介紹,這部分原因是Gorilla、Command-R等模型根本無法處理工具響應。

圖片

例如,Mistral經常將工具使用場景誤認為是代碼生成任務。這些模型的次優性能出乎意料地導致它們在“信息不足”類別中獲得了更高的評級,該類別獎勵模型在提供的工具不足以完成任務時,沒有產生引起幻覺的工具調用或參數。論文中表示,這應該被視為一種副作用,而不是積極的結果。

圖片

而在專有模型方面,GPT-4o、Claude3-Opus依舊強悍。具體來講,GPT-4o獲得了最高的相似度評分,緊隨其后的是Claude-3-Opus。這兩個模型各有優勢。雖然GPT-4o獲得了更高的評分,但如附錄D.2所示,Claude-3-Opus保持了較低的平均回合數,以更高的效率實現了用戶目標。

圖片

這一發現挑戰了最近的報告,這些報告表明開源人工智能正在迅速趕上專有系統。就在上個月,初創公司Galileo 發布了一項基準測試,顯示開源模型正在縮小與專有系統領導者的差距,而Meta和Mistral則宣布了他們聲稱可以與頂級專有系統相媲美的開源模型。

然而,蘋果的研究發現,即使是最先進的人工智能助手,在處理涉及狀態依賴、規范化(將用戶輸入轉換為標準化格式)和信息不足的場景等復雜任務時,也會遇到困難。

作者在論文中指出:“我們表明,開源模型和專有模型在性能上存在顯著差距,而 ToolSandbox 中定義的狀態依賴、規范化和信息不足等復雜任務甚至對最強大的 SOTA LLM 也提出了挑戰,從而為工具使用 LLM 功能提供了全新的見解。”

3、參數規模不代表一切

有趣的是,在新基準之下,原始模型的參數即使再大,也并不總是能夠在復雜現實任務取得更好的性能。

在比較GPT、Claude和Gemini系列中最大和最小的模型時,多工具調用和多用戶回合類別的表現“惡化”速度遠快于單工具調用和單用戶回合類別,這表明對于復雜的工具調用序列和模糊的用戶請求進行推理,需要更多的模型容量。

也就是說,在某些情況下,較大的模型有時表現得比較小的模型更差,尤其是涉及狀態依賴性的模型。這表明,原始模型大小并不總是與復雜的現實任務中更好的性能相關。

在最后

蘋果的研究提醒我們,創建能夠處理復雜的現實任務的人工智能系統仍然存在重大挑戰。

隨著該領域的持續快速發展,像 ToolSandbox 這樣的嚴格基準對于區分炒作與現實以及指導真正有能力的人工智能助手的開發至關重要。

ToolSandbox 的推出可能對 AI 助手、Agent等AI應用的開發和評估產生深遠影響。通過提供更真實的測試環境,它可以幫助研究人員識別和解決當前 AI 系統中的關鍵限制,最終為用戶提供更強大、更可靠的 AI 應用。

隨著人工智能不斷深入融入我們的日常生活,像 ToolSandbox 這樣的基準測試將在確保這些系統能夠處理現實世界交互的復雜性和細微差別方面發揮關鍵作用。

對于開發者,好消息是,ToolSandbox評估框架即將在Github上發布,邀請更廣泛的AI社區共同構建和完善這一重要工作。

上鏈接:

https://github.com/apple/ToolSandbox

責任編輯:龐桂玉 來源: 51CTO技術棧
相關推薦

2019-03-21 16:10:15

聯想智能家居

2020-06-04 11:46:15

Teradata大數據新基建

2020-08-17 07:00:00

混合云云計算技術

2017-10-13 22:18:53

物聯網

2009-08-31 12:51:10

雪豹蘋果操作系統

2025-03-17 11:35:36

LLaDALLM大型語言模型

2011-10-26 10:20:27

筆記本評測

2018-09-13 23:49:10

2014-06-03 09:15:17

融合數據中心華三

2009-11-05 11:42:45

Unix專家

2019-06-20 08:13:33

物聯網IOT技術

2018-03-04 22:41:04

區塊鏈互聯網信息傳遞

2018-11-29 09:30:04

區塊鏈教育

2024-08-19 12:37:06

2015-08-04 09:03:27

數據中心hyperconver超級融合系統

2021-10-25 12:00:16

智能建筑物聯網

2025-09-19 09:13:43

2025-04-28 03:22:45

2024-06-24 08:22:00

點贊
收藏

51CTO技術棧公眾號

亚洲国产av一区| 妞干网视频在线观看| 中日精品一色哟哟| 久久精品影视| 亚洲国产精品va在线| 成人一级片网站| 好吊日视频在线观看| 成人av网站免费| 国产精品久久久久久av| 久热这里有精品| 美女久久久久| 日韩欧美不卡在线观看视频| 欧美成人免费高清视频| a视频在线观看免费| 91社区在线播放| 91免费人成网站在线观看18| 天天操天天操天天操天天| 欧美韩日高清| 亚洲美女www午夜| 中文字幕一二三| 1区2区在线| 国产精品成人一区二区艾草| 国产99午夜精品一区二区三区| 日韩综合在线观看| 亚洲一本视频| 美女av一区二区| 日韩欧美黄色网址| 欧美影院天天5g天天爽| 日韩午夜av一区| 88av.com| 无遮挡在线观看| 亚洲另类中文字| 亚洲最大色综合成人av| 你懂的免费在线观看视频网站| 国产成人aaaa| 成人亚洲欧美一区二区三区| 免费黄色一级大片| 国产精品日韩久久久| 欧美精品第一页在线播放| 99热99这里只有精品| 欧美精品久久久久久| 亚洲精品一区二区三区蜜桃下载| www.亚洲自拍| 99riav视频一区二区| 色综合久久久久综合体| 欧美精品久久久久久久久久久| 四虎亚洲精品| 亚洲黄色免费网站| 一本大道东京热无码aⅴ| 在线国产情侣| 中文字幕精品—区二区四季| 欧美日韩一区二区视频在线| 三级在线播放| 91免费观看视频在线| 久久爱av电影| 香蕉久久国产av一区二区| 东方aⅴ免费观看久久av| 97人人干人人| 日本精品久久久久| 91毛片在线观看| 蜜桃成人在线| 国产中文在线视频| 亚洲国产高清在线| 亚洲精品在线视频观看| 日韩伦理在线观看| 中文字幕一区二区三区不卡 | 一区二区欧美国产| 国产精品久久国产| 欧美大胆a人体大胆做受| 精品久久中文字幕| 日韩av一二三四| 成人做爰免费视频免费看| 欧美日免费三级在线| 91精品无人成人www| 一区二区三区日本视频| 日韩一区二区三区高清免费看看| 亚洲一区二区三区黄色| 欧美福利在线播放网址导航| 亚洲色在线视频| 亚洲一二三四视频| 欧美在线播放| 午夜精品久久久久久99热| 欧美日韩一级黄色片| 日本成人在线电影网| 91网在线免费观看| 天天操天天射天天舔| 国产亚洲综合在线| 警花观音坐莲激情销魂小说| 国产黄色大片在线观看| 日韩欧美精品免费在线| 中文字幕12页| 你懂的在线观看一区二区| 国产一区二区三区在线视频| caoporn91| 美女视频一区免费观看| 国产日韩欧美日韩| 隣の若妻さん波多野结衣| 久久精品视频免费观看| 无码毛片aaa在线| 成人福利av| 日韩一区二区不卡| 色哟哟精品观看| 欧美日韩免费| 国产精品视频自在线| 蜜桃视频久久一区免费观看入口| 久久久久国产成人精品亚洲午夜| 亚洲av综合色区| 亚洲十八**毛片| 欧美一级理论性理论a| 97超碰在线资源| 女同性一区二区三区人了人一 | 99久久精品国产导航| 亚洲欧洲一区二区在线观看| 丁香高清在线观看完整电影视频| 欧美日韩一区三区| 国产人妻人伦精品1国产丝袜| 久久精品国内一区二区三区水蜜桃| 97高清免费视频| 国产色综合视频| 国产日产欧美一区二区视频| aa视频在线播放| 精品国产乱码一区二区三区| 国产亚洲人成a一在线v站| 欧美成人片在线观看| 麻豆中文一区二区| 青娱乐一区二区| 九色porny丨国产首页在线| 欧美一区二区三区在线观看| 欧美激情视频二区| 美女精品在线| 欧美日韩精品久久久免费观看| 少女频道在线观看免费播放电视剧| 欧美日韩一区中文字幕| 国产一区二区三区精品在线| 先锋a资源在线看亚洲| 国产精品区一区二区三在线播放 | 精品国产午夜| 91精品国产99| 日本免费网站在线观看| 夜夜揉揉日日人人青青一国产精品| 国产亚洲视频一区| 日韩免费久久| 国产精品夜色7777狼人| 国内三级在线观看| 91久久精品一区二区二区| 一级国产黄色片| 亚洲永久免费精品| 免费成人深夜夜行视频| 中文在线资源| 亚洲女成人图区| 亚洲国产成人无码av在线| 久久免费美女视频| 国产无套粉嫩白浆内谢的出处| 国产一区二区三区四区大秀| 国产成人精品久久二区二区| 九九热视频在线观看| 91国产福利在线| 久久一级免费视频| 韩国精品一区二区| 日本a在线天堂| 好吊妞国产欧美日韩免费观看网站| 欧美激情手机在线视频| 神马久久久久久久久久| 同产精品九九九| b站大片免费直播| 蜜臀久久久久久久| 欧美aaa在线观看| 欧美日韩黄网站| 欧美激情欧美激情在线五月| 天堂a中文在线| 欧美亚洲综合久久| 欧美第一页在线观看| 成人一区二区三区视频在线观看| 男人插女人视频在线观看| 小说区图片区色综合区| 国产精品高精视频免费| 菠萝蜜视频国产在线播放| 亚洲成人a**站| 国产午夜无码视频在线观看| 国产精品天美传媒| 中文字幕1区2区| 免费欧美日韩| 一本久道久久综合| aaa国产精品| 国产91在线视频| 成人福利在线观看视频| 日韩精品久久久久| 一级黄色大毛片| 亚洲成人免费观看| 9.1片黄在线观看| 成人国产精品免费观看视频| 欧美伦理片在线看| 欧美国产三级| 日韩经典在线视频| 这里视频有精品| 国产精品678| 欧美另类tv| 在线性视频日韩欧美| 亚洲av综合色区无码一二三区| 一本大道综合伊人精品热热| 青草影院在线观看| 国产日韩欧美精品综合| 亚洲av午夜精品一区二区三区| 日韩电影免费在线| 无码人妻少妇伦在线电影| 日韩av在线中文字幕| 国产呦系列欧美呦日韩呦| 成人在线观看免费视频| 97在线观看视频国产| 九七电影韩国女主播在线观看| 国产丝袜精品视频| 亚洲av无码乱码国产麻豆| 91久久久免费一区二区| 国产精品一区二区6| 亚洲人成网站精品片在线观看| 丰满少妇在线观看资源站| 国产成人精品免费| 久久国产激情视频| 老牛嫩草一区二区三区日本| 国产成人亚洲综合无码| 91日韩免费| 色姑娘综合网| 伊人久久大香线蕉av不卡| 国产精品v欧美精品v日韩| 久久三级毛片| 国产精品成久久久久三级| 波多野结衣在线播放| 精品少妇v888av| 精产国品自在线www| 中文字幕亚洲欧美一区二区三区 | 九九久久综合网站| 欧美激情黑人| 日韩中文字幕视频| 777电影在线观看| 在线电影中文日韩| 国产人成在线观看| 亚洲欧洲黄色网| 黄色小视频在线观看| 亚洲美女喷白浆| 亚洲天堂伊人网| 小草在线视频免费播放| 欧美精品免费在线观看| 成人在线观看免费网站| 久久色在线播放| 久草资源在线观看| 久久99久久99精品免观看粉嫩 | 久久久久久久爱| 欧美精品videossex少妇| 九九热精品视频| 国精产品一区一区三区mba下载| 欧美日韩成人在线播放| 青青在线视频| 久久久久久这里只有精品| 国产黄色大片在线观看| 91大神福利视频在线| 色一区二区三区| 国产suv精品一区二区| 欧美日韩国产网站| 成人精品视频久久久久| 精品一区二区三区中文字幕在线| 91传媒视频免费| av一级亚洲| 精品欧美一区二区在线观看视频 | 91ts人妖另类精品系列| 中文字幕一区二区三中文字幕| jizzjizzjizz国产| 亚洲天堂久久久久久久| 麻豆国产尤物av尤物在线观看| 亚洲午夜免费福利视频| 亚洲高清毛片一区二区| 91久久精品日日躁夜夜躁欧美| 一二三区在线播放| 日韩一区和二区| 日本韩国在线观看| 中文字幕精品一区二区精品| 中文字幕中文字幕在线中高清免费版| 久久91精品国产| 中文字幕影音在线| 国产日韩欧美黄色| 女人抽搐喷水高潮国产精品| 日本一区视频在线观看| 欧美一区二区| 国产男女无遮挡| 韩国视频一区二区| av无码一区二区三区| 国产精品网站导航| 日本三级2019| 欧美日韩精品免费| 神马午夜电影一区二区三区在线观看| 中文字幕在线精品| av3级在线| 91亚洲国产成人精品性色| 精品视频在线你懂得| 亚州欧美一区三区三区在线| 韩国一区二区三区在线观看| 91人人澡人人爽人人精品| 丰满放荡岳乱妇91ww| 人成免费在线视频| 亚洲午夜国产一区99re久久| 这里只有精品免费视频| 亚洲国产精品一区二区久| 日本免费视频在线观看| 91chinesevideo永久地址| 999色成人| 日韩精品一区二区三区外面| 亚洲经典在线看| 色婷婷激情视频| 日本一区二区三区国色天香| 久一区二区三区| 欧美精品在线观看播放| 天堂а√在线8种子蜜桃视频 | 亚洲国产婷婷香蕉久久久久久99| 欧美日韩免费| 亚洲欧美手机在线| 国产偷v国产偷v亚洲高清 | 欧美性生活久久| 国产jizz18女人高潮| 亚洲精品社区| 欧洲美女亚洲激情| 国产欧美日韩中文久久| 国产精品自拍视频一区| 91精品国产综合久久久蜜臀粉嫩| 九色视频网站在线观看| 国语自产精品视频在免费| 精品中文字幕一区二区三区四区| 五月天丁香综合久久国产| 翔田千里一区二区| 午夜男人的天堂| 亚洲一区二区美女| 国产www视频| 久久精品99无色码中文字幕| 免费污视频在线一区| 欧美三级网色| 久久夜色精品| 88久久精品无码一区二区毛片| 天天综合日日夜夜精品| 亚洲奶汁xxxx哺乳期| 久久99精品久久久久久噜噜| 精品国产一级| 成人在线免费高清视频| 国产一区二区免费视频| 久久国产波多野结衣| 这里是久久伊人| 超碰porn在线| 亚洲综合精品伊人久久| 欧美精品一卡| 亚洲无人区码一码二码三码| 亚洲国产综合91精品麻豆| 男人天堂综合网| 国内精品免费午夜毛片| 久久综合社区| 哪个网站能看毛片| 欧美激情中文字幕| 一本到在线视频| 久久夜色撩人精品| 中文字幕一区二区三区日韩精品| 国产精品视频网站在线观看| 成人午夜精品一区二区三区| 精品少妇久久久| 亚洲精品www| 肉色欧美久久久久久久免费看| 日韩午夜视频在线观看| 另类小说一区二区三区| 国产精品国产三级国产传播| 制服丝袜激情欧洲亚洲| 波多野结衣精品| 免费看污久久久| 日本强好片久久久久久aaa| 视频国产一区二区| 精品91自产拍在线观看一区| 国内激情视频在线观看| 日韩精品一区二区三区四区五区| 激情综合网激情| 久草视频精品在线| 亚洲欧美一区二区精品久久久| 老司机精品视频网| 国产精品69久久久| 久久色.com| 国产伦理吴梦梦伦理| 97精品久久久| 日韩成人免费| 亚洲精品国产成人av在线| 一本到高清视频免费精品| 在线免费黄色| 国产精品免费视频一区二区| 老司机亚洲精品| 国产三级国产精品国产国在线观看| 亚洲国产古装精品网站| 久久青草免费| 怡红院av亚洲一区二区三区h| 欧美韩国一区二区| 乱精品一区字幕二区| 国产精品免费电影| 伊人影院久久| 成人午夜免费影院| 亚洲精品mp4| 日本在线一区二区三区| 好男人www社区| 亚洲r级在线视频| 免费成人黄色|