精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

浙大&通義全面評測智能體復(fù)雜任務(wù)規(guī)劃能力,18主流大模型全不及格|ICLR2025

人工智能 新聞
浙大通義聯(lián)合發(fā)布WorfBench——一個(gè)涵蓋多場景和復(fù)雜圖結(jié)構(gòu)工作流的統(tǒng)一基準(zhǔn),以及WorfEval——一套系統(tǒng)性評估協(xié)議,通過子序列和子圖匹配算法精準(zhǔn)量化大模型生成工作流的能力。

大模型智能體正在迅速發(fā)展,能力已不再局限于 API 調(diào)用。

諸如OpenAI的Operator和Anthropic的Computer Use等,能夠像人類一樣直接與界面交互,執(zhí)行復(fù)雜操作。

在處理這類復(fù)雜任務(wù)的過程中,大模型智能體將問題分解為可執(zhí)行的工作流(Workflow)是關(guān)鍵的一步。然而,這一核心能力目前缺乏完善的評測基準(zhǔn)。

現(xiàn)有的數(shù)據(jù)集和評估框架存在明顯局限性:要么僅關(guān)注規(guī)劃任務(wù)的端到端性能,要么在場景覆蓋范圍、工作流結(jié)構(gòu)的復(fù)雜性以及評估標(biāo)準(zhǔn)的全面性上存在不足。完善的工作流評測基準(zhǔn)對于推動(dòng)大模型智能體在真實(shí)場景中的應(yīng)用和性能提升至關(guān)重要。

為解決上述問題,浙大通義聯(lián)合發(fā)布WorfBench——一個(gè)涵蓋多場景和復(fù)雜圖結(jié)構(gòu)工作流的統(tǒng)一基準(zhǔn),以及WorfEval——一套系統(tǒng)性評估協(xié)議,通過子序列和子圖匹配算法精準(zhǔn)量化大模型生成工作流的能力。這一研究不僅填補(bǔ)了現(xiàn)有評估體系的空白,還為未來大模型智能體在復(fù)雜任務(wù)中的應(yīng)用提供了重要的參考。

該工作已被人工智能頂級會(huì)議ICLR 2025錄用。

WorfBench構(gòu)建與評估

WorfBench利用GPT自動(dòng)化構(gòu)建多場景任務(wù),包括problem solving、function calling、embodied planning和open-ended planning等,生成了包含18k訓(xùn)練樣本、2146測試樣本和723個(gè)OOD的評測數(shù)據(jù)集。作者將工作流建模為有向無環(huán)圖(DAG),以更精確地表示現(xiàn)實(shí)世界中的復(fù)雜串行或并行智能體工作流。

為了確保數(shù)據(jù)質(zhì)量,作者引入了節(jié)點(diǎn)鏈作為中間結(jié)構(gòu),并采用拓?fù)渑判颍═opological Sorting)算法對圖結(jié)構(gòu)進(jìn)行質(zhì)量過濾,并在測試集上進(jìn)行人工驗(yàn)證。

WorfEval則通過子序列和子圖匹配算法,分別從鏈結(jié)構(gòu)和圖結(jié)構(gòu)兩個(gè)維度對大模型生成的工作流進(jìn)行量化評估,從而精準(zhǔn)衡量模型的線性規(guī)劃和圖規(guī)劃能力。

基準(zhǔn)評測結(jié)果

作者在WorfBench上對18種不同規(guī)模的主流大模型進(jìn)行了全面評估,包括閉源模型(如O1、GPT-4、Claude-3.5)和開源模型(如Llama系列、Qwen系列等)。實(shí)驗(yàn)結(jié)果顯示,與線性結(jié)構(gòu)相比,模型在圖結(jié)構(gòu)工作流預(yù)測上的能力遠(yuǎn)未達(dá)到現(xiàn)實(shí)需求,即使是性能卓越的GPT-4,其圖結(jié)構(gòu)工作流的平均性能也僅為52.47%。

此外,作者還對兩個(gè)開源模型進(jìn)行了訓(xùn)練,并在OOD任務(wù)上評估其泛化能力。結(jié)果表明,盡管在訓(xùn)練集上表現(xiàn)出色,但在未見過的任務(wù)上,模型的泛化能力仍有待提高。這表明,僅通過數(shù)據(jù)擬合目前仍難以實(shí)現(xiàn)結(jié)構(gòu)化工作流規(guī)劃能力的有效學(xué)習(xí)。

工作流生成分析

通過對實(shí)驗(yàn)結(jié)果的深入分析,作者發(fā)現(xiàn)大模型在工作流生成中存在顯著的線性規(guī)劃與圖規(guī)劃能力差距,且圖規(guī)劃能力與模型規(guī)模并非完全正相關(guān)。例如,部分7B模型在某些任務(wù)上超越了13B模型,這可能與模型訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量有關(guān)。

此外,作者還發(fā)現(xiàn),即使提供標(biāo)簽節(jié)點(diǎn)鏈以簡化圖結(jié)構(gòu)預(yù)測任務(wù),模型的圖規(guī)劃性能仍不理想,這表明圖規(guī)劃的復(fù)雜性在于對任務(wù)依賴關(guān)系的理解。

進(jìn)一步的錯(cuò)誤分析顯示,大模型在工作流生成中的典型錯(cuò)誤主要集中在任務(wù)分解的粒度、任務(wù)描述的明確性、圖結(jié)構(gòu)的正確性以及輸出格式的規(guī)范性四個(gè)方面。這些錯(cuò)誤大多源于模型對環(huán)境知識的缺乏。

因此,未來的研究方向可能包括優(yōu)化提示策略、采用多智能體架構(gòu),以及將世界知識或世界模型更深入地融入大模型中,以提升其對現(xiàn)實(shí)世界的理解能力。

工作流知識增強(qiáng)智能體

作者探討了工作流在智能體規(guī)劃中的重要作用。研究發(fā)現(xiàn),工作流不僅可以作為一種流程先驗(yàn)知識直接指導(dǎo)智能體的規(guī)劃過程,幫助其在復(fù)雜任務(wù)中更高效地執(zhí)行,還可以作為鏈?zhǔn)剿伎迹–hain-of-Thought, CoT)的增強(qiáng)手段,通過為智能體提供更相關(guān)的API選擇,減輕其在多步任務(wù)中的負(fù)擔(dān)。

此外,工作流的圖結(jié)構(gòu)特性能夠?qū)崿F(xiàn)并行任務(wù)執(zhí)行,顯著減少推理時(shí)間,同時(shí)減少智能體在規(guī)劃過程中的步驟數(shù),提升任務(wù)完成效率。這些結(jié)果表明,工作流不僅是連接任務(wù)與具體執(zhí)行動(dòng)作的橋梁,還能顯著提升智能體在復(fù)雜任務(wù)中的表現(xiàn)和效率。

論文鏈接: https://arxiv.org/abs/2410.07869 

代碼鏈接: https://github.com/zjunlp/WorfBench

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-23 08:47:00

2025-05-30 09:17:00

2024-10-17 13:09:14

2025-04-18 09:13:00

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2024-11-04 12:48:12

2025-07-10 08:52:00

2023-06-15 13:45:41

模型AI

2017-04-11 09:33:12

JS面試題應(yīng)聘者

2025-05-22 09:07:00

2024-12-12 08:49:37

2025-04-25 09:05:00

2023-06-05 10:01:18

模型測評

2024-03-11 00:40:00

AI研究

2025-11-06 01:44:00

2025-02-25 10:04:10

2025-09-22 17:07:31

2025-05-15 03:25:00

2025-09-24 13:04:01

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

久久久久久国产免费| 亚洲国产成人精品视频| 国产日韩欧美视频| 国产在线成人精品午夜| 国产最新视频在线| 久久99精品久久久久婷婷| 色综合久久久888| 扒开jk护士狂揉免费| 欧美一级做a| 欧美日韩视频免费播放| dy888午夜| 精品99又大又爽又硬少妇毛片 | 欧美成人激情在线| 中文字幕一区二区三区人妻| www.久久久.com| 日韩欧美成人区| 欧美日韩中文字幕在线播放| 九一国产在线| yourporn久久国产精品| 91精品视频网站| 国产手机在线观看| 日韩在线网址| 欧美日韩电影一区| 亚洲一区在线直播| 天堂v视频永久在线播放| 影音先锋日韩资源| y97精品国产97久久久久久| 成人手机在线免费视频| 亚洲啊v在线免费视频| 欧美私人免费视频| 成年人网站大全| 人狥杂交一区欧美二区| 亚洲影视在线播放| 日韩精品第1页| 欧美videos极品另类| 国产人成一区二区三区影院| 久久www免费人成精品| 国产一级片毛片| 红桃视频欧美| 亚洲男人天堂2019| 久久久高清视频| 亚洲同志男男gay1069网站| 一区二区三区中文在线观看| 中日韩在线视频| 91精品专区| 欧美国产日韩a欧美在线观看| 欧美xxxx黑人又粗又长精品| 色鬼7777久久| 91麻豆蜜桃一区二区三区| 国产欧美日韩伦理| 成人精品在线播放| 成人激情黄色小说| 国产一区二区免费电影| 人妻一区二区三区免费| 97久久超碰国产精品| 日本成人黄色片| 国产剧情在线视频| 免费日韩av片| 国产激情视频一区| 久久青青草视频| 国产欧美一区二区三区国产幕精品| 国内精品久久久久伊人av| 一区二区三区免费高清视频 | 国产网站免费在线观看| 麻豆成全视频免费观看在线看| 性欧美大战久久久久久久久| 免费在线观看91| 九色在线视频蝌蚪| 国产精品国产三级国产有无不卡| 亚洲一区二区三区在线观看视频| 午夜伦理在线| 亚洲乱码中文字幕| 黄色大片中文字幕| 无遮挡动作视频在线观看免费入口| 欧美激情一区二区在线| 亚洲一二三区精品| 亚洲欧美成人影院| 欧美日韩精品国产| 91精品无人成人www| 国产精品视频首页| 亚洲国内高清视频| 午夜大片在线观看| 一区二区三区国产好| 日韩国产一区三区| 2019男人天堂| 国产精品豆花视频| 国产成人欧美在线观看| 国产又大又黑又粗| 成人黄页毛片网站| 日韩欧美三级电影| 日本免费不卡视频| 久久久久久久久99精品| 91手机视频在线| 国产资源在线观看入口av| 日本丶国产丶欧美色综合| 国产免费中文字幕| 亚洲老女人视频免费| 久久精品国产91精品亚洲| 久草精品视频在线观看| 欧美日韩1080p| 秋霞成人午夜鲁丝一区二区三区| 国产精品久久久久久在线| 成人免费毛片嘿嘿连载视频| 亚洲精蜜桃久在线| 爱搞国产精品| 欧美一区二区视频在线观看2020| 色噜噜在线观看| 午夜日韩视频| 国产精品亚洲欧美导航| 亚洲av综合一区| 高清国产一区二区三区| 亚洲va韩国va欧美va精四季| 不卡一本毛片| 91精品国产综合久久久久| 少妇久久久久久久久久| 亚洲人成高清| 久久亚洲二区三区| 亚洲性线免费观看视频成熟| 欧美激情一区二区视频| 免费高清视频精品| 欧美日韩在线精品一区二区三区| 亚洲精品视频专区| 欧美国产精品久久| 久久国产乱子伦免费精品| 成人18夜夜网深夜福利网| xxx一区二区| 中文字幕一区综合| 97人妻人人澡人人爽人人精品| 99精品在线免费| 菠萝蜜视频在线观看入口| 国产人伦精品一区二区| 国产精品igao激情视频| 韩国理伦片久久电影网| 亚洲综合激情网| 污版视频在线观看| 国产videos久久| 欧美亚洲在线播放| 人妻中文字幕一区| 亚洲国产精品久久久男人的天堂 | 精品视频高清无人区区二区三区| 午夜伦理大片视频在线观看| 欧美精品粉嫩高潮一区二区| 日本乱子伦xxxx| 久久青草久久| 欧美污视频久久久| 小h片在线观看| 亚洲精选在线观看| 在线观看日本视频| 久久久噜噜噜久久中文字幕色伊伊 | 台湾佬美性中文| 国产专区一区| 国产精品久久久久久久久久久久冷 | 久久久综合激的五月天| 欧美日韩国产精品激情在线播放| 欧美色资源站| 国产成人高潮免费观看精品| 韩国中文字幕2020精品| 欧美亚洲综合色| 四虎地址8848| 亚洲欧美综合| 亚洲精品国产成人影院| 97国产一区二区精品久久呦 | 免费看污污视频| 日韩欧美中文字幕一区二区三区| 色中色综合影院手机版在线观看 | 超碰国产精品一区二页| 欧美成人免费观看| 日本久久一级片| 日本乱码高清不卡字幕| 国产又粗又长又黄的视频| 国产在线视频一区二区三区| 97超碰国产精品| 亚洲免费成人av在线| 国产精品成人播放| 超碰人人在线| 日韩电影免费在线观看中文字幕| 亚洲视屏在线观看| 亚洲精品你懂的| 日本天堂在线播放| 精品一区亚洲| 国产又爽又黄的激情精品视频| 黄色大片在线播放| 亚洲成人国产精品| 亚洲中文无码av在线| 亚洲色图欧洲色图婷婷| 欧美大片免费播放器| 奇米精品一区二区三区四区| 久久最新免费视频| 全球av集中精品导航福利| 国产有码在线一区二区视频| 国产理论在线| 精品国偷自产在线| 头脑特工队2在线播放| 欧美优质美女网站| 日韩伦理在线视频| 亚洲欧洲在线观看av| 国产福利在线观看视频| 精品亚洲成a人在线观看| 欧美深夜福利视频| 亚洲国产精品综合久久久| 久久综合入口| 秋霞一区二区三区| 国产精品久久久久久网站 | 青青青国产精品一区二区| 2021国产在线| 中文字幕国产日韩| 亚洲三级黄色片| 欧美v国产在线一区二区三区| 无码人妻精品一区二区三区蜜桃91 | 欧美搞黄网站| 91色在线视频| 91亚洲国产成人精品一区| 亚洲最新在线观看| 超碰97av在线| 久久青草欧美一区二区三区| 永久av免费在线观看| 日本不卡123| 精品少妇一区二区三区在线| 99热国内精品| 日本不卡在线播放| 四虎影院观看视频在线观看| 亚洲欧美精品中文字幕在线| 亚洲国产福利视频| 91.成人天堂一区| 国产精品白丝喷水在线观看| xnxx国产精品| 国产黑丝一区二区| 国产99精品视频| 交换做爰国语对白| 精品一区二区三区在线视频| 日本新janpanese乱熟| 亚洲美女一区| 免费看又黄又无码的网站| 激情久久中文字幕| 黄色三级中文字幕| 黄色亚洲在线| 免费看欧美黑人毛片| 午夜精品久久| 日韩亚洲欧美视频| 亚洲二区精品| 女性女同性aⅴ免费观女性恋| 在线成人亚洲| 欧美亚洲精品一区二区| 亚洲黄色免费| 六月丁香婷婷激情| 久久精品主播| 亚洲天堂av线| 精品一区二区日韩| 一级黄色片在线免费观看| 国产一区二三区| 丰满人妻一区二区三区大胸| 国产激情偷乱视频一区二区三区 | 久久精品一区二区三区四区五区| 久久久激情视频| 五月天综合视频| 国产女人18毛片水真多成人如厕 | 国产精品午夜视频| 日韩电影免费观看高清完整版在线观看| 国产精品流白浆视频| 日本a人精品| 97se在线视频| 精品五月天堂| 欧美性xxxx69| 久久五月天小说| 今天免费高清在线观看国语| 欧美日韩国产欧| 亚洲欧洲日产国码无码久久99| 久久精品道一区二区三区| 91日韩视频在线观看| 国内精品视频666| 中文字幕在线视频播放| 久久久久久久久久久久久久久99| 1024在线看片| 一区二区三区.www| 精品国产一区二区三区四| 精品视频在线免费看| 国产黄色片免费| 日韩美女av在线| 欧美三级理伦电影| 欧美精品电影免费在线观看| 欧美电影免费观看| 久久av在线播放| wwwww在线观看免费视频| www.日韩欧美| 99爱在线观看| 国产美女高潮久久白浆| 北条麻妃一区二区三区在线观看| 久久影院理伦片| 欧美一区二区| caoporn超碰97| 国产福利一区在线| 免费看黄色的视频| 亚洲网友自拍偷拍| 一级黄色免费看| 日韩精品视频中文在线观看| 日本不卡三区| 欧美孕妇与黑人孕交| 久久免费福利| 亚欧洲精品在线视频免费观看| 狠久久av成人天堂| 日韩av在线中文| 91网址在线看| 久久久香蕉视频| 欧美图区在线视频| 日本精品一区二区在线观看| yellow中文字幕久久| av高清一区| 国产精品久久久久久久久免费看| 欧美成人精品午夜一区二区| 视频一区视频二区视频三区高| 亚洲激情偷拍| 永久av免费在线观看| 国产成人短视频在线观看| 精品国产免费人成电影在线观看四季 | 亚洲欧美日韩免费| 久久精品99久久香蕉国产色戒| 天堂中文在线播放| 国产精品免费一区二区三区在线观看 | 久久综合色8888| 国产无码精品一区二区| 91麻豆精品91久久久久同性| 岛国视频免费在线观看| 2018日韩中文字幕| 国产调教精品| 国产日韩欧美大片| 九九久久精品视频| 亚洲最大成人综合网| 色哟哟欧美精品| 能在线看的av| 国产乱一区二区| 欧美亚洲日本一区二区三区| 国产在线不卡一区| 国产91在线播放九色| 欧洲激情一区二区| 国产在线观看免费网站| 欧美洲成人男女午夜视频| 日韩免费电影在线观看| 99国产在线视频| 亚洲自拍偷拍网| www.成人黄色| 亚洲色图另类专区| 99产精品成人啪免费网站| 久久久精品电影| 久久免费精品| 一本久道高清无码视频| av在线不卡观看免费观看| 日韩欧美性视频| 亚洲摸下面视频| 国产精品高清乱码在线观看| 日韩中文一区二区三区| 麻豆精品久久久| 国产xxxx视频| 亚洲成a人片综合在线| 老牛影视av牛牛影视av| 午夜欧美大片免费观看| 亚州综合一区| 色哟哟精品视频| 亚洲三级在线免费| 丰满岳乱妇国产精品一区| 午夜精品久久久久久久99热| 欧美综合自拍| 亚洲黄色a v| 亚洲婷婷综合色高清在线| 国产成人三级在线播放| 久久久久久91| 欧美美乳视频| 不卡的在线视频| 亚洲午夜一区二区| 欧美视频综合| 国产一区视频在线| 亚洲区第一页| 色噜噜噜噜噜噜| 欧美va亚洲va| 蜜臀国产一区| 日韩人妻精品一区二区三区| 成人动漫一区二区| jizz国产在线| 欧美黑人xxx| 精品一区二区三区中文字幕在线| 丁香婷婷综合激情| 久久久美女艺术照精彩视频福利播放| 一卡二卡三卡在线观看| 午夜美女久久久久爽久久| 日韩精品91| 欧美夫妇交换xxx| 欧美日韩精品是欧美日韩精品| 免费在线播放电影| 日韩欧美三级电影| 成人精品电影在线观看| 中文字幕在线播放日韩| 国产亚洲美女精品久久久| 国产日韩欧美中文在线| 亚洲国产精品久久久久爰色欲| 亚洲欧洲一区二区在线播放| 少妇精品高潮欲妇又嫩中文字幕| 国产精品久久久久免费a∨| 影音先锋亚洲一区| 51精品免费网站| 亚洲欧美日韩国产成人| 亚洲欧美日本国产|