精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2025 Spotlight | 誰(shuí)導(dǎo)致了多智能體系統(tǒng)的失敗?首個(gè)「自動(dòng)化失敗歸因」研究出爐

人工智能 新聞
這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了?LLM 多智能體系統(tǒng)的自動(dòng)化失敗歸因這一新任務(wù)。

想象這樣一個(gè)場(chǎng)景:你開(kāi)發(fā)了一個(gè)由多個(gè)大型語(yǔ)言模型 Agent 組成的智能團(tuán)隊(duì),它們協(xié)作完成復(fù)雜任務(wù),比如一個(gè) Agent 負(fù)責(zé)檢索,一個(gè)負(fù)責(zé)決策。然而任務(wù)失敗了,結(jié)果不對(duì)。

問(wèn)題來(lái)了:到底是哪個(gè) Agent 出了錯(cuò)?又是在對(duì)話(huà)流程的哪一環(huán)節(jié)?調(diào)試這樣的多智能體系統(tǒng)如同大海撈針,需要翻閱大量復(fù)雜日志,極其耗時(shí)。

這并非虛構(gòu)。在多智能體 LLM 系統(tǒng)中,失敗常見(jiàn)但難以診斷。隨著這類(lèi)系統(tǒng)愈加普及,我們急需新方法快速定位錯(cuò)誤。正因如此,ICML 2025 的一篇 Spotlight 論文提出了「自動(dòng)化失敗歸因(Automated Failure Attribution)」的新研究方向,目標(biāo)是讓 AI 自動(dòng)回答:是誰(shuí)、在哪一步導(dǎo)致了失敗。

該工作由 Penn State、Duke、UW、Goolge DeepMind 等機(jī)構(gòu)的多位研究人員合作完成。

圖片

  • 論文標(biāo)題:Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems
  • arXiv 地址:https://arxiv.org/pdf/2505.00212
  • 代碼地址:https://github.com/mingyin1/Agents_Failure_Attribution

背景挑戰(zhàn)

LLM 驅(qū)動(dòng)的多智能體系統(tǒng)在諸多領(lǐng)域展現(xiàn)出巨大潛力,從自動(dòng)化助手協(xié)同辦公到多 Agent 合作完成 Web 復(fù)雜操作等。然而,這些系統(tǒng)脆弱性也逐漸顯現(xiàn):多個(gè) Agent 之間的誤解、信息傳遞錯(cuò)誤或決策不當(dāng),都可能導(dǎo)致整體任務(wù)失敗。

圖片

對(duì)于開(kāi)發(fā)者來(lái)說(shuō),一個(gè)失敗案例往往意味著必須手動(dòng)審閱長(zhǎng)長(zhǎng)的對(duì)話(huà)日志,試圖找出哪個(gè) Agent 在哪一步出了差錯(cuò)。這種調(diào)試過(guò)程既費(fèi)時(shí)費(fèi)力,也需要調(diào)試者對(duì)整個(gè)任務(wù)邏輯非常熟悉。更大的挑戰(zhàn)在于,缺乏系統(tǒng)化的方法來(lái)定位失敗原因 —— 傳統(tǒng)評(píng)估只關(guān)注任務(wù)成功與否,但很少深入到「失敗責(zé)任」這一層面上。

結(jié)果就是,多智能體系統(tǒng)一旦出錯(cuò),我們往往只能知道「出了問(wèn)題」卻無(wú)法快速知道「問(wèn)題出在哪、因何而起」。這種局面嚴(yán)重限制了多智能體系統(tǒng)的改進(jìn)和可信度。如果無(wú)法自動(dòng)歸因失敗,我們就難以針對(duì)性地加強(qiáng)某個(gè) Agent 的能力或優(yōu)化協(xié)作策略。換言之,失敗歸因是連接評(píng)估與改進(jìn)的缺失環(huán)節(jié)。

研究?jī)?nèi)容

針對(duì)上述挑戰(zhàn),這篇 ICML 2025 Spotlight 論文率先提出并 formalize 了 LLM 多智能體系統(tǒng)的自動(dòng)化失敗歸因這一新任務(wù)。

研究的核心目標(biāo):給定一個(gè)多 Agent 協(xié)作任務(wù)的失敗日志,自動(dòng)確定導(dǎo)致失敗的罪魁禍?zhǔn)资悄膫€(gè) Agent(「Who」),以及決定性錯(cuò)誤發(fā)生在交互的哪一步(「When」)。

為推動(dòng)這一方向,作者構(gòu)建了首個(gè)用于失敗歸因研究的基準(zhǔn)數(shù)據(jù)集 ——「Who&When」。該數(shù)據(jù)集精心收集了 127 個(gè)多智能體系統(tǒng)的失敗日志,涵蓋了多個(gè)公開(kāi)基準(zhǔn)(如 GAIA、AssistantBench 等)中的復(fù)雜任務(wù),具有相當(dāng)?shù)亩鄻有浴8匾氖牵髡邽槊織l失敗日志都提供了細(xì)粒度的人工標(biāo)注:

  • 標(biāo)記出導(dǎo)致任務(wù)失敗的責(zé)任 Agent(即「Who」,哪個(gè)智能體犯了錯(cuò))
  • 標(biāo)記出導(dǎo)致失敗的關(guān)鍵錯(cuò)誤步驟(即「When」,在整個(gè)對(duì)話(huà) / 操作序列中的第幾步出了錯(cuò))
  • 以及相應(yīng)的自然語(yǔ)言解釋(即「Why」,為什么這個(gè)錯(cuò)誤會(huì)導(dǎo)致失敗)

基準(zhǔn)數(shù)據(jù)集地址:https://huggingface.co/datasets/Kevin355/Who_and_When

這種標(biāo)注使得數(shù)據(jù)集既可用于訓(xùn)練模型自動(dòng)定位「誰(shuí)」和「何時(shí)」出錯(cuò),也方便人類(lèi)分析失敗的原因。數(shù)據(jù)集中「Who」和「When」標(biāo)注的引入填補(bǔ)了以往多智能體評(píng)測(cè)中對(duì)失敗原因關(guān)注的空白。可以說(shuō),Who&When 數(shù)據(jù)集為自動(dòng)失敗歸因任務(wù)提供了首個(gè)標(biāo)準(zhǔn)測(cè)試床,讓研究者能夠在統(tǒng)一語(yǔ)境下探索讓 AI 自動(dòng)當(dāng)「故障偵探」的可能性。

技術(shù)細(xì)節(jié)

有了數(shù)據(jù)集,接下來(lái)作者設(shè)計(jì)了三種用于自動(dòng)失敗歸因的初步方法,并對(duì)它們進(jìn)行了系統(tǒng)比較:

  • All-at-Once 方法:將完整的多 Agent 日志一次性交給 LLM,讓其整體判斷 「哪個(gè) Agent 在哪一步出錯(cuò)」。優(yōu)點(diǎn)是調(diào)用少、成本低,擅長(zhǎng)宏觀(guān)歸因;缺點(diǎn)是信息量大,易錯(cuò)過(guò)細(xì)節(jié)。
  • Step-by-Step 方法:模擬人工調(diào)試,讓 LLM 逐輪分析每一步交互,逐步定位錯(cuò)誤。優(yōu)點(diǎn)是粒度細(xì)、定位準(zhǔn);缺點(diǎn)是調(diào)用頻繁、成本高,且誤判可能累積。
  • Binary Search 方法:對(duì)日志進(jìn)行二分,逐步縮小范圍,最終鎖定出錯(cuò)步驟。在調(diào)用次數(shù)和定位精度之間取得平衡,適合長(zhǎng)日志。缺點(diǎn)是需要多輪交互,復(fù)雜度居中。值得注意的是,每種方法在準(zhǔn)確性、成本和粒度上各有權(quán)衡,沒(méi)有一種方法能在所有指標(biāo)上全面勝出。這三種方案共同構(gòu)成了自動(dòng)失敗歸因任務(wù)的初步解法庫(kù),探索了從「一步到位」到「循序漸進(jìn)」再到「折中求解」的不同思路。作者在論文中詳細(xì)討論了它們各自的優(yōu)劣。

實(shí)驗(yàn)結(jié)果

作者在 Who&When 數(shù)據(jù)集上對(duì)上述方法進(jìn)行了系統(tǒng)評(píng)估,帶來(lái)了許多發(fā)人深省的發(fā)現(xiàn):

  • 整體表現(xiàn)有限:當(dāng)前方法效果仍較差。最佳模型在識(shí)別出錯(cuò) Agent 上準(zhǔn)確率僅約 53.5%,而準(zhǔn)確定位錯(cuò)誤步驟的準(zhǔn)確率更低,僅 14.2%,幾乎接近瞎猜。一些方法甚至表現(xiàn)不如隨機(jī),顯示任務(wù)本身極具挑戰(zhàn)性。
  • 各有所長(zhǎng):不同方法擅長(zhǎng)不同子任務(wù)。All-at-Once 更擅長(zhǎng)識(shí)別「誰(shuí)」出錯(cuò),Step-by-Step 更適合找出「何時(shí)」出錯(cuò),而 Binary Search 表現(xiàn)居中,平衡調(diào)用成本和定位精度。

圖片

  • 混合策略更優(yōu)但代價(jià)高:將多種方法結(jié)合(如先用 All-at-Once 找嫌疑 Agent,再用 Step-by-Step 精查)確實(shí)提升了準(zhǔn)確率,驗(yàn)證了方法間的互補(bǔ)性。但計(jì)算成本顯著增加,需在效果與資源之間權(quán)衡。

圖片

  • 現(xiàn)有 SOTA 模型乏力: OpenAI o1 或者 DeepSeek R1,表現(xiàn)仍不理想,遠(yuǎn)未達(dá)到實(shí)用水平。可見(jiàn),失敗歸因任務(wù)對(duì) AI 推理與理解能力的要求,遠(yuǎn)超當(dāng)前模型在常規(guī)任務(wù)中的表現(xiàn),凸顯了其挑戰(zhàn)性和研究?jī)r(jià)值。

圖片

結(jié)論

自動(dòng)化失敗歸因有望成為多智能體 AI 系統(tǒng)開(kāi)發(fā)中的重要一環(huán),它將幫助我們更深入地理解 AI 代理的失敗模式,將「哪里出錯(cuò)、誰(shuí)之過(guò)」從令人頭疼的謎題變成可量化分析的問(wèn)題。因此,我們可以在評(píng)估與改進(jìn)之間架起橋梁,打造更可靠、更智能的多 Agent 協(xié)作系統(tǒng)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-06-11 13:44:44

自動(dòng)化模型智能體

2025-06-03 09:08:00

2021-03-03 14:08:48

自動(dòng)化高管IT投資

2025-05-21 08:47:00

2025-06-30 08:36:00

AI模型強(qiáng)化學(xué)習(xí)

2021-04-19 11:37:20

智能自動(dòng)化物聯(lián)網(wǎng)IOT

2025-05-14 09:17:00

2022-07-18 10:08:17

DevOps運(yùn)維編排

2025-08-26 03:15:00

MASLLM映射

2020-04-29 11:28:54

智能自動(dòng)化機(jī)器人流程自動(dòng)化AI

2022-08-15 15:40:32

物聯(lián)網(wǎng)樓宇自控智能建筑

2022-02-17 17:37:17

超級(jí)自動(dòng)化人工智能AI

2025-08-27 01:45:00

多智能LLM系統(tǒng)

2022-02-18 13:12:49

人工智能自動(dòng)化技術(shù)

2009-02-16 18:22:55

2018-01-23 08:12:37

數(shù)字化轉(zhuǎn)型CIO企業(yè)轉(zhuǎn)型

2009-02-27 15:13:00

2013-07-17 14:13:08

產(chǎn)品產(chǎn)品失敗

2022-06-26 20:37:17

系統(tǒng)性能場(chǎng)景

2025-05-07 13:48:48

AIGC生成機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

1024成人网| 日韩不卡在线观看日韩不卡视频| 日韩午夜精品电影| 精品视频在线观看一区二区| 手机福利在线| 免费av网站大全久久| 欧美噜噜久久久xxx| 黄色性生活一级片| 日韩精品一级毛片在线播放| 亚洲一区欧美一区| 日韩在线导航| 免费看日韩av| 美女高潮久久久| 久久久久在线观看| 日本精品在线观看视频| 97超碰成人| 欧美婷婷六月丁香综合色| wwwwww欧美| www 日韩| 99久久婷婷国产综合精品电影| 国产精品视频一| 国产精品白浆一区二小说| 国产乱码精品一区二区亚洲| 日韩三级视频在线观看| 日韩一级片播放| 国精一区二区三区| 国产精品久久久久四虎| 免费av在线一区二区| 国产福利视频导航| 奇米色一区二区| 96精品视频在线| 亚洲国产美女视频| 日韩欧美精品| 亚洲品质视频自拍网| 在线播放第一页| 日韩专区视频| 欧美色老头old∨ideo| 日韩av三级在线| av老司机免费在线| 亚洲精品老司机| 午夜精品美女久久久久av福利| 亚洲精品国产精品乱码不卡| 国产在线视频一区二区三区| 国产精品露脸自拍| 青青草成人av| 亚洲欧洲一区二区天堂久久| 欧美老女人性视频| 性色av无码久久一区二区三区| 日韩电影二区| 一本大道亚洲视频| 一级片视频免费看| 国产一区二区精品福利地址| 亚洲欧美另类自拍| 91国模少妇一区二区三区| 婷婷综合电影| 精品亚洲男同gayvideo网站| 亚洲一区二区三区四区五区六区| 大型av综合网站| 精品国产精品网麻豆系列| 欧美69精品久久久久久不卡| 免费一级欧美片在线观看网站| 欧美一级欧美三级在线观看| 亚洲一区二区三区四区精品| 国产视频网站一区二区三区| 7777精品伊人久久久大香线蕉超级流畅| 另类小说第一页| 亚洲福利影视| 91精品国产综合久久久久久久| 在线一区二区不卡| 精品三级久久久| 精品精品欲导航| 国产精品扒开腿做爽爽爽a片唱戏| 91成人噜噜噜在线播放| 亚洲福利视频网| 欧美一区二区三区成人精品| 亚洲素人在线| 中文字幕欧美日韩| 亚洲色偷偷综合亚洲av伊人| 欧美va天堂| 97热在线精品视频在线观看| 久久久久女人精品毛片九一 | 午夜久久久久久久久久久| av大大超碰在线| 亚洲一区二区三区视频在线播放| 99热自拍偷拍| 成人国产在线| 日韩天堂在线观看| av网站免费在线播放| av中字幕久久| 欧美高跟鞋交xxxxxhd| 日韩成人免费在线观看| 久久中文字幕一区二区三区| 国产精品吴梦梦| 亚洲国产精彩视频| 久久久久久久综合日本| 91制片厂免费观看| 人在线成免费视频| 欧美精品tushy高清| 亚洲天堂2024| 成人毛片在线| 欧美精品电影在线| 最近中文在线观看| 成人av资源站| 爱爱爱视频网站| 三级在线看中文字幕完整版| 色美美综合视频| 香蕉视频在线观看黄| 国产一区2区| 欧美精品久久一区二区| 亚洲熟妇无码久久精品| 9i在线看片成人免费| 亚洲视频sss| 欧美日韩在线观看首页| 欧美一级夜夜爽| 黄色片在线观看免费| 国模 一区 二区 三区| 国产精品高潮呻吟久久av野狼 | 欧美va亚洲va在线观看蝴蝶网| 熟女高潮一区二区三区| 国内精品久久久久久久影视蜜臀 | 另类少妇人与禽zozz0性伦| 国产午夜激情视频| 韩国精品一区二区| 日韩高清dvd| 天堂电影一区| 精品国产乱码久久久久久闺蜜| 三级黄色片在线观看| 久久福利精品| 国产麻豆日韩| 性欧美1819sex性高清大胸| 欧美少妇xxx| a级大片在线观看| 国产欧美另类| 国产精品一区二区av| 成人三级网址| 欧美高清你懂得| 五月婷婷欧美激情| 日日夜夜一区二区| 欧美日韩一区二区视频在线| 擼擼色在线看观看免费| 欧美成人aa大片| 九九热只有精品| 国产精品一区免费在线观看| 日韩最新中文字幕| 综合欧美精品| 久久精品亚洲94久久精品| 中国老头性行为xxxx| 日本一区二区三区在线观看| 九色porny91| 精品免费在线| 国产精品久久久久免费a∨| 国产乱视频在线观看| 在线亚洲一区观看| 一区二区三区伦理片| 丝袜亚洲另类欧美综合| 欧美中文娱乐网| 日韩不卡在线| 中文字幕不卡在线视频极品| 中文文字幕一区二区三三| 国产欧美精品一区| 亚洲免费999| 香蕉国产精品| 成人在线视频网址| 成人在线黄色电影| 亚洲欧洲日产国码av系列天堂| 日韩电影在线观看一区二区| 欧美激情综合网| 免费成年人高清视频| 欧美福利在线| 国产一区精品视频| 波多野结衣亚洲一二三| 中文字幕在线看视频国产欧美在线看完整| 国产精品成人无码| 亚洲四区在线观看| www.美色吧.com| 久久午夜激情| 一本二本三本亚洲码| 91成人精品在线| 奇米四色中文综合久久| jizz在线观看中文| 欧美一区二区成人| 国产特黄大片aaaa毛片| 国产日韩精品一区二区三区| 五月天视频在线观看| 欧美精选一区| 久久精品女人的天堂av| 成人av色网站| 九色精品美女在线| 欧美zzoo| 欧美一级视频精品观看| 日韩美一区二区| 亚洲女同女同女同女同女同69| 人妻换人妻a片爽麻豆| 日韩激情在线观看| 国产91沈先生在线播放| 国产一区二区三区四区五区| 91丝袜脚交足在线播放| 欧美性suv| 欧美韩日一区二区| 北岛玲一区二区三区| 亚洲精品一区二区三区精华液| 怡红院av久久久久久久| 亚洲一区二区中文在线| 三年中国中文观看免费播放| 成人午夜在线播放| 邪恶网站在线观看| 国产亚洲毛片在线| 久久99国产精品一区| 久久99国内| 国产精品手机视频| 伊人亚洲精品| 国产精品va在线| 啦啦啦中文在线观看日本| 精品一区二区三区四区在线| 国产chinasex对白videos麻豆| 色婷婷亚洲综合| 免费一级片视频| 国产精品视频你懂的| 亚洲最大免费视频| 国产成人精品影视| 男女视频在线看| 欧美亚洲网站| 精品视频在线观看一区| 亚洲一区二区日韩| 一区二区三区我不卡| 国产成人1区| 九九九九九精品| 亚洲午夜免费| 5566av亚洲| 91麻豆精品国产综合久久久| 国产精品mp4| 成人勉费视频| 2019最新中文字幕| 丁香花视频在线观看| 理论片在线不卡免费观看| 日韩理伦片在线| 一区二区三区高清国产| 男男电影完整版在线观看| 亚洲精品国精品久久99热 | 中文不卡1区2区3区| 欧美激情第三页| 精产国品自在线www| 在线播放日韩欧美| 国产网站在线播放| 夜夜躁日日躁狠狠久久88av| 国产中文在线| 亚洲日本欧美中文幕| 欧美精品久久久久久久久久丰满| 亚洲精品美女久久久久| 五月婷婷在线观看视频| 日韩av网址在线| 网站黄在线观看| 亚洲国产精品va在线| 日本韩国免费观看| 日韩精品免费综合视频在线播放| 天天摸天天干天天操| 日韩av在线免费播放| 日本成人一区二区三区| 亚洲精品久久久久国产| 三级视频网站在线| 亚洲精品视频久久| 国产大片在线免费观看| 一区二区三区在线播放欧美| 在线观看麻豆| 久久精品亚洲一区| 欧美精品videossex少妇| 欧美国产日韩在线| 91www在线| 日本老师69xxx| 精品欧美日韩精品| 91精品久久久久久久久久另类 | 国产精品久久久亚洲一区| 国产精品999视频| 视频一区二区中文字幕| 狠狠躁狠狠躁视频专区| 美女www一区二区| 成年人性生活视频| 久久婷婷国产综合精品青草| 在线视频第一页| √…a在线天堂一区| 国产亚洲欧美久久久久| 欧美日韩一区免费| 免费又黄又爽又猛大片午夜| 欧美日本在线看| 亚洲第一页在线观看| 亚洲毛片在线看| 欧美成人二区| 97在线视频免费观看| 欧美色片在线观看| 99精彩视频在线观看免费| 欧美黑人巨大videos精品| 色噜噜狠狠一区二区三区| 久久久久久久久久久9不雅视频| 亚洲精品无码国产| 日韩成人免费看| 一二三区视频在线观看| 久久嫩草精品久久久久| 国产传媒免费在线观看| 精品久久久久久中文字幕大豆网| 中文字幕在线观看免费| 日韩精品一区二区三区四区| 邻居大乳一区二区三区| 欧美成人午夜视频| 秋霞国产精品| 成人h视频在线观看| 日韩在线视屏| 少妇无码av无码专区在线观看| 麻豆视频一区二区| 亚洲色图14p| 一区二区三区精品| 精品国产青草久久久久96| 亚洲第一在线视频| √天堂8在线网| 国产精品免费小视频| 国产精品欧美大片| 国产高清免费在线| 久久三级福利| 老司机午夜免费福利| 亚洲图片激情小说| 99re这里只有精品在线| 精品欧美一区二区在线观看 | 欧美精品videos性欧美| 日韩黄色碟片| 人禽交欧美网站免费| 日韩一级网站| 日本少妇一区二区三区| 国产精品久久久久永久免费观看 | 主播国产精品| 国产精品一区久久久| 一区二区三区日本久久久| 欧美狂野激情性xxxx在线观| 久久电影国产免费久久电影| 亚洲天堂岛国片| 欧美午夜宅男影院在线观看| 六月婷婷中文字幕| 欧美激情喷水视频| 亚洲精品一区二区三区在线| 国产资源第一页| 狠狠色丁香久久婷婷综| 国产美女高潮视频| 欧美日韩国产首页| 91激情在线| 国产欧美精品一区二区| 欧美三级三级| 色悠悠久久综合网| 中日韩av电影| 在线观看亚洲一区二区| 在线精品国产欧美| 国产精品99精品一区二区三区∴| 日本不卡在线播放| 视频在线在亚洲| 国产123在线| 欧美三级日韩在线| 日韩在线资源| 91久久精品国产91性色| 欧美在线网址| 又大又长粗又爽又黄少妇视频| 亚洲精品国产品国语在线app| 国产区精品在线| 欧美另类高清videos| 草莓视频一区二区三区| 黄色国产一级视频| 久久久久久久久久电影| 国产精品高清无码| 日韩视频永久免费观看| 国产一区二区| 免费观看国产精品视频| 久久无码av三级| 一区二区视频免费| 欧美xxxx18性欧美| 国产精品一线| 国产在线青青草| 国产精品毛片大码女人| 国产色视频在线| 久久久久成人网| 国产91一区| 五月天视频在线观看| 亚洲一二三四区| 日本一区高清| 国产欧美精品在线播放| 黄色在线成人| 全黄一级裸体片| 欧美日韩高清一区二区| 2019中文字幕在线电影免费| 免费久久久一本精品久久区| 蜜臀精品一区二区三区在线观看 | 色天堂在线视频| 国产精品扒开腿做爽爽爽视频| 成人无号精品一区二区三区| 无码人妻少妇色欲av一区二区| 精品人伦一区二区三区蜜桃网站 | 欧美久久精品午夜青青大伊人| 激情小说亚洲色图| 亚洲激情在线观看视频| 一区二区三区鲁丝不卡| 六十路在线观看| 成人蜜桃视频| 免费成人av在线| 成年人免费看毛片| 久久精品视频网站|