精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配

發布于 2025-10-31 07:52
瀏覽
0收藏

大型推理模型(LRMs)雖然在復雜問題求解中展現出強大能力,但現實任務往往需要借助外部工具并進行長期交互。現有智能體框架大多遵循預定義的工作流程,這限制了它們的自主性和全局任務完成能力。為此,來自中國人民大學、小紅書等機構的研究者提出了 DeepAgent——一個端到端的深度推理智能體,能夠在單一連貫的推理過程中自主思考、發現工具并執行動作。通過引入自主記憶折疊機制和端到端強化學習訓練方法ToolPO,DeepAgent在8個基準測試中持續超越基線方法,在標注工具和開放集工具檢索場景下均表現出色。這項工作為構建更通用、更強大的真實世界智能體邁出了重要一步。

Paper: https://arxiv.org/abs/2510.21618

GitHub: https://github.com/RUC-NLPIR/DeepAgent

?? Demo演示

1?? 通用智能體任務:16,000+ RapidAPI工具庫

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

DeepAgent 是一個具備可擴展工具集的推理智能體,能夠從超過16,000個RapidAPI中搜索并使用合適的工具,以端到端的智能體推理過程解決通用任務。(注:由于ToolBench中的部分API已不可用,此演示中的API響應由LLM模擬,以展示系統的正常功能。)

2?? 具身AI智能體:ALFWorld環境導航任務

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

DeepAgent 同樣擅長基于導航的任務(如網頁瀏覽、操作系統交互和具身AI),通過使用一套可插拔的多樣化動作集(如移動、觀察、拾取等)來完成復雜的環境交互任務。

3?? 深度研究任務:專業工具集加持

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

DeepAgent 還可以作為強大的研究助手,配備了專門的工具來支持網絡搜索、網頁瀏覽、代碼執行、視覺問答和文件處理等功能,幫助用戶完成深度研究任務。

研究動機:突破傳統智能體的局限

大型推理模型(LRMs)如OpenAI-o1、DeepSeek-R1等通過"慢思考"過程在數學、編程和科學推理等復雜領域展現了卓越的問題求解能力。然而,現實世界的任務往往需要外部工具的支持和長期的環境交互才能完成。

現有的智能體框架主要面臨以下挑戰:

傳統智能體的局限性

  • 缺乏自主性:如ReAct、Plan-and-Solve等方法遵循預定義的"規劃-執行-觀察"循環,無法自主決定執行步驟和整體流程
  • 工具預先指定:需要提前確定使用哪些工具,無法在任務執行過程中動態發現新工具
  • 記憶管理不足:缺乏全自主的交互記憶管理能力
  • 推理深度受限:每步只關注局部目標,缺乏對整個任務的全局視角

深度研究智能體的限制: 雖然Search-o1、DeepResearcher等探索了在推理過程中集成工具使用的新范式,但它們通常局限于少量預定義工具(如網絡搜索、頁面瀏覽、代碼執行),這大大限制了它們在多樣化真實場景中的適用性。

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

智能體范式對比:(a)傳統智能體采用預定義工作流,(b)深度研究智能體可以自主調用有限工具,(c)DeepAgent——完全自主的推理智能體,能夠在連續的智能體推理過程中動態發現和調用有用的工具。

DeepAgent:全自主的端到端推理智能體

為應對上述挑戰,我們提出了 DeepAgent,一個能夠在單一連貫的推理過程中動態檢索和調用工具來完成整個任務的端到端深度推理智能體。

核心特性

  1. 自主工具發現與調用 (Autonomous Tool Search and Calling):
  • 打破傳統預定義工具的限制,工具不是預先檢索,而是根據需要動態發現
  • 在推理過程中自主生成工具搜索查詢,通過密集檢索從大規模工具集中找到相關工具
  • 生成結構化的工具調用指令,執行后將結果反饋到推理上下文中
  • 完全釋放大型推理模型的自主潛力
  1. 自主記憶折疊機制 (Autonomous Memory Folding):
  • 使DeepAgent能夠在長期交互中徹底而穩健地探索新工具和復雜環境
  • 可在思考過程中的任何邏輯點觸發記憶折疊,將先前的思考和交互歷史壓縮為結構化記憶
  • 不僅節省token、提高推理效率,還為智能體提供"喘息"機會
  • 防止陷入錯誤探索路徑,使其能夠重新考慮策略,提高整體成功率
  1. 腦啟發式記憶架構 (Brain-Inspired Memory Schema):
  • 情節記憶 (Episodic Memory):記錄關鍵事件、主要決策點和子任務完成情況,提供任務結構的長期上下文
  • 工作記憶 (Working Memory):包含最新信息,如當前子目標、遇到的障礙和近期計劃,確保推理連續性
  • 工具記憶 (Tool Memory):整合所有工具相關交互,包括使用過的工具、調用方式及其有效性,幫助智能體從經驗中學習
  • 采用JSON格式的智能體可用數據模式,確保壓縮記憶的穩定性和實用性
  1. ToolPO:端到端強化學習訓練 (End-to-End RL Training with ToolPO):
  • LLM模擬API:利用LLM模擬真實世界API,避免訓練過程中的不穩定性、延遲和高成本
  • 工具調用優勢歸因:精確地將信用分配給負責正確工具調用的特定token,提供更細粒度的學習信號
  • 全局和局部優勢結合:既獎勵最終任務成功,也獎勵中間正確的工具調用
  • 確保通用工具使用的高效穩定訓練

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

DeepAgent框架概覽:主推理模型在統一的思考過程中自主發現工具、執行動作并折疊先前記憶以使用結構化記憶重新開始。DeepAgent通過ToolPO進行端到端訓練,這是一種使用工具模擬器模擬大規模真實世界工具API的RL方法,并通過細粒度優勢歸因獎勵最終任務成功和正確的中間工具調用。

與傳統智能體框架的對比

DeepAgent與傳統智能體框架有著本質區別:

  • 傳統工作流方法(ReAct、Plan-and-Solve):遵循固定的執行模式,每個生成步驟只關注即時目標,缺乏全局視角
  • 深度研究智能體(Search-o1、DeepResearcher):可以自主調用工具,但局限于少量研究導向的工具
  • DeepAgent:完全由推理模型驅動,在連續推理中實現端到端任務執行。模型保持對整個任務的全局視角,不受特定孤立操作的約束,工具根據需要動態發現

實驗效果

我們在廣泛的基準測試中對DeepAgent進行了全面評估,涵蓋通用工具使用任務和下游應用兩大類別:

1. 通用工具使用任務的卓越表現

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

通用工具使用任務的實驗結果

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

下游應用任務的實驗結果

我們在5個通用工具使用基準上進行了測試,工具規模從數十個到超過一萬個:

  • ToolBench:基于16,000+真實世界API的大規模基準
  • API-Bank:包含73個API和314個人工標注對話的綜合基準
  • RestBench(TMDB & Spotify):模擬真實REST應用的場景
  • ToolHop:需要3-7步序列工具調用的多跳推理數據集

在這些任務中,DeepAgent展現出顯著優勢:

  • 端到端推理超越工作流方法:在標注工具任務中,DeepAgent-32B-RL在TMDB上達到89.0%的成功率,在Spotify上達到75.4%,遠超最強32B基線的55.0%和52.6%
  • 開放集場景下的魯棒性:在需要動態工具發現的開放集場景中優勢更明顯。在ToolBench和ToolHop上,DeepAgent-32B-RL分別達到64.0%和40.6%的成功率,遠超頂級基線的54.0%和29.0%
  • ToolPO訓練的增益:經過ToolPO訓練的DeepAgent-32B-RL相比基礎版本,在ToolBench上提升6.0%,在Spotify上提升5.2%

2. 下游應用任務的強大適應性

我們在4個需要特定領域工具集的下游應用上進行評估:

  • ALFWorld:文本環境中的具身AI任務,需要使用9個基本動作完成目標
  • WebShop:在線購物環境,需要通過搜索和點擊操作滿足用戶購物需求
  • GAIA:復雜的信息檢索基準,配備網絡搜索、頁面瀏覽、VQA、代碼執行和文件讀取工具
  • Humanity's Last Exam (HLE):極高難度的推理問題集

關鍵發現:

  • 自主推理范式普遍優于工作流方法:在GAIA上,DeepAgent-32B-Base(46.7)和HiRA(42.5)顯著超越最佳工作流方法CodeAct(34.5)。在WebShop上,DeepAgent-32B-Base(32.0)大幅領先CodeAct(18.0)
  • 達到SOTA性能:DeepAgent-32B-RL在32B模型中表現最佳——GAIA得分53.3(vs. HiRA的42.5),ALFWorld成功率91.8%(vs. HiRA的84.3%)
  • 持續的訓練收益:ToolPO訓練使GAIA得分從46.7提升至53.3(+6.6),ALFWorld成功率從88.1%提升至91.8%(+3.7)

3. 自主工具檢索策略的有效性

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

自主工具檢索vs預檢索工具的對比分析

為比較預檢索工具與任務執行期間自主發現的效果,我們進行了對照實驗:

  • 按需動態發現的優越性:推理過程中的自主工具檢索在所有框架中均優于預檢索工具,在大規模工具集(ToolBench的16k工具、ToolHop的3.9k工具)上優勢最顯著
  • DeepAgent與動態檢索的協同效應:結合自主工具檢索,DeepAgent平均得分52.6,大幅領先最佳工作流方法的28.5,證明DeepAgent架構特別適合動態工具發現

4. 動作限制的擴展性分析

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

最大動作限制對性能的影響

隨著最大動作次數的增加:

  • DeepAgent始終顯著優于ReAct基線:在所有測試的動作限制下,在WebShop和GAIA兩個數據集上均表現更優
  • 更強的擴展能力:隨著動作限制增加,DeepAgent與ReAct的性能差距擴大,特別是在WebShop上。這表明DeepAgent能夠戰略性地選擇有效的、與任務相關的動作,避免限制ReAct擴展性的浪費性步驟

5. 不同基座模型的泛化能力

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

基于不同推理模型的性能對比

我們在不同規模的MoE推理模型上測試了DeepAgent:

  • 持續優于工作流方法:無論是30B還是235B的MoE推理模型作為基座,DeepAgent都保持對ReAct和Plan-and-Solve的顯著性能優勢
  • 有效的模型擴展:所有方法都受益于從30B到235B模型的擴展,但DeepAgent在復雜應用任務上顯示出最大的絕對性能提升

6. 消融實驗:各組件的貢獻

我們通過消融實驗驗證了DeepAgent各組件的有效性:

  • ToolPO訓練最為關鍵:移除ToolPO訓練(基礎模型)導致最顯著的性能下降(從48.1降至44.3),突顯了端到端RL方法的核心作用
  • 記憶折疊的重要性:沒有記憶折疊,性能也大幅下降(平均分降至44.2),特別是在長期任務GAIA上(從53.3降至44.7)。這證實了自主記憶折疊機制對于魯棒的長期交互至關重要
  • 訓練策略的貢獻:移除工具模擬器和工具調用優勢歸因都會導致性能下降,驗證了工具模擬器實現了更穩定的訓練,細粒度優勢歸因提供了精確的學習信號

本文轉載自??PaperAgent??

已于2025-10-31 16:21:07修改
收藏
回復
舉報
回復
相關推薦
亚洲精品一区二区网址| 免费看黄网站在线观看| 五月婷婷在线视频| 久久免费视频66| 精品一区二区综合| 亚洲第一区在线观看| 午夜视频久久久| 日韩欧美亚洲一区二区三区| 北岛玲精品视频在线观看| 91浏览器在线视频| 久久久久国产视频| 无套白嫩进入乌克兰美女| 番号在线播放| 午夜在线视频观看日韩17c| 欧美成人vr18sexvr| 一区二区三区欧美在线| 天天干天天色综合| 亚洲精品国产动漫| 精品久久久一区| 国产经品一区二区| 东方av正在进入| 成人免费观看49www在线观看| 国产欧美一区视频| 国产成人精品久久| 国产精品九九九九九| 老色鬼在线视频| www.亚洲激情.com| 高清亚洲成在人网站天堂| 日本黄色www| av免费看在线| 国产福利一区二区三区在线视频| 中国人与牲禽动交精品| 玩弄中年熟妇正在播放| 欧美熟妇乱码在线一区| 日韩av在线播放中文字幕| 国产亚洲一区二区在线| 久久这里只精品| 嫩草香蕉在线91一二三区| 精品一区二区三区在线播放| 欧美亚洲日本网站| 深爱五月激情网| 午夜视频一区二区在线观看| 亚洲中国最大av网站| 亚洲qvod图片区电影| 免费中文字幕日韩| 欧美视频二区欧美影视| 一区二区三区不卡视频| 亚洲一区二区三区乱码| 嫩草在线播放| 久久精品久久久精品美女| 久久亚洲精品网站| 日韩精品aaa| 草草影院在线| 久久理论电影网| 国产啪精品视频| 激情小说中文字幕| 久久精品色播| 日韩精品在线一区二区| 欧美日韩性生活片| 黄色影院在线看| 一区二区三区蜜桃| 欧美高清中文字幕| 国产中文在线视频| 狠狠色丁香婷婷综合久久片| 欧美极品美女视频网站在线观看免费| 欧美xxxooo| 久久香蕉精品香蕉| 亚洲精品999| 蜜臀久久99精品久久久酒店新书 | 91porn在线观看| 国产精品影视在线观看| 26uuu日韩精品一区二区| 日本视频免费在线| 美女国产精品| 欧美激情一级精品国产| 久久久久成人网站| 北条麻妃国产九九九精品小说| 日韩亚洲欧美综合| 手机看片福利日韩| 9999在线视频| 综合亚洲深深色噜噜狠狠网站| 国产精品久久九九| 亚洲一级av毛片| 亚洲欧美日韩国产一区| 国产成人精品优优av| 一级α片免费看刺激高潮视频| 国产一区二区三区四| 国产成人亚洲综合青青| 一级黄色a毛片| 成人永久免费视频| 亚洲a中文字幕| 日本黄色大片视频| 欧美国产日韩一二三区| 久久av高潮av| 国产精品久久久久久福利| 国产精品一区二区三区乱码| 亚洲综合国产精品| 日韩精品福利| 日本成a人片在线观看| 中文字幕日韩欧美精品高清在线| 精品国产成人在线影院| 91欧美一区二区三区| 成人三级毛片| 日韩视频一区二区三区| 亚洲自拍偷拍一区二区| 亚洲91视频| www.色综合| 国产免费一区二区三区网站免费| 开心激情综合| 一本久久综合亚洲鲁鲁| 中文字幕18页| 日韩免费va| 亚洲国产一区视频| 成人小视频在线观看免费| 天堂网在线最新版www中文网| 亚洲国产一区二区三区青草影视| 久久久久国产精品一区| 黄色成人在线看| 精品51国产黑色丝袜高跟鞋| 精品国产户外野外| 青娱乐国产精品视频| 欧美人与牛zoz0性行为| 日韩精品在线观看一区| 成人免费视频国产免费观看| 日韩高清在线电影| 国产精品日韩专区| 伊人网免费视频| 狠狠网亚洲精品| 久热这里只精品99re8久 | 日本三级韩国三级欧美三级| 亚洲欧美日韩中文字幕一区二区三区 | 亚洲日本va| 欧美xxxx在线观看| 天天做夜夜爱爱爱| 欧美黄色大片网站| 欧美黄色免费网站| 国产手机在线视频| 国产91高潮流白浆在线麻豆| 国产伦精品一区二区三区高清| 麻豆影院在线| 欧美日韩极品在线观看一区| a级大片免费看| 久久久久久久久国产一区| 国产精品999999| 国产特黄在线| 91精品福利视频| 天天操狠狠操夜夜操| 久久天天久久| 欧美一区二区精品| 久久久男人的天堂| 很黄很黄激情成人| 88国产精品欧美一区二区三区| 欧美日韩一级黄色片| 久久成人综合网| 中文视频一区视频二区视频三区| 激情av在线| 精品国产免费视频| 天天操天天爽天天干| 久久蜜桃一区二区| 午夜视频在线瓜伦| 涩爱av色老久久精品偷偷鲁| 欧美乱妇高清无乱码| caoporn国产| 久久久精品影视| 美女av免费观看| 亚洲视频一起| 26uuu另类亚洲欧美日本一 | 日韩视频第一页| 99久久久久成人国产免费| av电影天堂一区二区在线观看| 妞干网在线观看视频| 在线日韩网站| 国产日韩精品综合网站| 亚洲欧美成人影院| 日韩精品电影网| 日韩一区二区三区四区在线| 日韩精彩视频在线观看| 亚洲欧美精品在线观看| 在线高清av| 最近日韩中文字幕中文| 日韩精品成人在线| 国产成人午夜精品影院观看视频 | 男女全黄做爰文章| 国产盗摄一区二区三区| 美女av免费在线观看| 日本在线成人| 欧美亚洲一区在线| 五月天婷婷在线视频| 精品日韩av一区二区| 极品国产91在线网站| 一区二区三区四区av| 高潮一区二区三区| 黄色日韩在线| 亚洲高清123| 国产伦理久久久久久妇女 | 91麻豆精品国产91久久久资源速度| 法国伦理少妇愉情| 久久99国产精品麻豆| 亚洲熟妇无码一区二区三区| 日本一二区不卡| 国产成人a亚洲精品| 成视频免费观看在线看| 精品在线观看国产| 国产黄a三级三级看三级| 亚洲精品自拍动漫在线| 我看黄色一级片| 精品香蕉视频| 国产精品久久久久久久9999| 国产区在线视频| 精品国产在天天线2019| 又色又爽又黄无遮挡的免费视频| 天天色天天爱天天射综合| 日韩在线中文字幕视频| 国产精品美女一区二区| 在线看的黄色网址| 一区二区三区四区五区在线| 激情小说网站亚洲综合网| 2021中文字幕在线| 日韩在线观看免费高清完整版| 外国精品视频在线观看 | 亚洲国产精品自拍视频| 欧美成人中文| 亚洲一区二区三区免费看| 欧美aaaaa级| 欧美在线www| 手机在线免费观看av| 中文字幕在线精品| 男操女在线观看| 亚洲成色777777女色窝| 91欧美日韩麻豆精品| 亚洲嫩草精品久久| 欧美 日韩 成人| 国精品**一区二区三区在线蜜桃| 少妇性饥渴无码a区免费| 精品国产精品国产偷麻豆| 精品欧美一区二区三区久久久| 婷婷视频一区二区三区| 91欧美激情另类亚洲| 欧美aaaaaaa| 亚洲精品一区二三区不卡| 亚洲AV无码国产精品午夜字幕| 亚洲成av人片在www色猫咪| 亚洲观看黄色网| 成人一级视频在线观看| 女王人厕视频2ⅴk| 国产综合久久久久久鬼色| 中文字幕免费高清在线| 久久国产精品区| 日韩一区二区三区久久| 蜜桃av一区二区三区电影| 久久福利一区二区| 欧美影院一区| 国内精品国产三级国产99| 群体交乱之放荡娇妻一区二区 | 精品一区二区男人吃奶| 成人动漫视频在线观看免费| 天堂在线中文网官网| 久久久久久美女| 1024在线看片你懂得| 91精品国产91久久久| 在线观看爽视频| 日韩av手机在线看| fc2ppv国产精品久久| 久久国产精品免费视频| 青青青手机在线视频观看| 日韩国产激情在线| 久久久久久久影视| 中文字幕亚洲无线码a| 免费在线观看黄色网| 九九久久国产精品| aa视频在线观看| 国产成人精品视频在线观看| 欧美成人福利| 成人三级在线| 免费观看不卡av| 一区二区三区观看| 亚洲天堂男人| 亚洲精品高清无码视频| 国内精品写真在线观看| 国产原创剧情av| 国产精品综合视频| 超碰男人的天堂| 国产欧美日韩激情| 亚洲欧美综合7777色婷婷| 亚洲国产一区在线观看| 黄色av网站免费| 欧美日韩国产精品一区二区三区四区| 国产一区第一页| 亚洲一区二区三区四区不卡 | 欧美在线免费视屏| 男人天堂中文字幕| 欧美性一区二区| 在线永久看片免费的视频| 欧美日韩黄视频| 日本xxxx人| 久久精品久久精品亚洲人| 国产免费av高清在线| 超碰97人人做人人爱少妇| 九色porny丨国产首页在线| 国产精品视频网| 日韩欧美四区| 久久66热这里只有精品| 1313精品午夜理伦电影| 日本在线成人一区二区| 欧美理伦片在线播放| 一区二区不卡在线视频 午夜欧美不卡'| 神马一区二区影院| 99国产精品久久久久久久| 久久久久xxxx| 精品一区二区久久久| 亚洲色偷偷色噜噜狠狠99网| 中文字幕在线观看一区二区| 日韩av毛片在线观看| 精品国产精品三级精品av网址| 国产精品热久久| 欧美一区二区三区视频| 黄色av网址在线免费观看| 久久久久久久久久久久av| 未满十八勿进黄网站一区不卡| 成人激情视频在线观看| 国产情侣一区在线| 日韩在线观看电影完整版高清免费| 亚洲性色视频| 男人天堂1024| 视频一区国产视频| 少妇一级淫免费放| 91毛片在线观看| 在线免费观看毛片| 日韩精品一区二区三区四区 | 亚洲乱码国产乱码精品精可以看 | 三级网在线观看| 欧美fxxxxxx另类| 国产一级片自拍| 国产精品污www在线观看| 最新一区二区三区| 欧美视频三区在线播放| 日本成人一级片| 91精品国产免费| 久做在线视频免费观看| 国产精品久久一区| 狠狠做深爱婷婷综合一区| 九一免费在线观看| 激情五月婷婷综合| 91传媒免费观看| 91精品啪在线观看国产60岁| 免费av在线网址| 91精品视频免费看| 亚洲天堂免费| 日本少妇激三级做爰在线| 亚洲欧美日韩一区二区三区在线观看| 一区二区精品视频在线观看| 久久精品国亚洲| 一区二区三区高清在线观看| 日韩免费在线观看av| 成人性生交大片免费看视频在线| 久久午夜无码鲁丝片| 亚洲激情视频在线播放| 三妻四妾的电影电视剧在线观看 | 亚洲欧美日韩动漫| 在线观看国产精品91| av在线不卡精品| 国产精品免费一区二区三区观看| 国内自拍一区| jizz日本免费| 亚洲精品中文字幕在线观看| www.激情五月| 中日韩美女免费视频网址在线观看 | 欧美成人手机在线视频| 亚洲女人****多毛耸耸8| 欧美在线 | 亚洲| 日韩av男人的天堂| 香蕉国产精品| 波多野结衣加勒比| 综合电影一区二区三区| 国产黄色片网站| 91大神福利视频在线| 波多野结衣的一区二区三区| 北条麻妃亚洲一区| 精品久久在线播放| av在线免费观看网| 91av在线视频观看| 热久久天天拍国产| 人妻 丝袜美腿 中文字幕| 一本大道av伊人久久综合| 欧美一级淫片aaaaaa| 国产成人精彩在线视频九色| 一区二区电影| 9.1成人看片免费版| 91麻豆精品国产综合久久久久久| 美女搞黄视频在线观看| 伊人久久青草| 9久草视频在线视频精品| 亚洲系列第一页| 91国产中文字幕| 91精品啪在线观看国产18| 麻豆av免费观看| 日韩精品一区二区三区蜜臀| 欧美成a人片在线观看久| 欧美裸体网站| 久久久久99|