精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多Agent思想顯著提升小模型工具調用能力

發布于 2025-1-13 11:02
瀏覽
0收藏

今天分享一篇阿里的利用Agent思想做工具調用的文章,標題為《Small LLMs Are Weak Tool Learners: A Multi-LLM Agent》。其提出的多LLM代理微調框架,將工具調用拆解為三個agent(Planner、Caller、Summarizer),并結合一個二階段的微調策略。對比單個LLM表現更為出色,性能也更為穩定,并且能夠超過像ChatGPT、GPT4等閉源模型,證明了多agent思路在工具調用上的有效性。

除了工具調用,或許本文的方法也可以拓展到問答的其他場景,大家可以參考。

Title: Small LLMs Are Weak Tool Learners: A Multi-LLM Agent URL:?? https://arxiv.org/abs/2401.07324??

Code:?? https://github.com/X-PLUG/Multi-LLM-Agent??

Authors: Weizhou Shen, Chenliang Li, Hongzhan Chen, Ming Yan, Xiaojun Quan, Hehong Chen, Ji Zhang, Fei Huang

1.Motivation

多Agent思想顯著提升小模型工具調用能力-AI.x社區


? 外部工具(例如APIs, 函數)的使用要求LLM不僅要了解用戶查詢并準確生成答案,而且要擅長任務計劃、工具調用和結果總結。

? 單個LLM特別是Small LLMs調用外部工具(例如APIs, 函數)的能力以及自主完成各種任務時表現不太好。

? 之前的研究方法主要探索如何訓練并提高單個LLMs的能力,利用多LLM來提高上述能力的工作并不多。

2.Methods

論文通過提出一個新穎的多LLM框架來解決問題,該框架將任務規劃、工具調用和結果總結的能力分解為計劃者、調用者和總結者三個組件。每個組件由專注于特定能力的單個LLM實現,并與其他LLM合作完成任務。此外,論文引入了一個兩階段訓練范式,首先在整個數據集上對背景LLM進行微調,其次使用微調過的LLM對上述三個組件進行初始化,然后再在相應的子任務上進行持續的微調。

2.1 詳細方法和步驟:

? 首先,對整個數據集進行微調,為主干LLM提供對任務的全面理解,而不區分子任務。

? 然后,使用微調過的LLM實例化規劃者、調用者和總結者,分別對應子任務繼續微調。

? 這種模塊化框架促進了單個組件的更新,并且有可能使用更小型的LLMs來構建每個能力。

? 在各種工具使用基準測試中,該多LLM框架超越了傳統的單LLM方法,突出了其在工具學習上的高效性和優勢。

多Agent思想顯著提升小模型工具調用能力-AI.x社區

Figure 2: An illustration of how α-UMi works to complete a task.

規劃器(Planner):α-UMi 框架中的規劃器組件負責生成任務執行的邏輯和計劃。它根據當前系統狀態和用戶指令來決定下一步的操作。規劃器的輸出包括一個理由(Rationale)和一個決策,決策可能是:

? “Next: Caller”:指示調用者(Caller)組件進行下一步操作。

? “Next: Summarizer”:如果已經收集到足夠的信息,指示總結器(Summarizer)組件生成最終答案。

? “Next: Give up”:如果認為任務無法解決,決定放棄執行。

調用者(Caller):根據規劃器的指示和理由,調用者組件負責調用具體的工具或 API。它根據規劃器提供的邏輯生成合法且有用的請求,并從工具中獲取觀察結果(Observation)。

總結器(Summarizer):一旦規劃器決定已經有足夠的信息來解決用戶指令,它會指示總結器生成最終的答案。總結器根據執行軌跡和用戶指令來構建最終的回復,提供給用戶。

2.2 訓練方法

多Agent思想顯著提升小模型工具調用能力-AI.x社區


α-UMi 采用了全局到局部漸進式微調(Global-to-Local Progressive Fine-Tuning,簡稱 GLPFT)策略,用于有效訓練多 LLM 系統,它分為兩個主要階段:

1)全局微調(Global Fine-tuning)

? 在這個階段,首先對一個基礎的大型語言模型(LLM backbone)進行微調,使用的是整個訓練數據集,而不區分子任務,微調的目標是讓模型獲得對整個工具學習任務的綜合理解。

? 經過全局微調后,基礎 LLM 被訓練成能夠依次輸出理由(rationale)、動作(action)和答案(answer)。

2)局部微調(Local Fine-tuning)

? 原始的訓練數據集被重新組織,形成針對每個 LLM 角色(規劃器、調用者和總結器)的特定數據集。

? 接著,分別對規劃器、調用者和總結器進行進一步的微調,以增強它們在各自子任務中的具體能力。

? 在局部微調階段,基礎 LLM 被復制成三個獨立的模型,每個模型專注于一個特定的子任務,每個子任務的專家模型(規劃器、調用者和總結器)能夠在其專門的任務上進行優化,從而提高整體框架的性能。

總結:GLPFT 策略通過分階段的微調方法,使得每個組件模型能夠在其專門的任務上達到更高的性能,同時保持了整個系統的協同工作能力。這種策略有效地提高了模型在工具學習任務中的表現,并充分利用了每個小型 LLM 的潛力。

3.Conclusion

? 在工具使用的任務中,本文提出的多LLM代理微調框架表現出色,能夠超過像ChatGPT、GPT4等閉源模型,證明了多agent思路在工具調用上的有效性。

二、詳細內容

1.實驗表現

多Agent思想顯著提升小模型工具調用能力-AI.x社區

實驗設置

?Model Size = 7B / 13B:指的是模型的參數數量,7B 表示 70 億參數,13B 表示 130 億參數。

?Multi-LLM one-stage:在單一階段直接對規劃器、調用者和總結器進行微調的多 LLM 模型。

?α-UMi w/o reuse / w/ reuse:α-UMi 框架的不同版本,其中一個版本在微調過程中重用了用戶指令集(w/ reuse),另一個版本沒有(w/o reuse)。

實驗結論

1)利用α-UMi框架對7B/13B左右的模型微調,效果能超過GPT-4:α-UMi 框架在多個評估指標上超越了傳統的單一大型語言模型(如 ChatGPT 和 GPT-4),特別是在規劃器準確率(Plan ACC)和 Rouge-L 分數(R-L)方面,α-UMi 有了顯著的改進。

2)模型越大,效果越好:使用 13B 參數模型的 α-UMi 版本在大多數指標上表現優于 7B 參數版本,這表明更大的模型容量可以帶來更好的性能。然而,值得注意的是,即使是 7B 參數的 α-UMi 也能在某些情況下超越 13B 參數的單一大型語言模型,這強調了 α-UMi 框架設計的有效性。

3)多階段微調比單階段微調效果更好:與單階段微調的多 LLM(Multi-LLM one-stage)多任務微調的單一大型語言模型(Single-LLM multi-task)相比,α-UMi 展現了更好的性能,說明 GLPFT 策略在提升模型性能方面的有效性。

4)添加用戶指令數據效果更佳:α-UMi w/ reuse(重用用戶指令的版本)在大多數指標上優于 α-UMi w/o reuse(不重用用戶指令的版本),這表明在微調過程中重用用戶指令可以幫助模型更好地學習和適應任務需求。

綜上所述,α-UMi 框架通過其模塊化設計和漸進式微調策略,在工具學習任務上展現了顯著的性能提升,特別是在任務規劃和結果總結方面。此外,該框架的有效性不受模型大小的限制,即使是小型模型也能通過合作達到高性能。

2.ToolBench上的詳細表現

多Agent思想顯著提升小模型工具調用能力-AI.x社區

Table 2: Results of real-time evaluation on ToolBench

主要結論:

1)α-UMi 框架效果非常不錯

? α-UMi(使用 7B 模型)在多數測試組中的通過率(Pass)和勝利率(Win)都超過了 ChatGPT 和 ToolLLaMA,這表明 α-UMi 框架在實時 API 調用任務中表現出色,能夠有效地解決實際問題。

? 在某些測試組中,α-UMi 的通過率與 GPT-4 相當,甚至在 I1-Inst. 和 I2-Inst. 組別中超過了 GPT-4。

2)DFSDT vs ReACT:使用 ReACT 和 DFSDT 策略的模型在不同的測試組中表現出不同的性能。這表明不同的推理策略對于模型解決任務的能力有顯著影響,選擇合適的策略對于提升模型性能至關重要。

3)小模型的工具調用能力也可以做得很不錯:盡管 GPT-4 擁有更大的模型容量,但在某些情況下,α-UMi(7B)的性能與 GPT-4 相當,這表明通過有效的框架設計和微調策略,較小的模型也能實現與大模型相媲美的性能。

總結:α-UMi 框架在實時工具調用任務中的有效性和競爭力,也表明通過選擇合適的推理策略和優化的微調方法,可以顯著提升模型(特別是小模型)在實際應用中的性能。

3.訓練數據量對不同框架工具調用能力的影響

多Agent思想顯著提升小模型工具調用能力-AI.x社區

Figure 4: Results of data scaling law study on ToolBench with different evaluation metrics

評估指標

?Plan ACC(規劃器準確率):衡量規劃器在決策下一步行動時的準確性。

?Act. EM(動作實體匹配):衡量調用者在調用 API 時參數匹配的準確性。

?Hallu.(幻覺率):衡量模型在生成 API 名稱時是否產生了不存在的實體。

?Arg. F1(參數 F1 分數):衡量 API 調用中參數準確性的指標。

結論α-UMi 框架性能不錯,效果較為穩定,性能隨數據量的增加穩步提升。隨著訓練數據的增加,α-UMi 框架在多個評估指標上的性能得到了顯著提升,尤其是在任務規劃和 API 調用方面。

三、總結

結論1: 多LLM代理框架(例如本文的Planner、Caller、Summarizer)能夠克服傳統單個LLM在工具學習方面的性能限制,通過模塊化的方法分解任務,可以利用小型LLMs構建特定能力,并且更容易更新和維護。

結論2: 多階段微調比單階段微調效果更好。單階段微調的多 LLM(Multi-LLM one-stage)多任務微調的單一大型語言模型(Single-LLM multi-task)相比,α-UMi 展現了更好的性能,說明 GLPFT 策略在提升模型性能方面的有效性。

結論3: 添加用戶指令數據微調效果更佳:α-UMi w/ reuse(重用用戶指令的版本)在大多數指標上優于 α-UMi w/o reuse(不重用用戶指令的版本),這表明在微調過程中重用用戶指令可以幫助模型更好地學習和適應任務需求。

本文轉載自??NLP PaperWeekly??,作者: NLP PaperWeekly ????

收藏
回復
舉報
回復
相關推薦
日本免费久久高清视频| 日韩激情在线视频| 亚洲激情免费视频| 天堂在线观看免费视频| 日本最新不卡在线| 九九热在线精品视频| 精品久久久久久中文字幕人妻最新 | 精品一区二区三区在线播放| 欧美富婆性猛交| 国产成人无码精品久久二区三| 在线观看欧美| 岛国视频午夜一区免费在线观看| 一区二区免费在线观看| 网站黄在线观看| 久久99国产精品尤物| 国语自产精品视频在免费| 天天摸日日摸狠狠添| 电影一区二区在线观看| 精品视频在线免费观看| 国产午夜福利100集发布| 素人av在线| 99久久精品国产一区二区三区| 91精品久久久久久久久久| 国产成人无码精品久久久久| 偷拍欧美精品| 亚洲一品av免费观看| 成人午夜精品无码区| 国产精品久久久久久久久久辛辛 | 又骚又黄的视频| 在线看片一区| 久久久极品av| 中文字幕黄色网址| 亚洲综合图色| 亚洲精品www久久久| 黄页网站在线看| 在线免费观看亚洲| 欧美亚洲精品一区| www国产黄色| segui88久久综合| 一区二区三区在线观看国产| 偷拍盗摄高潮叫床对白清晰| 福利片在线观看| 久久久久久亚洲综合影院红桃 | 欧美女王vk| 亚洲精品丝袜日韩| 男男一级淫片免费播放| 日韩影片在线观看| 日韩欧美中文一区| 久久久久久国产精品日本| 日韩黄色三级| 欧美日韩免费在线视频| 国产一级做a爰片久久| 第四色男人最爱上成人网| 色狠狠色狠狠综合| 中文字幕永久视频| 国产精品4hu.www| 欧美午夜不卡视频| 中文字幕av不卡在线| 日本在线精品| 欧美日韩国产另类一区| 色一情一区二区| 亚洲网站免费| 日韩视频一区二区在线观看| 中文字幕亚洲日本| 66精品视频在线观看| 亚洲第一页自拍| 欧美精品黑人猛交高潮| 精品午夜久久| 久久精品国产免费观看| 中文字幕电影av| 欧美日一区二区三区在线观看国产免| 欧美日韩国产成人在线| 日本三级片在线观看| 99视频精品| 日本欧美在线视频| 亚洲一区精品在线观看| 国产剧情一区二区三区| 国产精品免费区二区三区观看| 天天干天天舔天天射| 91色视频在线| 亚洲精品日韩在线观看| 性爱视频在线播放| 精品久久久久久久久久久久久| 久久人妻精品白浆国产 | 亚洲影院色无极综合| 亚洲国产精品成人久久蜜臀| 91丨porny丨户外露出| 亚洲精品成人三区| 久久青青色综合| 色妹子一区二区| 精品综合久久久久| 久久丝袜视频| 精品国产区一区二区三区在线观看| 五月天色婷婷丁香| 日韩视频在线一区二区三区| 国产精品久久久久不卡| 亚洲av无码一区二区三区dv| 久久网站最新地址| 日本一级淫片演员| 亚洲成人看片| 亚洲第一网站免费视频| 人人艹在线视频| 亚洲女同同性videoxma| 亚洲va电影大全| 看电影就来5566av视频在线播放| 亚洲日本va午夜在线影院| 丝袜老师办公室里做好紧好爽| 成人全视频免费观看在线看| 精品对白一区国产伦| 五月天婷婷丁香网| 99这里有精品| 91亚洲永久免费精品| 可以在线观看的黄色| 亚洲国产精品视频| 天天综合天天添夜夜添狠狠添| 女仆av观看一区| 欧美理论片在线观看| 在线观看中文字幕av| 久久这里只有精品6| 91视频 - 88av| 亚洲免费资源| 色综合伊人色综合网| 亚洲男人的天堂在线视频| 国产一区在线不卡| 日韩欧美视频一区二区| 国产精品电影| 亚洲第一色中文字幕| avove在线播放| 激情综合网最新| 日韩欧美在线一区二区| 亚洲私拍视频| 日韩精品久久久久久福利| 久久这里只有精品国产| 国产一区二区三区四区五区入口 | 日本护士做爰视频| 欧美日本免费| 肥熟一91porny丨九色丨| 黄色在线播放网站| 欧美日韩国产综合一区二区三区| 精品无码在线观看| 日韩高清不卡一区二区| 日本中文不卡| av在线日韩| 亚洲香蕉伊综合在人在线视看| 少妇一级淫片免费放中国 | 免费成人美女在线观看.| 欧美黑人xxxxx| 小草在线视频免费播放| 亚洲黄页视频免费观看| 天天操天天干视频| jlzzjlzz亚洲日本少妇| 91丨porny丨探花| 精品精品国产毛片在线看| 国产做受69高潮| 婷婷视频在线观看| 欧美午夜精品久久久久久久| 欧美老熟妇乱大交xxxxx| 久久欧美肥婆一二区| 日本视频一区在线观看| 精品久久在线| 久久久精品国产网站| www.蜜臀av| 亚洲成人av在线电影| 无遮挡aaaaa大片免费看| 亚欧成人精品| 亚洲精品第一区二区三区| 996久久国产精品线观看| 蜜臀久久99精品久久久无需会员| 精品国产区一区二| 偷拍与自拍一区| 性欧美一区二区| 激情欧美一区二区三区在线观看| 特级西西444| 精品精品国产三级a∨在线| 91成人免费观看网站| av资源网站在线观看| 欧美精品高清视频| 精品少妇theporn| 久久网这里都是精品| 在线一区二区不卡| 亚洲片区在线| 亚洲第一导航| 97人人澡人人爽91综合色| 欧洲亚洲妇女av| 免费观看久久久久| 精品国产髙清在线看国产毛片| 欧美在线观看不卡| 国产精品美女久久久久久久久 | 69久久夜色精品国产7777| 国产一区二区三区福利| 91精品婷婷国产综合久久性色 | 日韩女优视频免费观看| 福利网址在线观看| 亚洲欧洲av一区二区三区久久| 亚洲天堂2024| 蜜臀99久久精品久久久久久软件| 日韩一级性生活片| 日韩精品91| 精品视频第一区| 国产精品一区二区三区四区在线观看 | 亚洲精品久久久久久久久久久久久| 中文字幕一区2区3区| 亚洲一区成人在线| 妖精视频在线观看免费| 99久久免费精品| 手机免费看av网站| 日精品一区二区| 六月婷婷在线视频| 亚洲国产精品成人| 日韩在线电影一区| 日本成人a网站| 91在线观看免费| 影视一区二区三区| 69国产精品成人在线播放| 日本三级在线观看网站| 色偷偷av一区二区三区| 日韩av资源站| 日韩av网站在线| 亚洲黄色片视频| 91精品欧美久久久久久动漫 | 日韩av最新在线观看| 精品国产伦一区二区三区| 欧美三级日韩三级国产三级| 无码人妻久久一区二区三区 | 国产精品久久久久久久久毛片| 欧美丝袜第一区| 日韩欧美亚洲视频| 亚洲小说欧美激情另类| 久草视频手机在线| 18成人在线观看| 午夜激情福利电影| 欧美国产一区二区| www在线观看免费视频| 91麻豆免费观看| 日本黄色录像片| 成人免费高清视频在线观看| 亚洲成人手机在线观看| 精品一区二区三区av| www.久久av.com| 九九国产精品视频| 极品粉嫩美女露脸啪啪| 老汉av免费一区二区三区| 天堂在线资源视频| 秋霞成人午夜伦在线观看| 成人亚洲视频在线观看| 日韩av中文字幕一区二区| 999香蕉视频| 日韩福利电影在线| 久久99999| 久久aⅴ国产欧美74aaa| 日韩成人精品视频在线观看| 久久国产精品99精品国产| 色91精品久久久久久久久| 国产伦精一区二区三区| 久久精品一二三四| 成人久久18免费网站麻豆 | 亚洲激情在线播放| 麻豆亚洲av成人无码久久精品| 亚洲久草在线视频| 久久精品国产亚洲AV无码男同| 亚洲 欧美综合在线网络| 日本少妇裸体做爰| 日韩欧美一区视频| 最近中文字幕av| 欧美一区二区免费视频| 亚洲第一天堂影院| 日韩av在线免费| jizz亚洲| 欧美国产高跟鞋裸体秀xxxhd| av电影在线免费| 国产成人精品视频在线| 91麻豆精品国产综合久久久 | 无码人妻aⅴ一区二区三区69岛| 中文字幕欧美国产| 日韩高清dvd碟片| 亚洲福利视频导航| 亚洲精品国产欧美在线观看| 日韩一区二区免费视频| 亚洲AV成人无码一二三区在线| 国产一区二区黑人欧美xxxx| 国产黄大片在线观看画质优化| 久久免费福利视频| 国产精品亚洲d| eeuss一区二区三区| 亚洲精品国模| 一本二本三本亚洲码 | 欧美亚洲视频一区二区| 欧洲亚洲精品| 国内精品久久久久久久果冻传媒| 清纯唯美综合亚洲| 欧美成人三级在线视频| 欧美a级一区二区| 日本50路肥熟bbw| 国产精品网站在线| 久久久久久免费观看| 欧美性感一区二区三区| 人妻少妇精品无码专区久久| 最近2019年日本中文免费字幕 | 黄网站色欧美视频| 一级aaaa毛片| 精品网站999www| 中文字幕在线观看网站| 国产99视频精品免视看7| 91蝌蚪精品视频| 亚洲精品在线视频观看| 极品尤物久久久av免费看| 日本va中文字幕| 99视频在线精品| 久久久精品国产sm调教| 欧美精品一卡二卡| 九一在线视频| 欧美亚洲一区在线| 亚洲精品影片| 国产系列第一页| 蜜臀av性久久久久蜜臀av麻豆| 国产伦精品一区三区精东| 亚洲视频网在线直播| 国产精品成人久久久| 日韩精品免费综合视频在线播放 | 日韩欧美亚洲成人| 成人精品在线播放| 久久久999国产| 成人做爰免费视频免费看| 久久99热只有频精品91密拍| 欧美啪啪一区| 69久久精品无码一区二区| 中文字幕一区二区三区精华液| 中文字幕手机在线视频| 日韩成人中文电影| 国产福利电影在线播放| 国产精品加勒比| 亚洲婷婷在线| 性生交大片免费看l| 一区二区三区欧美亚洲| 国产免费一区二区三区最新不卡| 中文字幕一区二区精品| 在线看欧美视频| 色播五月综合| 日韩电影在线免费观看| 无码 人妻 在线 视频| 色琪琪一区二区三区亚洲区| 可以免费看污视频的网站在线| 国产91九色视频| 欧美丝袜激情| 天堂网在线免费观看| 国产精品妹子av| 国产精品嫩草影院精东| 日韩性生活视频| 欧美视频二区欧美影视| 欧美中文字幕在线观看视频 | 国产精品日本| 欧美激情aaa| 欧洲亚洲国产日韩| 91电影在线播放| 91免费精品国偷自产在线| 欧美一区二区三区久久精品茉莉花| 91精品国产高清91久久久久久 | www黄色在线| 亚洲国产成人午夜在线一区| 中文字幕资源网| 久久久精品2019中文字幕神马| 亚洲2区在线| 精品人妻一区二区三区四区在线 | 亚洲区中文字幕| 日韩毛片一区| 久久久成人精品一区二区三区| 国产mv日韩mv欧美| 久久黄色精品视频| 一区二区欧美在线| 激情久久免费视频| 精品久久一二三| 中文字幕欧美激情一区| 国产丰满美女做爰| 97香蕉久久超级碰碰高清版 | 欧美另类高清videos的特点| 久久这里有精品视频| 国产亚洲成av人片在线观黄桃| 国产精品亚洲a| 亚洲欧美激情视频在线观看一区二区三区| 丰满人妻一区二区三区四区53| 青青草成人在线| 亚洲激情中文在线| 黄色在线观看av| 欧美精品在线观看播放| av影片在线| 在线日韩av永久免费观看| jlzzjlzz亚洲日本少妇| 一级特黄aaa大片在线观看| 国内揄拍国内精品| 欧美日韩激情| 欧美双性人妖o0| 欧美日韩免费一区二区三区| 国产精品yjizz视频网| 最新欧美日韩亚洲| 2021国产精品久久精品| 国产欧美久久久| 国产精品吹潮在线观看| 国语精品一区| frxxee中国xxx麻豆hd| 亚洲欧美视频在线|