字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%

發(fā)布于 2025-8-15 07:49

瀏覽

0收藏

今天分享一篇來自字節(jié)跳動(dòng)和復(fù)旦大學(xué)的研究，標(biāo)題為《通過自動(dòng)化構(gòu)建環(huán)境的反饋驅(qū)動(dòng)方法提升大型語言模型的工具使用能力》 (Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments)。

這篇文章提出了一種創(chuàng)新方法，旨在解決大型語言模型（LLMs）在工具使用方面所面臨的挑戰(zhàn)，特別是缺乏高效的強(qiáng)化學(xué)習(xí)（RL）框架以及難以構(gòu)建穩(wěn)定訓(xùn)練環(huán)境和設(shè)計(jì)可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制的問題。該研究通過構(gòu)建自動(dòng)化環(huán)境和反饋驅(qū)動(dòng)的訓(xùn)練框架，顯著提升了LLM的工具使用性能，同時(shí)保持了其通用能力。

該方法的核心特點(diǎn)總結(jié)如下：

1.自動(dòng)化環(huán)境構(gòu)建：提出一個(gè)五階段的自動(dòng)化流程，用于創(chuàng)建多樣化、穩(wěn)定且可本地部署的工具使用訓(xùn)練環(huán)境，擺脫了對外部在線工具的依賴。

2.可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制：設(shè)計(jì)了一個(gè)能夠同時(shí)評估工具調(diào)用精確性和任務(wù)完成度的獎(jiǎng)勵(lì)機(jī)制，該機(jī)制純粹基于環(huán)境反饋，無需外部模型或預(yù)定義解決方案路徑。

3.高效的模型訓(xùn)練：結(jié)合agent調(diào)用軌跡trajectory數(shù)據(jù)和可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制，利用基于偏好的強(qiáng)化學(xué)習(xí)算法（如Reinforce++和GPRO）優(yōu)化LLM的工具使用策略，實(shí)現(xiàn)工具調(diào)用精度和任務(wù)解決能力的持續(xù)提升。

4.性能顯著提升：實(shí)驗(yàn)結(jié)果表明，該方法能夠穩(wěn)定提升LLM在多種工具使用基準(zhǔn)上的性能，平均提升超過10%，并且在跨模型家族、RL算法和推理模式下均表現(xiàn)出強(qiáng)大的泛化能力。

一、概述

?Title:Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

?URL:?? https://arxiv.org/abs/2508.08791??

?Authors:Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen

?Code:?? https://github.com/bytedance/FTRL??

1 Motivation

?訓(xùn)練環(huán)境構(gòu)建困難：當(dāng)前用于工具學(xué)習(xí)的強(qiáng)化學(xué)習(xí)框架通常依賴大量在線工具，這些工具可能因API速率限制或服務(wù)中斷而不穩(wěn)定，且標(biāo)準(zhǔn)化部署的基礎(chǔ)設(shè)施成本高昂。

?缺乏可驗(yàn)證的獎(jiǎng)勵(lì)信號：工具交互的復(fù)雜性和有效動(dòng)作軌跡的多樣性，使得設(shè)計(jì)精確的獎(jiǎng)勵(lì)信號變得困難。現(xiàn)有方法常依賴更強(qiáng)的LLM進(jìn)行評估，這會(huì)引入模型偏見，并影響訓(xùn)練效率和穩(wěn)定性。

?現(xiàn)有方法的局限性：無論是監(jiān)督微調(diào)還是早期的強(qiáng)化學(xué)習(xí)方法，都受限于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性，或難以在多樣和穩(wěn)定的環(huán)境中進(jìn)行有效訓(xùn)練，從而阻礙了模型工具使用能力的進(jìn)一步發(fā)展。

2 Methods

本文提出了一種包含兩個(gè)核心組件的反饋驅(qū)動(dòng)框架，用于增強(qiáng)LLM的工具使用能力：1）一個(gè)五階段自動(dòng)化流程，用于構(gòu)建穩(wěn)定、可擴(kuò)展且可驗(yàn)證的工具使用訓(xùn)練環(huán)境，無需依賴外部在線工具。2）一個(gè)反饋驅(qū)動(dòng)的模型訓(xùn)練框架，該框架利用環(huán)境提供可驗(yàn)證的獎(jiǎng)勵(lì)信號，并通過偏好學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法（Reinforce++和GPRO）來優(yōu)化LLM的工具使用策略，從而在工具調(diào)用精度和任務(wù)完成度上取得平衡。

自動(dòng)化環(huán)境構(gòu)建：一個(gè)五階段的流水線，能夠自動(dòng)生成多樣化、穩(wěn)定且功能可擴(kuò)展的工具使用訓(xùn)練環(huán)境。所有工具最終都作為本地Python代碼部署，完全脫離了對外部API的依賴。
反饋驅(qū)動(dòng)的模型訓(xùn)練：在構(gòu)建好的本地環(huán)境中，通過一個(gè)精心設(shè)計(jì)的、可驗(yàn)證的獎(jiǎng)勵(lì)函數(shù)（同時(shí)考慮工具調(diào)用精確率和任務(wù)完成度）來收集交互軌跡，并利用這些帶獎(jiǎng)勵(lì)信號的數(shù)據(jù)，通過偏好優(yōu)化算法（如Reinforce++，GRPO）來訓(xùn)練和提升LLM的工具使用能力。

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

詳細(xì)方法和步驟:

模塊一：自動(dòng)化環(huán)境構(gòu)建 ；用于從用戶輸入（問題和答案）開始，全自動(dòng)地生成一個(gè)完整的、本地化的工具使用訓(xùn)練環(huán)境。

1.場景分解 (Scenario Decomposition)：為了保證訓(xùn)練環(huán)境的多樣性，首先將用戶問題分解為四種不同邏輯關(guān)系的場景：單跳（Single-Hop）、并行單跳（Parallel Single-Hop）、多跳（Multi-Hop）和并行多跳（Parallel Multi-Hop）。

2.文檔生成 (Document Generation)：為每個(gè)分解出的子問題，自動(dòng)生成一個(gè)對應(yīng)的工具文檔（Tool Document），包含工具名稱、功能描述和參數(shù)定義，確保問題是“可解”的。

3.功能集成 (Function Integration)：分析所有生成的工具文檔，將功能重疊的工具進(jìn)行合并，以減少冗余，提高工具集的模塊化和效率。

4.復(fù)雜度擴(kuò)展 (Complexity Scaling)：為了讓模型能泛化到更復(fù)雜的工具，通過四種策略增強(qiáng)工具的復(fù)雜度：功能泛化、參數(shù)擴(kuò)展、參數(shù)類型泛化（如從字符串?dāng)U展到字典、數(shù)組等復(fù)雜類型）和工具集擴(kuò)展（加入非必要的工具以增加選擇難度）。

5.本地化部署 (Localized Deployment)：將最終的工具文檔映射為對應(yīng)的本地Python函數(shù)，并將其部署。子問題和答案被用作先驗(yàn)條件，確保函數(shù)在正確調(diào)用時(shí)返回正確結(jié)果，在錯(cuò)誤調(diào)用時(shí)返回相應(yīng)的錯(cuò)誤信息。這創(chuàng)建了一個(gè)穩(wěn)定、可控且能提供精確反饋的訓(xùn)練環(huán)境。

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

Q1：感覺就是自動(dòng)拆解成子問題，然后根據(jù)子自動(dòng)構(gòu)建工具和入?yún)ⅲ沁@個(gè)工具的答案怎么來的呢？也是LLM生成的嗎？但是這個(gè)答案怎么確保是正確的呢？

答：question是人工構(gòu)造的，人工構(gòu)造了4大類型的問題，看著答案也是人工構(gòu)造的？那這個(gè)成本也比較高呀！然后tool是生成的？根據(jù)question生成tool的prompt如下，他這里對于每個(gè)sub-question都會(huì)生成一個(gè)tool doc：

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

模塊二：反饋驅(qū)動(dòng)的模型訓(xùn)練： 利用構(gòu)建好的環(huán)境來優(yōu)化LLM。

1.Reward函數(shù)：還是rule base reward思想，他這里獎(jiǎng)勵(lì)函數(shù)??R?? 綜合考慮了精確率（成功解決的子問題數(shù) / 工具調(diào)用總次數(shù)）和完整性（成功解決的子問題數(shù) / 總子問題數(shù)），并受到F1分?jǐn)?shù)的啟發(fā)，以平衡這兩者。同時(shí)，還對最終答案的正確性給予獎(jiǎng)勵(lì)。

2.軌跡數(shù)據(jù)收集 (Trajectory Data Collection)：讓待優(yōu)化的LLM在構(gòu)建的環(huán)境中進(jìn)行多步交互，記錄下完整的交互軌跡，包括可用的工具、模型每一步的動(dòng)作、環(huán)境的反饋以及未解決的子問題等。

3.基于偏好的訓(xùn)練 (Preference-Based Training)：將收集到的軌跡數(shù)據(jù)和定義的獎(jiǎng)勵(lì)信號，應(yīng)用于任何基于偏好的強(qiáng)化學(xué)習(xí)算法（論文中使用了Reinforce++和GRPO）中，通過最大化獎(jiǎng)勵(lì)來優(yōu)化模型的策略，從而逐步提升其工具調(diào)用、任務(wù)解決和最終輸出的準(zhǔn)確性。

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

思考：軌跡數(shù)據(jù)收集，這個(gè)感覺大家都是這么做的呀，例如DeepMind的SWIRL，他這里的創(chuàng)新點(diǎn)是啥呢？不同點(diǎn)看著是問題是自己搜集過來的，然后有了子問題的答案。reward model還是基于rule base的。

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

詳情見：???https://mp.weixin.qq.com/s/3TlInAx9x9qT0aQdwhoLog??

3 Conclusion

?方法有效且通用：該方法在不同模型家族（Qwen2.5, Qwen3）、RL算法和推理模式下，都能持續(xù)、顯著地提升模型的工具使用能力（在多個(gè)基準(zhǔn)測試上平均提升超過10%），并能很好地泛化到域外數(shù)據(jù)。

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

?不損害通用能力：通過在多個(gè)通用能力測試集（如MMLU, GSM8K）上的評估，證明了該訓(xùn)練方法在提升工具使用能力的同時(shí)，不會(huì)降低模型原有的通用知識和推理能力。（ps：感覺強(qiáng)化學(xué)習(xí)對通用能力的影響是不是沒那么大，并不能說明該方法的優(yōu)缺點(diǎn)！）

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

?性能提升源于底層參數(shù)更新：參數(shù)級分析顯示，性能增益主要來自模型底層MLP（多層感知器）參數(shù)的更新。這表明該方法并非簡單地過擬合數(shù)據(jù)，而是通過增強(qiáng)模型對上下文信息的早期理解和表征能力來提升性能。

4 Limitation

? 當(dāng)前方法主要側(cè)重于提升工具調(diào)用本身的能力，而非優(yōu)化模型底層的推理過程。

? 現(xiàn)有開源模型中的推理模式與工具使用任務(wù)的對齊度不高，導(dǎo)致其推理行為和實(shí)際工具使用性能之間存在顯著差距。

5 Future Work

? 探索如何更好地對齊和優(yōu)化模型的推理過程以適應(yīng)工具使用任務(wù)。

二、詳細(xì)內(nèi)容

1 數(shù)據(jù)集：自建數(shù)據(jù)集（Ours）以及三個(gè)公開測試集（ToolHop, T-bench, RoTBench）在場景數(shù)量、數(shù)據(jù)實(shí)例數(shù)量和平均工具數(shù)方面的統(tǒng)計(jì)信息

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

?總結(jié): 本文構(gòu)建的數(shù)據(jù)集（Ours）在場景多樣性和工具復(fù)雜性上都達(dá)到了較高水平，可用于模型的有效訓(xùn)練和域內(nèi)評估。

2 各模型在所有測試集上的主要性能表現(xiàn)

字節(jié)也來卷Agent工具調(diào)用了？FTRL: 無需外部工具，五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境，LLM工具調(diào)用能力飆升10%-AI.x社區(qū)

?總結(jié)1: 無論是哪種開源模型（Qwen2.5/Qwen3）或RL算法（Reinforce++/GRPO），經(jīng)過FTRL框架訓(xùn)練后，在所有四個(gè)測試集（Ours, ToolHop, T-bench, RoTBench）上的工具使用能力都得到了全面且顯著的提升（用??↑??標(biāo)記）。

?總結(jié)2: 經(jīng)過訓(xùn)練的8B和14B模型，其平均性能甚至超過了如GPT-4o和Claude-4.0-Sonnet等頂尖的閉源模型，展示了該方法的巨大潛力。

三、總結(jié)

結(jié)論1: 提出一種自動(dòng)化構(gòu)建環(huán)境和反饋驅(qū)動(dòng)的訓(xùn)練框架，解決了LLM工具調(diào)用能力，效果還不錯(cuò)。 傳統(tǒng)方法受限于在線工具的穩(wěn)定性、高昂成本和獎(jiǎng)勵(lì)信號的不可驗(yàn)證性。本文提出的五階段自動(dòng)化環(huán)境構(gòu)建流程（場景分解、文檔生成、功能集成、復(fù)雜度擴(kuò)展、本地化部署）提供了一個(gè)穩(wěn)定、可擴(kuò)展且本地化的訓(xùn)練環(huán)境。同時(shí)，創(chuàng)新的可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制能精確評估工具調(diào)用精度和任務(wù)完成度，無需外部專家標(biāo)注。

結(jié)論2: 該方法顯著提升了LLM的工具使用性能和泛化能力，且不損害通用能力。 實(shí)驗(yàn)結(jié)果顯示，經(jīng)過本文方法訓(xùn)練的模型在各項(xiàng)工具使用基準(zhǔn)上平均實(shí)現(xiàn)了超過10%的性能提升，甚至在某些情況下，開源LLM（8B和14B參數(shù)）能超越最強(qiáng)的閉源模型。

本文轉(zhuǎn)載自?????NLP PaperWeekly?????，作者：NLP PaperWeekly

標(biāo)簽

Agent

工具

LLM

贊

回復(fù)