字節(jié)也來卷Agent工具調(diào)用了?FTRL: 無需外部工具,五步自動(dòng)化構(gòu)建訓(xùn)練環(huán)境,LLM工具調(diào)用能力飆升10%
今天分享一篇來自字節(jié)跳動(dòng)和復(fù)旦大學(xué)的研究,標(biāo)題為 《通過自動(dòng)化構(gòu)建環(huán)境的反饋驅(qū)動(dòng)方法提升大型語言模型的工具使用能力》 (Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments)。
這篇文章提出了一種創(chuàng)新方法,旨在解決大型語言模型(LLMs)在工具使用方面所面臨的挑戰(zhàn),特別是缺乏高效的強(qiáng)化學(xué)習(xí)(RL)框架以及難以構(gòu)建穩(wěn)定訓(xùn)練環(huán)境和設(shè)計(jì)可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制的問題。該研究通過構(gòu)建自動(dòng)化環(huán)境和反饋驅(qū)動(dòng)的訓(xùn)練框架,顯著提升了LLM的工具使用性能,同時(shí)保持了其通用能力。
該方法的核心特點(diǎn)總結(jié)如下:
1.自動(dòng)化環(huán)境構(gòu)建:提出一個(gè)五階段的自動(dòng)化流程,用于創(chuàng)建多樣化、穩(wěn)定且可本地部署的工具使用訓(xùn)練環(huán)境,擺脫了對外部在線工具的依賴。
2.可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制:設(shè)計(jì)了一個(gè)能夠同時(shí)評估工具調(diào)用精確性和任務(wù)完成度的獎(jiǎng)勵(lì)機(jī)制,該機(jī)制純粹基于環(huán)境反饋,無需外部模型或預(yù)定義解決方案路徑。
3.高效的模型訓(xùn)練:結(jié)合agent調(diào)用軌跡trajectory數(shù)據(jù)和可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制,利用基于偏好的強(qiáng)化學(xué)習(xí)算法(如Reinforce++和GPRO)優(yōu)化LLM的工具使用策略,實(shí)現(xiàn)工具調(diào)用精度和任務(wù)解決能力的持續(xù)提升。
4.性能顯著提升:實(shí)驗(yàn)結(jié)果表明,該方法能夠穩(wěn)定提升LLM在多種工具使用基準(zhǔn)上的性能,平均提升超過10%,并且在跨模型家族、RL算法和推理模式下均表現(xiàn)出強(qiáng)大的泛化能力。
一、概述
?Title:Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments
?URL:?? https://arxiv.org/abs/2508.08791??
?Authors:Junjie Ye, Changhao Jiang, Zhengyin Du, Yufei Xu, Xuesong Yao, Zhiheng Xi, Xiaoran Fan, Qi Zhang, Xuanjing Huang, Jiecao Chen
?Code:?? https://github.com/bytedance/FTRL??
1 Motivation
?訓(xùn)練環(huán)境構(gòu)建困難:當(dāng)前用于工具學(xué)習(xí)的強(qiáng)化學(xué)習(xí)框架通常依賴大量在線工具,這些工具可能因API速率限制或服務(wù)中斷而不穩(wěn)定,且標(biāo)準(zhǔn)化部署的基礎(chǔ)設(shè)施成本高昂。
?缺乏可驗(yàn)證的獎(jiǎng)勵(lì)信號:工具交互的復(fù)雜性和有效動(dòng)作軌跡的多樣性,使得設(shè)計(jì)精確的獎(jiǎng)勵(lì)信號變得困難。現(xiàn)有方法常依賴更強(qiáng)的LLM進(jìn)行評估,這會(huì)引入模型偏見,并影響訓(xùn)練效率和穩(wěn)定性。
?現(xiàn)有方法的局限性:無論是監(jiān)督微調(diào)還是早期的強(qiáng)化學(xué)習(xí)方法,都受限于訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,或難以在多樣和穩(wěn)定的環(huán)境中進(jìn)行有效訓(xùn)練,從而阻礙了模型工具使用能力的進(jìn)一步發(fā)展。
2 Methods
本文提出了一種包含兩個(gè)核心組件的反饋驅(qū)動(dòng)框架,用于增強(qiáng)LLM的工具使用能力:1)一個(gè)五階段自動(dòng)化流程,用于構(gòu)建穩(wěn)定、可擴(kuò)展且可驗(yàn)證的工具使用訓(xùn)練環(huán)境,無需依賴外部在線工具。2)一個(gè)反饋驅(qū)動(dòng)的模型訓(xùn)練框架,該框架利用環(huán)境提供可驗(yàn)證的獎(jiǎng)勵(lì)信號,并通過偏好學(xué)習(xí)的強(qiáng)化學(xué)習(xí)算法(Reinforce++和GPRO)來優(yōu)化LLM的工具使用策略,從而在工具調(diào)用精度和任務(wù)完成度上取得平衡。
- 自動(dòng)化環(huán)境構(gòu)建:一個(gè)五階段的流水線,能夠自動(dòng)生成多樣化、穩(wěn)定且功能可擴(kuò)展的工具使用訓(xùn)練環(huán)境。所有工具最終都作為本地Python代碼部署,完全脫離了對外部API的依賴。
- 反饋驅(qū)動(dòng)的模型訓(xùn)練:在構(gòu)建好的本地環(huán)境中,通過一個(gè)精心設(shè)計(jì)的、可驗(yàn)證的獎(jiǎng)勵(lì)函數(shù)(同時(shí)考慮工具調(diào)用精確率和任務(wù)完成度)來收集交互軌跡,并利用這些帶獎(jiǎng)勵(lì)信號的數(shù)據(jù),通過偏好優(yōu)化算法(如Reinforce++,GRPO)來訓(xùn)練和提升LLM的工具使用能力。

詳細(xì)方法和步驟:
模塊一:自動(dòng)化環(huán)境構(gòu)建 ;用于從用戶輸入(問題和答案)開始,全自動(dòng)地生成一個(gè)完整的、本地化的工具使用訓(xùn)練環(huán)境。
1.場景分解 (Scenario Decomposition):為了保證訓(xùn)練環(huán)境的多樣性,首先將用戶問題分解為四種不同邏輯關(guān)系的場景:單跳(Single-Hop)、并行單跳(Parallel Single-Hop)、多跳(Multi-Hop)和并行多跳(Parallel Multi-Hop)。
2.文檔生成 (Document Generation):為每個(gè)分解出的子問題,自動(dòng)生成一個(gè)對應(yīng)的工具文檔(Tool Document),包含工具名稱、功能描述和參數(shù)定義,確保問題是“可解”的。
3.功能集成 (Function Integration):分析所有生成的工具文檔,將功能重疊的工具進(jìn)行合并,以減少冗余,提高工具集的模塊化和效率。
4.復(fù)雜度擴(kuò)展 (Complexity Scaling):為了讓模型能泛化到更復(fù)雜的工具,通過四種策略增強(qiáng)工具的復(fù)雜度:功能泛化、參數(shù)擴(kuò)展、參數(shù)類型泛化(如從字符串?dāng)U展到字典、數(shù)組等復(fù)雜類型)和工具集擴(kuò)展(加入非必要的工具以增加選擇難度)。
5.本地化部署 (Localized Deployment):將最終的工具文檔映射為對應(yīng)的本地Python函數(shù),并將其部署。子問題和答案被用作先驗(yàn)條件,確保函數(shù)在正確調(diào)用時(shí)返回正確結(jié)果,在錯(cuò)誤調(diào)用時(shí)返回相應(yīng)的錯(cuò)誤信息。這創(chuàng)建了一個(gè)穩(wěn)定、可控且能提供精確反饋的訓(xùn)練環(huán)境。

Q1:感覺就是自動(dòng)拆解成子問題,然后根據(jù)子自動(dòng)構(gòu)建工具和入?yún)ⅲ沁@個(gè)工具的答案怎么來的呢?也是LLM生成的嗎?但是這個(gè)答案怎么確保是正確的呢?
答:question是人工構(gòu)造的,人工構(gòu)造了4大類型的問題,看著答案也是人工構(gòu)造的?那這個(gè)成本也比較高呀!然后tool是生成的?根據(jù)question生成tool的prompt如下,他這里對于每個(gè)sub-question都會(huì)生成一個(gè)tool doc:

模塊二:反饋驅(qū)動(dòng)的模型訓(xùn)練 : 利用構(gòu)建好的環(huán)境來優(yōu)化LLM。
1.Reward函數(shù):還是rule base reward思想,他這里獎(jiǎng)勵(lì)函數(shù)??R?? 綜合考慮了精確率(成功解決的子問題數(shù) / 工具調(diào)用總次數(shù))和完整性(成功解決的子問題數(shù) / 總子問題數(shù)),并受到F1分?jǐn)?shù)的啟發(fā),以平衡這兩者。同時(shí),還對最終答案的正確性給予獎(jiǎng)勵(lì)。
2.軌跡數(shù)據(jù)收集 (Trajectory Data Collection):讓待優(yōu)化的LLM在構(gòu)建的環(huán)境中進(jìn)行多步交互,記錄下完整的交互軌跡,包括可用的工具、模型每一步的動(dòng)作、環(huán)境的反饋以及未解決的子問題等。
3.基于偏好的訓(xùn)練 (Preference-Based Training):將收集到的軌跡數(shù)據(jù)和定義的獎(jiǎng)勵(lì)信號,應(yīng)用于任何基于偏好的強(qiáng)化學(xué)習(xí)算法(論文中使用了Reinforce++和GRPO)中,通過最大化獎(jiǎng)勵(lì)來優(yōu)化模型的策略,從而逐步提升其工具調(diào)用、任務(wù)解決和最終輸出的準(zhǔn)確性。

思考:軌跡數(shù)據(jù)收集,這個(gè)感覺大家都是這么做的呀,例如DeepMind的SWIRL,他這里的創(chuàng)新點(diǎn)是啥呢?不同點(diǎn)看著是問題是自己搜集過來的,然后有了子問題的答案。reward model還是基于rule base的。

詳情見:???https://mp.weixin.qq.com/s/3TlInAx9x9qT0aQdwhoLog??
3 Conclusion
?方法有效且通用:該方法在不同模型家族(Qwen2.5, Qwen3)、RL算法和推理模式下,都能持續(xù)、顯著地提升模型的工具使用能力(在多個(gè)基準(zhǔn)測試上平均提升超過10%),并能很好地泛化到域外數(shù)據(jù)。

?不損害通用能力:通過在多個(gè)通用能力測試集(如MMLU, GSM8K)上的評估,證明了該訓(xùn)練方法在提升工具使用能力的同時(shí),不會(huì)降低模型原有的通用知識和推理能力。(ps:感覺強(qiáng)化學(xué)習(xí)對通用能力的影響是不是沒那么大,并不能說明該方法的優(yōu)缺點(diǎn)!)

?性能提升源于底層參數(shù)更新:參數(shù)級分析顯示,性能增益主要來自模型底層MLP(多層感知器)參數(shù)的更新。這表明該方法并非簡單地過擬合數(shù)據(jù),而是通過增強(qiáng)模型對上下文信息的早期理解和表征能力來提升性能。
4 Limitation
? 當(dāng)前方法主要側(cè)重于提升工具調(diào)用本身的能力,而非優(yōu)化模型底層的推理過程。
? 現(xiàn)有開源模型中的推理模式與工具使用任務(wù)的對齊度不高,導(dǎo)致其推理行為和實(shí)際工具使用性能之間存在顯著差距。
5 Future Work
? 探索如何更好地對齊和優(yōu)化模型的推理過程以適應(yīng)工具使用任務(wù)。
二、詳細(xì)內(nèi)容
1 數(shù)據(jù)集:自建數(shù)據(jù)集(Ours)以及三個(gè)公開測試集(ToolHop, T-bench, RoTBench)在場景數(shù)量、數(shù)據(jù)實(shí)例數(shù)量和平均工具數(shù)方面的統(tǒng)計(jì)信息

?總結(jié): 本文構(gòu)建的數(shù)據(jù)集(Ours)在場景多樣性和工具復(fù)雜性上都達(dá)到了較高水平,可用于模型的有效訓(xùn)練和域內(nèi)評估。
2 各模型在所有測試集上的主要性能表現(xiàn)

?總結(jié)1: 無論是哪種開源模型(Qwen2.5/Qwen3)或RL算法(Reinforce++/GRPO),經(jīng)過FTRL框架訓(xùn)練后,在所有四個(gè)測試集(Ours, ToolHop, T-bench, RoTBench)上的工具使用能力都得到了全面且顯著的提升(用??↑??標(biāo)記)。
?總結(jié)2: 經(jīng)過訓(xùn)練的8B和14B模型,其平均性能甚至超過了如GPT-4o和Claude-4.0-Sonnet等頂尖的閉源模型,展示了該方法的巨大潛力。
三、總結(jié)
結(jié)論1: 提出一種自動(dòng)化構(gòu)建環(huán)境和反饋驅(qū)動(dòng)的訓(xùn)練框架,解決了LLM工具調(diào)用能力,效果還不錯(cuò)。 傳統(tǒng)方法受限于在線工具的穩(wěn)定性、高昂成本和獎(jiǎng)勵(lì)信號的不可驗(yàn)證性。本文提出的五階段自動(dòng)化環(huán)境構(gòu)建流程(場景分解、文檔生成、功能集成、復(fù)雜度擴(kuò)展、本地化部署)提供了一個(gè)穩(wěn)定、可擴(kuò)展且本地化的訓(xùn)練環(huán)境。同時(shí),創(chuàng)新的可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制能精確評估工具調(diào)用精度和任務(wù)完成度,無需外部專家標(biāo)注。
結(jié)論2: 該方法顯著提升了LLM的工具使用性能和泛化能力,且不損害通用能力。 實(shí)驗(yàn)結(jié)果顯示,經(jīng)過本文方法訓(xùn)練的模型在各項(xiàng)工具使用基準(zhǔn)上平均實(shí)現(xiàn)了超過10%的性能提升,甚至在某些情況下,開源LLM(8B和14B參數(shù))能超越最強(qiáng)的閉源模型。
本文轉(zhuǎn)載自?????NLP PaperWeekly?????,作者:NLP PaperWeekly

















