Tree-GRPO:樹式搜索讓小模型也能玩轉多輪智能體

大家好,我是肆〇柒。當你訓練一個LLM智能體完成多輪網頁搜索任務時,是否曾因高昂的工具調用成本而猶豫?每次搜索API調用可能花費0.1美元,1000次訓練迭代就是100美元——而更令人沮喪的是,這些成本換來的往往只是一份稀疏的、僅基于最終結果的反饋信號:模型只知道答案對錯,卻無法判斷哪一步推理或工具調用出了問題。
來自廈門大學與阿里巴巴AMAP團隊的最新研究提出了一種名為 Tree-GRPO 的新方法,直擊這一痛點。它通過樹式搜索結構,在相同滾動預算下獲得約1.5倍的訓練樣本;更驚人的是,僅用1/4的預算就能超越傳統鏈式強化學習方法。這意味著什么?對于每天訓練1000個任務的團隊,每月可節省數千美元成本,同時獲得更強的多輪交互能力。最關鍵的是,Tree-GRPO 無需任何人工標注的中間監督信號——僅靠最終結果獎勵,就能自動生成細粒度的過程監督信號。這究竟是如何做到的?讓我們一探究竟。
兩種范式的直觀對比與核心挑戰
想象一下:LLM智能體執行一個多跳問答任務,需要進行4輪思考-行動-觀察的交互循環。每次交互平均消耗1000 tokens,加上工具調用成本,每個任務的訓練成本迅速攀升。隨著任務復雜度增加,agent軌跡可達數千token,多輪交互導致工具調用成本高昂(如高價位搜索API)。這不僅僅是理論問題——在WebagentQA任務中,工具調用成本已成為訓練的主要瓶頸。
更嚴峻的是,僅靠結果獎勵難以定位多輪交互中具體步驟的優劣。就像盲人摸象,模型只知道最終答案是對是錯,卻無法分辨是哪一步思考或工具調用導致了成功或失敗。即使增加滾動預算生成更多軌跡,訓練信號仍受限于有限的結果反饋,造成"高度不平衡的學習過程甚至 training collapse"。
樹式方法的破局之道
如下圖所示,樹式搜索帶來兩大革命性優勢:
- 預算效率:通過共享共同前綴,相同預算下獲得約1.5倍的樣本量
- 信號質量:樹結構自然嵌入過程監督信號,無需額外標注
鏈式vs樹式采樣策略對比
看上圖左側:鏈式方法為每個任務生成獨立軌跡,存在大量重復內容。右側樹式方法則像知識樹一樣共享共同前綴——想象10個人同時探索迷宮,鏈式方法讓他們各自從頭探索,而樹式方法讓他們共享已探索路徑,只在分叉點各自探索新路徑。這種設計使相同滾動預算下獲得約1.5倍樣本量,對多輪agent訓練意義重大。

agent步驟級與token/sentence級樹搜索對比
下圖進一步揭示了關鍵創新:Tree-GRPO不是在token級別構建樹,而是在完整的Thought-Action-Observation步驟級別構建樹。如上表所示,token級樹搜索在多跳QA任務中僅得22.2分,遠低于agent步驟級的36.8分。這就像拆散樂高積木的完整模塊——雖然零件可以重用,但破壞了agent步驟的完整性,反而阻礙了學習性能。


agent步驟級與token/sentence級樹搜索對比
范式對比:鏈式RL與樹式RL
預算效率的量化優勢
在滾動采樣機制上,鏈式RL采用獨立軌跡采樣,每個任務生成多條互不相關的完整軌跡,存在顯著冗余。而樹式RL則通過樹搜索策略,生成具有共享前綴的交錯軌跡。如下圖所示,樹式方法包含三個關鍵階段:
1. 初始化:并行生成M條獨立軌跡作為M棵樹的根
2. 采樣:從每棵樹隨機選擇N個非葉節點進行擴展
3. 擴展:基于選定節點的上下文繼續生成響應,作為新分支插入樹中
Tree-GRPO訓練流程概述
特別值得注意的是"GenerateRollout"函數的設計——它確保每次擴展都從選定節點繼續生成完整Thought-Action-Observation步驟,而非僅生成單個token。這一設計正是保持agent步驟完整性的技術關鍵,使模型能夠在保持語義連貫性的同時有效利用滾動預算。

信號質量的革命性突破


樹內過程信號生成機制
如上圖所示,相比之下,樹式結構自然嵌入了過程監督信號。在樹的每個分支點,從各自子樹葉子反向傳播的結果獎勵差異構成了偏好學習目標,提供不同粒度的過程信號。子樹深度決定了過程信號的粒度,而隨機擴展策略則產生不同粒度的信號,使模型能夠學習中間決策過程。
想象一棵知識樹:當模型在某個決策點(A1t)面臨選擇時,它會探索不同路徑。左邊路徑導致A2t→A3t,右邊路徑導致A2t+→A3t+。關鍵在于,即使我們只給最終結果打分,樹結構也能自動告訴我們:在A1t點選擇右邊路徑比左邊更好。這就是"隱式步驟級偏好學習"的魔力——無需人工標注中間步驟的優劣,樹結構本身就能生成細粒度訓練信號。
訓練穩定性的顯著提升
如下圖所示,樹式方法不僅提升了性能,還顯著改善了訓練穩定性。樹式方法使平均工具調用從2.4增至3.0,表明模型更愿意探索更長的交互路徑,這對解決復雜長視野任務至關重要。


樹式vs鏈式RL在獎勵和動作數量上的對比
為什么樹式方法能促進更長交互?因為更細粒度的監督信號使模型敢于探索更長路徑。在多跳QA任務中,模型更愿意進行多次檢索和推理,從而解決更復雜的長視野問題。這種能力對于Webagent等真實場景尤為重要,因為現實世界的問題往往需要多輪交互才能解決。
Tree-GRPO:樹式范式的技術實現
agent步驟級樹搜索的創新設計
Tree-GRPO的核心創新在于agent步驟級樹搜索設計。與現有樹式RL方法將token/sentence作為節點不同,該方法將完整的Thought-Action-Observation步驟作為樹節點單位。

agent步驟級與token/sentence級樹搜索對比
為什么選擇步驟級而非token級節點? 實驗證據如上表所示:在多跳QA任務中,token級樹搜索僅得22.2分,遠低于步驟級的36.8分,甚至低于鏈式GRPO的31.8分。如下圖所示,agent步驟級樹搜索在整個訓練過程中保持穩定上升趨勢,而token/sentence級樹搜索的訓練獎勵波動劇烈且最終崩潰。

token/sentence級與agent步驟級樹搜索的訓練獎勵對比
這從理論和實踐兩方面驗證了兩個關鍵判斷:
1. "探索agent步驟中間分支缺乏明確目的,可能造成滾動預算浪費"
2. "token/sentence級樹結構的信用破壞了agent步驟的完整性,反而阻礙學習性能"
樹內與樹間優勢估計的協同機制
Tree-GRPO創新性地結合了樹內與樹間優勢。如下表所示,這種協同機制至關重要:
- 僅使用樹內優勢
時,各數據集得分僅為1.1-1.7分,表明訓練不穩定 - 樹間優勢
單獨使用得分為40.6-41.3分 - 兩者結合后性能顯著提升至42.4-43.7分

樹內與樹間優勢估計的消融研究
為什么僅樹內優勢不穩定? 因為"樹內rollout數量有限導致基線估計不可靠"——當M=2,N=2,L=1時,每棵樹僅包含5條軌跡,難以形成穩定的基線。而結合樹間優勢后,基線基于全部M×(L×N+1)條軌跡計算,顯著提高了估計穩定性。
最終優勢估計為
,既保留了過程信號,又確保了訓練穩定性。
滾動預算的靈活配置
Tree-GRPO的實用亮點在于滾動預算的靈活配置。通過調整樹數量、擴展節點數和擴展輪數,可以在探索與利用間取得平衡。

不同訓練預算下的性能對比
最令人驚訝的發現是:Tree-GRPO使用1/4滾動預算即可超越鏈式方法。如上表所示,當預算≈4/提示時,鏈式方法得31.8分;而樹式方法在預算≈2/提示時已達到31.6分,卻僅消耗1/4的工具調用成本。
這意味著什么?對于Qwen2.5-3b模型,當鏈式方法需要4次完整交互(4B tokens)時,樹式方法僅用1次完整交互加2次半交互(1B + 2×B/2 = 2B tokens)就能獲得更好性能。這種'預算減半,性能翻倍'的現象在極端預算條件下尤為明顯——當預算≈2/提示時,樹式方法實現112%的性能提升!
如下表所示,參數選擇需考慮任務特性:
- 當預算≈2/提示時,M=1, N=2, L=1(實現112%相對提升)
- 當預算≈4/提示時,M=2, N=2, L=1(16%相對提升)
- 當預算≈16/提示時,M=4, N=5, L=1(10%相對提升)

不同樹結構的性能對比
實驗對比:11個數據集上的全面較量
多跳QA任務:小模型的性能飛躍
最震撼的發現:Tree-GRPO使小模型也能有效執行多輪agent任務。如下表所示,Qwen2.5-1.5b模型上,Tree-GRPO在多跳QA任務中實現69%的相對提升,從11.3分躍升至19.1分。

單跳與多跳QA任務上的性能對比
尤為關鍵的是,"Tree-GRPO能夠成功使基礎模型在沒有監督微調(SFT)的情況下采用預定義的多輪agent交互范式,盡管在極有限的滾動預算下"。這意味著什么?對于資源有限的研究團隊,無需昂貴的SFT階段,就能讓小模型執行復雜的多輪交互任務。
Llama-3.2-3b模型上的表現同樣令人印象深刻:從26.7分提升至36.8分,實現38%的相對提升。這證明了樹式方法的架構普適性——無論Qwen還是Llama系列,都能從中受益。
WebagentQA任務:數據限制下的突破
WebagentQA任務面臨嚴峻的數據挑戰:訓練數據僅有2,200個樣本,訓練步數僅為34(約2個epoch)。這反映了"現有開源WebagentQA基準主要是測試集,缺乏高質量訓練數據"的現實限制。
盡管如此,如下表所示,Tree-GRPO在GAIA上仍實現28%的平均提升。這表明樹式方法在數據有限的情況下仍能有效學習。

WebagentQA任務性能對比
然而,在BrowseComp等高度復雜任務上提升有限,這"主要受訓練數據限制"。這種性能差異揭示了"訓練數據與測試難度不匹配"的根本問題——測試任務要求模型執行多達數十次的網頁交互,而訓練數據無法提供相應難度的樣本。
預算敏感性實驗:樹式方法的"低預算高效益"
預算敏感性實驗揭示了Tree-GRPO的革命性價值。如下表所示,當滾動預算僅為2/提示時,鏈式RL幾乎無法學習多輪交互行為(僅14.9分),而樹式方法實現112%的相對提升(達31.6分)。

不同訓練預算下的性能對比
這種"極端預算表現"源于樹搜索的樣本增益效應:在相同預算下,樹式方法獲得約1.5倍樣本量。更令人驚訝的是,Tree-GRPO使用僅1/4的滾動預算即可超越鏈式方法。在Qwen2.5-3b上,當預算≈4/提示時,鏈式方法得31.8分;而樹式方法在預算≈2/提示時已達到31.6分,卻僅消耗1/4的工具調用成本。
這在實際應用中意義重大——對于高成本工具調用(如搜索API),樹式方法能顯著降低訓練成本,同時提高性能。
深度技術對比:樹式方法的內在機制
隱式步驟級偏好學習的理論證明
Tree-GRPO的理論深度體現在其隱式步驟級偏好學習機制上。研究證明,樹內GRPO與步驟級DPO具有相同的梯度結構:

這意味著"intra-tree GRPO可以被解釋為隱式執行步驟級 preference優化,從而繼承步驟級DPO的關鍵特性,同時在在線滾動設置中運行"。
直觀理解,當樹中某分支獲得更高獎勵時,模型會增加該分支路徑的概率,同時減少低獎勵分支的概率——這正是偏好學習的核心思想。關鍵區別在于,Tree-GRPO無需人工標注偏好對,而是通過樹結構"隱式生成"這些偏好信號,實現了"僅基于結果獎勵構建步驟級過程信號"的突破。
為什么樹式方法能促進更長的交互?
如下圖所示,樹式訓練使平均工具調用從2.4增至3.0。這是因為更細粒度的監督信號使模型敢于探索更長路徑。


樹式vs鏈式RL在獎勵和動作數量上的對比
在多跳QA任務中,模型更愿意進行多次檢索和推理,從而解決更復雜的長視野問題。這種能力對于Webagent等真實場景尤為重要,因為現實世界的問題往往需要多輪交互才能解決。
學習率預熱的敏感性

學習率預熱對比
學習率預熱對小模型訓練的敏感性是另一關鍵發現。如上圖所示,學習率預熱是"訓練小模型(<3B參數)時的特別敏感超參數"。
具體的講:
- 對于單跳/多跳QA任務,推薦使用0.285/0.5的學習率預熱比
- 對于WebagentQA任務,由于訓練步數較少(僅34步),學習率預熱比設為0更為合適
樹式方法在所有學習率預熱比設置下均優于鏈式方法,展現出更強的魯棒性。這驗證了理論分析:intra-tree GRPO與step-level DPO具有相同梯度結構,使模型能在更小學習率下穩定收斂。
應用場景決策樹
基于實驗結果,可以構建樹式方法的應用決策樹:
推薦使用樹式方法的場景
- 多輪交互任務:如多跳QA,特別是小模型訓練
- 滾動預算受限的場景:token/tool call成本高
- 僅結果獎勵可用的情況:缺乏過程監督信號
如下表所示,樹式方法在小模型(1.5b)上的提升最為顯著(69%),而在大模型(14b)上也有穩定提升(8.4%)。這表明樹式方法對小模型訓練尤其有價值。

單跳與多跳QA任務上的性能對比
鏈式方法仍有優勢的場景
- 單輪簡單任務:如單跳QA,樹深度有限(通常為2),過程信號收益有限
- 滾動預算充足的場景:當預算充足時,鏈式方法的簡單性可能更有優勢
- 高度并行化訓練環境:樹搜索有一定串行依賴,可能影響訓練吞吐量
在參數選擇方面,如下表所示,參數選擇需考慮預算限制:
- 預算≈2/提示:M=1, N=2, L=1(實現112%相對提升)
- 預算≈4/提示:M=2, N=2, L=1(16%相對提升)
- 預算≈16/提示:M=4, N=5, L=1(10%相對提升)

不同樹結構的性能對比
值得注意的是,減少M雖節省預算,但會限制探索范圍。如(M=1,N=5,L=1)配置性能明顯下降,表明在探索與利用間取得平衡至關重要。
局限與挑戰
成功案例:多輪交互能力的體現
如下兩表所示的成功案例表明,模型能夠"通過迭代工具調用和自主信息聚合執行多輪agent任務"。例如,在Musique數據集上,模型通過三次搜索逐步確定"Groovy Little Summer Song"的表演者、其唱片公司及公司所有者,最終正確回答問題。


樹式GRPO成功案例
關鍵在于:
1. 每次搜索都基于前次結果提出更精確的問題
2. 模型能整合分散信息形成完整推理鏈
3. 模型敢于進行多輪交互,不因一次搜索結果不理想而放棄
失敗案例:探索不足的局限
如下表所示,模型有時"在開始時從幾個部分符合要求的候選路徑中選擇單一解決方案路徑,未進行進一步探索"。在Musique數據集中,模型將David Hasselhoff(演員)誤認為Deanna Russo(實際答案),原因在于"初始選擇部分符合要求的候選路徑后,未進行進一步探索"。


樹式GRPO失敗案例
在后續推理中,既未重新考慮也未根據新獲取信息驗證選擇,導致錯誤答案。這表明模型仍缺乏反思推理和更豐富探索能力。
樹搜索的探索局限性
樹搜索的探索范圍受限于樹數量M。如下表所示,(M=1, N=5, L=1)配置的性能下降證實了這一點。減少樹數M雖節省滾動預算,但會限制探索范圍,可能導致模型陷入局部最優。

不同樹結構的性能對比
范式選擇的實踐智慧
樹式方法的核心價值總結
Tree-GRPO代表了LLMagent強化學習的范式轉變。其核心價值在于:
- "僅基于結果獎勵構建過程信號"的革命性突破:無需額外標注,樹結構本身就能生成細粒度訓練信號
- "低預算高效益"的實用價值:用1/4預算實現更好性能,顯著降低訓練成本
- 使小模型也能有效執行多輪agent任務:Qwen2.5-1.5b在多跳QA任務中性能提升69%
單跳QA任務中有限的提升(1.1%-9.5%)與多跳QA任務中顯著的收益(16%-69%)形成鮮明對比,這印證了"樹深度限制(通常為2)使過程信號收益有限"的分析。而WebagentQA任務的中等提升(28%平均提升)則揭示了另一維度的挑戰:訓練數據與測試難度不匹配。
實踐啟示:從理論到應用
對實踐者的啟示很簡單:如果你在訓練需要多輪交互的LLM智能體,尤其是預算有限或使用小模型(≤3b)時,樹式方法應成為你的首選。
- 優先在多輪agent任務中采用樹式方法:特別是多跳QA和Webagent任務
- 根據滾動預算靈活配置樹參數:極端預算條件下樹式方法優勢尤為明顯
- 小模型訓練時特別關注學習率預熱設置:如下圖所示,學習率預熱對<3B小模型特別敏感

學習率預熱對比
總結,從"軌跡級優化"到"過程級優化"
隨著agent智能體在開放環境中長視野交互能力成為"下一代基礎模型的關鍵",Tree-GRPO所代表的樹式搜索范式將為LLM agent訓練提供重要方向。在滾動預算與信號質量的永恒權衡中,樹式方法找到了更優的平衡點,為構建真正具備agent能力的下一代語言模型鋪平道路。
對于追求高效、低成本訓練的專業團隊而言,樹式方法不僅是技術選擇,更是戰略決策——它重新定義了在有限資源下實現高質量agent訓練的可能性邊界。這不是漸進式改進,而是范式轉變:從“軌跡級優化”到“過程級優化”,為下一代agent基礎模型訓練提供新方向。

































