Tree-GRPO：樹式搜索讓小模型也能玩轉多輪智能體

作者：肆零柒 2025-10-10 03:00:00

阿里巴巴AMAP與廈門大學聯合提出Tree-GRPO，通過樹式搜索將LLM智能體RL的預算效率與信號質量雙雙提升，為小模型執行復雜多輪任務開辟新路徑。

大家好，我是肆〇柒。當你訓練一個LLM智能體完成多輪網頁搜索任務時，是否曾因高昂的工具調用成本而猶豫？每次搜索API調用可能花費0.1美元，1000次訓練迭代就是100美元——而更令人沮喪的是，這些成本換來的往往只是一份稀疏的、僅基于最終結果的反饋信號：模型只知道答案對錯，卻無法判斷哪一步推理或工具調用出了問題。

來自廈門大學與阿里巴巴AMAP團隊的最新研究提出了一種名為 Tree-GRPO 的新方法，直擊這一痛點。它通過樹式搜索結構，在相同滾動預算下獲得約1.5倍的訓練樣本；更驚人的是，僅用1/4的預算就能超越傳統鏈式強化學習方法。這意味著什么？對于每天訓練1000個任務的團隊，每月可節省數千美元成本，同時獲得更強的多輪交互能力。最關鍵的是，Tree-GRPO 無需任何人工標注的中間監督信號——僅靠最終結果獎勵，就能自動生成細粒度的過程監督信號。這究竟是如何做到的？讓我們一探究竟。

兩種范式的直觀對比與核心挑戰

想象一下：LLM智能體執行一個多跳問答任務，需要進行4輪思考-行動-觀察的交互循環。每次交互平均消耗1000 tokens，加上工具調用成本，每個任務的訓練成本迅速攀升。隨著任務復雜度增加，agent軌跡可達數千token，多輪交互導致工具調用成本高昂（如高價位搜索API）。這不僅僅是理論問題——在WebagentQA任務中，工具調用成本已成為訓練的主要瓶頸。

更嚴峻的是，僅靠結果獎勵難以定位多輪交互中具體步驟的優劣。就像盲人摸象，模型只知道最終答案是對是錯，卻無法分辨是哪一步思考或工具調用導致了成功或失敗。即使增加滾動預算生成更多軌跡，訓練信號仍受限于有限的結果反饋，造成"高度不平衡的學習過程甚至 training collapse"。

樹式方法的破局之道

如下圖所示，樹式搜索帶來兩大革命性優勢：

預算效率：通過共享共同前綴，相同預算下獲得約1.5倍的樣本量
信號質量：樹結構自然嵌入過程監督信號，無需額外標注

鏈式vs樹式采樣策略對比

看上圖左側：鏈式方法為每個任務生成獨立軌跡，存在大量重復內容。右側樹式方法則像知識樹一樣共享共同前綴——想象10個人同時探索迷宮，鏈式方法讓他們各自從頭探索，而樹式方法讓他們共享已探索路徑，只在分叉點各自探索新路徑。這種設計使相同滾動預算下獲得約1.5倍樣本量，對多輪agent訓練意義重大。

agent步驟級與token/sentence級樹搜索對比

下圖進一步揭示了關鍵創新：Tree-GRPO不是在token級別構建樹，而是在完整的Thought-Action-Observation步驟級別構建樹。如上表所示，token級樹搜索在多跳QA任務中僅得22.2分，遠低于agent步驟級的36.8分。這就像拆散樂高積木的完整模塊——雖然零件可以重用，但破壞了agent步驟的完整性，反而阻礙了學習性能。

agent步驟級與token/sentence級樹搜索對比

范式對比：鏈式RL與樹式RL

預算效率的量化優勢

在滾動采樣機制上，鏈式RL采用獨立軌跡采樣，每個任務生成多條互不相關的完整軌跡，存在顯著冗余。而樹式RL則通過樹搜索策略，生成具有共享前綴的交錯軌跡。如下圖所示，樹式方法包含三個關鍵階段：

1. 初始化：并行生成M條獨立軌跡作為M棵樹的根

2. 采樣：從每棵樹隨機選擇N個非葉節點進行擴展

3. 擴展：基于選定節點的上下文繼續生成響應，作為新分支插入樹中

Tree-GRPO訓練流程概述

特別值得注意的是"GenerateRollout"函數的設計——它確保每次擴展都從選定節點繼續生成完整Thought-Action-Observation步驟，而非僅生成單個token。這一設計正是保持agent步驟完整性的技術關鍵，使模型能夠在保持語義連貫性的同時有效利用滾動預算。

信號質量的革命性突破

樹內過程信號生成機制

如上圖所示，相比之下，樹式結構自然嵌入了過程監督信號。在樹的每個分支點，從各自子樹葉子反向傳播的結果獎勵差異構成了偏好學習目標，提供不同粒度的過程信號。子樹深度決定了過程信號的粒度，而隨機擴展策略則產生不同粒度的信號，使模型能夠學習中間決策過程。

想象一棵知識樹：當模型在某個決策點(A1t)面臨選擇時，它會探索不同路徑。左邊路徑導致A2t→A3t，右邊路徑導致A2t+→A3t+。關鍵在于，即使我們只給最終結果打分，樹結構也能自動告訴我們：在A1t點選擇右邊路徑比左邊更好。這就是"隱式步驟級偏好學習"的魔力——無需人工標注中間步驟的優劣，樹結構本身就能生成細粒度訓練信號。

訓練穩定性的顯著提升

如下圖所示，樹式方法不僅提升了性能，還顯著改善了訓練穩定性。樹式方法使平均工具調用從2.4增至3.0，表明模型更愿意探索更長的交互路徑，這對解決復雜長視野任務至關重要。

樹式vs鏈式RL在獎勵和動作數量上的對比

為什么樹式方法能促進更長交互？因為更細粒度的監督信號使模型敢于探索更長路徑。在多跳QA任務中，模型更愿意進行多次檢索和推理，從而解決更復雜的長視野問題。這種能力對于Webagent等真實場景尤為重要，因為現實世界的問題往往需要多輪交互才能解決。

Tree-GRPO：樹式范式的技術實現

agent步驟級樹搜索的創新設計

Tree-GRPO的核心創新在于agent步驟級樹搜索設計。與現有樹式RL方法將token/sentence作為節點不同，該方法將完整的Thought-Action-Observation步驟作為樹節點單位。

agent步驟級與token/sentence級樹搜索對比

為什么選擇步驟級而非token級節點？ 實驗證據如上表所示：在多跳QA任務中，token級樹搜索僅得22.2分，遠低于步驟級的36.8分，甚至低于鏈式GRPO的31.8分。如下圖所示，agent步驟級樹搜索在整個訓練過程中保持穩定上升趨勢，而token/sentence級樹搜索的訓練獎勵波動劇烈且最終崩潰。

token/sentence級與agent步驟級樹搜索的訓練獎勵對比

這從理論和實踐兩方面驗證了兩個關鍵判斷：

1. "探索agent步驟中間分支缺乏明確目的，可能造成滾動預算浪費"

2. "token/sentence級樹結構的信用破壞了agent步驟的完整性，反而阻礙學習性能"

樹內與樹間優勢估計的協同機制

Tree-GRPO創新性地結合了樹內與樹間優勢。如下表所示，這種協同機制至關重要：

僅使用樹內優勢時，各數據集得分僅為1.1-1.7分，表明訓練不穩定
樹間優勢單獨使用得分為40.6-41.3分
兩者結合后性能顯著提升至42.4-43.7分

樹內與樹間優勢估計的消融研究

為什么僅樹內優勢不穩定？ 因為"樹內rollout數量有限導致基線估計不可靠"——當M=2,N=2,L=1時，每棵樹僅包含5條軌跡，難以形成穩定的基線。而結合樹間優勢后，基線基于全部M×(L×N+1)條軌跡計算，顯著提高了估計穩定性。

最終優勢估計為，既保留了過程信號，又確保了訓練穩定性。

滾動預算的靈活配置

Tree-GRPO的實用亮點在于滾動預算的靈活配置。通過調整樹數量、擴展節點數和擴展輪數，可以在探索與利用間取得平衡。

不同訓練預算下的性能對比

最令人驚訝的發現是：Tree-GRPO使用1/4滾動預算即可超越鏈式方法。如上表所示，當預算≈4/提示時，鏈式方法得31.8分；而樹式方法在預算≈2/提示時已達到31.6分，卻僅消耗1/4的工具調用成本。

這意味著什么？對于Qwen2.5-3b模型，當鏈式方法需要4次完整交互(4B tokens)時，樹式方法僅用1次完整交互加2次半交互(1B + 2×B/2 = 2B tokens)就能獲得更好性能。這種'預算減半，性能翻倍'的現象在極端預算條件下尤為明顯——當預算≈2/提示時，樹式方法實現112%的性能提升！

如下表所示，參數選擇需考慮任務特性：

當預算≈2/提示時，M=1, N=2, L=1（實現112%相對提升）
當預算≈4/提示時，M=2, N=2, L=1（16%相對提升）
當預算≈16/提示時，M=4, N=5, L=1（10%相對提升）

不同樹結構的性能對比

實驗對比：11個數據集上的全面較量

多跳QA任務：小模型的性能飛躍

最震撼的發現：Tree-GRPO使小模型也能有效執行多輪agent任務。如下表所示，Qwen2.5-1.5b模型上，Tree-GRPO在多跳QA任務中實現69%的相對提升，從11.3分躍升至19.1分。

單跳與多跳QA任務上的性能對比

尤為關鍵的是，"Tree-GRPO能夠成功使基礎模型在沒有監督微調(SFT)的情況下采用預定義的多輪agent交互范式，盡管在極有限的滾動預算下"。這意味著什么？對于資源有限的研究團隊，無需昂貴的SFT階段，就能讓小模型執行復雜的多輪交互任務。

Llama-3.2-3b模型上的表現同樣令人印象深刻：從26.7分提升至36.8分，實現38%的相對提升。這證明了樹式方法的架構普適性——無論Qwen還是Llama系列，都能從中受益。

WebagentQA任務：數據限制下的突破

WebagentQA任務面臨嚴峻的數據挑戰：訓練數據僅有2,200個樣本，訓練步數僅為34(約2個epoch)。這反映了"現有開源WebagentQA基準主要是測試集，缺乏高質量訓練數據"的現實限制。

盡管如此，如下表所示，Tree-GRPO在GAIA上仍實現28%的平均提升。這表明樹式方法在數據有限的情況下仍能有效學習。

WebagentQA任務性能對比

然而，在BrowseComp等高度復雜任務上提升有限，這"主要受訓練數據限制"。這種性能差異揭示了"訓練數據與測試難度不匹配"的根本問題——測試任務要求模型執行多達數十次的網頁交互，而訓練數據無法提供相應難度的樣本。

預算敏感性實驗：樹式方法的"低預算高效益"

預算敏感性實驗揭示了Tree-GRPO的革命性價值。如下表所示，當滾動預算僅為2/提示時，鏈式RL幾乎無法學習多輪交互行為(僅14.9分)，而樹式方法實現112%的相對提升(達31.6分)。

不同訓練預算下的性能對比

這種"極端預算表現"源于樹搜索的樣本增益效應：在相同預算下，樹式方法獲得約1.5倍樣本量。更令人驚訝的是，Tree-GRPO使用僅1/4的滾動預算即可超越鏈式方法。在Qwen2.5-3b上，當預算≈4/提示時，鏈式方法得31.8分；而樹式方法在預算≈2/提示時已達到31.6分，卻僅消耗1/4的工具調用成本。

這在實際應用中意義重大——對于高成本工具調用(如搜索API)，樹式方法能顯著降低訓練成本，同時提高性能。

深度技術對比：樹式方法的內在機制

隱式步驟級偏好學習的理論證明

Tree-GRPO的理論深度體現在其隱式步驟級偏好學習機制上。研究證明，樹內GRPO與步驟級DPO具有相同的梯度結構：

這意味著"intra-tree GRPO可以被解釋為隱式執行步驟級 preference優化，從而繼承步驟級DPO的關鍵特性，同時在在線滾動設置中運行"。

直觀理解，當樹中某分支獲得更高獎勵時，模型會增加該分支路徑的概率，同時減少低獎勵分支的概率——這正是偏好學習的核心思想。關鍵區別在于，Tree-GRPO無需人工標注偏好對，而是通過樹結構"隱式生成"這些偏好信號，實現了"僅基于結果獎勵構建步驟級過程信號"的突破。

為什么樹式方法能促進更長的交互？

如下圖所示，樹式訓練使平均工具調用從2.4增至3.0。這是因為更細粒度的監督信號使模型敢于探索更長路徑。

樹式vs鏈式RL在獎勵和動作數量上的對比

在多跳QA任務中，模型更愿意進行多次檢索和推理，從而解決更復雜的長視野問題。這種能力對于Webagent等真實場景尤為重要，因為現實世界的問題往往需要多輪交互才能解決。

學習率預熱的敏感性

學習率預熱對比

學習率預熱對小模型訓練的敏感性是另一關鍵發現。如上圖所示，學習率預熱是"訓練小模型（<3B參數）時的特別敏感超參數"。

具體的講：

對于單跳/多跳QA任務，推薦使用0.285/0.5的學習率預熱比
對于WebagentQA任務，由于訓練步數較少(僅34步)，學習率預熱比設為0更為合適

樹式方法在所有學習率預熱比設置下均優于鏈式方法，展現出更強的魯棒性。這驗證了理論分析：intra-tree GRPO與step-level DPO具有相同梯度結構，使模型能在更小學習率下穩定收斂。

應用場景決策樹

基于實驗結果，可以構建樹式方法的應用決策樹：

鏈式方法仍有優勢的場景

單輪簡單任務：如單跳QA，樹深度有限(通常為2)，過程信號收益有限
滾動預算充足的場景：當預算充足時，鏈式方法的簡單性可能更有優勢
高度并行化訓練環境：樹搜索有一定串行依賴，可能影響訓練吞吐量

在參數選擇方面，如下表所示，參數選擇需考慮預算限制：

預算≈2/提示：M=1, N=2, L=1（實現112%相對提升）
預算≈4/提示：M=2, N=2, L=1（16%相對提升）
預算≈16/提示：M=4, N=5, L=1（10%相對提升）

不同樹結構的性能對比

值得注意的是，減少M雖節省預算，但會限制探索范圍。如(M=1,N=5,L=1)配置性能明顯下降，表明在探索與利用間取得平衡至關重要。

局限與挑戰

成功案例：多輪交互能力的體現

如下兩表所示的成功案例表明，模型能夠"通過迭代工具調用和自主信息聚合執行多輪agent任務"。例如，在Musique數據集上，模型通過三次搜索逐步確定"Groovy Little Summer Song"的表演者、其唱片公司及公司所有者，最終正確回答問題。

樹式GRPO成功案例

關鍵在于：

1. 每次搜索都基于前次結果提出更精確的問題

2. 模型能整合分散信息形成完整推理鏈

3. 模型敢于進行多輪交互，不因一次搜索結果不理想而放棄

失敗案例：探索不足的局限

如下表所示，模型有時"在開始時從幾個部分符合要求的候選路徑中選擇單一解決方案路徑，未進行進一步探索"。在Musique數據集中，模型將David Hasselhoff(演員)誤認為Deanna Russo(實際答案)，原因在于"初始選擇部分符合要求的候選路徑后，未進行進一步探索"。

樹式GRPO失敗案例

在后續推理中，既未重新考慮也未根據新獲取信息驗證選擇，導致錯誤答案。這表明模型仍缺乏反思推理和更豐富探索能力。

樹搜索的探索局限性

樹搜索的探索范圍受限于樹數量M。如下表所示，(M=1, N=5, L=1)配置的性能下降證實了這一點。減少樹數M雖節省滾動預算，但會限制探索范圍，可能導致模型陷入局部最優。

不同樹結構的性能對比

范式選擇的實踐智慧

樹式方法的核心價值總結

Tree-GRPO代表了LLMagent強化學習的范式轉變。其核心價值在于：

"僅基于結果獎勵構建過程信號"的革命性突破：無需額外標注，樹結構本身就能生成細粒度訓練信號
"低預算高效益"的實用價值：用1/4預算實現更好性能，顯著降低訓練成本
使小模型也能有效執行多輪agent任務：Qwen2.5-1.5b在多跳QA任務中性能提升69%

單跳QA任務中有限的提升(1.1%-9.5%)與多跳QA任務中顯著的收益(16%-69%)形成鮮明對比，這印證了"樹深度限制(通常為2)使過程信號收益有限"的分析。而WebagentQA任務的中等提升(28%平均提升)則揭示了另一維度的挑戰：訓練數據與測試難度不匹配。

實踐啟示：從理論到應用

對實踐者的啟示很簡單：如果你在訓練需要多輪交互的LLM智能體，尤其是預算有限或使用小模型(≤3b)時，樹式方法應成為你的首選。

優先在多輪agent任務中采用樹式方法：特別是多跳QA和Webagent任務
根據滾動預算靈活配置樹參數：極端預算條件下樹式方法優勢尤為明顯
小模型訓練時特別關注學習率預熱設置：如下圖所示，學習率預熱對<3B小模型特別敏感

學習率預熱對比

總結，從"軌跡級優化"到"過程級優化"

隨著agent智能體在開放環境中長視野交互能力成為"下一代基礎模型的關鍵"，Tree-GRPO所代表的樹式搜索范式將為LLM agent訓練提供重要方向。在滾動預算與信號質量的永恒權衡中，樹式方法找到了更優的平衡點，為構建真正具備agent能力的下一代語言模型鋪平道路。

對于追求高效、低成本訓練的專業團隊而言，樹式方法不僅是技術選擇，更是戰略決策——它重新定義了在有限資源下實現高質量agent訓練的可能性邊界。這不是漸進式改進，而是范式轉變：從“軌跡級優化”到“過程級優化”，為下一代agent基礎模型訓練提供新方向。

責任編輯：龐桂玉來源：覺察流

Tree-GRPO：樹式搜索讓小模型也能玩轉多輪智能體

兩種范式的直觀對比與核心挑戰

樹式方法的破局之道

范式對比：鏈式RL與樹式RL

預算效率的量化優勢

信號質量的革命性突破

訓練穩定性的顯著提升

Tree-GRPO：樹式范式的技術實現

agent步驟級樹搜索的創新設計

樹內與樹間優勢估計的協同機制

滾動預算的靈活配置

實驗對比：11個數據集上的全面較量

多跳QA任務：小模型的性能飛躍

WebagentQA任務：數據限制下的突破

預算敏感性實驗：樹式方法的"低預算高效益"

深度技術對比：樹式方法的內在機制

隱式步驟級偏好學習的理論證明

為什么樹式方法能促進更長的交互？

學習率預熱的敏感性

應用場景決策樹

推薦使用樹式方法的場景

鏈式方法仍有優勢的場景

局限與挑戰

成功案例：多輪交互能力的體現

失敗案例：探索不足的局限

樹搜索的探索局限性

范式選擇的實踐智慧

樹式方法的核心價值總結

實踐啟示：從理論到應用

總結，從"軌跡級優化"到"過程級優化"