LLM 智能體訓(xùn)練 “又貴又慢”？阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本精華

發(fā)布于 2025-9-28 06:50

瀏覽

0收藏

智能體人工智能的夢(mèng)想遭遇瓶頸

我們正站在計(jì)算領(lǐng)域新時(shí)代的風(fēng)口——智能體人工智能（Agentic AI）時(shí)代。這個(gè)夢(mèng)想簡(jiǎn)單卻意義深遠(yuǎn)：大語(yǔ)言模型（LLMs）不僅能響應(yīng)我們的查詢(xún)，還能主動(dòng)代表我們實(shí)現(xiàn)目標(biāo)。我們?cè)O(shè)想這樣的智能體：它們能研究復(fù)雜主題、規(guī)劃精密的旅行行程、調(diào)試代碼，并通過(guò)與世界的動(dòng)態(tài)多步交互管理我們的數(shù)字生活。

在過(guò)去一年里，強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL）一直是推動(dòng)我們邁向這一未來(lái)的核心引擎。通過(guò)讓模型從“試錯(cuò)”中學(xué)習(xí)，并以獎(jiǎng)勵(lì)為引導(dǎo)，我們見(jiàn)證了模型掌握了靜態(tài)模仿學(xué)習(xí)無(wú)法實(shí)現(xiàn)的復(fù)雜推理能力。

但當(dāng)我們?cè)噲D將這些智能體從“單步任務(wù)”（如解決一道數(shù)學(xué)題）推向混亂、開(kāi)放的“多輪交互場(chǎng)景”時(shí)，卻迎面撞上了一個(gè)殘酷的現(xiàn)實(shí)：當(dāng)前訓(xùn)練這些智能體的方法效率極低，且受限于兩個(gè)相互關(guān)聯(lián)的根本性問(wèn)題，這使得發(fā)展陷入停滯：

極致低效問(wèn)題（高昂成本）：訓(xùn)練智能體需要讓其“展開(kāi)軌跡”（rollout）——即執(zhí)行一整套動(dòng)作以完成任務(wù)。當(dāng)前方法需要采樣數(shù)千條獨(dú)立的完整軌跡，這一過(guò)程消耗的計(jì)算資源（tokens、API 調(diào)用、時(shí)間）堪稱(chēng)天文數(shù)字。成本之高，使得構(gòu)建和迭代高性能智能體的能力僅掌握在少數(shù)資金雄厚的實(shí)驗(yàn)室手中。
獎(jiǎng)勵(lì)盲區(qū)問(wèn)題（稀疏監(jiān)督）：在多輪任務(wù)中，智能體可能需要執(zhí)行數(shù)十個(gè)步驟——思考、搜索、觀(guān)察、再思考。但反饋往往只在任務(wù)最終階段出現(xiàn)：“你找到了正確答案”（正向獎(jiǎng)勵(lì)）或“你失敗了”（零獎(jiǎng)勵(lì)）。這個(gè)單一、稀疏的信號(hào)無(wú)法說(shuō)明“在之前數(shù)十個(gè)步驟中，哪些是出色的決策，哪些是失誤”。模型本質(zhì)上是“蒙眼學(xué)習(xí)”，導(dǎo)致訓(xùn)練不穩(wěn)定，且常常學(xué)會(huì)“無(wú)用的捷徑”而非穩(wěn)健的問(wèn)題解決策略。

這種“成本高昂”與“監(jiān)督稀疏”的雙重困境已成為行業(yè)瓶頸。如果訓(xùn)練智能體的過(guò)程本身既緩慢、昂貴又不精確，我們又如何構(gòu)建下一代復(fù)雜的人工智能體？

來(lái)自廈門(mén)大學(xué)、阿里巴巴集團(tuán)和南方科技大學(xué)的研究人員發(fā)表了一篇具有突破性的新論文——《面向大語(yǔ)言模型智能體強(qiáng)化學(xué)習(xí)的樹(shù)搜索方法》（Tree Search for LLM Agent Reinforcement Learning），為這一問(wèn)題提供了強(qiáng)大而簡(jiǎn)潔的解決方案。他們提出了一種新方法：基于樹(shù)的組相對(duì)策略?xún)?yōu)化（Tree-based Group Relative Policy Optimization, Tree-GRPO），從根本上重新思考了強(qiáng)化學(xué)習(xí)的訓(xùn)練流程。通過(guò)將低效的線(xiàn)性“鏈”轉(zhuǎn)化為智能的、分支式的“樹(shù)”，該技術(shù)不僅效率大幅提升，還能自然地將稀疏的結(jié)果獎(jiǎng)勵(lì)轉(zhuǎn)化為我們迫切需要的、逐步式的豐富過(guò)程信號(hào)。

這并非簡(jiǎn)單的增量改進(jìn)，而是一場(chǎng)范式革命——它可能開(kāi)啟智能體人工智能的下一波浪潮。讓我們深入探究。

當(dāng)前方法的缺陷：“鏈”的桎梏

要理解 Tree-GRPO 的精妙之處，首先需要認(rèn)識(shí)到當(dāng)前主流方法——基于鏈的軌跡展開(kāi)（chain-based rollouts）——的嚴(yán)重局限性。

想象一下，你試圖教一個(gè)人工智能體穿越復(fù)雜的迷宮尋找一塊奶酪，而它能獲得的唯一反饋只有最終的“找到奶酪”或“未找到奶酪”。

基于鏈的方法就像“派100個(gè)獨(dú)立的探索者進(jìn)入迷宮”：每個(gè)探索者從起點(diǎn)出發(fā)，自主選擇一系列轉(zhuǎn)彎方向，最終要么找到奶酪，要么走進(jìn)死胡同。

這種方法的缺陷顯而易見(jiàn)：

首先，高度冗余。如果迷宮的前5個(gè)轉(zhuǎn)彎是一條無(wú)分支的通道，那么100個(gè)探索者都會(huì)獨(dú)立走一遍這條通道。你在計(jì)算資源和時(shí)間上的投入，都耗費(fèi)在了“重復(fù)執(zhí)行相同初始步驟”上——這正是“高昂成本”問(wèn)題的核心。每一次“軌跡展開(kāi)”都是一條完整、昂貴的“思考-行動(dòng)-觀(guān)察”（Thought-Action-Observation）循環(huán)鏈。

其次，反饋對(duì)學(xué)習(xí)“路徑”幾乎無(wú)用。如果第57號(hào)探索者經(jīng)過(guò)30步找到奶酪，而第58號(hào)探索者經(jīng)過(guò)28步失敗，我們無(wú)法知道“第57號(hào)探索者到底做對(duì)了什么”：是第3步的轉(zhuǎn)彎？第17步？還是第29步？最終的獎(jiǎng)勵(lì)信號(hào)會(huì)平等地作用于鏈中的每一個(gè)步驟——出色的決策和愚蠢的失誤得到的“credit（功勞）或blame（過(guò)錯(cuò)）”完全相同。這就是“稀疏監(jiān)督”：模型難以將“成功/失敗”歸因于特定決策，導(dǎo)致訓(xùn)練極不穩(wěn)定且效率低下。甚至可能學(xué)會(huì)“偏好較短但失敗的路徑”（只因耗時(shí)更少），而非嘗試更長(zhǎng)、更復(fù)雜但可能成功的路徑。

這正是強(qiáng)化學(xué)習(xí)中長(zhǎng)時(shí)程任務(wù)（long-horizon tasks）的核心挑戰(zhàn)：隨著步驟數(shù)量的增加，單個(gè)動(dòng)作與最終結(jié)果之間的關(guān)聯(lián)會(huì)呈指數(shù)級(jí)減弱。標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法難以彌合這種“時(shí)間信用分配差距”（temporal credit assignment gap）。

那么，如何解決這一問(wèn)題？如果我們不派100個(gè)獨(dú)立探索者，而是派一個(gè)“協(xié)同合作的團(tuán)隊(duì)”呢？

新范式：通過(guò) Tree-GRPO 從每一個(gè)“岔路口”學(xué)習(xí)

Tree-GRPO 的研究者提出了一個(gè)簡(jiǎn)單卻深刻的問(wèn)題：為何要浪費(fèi)時(shí)間重復(fù)探索相同路徑？如果能共享探索過(guò)程，并從每個(gè)決策點(diǎn)實(shí)時(shí)學(xué)習(xí)，會(huì)怎樣？

這正是從“鏈”到“樹(shù)”的理念轉(zhuǎn)變。

回到迷宮的例子：Tree-GRPO 的方法就像“派一個(gè)保持實(shí)時(shí)溝通的探索團(tuán)隊(duì)”。團(tuán)隊(duì)先一起走過(guò)初始通道（執(zhí)行共享的“前綴”步驟），當(dāng)遇到第一個(gè)岔路口時(shí)，他們會(huì)分成兩組：

A組向左走；
B組向右走。

他們繼續(xù)探索：A組遇到下一個(gè)岔路口時(shí)再次分組。最終，B組的某個(gè)子團(tuán)隊(duì)找到了奶酪——這個(gè)成功信號(hào)會(huì)立即向上“匯報(bào)”。

此時(shí)，神奇的事情發(fā)生了：在第一個(gè)岔路口，我們獲得了極具價(jià)值的信息——“向右走的路徑最終成功，而向左走的路徑?jīng)]有”。我們?cè)凇皼Q策發(fā)生的步驟”上，直接創(chuàng)建了一個(gè)偏好信號(hào)（preference signal）。

LLM 智能體訓(xùn)練 “又貴又慢”？阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

大語(yǔ)言模型多輪智能體強(qiáng)化學(xué)習(xí)中基于鏈和基于樹(shù)的采樣策略對(duì)比。樹(shù)結(jié)構(gòu)具有兩大優(yōu)勢(shì)：（i）更低的軌跡展開(kāi)成本（無(wú)論是 tokens 還是工具調(diào)用）；（ii）更高的性能。

這正是 Tree-GRPO 的核心思路：它用“樹(shù)搜索過(guò)程”替代了“獨(dú)立的鏈?zhǔn)讲蓸印保删哂小肮蚕砬熬Y”的交錯(cuò)軌跡。正如論文首圖所強(qiáng)調(diào)的，這帶來(lái)了兩大突破性?xún)?yōu)勢(shì)：

更低的軌跡展開(kāi)成本：通過(guò)共享初始步驟（樹(shù)的“主干”），在生成同等數(shù)量的多樣化軌跡時(shí)，tokens 和工具調(diào)用的總消耗量大幅減少——用更少的成本實(shí)現(xiàn)了更多的探索。
通過(guò)過(guò)程信號(hào)實(shí)現(xiàn)更高性能：樹(shù)結(jié)構(gòu)本身成為了“學(xué)習(xí)工具”。每一個(gè)分支點(diǎn)都是“比較機(jī)會(huì)”：通過(guò)將最終結(jié)果獎(jiǎng)勵(lì)從“樹(shù)葉”反向傳播到“樹(shù)干”，我們可以比較“兄弟分支”的質(zhì)量。這一過(guò)程將“單一稀疏的結(jié)果獎(jiǎng)勵(lì)”轉(zhuǎn)化為“豐富的細(xì)粒度過(guò)程監(jiān)督信號(hào)”（process supervision signals）。模型不僅學(xué)習(xí)“最終答案是什么”，更學(xué)習(xí)“在每個(gè)步驟中如何做出更好的決策以達(dá)成目標(biāo)”。

這種簡(jiǎn)潔的設(shè)計(jì)同時(shí)解決了智能體強(qiáng)化學(xué)習(xí)的兩大核心問(wèn)題。但在實(shí)際中，它是如何實(shí)現(xiàn)的？讓我們揭開(kāi)其技術(shù)面紗。

技術(shù)深度解析：Tree-GRPO 的內(nèi)部機(jī)制

Tree-GRPO 的真正創(chuàng)新在于幾個(gè)關(guān)鍵設(shè)計(jì)決策——這些決策讓“樹(shù)搜索用于大語(yǔ)言模型智能體訓(xùn)練”變得切實(shí)可行且高效。

“智能體步驟”：完美的樹(shù)節(jié)點(diǎn)定義

此前，將樹(shù)搜索用于大語(yǔ)言模型訓(xùn)練的嘗試，往往將“樹(shù)節(jié)點(diǎn)”定義在極細(xì)的粒度上（如單個(gè) token 或一個(gè)句子）。雖然這種方式靈活性最高，但并不適合智能體任務(wù)——智能體的“決策”并非在 token 層面做出，而是在“動(dòng)作層面”。

Tree-GRPO 的研究者提出了一個(gè)關(guān)鍵洞見(jiàn)：對(duì)于智能體任務(wù)，最具語(yǔ)義意義的單元是完整的思考-行動(dòng)-觀(guān)察（Thought-Action-Observation, TAO）循環(huán)。

因此，在 Tree-GRPO 中，樹(shù)的每個(gè)節(jié)點(diǎn)都代表一個(gè)完整的智能體交互步驟。

LLM 智能體訓(xùn)練 “又貴又慢”？阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

不同層級(jí)下基于鏈和基于樹(shù)的軌跡展開(kāi)對(duì)比。左：基于鏈的軌跡展開(kāi)；中：節(jié)點(diǎn)對(duì)應(yīng) tokens/句子的樹(shù)搜索；右（本文方法）：節(jié)點(diǎn)對(duì)應(yīng)完整智能體步驟的樹(shù)搜索。

這一設(shè)計(jì)堪稱(chēng)精妙：它讓“搜索樹(shù)的結(jié)構(gòu)”與“智能體的實(shí)際決策過(guò)程”完全對(duì)齊。當(dāng)模型從“兩個(gè)分支的偏好對(duì)比”中學(xué)習(xí)時(shí)，它學(xué)習(xí)的是“偏好某一完整思考過(guò)程及后續(xù)動(dòng)作”，而非“偏好某一不完整的想法或句子”。這提供的學(xué)習(xí)信號(hào)遠(yuǎn)比“對(duì)比不完整內(nèi)容”更清晰、更穩(wěn)定，同時(shí)也讓“成本約束”（無(wú)論是 tokens 還是工具調(diào)用數(shù)量）變得明確且可控。

正如論文所述，軌跡展開(kāi)過(guò)程采用“初始化-再擴(kuò)展”（initialize-then-expand）策略，適用于并行化大語(yǔ)言模型推理引擎：

初始化：針對(duì)給定任務(wù)提示，生成 M 條獨(dú)立的完整軌跡（鏈），作為 M 棵獨(dú)立樹(shù)的初始“主干”。
采樣與擴(kuò)展：迭代地從現(xiàn)有樹(shù)中選擇節(jié)點(diǎn)，將“從根節(jié)點(diǎn)到該節(jié)點(diǎn)的上下文”作為新提示，由大語(yǔ)言模型生成從該節(jié)點(diǎn)開(kāi)始的后續(xù)完整軌跡，在樹(shù)上創(chuàng)建新分支。對(duì) N 個(gè)節(jié)點(diǎn)重復(fù) L 次這一過(guò)程，最終生成豐富、多樣的分支路徑。

這種實(shí)用的實(shí)現(xiàn)方式，能夠高效生成大量相關(guān)樣本，為下一個(gè)關(guān)鍵創(chuàng)新——“優(yōu)勢(shì)估計(jì)”（advantage estimation）奠定基礎(chǔ)。

雙基線(xiàn)的力量：樹(shù)內(nèi)優(yōu)勢(shì)與樹(shù)間優(yōu)勢(shì)

現(xiàn)在，我們有了“布滿(mǎn)分支軌跡的樹(shù)”，每條軌跡的終點(diǎn)都帶有“結(jié)果獎(jiǎng)勵(lì)”。如何將這種結(jié)構(gòu)轉(zhuǎn)化為“學(xué)習(xí)信號(hào)”？

Tree-GRPO 基于組相對(duì)策略?xún)?yōu)化（Group Relative Policy Optimization, GRPO）構(gòu)建——該技術(shù)不通過(guò)“獨(dú)立的評(píng)論者模型”（如 PPO 中的 critic）估計(jì)“動(dòng)作優(yōu)勢(shì)”，而是通過(guò)“將動(dòng)作與一組其他候選動(dòng)作的平均獎(jiǎng)勵(lì)對(duì)比”來(lái)計(jì)算。核心問(wèn)題是：“該選擇哪個(gè)‘組’作為對(duì)比基準(zhǔn)？”

Tree-GRPO 巧妙地定義了兩個(gè)不同的“對(duì)比組”，構(gòu)建出穩(wěn)健且穩(wěn)定的學(xué)習(xí)目標(biāo)：

樹(shù)內(nèi)優(yōu)勢(shì)（Intra-Tree Advantage）：這是“過(guò)程監(jiān)督”的核心。對(duì)于任意一條軌跡（從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑），其優(yōu)勢(shì)通過(guò)“與同一棵樹(shù)內(nèi)的其他軌跡對(duì)比”來(lái)計(jì)算——這正是“步驟級(jí)偏好信號(hào)”的來(lái)源。在某個(gè)分支點(diǎn)，“最終獲得高獎(jiǎng)勵(lì)的路徑”相對(duì)于“最終獲得低獎(jiǎng)勵(lì)的兄弟分支”，會(huì)具有正向優(yōu)勢(shì)。論文證明，這一目標(biāo)在數(shù)學(xué)上等價(jià)于“執(zhí)行步驟級(jí)直接偏好優(yōu)化（Direct Preference Optimization, DPO）”，但無(wú)需“手動(dòng)構(gòu)建偏好對(duì)”——它是一種從“樹(shù)結(jié)構(gòu)”中自然涌現(xiàn)的“隱式偏好學(xué)習(xí)機(jī)制”。
樹(shù)間優(yōu)勢(shì)（Inter-Tree Advantage）：雖然樹(shù)內(nèi)優(yōu)勢(shì)擅長(zhǎng)“細(xì)粒度學(xué)習(xí)”，但穩(wěn)定性不足——單棵樹(shù)的軌跡數(shù)量可能很少，導(dǎo)致“平均獎(jiǎng)勵(lì)”作為基準(zhǔn)的可靠性較低。為解決這一問(wèn)題，Tree-GRPO 還會(huì)“將每條軌跡與‘同一提示下生成的所有樹(shù)的所有軌跡’對(duì)比”，計(jì)算其優(yōu)勢(shì)。這提供了一個(gè)更穩(wěn)定的“全局基準(zhǔn)”。

LLM 智能體訓(xùn)練 “又貴又慢”？阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

Tree-GRPO 訓(xùn)練流程概述。軌跡展開(kāi)以“樹(shù)搜索”方式進(jìn)行，每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的思考-行動(dòng)-觀(guān)察步驟。組相對(duì)優(yōu)勢(shì)在“樹(shù)內(nèi)”和“樹(shù)間”兩個(gè)層面進(jìn)行估計(jì)。Tree-GRPO 通過(guò)“樹(shù)結(jié)構(gòu)”構(gòu)建“步驟級(jí)過(guò)程監(jiān)督信號(hào)”，且軌跡展開(kāi)成本更低。

任意給定軌跡的“最終優(yōu)勢(shì)估計(jì)值”，即為其“樹(shù)內(nèi)優(yōu)勢(shì)”與“樹(shù)間優(yōu)勢(shì)”之和：

LLM 智能體訓(xùn)練 “又貴又慢”？阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

驚人結(jié)果：用“少得多的成本”實(shí)現(xiàn)“多得多的價(jià)值”

Tree-GRPO 在11個(gè)數(shù)據(jù)集上的實(shí)證評(píng)估結(jié)果令人驚嘆。實(shí)驗(yàn)一致表明，這種“基于樹(shù)的方法”優(yōu)于傳統(tǒng)“基于鏈的方法”——尤其在“關(guān)鍵場(chǎng)景”（長(zhǎng)時(shí)程、低預(yù)算任務(wù)）中優(yōu)勢(shì)更為顯著。

在低預(yù)算、多跳場(chǎng)景中的絕對(duì)優(yōu)勢(shì)

最顯著的結(jié)果出現(xiàn)在“多跳問(wèn)答（multi-hop QA）任務(wù)”中——這類(lèi)任務(wù)需要復(fù)雜的多輪推理和工具使用，正是“基于鏈的強(qiáng)化學(xué)習(xí)”最薄弱的領(lǐng)域。

LLM 智能體訓(xùn)練 “又貴又慢”？阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

單跳問(wèn)答和多跳問(wèn)答的整體性能，包含各數(shù)據(jù)集的精確匹配（EM）分?jǐn)?shù)。最佳結(jié)果以粗體標(biāo)注。

觀(guān)察小模型的表現(xiàn)，差異堪稱(chēng)天壤之別：對(duì)于 Qwen2.5-1.5b 模型（通義千問(wèn)2.5系列1.5B參數(shù)模型），在多跳任務(wù)中，標(biāo)準(zhǔn)的“基于鏈的 GRPO”幾乎無(wú)法超越基線(xiàn)模型（baseline）——它根本無(wú)法學(xué)習(xí)復(fù)雜的推理能力。相比之下，Tree-GRPO 實(shí)現(xiàn)了高達(dá)69%的相對(duì)提升。這一結(jié)果表明：Tree-GRPO 提供的“過(guò)程監(jiān)督”，對(duì)于“教小模型掌握復(fù)雜智能體行為”至關(guān)重要。

這一發(fā)現(xiàn)具有關(guān)鍵意義：通過(guò) Tree-GRPO 這類(lèi)更智能的訓(xùn)練方法，我們可以在“更小、更高效、更易獲取的模型”中解鎖強(qiáng)大的智能體能力。若能高效訓(xùn)練，你可能無(wú)需“超大前沿模型”就能構(gòu)建實(shí)用的智能體。

前所未有的樣本效率

Tree-GRPO 優(yōu)越性的最有力證據(jù)，體現(xiàn)在“受限預(yù)算下的性能”上。研究者測(cè)試了兩種方法在不同“軌跡展開(kāi)預(yù)算”（從每個(gè)提示2次到16次）下的表現(xiàn)。

LLM 智能體訓(xùn)練 “又貴又慢”？阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

不同訓(xùn)練預(yù)算下的性能（訓(xùn)練預(yù)算定義為“每個(gè)提示對(duì)應(yīng)的完整智能體軌跡展開(kāi)次數(shù)”）。基準(zhǔn)模型為 Qwen2.5–3b（通義千問(wèn)2.5系列3B參數(shù)模型）。最佳結(jié)果以粗體標(biāo)注。

表格中的結(jié)果令人震驚：

在每個(gè)提示僅2次軌跡展開(kāi)的高度受限預(yù)算下，基于鏈的方法在多跳任務(wù)中基本無(wú)法學(xué)習(xí)。而 Tree-GRPO 則表現(xiàn)出色，實(shí)現(xiàn)了112%的相對(duì)提升。

更令人印象深刻的是：使用“每個(gè)提示4次軌跡展開(kāi)”的 Tree-GRPO，其性能超過(guò)了使用“每個(gè)提示16次軌跡展開(kāi)”的基于鏈的方法。請(qǐng)仔細(xì)思考這一結(jié)果：它用“四分之一的計(jì)算成本”實(shí)現(xiàn)了“更優(yōu)的性能”。

這并非單純的學(xué)術(shù)成果——它具有深遠(yuǎn)的實(shí)際意義：開(kāi)發(fā)和微調(diào)高性能大語(yǔ)言模型智能體的成本可能降低至原來(lái)的1/4，速度提升4倍，這將大幅降低“研究者和企業(yè)參與智能體開(kāi)發(fā)”的門(mén)檻。一篇研究論文竟能改變整個(gè)領(lǐng)域的“經(jīng)濟(jì)成本結(jié)構(gòu)”。

超越數(shù)字：為何 Tree-GRPO 能培養(yǎng)“更聰明的智能體”

Tree-GRPO 的價(jià)值遠(yuǎn)不止“性能指標(biāo)的提升”——它從根本上改變了“智能體的學(xué)習(xí)內(nèi)容”。

由于“基于鏈的強(qiáng)化學(xué)習(xí)”依賴(lài)稀疏獎(jiǎng)勵(lì)，難以進(jìn)行“信用分配”，因此往往會(huì)導(dǎo)致“智能體偏向選擇較短軌跡”：模型會(huì)“求穩(wěn)”，避免“長(zhǎng)而復(fù)雜的推理鏈”——因?yàn)椤霸诼L(zhǎng)步驟中犯錯(cuò)的風(fēng)險(xiǎn)太高”，而最終獎(jiǎng)勵(lì)的不確定性又太大。這導(dǎo)致智能體“輕易放棄”或“走不合理的捷徑”。

而 Tree-GRPO 憑借其“內(nèi)置的過(guò)程監(jiān)督”，徹底改變了這一動(dòng)態(tài)：通過(guò)獎(jiǎng)勵(lì)“優(yōu)質(zhì)的中間決策”，它鼓勵(lì)智能體“探索更長(zhǎng)、更復(fù)雜的推理路徑”。論文通過(guò)“訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)與動(dòng)作數(shù)量的分析”，為這一“行為轉(zhuǎn)變”提供了證據(jù)。

LLM 智能體訓(xùn)練 “又貴又慢”？阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

基于樹(shù)和基于鏈的強(qiáng)化學(xué)習(xí)在獎(jiǎng)勵(lì)和動(dòng)作數(shù)量上的對(duì)比。

如圖所示，用 Tree-GRPO 訓(xùn)練的智能體，不僅“最終獎(jiǎng)勵(lì)更高”，還學(xué)會(huì)了“執(zhí)行更多動(dòng)作”（即調(diào)用更多工具）。它不再是“猜測(cè)答案”，而是在學(xué)習(xí)“探索的過(guò)程”——培養(yǎng)了解決“真正難題”所需的“堅(jiān)持性”。

這一區(qū)別至關(guān)重要：我們需要的不是“擅長(zhǎng)匹配最終答案模式”的智能體，而是“擅長(zhǎng)‘找到答案’這一過(guò)程”的智能體。通過(guò)提供“過(guò)程級(jí)監(jiān)督”，Tree-GRPO 直接優(yōu)化了“這種更理想、更穩(wěn)健的智能形式”。

你正在研究哪些“需要多步探索過(guò)程才能找到答案”的問(wèn)題？

結(jié)論：未來(lái)是“分支式”的

《Tree Search for LLM Agent Reinforcement Learning》是一篇罕見(jiàn)的“理論簡(jiǎn)潔優(yōu)美、實(shí)踐變革性強(qiáng)”的研究論文。它用“一個(gè)強(qiáng)大的想法”（將線(xiàn)性鏈轉(zhuǎn)化為分支樹(shù)），同時(shí)解決了“智能體人工智能的成本與監(jiān)督雙重困境”。

通過(guò)這一創(chuàng)新，Tree-GRPO 為“智能體開(kāi)發(fā)”指明了清晰的前進(jìn)方向：用更低的成本、更快的速度，構(gòu)建更強(qiáng)大的智能體。

核心要點(diǎn)：

問(wèn)題所在：用傳統(tǒng)“基于鏈的強(qiáng)化學(xué)習(xí)”訓(xùn)練大語(yǔ)言模型智能體，成本極高，且在長(zhǎng)時(shí)程任務(wù)中效果差——根源是“采樣冗余”和“獎(jiǎng)勵(lì)稀疏”。
解決方案：Tree-GRPO 用“樹(shù)搜索采樣”替代“鏈?zhǔn)杰壽E展開(kāi)”，軌跡共享“公共前綴”；樹(shù)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的“思考-行動(dòng)-觀(guān)察”步驟。
雙重優(yōu)勢(shì)：這種樹(shù)結(jié)構(gòu)（1）效率極高，大幅降低 tokens 和工具調(diào)用成本；（2）自然生成“過(guò)程監(jiān)督”——通過(guò)對(duì)比不同分支，無(wú)需額外標(biāo)注即可獲得“步驟級(jí)偏好信號(hào)”。
實(shí)驗(yàn)結(jié)果：Tree-GRPO 顯著優(yōu)于基于鏈的方法，尤其在“小模型”和“低預(yù)算”場(chǎng)景中；它能用“四分之一的計(jì)算成本”實(shí)現(xiàn)“更優(yōu)性能”。
深遠(yuǎn)影響：這項(xiàng)工作不僅提升了性能，更培養(yǎng)了“更聰明、更具堅(jiān)持性的智能體”——它們學(xué)習(xí)的是“問(wèn)題解決的過(guò)程”；它讓“復(fù)雜智能體人工智能的開(kāi)發(fā)”變得對(duì)所有人更易獲取。

構(gòu)建“真正自主、實(shí)用的人工智能體”是一段漫長(zhǎng)的旅程，充滿(mǎn)復(fù)雜挑戰(zhàn)。但像 Tree-GRPO 這樣的創(chuàng)新，讓前進(jìn)的道路變得清晰。未來(lái)并非“一條直線(xiàn)”，而是“分支不斷擴(kuò)展、可能性持續(xù)增多的樹(shù)”。而現(xiàn)在，我們終于有了“從每一個(gè)分支中學(xué)習(xí)”的方法。

你怎么看？這是否是“讓智能體人工智能開(kāi)發(fā)民主化”的突破性成果？歡迎在評(píng)論區(qū)分享你的想法。