精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本 精華

發(fā)布于 2025-9-28 06:50
瀏覽
0收藏

智能體人工智能的夢(mèng)想遭遇瓶頸

我們正站在計(jì)算領(lǐng)域新時(shí)代的風(fēng)口——智能體人工智能(Agentic AI)時(shí)代。這個(gè)夢(mèng)想簡(jiǎn)單卻意義深遠(yuǎn):大語(yǔ)言模型(LLMs)不僅能響應(yīng)我們的查詢(xún),還能主動(dòng)代表我們實(shí)現(xiàn)目標(biāo)。我們?cè)O(shè)想這樣的智能體:它們能研究復(fù)雜主題、規(guī)劃精密的旅行行程、調(diào)試代碼,并通過(guò)與世界的動(dòng)態(tài)多步交互管理我們的數(shù)字生活。

在過(guò)去一年里,強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)一直是推動(dòng)我們邁向這一未來(lái)的核心引擎。通過(guò)讓模型從“試錯(cuò)”中學(xué)習(xí),并以獎(jiǎng)勵(lì)為引導(dǎo),我們見(jiàn)證了模型掌握了靜態(tài)模仿學(xué)習(xí)無(wú)法實(shí)現(xiàn)的復(fù)雜推理能力。

但當(dāng)我們?cè)噲D將這些智能體從“單步任務(wù)”(如解決一道數(shù)學(xué)題)推向混亂、開(kāi)放的“多輪交互場(chǎng)景”時(shí),卻迎面撞上了一個(gè)殘酷的現(xiàn)實(shí):當(dāng)前訓(xùn)練這些智能體的方法效率極低,且受限于兩個(gè)相互關(guān)聯(lián)的根本性問(wèn)題,這使得發(fā)展陷入停滯:

  1. 極致低效問(wèn)題(高昂成本):訓(xùn)練智能體需要讓其“展開(kāi)軌跡”(rollout)——即執(zhí)行一整套動(dòng)作以完成任務(wù)。當(dāng)前方法需要采樣數(shù)千條獨(dú)立的完整軌跡,這一過(guò)程消耗的計(jì)算資源(tokens、API 調(diào)用、時(shí)間)堪稱(chēng)天文數(shù)字。成本之高,使得構(gòu)建和迭代高性能智能體的能力僅掌握在少數(shù)資金雄厚的實(shí)驗(yàn)室手中。
  2. 獎(jiǎng)勵(lì)盲區(qū)問(wèn)題(稀疏監(jiān)督):在多輪任務(wù)中,智能體可能需要執(zhí)行數(shù)十個(gè)步驟——思考、搜索、觀(guān)察、再思考。但反饋往往只在任務(wù)最終階段出現(xiàn):“你找到了正確答案”(正向獎(jiǎng)勵(lì))或“你失敗了”(零獎(jiǎng)勵(lì))。這個(gè)單一、稀疏的信號(hào)無(wú)法說(shuō)明“在之前數(shù)十個(gè)步驟中,哪些是出色的決策,哪些是失誤”。模型本質(zhì)上是“蒙眼學(xué)習(xí)”,導(dǎo)致訓(xùn)練不穩(wěn)定,且常常學(xué)會(huì)“無(wú)用的捷徑”而非穩(wěn)健的問(wèn)題解決策略。

這種“成本高昂”與“監(jiān)督稀疏”的雙重困境已成為行業(yè)瓶頸。如果訓(xùn)練智能體的過(guò)程本身既緩慢、昂貴又不精確,我們又如何構(gòu)建下一代復(fù)雜的人工智能體?

來(lái)自廈門(mén)大學(xué)、阿里巴巴集團(tuán)和南方科技大學(xué)的研究人員發(fā)表了一篇具有突破性的新論文——《面向大語(yǔ)言模型智能體強(qiáng)化學(xué)習(xí)的樹(shù)搜索方法》(Tree Search for LLM Agent Reinforcement Learning),為這一問(wèn)題提供了強(qiáng)大而簡(jiǎn)潔的解決方案。他們提出了一種新方法:基于樹(shù)的組相對(duì)策略?xún)?yōu)化(Tree-based Group Relative Policy Optimization, Tree-GRPO),從根本上重新思考了強(qiáng)化學(xué)習(xí)的訓(xùn)練流程。通過(guò)將低效的線(xiàn)性“鏈”轉(zhuǎn)化為智能的、分支式的“樹(shù)”,該技術(shù)不僅效率大幅提升,還能自然地將稀疏的結(jié)果獎(jiǎng)勵(lì)轉(zhuǎn)化為我們迫切需要的、逐步式的豐富過(guò)程信號(hào)。

這并非簡(jiǎn)單的增量改進(jìn),而是一場(chǎng)范式革命——它可能開(kāi)啟智能體人工智能的下一波浪潮。讓我們深入探究。

當(dāng)前方法的缺陷:“鏈”的桎梏

要理解 Tree-GRPO 的精妙之處,首先需要認(rèn)識(shí)到當(dāng)前主流方法——基于鏈的軌跡展開(kāi)(chain-based rollouts)——的嚴(yán)重局限性。

想象一下,你試圖教一個(gè)人工智能體穿越復(fù)雜的迷宮尋找一塊奶酪,而它能獲得的唯一反饋只有最終的“找到奶酪”或“未找到奶酪”。

基于鏈的方法就像“派100個(gè)獨(dú)立的探索者進(jìn)入迷宮”:每個(gè)探索者從起點(diǎn)出發(fā),自主選擇一系列轉(zhuǎn)彎方向,最終要么找到奶酪,要么走進(jìn)死胡同。

這種方法的缺陷顯而易見(jiàn):

首先,高度冗余。如果迷宮的前5個(gè)轉(zhuǎn)彎是一條無(wú)分支的通道,那么100個(gè)探索者都會(huì)獨(dú)立走一遍這條通道。你在計(jì)算資源和時(shí)間上的投入,都耗費(fèi)在了“重復(fù)執(zhí)行相同初始步驟”上——這正是“高昂成本”問(wèn)題的核心。每一次“軌跡展開(kāi)”都是一條完整、昂貴的“思考-行動(dòng)-觀(guān)察”(Thought-Action-Observation)循環(huán)鏈。

其次,反饋對(duì)學(xué)習(xí)“路徑”幾乎無(wú)用。如果第57號(hào)探索者經(jīng)過(guò)30步找到奶酪,而第58號(hào)探索者經(jīng)過(guò)28步失敗,我們無(wú)法知道“第57號(hào)探索者到底做對(duì)了什么”:是第3步的轉(zhuǎn)彎?第17步?還是第29步?最終的獎(jiǎng)勵(lì)信號(hào)會(huì)平等地作用于鏈中的每一個(gè)步驟——出色的決策和愚蠢的失誤得到的“credit(功勞)或blame(過(guò)錯(cuò))”完全相同。這就是“稀疏監(jiān)督”:模型難以將“成功/失敗”歸因于特定決策,導(dǎo)致訓(xùn)練極不穩(wěn)定且效率低下。甚至可能學(xué)會(huì)“偏好較短但失敗的路徑”(只因耗時(shí)更少),而非嘗試更長(zhǎng)、更復(fù)雜但可能成功的路徑。

這正是強(qiáng)化學(xué)習(xí)中長(zhǎng)時(shí)程任務(wù)(long-horizon tasks)的核心挑戰(zhàn):隨著步驟數(shù)量的增加,單個(gè)動(dòng)作與最終結(jié)果之間的關(guān)聯(lián)會(huì)呈指數(shù)級(jí)減弱。標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法難以彌合這種“時(shí)間信用分配差距”(temporal credit assignment gap)。

那么,如何解決這一問(wèn)題?如果我們不派100個(gè)獨(dú)立探索者,而是派一個(gè)“協(xié)同合作的團(tuán)隊(duì)”呢?

新范式:通過(guò) Tree-GRPO 從每一個(gè)“岔路口”學(xué)習(xí)

Tree-GRPO 的研究者提出了一個(gè)簡(jiǎn)單卻深刻的問(wèn)題:為何要浪費(fèi)時(shí)間重復(fù)探索相同路徑?如果能共享探索過(guò)程,并從每個(gè)決策點(diǎn)實(shí)時(shí)學(xué)習(xí),會(huì)怎樣?

這正是從“鏈”到“樹(shù)”的理念轉(zhuǎn)變。

回到迷宮的例子:Tree-GRPO 的方法就像“派一個(gè)保持實(shí)時(shí)溝通的探索團(tuán)隊(duì)”。團(tuán)隊(duì)先一起走過(guò)初始通道(執(zhí)行共享的“前綴”步驟),當(dāng)遇到第一個(gè)岔路口時(shí),他們會(huì)分成兩組:

  • A組向左走;
  • B組向右走。

他們繼續(xù)探索:A組遇到下一個(gè)岔路口時(shí)再次分組。最終,B組的某個(gè)子團(tuán)隊(duì)找到了奶酪——這個(gè)成功信號(hào)會(huì)立即向上“匯報(bào)”。

此時(shí),神奇的事情發(fā)生了:在第一個(gè)岔路口,我們獲得了極具價(jià)值的信息——“向右走的路徑最終成功,而向左走的路徑?jīng)]有”。我們?cè)凇皼Q策發(fā)生的步驟”上,直接創(chuàng)建了一個(gè)偏好信號(hào)(preference signal)。

LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

大語(yǔ)言模型多輪智能體強(qiáng)化學(xué)習(xí)中基于鏈和基于樹(shù)的采樣策略對(duì)比。樹(shù)結(jié)構(gòu)具有兩大優(yōu)勢(shì):(i)更低的軌跡展開(kāi)成本(無(wú)論是 tokens 還是工具調(diào)用);(ii)更高的性能。

這正是 Tree-GRPO 的核心思路:它用“樹(shù)搜索過(guò)程”替代了“獨(dú)立的鏈?zhǔn)讲蓸印保删哂小肮蚕砬熬Y”的交錯(cuò)軌跡。正如論文首圖所強(qiáng)調(diào)的,這帶來(lái)了兩大突破性?xún)?yōu)勢(shì):

  1. 更低的軌跡展開(kāi)成本:通過(guò)共享初始步驟(樹(shù)的“主干”),在生成同等數(shù)量的多樣化軌跡時(shí),tokens 和工具調(diào)用的總消耗量大幅減少——用更少的成本實(shí)現(xiàn)了更多的探索。
  2. 通過(guò)過(guò)程信號(hào)實(shí)現(xiàn)更高性能:樹(shù)結(jié)構(gòu)本身成為了“學(xué)習(xí)工具”。每一個(gè)分支點(diǎn)都是“比較機(jī)會(huì)”:通過(guò)將最終結(jié)果獎(jiǎng)勵(lì)從“樹(shù)葉”反向傳播到“樹(shù)干”,我們可以比較“兄弟分支”的質(zhì)量。這一過(guò)程將“單一稀疏的結(jié)果獎(jiǎng)勵(lì)”轉(zhuǎn)化為“豐富的細(xì)粒度過(guò)程監(jiān)督信號(hào)”(process supervision signals)。模型不僅學(xué)習(xí)“最終答案是什么”,更學(xué)習(xí)“在每個(gè)步驟中如何做出更好的決策以達(dá)成目標(biāo)”。

這種簡(jiǎn)潔的設(shè)計(jì)同時(shí)解決了智能體強(qiáng)化學(xué)習(xí)的兩大核心問(wèn)題。但在實(shí)際中,它是如何實(shí)現(xiàn)的?讓我們揭開(kāi)其技術(shù)面紗。

技術(shù)深度解析:Tree-GRPO 的內(nèi)部機(jī)制

Tree-GRPO 的真正創(chuàng)新在于幾個(gè)關(guān)鍵設(shè)計(jì)決策——這些決策讓“樹(shù)搜索用于大語(yǔ)言模型智能體訓(xùn)練”變得切實(shí)可行且高效。

“智能體步驟”:完美的樹(shù)節(jié)點(diǎn)定義

此前,將樹(shù)搜索用于大語(yǔ)言模型訓(xùn)練的嘗試,往往將“樹(shù)節(jié)點(diǎn)”定義在極細(xì)的粒度上(如單個(gè) token 或一個(gè)句子)。雖然這種方式靈活性最高,但并不適合智能體任務(wù)——智能體的“決策”并非在 token 層面做出,而是在“動(dòng)作層面”。

Tree-GRPO 的研究者提出了一個(gè)關(guān)鍵洞見(jiàn):對(duì)于智能體任務(wù),最具語(yǔ)義意義的單元是完整的思考-行動(dòng)-觀(guān)察(Thought-Action-Observation, TAO)循環(huán)。

因此,在 Tree-GRPO 中,樹(shù)的每個(gè)節(jié)點(diǎn)都代表一個(gè)完整的智能體交互步驟。

LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

不同層級(jí)下基于鏈和基于樹(shù)的軌跡展開(kāi)對(duì)比。左:基于鏈的軌跡展開(kāi);中:節(jié)點(diǎn)對(duì)應(yīng) tokens/句子的樹(shù)搜索;右(本文方法):節(jié)點(diǎn)對(duì)應(yīng)完整智能體步驟的樹(shù)搜索。

這一設(shè)計(jì)堪稱(chēng)精妙:它讓“搜索樹(shù)的結(jié)構(gòu)”與“智能體的實(shí)際決策過(guò)程”完全對(duì)齊。當(dāng)模型從“兩個(gè)分支的偏好對(duì)比”中學(xué)習(xí)時(shí),它學(xué)習(xí)的是“偏好某一完整思考過(guò)程及后續(xù)動(dòng)作”,而非“偏好某一不完整的想法或句子”。這提供的學(xué)習(xí)信號(hào)遠(yuǎn)比“對(duì)比不完整內(nèi)容”更清晰、更穩(wěn)定,同時(shí)也讓“成本約束”(無(wú)論是 tokens 還是工具調(diào)用數(shù)量)變得明確且可控。

正如論文所述,軌跡展開(kāi)過(guò)程采用“初始化-再擴(kuò)展”(initialize-then-expand)策略,適用于并行化大語(yǔ)言模型推理引擎:

  1. 初始化:針對(duì)給定任務(wù)提示,生成 M 條獨(dú)立的完整軌跡(鏈),作為 M 棵獨(dú)立樹(shù)的初始“主干”。
  2. 采樣與擴(kuò)展:迭代地從現(xiàn)有樹(shù)中選擇節(jié)點(diǎn),將“從根節(jié)點(diǎn)到該節(jié)點(diǎn)的上下文”作為新提示,由大語(yǔ)言模型生成從該節(jié)點(diǎn)開(kāi)始的后續(xù)完整軌跡,在樹(shù)上創(chuàng)建新分支。對(duì) N 個(gè)節(jié)點(diǎn)重復(fù) L 次這一過(guò)程,最終生成豐富、多樣的分支路徑。

這種實(shí)用的實(shí)現(xiàn)方式,能夠高效生成大量相關(guān)樣本,為下一個(gè)關(guān)鍵創(chuàng)新——“優(yōu)勢(shì)估計(jì)”(advantage estimation)奠定基礎(chǔ)。

雙基線(xiàn)的力量:樹(shù)內(nèi)優(yōu)勢(shì)與樹(shù)間優(yōu)勢(shì)

現(xiàn)在,我們有了“布滿(mǎn)分支軌跡的樹(shù)”,每條軌跡的終點(diǎn)都帶有“結(jié)果獎(jiǎng)勵(lì)”。如何將這種結(jié)構(gòu)轉(zhuǎn)化為“學(xué)習(xí)信號(hào)”?

Tree-GRPO 基于組相對(duì)策略?xún)?yōu)化(Group Relative Policy Optimization, GRPO) 構(gòu)建——該技術(shù)不通過(guò)“獨(dú)立的評(píng)論者模型”(如 PPO 中的 critic)估計(jì)“動(dòng)作優(yōu)勢(shì)”,而是通過(guò)“將動(dòng)作與一組其他候選動(dòng)作的平均獎(jiǎng)勵(lì)對(duì)比”來(lái)計(jì)算。核心問(wèn)題是:“該選擇哪個(gè)‘組’作為對(duì)比基準(zhǔn)?”

Tree-GRPO 巧妙地定義了兩個(gè)不同的“對(duì)比組”,構(gòu)建出穩(wěn)健且穩(wěn)定的學(xué)習(xí)目標(biāo):

  1. 樹(shù)內(nèi)優(yōu)勢(shì)(Intra-Tree Advantage):這是“過(guò)程監(jiān)督”的核心。對(duì)于任意一條軌跡(從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑),其優(yōu)勢(shì)通過(guò)“與同一棵樹(shù)內(nèi)的其他軌跡對(duì)比”來(lái)計(jì)算——這正是“步驟級(jí)偏好信號(hào)”的來(lái)源。在某個(gè)分支點(diǎn),“最終獲得高獎(jiǎng)勵(lì)的路徑”相對(duì)于“最終獲得低獎(jiǎng)勵(lì)的兄弟分支”,會(huì)具有正向優(yōu)勢(shì)。論文證明,這一目標(biāo)在數(shù)學(xué)上等價(jià)于“執(zhí)行步驟級(jí)直接偏好優(yōu)化(Direct Preference Optimization, DPO)”,但無(wú)需“手動(dòng)構(gòu)建偏好對(duì)”——它是一種從“樹(shù)結(jié)構(gòu)”中自然涌現(xiàn)的“隱式偏好學(xué)習(xí)機(jī)制”。
  2. 樹(shù)間優(yōu)勢(shì)(Inter-Tree Advantage):雖然樹(shù)內(nèi)優(yōu)勢(shì)擅長(zhǎng)“細(xì)粒度學(xué)習(xí)”,但穩(wěn)定性不足——單棵樹(shù)的軌跡數(shù)量可能很少,導(dǎo)致“平均獎(jiǎng)勵(lì)”作為基準(zhǔn)的可靠性較低。為解決這一問(wèn)題,Tree-GRPO 還會(huì)“將每條軌跡與‘同一提示下生成的所有樹(shù)的所有軌跡’對(duì)比”,計(jì)算其優(yōu)勢(shì)。這提供了一個(gè)更穩(wěn)定的“全局基準(zhǔn)”。

LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

Tree-GRPO 訓(xùn)練流程概述。軌跡展開(kāi)以“樹(shù)搜索”方式進(jìn)行,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的思考-行動(dòng)-觀(guān)察步驟。組相對(duì)優(yōu)勢(shì)在“樹(shù)內(nèi)”和“樹(shù)間”兩個(gè)層面進(jìn)行估計(jì)。Tree-GRPO 通過(guò)“樹(shù)結(jié)構(gòu)”構(gòu)建“步驟級(jí)過(guò)程監(jiān)督信號(hào)”,且軌跡展開(kāi)成本更低。

任意給定軌跡的“最終優(yōu)勢(shì)估計(jì)值”,即為其“樹(shù)內(nèi)優(yōu)勢(shì)”與“樹(shù)間優(yōu)勢(shì)”之和:

LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

驚人結(jié)果:用“少得多的成本”實(shí)現(xiàn)“多得多的價(jià)值”

Tree-GRPO 在11個(gè)數(shù)據(jù)集上的實(shí)證評(píng)估結(jié)果令人驚嘆。實(shí)驗(yàn)一致表明,這種“基于樹(shù)的方法”優(yōu)于傳統(tǒng)“基于鏈的方法”——尤其在“關(guān)鍵場(chǎng)景”(長(zhǎng)時(shí)程、低預(yù)算任務(wù))中優(yōu)勢(shì)更為顯著。

在低預(yù)算、多跳場(chǎng)景中的絕對(duì)優(yōu)勢(shì)

最顯著的結(jié)果出現(xiàn)在“多跳問(wèn)答(multi-hop QA)任務(wù)”中——這類(lèi)任務(wù)需要復(fù)雜的多輪推理和工具使用,正是“基于鏈的強(qiáng)化學(xué)習(xí)”最薄弱的領(lǐng)域。

LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

單跳問(wèn)答和多跳問(wèn)答的整體性能,包含各數(shù)據(jù)集的精確匹配(EM)分?jǐn)?shù)。最佳結(jié)果以粗體標(biāo)注。

觀(guān)察小模型的表現(xiàn),差異堪稱(chēng)天壤之別:對(duì)于 Qwen2.5-1.5b 模型(通義千問(wèn)2.5系列1.5B參數(shù)模型),在多跳任務(wù)中,標(biāo)準(zhǔn)的“基于鏈的 GRPO”幾乎無(wú)法超越基線(xiàn)模型(baseline)——它根本無(wú)法學(xué)習(xí)復(fù)雜的推理能力。相比之下,Tree-GRPO 實(shí)現(xiàn)了高達(dá)69%的相對(duì)提升。這一結(jié)果表明:Tree-GRPO 提供的“過(guò)程監(jiān)督”,對(duì)于“教小模型掌握復(fù)雜智能體行為”至關(guān)重要。

這一發(fā)現(xiàn)具有關(guān)鍵意義:通過(guò) Tree-GRPO 這類(lèi)更智能的訓(xùn)練方法,我們可以在“更小、更高效、更易獲取的模型”中解鎖強(qiáng)大的智能體能力。若能高效訓(xùn)練,你可能無(wú)需“超大前沿模型”就能構(gòu)建實(shí)用的智能體。

前所未有的樣本效率

Tree-GRPO 優(yōu)越性的最有力證據(jù),體現(xiàn)在“受限預(yù)算下的性能”上。研究者測(cè)試了兩種方法在不同“軌跡展開(kāi)預(yù)算”(從每個(gè)提示2次到16次)下的表現(xiàn)。

LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

不同訓(xùn)練預(yù)算下的性能(訓(xùn)練預(yù)算定義為“每個(gè)提示對(duì)應(yīng)的完整智能體軌跡展開(kāi)次數(shù)”)。基準(zhǔn)模型為 Qwen2.5–3b(通義千問(wèn)2.5系列3B參數(shù)模型)。最佳結(jié)果以粗體標(biāo)注。

表格中的結(jié)果令人震驚:

在每個(gè)提示僅2次軌跡展開(kāi)的高度受限預(yù)算下,基于鏈的方法在多跳任務(wù)中基本無(wú)法學(xué)習(xí)。而 Tree-GRPO 則表現(xiàn)出色,實(shí)現(xiàn)了112%的相對(duì)提升。

更令人印象深刻的是:使用“每個(gè)提示4次軌跡展開(kāi)”的 Tree-GRPO,其性能超過(guò)了使用“每個(gè)提示16次軌跡展開(kāi)”的基于鏈的方法。請(qǐng)仔細(xì)思考這一結(jié)果:它用“四分之一的計(jì)算成本”實(shí)現(xiàn)了“更優(yōu)的性能”。

這并非單純的學(xué)術(shù)成果——它具有深遠(yuǎn)的實(shí)際意義:開(kāi)發(fā)和微調(diào)高性能大語(yǔ)言模型智能體的成本可能降低至原來(lái)的1/4,速度提升4倍,這將大幅降低“研究者和企業(yè)參與智能體開(kāi)發(fā)”的門(mén)檻。一篇研究論文竟能改變整個(gè)領(lǐng)域的“經(jīng)濟(jì)成本結(jié)構(gòu)”。

超越數(shù)字:為何 Tree-GRPO 能培養(yǎng)“更聰明的智能體”

Tree-GRPO 的價(jià)值遠(yuǎn)不止“性能指標(biāo)的提升”——它從根本上改變了“智能體的學(xué)習(xí)內(nèi)容”。

由于“基于鏈的強(qiáng)化學(xué)習(xí)”依賴(lài)稀疏獎(jiǎng)勵(lì),難以進(jìn)行“信用分配”,因此往往會(huì)導(dǎo)致“智能體偏向選擇較短軌跡”:模型會(huì)“求穩(wěn)”,避免“長(zhǎng)而復(fù)雜的推理鏈”——因?yàn)椤霸诼L(zhǎng)步驟中犯錯(cuò)的風(fēng)險(xiǎn)太高”,而最終獎(jiǎng)勵(lì)的不確定性又太大。這導(dǎo)致智能體“輕易放棄”或“走不合理的捷徑”。

而 Tree-GRPO 憑借其“內(nèi)置的過(guò)程監(jiān)督”,徹底改變了這一動(dòng)態(tài):通過(guò)獎(jiǎng)勵(lì)“優(yōu)質(zhì)的中間決策”,它鼓勵(lì)智能體“探索更長(zhǎng)、更復(fù)雜的推理路徑”。論文通過(guò)“訓(xùn)練過(guò)程中獎(jiǎng)勵(lì)與動(dòng)作數(shù)量的分析”,為這一“行為轉(zhuǎn)變”提供了證據(jù)。

LLM 智能體訓(xùn)練 “又貴又慢”?阿里提出Tree-GRPO 用樹(shù)搜索砍 3/4 成本-AI.x社區(qū)

基于樹(shù)和基于鏈的強(qiáng)化學(xué)習(xí)在獎(jiǎng)勵(lì)和動(dòng)作數(shù)量上的對(duì)比。

如圖所示,用 Tree-GRPO 訓(xùn)練的智能體,不僅“最終獎(jiǎng)勵(lì)更高”,還學(xué)會(huì)了“執(zhí)行更多動(dòng)作”(即調(diào)用更多工具)。它不再是“猜測(cè)答案”,而是在學(xué)習(xí)“探索的過(guò)程”——培養(yǎng)了解決“真正難題”所需的“堅(jiān)持性”。

這一區(qū)別至關(guān)重要:我們需要的不是“擅長(zhǎng)匹配最終答案模式”的智能體,而是“擅長(zhǎng)‘找到答案’這一過(guò)程”的智能體。通過(guò)提供“過(guò)程級(jí)監(jiān)督”,Tree-GRPO 直接優(yōu)化了“這種更理想、更穩(wěn)健的智能形式”。

你正在研究哪些“需要多步探索過(guò)程才能找到答案”的問(wèn)題?

結(jié)論:未來(lái)是“分支式”的

《Tree Search for LLM Agent Reinforcement Learning》是一篇罕見(jiàn)的“理論簡(jiǎn)潔優(yōu)美、實(shí)踐變革性強(qiáng)”的研究論文。它用“一個(gè)強(qiáng)大的想法”(將線(xiàn)性鏈轉(zhuǎn)化為分支樹(shù)),同時(shí)解決了“智能體人工智能的成本與監(jiān)督雙重困境”。

通過(guò)這一創(chuàng)新,Tree-GRPO 為“智能體開(kāi)發(fā)”指明了清晰的前進(jìn)方向:用更低的成本、更快的速度,構(gòu)建更強(qiáng)大的智能體。

核心要點(diǎn):

  • 問(wèn)題所在:用傳統(tǒng)“基于鏈的強(qiáng)化學(xué)習(xí)”訓(xùn)練大語(yǔ)言模型智能體,成本極高,且在長(zhǎng)時(shí)程任務(wù)中效果差——根源是“采樣冗余”和“獎(jiǎng)勵(lì)稀疏”。
  • 解決方案:Tree-GRPO 用“樹(shù)搜索采樣”替代“鏈?zhǔn)杰壽E展開(kāi)”,軌跡共享“公共前綴”;樹(shù)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)完整的“思考-行動(dòng)-觀(guān)察”步驟。
  • 雙重優(yōu)勢(shì):這種樹(shù)結(jié)構(gòu)(1)效率極高,大幅降低 tokens 和工具調(diào)用成本;(2)自然生成“過(guò)程監(jiān)督”——通過(guò)對(duì)比不同分支,無(wú)需額外標(biāo)注即可獲得“步驟級(jí)偏好信號(hào)”。
  • 實(shí)驗(yàn)結(jié)果:Tree-GRPO 顯著優(yōu)于基于鏈的方法,尤其在“小模型”和“低預(yù)算”場(chǎng)景中;它能用“四分之一的計(jì)算成本”實(shí)現(xiàn)“更優(yōu)性能”。
  • 深遠(yuǎn)影響:這項(xiàng)工作不僅提升了性能,更培養(yǎng)了“更聰明、更具堅(jiān)持性的智能體”——它們學(xué)習(xí)的是“問(wèn)題解決的過(guò)程”;它讓“復(fù)雜智能體人工智能的開(kāi)發(fā)”變得對(duì)所有人更易獲取。

構(gòu)建“真正自主、實(shí)用的人工智能體”是一段漫長(zhǎng)的旅程,充滿(mǎn)復(fù)雜挑戰(zhàn)。但像 Tree-GRPO 這樣的創(chuàng)新,讓前進(jìn)的道路變得清晰。未來(lái)并非“一條直線(xiàn)”,而是“分支不斷擴(kuò)展、可能性持續(xù)增多的樹(shù)”。而現(xiàn)在,我們終于有了“從每一個(gè)分支中學(xué)習(xí)”的方法。

你怎么看?這是否是“讓智能體人工智能開(kāi)發(fā)民主化”的突破性成果?歡迎在評(píng)論區(qū)分享你的想法。

參考文獻(xiàn)

Ji, Y., Ma, Z., Wang, Y., Chen, G., Chu, X., & Wu, L. (2025). Tree Search for LLM Agent Reinforcement Learning. arXiv:2509.21240v1.    

??https://medium.com/@jenray1986/from-chains-to-canopies-why-tree-search-is-the-reinforcement-learning-revolution-llm-agents-were-83fd5d6b6614??

本文轉(zhuǎn)載自AIGC深一度,作者:tangbasky

標(biāo)簽
已于2025-9-28 06:50:54修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧洲亚洲在线视频| 久久久加勒比| 欧洲激情视频| 夜夜嗨av一区二区三区网页 | 欧美tickling网站挠脚心| 日韩国产美国| 天天干天天干天天| 免费在线播放电影| 亚洲色图网站| 337p亚洲精品色噜噜狠狠| 日韩福利影院| 成人久久久精品国产乱码一区二区 | 欧美一区二区久久| 亚洲午夜精品国产| 久久久精品毛片| 国产成人一区| 日韩欧美国产激情| 欧美国产一二三区| 午夜婷婷在线观看| 欧美韩国一区| 日韩久久免费av| 天堂а√在线中文在线| 国产精品高潮呻吟av| 国产精品国产三级国产在线观看| 在线观看精品一区| 色噜噜狠狠一区二区三区| 国产suv精品一区二区33| 欧美久久一级| 亚洲第一中文字幕在线观看| 欧日韩免费视频| 亚洲av激情无码专区在线播放| 在线日韩中文| 亚洲人成电影在线| 日本超碰在线观看| 97影院秋霞午夜在线观看| 国产成人午夜视频| 久久久久久尹人网香蕉| 久久国产精品无码一级毛片| 在线一区av| 日本一区二区高清| 91精品美女在线| www.99re7| 欧美成人午夜77777| 一本久久a久久精品亚洲| 日韩国产精品一区二区三区| 婷婷综合激情网| 成人听书哪个软件好| 欧美在线视频播放| 国产乡下妇女做爰| 国内精品视频在线观看 | 日本中文字幕一区二区有码在线 | 精品无码久久久久国产| 久久国产黄色片| 在线欧美亚洲| 亚洲天堂av综合网| 成人国产精品久久久网站| 日韩美女在线| 亚洲成人午夜影院| 日本一区二区三区四区高清视频 | 精品av久久707| 欧美日韩在线中文| 国产黄色在线观看| 久久久综合九色合综国产精品| 国产精品中文字幕在线观看| 激情小说中文字幕| 精品国产成人| 中文国产成人精品| 欧美大喷水吹潮合集在线观看| 另类中文字幕国产精品| 一区二区三区欧美久久| 欧美精品一区在线| 国产精品一级伦理| 成人app下载| 91精品久久久久久久久久| 日韩欧美激情视频| 欧美jjzz| 91av在线播放| 欧美精品一区二区蜜桃| 国产一区二区中文| xxxx欧美18另类的高清| 黄色性生活一级片| 欧美日韩在线二区| 久久精品亚洲一区| 美女100%无挡| 精品国内亚洲2022精品成人| 91精品国产一区二区三区| 特黄特黄一级片| 免费成人高清在线视频| 在线播放中文字幕一区| www.xxx亚洲| 岛国在线视频网站| 亚洲一区二三区| aaa免费在线观看| 福利在线午夜| 一区二区三区色| 男人的天堂99| 女海盗2成人h版中文字幕| 亚洲乱码国产乱码精品精98午夜 | 欧美日韩一区不卡| 成人免费观看毛片| 国产成人免费av一区二区午夜| 在线视频一区二区三区| 在线黄色免费看| 粉嫩91精品久久久久久久99蜜桃| 色婷婷久久久久swag精品| 欧美精品 - 色网| 亚洲狼人在线| 欧美情侣在线播放| 国产福利在线免费| 国产suv精品一区二区四区视频| 在线播放日韩导航| 中文字幕在线永久| 羞羞色午夜精品一区二区三区| 日韩在线小视频| 大地资源高清在线视频观看| 欧美hd在线| 久久国产精彩视频| 欧美日韩在线视频免费播放| 欧美精选一区| 国产精品视频网址| 国产精品久久久久久无人区| 91色婷婷久久久久合中文| 久久久久久国产精品免费免费| 香蕉久久一区二区三区| 亚洲男人天堂一区| 亚洲人成无码www久久久| 亚洲承认视频| 欧美性猛片aaaaaaa做受| 三级a三级三级三级a十八发禁止| 国产伊人久久| 亚洲人成网在线播放| 日韩伦人妻无码| 国产黄色精品网站| 日韩 欧美 自拍| 成人亚洲综合| 一区二区三区日韩在线| 国产又色又爽又高潮免费| 91精品秘密在线观看| 国产精品爽爽ⅴa在线观看| 日韩在线观看视频一区| 26uuu精品一区二区在线观看| 嫩草影院中文字幕| 亚洲人体视频| 欧美日韩精品一区视频| 妖精视频在线观看免费| 亚洲欧美日韩高清在线| 国产精品专区一| 国产福利电影在线| 色8久久精品久久久久久蜜| 激情黄色小视频| 日韩欧美1区| 欧美激情视频网址| 亚洲欧美一二三区| 久久久精品国产免大香伊| 中文字幕欧美日韩一区二区| 国产区美女在线| 欧美性感一类影片在线播放| 一本加勒比北条麻妃| 在线一区电影| 99国产超薄丝袜足j在线观看| 日本韩国一区| 色偷偷88欧美精品久久久| 亚洲熟妇无码av| 日韩在线a电影| 国产伦精品一区二区三区免 | 久久人人爽人人爽人人片亚洲| 亚洲性生活大片| av成人动漫在线观看| 亚洲永久一区二区三区在线| 黄色欧美视频| 欧美成aaa人片免费看| 亚洲精品一区二区三区新线路| 久久老女人爱爱| 在线免费视频a| 老司机aⅴ在线精品导航 | 久久免费激情视频| 国产乱码精品一品二品| 日本一区二区三区视频在线观看| 成人午夜一级| 色综合视频一区中文字幕| 天堂中文在线官网| 一区二区高清免费观看影视大全| 人妻av一区二区三区| 首页国产精品| aa成人免费视频| 午夜影视一区二区三区| 亚洲欧美在线磁力| 国产精品一级二级| 精品国产成人在线| 亚洲成a人无码| 91欧美在线| 国产精品加勒比| av有声小说一区二区三区| 日韩av在线精品| 日本三级免费看| 中文字幕免费观看一区| 黄页网站在线看| 欧美午夜在线| 日本一区高清在线视频| 视频精品一区| 色综合色综合久久综合频道88| 欧美孕妇孕交| 日韩久久久久久| 亚洲网站在线免费观看| 婷婷成人激情在线网| 91麻豆免费视频网站| 国产精品99久久不卡二区| 国产精品一色哟哟| 久久影视三级福利片| 国产在线日韩在线| 中文字幕这里只有精品| 欧美精品在线播放| 一级毛片视频在线| 欧美精品色综合| 亚洲精品中文字幕乱码三区91| 久久综合99re88久久爱| 亚洲va在线va天堂va偷拍| 久久精品男女| 亚洲国产一区二区在线| 国产精品日本一区二区不卡视频 | 亚洲欧美自拍视频| 亚洲一区二区三区影院| 国产色无码精品视频国产| 久久久精品免费观看| 日韩aaaaa| 久久精品毛片| 国产深夜男女无套内射| 亚洲精品**不卡在线播he| 国产成人97精品免费看片| 3p视频在线观看| 日韩一级视频免费观看在线| 福利一区二区三区四区| 亚洲同性同志一二三专区| 稀缺呦国内精品呦| 国产精品一二三在| 天天综合成人网| 国产真实乱偷精品视频免| 国产玉足脚交久久欧美| 综合亚洲视频| 一级特黄妇女高潮| 乱亲女h秽乱长久久久| 999视频在线免费观看| 麻豆免费在线| 91sa在线看| 在线中文字幕播放| 97av在线视频| 最新日韩精品| 国产成人精品在线| jvid一区二区三区| 91精品美女在线| 日韩精品一区二区三区中文| 99re在线播放| 久久婷婷国产| 久久综合福利| 爱爱精品视频| 国产日韩欧美日韩| 亚洲欧美综合久久久久久v动漫| 国产精品私拍pans大尺度在线| 欧美成人毛片| 2019国产精品视频| heyzo欧美激情| 久久久人人爽| 成人亚洲一区| 好吊色欧美一区二区三区 | 91精品国产乱码在线观看| 粉嫩老牛aⅴ一区二区三区| 国产午夜精品理论片| 一区二区三区在线观看视频| 国产亚洲色婷婷久久99精品| 国产精品美女久久久久久2018| 看全色黄大色黄女片18| 久久精品国产77777蜜臀| 久久久久久久久久福利| 奇米影视一区二区三区小说| 国产美女无遮挡网站| 久久国产精品毛片| www亚洲成人| 成人一区在线看| 99久久精品免费视频| 亚洲视频每日更新| 欧美福利视频一区二区| 欧美性感一类影片在线播放| 精品人妻无码一区二区| 精品视频123区在线观看| a级片在线免费看| 制服丝袜中文字幕一区| 天堂在线视频观看| 日韩在线视频免费观看高清中文| 欧美wwww| 国产精品亚洲精品| 久久综合另类图片小说| 一本色道久久99精品综合| 99riav国产精品| 国产人妻777人伦精品hd| 日本欧美加勒比视频| 在线观看亚洲免费视频| 国产精品国模大尺度视频| 久久久免费看片| 欧美国产日本韩| 国产精品99精品| 午夜精彩视频在线观看不卡| 久久久久久久久久久网| 在线观看亚洲成人| 黄色片一区二区三区| 综合久久五月天| 午夜久久中文| 国产精品乱码一区二区三区| 日韩精品91| 黄色片一级视频| 成人午夜免费电影| 午夜精品一区二区三级视频| 91福利在线导航| 日韩一区av| 久久久久久久久久久av| 激情视频亚洲| 国产日韩欧美亚洲一区| 日韩精品福利一区二区三区| 久久国产精品一区二区三区| 亚洲欧洲日韩| 中文字幕第100页| 国产日本一区二区| 成人午夜精品无码区| 亚洲欧美乱综合| 一区二区三区精彩视频| 日韩欧美一二区| 欧美激情视频在线播放| 久久天天躁狠狠躁夜夜躁| 欧美xxxx免费虐| av一区二区三区免费| 91精品国偷自产在线电影 | av一区二区三区免费观看| 国产自产视频一区二区三区| 综合 欧美 亚洲日本| 欧美在线观看禁18| 福利成人在线观看| 国产精品黄色av| 久久久久毛片免费观看| 正在播放亚洲| 激情久久五月天| 精品国产av色一区二区深夜久久 | 欧洲熟妇精品视频| 国产三级一区二区| 中文字幕av久久爽| 欧美成人乱码一区二区三区| 黄网址在线观看| 3344国产精品免费看| 日韩有码欧美| 吴梦梦av在线| 国产美女主播视频一区| 欧美精品成人久久| 亚洲第一中文字幕| 国产精欧美一区二区三区蓝颜男同| 精品伦精品一区二区三区视频| 在线亚洲激情| 精品欧美一区二区久久久| 在线亚洲精品福利网址导航| 色影视在线观看| a级国产乱理论片在线观看99| 亚洲精品1区2区| 一区二区三区四区免费| 欧美嫩在线观看| 欧美韩日亚洲| 精品欧美一区二区精品久久| 久久亚洲精选| 精品人妻在线视频| 欧美特黄级在线| 日本中文在线观看| 成人免费观看网站| 99久久精品费精品国产风间由美 | 亚洲手机在线观看| 欧美裸体xxxx极品少妇| 欧美激情福利| 欧美少妇在线观看| 精品一区免费av| 免费一级黄色录像| 日韩一区二区三区视频在线| 91在线三级| av日韩中文字幕| 久久这里只有| 18岁成人毛片| 亚洲人成在线观看网站高清| 国产精品18| 男人揉女人奶房视频60分| 中文字幕永久在线不卡| 日韩一级片免费看| 91精品久久久久久久久久入口| 亚洲精品视频啊美女在线直播| 免费看日本黄色片| 精品91自产拍在线观看一区| 一二区成人影院电影网| 青草网在线观看| 久久久精品tv| 精品国产av一区二区| 国产精品都在这里| 亚洲国产99| 1024手机在线视频| 中文字幕精品一区久久久久| 国产成人澳门| 亚洲欧美日韩综合网| 欧美日韩在线免费|