LLM強(qiáng)化學(xué)習(xí)新框架！UCSD多智能體訓(xùn)練框架讓LLM工具調(diào)用能力暴增5.8倍

2025-11-10 04:15:00

在大語言模型（LLM）智能體的各種任務(wù)中，已有大量研究表明在各領(lǐng)域下的多智能體工作流在未經(jīng)訓(xùn)練的情況下就能相對單智能體有顯著提升。但是現(xiàn)有的LLM智能體訓(xùn)練框架都是針對單智能體的，多智能體的“群體強(qiáng)化”仍是一個亟須解決的問題。

大語言模型智能體的強(qiáng)化學(xué)習(xí)框架, 首次實(shí)現(xiàn)了通用的多智能體的“群體強(qiáng)化”。

在大語言模型（LLM）智能體的各種任務(wù)中，已有大量研究表明在各領(lǐng)域下的多智能體工作流在未經(jīng)訓(xùn)練的情況下就能相對單智能體有顯著提升。

但是現(xiàn)有的LLM智能體訓(xùn)練框架都是針對單智能體的，多智能體的“群體強(qiáng)化”仍是一個亟須解決的問題。

為了解決這一領(lǐng)域的研究痛點(diǎn)，來自UCSD和英特爾的研究人員，提出了新的提出通用化多智能體強(qiáng)化學(xué)習(xí)框架——PettingLLMs。支持任意組合的多個LLM一起訓(xùn)練。

圖片

研究背景

大語言模型驅(qū)動的多智能體系統(tǒng)在醫(yī)療、編程、科研、具身智能等多個領(lǐng)域均能大幅度提升任務(wù)表現(xiàn)。

為訓(xùn)練大模型智能體，Group Relative Policy Optimization (GRPO) 已被驗(yàn)證為通用的有效強(qiáng)化學(xué)習(xí)算法。然而，當(dāng)前所有針對LLM的強(qiáng)化學(xué)習(xí)訓(xùn)練框架，包括GRPO算法本身，都局限于單智能體訓(xùn)練的范疇。多智能體間的協(xié)作優(yōu)化，即“群體強(qiáng)化”的學(xué)習(xí)機(jī)制，仍然是一個亟待填補(bǔ)的空白。

GRPO算法的核心機(jī)制是，針對同一個輸入（prompt），通過多次采樣生成一組候選回答。隨后，算法在組內(nèi)對這些回答進(jìn)行評估（例如，通過一個獎勵模型），并計算它們之間的相對優(yōu)勢。

這種優(yōu)勢計算的有效性與公平性依賴于一個關(guān)鍵假設(shè)——組內(nèi)所有用于比較的候選回答，都必須基于一個完全相同的上下文（即prompt）生成。

然而，將GRPO直接應(yīng)用于多智能體（multi-agent）多輪（multi-turn）環(huán)境中存在一個核心困難。

在多智能體場景下，即使是針對同一個初始問題，不同智能體在不同輪次接收到的prompt差異顯著。

例如（如圖所示），一個負(fù)責(zé)編程的智能體，其在第二輪的prompt不僅包含原始問題，還可能融合了第一輪中自己生成的代碼以及其他智能體生成的單元測試。

圖片

因此，如果在MA環(huán)境中仍然簡單地將同一個初始問題產(chǎn)生的所有（跨輪次、跨智能體的）回答視為一個“group”來進(jìn)行優(yōu)勢計算，這就直接違反了GRPO所要求的“共同prompt”的核心假設(shè)。

這導(dǎo)致組內(nèi)的優(yōu)勢計算基準(zhǔn)不統(tǒng)一，使得計算結(jié)果不再公平或有效。

所以核心問題就是，如何既保證每個組內(nèi)有一定批次量的回答，又能保證優(yōu)勢計算的公平。

方法概述

作者提出了一種greedy-search的樹狀采樣方法。

每輪次每個agent形成一個節(jié)點(diǎn)進(jìn)行K個分支，在分支以后選擇此時reward最高的agent進(jìn)行下一次分支。這樣能夠讓多智能體訓(xùn)練能平衡好探索（exploration）與利用(exploitation)。

每一個agent的獎勵函數(shù)都考慮自身角色的獎勵和全局任務(wù)的獎勵來保證角色專屬能力和合作能力的進(jìn)化。

圖片

對于多智能體的強(qiáng)化學(xué)習(xí)進(jìn)化的另一個面臨一個核心的策略問題：在何種任務(wù)下，讓模型進(jìn)化成不同角色的“專屬模型”（specialized models）？又在何種任務(wù)下，讓所有智能體共享一個“通用模型”（shared model）會更優(yōu)？

為了實(shí)現(xiàn)兩種不同的訓(xùn)練模式，作者搭建了如圖所示的異步分發(fā)訓(xùn)練系統(tǒng)。

圖片

系統(tǒng)中的路由模塊負(fù)責(zé)收集多智能體系統(tǒng)在環(huán)境中交互產(chǎn)生的軌跡數(shù)據(jù)。

專屬模型模式下，系統(tǒng)可以配置多個獨(dú)立的模型資源池（如圖中的池i和池j）。路由模塊會將智能體i的數(shù)據(jù)批次僅發(fā)送給池i的更新單元，專門更新模型i；同時將智能體j的數(shù)據(jù)批次發(fā)送給池j的更新單元，獨(dú)立更新模型j。

而在共享模型模式中，相對地，路由模塊也可以將所有智能體的軌跡數(shù)據(jù)合并，并全部發(fā)送給同一個模型資源池的更新單元，以集中更新一個共享模型。

通用的多智能體強(qiáng)化學(xué)習(xí)框架：PettingLLMs

基于該項(xiàng)研究，作者開源了通用的多智能體強(qiáng)化學(xué)習(xí)框架，使得多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練開發(fā)變得敏捷、簡潔、優(yōu)雅。

在作者現(xiàn)有的系統(tǒng)上搭建環(huán)境開發(fā)只需要任務(wù)特有的agent的交互和獎勵函數(shù)。同時，作者也給環(huán)境開發(fā)設(shè)計建立了詳細(xì)的環(huán)境開發(fā)教程。
已有的環(huán)境也已經(jīng)包括了主流的agent任務(wù)比如數(shù)學(xué)、code、游戲等。
該框架支持不同模型和agent之間的任意映射。也支持每個agent適配不同的lora的方式。

實(shí)驗(yàn)效果

在推箱子這種長規(guī)劃任務(wù)中，通過AT-GRPO訓(xùn)練，兩個agent都得到了強(qiáng)化，任務(wù)性能從14%提升至96%。

圖片

作者在Qwen3-1.7B與Qwen3-8B兩個規(guī)模上開展了大規(guī)模實(shí)驗(yàn)，覆蓋規(guī)劃（Sokoban、Plan-Path）、代碼（LiveCodeBench、APPS、CodeContests）與數(shù)學(xué)（AIME24/25、OlympiadBench）三大類任務(wù)。

圖片

實(shí)驗(yàn)結(jié)果表明：

規(guī)劃類任務(wù)中，Sokoban從14%提升至96%，Plan-Path從47%提升至99.5%；
代碼生成任務(wù)中，LiveCodeBench提升+6.1%，APPS+4.2%，CodeContests+7.0%；
數(shù)學(xué)推理中，AIME 24提升+9.0%，AIME 25提升+17.9%。

圖片

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了關(guān)鍵設(shè)計——

只在單智能體（SA）里訓(xùn)練，收益有限：把規(guī)劃/工具等子角色各自放在 SA 環(huán)境里訓(xùn)練，單看各自指標(biāo)會從 5.0% 提到11.0%/14.5%，但放回MAS聯(lián)合作業(yè)僅到16.0%。

互換角色策略會“崩盤”：把已經(jīng)學(xué)成的兩個角色策略對調(diào)，準(zhǔn)確率從96.0%→6.0%，說明兩位“隊(duì)友”學(xué)到的是互補(bǔ)但不可替代的能力。

協(xié)同越來越順、回合越來越少：訓(xùn)練過程中兩位代理的學(xué)習(xí)回報同步上升，任務(wù)所需平均回合數(shù)持續(xù)下降——體現(xiàn)出更緊密的對齊與分工協(xié)作。

圖片

PettingLLMs通過支持通用的多智能體強(qiáng)化學(xué)習(xí)算法，讓多智能體一起學(xué)習(xí)一起進(jìn)化，實(shí)現(xiàn)了跨任務(wù)、跨規(guī)模的通用強(qiáng)化學(xué)習(xí)算法。

論文：https://huggingface.co/papers/2510.11062
GitHub：https://github.com/pettingllms-ai/PettingLLMs

責(zé)任編輯：武曉燕來源：量子位

LLM 多智能體訓(xùn)練框架