精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM強(qiáng)化學(xué)習(xí)新框架!UCSD多智能體訓(xùn)練框架讓LLM工具調(diào)用能力暴增5.8倍

人工智能
在大語言模型(LLM)智能體的各種任務(wù)中,已有大量研究表明在各領(lǐng)域下的多智能體工作流在未經(jīng)訓(xùn)練的情況下就能相對單智能體有顯著提升。 但是現(xiàn)有的LLM智能體訓(xùn)練框架都是針對單智能體的,多智能體的“群體強(qiáng)化”仍是一個亟須解決的問題。

大語言模型智能體的強(qiáng)化學(xué)習(xí)框架, 首次實(shí)現(xiàn)了通用的多智能體的“群體強(qiáng)化”。

在大語言模型(LLM)智能體的各種任務(wù)中,已有大量研究表明在各領(lǐng)域下的多智能體工作流在未經(jīng)訓(xùn)練的情況下就能相對單智能體有顯著提升。

但是現(xiàn)有的LLM智能體訓(xùn)練框架都是針對單智能體的,多智能體的“群體強(qiáng)化”仍是一個亟須解決的問題。

為了解決這一領(lǐng)域的研究痛點(diǎn),來自UCSD和英特爾的研究人員,提出了新的提出通用化多智能體強(qiáng)化學(xué)習(xí)框架——PettingLLMs。支持任意組合的多個LLM一起訓(xùn)練。

圖片圖片

研究背景

大語言模型驅(qū)動的多智能體系統(tǒng)在醫(yī)療、編程、科研、具身智能等多個領(lǐng)域均能大幅度提升任務(wù)表現(xiàn)。

為訓(xùn)練大模型智能體,Group Relative Policy Optimization (GRPO) 已被驗(yàn)證為通用的有效強(qiáng)化學(xué)習(xí)算法。然而,當(dāng)前所有針對LLM的強(qiáng)化學(xué)習(xí)訓(xùn)練框架,包括GRPO算法本身,都局限于單智能體訓(xùn)練的范疇。多智能體間的協(xié)作優(yōu)化,即“群體強(qiáng)化”的學(xué)習(xí)機(jī)制,仍然是一個亟待填補(bǔ)的空白。

GRPO算法的核心機(jī)制是,針對同一個輸入(prompt),通過多次采樣生成一組候選回答。隨后,算法在組內(nèi)對這些回答進(jìn)行評估(例如,通過一個獎勵模型),并計算它們之間的相對優(yōu)勢。

這種優(yōu)勢計算的有效性與公平性依賴于一個關(guān)鍵假設(shè)——組內(nèi)所有用于比較的候選回答,都必須基于一個完全相同的上下文(即prompt)生成。

然而,將GRPO直接應(yīng)用于多智能體(multi-agent)多輪(multi-turn)環(huán)境中存在一個核心困難。

在多智能體場景下,即使是針對同一個初始問題,不同智能體在不同輪次接收到的prompt差異顯著。

例如(如圖所示),一個負(fù)責(zé)編程的智能體,其在第二輪的prompt不僅包含原始問題,還可能融合了第一輪中自己生成的代碼以及其他智能體生成的單元測試。

圖片圖片

因此,如果在MA環(huán)境中仍然簡單地將同一個初始問題產(chǎn)生的所有(跨輪次、跨智能體的)回答視為一個“group”來進(jìn)行優(yōu)勢計算,這就直接違反了GRPO所要求的“共同prompt”的核心假設(shè)。

這導(dǎo)致組內(nèi)的優(yōu)勢計算基準(zhǔn)不統(tǒng)一,使得計算結(jié)果不再公平或有效。

所以核心問題就是,如何既保證每個組內(nèi)有一定批次量的回答,又能保證優(yōu)勢計算的公平。

方法概述

作者提出了一種greedy-search的樹狀采樣方法。

每輪次每個agent形成一個節(jié)點(diǎn)進(jìn)行K個分支,在分支以后選擇此時reward最高的agent進(jìn)行下一次分支。這樣能夠讓多智能體訓(xùn)練能平衡好探索(exploration)與利用(exploitation)。

每一個agent的獎勵函數(shù)都考慮自身角色的獎勵和全局任務(wù)的獎勵來保證角色專屬能力和合作能力的進(jìn)化。

圖片圖片

對于多智能體的強(qiáng)化學(xué)習(xí)進(jìn)化的另一個面臨一個核心的策略問題:在何種任務(wù)下,讓模型進(jìn)化成不同角色的“專屬模型”(specialized models)?又在何種任務(wù)下,讓所有智能體共享一個“通用模型”(shared model)會更優(yōu)?

為了實(shí)現(xiàn)兩種不同的訓(xùn)練模式,作者搭建了如圖所示的異步分發(fā)訓(xùn)練系統(tǒng)。

圖片圖片

系統(tǒng)中的路由模塊負(fù)責(zé)收集多智能體系統(tǒng)在環(huán)境中交互產(chǎn)生的軌跡數(shù)據(jù)。

專屬模型模式下,系統(tǒng)可以配置多個獨(dú)立的模型資源池(如圖中的池i和池j)。路由模塊會將智能體i的數(shù)據(jù)批次僅發(fā)送給池i的更新單元,專門更新模型i;同時將智能體j的數(shù)據(jù)批次發(fā)送給池j的更新單元,獨(dú)立更新模型j。

而在共享模型模式中,相對地,路由模塊也可以將所有智能體的軌跡數(shù)據(jù)合并,并全部發(fā)送給同一個模型資源池的更新單元,以集中更新一個共享模型。

通用的多智能體強(qiáng)化學(xué)習(xí)框架:PettingLLMs

基于該項(xiàng)研究,作者開源了通用的多智能體強(qiáng)化學(xué)習(xí)框架,使得多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練開發(fā)變得敏捷、簡潔、優(yōu)雅。

  • 在作者現(xiàn)有的系統(tǒng)上搭建環(huán)境開發(fā)只需要任務(wù)特有的agent的交互和獎勵函數(shù)。同時,作者也給環(huán)境開發(fā)設(shè)計建立了詳細(xì)的環(huán)境開發(fā)教程。
  • 已有的環(huán)境也已經(jīng)包括了主流的agent任務(wù)比如數(shù)學(xué)、code、游戲等。
  • 該框架支持不同模型和agent之間的任意映射。也支持每個agent適配不同的lora的方式。

實(shí)驗(yàn)效果

在推箱子這種長規(guī)劃任務(wù)中,通過AT-GRPO訓(xùn)練,兩個agent都得到了強(qiáng)化,任務(wù)性能從14%提升至96%。

圖片圖片

作者在Qwen3-1.7B與Qwen3-8B兩個規(guī)模上開展了大規(guī)模實(shí)驗(yàn),覆蓋規(guī)劃(Sokoban、Plan-Path)、代碼(LiveCodeBench、APPS、CodeContests)與數(shù)學(xué)(AIME24/25、OlympiadBench)三大類任務(wù)。

圖片圖片

實(shí)驗(yàn)結(jié)果表明:

  • 規(guī)劃類任務(wù)中,Sokoban從14%提升至96%,Plan-Path從47%提升至99.5%;
  • 代碼生成任務(wù)中,LiveCodeBench提升+6.1%,APPS+4.2%,CodeContests+7.0%;
  • 數(shù)學(xué)推理中,AIME 24提升+9.0%,AIME 25提升+17.9%。

圖片圖片

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了關(guān)鍵設(shè)計——

只在單智能體(SA)里訓(xùn)練,收益有限:把規(guī)劃/工具等子角色各自放在 SA 環(huán)境里訓(xùn)練,單看各自指標(biāo)會從 5.0% 提到11.0%/14.5%,但放回MAS聯(lián)合作業(yè)僅到16.0%。

互換角色策略會“崩盤”:把已經(jīng)學(xué)成的兩個角色策略對調(diào),準(zhǔn)確率從96.0%→6.0%,說明兩位“隊(duì)友”學(xué)到的是互補(bǔ)但不可替代的能力。

協(xié)同越來越順、回合越來越少:訓(xùn)練過程中兩位代理的學(xué)習(xí)回報同步上升,任務(wù)所需平均回合數(shù)持續(xù)下降——體現(xiàn)出更緊密的對齊與分工協(xié)作。

圖片圖片

PettingLLMs通過支持通用的多智能體強(qiáng)化學(xué)習(xí)算法,讓多智能體一起學(xué)習(xí)一起進(jìn)化,實(shí)現(xiàn)了跨任務(wù)、跨規(guī)模的通用強(qiáng)化學(xué)習(xí)算法。

論文:https://huggingface.co/papers/2510.11062
GitHub:https://github.com/pettingllms-ai/PettingLLMs

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-03-28 10:16:15

2024-09-30 14:40:00

AI強(qiáng)化學(xué)習(xí)框架

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開發(fā)

2025-05-28 02:25:00

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2021-07-22 15:25:14

開源技術(shù) 框架

2025-03-21 13:00:54

2025-10-11 04:00:00

2023-08-28 06:52:29

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2023-05-05 17:49:23

2025-09-11 06:57:11

2025-04-21 09:10:00

2025-03-20 14:18:57

AI算法模型

2025-09-11 13:46:59

2020-06-30 09:54:30

框架AI開發(fā)

2023-09-22 07:23:50

Alice模型任務(wù)

2025-06-09 09:32:35

2025-08-29 07:47:54

2025-10-10 08:33:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

eeuss一区二区三区| 国产亚洲精品久久久久动| 色欲色香天天天综合网www| 天堂网在线观看视频| 日本aⅴ精品一区二区三区| 久久精品视频网站| 成人免费无码大片a毛片| 国产精品无码久久久久| 亚洲风情在线资源站| 日本中文不卡| 亚洲a视频在线观看| 男女精品网站| 欧美激情18p| 亚洲高清色综合| 成人小视频在线观看免费| 加勒比一区二区三区在线| 国产精品一级在线| 国产精品精品视频一区二区三区| 清纯粉嫩极品夜夜嗨av| 欧美日韩伦理| 日韩av在线免费| 污视频网址在线观看| 欧美调教sm| 一区二区三区在线免费播放| 日韩欧美第二区在线观看| 乱精品一区字幕二区| 久久精品国产免费看久久精品| 欧美亚洲视频在线观看| 激情五月婷婷在线| 99久久视频| 亚洲欧美国产另类| 稀缺小u女呦精品呦| 日韩三区四区| 欧美性大战xxxxx久久久| koreanbj精品视频一区| 丰乳肥臀在线| 亚洲精品免费一二三区| 亚洲日本无吗高清不卡| 国产在线一二三| 2023国产精品自拍| 久久66热这里只有精品| 空姐吹箫视频大全| 成人亚洲一区二区一| 亚洲综合av影视| 国产精品久久久久久久久毛片 | 久久精品视频在线播放| 69xxx免费| 久久理论电影| www.日本久久久久com.| chinese全程对白| 999久久久精品国产| 国产亚洲一区二区三区啪| 欧美视频你懂的| 人人干人人干人人| 国产精品66| 7777精品伊人久久久大香线蕉的| 亚洲va在线va天堂va偷拍| av日韩久久| 日韩欧美高清在线| 亚洲一级Av无码毛片久久精品| 国产精品毛片视频| 日韩精品亚洲精品| 偷拍夫妻性生活| 日韩成人a**站| 久久精品国产成人| 欧美日韩一级在线观看| 亚洲精品1区2区| 日本一区二区三区四区视频| 无码人妻av免费一区二区三区| 日韩高清一区二区| 成人美女av在线直播| av观看在线免费| av网站一区二区三区| 欧美一区二区三区成人久久片| aaa在线观看| 亚洲欧美日韩久久| 精品无码一区二区三区在线| jizz内谢中国亚洲jizz| 欧美性生活大片视频| 免费网站在线观看黄| jizz18欧美18| 亚洲欧美色图片| 青青青视频在线播放| 综合久久综合| 国产91精品久久久| 中文字幕日本视频| 国产福利一区二区三区视频| 久久久精品动漫| 日本在线视频网| 亚洲午夜电影在线观看| 午夜欧美福利视频| 欧美另类中文字幕| 精品视频久久久| 一区二区三区四区五区| 亚洲激情欧美| 成人午夜一级二级三级| 天天干天天干天天干天天干天天干| 国产v日韩v欧美v| 欧美视频一区二区| 黄色av电影网站| 国产一区二区观看| 久久噜噜噜精品国产亚洲综合| 日韩手机在线视频| 国产91精品久久久久久久网曝门| 欧美系列一区| 国产区美女在线| 在线精品国精品国产尤物884a| 亚洲熟女一区二区三区| 青青草国产成人a∨下载安卓| 久久久久久久久久久网站| 中文字幕 国产| 91亚洲精华国产精华精华液| 看一级黄色录像| www.久久.com| 亚洲精品综合精品自拍| 久久久久免费看| 久久精品噜噜噜成人av农村| 久久涩涩网站| 国产精品69xx| 日韩午夜在线观看视频| 337人体粉嫩噜噜噜| 亚洲中字黄色| 国产伦精品一区二区三区视频黑人 | 亚洲欧美中文在线视频| 国产精彩视频在线| 国产激情视频一区二区在线观看| 亚洲国产日韩欧美| 神马久久资源| 国产视频综合在线| aaa人片在线| bt7086福利一区国产| 欧美a级免费视频| aa亚洲一区一区三区| 日韩在线小视频| 中文字幕一区2区3区| 国产午夜精品在线观看| 欧美综合在线观看视频| 青青一区二区| 2018日韩中文字幕| 午夜视频福利在线| 日韩三级不卡| 亚洲精品视频免费在线观看| 日产精品久久久久| 成人免费高清在线| 国产无限制自拍| 老牛影视av一区二区在线观看| 欧美精品激情视频| 三级网站在线看| 午夜伊人狠狠久久| 人妻av一区二区| 亚洲一区二区三区高清不卡| 久久精品日产第一区二区三区乱码 | av电影中文字幕| 综合久久精品| 国产精品久久久久久久久久久久午夜片 | 欧美大胆在线视频| 亚洲AV无码一区二区三区少妇| 亚洲三级在线观看| 波多野结衣电影免费观看| 你懂的亚洲视频| 国产福利久久| 中文字幕成在线观看| 亚洲小视频在线| 一区二区国产欧美| 一区二区三区在线观看动漫| 男男一级淫片免费播放| 另类天堂av| 亚洲最大色综合成人av| 欧美久久一区二区三区| 久久久人成影片一区二区三区观看 | a一区二区三区| 日韩视频免费看| 亚洲免费成人网| 日韩欧美国产高清91| 欧日韩不卡视频| 粉嫩高潮美女一区二区三区| 国产91对白刺激露脸在线观看| 欧美色女视频| www 成人av com| 午夜无码国产理论在线| 久久久91精品国产| 日本10禁啪啪无遮挡免费一区二区| 国产在线观看免费网站| 91精品国产综合久久久久久漫画| 青青草免费av| 国产午夜一区二区三区| 欧美性受xxxx黒人xyx性爽| 亚洲国产激情| 亚洲综合av一区| 久久精品福利| 国产日韩精品电影| caoporn视频在线观看| 国产一区二区三区毛片| 亚洲精品成av人片天堂无码| 91高清视频在线| 精品无码一区二区三区电影桃花 | 黄色录像一级片| 99re8在线精品视频免费播放| 最新天堂中文在线| 亚洲作爱视频| 永久免费看av| 欧美三级伦理在线| 国产欧美丝袜| 国产精品一区二区三区www| 茄子视频成人在线| 污视频网站在线免费| 一本大道久久加勒比香蕉| 欧美自拍第一页| 91麻豆精品国产自产在线观看一区 | 欧美被狂躁喷白浆精品| 中文字幕第一区| 国产精品无码在线| 国产精品资源在线看| 亚洲男人天堂色| 国产精品一页| 国产91xxx| 欧美高清日韩| 黄色www在线观看| 精品久久久久久久| 免费国产在线精品一区二区三区| 日韩欧美中文在线观看| 成人妇女淫片aaaa视频| 在线一区视频观看| 国产成人精品久久二区二区| 欧美sm一区| 国内精品在线一区| 91福利在线尤物| 欧美黑人xxxx| 欧美24videosex性欧美| 99久久精品国产精品久久| 精品欧美一区二区久久久伦| 成人动漫视频在线观看| 国产在线观看精品一区二区三区| 日韩视频网站在线观看| 日韩美女福利视频| 欧美第一视频| 热久久美女精品天天吊色| 成全电影大全在线观看| 欧美激情啊啊啊| 欧美草逼视频| 欧美区在线播放| 黄页网站大全在线免费观看| 欧美巨大黑人极品精男| 91麻豆国产福利在线观看宅福利| 色噜噜狠狠狠综合曰曰曰88av | 蜜桃一区av| 国产欧美一区二区在线播放| 欧美大胆a级| 久久久福利视频| 国产欧美日韩视频在线| 午夜老司机精品| 国产精品99久久| 最新av网址在线观看| 欧美日韩综合| 人妻av中文系列| 香蕉国产精品偷在线观看不卡| 免费在线激情视频| 久久av一区| 在线观看岛国av| 国产91富婆露脸刺激对白| 这里只有精品在线观看视频| 91免费看视频| 女人十八毛片嫩草av| 中文字幕一区二区在线播放 | 亚洲婷婷免费| 国产成人精品视频免费看| 日韩中文字幕区一区有砖一区| 婷婷丁香激情网| 国产一区二区不卡在线| 国产黄色三级网站| 国产精品视频一二三区| 国产精品三区在线观看| 天天做天天摸天天爽国产一区| 国产精品一区无码| 在线不卡一区二区| 丰满人妻一区二区三区四区53| 国产婷婷成人久久av免费高清| 95在线视频| 久久久中文字幕| 澳门av一区二区三区| 91九色视频在线观看| 亚洲调教一区| 波多野结衣三级在线| 在线视频日韩| 亚洲在线观看网站| 26uuu精品一区二区在线观看| 精品国产视频在线| 9191在线| 午夜精品久久久久久99热| 亚洲精品555| 国产伦精品一区二区三| 日韩在线精品| 91成人在线观看喷潮教学| 免费观看在线综合| 中国极品少妇xxxx| 国产精品久久久久久亚洲伦| 日本少妇全体裸体洗澡| 欧美日韩精品高清| 亚洲欧美色视频| 欧美成人一区二区三区电影| 成人性生交大片免费观看网站| 成人久久久久久久| 国产一区二区三区四区二区| 免费特级黄色片| 国内欧美视频一区二区| www.污网站| 欧美韩日一区二区三区| 日韩黄色三级视频| 欧美一区二区三区公司| 成人午夜影视| 欧美壮男野外gaytube| 成人台湾亚洲精品一区二区| 一区二区不卡视频| 日韩高清在线电影| 一二三不卡视频| 亚洲国产视频在线| 99精品视频免费看| 色噜噜狠狠色综合网图区| 欧美最新精品| 欧美久久电影| 国产婷婷精品| 麻豆精品国产传媒av| 亚洲精品国久久99热| 国产精品无码免费播放| 中文字幕亚洲欧美一区二区三区| 亚洲人成午夜免电影费观看| 国产一区福利视频| 在线日韩av| av在线天堂网| 一区二区三区日韩精品视频| 国产精品亚洲欧美在线播放| 日韩一区二区欧美| 国产精品第一国产精品| 亚洲v国产v| 久久99国产乱子伦精品免费| 国产又粗又硬视频| 欧美在线|欧美| 91在线免费看| 国产剧情日韩欧美| 欧美亚洲国产一区| 性生活免费在线观看| 国产精品嫩草影院av蜜臀| 中文字幕日产av| 波霸ol色综合久久| 精品视频在线观看免费观看| 精品少妇人妻av一区二区| 精品一区二区三区免费| 国产在线观看免费视频软件| 欧美精品乱码久久久久久| 又爽又大又黄a级毛片在线视频| 国产精品专区h在线观看| 不卡视频在线| 国产超碰91| free性欧美hd另类精品| 国产精品嫩草影院一区二区| 欧美三级伦理在线| 欧美男女交配视频| 国产精品久久久久四虎| 国产又黄又大又爽| 欧美日韩爱爱视频| 国产伦精品一区二区三区在线播放| 成人免费观看cn| 久久丝袜美腿综合| 一级黄色片免费| 欧美大胆a视频| 日韩av中文字幕一区| 亚洲五月天综合| 中文字幕一区二区三区乱码在线| 999精品国产| 97久久超碰福利国产精品…| 男男gay无套免费视频欧美| 国产高潮免费视频| 亚洲精品福利视频网站| 天堂av资源网| 国产精品国产福利国产秒拍| 久久久久久久久国产一区| 亚洲欧美日韩偷拍| 欧美在线观看视频一区二区| 国产素人视频在线观看| 国内一区在线| 日韩av在线播放中文字幕| 日本黄色片免费观看| 日韩av一区在线| 91国产一区| 国产亚洲欧美在线视频| 中文字幕一区二区三区四区不卡 | 999国产精品一区| 国产一区二区三区精彩视频| 成人免费在线播放视频| 亚洲aⅴ在线观看| 成人免费福利在线| 国产一区二区三区久久| 国产真实乱在线更新| 精品亚洲国产视频| 国产精品一区免费在线| 成年人免费在线播放| 亚洲欧美激情小说另类| 欧洲亚洲精品视频| 俄罗斯精品一区二区| 美女国产一区二区三区|