精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta-Think ≠ 記套路,多智能體強化學習解鎖大模型元思考泛化

人工智能 新聞
大模型復雜推理的能力強弱本質在于元思維能力的強弱。

本文第一作者為上海交通大學計算機科學四年級博士生萬梓煜,主要研究方向為強化學習、基礎模型的復雜推理,通訊作者為上海交通大學人工智能學院溫穎副教授和上海人工智能實驗室胡舒悅老師。團隊其他成員包括來自英屬哥倫比亞大學的共同第一作者李云想、Mark Schmidt 教授,倫敦大學學院的宋研、楊林易和汪軍教授,上海交通大學的溫瀟雨,王翰竟和張偉楠教授。

引言

最近,關于大模型推理的測試時間擴展(Test time scaling law )的探索不斷涌現出新的范式,包括① 結構化搜索結(如 MCTS),② 過程獎勵模型(Process Reward Model )+ PPO,③ 可驗證獎勵 (Verifiable Reward)+ GRPO(DeepSeek?R1)。然而,大模型何時產生 “頓悟(Aha?Moment)” 的機理仍未明晰。近期多項研究提出推理模式(reasoning pattern)對于推理能力的重要作用。類似的,本研究認為

大模型復雜推理的能力強弱本質在于元思維能力的強弱。

所謂 “元思維” (meta-thinking),即監控、評估和控制自身的推理過程,以實現更具適應性和有效性的問題解決,是智能體完成長時間復雜任務的必要手段。大語言模型(LLM)雖展現出強大推理能力,但如何實現類似人類更深層次、更有條理的 "元思維" 仍是關鍵挑戰。

圖片

上圖通過兩臺機器人求三角形高線的截距的解決樣例,直觀展示了元思維與推理的分工:推理機器人執行計算,元思維機器人則在關鍵節點介入進行規劃、拆解或糾錯。基于這個動機,本研究提出從多智能體的角度建模并解決這個問題并引入強化元思維智能體(Reinforced Meta-thinking Agents, 簡稱 ReMA)框架,利用多智能體間的交互來建模大模型推理時的元思維和推理步驟,并通過強化學習鼓勵整個系統協同思考如何思考,以兼顧探索效率與分布外泛化能力。

圖片

  • 論文題目:ReMA: Learning to Meta-think for LLMs withMulti-agent Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2503.09501
  • Github 代碼鏈接: https://github.com/ziyuwan/ReMA-public

當前,提升大模型推理能力的研究主要分為兩種思路:

一是構造式的方法:通過在結構化的元思維模板上采樣與搜索構造數據進行監督微調,但這類方法往往只是讓模型記住了這種回答范式,而沒有利用模型內在的推理能力進行靈活探索以發現模型本身最適合的元思維模式,因此難以泛化到分布外的問題集上;

二是 Deepseek R1 式的單智能體強化學習(SARL)方法:通過引入高質量退火數據獲得具備一定的混合思維能力的基礎模型后,直接使用規則獎勵函數進行強化學習微調,習得混合元思維和詳細推理步驟。但這類方法通常依賴強大的基礎模型,對于能力欠缺的基礎模型來說在過大的動作空間內無法進行高效探索,且不用說可能導致的可讀性差等問題。

圖片

圖一:ReMA框架與現有大模型復雜推理訓練框架對比

針對這些挑戰,ReMA 框架采取了一套全新的解決思路,將復雜的推理過程解耦為兩個層級化的智能體:

1. 元思維智能體 (Meta-thinking agent)圖片: 負責產生戰略性的監督和計劃,進行宏觀的思考和指導,并在必要的時刻對當前的推理結果進行反思和修正。

2. 推理智能體 (Reasoning agent) 圖片: 負責根據元思維智能體的指導,執行詳細的子任務,如單步推理和具體計算等。

這兩個智能體通過具有一致目標的迭代強化學習過程進行探索和協作學習。這種多智能體系統(MAS)的設計,將單智能體強化學習的探索空間分散到多個智能體中,使得每個智能體都能在訓練中更結構化、更有效地進行探索。ReMA 通過這種方式來平衡了泛化能力和探索效率之間的權衡。

方法

ReMA 的生成建模

本研究首先給出單輪多智能體元思維推理過程(Multi-Agent Meta-thinking reasoning process,MAMRP)的定義。

在單輪交互場景下,當給定一個任務問題時,元思維智能體會對問題進行宏觀分析和必要拆解,產生求解計劃,而推理智能體會根據元思維的逐步指令完成任務內容。具體來說,給定問題,元思維智能體首先給出元思維,接著推理智能體給出問題求解,該過程如下所示:

圖片

而在多輪交互場景中,元思維智能體給出的元思維可以以一種更加均勻的方式加入到整個思考過程中,元思維智能體可以顯式地對求解的過程進行計劃、拆解、反思、回溯和修正,其交互歷史會不斷疊加直至結束。類似的,本研究可以給出多輪 MAMRP 的定義,該過程如下所示:

圖片

整個系統的求解過程可以用以下有向圖來直觀理解:

圖片

圖片

圖二:不同算法框架的訓練方式對比

單輪 ReMA 的訓練

單輪場景下,考慮兩個智能體和 ,團隊通過迭代優化的方式最大化兩個智能體各自的獎勵,從而更新智能體們各自的權重:

圖片

其中每個智能體的獎勵函數分別考慮了總體回答正確性與各自的格式正確性。對于策略梯度的更新算法,本研究使用目前主流的 GRPO 和 REINFORCE++ 來節省顯存和加速訓練。

多輪 ReMA 的訓練

在擴展到多輪場景下時,為了提升計算效率和系統可擴展性,團隊做了如下改變:

(1)首先是通過共享參數的方式降低維護兩份模型參數的部署開銷,同時簡化調度兩份模型參數的依賴關系,提高效率。具體來說,本研究使用不同的角色的系統提示詞來表示不同智能體的策略

圖片

圖片

,在優化時同時使用兩個智能體的采樣數據進行訓練,更新一份參數。

(2)其次是針對多輪交互場景的強化學習,不同于本研究將每一輪的完整輸出定義為一個動作,通過引入輪次級比率(turn-level ratio)來進行 loss 歸一化與剪切, 具體優化目標如下所示:

圖片

其中:

圖片

通過這樣的方式,在多輪訓練的過程中,能夠消除 token-level loss 對于長度的 bias,另外通過考慮單輪所有 token 的整體裁切,可以一定程度上穩定訓練過程。

實驗結果

單輪 ReMA 的實驗

首先團隊在單輪設定上對比了一般 CoT 的 Vanila Reasoning Process (VRP),以及其 RL 訓練后的結果 VRP_RL, MRP_RL。團隊在多個數學推理基準(如 MATH, GSM8K, AIME24, AMC23 等)和 LLM-as-a-Judge 基準(如 RewardBench, JudgeBench)上對 ReMA 進行了領域內外泛化的廣泛評估。在數學問題上,團隊使用了 MATH 的訓練集(7.5k)進行訓練,在 LLM-as-a-Judge 任務上則將 RewardBench 按子類比例劃分為了 5k 訓練樣本和 970 個測試樣本進行訓練和領域內測試。

圖片

表一:單輪ReMA的實驗對比

結果顯示,在多種骨干預訓練模型(如 Llama-3-8B-Instruct, Llama-3.1-8B-Instruct, Qwen2.5-7B-Instruct)上,ReMA 在平均性能上一致優于所有基線方法。特別是在分布外數據集上,ReMA 在大多數基準測試中都取得了最佳性能,充分證明了其元思索機制帶來的卓越泛化能力。例如,在使用 Llama3-8B-Instruct 模型時,ReMA 在 AMC23 數據集上的性能提升高達 20%。

消融實驗

為了證明 ReMA 中多智能體系統的引入對于推理能力的訓練有益,團隊在單輪設定下分別對二者的強化學習訓練機制進行了消融實驗。

問題一:元思維是否可以幫助推理智能體進行強化學習訓練?

圖片

團隊分別對比了三種強化學習訓練策略,RL from base 采用了基礎模型直接進行 RL 訓練;RL from SFT 在 RL 訓練開始前先用 GPT-4o 的專家數據進行 SFT 作為初始化;RL under Meta-thinking 則在 RL 訓練時使用從 GPT-4o 生成的元思維數據 SFT 過后的元思維智能體提供高層指導。

圖三展示了訓練過程中三種不同難度的測試集上的準確率變化趨勢,實驗結果證明了元思維對于推理模型的強化學習具有促進作用,尤其是在更困難的任務上具有更好的泛化性。

問題二:LLM 是否能夠通過強化學習演化出多樣的元思維?

圖片

圖四:不同規模的元思維智能體的強化學習訓練演化過程

接著團隊探索了不同規模的元思維智能體的強化學習訓練演化過程,團隊設計了一個可解釋性動作集合。通過讓模型輸出 JSON 格式的動作(先確定動作類型(DECOMPOSE,REWRITE,EMPTY),再輸出相應的內容),以實現對模型輸出動作類型的監控。圖四展示了三種動作類型對應的問題難度在訓練中的變化,實驗發現,在小模型上進行訓練時(Llama3.2-1B-Instruct),元思維策略會快速收斂到輸出簡單策略,即 “什么都不做”;而稍大一些的模型(如 Llama3.1-8B-Instruct)則能夠學會根據問題難度自適應的選擇不同的元思維動作。這個結果也意味著,現在越來越受到關注的自主快慢思考選擇的問題,一定程度上可以被 ReMA 有效解決。

多輪 ReMA 的實驗

圖片

圖五:多輪ReMA的實驗結果

最后,團隊擴展到多輪設定下進行了實驗。首先,由于大多數語言模型本身不具備將問題拆解成多輪對話來完成的能力,團隊先從 LIMO 數據集中轉換了 800 條多輪 MAMRP 的樣本作為冷啟動數據,接著使用 SFT 后的權重進行強化學習訓練。圖五左側展示了在 MATH level 3-5 (8.5k)數據集上的訓練曲線和在七個測試集上的平均準確率。團隊發現了以下結論:

  • 1. 多輪 ReMA 訓練在訓練集上可以進一步提升,但是在測試集上的提升不明顯。
  • 2. 訓練具有不穩定性,并且對超參數很敏感,不同的采樣設定(單輪最大 token 數和最大對話輪數)間會有不同的訓練趨勢。

圖五右側展示了前文中提出的兩個改進(共享參數更新和輪次級比率)對于多輪訓練的影響,團隊采樣了一個包含所有問題類型的小數據集以觀察算法在其上的收斂速度和樣本效率。不同采樣設定下的實驗結果均表明該方案能夠有效提升樣本效率。

總結

總的來說,團隊嘗試了一種新的復雜推理范式,即使用兩個層次化的智能體來顯式區分推理過程中的元思維,并通過強化學習促使他們協作完成復雜推理任務。團隊在單輪與多輪的實驗上取得了一定的效果,但是在多輪訓練的中還需要進一步解決訓練崩潰的問題。這表明目前基于 Deterministic MDP 的訓練流程也許并不適用于 Stochastic/Non-stationary MDP,對于這類問題的數據、模型方面還需要有更多的探索。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-28 06:52:29

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2020-12-23 06:07:54

人工智能AI深度學習

2020-11-04 10:28:48

機器人人工智能系統

2021-03-05 15:03:36

算法強化學習技術

2022-03-03 10:15:16

強化學習模型論文

2021-09-10 16:31:56

人工智能機器學習技術

2025-01-06 09:45:00

AI訓練數據

2023-05-04 15:53:34

強化學習開發

2025-06-26 09:13:22

2023-07-21 14:58:05

智能開發

2021-07-22 15:25:14

開源技術 框架

2022-08-01 10:15:06

AI模型Meta

2024-08-28 13:53:42

多代理強化學習機器人

2025-06-09 09:32:35

2023-05-05 13:11:16

2025-07-01 09:05:28

2025-06-03 06:12:03

2017-06-10 16:19:22

人工智能智能體強化學習

2020-05-06 16:07:05

百度飛槳
點贊
收藏

51CTO技術棧公眾號

国产精品在线看| 亚洲免费影视第一页| 五月天在线免费视频| 国产av精国产传媒| 一本色道88久久加勒比精品| 黄色av电影在线观看| 欧美日韩三级电影在线| 日韩精品一区二区三区第95| 男操女免费网站| 亚洲夜夜综合| 国产区在线观看成人精品| 成人淫片在线看| 五月婷婷视频在线| 欧美 日韩 国产精品免费观看| 亚洲国产精品福利| 亚洲av无日韩毛片久久| 筱崎爱全乳无删减在线观看| 亚洲欧洲在线观看av| 国外成人在线视频网站| 一本一道人人妻人人妻αv| 亚洲美女91| 久久久精品中文字幕| 人妻精品久久久久中文字幕| 精品国产一区二区三区性色av| 欧美日韩一区二区免费视频| 在线观看三级网站| 成人影院免费观看| av成人老司机| 91在线短视频| 91在线你懂的| 亚洲欧美久久| 国模精品系列视频| 国产一区二区精彩视频| 激情五月综合| 精品在线欧美视频| 挪威xxxx性hd极品| 久久中文字幕一区二区| 欧美群妇大交群中文字幕| 国产男女无遮挡| 日本片在线看| 亚洲精品亚洲人成人网 | 成人51免费| 欧美在线视频全部完| 黄色片久久久久| 中文字幕在线直播| 性欧美大战久久久久久久久| 天天综合五月天| 激情在线小视频| 成人欧美一区二区三区小说| 亚洲欧美日韩国产yyy| 国产福利第一视频在线播放| 久久综合99re88久久爱| 精品无码久久久久久久动漫| 成人久久久精品国产乱码一区二区| 九色综合狠狠综合久久| 成人精品视频在线| 国产农村妇女毛片精品久久| 国内精品久久久久影院一蜜桃| 国产精品久久网| 中文字幕网址在线| 蜜臀av性久久久久蜜臀av麻豆 | 免费cad大片在线观看| 久久99精品久久| 一区二区三区四区视频精品免费 | 欧美+亚洲+精品+三区| 日韩在线免费观看视频| 韩国一级黄色录像| 亚洲大全视频| 久久久午夜视频| 日韩精品国产一区二区| 久久久久网站| 国产精品日韩欧美综合| 国产口爆吞精一区二区| 国产91精品入口| 久久久一本精品99久久精品66| 青青草免费在线| 中文字幕欧美国产| 婷婷视频在线播放| 色图在线观看| 一本色道**综合亚洲精品蜜桃冫| 激情综合网俺也去| 国产视频一区二区在线播放| 精品久久国产字幕高潮| 人妻丰满熟妇aⅴ无码| 成人中文视频| 欧美激情精品久久久久久久变态| 少妇一级淫片免费放中国| 久久一区国产| 91中文字幕在线观看| 手机看片1024国产| 国产精品人成在线观看免费| 91看片淫黄大片91| 中文字幕乱码在线播放| 欧美日韩mp4| 国产毛片毛片毛片毛片毛片毛片| 国产探花一区二区| 欧美肥臀大乳一区二区免费视频| 国产一级片毛片| 久久99精品久久久久久国产越南 | 一个色综合网站| 日日碰狠狠躁久久躁婷婷| 国产精品3区| 日韩精品极品在线观看播放免费视频| 九一在线免费观看| 亚洲伦理一区| 成人国产在线激情| 男男激情在线| 亚洲一区影音先锋| 日日躁夜夜躁aaaabbbb| 6080亚洲理论片在线观看| 亚洲人成在线观看| 精品午夜福利在线观看| 日韩黄色免费电影| 国产99在线播放| 国产原创视频在线观看| 色狠狠桃花综合| 9.1在线观看免费| 国产精品久久久乱弄| 欧美中文字幕在线视频| 亚洲精品国产一区二| 国产欧美日韩卡一| 久久综合九色综合88i| 久久在线观看| www亚洲欧美| 精品视频一二三区| 99久久精品国产一区| 在线观看18视频网站| 国产精品第一国产精品| 亚洲欧美日韩高清| 99热在线观看免费精品| 成人禁用看黄a在线| 日本三级中文字幕在线观看| 精品九九久久| 中文字幕免费精品一区| 无码aⅴ精品一区二区三区| 成人免费毛片a| 丁香色欲久久久久久综合网| 电影中文字幕一区二区| 色老头一区二区三区| 国产无遮挡又黄又爽又色视频| av福利精品导航| 日韩伦理在线免费观看| 77成人影视| 欧美国产精品人人做人人爱| 国产日韩欧美视频在线观看| 中文字幕永久在线不卡| 自拍偷拍一区二区三区四区| 青青草原综合久久大伊人精品| 国产精品18久久久久久麻辣| 九色在线观看| 欧美午夜电影一区| 少妇一级黄色片| 麻豆一区二区在线| 亚洲午夜精品一区二区| 巨大黑人极品videos精品| 在线视频亚洲欧美| 亚洲午夜精品久久久| 国产精品乱码妇女bbbb| 中文字幕日韩久久| 欧美日本三区| 精品一区二区三区国产| sese综合| 一区视频在线看| 日韩中文视频免费在线观看| 中文字幕人妻一区二区三区视频| 中文字幕国产一区二区| 波多野结衣xxxx| 希岛爱理一区二区三区| 亚洲一区中文字幕在线观看| 91小视频xxxx网站在线| 日韩欧美一二三| 日韩成人免费在线视频| 久久久欧美精品sm网站| 8x8x最新地址| 欧美日韩天堂| 欧美日韩亚洲免费| 日本电影久久久| 欧美富婆性猛交| 午夜影院在线视频| 欧美性生活久久| 国产精品国产精品88| 不卡的av网站| 亚洲老女人av| 欧美69wwwcom| 欧洲国产精品| 精品成人18| 欧美又大粗又爽又黄大片视频| 国产免费av高清在线| 欧美疯狂做受xxxx富婆| 日韩精品视频免费播放| 国产欧美一区二区三区网站| 911av视频| 久久国产日本精品| 午夜啪啪免费视频| 欧美日韩一区二区三区四区不卡| 国产精品久久久久久久久久久久久久 | 交100部在线观看| 中文字幕日韩精品有码视频| 成人激情综合网| 欧美午夜电影一区二区三区| 精品国产1区二区| 在线观看国产黄| 午夜在线成人av| 国产精品夜夜夜爽阿娇| 99精品在线观看视频| 五月婷婷之婷婷| 国产欧美日本| 欧美在线观看视频免费| 欧美码中文字幕在线| 国产精品久久久久久免费观看| 国产另类xxxxhd高清| 久久免费在线观看| 美女写真理伦片在线看| 日韩精品久久久久| 成人h动漫精品一区二区无码| 色系网站成人免费| 欧美成人aaaaⅴ片在线看| 中文av一区特黄| 久久亚洲AV成人无码国产野外| 国产不卡一区视频| 五月婷婷六月合| 久久婷婷一区| 亚洲 高清 成人 动漫| 欧美精品综合| 91xxx视频| 成人精品天堂一区二区三区| 久久av一区二区三区漫画| 亚洲国产一区二区三区网站| 成人av在线网址| 国产精品美女午夜爽爽| 国产精品第二页| xxxxxx欧美| 91产国在线观看动作片喷水| 日本电影在线观看| 欧美成年人在线观看| 蜜桃视频在线观看www社区| 在线视频国产日韩| 国产亚洲依依| 亚洲女人天堂av| 欧美一区二区少妇| 亚洲美女免费精品视频在线观看| 色窝窝无码一区二区三区成人网站| 91精品福利在线一区二区三区 | 亚洲第一男人av| 欧美一级淫片免费视频魅影视频| 日韩精品一区二区三区视频播放 | 日韩欧美在线观看免费| 精品久久久视频| 黄色在线观看国产| 欧美性xxxx极品hd满灌| 日本一区二区免费电影| 欧美性色视频在线| 精品人妻一区二区三区潮喷在线 | 欧美激情a在线| 牛牛精品视频在线| 国语自产在线不卡| 天堂√中文最新版在线| 欧洲成人在线视频| 亚洲www免费| 国产精品中文字幕在线| 日韩一区中文| 成人av免费在线看| 久久动漫网址| 欧美日韩一区二区视频在线| 成人激情开心网| 成人在线免费观看网址| 激情偷拍久久| av免费网站观看| 久久成人免费电影| 四虎国产精品永久免费观看视频| 成人一区在线观看| 在线免费观看麻豆| 成人欧美一区二区三区小说| 搜索黄色一级片| 亚洲成人高清在线| 国产第一页在线观看| 欧美日韩你懂得| 日本免费不卡视频| 国产午夜精品全部视频播放| 黄色国产网站在线播放| 欧美精品videosex性欧美| 老色鬼在线视频| 国产日韩欧美91| 国产精品极品在线观看| 色视频一区二区三区| 欧美国产精品| 日韩av资源在线| 国产一区二区三区在线观看精品 | 国产露脸国语对白在线| 亚洲第一精品福利| 香蕉视频在线播放| 97国产精品视频| 欧美视频免费看| 精品在线视频一区二区三区| 色天天综合网| 欧美 丝袜 自拍 制服 另类| 美女爽到高潮91| 少妇被狂c下部羞羞漫画| 中文字幕欧美国产| 日韩精品手机在线| 日韩一区二区三区电影| 成人午夜在线观看视频| 国产+人+亚洲| 96sao精品免费视频观看| 蜜桃视频在线观看成人| 亚洲乱码精品| 99视频在线免费| 成人国产电影网| 久久国产波多野结衣| 色偷偷成人一区二区三区91| 亚洲成人av综合| 日韩中文字幕视频在线| a一区二区三区| 国产亚洲欧美另类一区二区三区 | 日韩伦理在线免费观看| 国内成+人亚洲+欧美+综合在线| 真实乱视频国产免费观看| 亚洲午夜av在线| www.色呦呦| 日韩中文字幕在线免费观看| 极品美女一区| 好看的日韩精品视频在线| 欧美福利专区| 小早川怜子一区二区三区| 国产欧美精品一区二区三区四区 | 欧美一区二区三区免费大片| 国产大片在线免费观看| 欧美亚洲视频在线看网址| 久久影视三级福利片| 日韩精品综合在线| 国产米奇在线777精品观看| 蜜桃av免费在线观看| 欧日韩精品视频| 国产在线免费观看| 91a在线视频| 日韩a级大片| 日本a在线免费观看| 成人一二三区视频| 久久久久无码精品国产| 欧美成人在线直播| 污污的视频在线观看| 99免费在线观看视频| 中文在线播放一区二区| 黑人巨大猛交丰满少妇| 亚洲人成网站色在线观看| 亚洲一线在线观看| 理论片在线不卡免费观看| 国产亚洲高清一区| 少妇一晚三次一区二区三区| 国产精品69毛片高清亚洲| 2018天天弄| 欧美sm极限捆绑bd| 国产激情在线播放| 蜜桃av噜噜一区二区三| 欧美中文字幕| 成人在线观看免费高清| 欧美日韩不卡一区| 午夜av在线播放| 国产午夜精品一区| 免费日韩视频| av网在线播放| 欧美日韩国产免费一区二区| 亚洲色图美国十次| 国产亚洲欧美另类一区二区三区 | www激情五月| 亚洲一级不卡视频| 色av男人的天堂免费在线| 热re91久久精品国99热蜜臀| gogogo高清在线观看一区二区| 乌克兰美女av| 一区二区三区四区乱视频| 污视频软件在线观看| 国产成人av在线播放| 四虎成人精品永久免费av九九| 老司机av网站| 色欧美乱欧美15图片| 麻豆传媒视频在线| 国产精品精品软件视频| 久久一区国产| 青青草在线观看视频| 亚洲欧美日韩国产中文| 国产精品毛片aⅴ一区二区三区| www.avtt| 国产精品理伦片| 欧日韩在线视频| 国产精品一区久久| 在线不卡亚洲| 很污很黄的网站| 日韩成人性视频| 日韩成人在线一区| 国产人妻777人伦精品hd| 国产欧美日韩视频一区二区| 成人免费一级视频| 国产精品国产亚洲伊人久久| 欧美午夜电影在线观看 | 一区二区理论电影在线观看| 邻居大乳一区二区三区| 99久久精品久久久久久ai换脸| 久久久精品午夜少妇| 青娱乐国产盛宴|