精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擴(kuò)散LLM推理用上類GRPO強(qiáng)化學(xué)習(xí)!優(yōu)于單獨(dú)SFT,UCLA、Meta新框架d1開(kāi)源

人工智能 新聞
大語(yǔ)言模型的推理能力,不再是 AR(自回歸)的專屬。擴(kuò)散模型現(xiàn)在也能「動(dòng)腦子」,新框架 d1 讓它們學(xué)會(huì)了解數(shù)學(xué)、懂邏輯、會(huì)思考。

當(dāng)前,強(qiáng)化學(xué)習(xí)(RL)方法在最近模型的推理任務(wù)上取得了顯著的改進(jìn),比如 DeepSeek-R1、Kimi K1.5,顯示了將 RL 直接用于基礎(chǔ)模型可以取得媲美 OpenAI o1 的性能。

不過(guò),基于 RL 的后訓(xùn)練進(jìn)展主要受限于自回歸的大語(yǔ)言模型(LLM),它們通過(guò)從左到右的序列推理來(lái)運(yùn)行。

與此同時(shí),離散擴(kuò)散大語(yǔ)言模型(dLLM)成為有潛力的語(yǔ)言建模的非自回歸替代。不像以因果方式逐 token 生成文本的自回歸模型那樣,dLLM 通過(guò)迭代去噪過(guò)程生成文本,在多步驟操作中優(yōu)化序列的同時(shí)并通過(guò)雙向注意力利用過(guò)去和未來(lái)的上下文。其中,LLaDA 等開(kāi)放的掩碼 dLLM 實(shí)現(xiàn)了媲美同尺寸自回歸模型的性能,而 Mercury 等閉源 dLLM 進(jìn)一步展現(xiàn)了出色的推理延遲。

然而,頂級(jí)的開(kāi)源 dLLM 并沒(méi)有使用 RL 后訓(xùn)練,使得這一有潛力的研究方向還有很大的挖掘空間。這一范式轉(zhuǎn)變引出了重要的問(wèn)題:RL 后訓(xùn)練如何在非自回歸上下文中高效地實(shí)現(xiàn)?

RL 算法適應(yīng)掩碼 dLLM 面臨一些獨(dú)特的挑戰(zhàn),原因在于自回歸模型采用的已有方法(如 PPO、GRPO)通過(guò)計(jì)算生成序列的對(duì)數(shù)概率來(lái)估計(jì)和優(yōu)化策略分布,導(dǎo)致無(wú)法直接應(yīng)用于 dLLM。雖然這種計(jì)算在自回歸模型中通過(guò)序列因式分解很容易實(shí)現(xiàn),但 dLLM 由于它們的迭代、非序列生成過(guò)程而缺乏這種自然分解。

為了解決這些問(wèn)題,來(lái)自 UCLA 和 Meta AI 的研究者提出了一個(gè)兩階段后訓(xùn)練框架 d1,從而可以在掩碼 dLLM 中進(jìn)行推理。在第一階段,模型在高質(zhì)量推理軌跡中進(jìn)行監(jiān)督微調(diào);在第二即 RL 階段,研究者引入了用于掩碼 dLLM 的新穎策略梯度方法 diffu-GRPO,它利用提出的高效一步(one-step)對(duì)數(shù)概率估計(jì)在 GRPO 的基礎(chǔ)上創(chuàng)建。

研究者表示,他們的估計(jì)器利用了隨機(jī)提示詞掩碼,作為策略優(yōu)化的一種正則化,使得可以擴(kuò)展 per batch 的梯度更新數(shù)量并減少 RL 訓(xùn)練所需的在線生成數(shù)量。這將極大地降低計(jì)算時(shí)間。

圖片

  • 論文標(biāo)題:d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2504.12216
  • 項(xiàng)目主頁(yè):https://dllm-reasoning.github.io/
  • GitHub 地址:https://github.com/dllm-reasoning/d1

在實(shí)驗(yàn)部分,研究者使用 LLaDA-8B-Instruct 作為基礎(chǔ)模型實(shí)例化 d1。他們將 d1-LLaDA 的性能與基礎(chǔ) LLaDA 模型以及僅使用 SFT 和僅使用 diffu-GRPO 訓(xùn)練的 LLaDA 模型進(jìn)行比較。結(jié)果表明,d1 在四個(gè)數(shù)學(xué)和邏輯推理基準(zhǔn)測(cè)試中始終優(yōu)于基礎(chǔ)模型,如下圖 1 所示。d1-LLaDA 同樣優(yōu)于僅使用 SFT 方法和僅使用 diffu-GRPO 方法的模型。

圖片

方法概覽

d1 是一個(gè)兩階段框架,通過(guò)依次結(jié)合監(jiān)督微調(diào)(SFT)和在線強(qiáng)化學(xué)習(xí)(RL)來(lái)增強(qiáng)預(yù)訓(xùn)練掩碼 dLLMs 的推理性能。

其中,在線強(qiáng)化學(xué)習(xí)(特別是 GRPO 算法)已被證明能有效提升離線訓(xùn)練語(yǔ)言模型的性能。然而,GRPO 的學(xué)習(xí)策略并不能直接泛化到 dLLMs。

GRPO 的目標(biāo)函數(shù)(如公式 3 所示)需要同時(shí)計(jì)算當(dāng)前策略 π_θ 和舊策略 π_θold 在以下兩個(gè)層面的(對(duì)數(shù))似然比:

  1. token 層面(用于優(yōu)勢(shì)權(quán)重計(jì)算);
  2. 序列層面(用于反向 KL 散度項(xiàng))。

核心問(wèn)題在于:研究者需要高效計(jì)算 dLLMs 生成內(nèi)容的逐 token 對(duì)數(shù)概率和序列對(duì)數(shù)概率。

自回歸(AR)模型,如 Transformer,直接對(duì)每個(gè) token 的對(duì)數(shù)概率進(jìn)行建模,并且可以通過(guò)鏈?zhǔn)椒▌t使用一次前向傳遞輕松計(jì)算出序列級(jí)別的對(duì)數(shù)概率image.png。同樣,KL 項(xiàng)可以分解為image.png。

與 AR 模型不同,dLLMs 不遵循序列對(duì)數(shù)概率的順序分解。同時(shí),每個(gè) token 的對(duì)數(shù)概率計(jì)算成本也很高,因?yàn)榻獯a過(guò)程中需要多次調(diào)用掩碼預(yù)測(cè)器 f_θ。基于此,該研究提出了一個(gè)高效的對(duì)數(shù)概率估計(jì)器。

對(duì)于序列對(duì)數(shù)概率,該研究使用均場(chǎng)近似方法,將其分解為獨(dú)立的每個(gè) token 對(duì)數(shù)概率的乘積。

對(duì)于每個(gè) token 的對(duì)數(shù)概率,該研究引入了一種估計(jì)方法,該方法僅調(diào)用一次 f_θ。

基于新引入的對(duì)數(shù)概率估計(jì)器,該研究將 GRPO 擴(kuò)展到掩碼 dLLMs,推導(dǎo)出 diffu-GRPO 的損失函數(shù)。

圖片

算法如下圖所示。

圖片

實(shí)驗(yàn)結(jié)果

表 1 報(bào)告了基線模型 LLaDA-8B-Instruct 與采用不同后訓(xùn)練優(yōu)化方案的模型,在四項(xiàng)任務(wù)上的零樣本性能對(duì)比。

圖片

圖 3 繪制了有效 token 的平均數(shù)量:

圖片

基于實(shí)驗(yàn),該研究得出以下主要發(fā)現(xiàn):

diffu-GRPO 在所有 12 種設(shè)置中都一致優(yōu)于基礎(chǔ)的 LLaDA 和 SFT(監(jiān)督式微調(diào))。diffu-GRPO 和 SFT 都相較于 LLaDA-8B-Instruct 基線有所提升,但 diffu-GRPO 顯示出更持續(xù)且幅度更大的增益。具體來(lái)說(shuō),diffu-GRPO 在所有 12 種設(shè)置中都優(yōu)于 LLaDA-8B-Instruct 和 SFT,而 SFT 僅在其中的 7 種設(shè)置中優(yōu)于 LLaDA-8B-Instruct,這表明 diffu-GRPO 相比于單獨(dú)的 SFT 實(shí)現(xiàn)了更強(qiáng)的整體性能提升。

LLaDA+diffu-GRPO 在所有設(shè)置中都優(yōu)于基礎(chǔ)的 LLaDA-8B-Instruct 模型,而 d1-LLaDA 在每種情況下都超過(guò)了 LLaDA+SFT。這表明,無(wú)論初始化是來(lái)自預(yù)訓(xùn)練模型還是經(jīng)過(guò) SFT 調(diào)整的檢查點(diǎn),diffu-GRPO 都能提供可靠的性能提升。

d1 訓(xùn)練方案實(shí)現(xiàn)了最顯著的性能提升。通過(guò)先進(jìn)行監(jiān)督微調(diào)(SFT)、再結(jié)合 diffu-GRPO 訓(xùn)練所形成的 d1-LLaDA 模型,產(chǎn)生了超越單一方法的疊加增益。這種組合式方法在 12 個(gè)實(shí)驗(yàn)設(shè)置中有 11 項(xiàng)優(yōu)于純 diffu-GRPO 方案,表明兩個(gè)訓(xùn)練階段存在協(xié)同效應(yīng)。

定性結(jié)果表明,在 SFT 和 d1-LLaDA 生成中出現(xiàn)了頓悟時(shí)刻。盡管與 LLaDA-8B-Instruct 相比,生成序列長(zhǎng)度為 128 和 256 的性能隨著 SFT、diffu-GRPO 和 d1 有所提高,但從質(zhì)的方面看,在生成的推理軌跡中并未觀察到顯著差異。然而當(dāng)序列長(zhǎng)度達(dá)到 512 時(shí),該研究開(kāi)始觀察到 SFT 和 d1-LLaDA 模型展現(xiàn)出兩種關(guān)鍵能力:自我修正機(jī)制和回溯行為。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-06-03 08:49:00

2024-09-13 06:32:25

2025-05-30 04:00:00

IBMRLVRGRPO

2025-10-11 04:00:00

2025-10-23 09:05:50

2025-06-03 03:15:00

2025-11-10 04:15:00

2025-06-05 06:36:17

2020-11-16 08:54:05

Google 開(kāi)源技術(shù)

2025-06-27 15:44:35

蘋果AI模型

2025-10-08 10:44:16

2025-08-19 08:58:17

2025-05-28 02:25:00

2025-02-03 00:00:01

Ai2o1LLM

2025-03-21 13:00:54

2025-09-11 06:57:11

2025-06-23 09:07:00

2025-08-07 09:16:41

2025-03-11 01:00:00

GRPO算法模型

2024-04-12 08:59:02

強(qiáng)化學(xué)習(xí)系統(tǒng)人工智能擴(kuò)散模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

精品99久久| 日韩高清成人| 2欧美一区二区三区在线观看视频| 欧美高清一级大片| 无码任你躁久久久久久老妇| 在线高清av| 国产精品嫩草影院com| 96sao精品视频在线观看| 日本中文字幕网| 国产欧美一区| 欧美一区二区三区免费视频| 浮妇高潮喷白浆视频| 国产女主播在线直播| 国产精品一二二区| 日本午夜人人精品| 久草视频在线资源| 日韩中文在线电影| 日韩黄在线观看| 日韩成人av免费| 在线女人免费视频| 亚洲精品自拍动漫在线| 日本精品国语自产拍在线观看| 99热这里只有精品在线| 天堂影院一区二区| 97免费视频在线播放| 中国一级片在线观看| 精品一区二区三区中文字幕老牛| 欧美va亚洲va在线观看蝴蝶网| av网站在线不卡| 看黄在线观看| 亚洲一卡二卡三卡四卡无卡久久| 午夜精品美女久久久久av福利| 手机福利在线| 国产成人aaaa| 91视频99| 国产精品久久影视| 亚洲永久字幕| 亚洲91精品在线| 国产午夜久久久| 久久久五月天| www高清在线视频日韩欧美| 欧美黄色一级生活片| 欧美调教在线| 欧美精品一区二区三区高清aⅴ| 91精品国产三级| 久久精品国产福利| 欧美日韩一级黄| 中文久久久久久| 日本在线中文字幕一区二区三区| 福利视频第一区| 久久久999视频| 国产在线观看www| 亚洲不卡av一区二区三区| wwwwww欧美| 少女频道在线观看高清| 亚洲精品成a人| 青青青在线观看视频| 成人在线直播| 伊人夜夜躁av伊人久久| 国产 国语对白 露脸| 成人在线免费看片| 亚洲精品成人少妇| 丁香六月激情婷婷| 美女搞黄视频在线观看| 第一福利永久视频精品| 日本久久久精品视频| 欧美性xxx| 欧美日韩一级黄| 特级黄色片视频| 久久久久久爱| 日韩精品资源二区在线| 国模无码视频一区| 欧美男人操女人视频| 精品一区电影国产| 九九九视频在线观看| 欧美电影免费播放| 欧美另类极品videosbest最新版本| 免费中文字幕在线| 好看的日韩av电影| 欧美一区二区三区免费观看| 精品人妻无码一区二区性色| 美洲天堂一区二卡三卡四卡视频| 亚洲精品免费网站| 少妇av一区二区| 久久嫩草精品久久久精品一| 亚洲国产精品123| а√天堂在线官网| 婷婷夜色潮精品综合在线| 日本一本二本在线观看| 成人精品高清在线视频| 91精品国产综合久久国产大片| 国产精品日日摸夜夜爽| 伊人成综合网yiren22| 中文字幕精品一区久久久久| 激情综合五月网| 亚洲欧美日韩一区在线观看| 国产免费一区视频观看免费| 亚洲av无码国产精品永久一区| 26uuuu精品一区二区| 亚洲精品在线免费| av中文字幕电影在线看| 在线看日本不卡| 久久人妻少妇嫩草av蜜桃| 亚州av日韩av| 欧美日韩成人网| 免费在线不卡av| 成人黄色777网| 中文字幕在线中文字幕日亚韩一区| 日韩电影免费观看| 色偷偷久久一区二区三区| 国产又黄又嫩又滑又白| 久久爱www成人| 欧美激情女人20p| 在线视频你懂得| 91日韩一区二区三区| 国产手机视频在线观看| 韩国久久久久久| 亚洲第一免费播放区| 精品国产国产综合精品| 欧美专区18| 成人18视频| 欧美尤物美女在线| 91国产丝袜在线播放| 美女露出粉嫩尿囗让男人桶| 日韩夫妻性生活xx| 日本一本a高清免费不卡| 亚洲精品国产av| 日韩毛片在线免费观看| 亚洲 中文字幕 日韩 无码| 成人爽a毛片| 欧美成人亚洲成人日韩成人| 波多野结衣一二区| 久久男人中文字幕资源站| 日韩免费视频播放| 北条麻妃在线一区二区免费播放| 日韩中文有码在线视频| 最好看的日本字幕mv视频大全| 99这里只有精品| 成品人视频ww入口| 亚洲综合影院| 久久大大胆人体| 亚洲性在线观看| 国产精品女主播在线观看| 欧美日韩激情视频在线观看| 红杏视频成人| 国内外成人免费激情在线视频网站| www.国产精品视频| 亚洲欧美日韩精品久久久久| 亚洲色图偷拍视频| 成人在线丰满少妇av| 国产精品九九九| av国产在线观看| 在线观看亚洲一区| 91资源在线播放| 老司机免费视频一区二区三区| 图片区小说区区亚洲五月| 成人毛片免费| 久久五月情影视| 国产后入清纯学生妹| 亚洲自拍欧美精品| 亚洲av成人片无码| 亚洲一区二区网站| 日韩高清av| 成人日韩av| 久久香蕉频线观| 精品人妻久久久久一区二区三区| 一区二区日韩av| 久久久久成人精品无码中文字幕| 亚洲一区二区三区免费在线观看| 欧美日韩国产免费一区二区三区| 成人黄色免费网站| 欧美日韩福利在线观看| 欧美一级淫片aaaaaa| 欧美午夜影院在线视频| 免费看污片的网站| 国内精品在线播放| 欧美这里只有精品| 美日韩中文字幕| 国产日韩中文字幕| 日本h片在线| 日韩精品在线第一页| 五月激情丁香网| 一区二区三区四区激情| 精品中文字幕在线播放| 日韩电影网1区2区| 国产911在线观看| 欧美一级一片| 国产日本欧美视频| а√天堂中文资源在线bt| 揄拍成人国产精品视频| 亚洲成人77777| 一本大道久久a久久综合婷婷| 国产免费美女视频| 99久久综合狠狠综合久久| 日韩av在线中文| 亚洲欧洲一区二区天堂久久| 欧美午夜精品久久久久免费视| 成人动漫视频在线观看| 欧美一级片在线播放| 黄色片免费在线观看| 亚洲国产精品成人精品| 亚洲在线观看av| 欧美日韩另类在线| 五月婷婷一区二区| 日本一区二区成人在线| 香蕉视频污视频| 国产在线观看一区二区| 国产视频在线视频| 在线观看视频免费一区二区三区| 亚洲一区bb| 色综合综合网| 国产精品乱子乱xxxx| 亚洲伊人精品酒店| 全亚洲最色的网站在线观看| 好看的中文字幕在线播放| 中文字幕综合一区| 青青青手机在线视频观看| 欧美精品xxxxbbbb| www.久久网| 欧美日韩中文字幕在线| 不卡的免费av| 亚洲欧美福利一区二区| 伊人影院综合网| 久久综合久久鬼色中文字| 国产69视频在线观看| 国产在线乱码一区二区三区| 校园春色 亚洲色图| 男人天堂欧美日韩| 18禁男女爽爽爽午夜网站免费| 伊人久久大香线蕉综合热线| 中国女人做爰视频| 影视一区二区| 亚洲AV无码成人精品一区| 欧美日韩在线二区| 日本不卡二区| 国产一区99| 久久国产一区二区| 视频福利一区| 狠狠色综合欧美激情| 凹凸av导航大全精品| 91精品国产综合久久久久久丝袜 | 欧美一区二区在线观看视频| 欧美一级精品在线| av网站在线免费看| 日韩天堂在线观看| 午夜精品久久久久久久99老熟妇| 欧美一二三四在线| www.久久精品.com| 精品久久久久久无| 欧美一区二区三区成人片在线| 亚洲国产精品一区二区久| 免费观看国产精品| 亚洲精品午夜精品| 国产三级电影在线| 综合136福利视频在线| 免费网站成人| 久久91亚洲精品中文字幕| 激情网站在线| 2021国产精品视频| 女生影院久久| 国产日本欧美在线观看 | 欧美一区二区二区| 一级全黄裸体免费视频| 日韩一区二区在线观看视频| 亚洲精品国产手机| 日韩精品中文字幕在线播放| 国产黄色免费在线观看| 久久精品国产综合| 久草在线视频网站| 欧美有码在线视频| 国产精品美女午夜爽爽| 亚洲综合精品伊人久久| 精品淫伦v久久水蜜桃| 日韩av高清在线播放| 精品国产网站| 国产精品无码电影在线观看| 国产精品入口| 五月激情五月婷婷| www.成人网.com| 特级西西www444人体聚色| 椎名由奈av一区二区三区| 国产一级aa大片毛片| 色综合激情久久| 国产精品国产三级国产普通话对白| 精品美女在线播放| 东凛在线观看| 欧美激情视频在线免费观看 欧美视频免费一| 6699嫩草久久久精品影院| 国产精品久久久久久久午夜| 欧美成人一级| 日韩动漫在线观看| 影音先锋一区| 午夜免费看毛片| 99久久99久久综合| 亚洲熟女毛茸茸| 狠狠色狠色综合曰曰| 国产免费黄色片| 亚洲欧美www| 免费在线国产视频| 国产精品久久久久久久app| 999久久精品| 在线观看日本一区| 中文亚洲免费| 人妻巨大乳一二三区| 国产三区在线成人av| 国产一级免费观看| 欧美精品电影在线播放| 黄色av免费在线观看| 久久久免费精品视频| 天天综合在线观看| 欧美日韩国产精品一区二区| 亚洲国产午夜| 波多野结衣免费观看| 国产欧美日韩激情| 亚洲久久在线观看| 亚洲白虎美女被爆操| 黄色免费在线观看| 国产欧美中文字幕| 精品视频黄色| 99免费视频观看| 337p粉嫩大胆噜噜噜噜噜91av| 久久亚洲国产成人精品性色| 欧美精品色综合| gogogo高清在线观看免费完整版| 欧美亚洲一级片| 99香蕉久久| 91成人综合网| 成人午夜激情在线| 紧身裙女教师波多野结衣| 欧美偷拍一区二区| 二区三区在线| 日产精品久久久一区二区福利| 国产精品极品| 九九热只有这里有精品| 国产精品综合二区| 欧美毛片在线观看| 日韩一区二区三区视频| h网站久久久| 91精品国产综合久久久久久蜜臀 | fc2成人免费人成在线观看播放| 欧美黄色免费看| 欧美一级二级三级乱码| 在线看女人毛片| 3d蒂法精品啪啪一区二区免费| 亚洲深深色噜噜狠狠爱网站| 欧美日韩理论片| 亚洲另类色综合网站| 国产黄色免费大片| 欧美激情一区二区三区在线视频观看 | 国产chinesehd精品露脸| 亚洲精品免费一二三区| www.久久久久久久久久| 久久久免费观看| 日本欧美三级| 50路60路老熟妇啪啪| 国产亚洲成年网址在线观看| 午夜一区二区三区四区| 日韩资源在线观看| 国产在线不卡一区二区三区| 日韩一级特黄毛片| 97精品久久久久中文字幕| 亚洲AV无码成人精品区东京热| 国产一区二区三区丝袜 | 日本欧美久久久久免费播放网| 少妇的滋味中文字幕bd| 3d动漫精品啪啪一区二区竹菊| 青春草在线视频| 久久精彩视频| 美女www一区二区| 久久久一二三区| 亚洲免费影视第一页| 国产精品高潮久久| 日本精品福利视频| wwwwxxxxx欧美| 中文资源在线播放| 欧美猛男性生活免费| 免费看成人人体视频| 一区二区三区韩国| 一级日本不卡的影视| 国产午夜精品一区理论片| 91久久久久久| 亚洲影视在线| 国产67194| 精品亚洲永久免费精品| 9999在线精品视频| 亚洲 欧美 日韩 国产综合 在线| 国产拍揄自揄精品视频麻豆| 亚洲成人中文字幕在线| 国产高清视频一区三区| 欧美国产91| 国产黄色大片免费看| 日韩精品一区二区三区四区 | 亚洲三级电影在线观看| 中文字幕第24页| 精品福利av导航| 国产亚洲欧美日韩精品一区二区三区 | 亚洲无人区码一码二码三码的含义 | 97香蕉久久超级碰碰高清版| 日韩国产一区| 精品黑人一区二区三区观看时间|