精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從掩碼生成到「再掩碼」訓練:RemeDi讓擴散語言模型學會自我糾正與反思

人工智能 新聞
這篇文章介紹了由西湖大學 MAPLE 實驗室推出的,具有再掩碼反思機制的擴散語言模型,RemeDi。

近期,擴散語言模型備受矚目,提供了一種不同于自回歸模型的文本生成解決方案。為使模型能夠在生成過程中持續修正與優化中間結果,西湖大學 MAPLE 實驗室齊國君教授團隊成功訓練了具有「再掩碼」能力的擴散語言模型(Remasking-enabled Diffusion Language Model, RemeDi 9B)。在擴散去噪的多步過程中,通過進行再掩碼 SFT 和 RL 訓練,為每個 token 輸出一個去掩碼置信度,RemeDi 能夠從序列中已經生成的內容中識別無法確定的位置進行再掩碼(remask),從而修正錯誤內容并提升文本質量,在各方面都超越了現有的擴散語言模型。該模型還具有可變長生成(variable-length generation)能力,打破了現有中大規模擴散語言模型僅支持定長生成的限制,提高了模式能力的靈活性。

  • 論文地址:https://arxiv.org/abs/2509.23653
  • 代碼與模型地址:https://github.com/maple-research-lab/RemeDi

背景

擴散語言模型已成為自回歸語言模型的有力替代方案。這一類方法首先定義了一個將文本逐步破壞為噪聲的前向過程,然后讓模型學習從噪聲中恢復出干凈文本的逆向過程。在這一類方法中,當前最主流的是基于掩碼的擴散語言模型。該方案要求模型在訓練中學習恢復被掩碼的 token,而已經被恢復的 token 則在之后的生成步驟中保持不變,直到生成結束。這其中蘊含了一則假設:每一步中預測的 token 都必然是正確的,無需修正,直接可以當作最后的生成內容。這一假設顯然過于理想 —— 生成過程中,模型不可避免地會產生預測錯誤,而我們應當賦予模型通過自我反思發現并修正這些錯誤的能力。

為解決這一問題,提出一種面向擴散語言模型的自我反思式生成范式 —— 再掩碼(remask),并基于這一范式訓練了具有「再掩碼」能力的擴散語言模型 RemeDi。如圖所示,RemeDi 具備發現錯誤 token,并通過再掩碼將其修正的能力:模型首先生成了 “left”,但隨后在生成完整句子的語義表示時,發現 “left for the pies” 這一表述與實際含義不符,因此,將 “left” 一詞再掩碼,修改為更合適的 “used”。可以看出,通過再掩碼,模型能利用在后續步驟中生成的上下文信息,識別較早步驟中存在的錯誤,將其改正,并基于更豐富的上下文信息進行更精確的預測。

用置信度識別「再掩碼」目標

為了讓 RemeDi 能夠通過再掩碼修改已經生成的文本內容,一個核心的挑戰是讓模型能夠找到需要修改的 token,執行再掩碼操作。為此,我們對網絡結構進行了修改,讓其在預測序列中每個 token 輸出分布的同時,能夠為每個 token 額外預測一個置信度分數。整個模型采用了一種雙流協同的模型結構:

  • TPS(Token Prediction Stream):負責對掩碼位置給出候選 token 分布 ,類似常規的擴散語言模型;
  • UPS(Unmasking Policy Stream):為序列每一個位置輸出一個置信度分數,表示模型在這一步輸出時,該位置上結果的確定度。分數高即說明模型認為,這一步的結果有更大的概率是正確的,無需再被掩碼。與此同時,得分較低的位置就應當仍然保持掩碼狀態,或是被再掩碼,直到模型能依賴更多上下文做出更準確的預測。

基于這一模型結構,RemeDi 按如下方式逐步執行去噪推理步驟:以上一步的結果 作為輸入,UPS 模塊首先會為序列中每一個位置預測 ,決定哪些位置不再需要被掩碼。然后,對于那些不需要掩碼的位置,如果輸入本身就已經不是掩碼 token,我們會直接保留輸入 token 值;否則,我們會基于 TPS 輸出的 采樣該位置的輸出 token。與 “生成即固定” 的傳統掩碼擴散生成范式不同,RemeDi 在每一步都會依賴輸出的置信度決定需要 / 不需要掩碼的部分。因此,模型有可能對已經生成的 token 預測出較低的置信度,將其「再掩碼」,使其后續可以依據更充分的上下文重寫,使推理過程具備 “邊寫邊改” 的能力。

此外,在語言生成任務中,許多場景下的輸出并非固定長度。如果模型只能在固定長度下生成,將導致資源浪費或生成結果被壓縮、截斷。因此,使擴散語言模型具備靈活的不定長生成能力 (variable-length generation)是必要的。在 RemeDi 中,我們采用分塊自回歸生成的方法實現這一點:模型每次會通過一個完整的反向擴散過程生成一段長為 L=32 的序列。完成后,如果該序列中沒有生成結束符,則將已生成的這一段序列拼接在上下文中,繼續往后生成下一段長為 L=32 的序列,如此重復直到生成結束符為止。與自回歸模型類似,我們采用分塊因果注意力掩碼機制,確保在生成時,每個 token 能看到自己所在的 block 內的其他 token,和之前已生成 block 內的 token,而無法看到未來將要生成的 block。

在實驗中,我們基于 LLaDA 的權重繼續訓練,將其改造成一個具有不定長生成能力的分塊擴散模型。上面表 4 中的 baseline 模型即展示了不定長生成模型在經過再掩碼訓練前的性能。

兩階段訓練,賦予「再掩碼」能力

1.Remask SFT(監督微調階段)

傳統的掩碼擴散語言模型通常通過在輸入序列上隨機掩碼進行有監督微調(SFT)。與之不同的是,RemeDi 在反向擴散過程中還需要能夠找到潛在的不正確 token 并再掩碼。我們在 SFT 過程中將這類不正確 token 視為除掩碼 token 之后的第二類噪聲。因此,在 SFT 階段,我們不僅要訓練模型從掩碼 token 恢復原文本的能力,同時也需要訓練識別那些需要再掩碼的不正確 token。

我們從干凈文本 引入兩類噪聲構造訓練樣本 :首先,隨機采樣一個擴散時間 ,并設定對應的隨機掩碼比率 以及不正確 token 的比率 。我們以比例 隨機掩碼一部分 token;接著,在剩余未被掩碼的位置中,以比例 采樣一個子集,并把其中的每個 token 隨機替換為一個其他 token,用以模擬反向擴散過程中可能出現的不正確 token。

由于在反向擴散過程中,噪聲水平(定義為 mask token 的數量)應當單調遞減。由于在 SFT 設計中,長度為 L 的輸入序列中,所有不正確 token 都必須被重新掩碼,因此需要滿足以下不等式約束:

以確保輸出中掩碼位置的數量單調減少。若該不等式不成立,則在下一步重新掩碼所有不正確 token 會增加總的掩碼數量,從而違反擴散過程中掩碼比例應逐步減少的基本原則。

基于上述約束,我們選擇噪聲調度為 ,以及 ,其中 r 為常數。在實驗中我們設定 r=0.1,此時不難驗證在 區間上,上述不等式總是成立。

在實際訓練過程中,除了常規的 token 預測損失外,我們還需要在所有 token 位置上使用二元交叉熵(BCE)目標函數監督模型預測的 。我們按以下規則構造對應的訓練標簽 y:

  • 掩碼 tokens ,即 。此類 token 標簽為 y=1,表示該 token 應保持不被掩碼;
  • 可見但錯誤的 tokens 即 。此類 token 標簽為 y=0,表示該 token 應被掩碼;
  • 可見且正確的 tokens,即 。對這一類 token,我們會賦予軟標簽 ,即模型預測出對應真值 的概率。該概率越高,說明預測出真值的可能性越大,因此該 token 更不應該被掩碼。

整個再掩碼微調算法流程如下圖:

2.Remask RL(強化學習階段)

在完成 Remask SFT 訓練后,我們進一步通過基于結果的強化學習對模型進行微調。根據實驗室先前的研究,反向擴散過程中的每一步中間結果都可以視為大模型的一個「思考」步驟,而基于結果的強化學習可以優化整個生成軌跡,提升模型生成正確最終答案的概率。這種面向擴散語言模型的大模型推理范式稱為擴散式「發散思維鏈」,在機器之心的往期報道中已有詳細闡述。

在具備「再掩碼」能力的 RemeDi 模型中,這一擴散式「發散思維鏈」同樣也包含了 N 個去噪步驟。對于時刻的第 n 步,我們將從 生成 的去噪過程拆解為兩部分策略:

1)去掩碼策略:UPS 為每個 token 位置生成一個置信度分數 ,表示模型多大程度上確信該位置上的 token 是正確的(若已去掩碼)或可預測的(若仍為掩碼)。在推理時,我們根據該置信度對所有 token 排序,并優先為置信度高的位置去掩碼。在 RL 訓練中,我們基于 Plackett–Luce 模型構造解掩碼策略:根據 無放回地順序采樣該步驟的去掩碼位置集合  。這一去掩碼位置集合的采樣概率為:

2)Token 預測策略:對于包含在去掩碼位置集合 中的每一個位置,如果 ,則模型會依據 采樣預測 token 值;否則,該位置 token 值保持輸入不變。這一步中,給定和 采樣的概率為:

綜合上述兩個策略,在一個去噪步驟中,基于上一步結果 采樣 的最終概率可建模為:

該策略可用于基于結果的強化學習,鼓勵所有能夠得到正確答案的完整軌跡

實驗結果

在同規模與相近計算預算下,RemeDi 在數學推理、代碼生成與通用問答三類任務上均取得穩定提升。其中,僅采用 Remask SFT 帶來顯著增益;在此基礎上加入 Remask RL,多數基準再獲得進一步提升。

我們在不同類型的任務上對再掩碼次數進行了統計,可以看出:對輸出約束更強的任務(如代碼生成)會更頻繁觸發再掩碼。

而具體的生成示例也表明,通過再掩碼機制,RemeDi 可以實現糾錯、插入、刪除等多種文本修改手段。

總結

這篇文章介紹了由西湖大學 MAPLE 實驗室推出的,具有再掩碼反思機制的擴散語言模型,RemeDi。基于額外的置信度預測,RemeDi 能夠識別生成過程中的錯誤,并通過「再掩碼」機制重新預測,從而做到生成過程中的自我反思與優化。針對「再掩碼」機制設計的有監督訓練與強化學習算法確保了這一機制的有效性。實驗結果表明 RemeDi 在數學推理、代碼生成、通用知識問答等多個任務上都取得了超越其他擴散語言模型的性能。這些結果說明「再掩碼」能有效提升擴散語言模型的文本生成質量,值得進一步探討。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-14 09:00:00

模型訓練數據

2021-12-17 10:09:47

編碼器語言模型DeepMind

2024-12-05 13:00:00

2025-03-24 09:35:00

2025-06-05 11:52:27

U-Net擴散模型掩碼

2025-11-06 08:45:00

AI語言模型算法

2025-10-30 01:55:00

2025-07-15 08:50:00

AI模型訓練

2024-09-18 09:50:00

大模型AI

2013-07-10 10:14:07

子網掩碼OSPF

2025-02-17 12:30:00

2025-04-23 09:44:54

2022-12-19 14:53:07

模型訓練

2025-04-11 00:16:00

模態編碼器MAECLIP

2025-03-17 11:35:36

LLaDALLM大型語言模型

2023-09-13 10:41:24

子網掩碼網絡

2024-09-06 13:31:31

2025-07-28 07:00:00

2024-09-27 12:20:18

2023-06-24 19:59:40

點贊
收藏

51CTO技術棧公眾號

日本不卡一区在线| 国产精品一区二区三区精品| 中文字幕 亚洲一区| 成人性教育av免费网址| 91亚洲精品久久久蜜桃| 国产成人综合av| 成人18视频免费69| 亚洲一区二区三区四区电影| 都市激情亚洲色图| 欧美在线一二三区| 成人激情四射网| 久久激情久久| 美女福利精品视频| aa片在线观看视频在线播放| 成人交换视频| 精品久久久久久久久久国产| 中日韩在线视频| 视频在线观看你懂的| 激情五月婷婷综合| 91精品国产高清久久久久久91| 中文字幕第二区| 美女主播精品视频一二三四| 粉嫩av一区二区| 欧美国产在线观看| 粉嫩高清一区二区三区精品视频| www.五月婷婷.com| 一区在线播放| 精品国产一区二区三区久久狼5月| 中文字幕第九页| 日韩专区视频网站| 色综合网站在线| www.国产亚洲| 黄色精品在线观看| 欧美国产一区视频在线观看| 国产欧美日韩综合一区在线观看| 一本色道久久综合精品婷婷| 国产日韩一区二区三区在线播放| 久久夜精品va视频免费观看| 国产精品www爽爽爽| 亚州综合一区| 精品国产一区二区精华| 红桃视频 国产| 91九色综合| 欧美日韩一区二区在线| 日韩一区二区高清视频| 黄视频在线观看网站| 中文在线免费一区三区高中清不卡| 精品网站在线看| 丰满少妇在线观看bd| 国产在线精品不卡| 成人免费淫片视频软件| 在线免费观看一级片| 天堂蜜桃91精品| 欧美在线性爱视频| 久久久久久91亚洲精品中文字幕| 日韩亚洲国产精品| 97视频在线观看播放| 国产精品111| 欧美特黄a级高清免费大片a级| 蜜臀久久99精品久久久无需会员 | 日韩国产精品久久久久久亚洲| 伊是香蕉大人久久| 国产精品20p| 精品国产一区探花在线观看| 一区二区福利视频| 国产毛片欧美毛片久久久| 国产传媒欧美日韩成人精品大片| 日韩精品在线观看网站| 中文字幕第4页| 操欧美老女人| 久久亚洲国产成人| 久久婷婷国产麻豆91| 91九色精品国产一区二区| 日韩中文字幕在线| √天堂中文官网8在线| 欧美日韩四区| 性欧美在线看片a免费观看| 久久久久久久久久久久久久av| 国产亚洲精品v| 国产成人小视频在线观看| 中文字幕有码视频| 国产乱码精品一区二区三区忘忧草 | 日韩精品在线免费观看视频| 怡红院一区二区三区| 99久久精品费精品国产风间由美| 久久成人一区二区| 午夜精品三级久久久有码| 老司机午夜免费精品视频| 欧美一区二区三区免费视| 最近中文字幕在线免费观看| 国产专区欧美精品| 九九九九精品| 92国产在线视频| 一个色妞综合视频在线观看| 男女午夜激情视频| 国产成年精品| 日韩久久午夜影院| av成人免费网站| 一区二区三区国产在线| 国产伊人精品在线| 日韩a在线观看| 最近中文字幕一区二区三区| 水蜜桃色314在线观看| 久久亚洲精品人成综合网| 精品久久久久久久一区二区蜜臀| 蜜桃传媒一区二区亚洲av| 91九色精品| 国产成人福利网站| 东京干手机福利视频| 国产欧美精品日韩区二区麻豆天美| 免费的av在线| 日本欧美一区| 亚洲成人xxx| 欧美大片xxxx| 日本伊人精品一区二区三区观看方式| 成人av电影免费| 伊人免费在线| 色综合久久久久综合体 | 成人免费毛片app| 亚洲精品tv久久久久久久久| 国产理论在线| 日韩欧美一级在线播放| 成人黄色短视频| 久久久久久亚洲精品杨幂换脸| 97人人做人人人难人人做| 日本最新在线视频| 91国在线观看| 毛片网站免费观看| 夜夜嗨一区二区| 3d蒂法精品啪啪一区二区免费| 瑟瑟视频在线| 欧美日韩高清一区二区三区| 日韩在线免费观看av| 中文欧美日韩| 国产私拍一区| 国产v日韩v欧美v| 欧美r级电影在线观看| 亚洲图片第一页| 日韩**一区毛片| 日韩精品欧美专区| 亚洲精品国产嫩草在线观看| 亚洲乱亚洲乱妇无码| 国产成人亚洲欧洲在线| 成人丝袜18视频在线观看| 国产成人生活片| 一区二区在线免费播放| 不卡av电影院| www.av导航| 国产精品传媒入口麻豆| mm131国产精品| 日本久久黄色| 国产综合久久久久久| 97最新国自产拍视频在线完整在线看| 欧美亚洲图片小说| 婷婷综合在线视频| 久久国产日韩欧美精品| 久久久国产精华液999999| 一区二区三区| 欧美成人免费视频| 国产成人三级在线观看视频| 亚洲高清久久久| 99久久人妻精品免费二区| 翔田千里一区二区| 日本一区二区在线| 成人av在线播放| 欧美福利小视频| 性xxxxbbbb| 欧洲av一区二区嗯嗯嗯啊| av在线播放中文字幕| 激情综合网天天干| 日本久久久网站| 亚洲色图丝袜| 国产日韩欧美日韩大片| 手机在线免费av| 日韩精品一二三四区| 久久久久久不卡| 国产精品久久综合| 又黄又爽又色的视频| 亚洲日本视频| 日韩av不卡播放| 成人国产精品一区二区网站| 久久男人资源视频| 精品三级久久久久久久电影聊斋| 欧美日韩精品系列| 国产精品6666| 欧美国产丝袜视频| 国产精九九网站漫画| 亚洲欧美日韩国产| www.午夜色| 欧美国产不卡| 成人黄色网免费| av手机在线观看| 在线播放精品一区二区三区| 国产wwwxxx| 色香蕉成人二区免费| 久久国产精品国语对白| 91亚洲精品一区二区乱码| 一道本视频在线观看| 黄色亚洲大片免费在线观看| 欧美日韩一区二区三| 二区三区精品| 国产精品国模在线| 丁香花高清在线观看完整版| 国产亚洲一区二区在线| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 欧美系列一区二区| 日韩三级av在线| 亚洲天堂精品在线观看| 不卡一区二区在线观看| 国产一区二区中文字幕| 久热免费在线观看| 亚洲国产免费看| 日本xxxxx18| 欧美1级片网站| 麻豆蜜桃91| 荡女精品导航| 91视频国产精品| www.一区| 国产成人午夜视频网址| 欧美aaaaa性bbbbb小妇| 色综合五月天导航| 顶级网黄在线播放| 正在播放亚洲1区| 久久免费看视频| 日韩高清中文字幕| 亚洲精品字幕在线| 日韩欧美一级精品久久| ,一级淫片a看免费| 欧美少妇xxx| 怡红院av久久久久久久| 福利一区福利二区微拍刺激| avove在线播放| 亚洲视频一二三区| 青青青手机在线视频| 国产欧美精品一区| 国产123在线| 国产丝袜在线精品| 亚洲人成人无码网www国产| 99视频一区二区三区| 国产精品嫩草69影院| 国产一区二区精品久久99| 亚洲综合欧美激情| 麻豆精品视频在线| 91丨九色丨蝌蚪| 久久电影网站中文字幕| 9l视频白拍9色9l视频| 美洲天堂一区二卡三卡四卡视频| 久久久久免费精品| 奇米精品一区二区三区在线观看 | 欧美成欧美va| 樱花影视一区二区| 国精品无码一区二区三区| 亚洲欧美成aⅴ人在线观看| 中国一级片在线观看| 亚洲女子a中天字幕| 久久人人爽人人爽人人| 午夜电影网一区| 久久精品无码av| 欧美在线观看你懂的| 中文字幕一区二区在线视频| 在线成人av网站| 草逼视频免费看| 亚洲国产精品推荐| 国产专区在线| 视频在线一区二区| 久草免费在线色站| 18一19gay欧美视频网站| 成人免费av电影| 成人写真福利网| 综合视频一区| 欧美精品欧美精品| 天天做天天爱天天综合网| 日本黄网站色大片免费观看| 亚洲人成免费| 男女视频在线看| 国产a视频精品免费观看| 性色av蜜臀av色欲av| 国产精品卡一卡二卡三| 天堂资源在线播放| 欧美午夜片在线观看| 国产特黄一级片| 亚洲精品电影网| 日本在线www| 久久噜噜噜精品国产亚洲综合| sis001欧美| 91在线视频精品| 免费成人高清在线视频theav| 亚洲 国产 欧美一区| 好吊一区二区三区| 久久久精品麻豆| 国产成人精品影院| 国产成人一区二区在线观看| 一区二区三区免费在线观看| 无码人妻久久一区二区三区 | 欧美最猛性xxxxx直播| 国产夫妻自拍av| 国产一区二区激情| 91色在线看| 国产日本欧美在线观看| 啪啪激情综合网| 在线观看污视频| 奇米影视7777精品一区二区| 久久久久久久无码| 亚洲免费av观看| 中文字幕乱码一区二区| 亚洲精品久久7777777| 大片免费在线看视频| 人人做人人澡人人爽欧美| 日韩欧洲国产| 亚洲精品白虎| 日韩高清一区二区| 99久久免费看精品国产一区| 亚洲欧美电影一区二区| 最近日韩免费视频| 亚洲区中文字幕| 不卡视频观看| 动漫精品视频| 欧美成人一品| 天天操狠狠操夜夜操| 国产网站一区二区| 国产又粗又爽视频| 亚洲国产欧美在线成人app| 2020国产在线视频| 成人国产精品免费视频| 第一会所亚洲原创| 日韩欧美在线播放视频| 91麻豆免费视频| 日韩免费黄色片| 精品国产a毛片| 美女网站视频在线| αv一区二区三区| 午夜电影亚洲| 女人扒开双腿让男人捅| 亚洲欧美日韩国产一区二区三区| 伊人成人在线观看| 色视频www在线播放国产成人| 欧美国产日韩电影| 小说区图片区图片区另类灬| 日韩二区三区在线观看| 国产交换配乱淫视频免费| 精品日本美女福利在线观看| 五月天福利视频| 韩国精品久久久999| 国产suv精品一区二区四区视频| 亚洲国产一二三精品无码| 国产盗摄一区二区三区| 欧美日韩偷拍视频| 欧美va日韩va| 国产激情视频在线看| 久久er99热精品一区二区三区 | 亚洲午夜国产一区99re久久| 成人激情四射网| 久久久在线观看| 杨幂一区二区三区免费看视频| 91视频最新入口| 国产亚洲精品7777| 伊人精品在线视频| 久久久精品国产网站| 91午夜精品| 欧美韩国日本在线| 国产精品色噜噜| 精品毛片在线观看| 韩国三级日本三级少妇99| 亚洲亚洲免费| 色噜噜狠狠一区二区| 亚洲精品日韩综合观看成人91| 成人午夜免费福利| 国产成人在线一区二区| 亚洲破处大片| 少妇激情一区二区三区视频| 色噜噜狠狠成人网p站| 麻豆网站在线| 国产在线精品一区| 免费观看在线综合| avove在线播放| 亚洲欧美制服第一页| 99久久久国产| 日韩av一二三四区| 国产精品久久看| 欧美性受xxxx狂喷水| 国产精品第10页| 狠狠爱www人成狠狠爱综合网| 亚洲蜜桃精久久久久久久久久久久 | 日韩欧美一级在线| 久久色在线视频| 国产女人18毛片水18精| 欧美在线一区二区三区四| 国产精品成人av| 97人妻天天摸天天爽天天| 欧美日韩一区二区在线观看| 毛片在线网址| 亚洲欧美日韩不卡一区二区三区| 成人综合在线网站| 免费精品一区二区| 欧美激情2020午夜免费观看| 欧美一级本道电影免费专区| av免费观看不卡| 欧美精品亚洲一区二区在线播放| 99在线视频影院| 熟女视频一区二区三区|