精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

擴散語言模型扛把子LLaDA迎來新版本,數學、代碼、對齊能力均提升

人工智能 新聞
近期,擴散語言模型受到廣泛關注,催生了一系列針對該領域的探索性研究,隨著 Gemini Diffusion 的發布,這一趨勢進一步加速。

本文介紹的工作由中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊與螞蟻集團共同完成。朱峰琪、王榕甄、聶燊是中國人民大學高瓴人工智能學院的博士生,導師為李崇軒副教授。

該研究基于團隊前期發布的 8B 擴散語言模型 LLaDA(國內率先做到真正可用的擴散語言模型,是后續很多研究的主干基礎模型),探索了擴散語言模型的偏好對齊方法,提出了方差縮減的偏好優化方法 VRPO,并利用 VRPO 對 LLaDA 進行了強化對齊,推出了 LLaDA 1.5。與 LLaDA 相比,LLaDA 1.5 在數學、代碼和對齊任務上取得了一致性的提升。同時,VRPO 為后續擴散語言模型的對齊提供了統一的框架。

近期,擴散語言模型受到廣泛關注,催生了一系列針對該領域的探索性研究,隨著 Gemini Diffusion 的發布,這一趨勢進一步加速。

然而,現有的大型擴散語言模型多采用「預訓練 + 有監督微調」的范式,針對擴散語言模型的強化對齊進行深入研究的工作較為有限。

強化對齊對于大語言模型的指令遵循和通用任務能力至關重要。研究團隊以直接偏好優化(DPO)為切入點,剖析了擴散語言模型在強化對齊時面臨的關鍵問題,提出了方差縮減的偏好優化方法,使擴散語言模型能夠實現穩定的強化對齊訓練,這一原則也為后續擴散語言模型的對齊工作提供了理論基礎和實踐指南。

圖片

  • 論文標題:LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models
  • 論文鏈接:https://arxiv.org/abs/2505.19223
  • 項目地址:https://ml-gsai.github.io/LLaDA-1.5-Demo/

性能表現:數學、代碼、對齊任務相比 LLaDA 取得一致性提升

相比于 LLaDA,LLaDA 1.5 在數學、代碼生成、對齊任務上取得了一致性的提升。

圖片

此外,LLaDA 1.5 是當前最具有競爭力的擴散語言模型。與其他擴散語言模型相比,在數學任務(如 GSM8K,Math)上具有競爭性優勢。

圖片

相比于 LLaDA,LLaDA 1.5 在指令遵循能力上的提升顯著:

圖片

上述指令給出了對模型的一系列要求:提出兩種新型補品的名字并包含關鍵詞「brand」,名稱以雙尖括號標注,先逐詞復述請求,再給出答案。相比 LLaDA,LLaDA 1.5 遵循了全部指令。

方法介紹

該研究以直接偏好優化(DPO)為切入點,原始 DPO 損失基于模型對給定偏好數據對的對數似然。對于掩碼擴散語言模型,難以計算精確的對數似然,使用證據下界(ELBO)近似。需要通過對時間步 t 和掩碼數據 y_t 進行雙重采樣進行估計:

圖片

將 ELBO 帶入 DPO 損失的對數似然項,可以得到基于 ELBO 的 DPO 損失估計器:

圖片

其中,紅色部分為偏好估計。

在實際應用中,采用蒙特卡洛方法近似對數似然會引入 DPO 損失的偏差和方差,影響模型的梯度估計,進而導致訓練過程不穩定,甚至影響模型對齊后的最終性能表現。

本研究首先證明了:蒙特卡洛估計引入的偏差和方差,可以被偏好估計器的方差限制;降低偏好估計器的方差可以分解為降低 ELBO 估計的方差,以及提高 π_θ 和 π_ref 的 ELBO 估計之間的相關性。據此,本研究提出并證明了以下方差縮減策略的有效性:

  1. 提高蒙特卡洛估計的采樣預算;提高采樣預算能夠降低 ELBO 估計的方差。
  2. 給定總采樣預算的最優分配策略;在給定總采樣預算 n=n_t×n_(y_t) 下,當采樣預算分配為采樣 n 個時間步、每個時間步采樣一個加噪樣本時,ELBO 估計的方差達到最小。
  3. 對偶采樣策略。通過增加 π_θ 和 π_ref 所使用噪聲樣本之間的相關性,能夠進一步降低梯度估計的方差。具體而言,在 ELBO 估計中,對于 π_θ 和 π_ref,應當共享相同的偏好數據的噪聲樣本和拒絕數據的噪聲樣本。

綜合上述策略,最終得到的方差縮減的偏好優化方法如下右圖。對于每一個偏好數據對,在給定的采樣預算 n 下,采樣 n_t=n 個時間步,對于每個時間步采樣 1 個噪聲樣本,并在 π_θ 和 π_ref 間共享噪聲樣本,以進行高效偏好估計。

圖片

總結與展望

本研究圍繞擴散語言模型的偏好對齊任務,提出了方差縮減的偏好優化方法 VRPO,并從理論分析與實際實驗兩方面系統論證了該方法在有效降低梯度估計方差、提升模型對齊效果上的優越性。基于 VRPO 優化的 LLaDA 1.5 模型,在數學推理、代碼生成、模型對齊等多個任務上均實現了全面且穩定的性能提升,驗證了方法的通用性和有效性。

本研究提出的方差縮減算法 VRPO 主要以 DPO 為分析對象,但所提出的方法具有普適性,可被推廣應用到其他涉及 ELBO 估算或強化對齊的算法中,為擴散語言模型在強化對齊領域構建了統一的理論與方法框架。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-17 11:35:36

LLaDALLM大型語言模型

2025-02-17 12:30:00

2011-05-19 10:09:15

”Qomo Linux

2011-08-01 15:35:51

GlassFishJava 7

2011-09-29 21:12:53

點心桌面

2025-05-27 15:35:02

大模型技術AI

2017-05-10 14:27:29

靜態代碼漏洞安全

2009-05-19 08:51:42

2023-11-15 14:17:23

微軟語言模型AI 模型

2024-06-07 09:26:30

模型數學

2020-11-19 15:02:56

TensorFlow數據機器學習

2015-09-08 11:18:44

動畫窗口用戶界面Windows 10

2024-03-13 11:58:00

自動化數據

2024-08-27 09:35:47

2015-02-05 16:59:36

平安WiFiiOS

2010-02-23 17:44:48

Python 3.0

2009-06-17 09:24:34

學習strutsStruts新版本

2025-02-12 10:17:12

2009-12-31 11:09:36

Ubuntu wine
點贊
收藏

51CTO技術棧公眾號

欧美一级片在线免费观看| 国产欧美丝袜| www.99re6| 久久gogo国模啪啪裸体| 亚洲一区二区偷拍精品| 精品欧美国产| 中文字幕一区二区在线视频| 亚洲激情中文| 国产视频亚洲视频| aaa一级黄色片| 欧产日产国产精品视频| 中文久久乱码一区二区| 成人黄视频免费| japanese国产在线观看| 欧美性久久久| 最近中文字幕2019免费| 色婷婷免费视频| 91成人福利社区| 欧美日韩一区免费| 男人日女人的bb| h视频在线免费| 成人精品免费视频| 国产精品视频大全| 青青草av在线播放| 影视一区二区| 国产一区二区激情| 国产精品久久无码| 年轻的保姆91精品| 欧美日韩国产高清一区二区| 久久久久免费看黄a片app| 麻豆电影在线播放| 国产欧美日韩另类一区| 国产一区二区三区色淫影院| 99国产精品久久久久99打野战| 香蕉久久夜色精品国产| 欧美激情视频网址| 成人在线观看免费完整| 日韩精品二区| 国产一区二区成人| 成人免费无遮挡无码黄漫视频| www.爱久久| 日韩欧美一级片| 一个色综合久久| 电影久久久久久| 色婷婷狠狠综合| 国产特级黄色大片| av中文资源在线资源免费观看| 日韩理论片一区二区| 亚洲一区3d动漫同人无遮挡 | 国产精品综合在线视频| 国产日韩在线看| 中文天堂在线播放| 青娱乐精品在线视频| 青青青国产精品一区二区| 国产成人一区二区三区影院在线| 亚洲欧洲午夜| 国外成人在线直播| 久久狠狠高潮亚洲精品| 亚洲理伦在线| 奇米4444一区二区三区| 日本一区二区免费电影| 香蕉久久久久久久av网站| 欧美亚洲另类制服自拍| 精品人妻无码一区二区性色| 久久久xxx| 国产成人精品在线播放| 国产精品成人无码| 久久精品国产精品亚洲综合| 91久久精品美女| 性欧美18一19性猛交| 粉嫩在线一区二区三区视频| 国产伦精品一区二区三区视频黑人| 黄色一级a毛片| 99久久国产综合精品色伊| 精品婷婷色一区二区三区蜜桃| 日韩在线免费看| 国产亚洲成年网址在线观看| 亚洲国产精品一区二区第一页| 77777影视视频在线观看| 亚洲图片欧美激情| 日本人体一区二区| 免费福利视频一区二区三区| 欧美亚一区二区| 久久精品一二三四| 国内毛片久久| 伊人av综合网| 欧美日韩中文字幕在线观看| 亚洲三级视频| 国产精品入口免费视频一| 99精品国产99久久久久久97| 成人av网站免费观看| 日韩国产一区久久| 在线看三级电影| 日韩欧美有码在线| 拔插拔插华人永久免费| 国产精品一线| 色av吧综合网| 国产成人亚洲欧洲在线| 久久精品国产99国产精品| 国产伦一区二区三区色一情| 国产香蕉视频在线看| 一区二区三区四区不卡视频| 黑人糟蹋人妻hd中文字幕| 四虎精品永久免费| 亚洲激情视频网站| 强制高潮抽搐sm调教高h| 亚洲狼人精品一区二区三区| 国产在线日韩在线| 青青草在线视频免费观看| 亚洲精品成人悠悠色影视| 成人综合视频在线| 国产精品久一| 亚洲网站在线看| 日韩毛片在线播放| 精品一区二区三区视频| 欧洲成人一区二区| 9999在线视频| 日韩一级欧美一级| 国产探花视频在线播放| 香蕉亚洲视频| 国产欧美日韩一区| 羞羞的视频在线看| 欧美绝品在线观看成人午夜影视| 中文在线永久免费观看| 影视一区二区| 91社区国产高清| 波多野结衣在线影院| 黄色一区二区三区| xxxxwww一片| 一区二区免费不卡在线| 国产精品亚洲片夜色在线| 日本五码在线| 午夜电影久久久| 波多野吉衣在线视频| 天天操夜夜操国产精品| 国产精品丝袜久久久久久不卡| 日韩av成人| 午夜精品一区二区三区电影天堂 | youjizz国产精品| 99久久99久久精品| 欧美经典影片视频网站| 久久亚洲春色中文字幕| 一区二区三区播放| 中文字幕制服丝袜一区二区三区| 国产裸体免费无遮挡| 美女网站一区| 日本在线精品视频| 黄色美女网站在线观看| 色婷婷综合久久久中文字幕| 丰满少妇一区二区三区| 先锋影音久久久| 欧美成人性福生活免费看| 亚洲国产aⅴ天堂久久| 国产伦精品一区二区三区视频黑人| jizz性欧美10| 日韩精品中文字幕在线不卡尤物| 免费看特级毛片| 精品亚洲porn| 国产又粗又大又爽的视频| www.久久久.com| 欧美裸体xxxx极品少妇| av网站免费播放| 一区二区高清在线| 中文字幕在线视频播放| 亚洲综合国产| 亚洲国产欧美不卡在线观看| 亚洲精品一区av| 久久国产精品免费视频| 亚洲欧美另类视频| 福利微拍一区二区| 欧美老女人性生活视频| 久久www免费人成看片高清| 亚洲AV无码成人精品一区| 欧美经典影片视频网站| 久久久噜噜噜久久| 毛片在线免费| 欧美精品欧美精品系列| 久久视频免费看| 久久一区二区三区国产精品| 日韩av片网站| 欧美日本久久| 欧美黑人xxxxx| 色综合久久久| 91精品国产自产91精品| 国产视频三级在线观看播放| 这里只有精品视频在线观看| 国产无套内射又大又猛又粗又爽| 久久嫩草精品久久久精品一| 色婷婷.com| 亚洲理论在线| 一区视频二区视频| 国产精品22p| 国产精品久久久久免费a∨大胸| av网站大全在线| 亚洲欧美国产另类| 国产成人a人亚洲精品无码| 福利微拍一区二区| 草视频在线观看| 久久精品视频网| 国产免费a级片| 麻豆国产欧美日韩综合精品二区 | 你懂的视频一区二区| 麻豆成人av| 日本少妇精品亚洲第一区| 欧美中文在线免费| 欧美亚洲系列| 日韩中文字幕在线| 五月婷婷开心中文字幕| 欧美一区二区视频在线观看 | а√在线中文在线新版 | 麻豆蜜桃在线| 深夜福利一区二区| 性感美女一级片| 欧美一级夜夜爽| 国产午夜无码视频在线观看| 亚洲一区二区三区四区五区黄| a资源在线观看| 91丨porny丨在线| 免费看三级黄色片| 美女性感视频久久| 国产女女做受ⅹxx高潮| 精品动漫3d一区二区三区免费版 | 国产淫片在线观看| 亚洲视频一区二区三区| 人妻一区二区三区| 91精品国产福利| 亚洲字幕av一区二区三区四区| 欧美日韩一二三四五区| 日本熟妇成熟毛茸茸| 亚洲精品老司机| 99热6这里只有精品| 中文字幕乱码一区二区免费| av直播在线观看| aaa亚洲精品| 美国黄色一级视频| 成人夜色视频网站在线观看| 国产乱码一区二区三区四区| 青青草国产成人av片免费| 亚洲国产精品久久久久爰色欲| 黄色日韩精品| 国产在线视频在线| 中国成人一区| 久久久天堂国产精品| 欧美ab在线视频| 午夜啪啪福利视频| 久久久久久久久丰满| 日本女人高潮视频| 国产精品久久久久久麻豆一区软件| 少妇特黄a一区二区三区| 国产精品一区二区99| 欧美一区二区三区在线免费观看| 日韩手机在线| 欧美日韩精品综合| 国产麻豆一区二区三区精品视频| 欧美日韩在线精品| 视频一区在线观看| 日韩免费毛片| 久久麻豆精品| 青青草原网站在线观看| 综合av在线| 黄色一级片在线看| 亚洲永久免费| 亚州精品一二三区| 国产一区二三区| 美女露出粉嫩尿囗让男人桶| 成人高清免费观看| 久久午夜夜伦鲁鲁片| 国产亚洲精品超碰| www日韩在线| 亚洲一区二区三区四区五区中文| 国产午夜视频在线播放| 日韩欧美国产免费播放| 伊人亚洲综合网| 日韩午夜精品视频| 香港一级纯黄大片| 国产亚洲综合久久| caopen在线视频| 性色av一区二区三区免费 | 国产一区二区丝袜高跟鞋图片| 亚瑟国产精品| 国产亚洲精品自在久久| 视频国产一区| 超薄肉色丝袜足j调教99| 精品成人一区| 天天干天天干天天干天天干天天干| 国产一区二区三区四区五区美女 | 91香蕉视频污版| 国产在线不卡视频| 欧美大片免费播放器| 国产精品青草久久| 五月天婷婷综合网| 欧美区视频在线观看| 午夜小视频在线播放| 色狠狠久久aa北条麻妃 | 中文字幕免费一区二区三区| 少妇av一区二区三区无码| 美女一区二区三区在线观看| 亚洲男女在线观看| 136国产福利精品导航| 精品人妻无码一区二区性色| 日韩久久免费av| 91九色在线porn| 欧美一级大片在线观看| 免费看日产一区二区三区| 色狠狠久久av五月综合| 91久久亚洲| 欧美xxxx黑人| 国产精品久久久爽爽爽麻豆色哟哟| 国产无遮挡免费视频| 欧美一卡二卡在线| 92国产在线视频| 欧洲成人免费aa| 久久悠悠精品综合网| 九九久久九九久久| 美女脱光内衣内裤视频久久影院| 国产精品伦子伦| 亚洲影院免费观看| 国产精品伊人久久| 最近2019免费中文字幕视频三 | 国产伊人精品在线| 妖精一区二区三区精品视频 | 三级影片在线看| 欧美天天综合网| 激情福利在线| 欧美亚洲成人精品| ccyy激情综合| 久久久国内精品| 国产做a爰片久久毛片| 国产三级黄色片| 色屁屁一区二区| 婷婷在线观看视频| 久热精品视频在线| 99综合久久| 亚洲欧美丝袜| 免费成人性网站| 亚洲日本精品视频| 91久久线看在观草草青青| 人妻精品一区二区三区| 欧美激情亚洲国产| 欧美中文高清| 蜜桃视频日韩| 最新日韩在线| 日本人妻一区二区三区| 亚洲免费观看高清完整版在线| 一级一级黄色片| 中文日韩在线观看| 台湾佬成人网| 成人在线视频网址| 欧美69视频| 日韩成人av影院| 亚洲成人综合在线| 亚洲精品久久久久avwww潮水| 九色成人免费视频| 国产一区二区三区国产精品| 先锋影音一区二区三区| 蜜桃精品在线观看| 东京热无码av男人的天堂| 欧美老女人第四色| 激情视频在线观看| www.成人av.com| 亚洲高清网站| 久久午夜夜伦鲁鲁片| 91国模大尺度私拍在线视频| 国产高清视频在线观看| 91精品久久久久久综合乱菊| 999国产精品永久免费视频app| 一级片免费在线观看视频| 亚洲免费观看高清| 精品国产亚洲AV| 欧美亚洲伦理www| 精品国产一区二区三区久久久蜜臀| 玖玖爱视频在线| 亚洲精品成a人| 日本韩国精品一区二区| 国产99视频在线观看| 天天射—综合中文网| 久久综合桃花网| 亚洲一区在线免费观看| 亚州精品国产精品乱码不99按摩| 26uuu另类亚洲欧美日本老年| 色天天久久综合婷婷女18| 午夜视频在线网站| 精品福利樱桃av导航| 免费在线高清av| 91在线观看免费| 亚洲精品看片| 欧美黑人欧美精品刺激| 欧美久久免费观看| 日韩av激情| 亚洲国产一区二区精品视频| 国产美女一区二区| 天天干天天操天天爱| 色一区av在线| 久久午夜影院| 色悠悠久久综合网| 婷婷丁香激情综合| 97人人在线| 明星裸体视频一区二区| 黄色精品一二区| a级黄色片免费看|