精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從RLHF到DPO再到TDPO,大模型對齊算法已經是「token-level」

人工智能 新聞
來自中科院和倫敦大學學院的汪軍與張海峰團隊提出了一種從 token-level 角度建模的大模型對齊算法:TDPO。

在人工智能領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務于人類社會。早期的努力集中于通過人類反饋的強化學習方法(RLHF)來管理這些模型,成效顯著,標志著向更加人性化 AI 邁出的關鍵一步。

盡管 RLHF 取得了巨大成功,但是在訓練過程中 RLHF 非常消耗資源。因此,近段時間學者們在 RLHF 奠定的堅實基礎上,繼續探索更為簡單且高效的策略優化路徑,催生了直接偏好優化(DPO)的誕生。DPO 通過數學推理得到獎勵函數與最優策略之間的直接映射,消除了獎勵模型的訓練過程,直接在偏好數據上優化策略模型,實現了從「反饋到策略」的直觀飛躍。這不僅減少了復雜度,還增強了算法的穩健性,迅速成為業界的新寵。

然而,DPO 主要關注在逆 KL 散度約束下的策略優化。由于逆 KL 散度的 mode-seeking 特性,DPO 在提升對齊性能方面表現出色,但是這一特性也傾向于在生成過程中減少多樣性,可能限制模型的能力。另一方面,盡管 DPO 從句子級的角度控制 KL 散度,模型的生成過程本質上是逐個 token 進行的。從句子級控制 KL 散度直觀上表明 DPO 在細粒度控制上存在限制,對 KL 散度的調節能力較弱,可能是 DPO 訓練過程中 LLM 的生成多樣性迅速下降的關鍵因素之一。

為此,來自中科院和倫敦大學學院的汪軍與張海峰團隊提出了一種從 token-level 角度建模的大模型對齊算法:TDPO。

圖片

  • 論文標題:Token-level Direct Preference Optimization
  • 論文地址:https://arxiv.org/abs/2404.11999
  • 代碼地址:https://github.com/Vance0124/Token-level-Direct-Preference-Optimization

為了應對模型生成多樣性顯著下降的問題,TDPO 從 token-level 的角度重新定義了整個對齊流程的目標函數,并通過將 Bradley-Terry 模型轉換為優勢函數的形式,使得整個對齊流程能最終從 Token-level 層面進行分析和優化。相比于 DPO 而言,TDPO 的主要貢獻如下:

  • Token-level 的建模方式:TDPO 從 Token-level 的角度對問題進行了建模,對 RLHF 進行了更精細的分析;
  • 細粒度 KL 散度約束:在每個 token 處從理論上引入了前向 KL 散度約束,使方法能夠更好地約束模型優化;
  • 性能優勢明顯:相比于 DPO 而言,TDPO 能夠實現更好的對齊性能和生成多樣性的帕累托前沿。

DPO 與 TDPO 的主要區別如下圖所示:

圖片

圖 1:DPO 的對齊優化方式。DPO 從 sentence-level 的角度進行建模

圖片

圖 2:TDPO 的對齊優化方式。TDPO 從 token-level 的角度進行建模,并在每個 token 處引入了額外的前向 KL 散度約束,如圖中紅色部分所示,控制模型偏移程度的同時,充當了模型對齊的 baseline

下面介紹兩者方法的具體推導過程。

背景:直接偏好優化(DPO)

DPO 通過數學推導,得到了獎勵函數與最優策略之間的直接映射,消除了 RLHF 過程中的獎勵建模階段:

圖片

將公式 (1) 代入 Bradley-Terry (BT) 偏好模型中,得到直接策略優化(DPO)損失函數:

圖片

其中圖片是由來自偏好數據集 D 的 prompt、獲勝響應和失敗響應構成的偏好對。

TDPO

符號標注

為了建模語言模型順序的、自回歸的生成過程,TDPO 將生成回復表示成 T 個 token 組成的形式 圖片,其中圖片圖片表示字母表(詞匯表)。

當將文本生成建模為馬爾可夫決策過程時,狀態 state 定義為 prompt 和到當前 step 為止已生成的 token 的組合,表示為圖片,而動作 action 則對應于下一個生成的 token,表示為圖片,token 級獎勵定義為圖片

基于以上提供的定義,TDPO 為策略圖片建立了狀態 - 動作函數圖片、狀態值函數圖片和優勢函數圖片

圖片

其中,圖片表示折扣因子。

Token-level 角度的人類反饋強化學習

TDPO 理論上修改了 RLHF 的獎勵建模階段和 RL 微調階段,將它們擴展為了從 token-level 角度考慮的優化目標。

對于獎勵建模階段, TDPO 建立了 Bradley-Terry 模型和優勢函數之間的相關性:

圖片

對于 RL 微調階段,TDPO 定義了以下目標函數:

圖片

推導

從目標 (4) 出發,TDPO 在每個 token 上推導了最優策略圖片和狀態 - 動作函數圖片之間的映射關系:

圖片


其中,圖片表示配分函數。

將方程 (5) 代入方程 (3),我們得到:

圖片

其中,圖片表示策略模型圖片和參考模型圖片表示的隱式獎勵函數差異,表示為

圖片

圖片則表示圖片圖片的序列級前向 KL 散度差異,按圖片加權,表示為

圖片

基于方程 (8),TDPO 最大似然損失函數可以建模為:

圖片

考慮到在實際中,圖片損失傾向于增加圖片,放大圖片圖片之間的差異,TDPO 提出修改方程 (9) 為:

圖片

其中圖片是一個超參數,而

圖片

這里,圖片表示停止梯度傳播運算符。

我們將 TDPO 和 DPO 的損失函數總結如下:

圖片

由此可見,TDPO 在每個 token 處引入了這種前向 KL 散度控制,使得在優化過程中能夠更好地控制 KL 的變化,而不影響對齊性能,從而實現了更優的帕累托前沿。

實驗設置

TDPO 在 IMDb,Anthropic/hh-rlhf、MT-Bench 上個數據集上進行了實驗。

IMDb

在 IMDb 數據集上,該團隊采用了 GPT-2 作為基模型,然后用 siebert/sentiment-roberta-large-english 作為獎勵模型評估策略模型輸出,實驗結果如圖 3 所示。

圖片

從圖 3 (a) 中可以看出,TDPO (TDPO1,TDPO2) 能夠達到比 DPO 更好的 reward-KL 的帕累托前沿,而從圖 3 (b)-(d) 則可以看出,TDPO 在 KL 散度控制方面表現極為出色,遠遠優于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 數據集上,該團隊采用了 Pythia 2.8B 作為基模型,采用兩種方式評估模型生成的好壞:1)使用已有的指標;2)使用 GPT-4 評測。

對于第一種評估方式,該團隊評測了不同算法訓練的模型在對齊性能 (Accuracy) 和生成多樣性 (Entropy) 上的權衡,如表 1 所示。

圖片

可以看到 TDPO 算法不僅在對齊性能 (Accuracy) 上優于 DPO 和 f-DPO,在生成多樣性 (Entropy) 上也占據優勢,在這兩個大模型生成回復的關鍵指標上達到了更好的權衡。

而對于第二種評估方式,該團隊評測了不同算法訓練的模型和人類偏好的吻合度,與數據集中的獲勝響應作對比,如圖 4 所示。

圖片

DPO、TDPO1 和 TDPO2 算法在溫度系數為 0.75 的情況下均能夠達到對獲勝響應的勝率高于 50%,較好地符合人類偏好。

MT-Bench

在論文中的最后一個實驗上,該團隊采用了在 Anthropic HH 數據集上訓練好的 Pythia 2.8B 模型直接用于 MT-Bench 數據集評測,結果如圖 5 所示。

圖片

在 MT-Bench 上,TDPO 能夠達到比其他算法更高的獲勝概率,這充分說明了 TDPO 算法訓練的模型生成的響應的質量更高。

此外,有相關研究對 DPO、TDPO、SimPO 算法進行了對比,可參考鏈接:https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 腳本,評測了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的對齊算法 DPO、TDPO、SimPO 微調訓練得到的性能,以下是實驗的實驗結果:

圖片

表格 2:DPO,TDPO,SimPO 算法性能對比

了解更多結果,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-05 13:00:00

2024-11-26 09:33:44

2024-10-09 16:00:00

AI模型數據

2022-05-31 09:10:06

jQuery前端開發工具

2024-09-09 07:46:16

2025-01-26 15:35:01

AIOps人工運維ChatOps

2023-12-20 14:44:33

軟件開發DevOpsNoOps

2016-11-28 16:23:23

戴爾

2024-01-15 16:41:00

模型數據

2011-05-25 14:59:35

if elseswitch case

2023-08-22 13:21:07

AI算法

2020-12-24 19:01:27

戴爾

2025-03-31 00:33:00

2024-06-05 09:59:13

2021-07-12 14:40:59

以太坊區塊鏈ETH2.0

2020-05-17 13:59:37

物聯網工業物聯網工業4.0

2011-07-18 09:28:44

開源開放

2023-04-18 17:20:00

算法訓練

2024-11-11 17:16:44

點贊
收藏

51CTO技術棧公眾號

亚洲精品视频网上网址在线观看 | 国产成人av免费观看| av在线之家电影网站| 国产在线国偷精品免费看| 欧美精品videos另类日本| 91精品人妻一区二区| 九七电影院97理论片久久tvb| 亚洲激情五月婷婷| 欧美亚洲另类在线一区二区三区| 97超碰人人草| 久久久久久婷| 欧美老妇交乱视频| 在线视频第一页| 红杏视频成人| 欧美一区二区私人影院日本| 欧美网站免费观看| 成人毛片av在线| 国产亚洲污的网站| 国产欧美一区二区视频| 中文字幕 欧美激情| 亚洲一级特黄| 久久夜色撩人精品| 亚洲成人黄色av| 国产在线播放精品| 日韩一区二区三区在线视频| 97视频在线免费播放| a级网站在线播放| 国产精品少妇自拍| 欧美美乳视频网站在线观看| 六月丁香综合网| 国产在线精品一区二区| 国产精品国产三级国产aⅴ浪潮| 动漫精品一区一码二码三码四码| 99欧美视频| 在线成人激情黄色| 精品少妇一区二区三区免费观| 在这里有精品| 日韩三级.com| 亚洲国产午夜精品| 国产95亚洲| 51久久夜色精品国产麻豆| 免费午夜视频在线观看| 国产极品人妖在线观看| 一区二区三区日韩精品| 99久re热视频精品98| 国内精品久久久久久野外| 国产精品三级电影| 午夜视频久久久| 国产福利免费在线观看| 国产人成一区二区三区影院| 欧美日韩亚洲一区二区三区在线观看| 日韩一级片免费| 成人免费黄色大片| 国产精品免费看一区二区三区| 亚洲欧美激情在线观看| 国产a视频精品免费观看| 97久久夜色精品国产九色| 99国产精品99| 高清在线成人网| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 深爱五月激情网| 中文字幕av一区二区三区人| 亚洲乱码一区二区| 日本黄色网址大全| 国内精品久久久久久久影视简单| 亚洲日韩欧美视频| 人成免费在线视频| 亚洲二区三区不卡| 欧美极品少妇与黑人| 国产微拍精品一区| 日韩精品成人一区二区三区| 国产精品久久久久久久久粉嫩av| 中文字幕一区二区三区波野结| 久久激情五月激情| 999精品视频一区二区三区| 亚洲成人av综合| 99re热这里只有精品视频| 欧美精品久久久| 三区四区电影在线观看| 亚洲日韩欧美一区二区在线| 国产欧美久久久久| 欧美日韩国产v| 欧美日韩不卡一区| 超碰caoprom| 久久最新网址| 欧美成人精品一区| av大片免费观看| 蜜桃精品在线观看| 成人午夜影院在线观看| 嫩草研究院在线| 自拍偷在线精品自拍偷无码专区 | 亚洲欧美日韩综合国产aⅴ| 国产精品www网站| www.国产麻豆| 国产日产欧美一区| 97视频在线免费| 亚洲第一会所| 精品久久久久久久久久久久久久久久久 | 一区二区在线视频观看| 日韩电影免费观看在线观看| 来吧亚洲综合网| 国产一区二区高清| 成人在线视频福利| 日韩一区av| 亚洲精品国产无天堂网2021| 男人天堂999| 亚洲乱码一区| 中文字幕精品在线视频| 亚洲一区 视频| 狠狠色狠狠色综合| 欧美日韩免费高清| 久草在线资源站资源站| 欧美人妖巨大在线| 中文字幕被公侵犯的漂亮人妻| 欧美不卡视频| 国产精品偷伦一区二区| 手机在线精品视频| 亚洲精品视频免费观看| 日韩在线第三页| 老司机aⅴ在线精品导航| 日韩在线观看免费全| 一级片视频在线观看| 懂色av噜噜一区二区三区av| av动漫免费观看| 午夜精品成人av| 日韩大陆欧美高清视频区| 免费一级片在线观看| 久久99国产精品成人| 视频一区二区在线观看| 国模冰冰炮一区二区| 亚洲精品第一国产综合精品| 免费在线观看av网址| 狠狠色丁香久久婷婷综| 一区不卡字幕| 日韩黄色三级| 日韩亚洲欧美成人| 一区两区小视频| 国产精品亲子乱子伦xxxx裸| 国产极品美女高潮无套久久久| 国产精品流白浆在线观看| 久久97精品久久久久久久不卡| 国产永久免费视频| 国产亚洲欧美日韩日本| 久久精品午夜福利| 欧美男gay| 国产成人精品视| 黄色av网站在线看| 在线视频综合导航| 亚洲黄色免费视频| 日韩高清在线一区| 色综合666| 欧美特黄色片| 久久天天躁狠狠躁夜夜躁| 国产内射老熟女aaaa∵| 亚洲柠檬福利资源导航| av在线免费观看不卡| 欧美日韩hd| 国产乱码一区| 在线免费看h| 在线性视频日韩欧美| 一级黄色小视频| 亚洲色图清纯唯美| 中文字幕在线国产| 国产亚洲精品自拍| 天堂va久久久噜噜噜久久va| 福利精品一区| 久久亚洲精品小早川怜子66| www.欧美国产| 欧美日韩精品在线播放| 成人免费无遮挡无码黄漫视频| 日韩av在线播放中文字幕| 亚洲 日韩 国产第一区| 国产成人久久精品一区二区三区| 欧美激情一区二区三区高清视频 | 成人深夜福利app| 人妻av中文系列| 欧美精选视频在线观看| 国产主播喷水一区二区| 日韩电影免费观看| 亚洲欧美在线磁力| 国产精品久久免费| 午夜国产精品影院在线观看| 成人国产精品久久久网站| 久久国产综合精品| 无码中文字幕色专区| 成人久久一区| 国产日韩二区| 成人黄色免费观看| 久久久久在线观看| 91看片在线观看| 精品久久99ma| 在线免费a视频| 亚洲国产wwwccc36天堂| 亚欧洲乱码视频| 国产精品一区二区你懂的| 草草久久久无码国产专区| 外国成人免费视频| 精品免费一区二区三区蜜桃| 日韩三级成人| 奇米4444一区二区三区| 91网址在线观看| 亚洲欧美日韩网| 亚洲精品18p| 欧美日韩国产电影| 久久青青草视频| 亚洲激情自拍视频| 少妇太紧太爽又黄又硬又爽小说| 不卡一卡二卡三乱码免费网站| 无限资源日本好片| 亚洲女人av| 日韩中文在线字幕| 残酷重口调教一区二区| 久久精品99久久| 一区二区免费| 成人写真视频福利网| 欧美特黄aaaaaaaa大片| 97久久久久久| 欧美黑人猛交| 久久综合伊人77777| av在线中文| 亚洲人成在线免费观看| 日本xxxx人| 欧美成人一区二区三区| 国产又大又粗又长| 欧美优质美女网站| 国产suv精品一区二区33| 亚洲国产裸拍裸体视频在线观看乱了| 一区二区三区在线播放视频| 久久久国产一区二区三区四区小说| 扒开伸进免费视频| 国产69精品久久99不卡| 无套内谢丰满少妇中文字幕| 久久精品免费观看| 五月天激情视频在线观看| 久久精品在线| 乱子伦视频在线看| 亚洲黄色天堂| 黄页免费在线观看视频| 亚洲激情在线| 国产3p露脸普通话对白| 精品999网站| 99在线免费视频观看| 好看的亚洲午夜视频在线| 亚洲理论电影在线观看| 亚洲性视频h| 六月婷婷在线视频| 亚洲影院免费| 凹凸日日摸日日碰夜夜爽1| 米奇777在线欧美播放| 少妇性饥渴无码a区免费| 国产日韩专区| 日本va中文字幕| 青娱乐精品在线视频| 91丨九色丨蝌蚪| 高清不卡在线观看av| 国产高清成人久久| 久久一日本道色综合| 中文字幕第4页| 国产精品美女一区二区| 特一级黄色录像| 一区二区三区免费网站| 日本三级欧美三级| 欧美性极品xxxx娇小| 波多野结衣午夜| 欧美久久久久久久久中文字幕| 国产女同91疯狂高潮互磨| 日韩免费一区二区三区在线播放| 欧美 中文字幕| 亚洲乱码国产乱码精品精| 成年人在线视频| 久久91亚洲精品中文字幕奶水 | 国产精品久久久久久久久男| 天天综合网站| 91亚洲精品久久久| 狼人天天伊人久久| 亚洲视频欧美在线| 欧美精品福利| 欧美三级午夜理伦三级| 麻豆91精品91久久久的内涵| 日本女人性视频| 91免费看`日韩一区二区| 国产在线免费av| 亚洲一区二区在线视频| 丰满人妻老熟妇伦人精品| 欧美日韩高清影院| 人妻精品一区二区三区| 亚洲最新视频在线| 日本高清在线观看视频| 日本视频久久久| 亚洲国产精品免费视频| 蜜桃av久久久亚洲精品| 亚洲v在线看| 丰满少妇被猛烈进入高清播放| 久久超碰97人人做人人爱| 久久久久久久久久影视| 欧美国产日韩一二三区| 精品一区二区三区四| 欧美日韩中字一区| 男人天堂网在线视频| www.亚洲一区| 中文字幕一区久| 国产精品久久一区二区三区| 四季av一区二区三区免费观看| 国产精品裸体瑜伽视频| 另类中文字幕网| 免费看污黄网站在线观看| 亚洲综合一区二区| 国产精品伊人久久| 亚洲人成电影在线观看天堂色| 岛国毛片av在线| 91精品啪在线观看麻豆免费| 国产综合久久久| 无码精品a∨在线观看中文| 无码人妻一区二区三区线| 午夜精品久久久久久久久| 91成人国产综合久久精品| 亚洲精品天天看| 123区在线| 超碰97在线播放| 亚洲女同中文字幕| 男人添女人下面免费视频| 久久久亚洲综合| 国产成人无码精品久久久久| 日韩一区二区三区电影在线观看| 91在线视频免费看| 国产成人黄色av| 希岛爱理av免费一区二区| 国产曰肥老太婆无遮挡| 国产精品99久久久| 好吊日在线视频| 欧美电影影音先锋| 在线免费看a| 国产视频福利一区| 色综合狠狠操| 韩国中文字幕av| 欧美经典一区二区| 国产又粗又猛又黄视频| 亚洲欧美一区二区三区四区| 在线中文字幕播放| 日本不卡久久| 日韩精品一二三区| 久久婷婷五月综合| 欧美日韩视频第一区| √新版天堂资源在线资源| 国产精品日韩在线一区| 欧美电影免费| 不用播放器的免费av| 亚洲视频一区在线| 99产精品成人啪免费网站| 久99九色视频在线观看| 视频在线一区| 欧美 国产 综合| 久久综合成人精品亚洲另类欧美| 六月丁香婷婷综合| 亚洲无线码在线一区观看| 国产精品99精品一区二区三区∴| 一区二区三区不卡在线| 国产一区二区视频在线播放| 成人免费视频网站入口::| 精品播放一区二区| 久久毛片亚洲| 亚洲精品成人三区| 国产麻豆精品一区二区| 国产无码精品视频| 亚洲欧美日韩精品久久奇米色影视| 2019年精品视频自拍| 中文字幕欧美人与畜| 国产盗摄视频一区二区三区| 国产网址在线观看| 亚洲欧洲日产国产网站| 亚洲成人高清| av高清在线免费观看| 欧美极品aⅴ影院| av中文字幕免费| 26uuu另类亚洲欧美日本一| 国产成人黄色| 99精品视频国产| 欧美三级欧美成人高清www| 国产youjizz在线| av一区二区三区四区电影| 亚洲欧美日韩在线观看a三区 | 亚洲欧美在线另类| 男人天堂av网| 国产日韩亚洲欧美| 亚洲成人直播| 999福利视频| 亚洲激情在线观看| 日韩一级视频| 久久久久久久久久久99| 亚洲国产成人在线| 免费观看国产视频| 国产精品视频网站| 亚洲精品美女| 我要看黄色一级片| 国产视频在线一区二区| 国产日韩中文在线中文字幕| 国产91在线免费| 亚洲综合免费观看高清完整版在线| 国产在线日本| 国产在线精品二区|