精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ICML 2024 Oral | DPO是否比PPO更適合LLM,清華吳翼團隊最新揭秘

人工智能 新聞
對齊技術中,最重要的算法框架就是根據人類反饋的強化學習(RLHF, Reinforcement Learning from Human Feedback)。

吳翼,清華大學交叉信息院助理教授,曾任 OpenAI 全職研究員,研究領域為強化學習,大模型對齊,人機交互,機器人學習等。2019 年在美國加州大學伯克利分校獲得博士學位,師從 Stuart Russell 教授;2014 年本科畢業于清華大學交叉信息院(姚班)。其代表作包括:NIPS2016 最佳論文,Value Iteration Network;多智能體深度強化學習領域最高引用論文,MADDPG 算法;OpenAI hide-and-seek 項目等。

如何讓大模型更好的遵從人類指令和意圖?如何讓大模型有更好的推理能力?如何讓大模型避免幻覺?能否解決這些問題,是讓大模型真正廣泛可用,甚至實現超級智能(Super Intelligence)最為關鍵的技術挑戰。這些最困難的挑戰也是吳翼團隊長期以來的研究重點,大模型對齊技術(Alignment)所要攻克的難題。

對齊技術中,最重要的算法框架就是根據人類反饋的強化學習(RLHF, Reinforcement Learning from Human Feedback)。RLHF 根據人類對大模型輸出的偏好反饋,來學習基于人類反饋的獎勵函數(Reward Model),并進一步對大模型進行強化學習訓練,讓大模型在反復迭代中學會辨別回復的好壞,并實現模型能力提升。目前世界上最強的語言模型,比如 OpenAI 的 GPT 模型和 Anthropic 的 Claude 模型,都極其強調 RLHF 訓練的重要性。OpenAI 和 Anthropic 內部也都開發了基于大規模 PPO 算法的 RLHF 訓練系統進行大模型對齊。

然而,由于 PPO 算法流程復雜,算力消耗大,美國 AI 公司的大規模 RLHF 訓練系統也從不開源,所以盡管 PPO 算法非常強大,學術界的對齊工作卻一直很少采用復雜的 PPO 算法進行 RLHF 研究,轉而普遍使用 SFT(監督微調)或者 DPO(Direct Policy Optimization)等更簡化、更直接、對訓練系統要求更低的對齊算法。

那么,簡單的對齊算法一定效果更好嗎?吳翼團隊發表在 ICML 2024 的工作 “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study” 仔細探討了 DPO 與 PPO 算法的特點,并指出提升 RLHF 算法效果的關鍵點。在該工作中,吳翼團隊基于自研的大規模 RLHF 訓練系統,首次采用 PPO 算法及參數量更少的開源模型,在公認最困難的挑戰 —— 代碼生成任務 CodeContest—— 上超過閉源大模型 AlphaCode 41B。

圖片

相關成果被 ICML 2024 錄用為 Oral Presentation,并將在 7 月 23 日于 ICML 2024 第一個 Oral session Alignment-1 上和 OpenAI、Anthropic 等知名機構的工作一起進行公開匯報。

圖片

接下來讓我們對比一下 GPT-4 和經過 PPO 算法訓練的 CodeLlama 34B 模型在代碼生成上的效果,在例子 1 中,經過 PPO 算法訓練的 CodeLlama 34B 模型與 GPT-4 模型生成了質量相當的代碼。

圖片

在示例 2 中,可以看到經過 PPO 算法訓練的 CodeLlama 34B 模型與 GPT-4 模型都能生成完整并且可運行的 python 代碼。然而,在這個例子下,GPT-4 生成了錯誤的代碼,在測試數據上無法正確輸出。而經過 PPO 算法訓練的 CodeLlama 34B 模型生成的代碼可以通過測試。

圖片

圖片

在 ICML 2024 的這篇論文中,研究團隊詳細探討了 DPO 與 PPO 算法的特點,并指出提升 DPO 和 PPO 能力的關鍵點。

圖片

  • 論文標題:Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
  • 論文地址:https://arxiv.org/pdf/2404.10719

DPO 算法的局限性

相比于 PPO,DPO 使用離線數據而非在線采樣數據訓練。經分析,DPO 算法會導致訓練出的模型對訓練數據分布之外的輸出產生偏好,在某些情況下產生不可預料的回復。

于是,為了提升 DPO 算法的能力,研究團隊總結了兩個關鍵技術:在 RLHF 訓練前進行額外的 SFT 訓練,以及使用在線采樣數據而非離線數據

圖片

實驗表明,使用額外的 SFT 訓練可以使 base 模型以及 reference 模型更偏向于數據集內的分布,大大提升 DPO 算法效果;另一方面,使用在線采樣數據進行迭代訓練的 DPO 算法可以得到穩步提升,表現遠遠優于基礎的 DPO 算法。

PPO 算法的關鍵點

除去 DPO,論文中也總結了發揮 PPO 最大能力的三個關鍵點:

  • 使用大的批大小(large batch size)
  • 優勢歸一化(advantage normalization)
  • 以及對 reference model 使用指數移動平均進行更新(exponential moving average for the reference model)。

圖片

研究團隊成功使用 PPO 算法在對話任務 Safe-RLHF/HH-RLHF 以及代碼生成任務 APPS/CodeContest 上達到了 SOTA 的效果。

圖片

在對話任務上,研究團隊發現綜合了三個關鍵點的 PPO 算法顯著優于 DPO 算法以及在線采樣的 DPO 算法 DPO-Iter。

圖片

在代碼生成任務 APPS 和 CodeContest 上,基于開源模型 Code Llama 34B,PPO 算法也達到了最強的水平,在 CodeContest 上超越了之前的 SOTA,AlphaCode 41B。

想要實現效果較好的大模型對齊,高效率的訓練系統是不可缺少的,在實現大規模強化學習訓練上,吳翼團隊有長期的積累,從 2021 年開始就搭建了專屬的分布式強化學習框架。

圖片

  • NeurIPS 2022 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games [1]:提出并開源了用于多智能體的強化學習并行訓練框架 MAPPO,支持合作場景下的多智能體訓練,該工作被大量多智能體領域工作采用,目前論文引用量已超過 1k。
  • ICLR 2024 Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [2]: 提出了用于強化學習的分布式訓練框架,可輕松擴展至上萬個核心,加速比超越 OpenAI 的大規模強化學習系統 Rapid。
  • ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [3]: 最近,吳翼團隊進一步實現了分布式 RLHF 訓練框架 ReaLHF。吳翼團隊的 ICML Oral 論文正是基于 ReaLHF 系統產出的。ReaLHF 系統經過長時間的開發,經歷大量的細節打磨,達到最優性能。相比于之前的開源工作,ReaLHF 可以在 RLHF 這個比預訓練更復雜的場景下達到近乎線性的拓展性,同時具有更高的資源利用率,在 128 塊 A100 GPU 上也能穩定快速地進行 RLHF 訓練,相關工作已開源:https://github.com/openpsi-project/ReaLHF

除了提升大語言模型代碼能力之外,吳翼團隊還采用多種將強化學習算法和大模型結合的方式,實現了多種復雜 LLM Agent,并可以和人類進行復雜交互。

在 MiniRTS 中使用強化學習既能聽從人類指令也能做出最優決策的語言智能體 [4]。

圖片

在狼人殺中訓練策略多樣化的強化學習策略以提升大模型的決策能力 [5]。

圖片

在 Overcooked 游戲中結合小模型與大模型實現能進行實時反饋的合作 Language Agent [6]。

圖片

結合強化學習訓練的機器人控制策略與大語言模型推理能力讓機器人能夠執行一系列復雜任務 [7]。

圖片

為了使大模型能真正走進千家萬戶,對齊技術是至關重要的,對于學術界和大模型從業者來說,好的開源工作和論文無疑會大大降低實驗成本和開發難度,也期待隨著技術發展,會有更多服務于人類的大模型出現。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-05 13:00:00

2010-11-24 10:16:04

Office 365Google Apps

2024-05-16 12:48:12

數據AI

2011-12-07 20:43:33

2021-04-28 14:50:07

ElasticSearMySQL數據庫

2021-02-19 08:17:07

MySQL ElasticSea搜索

2009-11-05 18:50:04

Windows 7上網本

2009-09-04 11:26:00

英特爾虛擬化

2025-06-20 14:29:02

模型訓練大數據

2024-08-07 09:30:00

2021-01-15 10:52:10

PythonVBAExcel

2024-11-25 08:50:00

2018-03-28 14:24:07

安卓蘋果智能家居

2024-04-03 08:28:31

GolangPHP語言

2011-09-23 10:14:05

開放操作系統Android

2021-04-27 09:00:00

PythonIDE開發

2023-08-08 10:21:23

微軟Windows

2010-07-13 16:15:49

XenServer5.6

2025-06-26 08:42:00

模型安全AI

2024-12-26 15:30:00

模型深度學習AI
點贊
收藏

51CTO技術棧公眾號

四川一级毛毛片| 一区二区三区视频| 国产精品视频一区在线观看| 女厕嘘嘘一区二区在线播放| 欧美性淫爽ww久久久久无| 夜夜爽99久久国产综合精品女不卡| 国产成人精品毛片| 香蕉av777xxx色综合一区| 色香阁99久久精品久久久| 精品伦一区二区三区| 日本肉肉一区| 亚洲色图一区二区三区| 国产日韩欧美二区| 中文字幕在线播出| 99视频一区| 成人97在线观看视频| 香蕉网在线播放| 日韩三级久久| 欧美挠脚心视频网站| 久久无码高潮喷水| 在线中文字幕电影| 国产日韩欧美一区二区三区综合| 99九九视频| 中文字幕一区2区3区| 在线成人www免费观看视频| 中文字幕在线精品| 五月开心播播网| 欧美片网站免费| 欧美伊人精品成人久久综合97| 久久久久久久久久久综合| 欧美成人性生活视频| 久久这里都是精品| 精品不卡在线| 亚洲精品久久久久久无码色欲四季| 奇米色一区二区| 日本久久亚洲电影| 日本熟妇乱子伦xxxx| 一区二区三区四区日韩| www.久久色.com| 久久久视频6r| 一区二区导航| 日韩成人高清在线| 99久久久无码国产精品性波多| crdy在线观看欧美| 欧美日韩mp4| 香蕉视频禁止18| 欧美日韩五区| 91福利视频网站| 国产av天堂无码一区二区三区| 久久www人成免费看片中文| 国产精品高潮呻吟久久| 亚洲一区二区在| 天堂а√在线资源在线| 国产精品免费网站在线观看| 性欧美精品一区二区三区在线播放 | 亚洲人人夜夜澡人人爽| 欧美大奶一区二区| 亚洲精品第一国产综合精品| 女人被狂躁c到高潮| 美女午夜精品| 日韩精品免费电影| 右手影院亚洲欧美| 精品国产1区| 色噜噜亚洲精品中文字幕| 中文字幕资源站| 久久久久久久久99精品大| 久久天天躁日日躁| 久久久.www| 亚洲黄网站黄| 日本国产一区二区三区| 嫩草影院一区二区三区| 蜜桃av一区二区三区| 91九色国产视频| 精品人妻一区二区三区三区四区| 成人av网站在线| 久久久久久艹| 五月香视频在线观看| 亚洲人成精品久久久久久| 国产亚洲黄色片| 免费福利视频一区二区三区| 欧美日韩在线直播| 下面一进一出好爽视频| 欧美黑人做爰爽爽爽| 亚洲视频在线观看视频| 我要看一级黄色录像| 在线观看不卡| 国产精品久久久久久久app| 国产三级三级在线观看| bt欧美亚洲午夜电影天堂| 色一情一乱一伦一区二区三区丨| 国产在线观看a| 欧美午夜精品久久久久久人妖| 亚洲天堂av线| 日韩欧美中文在线观看| 亚洲色图狂野欧美| 印度午夜性春猛xxx交| 西西裸体人体做爰大胆久久久| 国产精品中文字幕在线| 黄色三级网站在线观看| 中文字幕不卡的av| 国产色一区二区三区| 免费高清视频在线一区| 精品国产成人系列| 国产精品久久国产精麻豆96堂| 亚洲一级网站| 国产日韩在线精品av| 天天操天天射天天| 亚洲特黄一级片| 蜜臀av午夜一区二区三区| 日本一区二区三区播放| 一区二区欧美久久| 亚洲久久在线观看| 成人一级片在线观看| 亚洲精品9999| 不卡福利视频| 欧美tk—视频vk| 中文乱码字幕高清一区二区| 先锋亚洲精品| 好吊色欧美一区二区三区四区| 快射av在线播放一区| 在线观看国产91| 中文字幕一区二区久久人妻网站 | 超碰影院在线观看| 大香伊人久久精品一区二区| 俺也去精品视频在线观看| 丰满少妇xoxoxo视频| 国产精品888| 亚洲综合激情五月| 日韩一区二区三区四区五区| 亚洲精品影视在线观看| 全部毛片永久免费看| 成人在线视频一区| 免费观看国产视频在线| 亚洲一区二区三区久久久| 亚洲欧美在线第一页| 91精品国产乱码久久久张津瑜| 国产酒店精品激情| 超碰10000| 国产999精品在线观看| 日韩在线播放一区| 91片黄在线观看喷潮| 国产精品麻豆99久久久久久| 中文字幕国产传媒| 国产亚洲一区| 国产精品福利在线| 精品成人一区二区三区免费视频| 欧美日韩在线视频一区| yjizz视频| 亚洲看片一区| 久久久久一区二区| 日韩影院在线| 亚洲女人天堂成人av在线| 日韩不卡视频在线| 久久久99久久| 污污的网站18| 99热国内精品| 99国产超薄丝袜足j在线观看| 欧美高清另类hdvideosexjaⅴ| 欧美一级欧美三级在线观看 | 欧美国产免费| 成人欧美一区二区三区在线观看 | 亚洲一区二区三区四区五区黄| 极品白嫩少妇无套内谢| 91久久午夜| 欧美精品一区在线| 国产亚洲人成a在线v网站 | 久草精品视频在线观看| 93久久精品日日躁夜夜躁欧美 | 国产无套在线观看| 97久久人人超碰| 天堂中文视频在线| 亚洲网色网站| 国产一区二区三区色淫影院| 不卡福利视频| 久久精品国产成人| www.av网站| 欧美色欧美亚洲高清在线视频| 西西444www无码大胆| 精品一区二区国语对白| www.亚洲成人网| 欧美美女在线观看| 91精品国产综合久久香蕉最新版 | 国产精品在线看| 性欧美video高清bbw| 精品网站999www| 黄色一区二区视频| 亚洲电影中文字幕在线观看| 久久亚洲AV无码专区成人国产| 国产在线精品不卡| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 日韩在线理论| 国产无套精品一区二区| 日本精品在线中文字幕| 欧美黄色片免费观看| 你懂的视频在线观看| 日韩美女一区二区三区| 久久人人爽人人爽人人片av免费| 亚洲人成亚洲人成在线观看图片| 国产全是老熟女太爽了| 国产一区二区视频在线播放| 妺妺窝人体色www在线小说| 我不卡手机影院| 欧美日韩一区二区三区在线视频| 麻豆国产一区二区三区四区| 欧美一区二区三区免费视| 二区三区在线观看| 亚洲色图美腿丝袜| 特黄aaaaaaaaa真人毛片| 欧美精品一二三| av毛片在线免费观看| 亚洲一区中文在线| 在线观看天堂av| 久久久99精品免费观看不卡| 欧美图片自拍偷拍| 久久99蜜桃精品| 国产主播在线看| 影音先锋久久精品| 99re8这里只有精品| 久久精品不卡| 日韩jizzz| 日本成人中文| 国产99在线播放| 看亚洲a级一级毛片| 成人a级免费视频| 成人国产一区| 国产精品久久久久久久久| 天堂电影一区| 97在线视频国产| 高清电影在线免费观看| 欧美xxxx18国产| 成人在线影视| 日韩中文字幕久久| av黄色在线观看| 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 亚洲精品第五页| 欧美日韩不卡一区| 最近中文字幕在线观看视频| 日韩欧美在线视频免费观看| 欧美成人精品欧美一级乱黄| 亚洲一区二区在线观看视频 | av在线之家电影网站| 亚洲精品天天看| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 2022亚洲天堂| 99精品热视频只有精品10| 国产九九九九九| 国产日本精品| 男女高潮又爽又黄又无遮挡| 欧美专区在线| av丝袜天堂网| 日本不卡视频一二三区| 制服丝袜综合网| 久久精品999| 日韩不卡的av| 成人黄色大片在线观看| 99久久免费看精品国产一区| 91蜜桃视频在线| 国产精品毛片一区二区| 欧美国产一区二区在线观看| 2017亚洲天堂| 亚洲精品中文在线| 久草视频中文在线| 激情久久av一区av二区av三区| 日本一区二区不卡在线| 欧美性生交大片免费| 亚洲午夜无码久久久久| 在线电影国产精品| 亚洲av无码乱码国产精品久久| 亚洲国产精品女人久久久| 欧洲一区av| 日韩综合中文字幕| 少女频道在线观看高清 | 国产成人综合网| v天堂中文在线| 中文字幕欧美三区| 中文字幕在线2021| 大桥未久av一区二区三区| 日韩综合在线观看| 51久久夜色精品国产麻豆| www夜片内射视频日韩精品成人| 精品动漫一区二区三区在线观看| 性感美女一级片| 亚洲国产精品天堂| 日本一级一片免费视频| 色天使久久综合网天天| 中文字幕人妻精品一区| 欧美成人一区二区三区| 天天射天天色天天干| 在线观看欧美成人| 在线免费观看污| 青青久久aⅴ北条麻妃| 欧美极品在线| 国产亚洲欧美一区二区三区| 狠狠色丁香婷婷综合影院| 91视频成人免费| 久久激情中文| 国产裸体视频网站| 午夜久久久精品| 欧美午夜精品| 国产日韩一区二区在线| 国产一区在线不卡| 国产精品无码一区二区三区免费 | 欧美精品一二三四| 天天操天天爱天天干| 久久影视电视剧免费网站清宫辞电视| 国内激情视频在线观看| 91免费的视频在线播放| 免费看日本一区二区| www.xxx麻豆| 国产在线不卡一区| 手机免费看av| 精品福利樱桃av导航| 国产女无套免费视频| 亚洲午夜激情免费视频| 91九色美女在线视频| 成人在线国产精品| 成人激情诱惑| 99色精品视频| 成人精品国产免费网站| 欧美做爰爽爽爽爽爽爽| 精品视频在线免费| 精品99又大又爽又硬少妇毛片| 欧美极品少妇xxxxⅹ裸体艺术| 麻豆久久久久| 日本精品二区| 久久亚洲不卡| 日韩av一二区| 福利微拍一区二区| 五月婷婷丁香花| 国产69精品久久久| 亚洲一区网址| 中文字幕精品在线播放| 狠狠色丁香九九婷婷综合五月| 日韩人妻无码精品综合区| 欧美视频一区二区三区…| 国产小视频一区| 欧美大片在线看| 97色成人综合网站| 国产专区在线视频| 国产精品一区专区| 青青青在线免费观看| 日韩视频在线观看一区二区| а天堂中文在线官网| 亚洲va码欧洲m码| 亚洲国产精品综合久久久| 男生操女生视频在线观看| 国产精品乱码人人做人人爱| 中文字幕av免费观看| 尤物yw午夜国产精品视频明星| 欧洲av一区二区| 午夜精品一区二区在线观看的| 日韩激情在线观看| av在线播放中文字幕| 欧美色爱综合网| 免费av毛片在线看| 亚洲精品免费网站| 亚洲看片一区| 日韩在线免费观看av| 欧美午夜免费电影| 国产在线69| 国产精品白丝jk白祙| 老鸭窝91久久精品色噜噜导演| 成人片黄网站色大片免费毛片| 欧美亚一区二区| www在线免费观看视频| 国产一区高清视频| 亚洲精品女人| 亚洲av熟女国产一区二区性色| 欧美日韩一区成人| av网址在线播放| 国产在线一区二区三区播放| 日韩精品欧美成人高清一区二区| 少妇的滋味中文字幕bd| 欧美一区午夜视频在线观看 | 97视频热人人精品免费| 岛国大片在线免费观看| 婷婷综合久久一区二区三区| 国产精品久久久久久久龚玥菲 | 中文字幕欧美人妻精品一区| 国产精品久久久久久久久晋中| 亚洲国产999| 日韩av男人的天堂| 婷婷综合网站| 久久久久久久久免费看无码| 在线不卡的av| 三妻四妾的电影电视剧在线观看| 亚洲精美视频| 成人动漫一区二区在线| 中文字幕精品无码亚| 欧美精品日韩三级| 狠狠色狠狠色综合婷婷tag| 中文字幕第六页| 91久久香蕉国产日韩欧美9色| 制服丝袜在线播放| 日韩精品一区二区三区外面 | 在线观看电影av| 美国av一区二区三区| 狠狠色丁香九九婷婷综合五月| 久久99国产综合精品免费| www.色综合|