精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了

發布于 2024-5-20 09:23
瀏覽
0收藏

本文作者熊偉是伊利諾伊香檳分校的在讀博士生,其導師為 Tong Zhang 與 Nan Jiang。他的主要研究方向是 RLHF 與機器學習理論。


基于人類反饋的強化學習 (RLHF) 使得大語言模型的輸出能夠更加符合人類的目標、期望與需求,是提升許多閉源語言模型 Chat-GPT, Claude, Gemini 表現的核心方法之一。在此之前,傳統的開源解決方案是基于離線數據集的直接偏好優化 (DPO),并獲得了一系列的明顯超出 SFT 的開源模型。然而,在過去的幾個月中,許多研究表現,在線迭代版本的 RLHF 算法通常要明顯超過他們的離線版本。與此同時,開源社區在這個領域暫時還沒有一個完整的、易于復現的全流程解決方案。


近日,來自 UIUC、Salesforce 的研究人員基于 ICML 2024 論文《Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint》與其他一些領域相關工作實現了完全基于開源數據、模型的在線迭代 RLHF 全流程: (1) 有監督學習;(2) 獎勵函數與偏好函數的建模;(3) 以及基于 DPO 的迭代 RLHF,并基于 LLaMA3-8B 得到目前最先進水平的開源 RLHF 模型。此外,研究人員還將模型、代碼、數據、和超參數選擇全部開源到 GitHub 與 hugging face,以便社區人員能夠復現和進一步在這個方向進行研究。


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區

Figure 1 最終模型與 LLaMA3-8B-it 對比


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


  • 論文地址:https://arxiv.org/pdf/2405.07863
  • 獎勵模型 / 偏好模型建模: https://github.com/RLHFlow/RLHF-Reward-Modeling
  • 迭代 RLHF: https://github.com/RLHFlow/Online-RLHF
  • Huggingface RLFlow: https://huggingface.co/RLHFlow


離線 RLHF 與在線迭代 RLHF


離線直接偏好優化 (offline DPO) 由于基于深度強化學習算法 PPO 的 RLHF 方案訓練的不穩定性以及對 GPU 資源的不友好 (需要同時加載多個模型),開源社區通常使用直接偏好優化算法 (DPO), 在離線的偏好數據集上進行有監督學習,具體地說:


  • 離線偏好數據集收集:首先隨機采樣一個 prompt,并使用 SFT 模型以及更加強大的語言模型 (GPT-4, Claude, LLaMA2-Chat-70B) 收集兩個回復,最后讓人類 / GPT-4 標注其更喜歡的回復;
  • 在離線數據集上使用 DPO/Slic/IPO 等損失函數進行有監督學習。


由于離線偏好數據集的回復通常由更加強大的語言模型 (GPT-4, Claude, LLaMA2-Chat-70B) 收集,并用以訓練 10B 以下的模型,所以可以看成是一種特殊的蒸餾方式。此外,研究人員在論文中證明了在這種情況下,需要離線數據集對全空間有較好的覆蓋,此時才能保證 DPO 能學習到最優策略。


在線迭代 RLHF 相反,在線迭代 RLHF 并不完全依賴于外部專家模型的回復,而是通過當前模型自己生成的回復組成的偏好數據集進行學習,具體的說,此時既可以從一個離線數據集開始,也可以完全從零開始,在每一輪迭代中,


  • 模型選擇:首先依據歷史數據對模型進行訓練,從而得到兩個模型;
  • 數據收集:對每條 prompt, 用兩個模型采樣 2 條回復,并讓外部偏好模型進行標注,總共收集 m 個偏好數據對加入歷史數據集中。


可見為了實現在線迭代 RLHF,(1) 首先需要一個外部偏好模型,以及 (2) 需要明確每輪的模型選取策略。


基于開源數據集的偏好模型建模


理想情況下,在線迭代學習的外部偏好信號應當由一組有代表性的人類給出,用以模擬模型部署所面對的用戶。由于人類標注價格昂貴,研究人員選擇基于開源數據集,訓練一個獎勵函數或者成對偏好函數,根據 UW 與 Allen AI 提出的評估獎勵函數質量的 rewardbench 結果,訓練所得到的模型達到開源模型的最佳表現 (Cohere RM 并不開源):


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


同時,研究人員收集清洗了開源偏好數據集中的 prompt 集合,可視化結果如下


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


數據收集策略選擇


在原始論文中,研究者推導出一般性的策略選取原則:


利用現有數據的信息選取主要模型:首先在歷史收集到的所有數據集上運行 DPO (也可以替換為 Slic, IPO 等算法), 獲得主要模型;


最大化差異進行探索幫助主要模型學習:由于主要模型僅僅利用歷史數據,它能夠收斂的前提是收集到的在線數據能夠源源不斷的提供新的信息,這啟發研究人員在選擇第二個模型時從下面的集合中選擇相對于主要模型不確定性比較大的方向進行探索:


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


由于對于神經網絡不確定性估計沒有解析解,研究人員解釋上述策略選擇原則為:在保證輔助策略距離主要模型不要太遠的情況下,盡可能最大化他們的差異,這啟發研究人員通過調整采樣參數來獲得主要模型的變種,結合一些現有文獻中流行的啟發式方法拒絕采樣進行探索,具體實現流程如下所示:


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區


主要結果


研究人員基于 LLaMA3-8B 實現了全流程訓練,如 Table 1 所示,所得到的最終模型在指令跟隨測試中大幅度超出現有的 < 10B 開源模型水平,同時大幅度超出 offline DPO 基準,這驗證了在線迭代 RLHF 的卓越效果。


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區

Table 1 最終模型與其他 LLM 在指令跟隨測試中的結果比較。


為了理解在線迭代 RLHF 對模型推理、數學、代碼等能力的影響,研究人員也在標準的學術測試集上進行測試:


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區

Table 2 學術測試集結果。


經歷在線迭代 RLHF 之后,模型在這些測試上并沒有明顯的性能下降,并在部分基準上獲得了較為明顯的提升。研究人員認為這是回答風格的變化使得模型能夠更高效地使用在預訓練與有監督學習階段獲得的知識。


與此同時,研究人員也進行了一系列的消融實驗。首先,研究人員發現 RLHF 之后的模型通常會面臨回復長度大幅度增加的問題,為此他們提出可以在獎勵函數中加入長度懲罰,實驗結果表明,這樣一個簡單的修改可以大幅度將最終模型的平均輸出長度從 656 token 降低到 382 token。此外研究人員還使用了開源社區的 UltraRM-13B 作為基準 (在 reward bench 上大約排名第 30) 訓練了一個模型,其在指令跟隨測試與學術能力測試中都明顯差于基于作者所訓練的 SOTA 開源獎勵函數得到的模型。


僅靠開源數據復刻出LLaMA3指令學習效果,在線迭代RLHF全流程解決方案來了-AI.x社區

Table 3 消融實驗結果。


總結


該項目提供了在線迭代 RLHF 全流程的實現,并展示完全基于開源數據集與開源模型,可以得到達到當前最先進水平的 < 10B 語言模型。同時,作者將模型、代碼、數據、以及超參數選擇全部開源到 GitHub 與 hugging face,以使得開源社區可以復現技術報告中的結果。


盡管已經取得顯著進展,這個項目仍然有許多潛在的方向亟待繼續探索。首先,由于資源限制,研究人員采用了基于豐富開源偏好數據集訓練的獎勵獎勵 / 偏好函數作為外部信號來源。未來,如何開發出一個更加準確和穩定的偏好函數,以提高模型的泛化和實用性,仍然需要進一步研究。


其次,雖然當前啟發式的探索策略在一些實例研究中效果不錯,考慮到語言模型回復的指數大小的空間,如何設計更高效的探索仍然值得進一步研究。


最后,在消融實驗中,研究人員發現簡單的長度懲罰可以緩解 RLHF 的長度偏見。雖然此方法有效,但仍有空間發現更多高效的技術手段,以進一步改善模型的輸出質量和用戶體驗。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/bRxdSCCPIrgNBgtDfyzhAA??

收藏
回復
舉報
回復
相關推薦
欧美日本高清视频| 欧美性生活一区| 精品亚洲欧美日韩| 无码一区二区三区| 欧美r级电影| 欧美成人艳星乳罩| 黑鬼大战白妞高潮喷白浆| 色综合久久影院| 粉嫩在线一区二区三区视频| 秋霞午夜一区二区| 免费成年人视频在线观看| 麻豆精品av| 911国产精品| 动漫av网站免费观看| 欧美18hd| 国产香蕉久久精品综合网| 97se国产在线视频| 中文字幕一区二区三区四区视频 | 久久国产精品波多野结衣av| 杨幂一区二区三区免费看视频| 欧美精品久久久久久久多人混战| 91成人在线观看喷潮教学| 免费在线你懂的| 96av麻豆蜜桃一区二区| 亚洲最大福利网站| 青青艹在线观看| 亚洲色诱最新| 欧美人与性动交| 国产麻豆视频在线观看| 精品国产123区| 日韩电影第一页| 青娱乐国产精品视频| 99久久er| 色94色欧美sute亚洲13| 欧美亚洲精品一区二区| www.8ⅹ8ⅹ羞羞漫画在线看| 亚洲人成亚洲人成在线观看图片 | 欧美在线看片a免费观看| 国产黄页在线观看| 97人澡人人添人人爽欧美| 一区二区三区在线视频免费 | 丝袜美腿av在线| 国产精品美女久久福利网站| 欧美一区二区三区四区在线观看地址| 亚洲a视频在线| 国产精品自拍av| 成人信息集中地欧美| 一道本无吗一区| 精东粉嫩av免费一区二区三区| 国产精品私拍pans大尺度在线| 日韩久久中文字幕| 欧美一区=区| 亲子乱一区二区三区电影 | 欧美剧情电影在线观看完整版免费励志电影 | 国产精品视频一| 中文字幕人妻一区二区三区视频 | 亚洲精品在线网址| 成人黄色理论片| 欧美一区二区视频在线观看2020| 手机在线国产视频| 精品国产亚洲一区二区三区| 日韩你懂的电影在线观看| 人妻av一区二区三区| 一区二区三区四区高清视频| 精品电影一区二区三区| 黄色污在线观看| 亚洲人成伊人成综合图片| 亚洲欧洲第一视频| 亚洲天堂av中文字幕| 欧美高清视频在线观看mv| 久久影视电视剧免费网站清宫辞电视 | 国产精品福利片| 一卡二卡在线观看| 国产精品一区二区91| www.久久草| 国产精品国产高清国产| 久久精品亚洲麻豆av一区二区| 日本日本精品二区免费| 黄网站视频在线观看| 亚洲综合精品久久| 日韩毛片在线免费看| 日韩毛片免费看| 日韩视频免费观看高清完整版| 中文字幕第3页| 成人动漫免费在线观看| 欧美成人免费全部| 亚洲s码欧洲m码国产av| 久草这里只有精品视频| 国产chinese精品一区二区| 欧美日韩国产亚洲沙发| 国产精品久久久久9999吃药| 五月丁香综合缴情六月小说| 日韩欧美一区二区三区免费观看 | 午夜视频在线观看网站| 亚洲综合丝袜美腿| 大香煮伊手机一区| 一区二区在线视频观看| 亚洲天堂av综合网| 九九热精品在线观看| 天堂成人国产精品一区| 成人免费在线一区二区三区| 黄色大片在线免费观看| 一区二区三区色| 91看片在线免费观看| 久久精品国产亚洲5555| 综合av色偷偷网| 国产精品老女人| 国内精品伊人久久久久av一坑| 久久精品日产第一区二区三区| 免费在线观看av片| 色丁香久综合在线久综合在线观看| 久久精品一二三四| 色琪琪久久se色| 欧洲成人免费视频| 亚洲国产精品久久久久久6q| 国产精品国产三级国产普通话99| www.99热这里只有精品| 精品中文字幕一区二区三区| 一本色道久久88精品综合| 日韩精品人妻中文字幕| 国产精品一品二品| 一区二区精品国产| 欧美日韩五码| 国产视频在线一区二区| 懂色av.com| 国产福利一区二区三区视频 | 中文字幕在线观看免费高清| 91久久在线| 亚洲自拍小视频| 日韩在线免费电影| 欧美色综合天天久久综合精品| 91精彩刺激对白露脸偷拍| 国产精品magnet| 5g国产欧美日韩视频| 黄色网页网址在线免费| 88在线观看91蜜桃国自产| 超碰人人干人人| 视频一区二区三区入口| 日本10禁啪啪无遮挡免费一区二区| 2020国产在线| 日韩精品一区二区在线| 国产精品 欧美激情| 九九九久久久精品| 一本一生久久a久久精品综合蜜| 亚洲日本网址| 中文一区二区视频| 91 中文字幕| 综合分类小说区另类春色亚洲小说欧美| 黑鬼大战白妞高潮喷白浆| 国产成人3p视频免费观看| 日本sm极度另类视频| 蜜桃视频在线播放| 在线看不卡av| 日本精品久久久久中文| 精品一区精品二区高清| 51xx午夜影福利| 91成人短视频| 欧美精品成人91久久久久久久| 亚洲精品视频91| 亚洲成人av电影在线| 久久久午夜精品福利内容| 亚洲永久网站| 日韩中文字幕一区二区| 精品国产一区二区三区2021| 欧美放荡办公室videos4k| 天堂国产一区二区三区| 欧美日韩中文在线观看| 极品蜜桃臀肥臀-x88av| 国产综合久久久久影院| 亚洲理论电影在线观看| 羞羞答答一区二区| 国产精品伦子伦免费视频| 国产精品扒开做爽爽爽的视频| 欧美一区日韩一区| 免费在线不卡视频| 国产精品色婷婷久久58| 岛国精品一区二区三区| 媚黑女一区二区| 在线观看免费黄色片| 日韩成人一级| 国产欧美亚洲精品| 2001个疯子在线观看| 亚洲午夜小视频| 国产夫妻自拍av| 色婷婷综合久久久| 免费国产羞羞网站美图| 91亚洲精品一区二区乱码| 第四色婷婷基地| 国内激情久久| 涩涩日韩在线| 国产精品一区二区中文字幕| 国产精品久久久久久久久久久久 | 久久国产高清| 日本老太婆做爰视频| 欧美猛男同性videos| 亚洲japanese制服美女| 久久精品女人天堂av免费观看 | 国产suv精品一区二区6| 免费国产成人av| 亚洲午夜激情在线| 婷婷五月色综合| 欧美亚视频在线中文字幕免费| 国产视频福利一区| 中国字幕a在线看韩国电影| 久久精品精品电影网| 欧美日韩免费做爰大片| 日韩欧美综合在线| 亚洲天堂免费av| 黑人欧美xxxx| 欧美精品xxxxx| 国产精品少妇自拍| 91成年人网站| 成人免费高清视频在线观看| 日本黄色福利视频| 久热精品视频| 亚洲欧洲日产国码无码久久99| 欧美欧美全黄| 中文字幕久久一区| 欧美美女一区| 欧美另类一区| 性人久久久久| 久久久久久久久一区二区| 天堂精品在线视频| 91在线视频精品| 青草综合视频| 国产精品黄色影片导航在线观看| 国产美女精品写真福利视频| 欧美高清视频免费观看| 成年人黄视频在线观看| 色偷偷亚洲男人天堂| 国产一级网站视频在线| 亚洲女同精品视频| 偷拍自拍在线| 亚洲欧美成人网| 手机亚洲第一页| 亚洲欧美日韩网| 免费在线稳定资源站| 亚洲全黄一级网站| 欧美xxx.com| 亚洲欧美国产va在线影院| 四虎影院在线播放| 日韩二区三区在线| 奇米影视888狠狠狠777不卡| 精品国产一区二区三区久久久蜜月| 国产av无码专区亚洲a∨毛片| 欧美剧在线免费观看网站| 国产精品爽爽久久久久久| 91精品久久久久久久久99蜜臂| 一卡二卡在线视频| 欧美一区二区在线不卡| 午夜精品久久久久久久第一页按摩| 91精品婷婷国产综合久久| 国产成人精品无码高潮| 日韩欧美一区二区三区在线| 亚洲精品综合久久| 亚洲激情小视频| 日韩精品系列| 在线国产精品播放| 欧美69xxxx| 久久久久久久国产精品| 麻豆mv在线观看| 国产精品69av| 亚洲爽爆av| 国产欧美日韩综合一区在线观看 | 久久影院模特热| 第一中文字幕在线| 欧美在线激情视频| 国产情侣一区二区三区| 亚洲r级在线观看| 久久97久久97精品免视看秋霞| 欧美日韩一区二区三区在线观看免 | 96sao精品免费视频观看| y111111国产精品久久婷婷| 欧美日韩一本| 五月天国产一区| 国产专区一区| 国产日韩成人内射视频| 国产一区二区精品在线观看| 精品1卡二卡三卡四卡老狼| 久久综合久久99| 天天综合天天做| 欧美日韩视频免费播放| 一区二区精品视频在线观看| 欧美成人性战久久| av在线播放网站| 欧美国产中文字幕| 欧洲av一区二区| 国产高清在线一区| 欧洲杯半决赛直播| 18禁裸男晨勃露j毛免费观看| 视频在线在亚洲| 美女被爆操网站| 欧美国产视频在线| 日本三级黄色大片| 欧美丰满少妇xxxbbb| 深夜影院在线观看| 欧美插天视频在线播放| 亚洲成a人片| 国产福利久久精品| 99久久精品费精品国产| 欧美 国产 小说 另类| 国产 日韩 欧美大片| 中文字幕第69页| 精品日本高清在线播放| 国产99视频在线| 中文字幕亚洲无线码a| 蜜桃视频在线网站| 91久久国产综合久久蜜月精品| 国产一区二区观看| 99热亚洲精品| 国产成人精品影院| 最新av电影网站| 欧美视频一区二区在线观看| 日韩av高清在线| 国产做受69高潮| 中文无码日韩欧| 少妇熟女一区二区| 美女脱光内衣内裤视频久久影院| 蜜臀av一区二区三区有限公司| 亚洲综合在线观看视频| 国产伦精品一区二区三区四区| 亚洲三级av在线| 成人爱爱网址| 精品欧美国产一区二区三区不卡| 欧美一区二区三区久久精品茉莉花| 四季av一区二区| 久久精品在线观看| 好吊色在线视频| 精品一区精品二区| 鲁鲁在线中文| 久久久久久国产精品一区| 亚洲精品资源| 在线观看国产免费视频| 午夜伦欧美伦电影理论片| 丰满人妻av一区二区三区| 欧美日韩福利视频| 亚洲综合色婷婷在线观看| 少妇高潮大叫好爽喷水| 国产美女久久久久| 成年人av电影| 日韩美女视频在线| 日韩另类在线| 国产精品嫩草在线观看| 怡红院精品视频在线观看极品| 农村末发育av片一区二区| 亚洲影院在线观看| 亚洲AV无码精品色毛片浪潮| 久久久久久久久久久成人| 精品成人自拍视频| 欧美二区在线视频| 久久久蜜桃精品| 国产精品sm调教免费专区| 色av吧综合网| 精品一区二区三区中文字幕视频 | 超级碰碰久久| 五月天丁香综合久久国产| 久久99国内精品| 久久久91视频| 亚洲成人网在线观看| 小视频免费在线观看| 日韩尤物视频| 国产一区二区三区免费播放| 国产精品第72页| 亚洲欧美日韩国产中文专区| 国产麻豆一区| 人妻av无码专区| 久久久精品欧美丰满| 亚洲图片在线播放| 欧美国产日韩在线| 色橹橹欧美在线观看视频高清| 三级a在线观看| 亚洲精品伦理在线| 视频国产在线观看| 91精品在线一区| av成人天堂| 老司机福利在线观看| 精品奇米国产一区二区三区| 欧美在线极品| 亚洲一区二区三区乱码| 国产成a人亚洲| 色老头一区二区| 久久视频免费观看| 亚洲精品一级二级三级| www.污网站| 欧美日韩在线第一页| 欧美黄色激情| 国产在线播放一区二区| 久久97超碰色| 久久久久女人精品毛片九一 | 国产亚洲精久久久久久无码77777| 日韩av中文在线| 亚洲人体在线| 欧美日韩一区二区在线免费观看 | 伊人手机在线视频| 欧美成人免费大片| 精品一区电影| 一本加勒比波多野结衣| 制服丝袜中文字幕亚洲| 成人片免费看| www.国产在线播放|