精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RLHF何以成LLM訓練關鍵?AI大牛盤點五款平替方案,詳解Llama 2反饋機制升級

人工智能 新聞
AI領域日新月異,RLHF也逐漸成為過時的技術,但新路線尚不明朗:應該采用無需人工的反饋,還是繼續改進RLHF機制?

在ChatGPT引領的大型語言模型時代,一個繞不過去的話題就是「基于人類反饋的強化學習」(RLHF),不僅提升了語言模型的性能,也將人類社會的價值觀注入到模型中,使得語言模型能夠幫助用戶解決問題,提高模型的安全性。

不過在ChatGPT之后,大量模型和相關技術不斷發布,RLHF也早已更新換代,并衍生出來一些無需人工的微調方法,效果提升也很明顯。

最近,Lightning AI創始人、AI研究大牛Sebastian Raschka發表了一篇博客,描述了Llama 2中的RLHF機制和原版相比做出了哪些改變和提升,還介紹了幾個RLHF算法的替代方案。

圖片


經典LLM的訓練流程

目前最先進的、基于Transformer的大型語言模型,例如ChatGPT或Llama 2,大體都包括三個訓練步驟:預訓練,有監督微調和對齊。

在預訓練階段,模型會吸收來自海量、無標注文本數據集的知識,然后使用有監督微調細化模型以更好地遵守特定指令;最后使用對齊技術使LLM可以更有用且更安全地響應用戶提示。

1. 預訓練(Pretraining)

預訓練階段通常需要包含數十億到數萬億個token的龐大文本語料庫,但訓練目標只是一個簡單的「下一個單詞預測」(next word prediction)任務,模型需要根據提供的文本來預測后續單詞或token。

自監督預訓練可以讓模型從大規模的數據中學習,只要能夠在不侵犯版權,或是無視創造者偏好的情況下收集到數據,就可以不依賴人工標注完成訓練,因為訓練標簽實際上就是文本的后續單詞,已經暗含在數據集中了。

2. 有監督微調(Supervised finetuning)

第二階段大體上來看也是「next token prediction」任務,不過需要人工標注的指令數據集,其中模型的輸入是一個指令(根據任務的不同,也可能包含一段文本),輸出為模型的預期回復內容。

數據形式類似于:

Instruction: "Write a  about a pelican."

使用說明:“寫一首關于鵜鶘的打油詩?!?/span>

Output: "There once was a pelican so fine..."

輸出:“從前有一只鵜鶘很好...“

模型會將指令文本作為輸入,并逐個token輸出,訓練目標是與預期輸出相同。

雖然兩個階段都采用相似的訓練目標,但有監督微調數據集通常比預訓練數據小得多,指令數據集需要人類(或其他高質量的LLM)提供標注結果,所以無法大規模應用。

3. 對齊(Alignment)

第三階段依然是微調,不過其主要目標在于將語言模型與人類的偏好、價值觀進行對齊,也是RLHF機制發揮作用的地方。

RLHF主要包括三步:

Step 1. 預訓練模型的有監督微調

先收集一個提示詞集合,并要求標注人員寫出高質量的回復,然后使用該數據集以監督的方式微調預訓練的基礎模型。

Step 2. 創建獎勵模型

對于每個提示,要求微調后的LLM生成四到九個回復,再由標注人員根據個人偏好對所有回復進行排序。

雖然排序過程很耗時,但工作量還是比第一步的數據集構建少一些。

在處理排序結果時,可以設計一個獎勵模型RM,將微調語言模型SFT的輸出通過一個回歸層(單個輸出節點)轉換為獎勵分數,用于后續優化。

Step 3.PPO微調

使用鄰近策略優化(PPO,proximal policy optimization ),根據獎勵模型提供的獎勵分數對SFT模型進一步優化。

PPO的具體技術細節可以參考InstructGPT或下面的論文列表。

  1. Asynchronous Methods for Deep Reinforcement Learning (2016) ,https://arxiv.org/abs/1602.01783
  2. Proximal Policy Optimization Algorithms (2017),https://arxiv.org/abs/1707.06347
  3. Fine-Tuning Language Models from Human Preferences (2020),https://arxiv.org/abs/1909.08593
  4. Learning to Summarize from Human Feedback (2022) ,https://arxiv.org/abs/2009.01325

Llama 2中的RLHF

Meta AI在創建Llama-2-chat模型時也使用了RLHF技術,不過與ChatGPT相比還是有些細微區別。

簡單來說,Llama-2-chat在第一步RLHF微調上使用相同的指令數據,但在第二步使用了兩個獎勵模型;通過多個階段的不斷進化,獎勵模型也會根據Llama-2-chat模型出現的錯誤進行更新;并且增加了拒絕采樣(rejection sampling)步驟。

Margin Loss

在標準InstructGPT中使用的RLHF PPO方法,研究人員需要收集同一個提示下的4-9個模型輸出并進行排序,比如四個回復的排序結果為A<C< D<B,那么就可以得到六個對比結果:A < C,A < D ,A < B,C < D,C < B,D < B

Llama 2的數據集也采用類似的方式,不過標注人員每次只能看到兩個(而非4-9個)回復并進行對比,但新增了一個邊際(margin)標簽,對比結果可以為「顯著更好」(significantly better)和「好的不明顯」(negligibly better)。

在排序訓練時中,Llama 2相比InstructGPT增加了邊際損失:

其中,rθ(x,y)是提示x和生成的回復y的標量分數輸出; θ為模型權重; σ是將層輸出轉換為范圍從0到1的分數的邏輯S形函數; yc是由標注人員選擇的更優回復; yr是較差的回復。

m(r)可以調節兩個回復之間的差值,如果對比結果為「顯著更好」,則會增加梯度值,加快更新速度。

兩種獎勵模式

Llama 2中的兩個獎勵模型分別側重「有用性」(helpfulness)和「安全性」(safety),用于模型優化的最終獎勵函數會將兩個分數進行線性組合。

拒絕采樣(Rejection sampling)

Llama 2的作者使用了一個訓練流水線,同時使用PPO和拒絕采樣算法,迭代地產生多個RLHF模型(從RLHF-V1到RLHF-V5),模型在拒絕采樣時會得到K個輸出,在每次優化迭代時選擇具有最高獎勵的輸出用于梯度更新,而PPO每次只基于單樣本進行更新。

從實驗結果來看,RLHF微調模型在無害性和有用性上都得到了改善,并且在最后階段RLHF-v5使用PPO算法的性能最好。

RLHF的替代方案

可以看到,RLHF是一個相當復雜的過程,如此精心的設計是否值得?

雖然InstructGPT和Llama 2論文實驗結果中證實了RLHF帶來的性能提升,但也有相關工作在關注開發更有效的替代品:

1. 憲政AI:人工智能反饋的無害性

研究人員提出了一種基于人類提供的規則列表的自我訓練機制,也使用了強化學習的方法。

論文標題:Constitutional AI: Harmlessness from AI Feedback

論文鏈接:https://arxiv.org/abs/2212.08073

發表日期:2022年12月

上圖中的「紅隊」(Red Team)指的是測試目標系統的防御能力,即外部或內部專家模擬潛在對手的過程,通過模仿現實世界打擊者的戰術、技術和程序來挑戰、測試并最終改進系統。

2. 后見之明的智慧

研究人員提出了一種基于重新標注的有監督方法HIR用于微調,在12個BigBench任務上都優于RLHF算法。

圖片

論文標題:The Wisdom of Hindsight Makes Language Models Better Instruction Followers

論文鏈接:https://arxiv.org/abs/2302.05206

發表時間:2023年2月

HIR方法包括兩個步驟,采樣和訓練:在采樣時,提示和指令被饋送到LLM以收集回復,并基于對齊分數,在訓練階段適當的地方重新標注指令;然后使用新指令和原始提示用于微調LLM。

重新標注可以有效地將失敗案例(LLM創建的輸出與原始指令不匹配的情況)轉化為有用的訓練數據以用于監督學習。

3. 直接偏好優化

直接偏好優化(DPO)是使用PPO的RLHF的替代方案,實驗結果顯示,用于擬合RLHF中的獎勵模型的交叉熵損失可以直接用于微調LLM,并且DPO更有效,在回復生成質量方面通常也優于RLHF/PPO

圖片

論文標題:Direct Preference Optimization: Your Language Model is Secretly a Reward Model

論文鏈接:https://arxiv.org/abs/2305.18290

發表日期:2023年5月

4. 強化自訓練(ReST)

ReST是RLHF的替代方案,可以將LLM與人類偏好對齊,其使用采樣方法來創建一個改進的數據集,在質量越來越高的子集上迭代訓練,以完善其獎勵函數。

論文標題:Reinforced Self-Training (ReST) for Language Modeling

論文鏈接:https://arxiv.org/abs/2308.08998

發表日期:2023年8月

根據作者的說法,ReST通過離線生成其訓練數據集,與標準在線RLHF方法(PPO)相比,實現了更高的效率,但缺少與InstructGPT或Llama 2中使用的標準RLHF PPO方法的全面比較。

5. 基于人工智能反饋的強化學習

基于人工智能反饋的強化學習(RLAIF)的研究表明,RLHF中獎勵模型訓練的評級不一定必須由人類提供,也可以由LLM生成(如PaLM 2)。

圖片

論文標題:RLAIF:Scaling Reinforcement Learning from Human Feedback with AI Feedback

論文鏈接:https://arxiv.org/abs/2309.00267

發表日期:2023年9月

標注人員在一半的案例中更喜歡RLAIF模型,也就意味著兩個模型的差距并不大,并且RLHF和RLAIF都大大優于純粹通過監督指令微調訓練的模型。

這項研究的結果是非常有用的,基本上意味著我們可以更容易獲得RLHF的訓練數據,不過RLAIF模型如何在定性研究中表現還有待觀察,這項研究側重于信息內容的安全性和真實性,只是對人類偏好研究的部分捕獲。

但這些替代方案在實踐中是否有價值還有待觀察,因為目前還沒有哪個模型可以不用RLHF的情況下,取得與Llama 2和Code Llama相近的性能。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-04-10 16:15:16

模型開源

2023-09-06 13:17:00

AI數據

2023-05-26 10:50:38

模型AI

2025-04-17 08:00:00

ManusDeepSeekMCP

2025-11-20 12:54:43

2025-01-24 15:40:00

2023-12-13 13:36:40

模型算力

2023-08-01 13:31:18

模型Alpacaicuna

2023-04-20 14:43:38

Linux模型GPT4

2023-08-22 13:21:07

AI算法

2023-09-05 19:43:05

模型RLHFAI

2024-11-20 09:27:06

2023-09-04 19:09:00

訓練模型數據

2024-01-02 00:16:59

生成式AI人工智能

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-04-22 09:47:07

2023-09-04 12:58:05

2023-03-08 12:39:47

架構

2018-07-09 08:38:13

集群Redis方案

2021-08-03 13:45:15

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

一级黄色性视频| 成人在线观看你懂的| 国产精品久久久久久久久毛片 | 久中文字幕一区| 亚洲男人天堂网址| 伊人久久大香线蕉精品组织观看| 日韩欧美中文一区| 午夜精品久久久内射近拍高清| 在线看av的网址| 成人手机在线视频| 国产精品美女久久久久av超清| 永久免费看黄网站| 精品久久不卡| 亚洲精品一区二区三区福利 | 亚洲欧美日产图| 亚洲av综合色区无码一二三区| 久久国产精品毛片| 美女少妇精品视频| 久久久久久久久久久久| 97品白浆高清久久久久久| 色综合欧美在线| 黄色一级片黄色| 日本在线播放| 国产亚洲欧美色| 国产精品视频一区二区三区经| 在线观看免费黄色小视频| 99视频精品免费观看| 久久久精品影院| 日韩免费成人av| 婷婷激情久久| 亚洲国产91色在线| ass极品水嫩小美女ass| 四虎影视精品永久在线观看| 欧美午夜精品久久久久久浪潮| 日韩欧美猛交xxxxx无码| 一本一道波多野毛片中文在线| www精品美女久久久tv| 国产日韩久久| 天天操天天干天天| 国产精品66部| 91丝袜脚交足在线播放| 亚洲无码精品在线观看| 日本中文字幕一区二区视频| 欧美一乱一性一交一视频| 国产精彩视频在线| 黑人一区二区| 久久久久久有精品国产| 五月天丁香激情| 欧美一区二区三区久久精品| 日韩视频免费大全中文字幕| youjizz亚洲女人| 成人一区二区| 日韩视频精品在线| tube国产麻豆| 国产精品啊啊啊| 欧美高清自拍一区| 国产真实乱人偷精品视频| 国产精品porn| 欧美激情在线播放| 国产五月天婷婷| 在线亚洲精品| 热久久这里只有| 波多野结衣黄色| 久久成人精品无人区| 国产精品自拍偷拍| 国产特级黄色片| 粉嫩av一区二区三区在线播放| av成人午夜| 同心难改在线观看| 成人av资源站| 欧美日产一区二区三区在线观看| 毛片免费在线观看| 国产精品久久久久久久久动漫 | 久久99久久久久| 国产精品亚洲精品| 国产日韩欧美一区二区东京热| 国产毛片精品视频| 狠狠久久综合婷婷不卡| 欧美精品少妇| 成人欧美一区二区三区| 国产成人亚洲综合无码| 筱崎爱全乳无删减在线观看| 欧美在线短视频| 91人妻一区二区三区| 91精品日本| 亚洲无av在线中文字幕| 手机在线免费看毛片| 亚洲国内欧美| 国产精品男人爽免费视频1| 国产乱码久久久| 99久久精品一区| 亚洲日本无吗高清不卡| 欧洲在线视频| 欧美色图在线观看| 色婷婷一区二区三区在线观看| 任我爽精品视频在线播放| 最近2019好看的中文字幕免费| 婷婷社区五月天| 国产欧美不卡| 91夜夜揉人人捏人人添红杏| 五月天福利视频| 国产精品伦理在线| 欧美下载看逼逼| 色青青草原桃花久久综合| 91毛片在线观看| 久久精品青草| 欧美性aaa| jizz在线观看中文| 亚洲成人第一网站| 国产在线观看无码免费视频| 久久精品日产第一区二区三区| 久久午夜福利电影| 羞羞色午夜精品一区二区三区| 77777亚洲午夜久久多人| 亚洲综合网av| 2020国产成人综合网| 干日本少妇视频| 亚洲mmav| 亚洲精品福利在线| 成人在线观看小视频| 久久影院亚洲| 国产综合 伊人色| 日本无删减在线| 欧美日韩在线播放三区四区| 人妻 日韩 欧美 综合 制服| 久久精品国内一区二区三区水蜜桃| 日韩av毛片网| 神马久久久久| 偷拍日韩校园综合在线| 91福利视频免费观看| 国产精品久久久久久久久妇女| 国产成人一区二区三区电影| 日本精品一二区| 亚洲午夜久久久久久久久久久| 国产福利精品一区二区三区| 欧美一级本道电影免费专区| 奇门遁甲1982国语版免费观看高清 | 成人精品视频一区二区| 久久porn| 国产91精品久久久久久| 丰满肉肉bbwwbbww| 一区二区三区在线不卡| 精品国产鲁一鲁一区二区三区| 日韩欧美视频在线播放| 国产精品色婷婷视频| 精品久久av| 欧美系列亚洲系列| 四虎成人免费影院| 日本不卡在线视频| 亚洲丰满在线| 99久久这里有精品| 久久香蕉国产线看观看av| 国产麻豆一精品一男同| 亚洲欧美视频在线观看视频| 亚洲精品综合在线观看| 91精品高清| 99re在线国产| av岛国在线| 亚洲精品99999| 久久久久女人精品毛片九一| 久久精品免费在线观看| 日本成人黄色网| 成人嫩草影院| 成人福利免费观看| av网址在线免费观看| 91精品国产色综合久久不卡蜜臀| 紧身裙女教师波多野结衣| 国产suv精品一区二区883| 国产天堂视频在线观看| 亚洲桃色综合影院| 国产精品久久久久av| 成视频免费观看在线看| 亚洲国产高清福利视频| 亚洲s码欧洲m码国产av| 国产精品欧美经典| 欧美性猛交xx| 国产亚洲一区在线| 亚洲电影一二三区| 日韩三级精品| 欧美重口另类videos人妖| 激情在线小视频| 亚洲福利影片在线| 进去里视频在线观看| 亚洲天堂av老司机| 岛国精品资源网站| 免费在线观看成人| 免费人成在线观看视频播放| 国产欧美日韩在线观看视频| 亚洲精品免费一区二区三区| 日本不良网站在线观看| 久久精品国产久精国产思思| 日韩中文字幕综合| 欧美日韩免费在线视频| 国产一级理论片| 中文字幕av一区二区三区高 | 国产成人精品亚洲| 亚洲综合男人的天堂| 亚洲人成人无码网www国产 | 国产亚洲毛片在线| 性生活免费观看视频| 99国产超薄丝袜足j在线观看 | 欧洲一区二区三区免费视频| www.99re7| 国产午夜亚洲精品羞羞网站| 日韩黄色一区二区| 麻豆91精品91久久久的内涵| 日韩av中文字幕第一页| 91综合在线| 欧美激情国产日韩| 88久久精品| 成人伊人精品色xxxx视频| 都市激情亚洲一区| 欧美大秀在线观看| 四虎久久免费| 亚洲摸下面视频| 欧美视频一二区| 9191久久久久久久久久久| 无码人妻aⅴ一区二区三区有奶水 无码免费一区二区三区 | 丁香五月网久久综合| 久久av影院| 国产a∨精品一区二区三区不卡| 国产后进白嫩翘臀在线观看视频| xxav国产精品美女主播| 风间由美一区| 亚洲男人天堂古典| 偷拍自拍在线| 亚洲激情视频网站| 国产福利第一页| 欧美一区二区啪啪| 国产乱淫a∨片免费观看| 欧美性猛交xxxx乱大交退制版| 亚洲第一精品在线观看| 亚洲网友自拍偷拍| 精品无码免费视频| 亚洲乱码国产乱码精品精98午夜| 四虎影视1304t| 国产欧美精品国产国产专区| 国产美女免费网站| 国产色91在线| 一色道久久88加勒比一| 337p粉嫩大胆色噜噜噜噜亚洲| 喷水视频在线观看| 成人一区在线观看| 97精品人妻一区二区三区蜜桃| 国产高清在线精品| 日批视频免费看| 成人h动漫精品| 内射中出日韩无国产剧情| 99热精品国产| 真人bbbbbbbbb毛片| xf在线a精品一区二区视频网站| 免费在线观看成年人视频| 久久中文娱乐网| 国产伦理片在线观看| 国产精品三级av| 熟女少妇a性色生活片毛片| 亚洲欧洲另类国产综合| 久久精品黄色片| 亚洲一区二区黄色| 日韩欧美a级片| 日韩欧美在线免费| 亚洲 小说区 图片区| 欧美蜜桃一区二区三区| 国产不卡精品视频| 日韩av在线免费观看| 撸视在线观看免费视频| 最近日韩中文字幕中文| av黄色在线| 97久久伊人激情网| 精品视频在线一区二区在线| 国产一区二区丝袜高跟鞋图片| 日本精品视频| 免费av一区二区三区| 精品日韩毛片| av电影一区二区三区| 亚洲毛片视频| 另类小说第一页| 国产精品一二三| 亚洲成人日韩在线| 亚洲视频在线观看三级| 日本黄色片视频| 欧美婷婷六月丁香综合色| www.国产欧美| 亚洲色图在线观看| 亚洲综合av在线播放| 亚洲宅男一区| 一区二区三区av| 亚洲精品三级| 奇米影视四色在线| 成人av手机在线观看| 欧美做受高潮6| 亚洲最色的网站| 国产九色91回来了| 精品第一国产综合精品aⅴ| 国产福利在线视频| 欧美极品少妇xxxxⅹ喷水| www成人在线视频| 国产成人精品自拍| 日韩欧美中文| 尤物av无码色av无码| 久久精品国产99国产精品| 国产在线观看无码免费视频| 亚洲色图欧美在线| 无码人妻精品一区二区| 欧美电影精品一区二区| 成年人在线免费观看| 久久久久一本一区二区青青蜜月| av成人免费看| 久久人人九九| 国产综合婷婷| 亚洲欧美天堂在线| 久久久美女毛片 | 欧美日韩激情美女| 97在线播放免费观看| 日韩福利视频在线观看| 婷婷av在线| 成人午夜两性视频| 欧美日韩在线二区| 日韩av资源在线| 成人sese在线| 国产一级一级片| 在线综合+亚洲+欧美中文字幕| 国内在线精品| 啪一啪鲁一鲁2019在线视频| 久久97精品| 91免费黄视频| 国产乱一区二区| fc2ppv在线播放| 欧美少妇bbb| 国产黄色免费在线观看| 欧美怡红院视频一区二区三区 | 日本一区二区三区视频免费看| 亚洲高清资源| 一级黄色电影片| 一区二区三区自拍| av中文字幕免费| 欧美成人中文字幕| 麻豆久久一区| 麻豆md0077饥渴少妇| 精品一区二区久久久| 又嫩又硬又黄又爽的视频| 欧美自拍丝袜亚洲| 国产51人人成人人人人爽色哟哟| 国产99视频在线观看| 日韩欧美中文字幕视频| 国产一区二区在线观看免费| 舐め犯し波多野结衣在线观看| 色婷婷综合久久久久中文一区二区| 天天干免费视频| 啪一啪鲁一鲁2019在线视频| 免费观看久久av| 天天天干夜夜夜操| 国产精品三级av| 99久久精品无免国产免费| 久久综合免费视频| 亚洲国产视频二区| 国产免费黄色小视频| 91小视频在线| 天天干,天天干| 中文字幕在线看视频国产欧美| 欧美啪啪网站| 激情成人开心网| 成人黄色网址在线观看| 中文字幕在线看人| 伊人久久久久久久久久久| avtt久久| 阿v天堂2018| 久久久.com| 一级特黄aaa大片在线观看| 欧美精品免费在线| 国内精品国产成人国产三级粉色| 国产精品333| 国产精品美女久久久久aⅴ| 91麻豆国产视频| 久久免费视频在线| 免费视频一区三区| 男人的天堂最新网址| 五月综合激情婷婷六月色窝| 黄色在线视频观看网站| 成人亚洲激情网| 国产午夜精品一区二区三区欧美 | 99在线无码精品入口| 久久久久久国产三级电影| 亚州综合一区| 色戒在线免费观看| 亚洲成人在线网站| 国产精品秘入口| 电影午夜精品一区二区三区| 日韩国产欧美在线播放| 黑鬼狂亚洲人videos| 日韩精品中文字幕视频在线| 欧美在线一级| 热99这里只有精品| 中文字幕在线不卡视频| 日本精品一二区| 91在线|亚洲| 奇米综合一区二区三区精品视频| 久久久久久久黄色| 在线亚洲欧美视频| 欧美精品中文字幕亚洲专区|