精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind新研究:ReST讓大模型與人類偏好對齊,比在線RLHF更有效

人工智能 新聞
本文提出了一種新的RLHF算法ReST,極大地提高了翻譯質(zhì)量。不同于 RLHF 使用人類反饋改進語言模型,ReST 通過生成和使用離線數(shù)據(jù)進行訓練,從而使得 LLM 與人類偏好保持一致。

這幾個月以來,我們已經(jīng)見證了大型語言模型(LLM)在生成高質(zhì)量文本和解決眾多語言任務方面出色的能力。然而,LLM 又面臨這樣一個困境,即產(chǎn)生的輸出很大程度上與人類偏好并不一致。如果沒有適當?shù)膶R,語言模型可能輸出不安全的內(nèi)容。此外,對齊 LLM 還有助于改善下游任務。

有研究者提出基于人類反饋的強化學習 (RLHF),通過使用人類偏好來解決對齊問題。

一般來講,RLHF 依賴于 PPO、A2C 等在線 RL 方法,但這些方法計算成本高昂且容易遭受打擊;雖然離線 RL 可以避免在線 RL 的缺陷,然而,離線學習的質(zhì)量過分依賴離線數(shù)據(jù)集的屬性。因此,精心策劃的數(shù)據(jù)集對離線強化學習來說非常重要。

本文,來自 Google DeepMind 的研究者提出了一種簡單的算法使 LLM 與人類偏好對齊,他們將該方法命名為 ReST(Reinforced Self-Training)。不同于 RLHF 使用人類反饋改進語言模型,ReST 通過生成和使用離線數(shù)據(jù)進行訓練,從而使得 LLM 與人類偏好保持一致。

給定一個初始 LLM 策略,ReST 能夠根據(jù)該策略生成數(shù)據(jù)集,然后該數(shù)據(jù)集基于離線 RL 算法被反過來提高 LLM 策略。ReST 比典型的在線 RLHF 方法更有效,因為訓練數(shù)據(jù)集是離線生成的,這允許數(shù)據(jù)重用。

研究團隊表示,雖然 ReST 可用于所有生成任務,但本文的重點是機器翻譯。結(jié)果表明,ReST 可以極大地提高翻譯質(zhì)量。

論文地址:https://arxiv.org/pdf/2308.08998.pdf

有研究者評論道:「DeepMind 展示了自然語言生成的迭代自我改進。他們將『人』從人類反饋強化學習 (RLHF) 循環(huán)中剔除,提出 ReST。」

下面那我們看具體實現(xiàn)方法。

方法介紹

該研究提出了一種稱為強化自訓練(Reinforced Self-Training,ReST)的 RLHF 算法,ReST 可將語言模型的輸出與人類偏好保持一致。人類對序列的偏好是使用學得的獎勵函數(shù)來建模的。ReST 算法將典型 RL pipeline 的數(shù)據(jù)集增長(Grow)和策略改進(Improve)解耦成兩個單獨的離線階段。

如下圖 1 所示,ReST 方法包括兩個循環(huán):內(nèi)循環(huán)(Improve step)和外循環(huán)(Grow step)。并且與在線或離線 RL 的典型 RLHF 方法相比,ReST 具有以下優(yōu)勢:

  • 與在線 RL 相比,ReST 由于在 Improve step 中利用了 Grow step 的輸出,因此計算負擔大大減少;
  • 策略的質(zhì)量不在受原始數(shù)據(jù)集質(zhì)量的限制(如離線 RL),因為新的訓練數(shù)據(jù)是從 Grow step 中經(jīng)過采樣得到的;
  • 檢查數(shù)據(jù)質(zhì)量并判斷對齊變得更加容易,因為 Improve step 和 Grow step 這兩個過程是解耦的;
  • ReST 簡單、穩(wěn)定,并且只有少量的超參數(shù)需要調(diào)優(yōu)。


該研究首先訓練一個初始模型圖片,在給定序列對數(shù)據(jù)集 D 的情況下,使用如下等式 (1) 中的 NLL 損失將輸入序列??映射到輸出序列??。

接下來,Grow 步驟會創(chuàng)建一個新的數(shù)據(jù)集 D_??,使用模型中的樣本來擴充初始訓練數(shù)據(jù)集:

其中,條件輸入是從原始數(shù)據(jù)集圖片中重新采樣的,就像自訓練一樣;但在可以訪問 ??(??) 的情況下也可以直接從中采樣,即圖片。例如,在文生圖模型中,文本輸入的分布可以從語言模型 ??(??) 中采樣。

然后,Improve 步驟使用 D_?? 來微調(diào)策略??_??。值得注意的是,該研究將原始數(shù)據(jù)集保留在訓練中,以確保策略不會發(fā)散。

整個 ReST 算法如下圖算法 1 所示,其中包含多個數(shù)據(jù)集增長和策略改進步驟:

實驗

研究者在機器翻譯任務上進行了實驗,測試基準包括 IWSLT 2014 、 WMT 2020 、 Web Domain 。

圖 3 繪制了帶有多個 Improve steps 的平均獎勵:可以看到,隨著 Improve steps 增加,翻譯模型在所有三個數(shù)據(jù)集上的性能都得到了提高。

增加 Grow step(G)能否提高獎勵模型的得分?帶著這一問題,研究者進行了另一項實驗。結(jié)果如圖 4 所示,帶有一個 Grow step 的方法在 IWSLT 2014 和 Web Domain 數(shù)據(jù)集上有所提高,當 Grow step 為 2 時,模型將得分從 77.8 提高到 80.5,提高了 5.3。

圖片

ReST 是否優(yōu)于監(jiān)督訓練?結(jié)果如圖 5 所示,即使在第一個 grow step 之后,ReST 的不同變體(紫色)也顯著優(yōu)于監(jiān)督學習(灰色)。

ReST 可以在推理時使用 Best-of-N 采樣進一步改進嗎?圖 6 展示了 BC( behavioral cloning )和 ReST 變體之間的 Best-of-N 抽樣結(jié)果。ReST 的性能隨著 ?? 和 Improve step 數(shù)量的增加而提高。得出 ReST 仍然可以從 Best-of-N 采樣中受益。

ReST 與在線 RL 相比如何?該研究將 ReST 與 PPO 進行了比較,PPO 是一種廣泛用于 RLHF 的在線 RL 算法。結(jié)果總結(jié)在表 1 中。

圖片

下圖表明,所有 ReST 變體在人類評分方面優(yōu)于 BC 方法:

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-23 09:00:00

2024-01-24 13:37:36

大型語言模型人工智能

2025-09-03 09:04:00

AI視覺研究

2023-07-11 15:38:51

模型方案

2024-01-15 16:41:00

模型數(shù)據(jù)

2024-09-23 14:46:27

2023-07-20 13:11:54

語言模型助手

2022-08-22 15:47:48

谷歌模型

2024-04-16 14:01:40

大型語言模型ORPO

2024-11-05 13:30:00

2024-12-27 11:52:25

GRAPEVLA 模型人工智能

2013-04-01 00:59:33

金華威華為

2013-04-01 00:43:50

華為金華威

2024-01-07 22:58:56

2023-04-28 15:24:06

模型研究

2024-04-25 07:00:00

2024-03-04 00:20:00

語言模型人工智能

2023-12-06 13:20:00

AI模型

2024-11-14 09:59:23

2023-11-13 07:56:16

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號

亚洲卡一卡二卡三| 综合 欧美 亚洲日本| 亚洲性色av| 中文字幕乱码久久午夜不卡 | 日韩wuma| 国产99视频在线| 久久成人一区| 欧美日韩福利电影| 久久久久久国产免费a片| 日本一区二区乱| 在线欧美一区二区| 国产日韩av网站| 日本视频在线观看| 91免费看`日韩一区二区| 国产综合在线观看视频| 青青草免费观看视频| 亚洲天天综合| 伊人久久精品视频| 亚洲欧美日韩色| 中文字幕日韩亚洲| 色婷婷久久综合| 一区二区三区国产福利| 免费观看黄一级视频| 日本 国产 欧美色综合| 欧美精品久久久久久久免费观看| 成人性生交大免费看| 亚洲精品福利| 欧美色图片你懂的| 欧美激情 国产精品| 欧美a在线看| 99久久精品国产导航| 成人精品一区二区三区| av网站中文字幕| 午夜国产一区| 在线亚洲男人天堂| 在线 丝袜 欧美 日韩 制服| 国产精品视频一区视频二区| 91国产丝袜在线播放| 97干在线视频| caoporn免费在线| 国产精品免费视频一区| 国产综合av一区二区三区| 国产又粗又猛又爽| 日本女人一区二区三区| 66m—66摸成人免费视频| 欧美特级一级片| 成人羞羞网站入口免费| 日韩精品在线免费观看视频| 日韩精品国产一区| 国产一区 二区| 欧美性猛片aaaaaaa做受| 国产黄色片免费在线观看| 很黄的网站在线观看| 国产日韩成人精品| 欧美激情一区二区三区在线视频 | 亚洲熟女www一区二区三区| 免费久久久久久久久| 亚洲黄一区二区| 又黄又色的网站| 精品中文在线| 欧美日韩亚州综合| 日韩欧美黄色大片| 中文字幕在线直播| 欧美性xxxx在线播放| 久久久亚洲精品无码| 后进极品白嫩翘臀在线播放| 自拍偷拍欧美精品| 樱花www成人免费视频| 阿v免费在线观看| 亚洲国产成人一区二区三区| 欧美在线激情| 高清国产福利在线观看| 国产视频一区在线播放| 日韩精品国内| 日韩a在线看| 成人黄色国产精品网站大全在线免费观看 | 亚洲久久一区二区| 亚洲91av视频| 久久国产精品系列| 国产欧美精品久久| 欧美日韩高清在线观看| 久久精品久久精品久久| 99精品国产福利在线观看免费| 色综合天天综合网国产成人网 | 亚洲一区二区免费视频| 18禁裸男晨勃露j毛免费观看| 青春草在线免费视频| 亚洲一级二级在线| 欧美精品一区免费| 免费电影日韩网站| 欧美日韩国产首页| 不卡中文字幕在线观看| 成人污版视频| 亚洲精品在线观看视频| 精品无码一区二区三区| 欧美三级三级| 欧美成人剧情片在线观看| 久久免费视频播放| 亚洲少妇自拍| 国产专区精品视频| 日本黄色不卡视频| 国产亚洲一区二区三区四区| 一区二区三区四区五区视频| av在线免费观看网址| 亚洲成av人片一区二区| 国产成人久久777777| 国产精品一区二区免费福利视频| 日韩视频免费观看高清完整版| 久久福利小视频| 欧美日韩有码| 欧美极品少妇与黑人| 亚洲 欧美 日韩 在线| 国产一区福利在线| 欧美日韩国产一二| caopen在线视频| 日本久久电影网| 国产成人av免费观看| 日韩激情网站| 久久国产加勒比精品无码| 久久久久99精品成人片三人毛片| 久久精品久久综合| 精品国产乱码久久久久软件| 国产视频第一页在线观看| 日韩一区在线看| 亚洲欧美另类动漫| 国产精品99久久免费观看| 中日韩美女免费视频网站在线观看 | 久久综合色鬼综合色| 在线观看18视频网站| 亚洲欧美一区二区三区| 日韩精品专区在线| 精品人妻无码一区| 伊人影院久久| 91色p视频在线| 国产私拍精品| 欧美视频在线免费看| 不卡的一区二区| 久久一区二区三区电影| 2019av中文字幕| 一级黄色录像大片| 91影院在线观看| 999久久欧美人妻一区二区| 男人亚洲天堂| 国产一区二区日韩| 性无码专区无码| eeuss鲁片一区二区三区在线观看| 免费看啪啪网站| 影音成人av| 亚洲日本中文字幕| 劲爆欧美第一页| 免费在线看一区| 日韩精品另类天天更新| 亚洲欧洲自拍| 亚洲精品国产精品国自产在线| 51精品免费网站| 免费在线看成人av| 亚洲欧美日韩另类精品一区二区三区| 欧美18—19sex性hd| 亚洲精美色品网站| 好吊操这里只有精品| 丁香六月久久综合狠狠色| 男女裸体影院高潮| 秋霞影院一区| 久久久久久成人精品| 国产黄色片免费| 亚洲四区在线观看| 亚洲一二三四五| 极品中文字幕一区| 精品蜜桃一区二区三区| 综合日韩av| 亚洲人高潮女人毛茸茸| 一级做a爰片久久毛片| 久久久精品黄色| 日日摸天天爽天天爽视频| 亚洲警察之高压线| 欧美在线观看网址综合| 免费在线黄色网址| 在线观看亚洲a| 一级片久久久久| 精品在线一区二区三区| 天堂av免费看| 一区二区三区欧洲区| 欧美激情在线视频二区| 动漫av一区二区三区| 色综合色综合色综合| 免费看裸体网站| 久久99精品网久久| 国产日韩第一页| 狼人天天伊人久久| 国产成人精品电影| 欧美精品videos另类| 欧美va亚洲va香蕉在线| 五月天婷婷丁香| 久久久久国产精品人| 亚洲免费看av| 午夜天堂精品久久久久| 九九九九九精品| 日韩欧美一区二区三区免费观看 | 国产精品观看| 久久久久久国产精品免费免费| 日本在线精品| 九九久久久久久久久激情| 黑人精品一区二区三区| 狠狠做深爱婷婷久久综合一区 | 免费观看日韩毛片| 日韩精品一区二区久久| 99热99热| 日韩欧美一区二区三区在线观看| 久精品免费视频| 精品福利视频导航大全| 在线成人午夜影院| 欧美特黄aaaaaa| 亚洲美女视频一区| 中日韩精品一区二区三区| 精品一二线国产| 男人操女人免费软件| 日本黄色精品| 极品日韩久久| 亚洲欧美在线人成swag| 奇米4444一区二区三区| 4438x成人网全国最大| 亚洲美女视频网站| www.欧美国产| 欧美日韩中字一区| 国产精品视频久久久久久久| 久久久精品国产免费观看同学| 制服.丝袜.亚洲.中文.综合懂| 三级影片在线观看欧美日韩一区二区| 大片在线观看网站免费收看| 国产精品一线天粉嫩av| 国产一区二区三区高清| 亚洲国产91视频| 欧美一级在线亚洲天堂| 国产三线在线| 不卡av在线播放| 男女视频在线观看免费| 亚洲第一福利网| 草逼视频免费看| 欧美日产国产精品| 免费av中文字幕| 狠狠色狠色综合曰曰| 亚洲激情视频一区| 亚洲人成影院在线观看| 女人黄色一级片| 国产亚洲欧美一级| 少妇饥渴放荡91麻豆| 国产成人免费视频网站高清观看视频 | 日韩av高清在线| 亚洲国产精品一区二区三区| 99精品视频免费看| 4438x亚洲最大成人网| 久久66热这里只有精品| 男人靠女人免费视频网站| 伊人影院在线观看视频| 日韩黄色三级视频| 番号集在线观看| 国产日产亚洲精品系列| 成人区人妻精品一区二| 精品伊人久久久久7777人| 欧美韩国理论所午夜片917电影| 天天干天天插天天操| 日韩欧美在线不卡| 国产视频手机在线| 日韩一本二本av| 国产v在线观看| 日韩亚洲欧美一区| 亚洲av无码一区二区三区性色| 正在播放亚洲一区| 99久久国产免费| 日韩欧美国产1| 成人福利小视频| 亚洲国产91色在线| 日本一级在线观看| 亚洲福利在线视频| 无码国产精品一区二区色情男同 | 亚洲激情一区二区| 日本一区二区在线看| 一区二区冒白浆视频| 成久久久网站| 中日韩在线视频| 欧美三级第一页| 国产在线xxxx| 可以看av的网站久久看| 污污网站免费看| 精品在线观看免费| 少妇性l交大片7724com| www.欧美精品一二区| 91精品啪在线观看国产| 国产亚洲精品7777| 夫妻性生活毛片| 亚洲va国产va欧美va观看| 国产一级18片视频| 欧美日韩视频在线观看一区二区三区| 91麻豆成人精品国产| 日韩免费电影网站| 日韩二区三区| 久久精品夜夜夜夜夜久久| 国产偷倩在线播放| 国产精品激情av电影在线观看 | 亚洲二区视频| 成年人网站大全| 精品一区二区久久| 国产夫妻性爱视频| 国产精品国产精品国产专区不片 | 好看不卡的中文字幕| 精品视频一区二区在线| 国产中文字幕精品| 日本高清www| 亚洲欧美国产77777| 亚洲第一在线播放| 日韩欧美你懂的| 天堂中文在线官网| www.色综合| 丝袜诱惑一区二区| 成人羞羞国产免费| 国产一区二区三区四区二区| 操bbb操bbb| 日韩精品一二区| 毛茸茸free性熟hd| 中文字幕一区在线观看视频| 男人天堂中文字幕| 日韩午夜激情免费电影| 国产黄在线看| 久久久女人电视剧免费播放下载| 69堂免费精品视频在线播放| 国产精品久久久久久久久久久久午夜片 | 日韩美女视频免费在线观看| 精品中文在线| 亚洲一卡二卡三卡| 麻豆精品网站| 高清中文字幕mv的电影| 18成人在线视频| 亚洲精品一区二区二区| 亚洲伦理中文字幕| tube8在线hd| 2014国产精品| 色777狠狠狠综合伊人| 一区二区传媒有限公司| 国产一区二区在线免费观看| 成人免费黄色小视频| 欧美午夜寂寞影院| 狠狠色伊人亚洲综合网站l| 91av视频在线观看| 国产精品chinese在线观看| 超碰10000| 国产一区91精品张津瑜| 亚洲一级理论片| 欧美在线色视频| 九一在线视频| 人体精品一二三区| 欧美freesex8一10精品| 免费无码毛片一区二三区| 狠狠色狠狠色综合系列| 影音先锋男人在线| 欧美日本免费一区二区三区| 成人全视频高清免费观看| 国产999在线观看| 奇米色欧美一区二区三区| 成人羞羞国产免费网站| 久久久久久久网| 国产一卡二卡三卡| 国产亚洲人成a一在线v站| 亚洲成人人体| 99精品视频网站| 国产精品一区二区你懂的| 免费又黄又爽又色的视频| 日韩精品一区二区三区中文精品| 天堂av最新在线| 国产一区免费观看| 亚洲综合电影一区二区三区| 午夜理伦三级做爰电影| 天天色天天操综合| 深夜福利视频在线观看| 国产精品扒开腿爽爽爽视频| 欧美美女一区| 中文字幕在线视频精品| 一区二区三区av电影 | 国内精品免费**视频| 国产高潮国产高潮久久久91| 精品黑人一区二区三区久久| caoporn视频在线观看| 欧美二区三区| 蜜臀av一级做a爰片久久| 久久精品亚洲a| 精品国产99国产精品| 午夜影院一区| 美女一区视频| 麻豆国产精品一区二区三区| 亚洲一级生活片| 亚洲精品国产欧美| 亚洲欧洲自拍| 日韩免费av电影| 国产在线播放一区三区四| 国产乡下妇女做爰| 在线观看国产精品91| 精品一区91| 精品久久久久av| 亚洲品质自拍视频| 日韩欧美在线番号| 国产精品一区专区欧美日韩|