精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

24小時內、200美元復制RLHF過程,斯坦福開源「羊駝農場」

人工智能 新聞
平替不止模型,RLHF也有平替了。

2 月底,Meta 開源了一個大模型系列 LLaMA(直譯為羊駝),參數量從 70 億到 650 億不等,被稱為 Meta 版 ChatGPT 的雛形。之后斯坦福大學、加州大學伯克利分校等機構紛紛在 LLaMA 的基礎上進行「二創」,陸續推出了 Alpaca、Vicuna 等多個開源大模型,一時間「羊駝」成為 AI 圈頂流。開源社區構建的這些類 ChatGPT 模型迭代速度非常快,并且可定制性很強,被稱為 ChatGPT 的開源平替。

然而,ChatGPT 之所以能在文本理解、生成、推理等方面展現出強大的能力,是因為 OpenAI 為 ChatGPT 等大模型使用了新的訓練范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以強化學習的方式依據人類反饋優化語言模型。使用 RLHF 方法,大型語言模型可與人類偏好保持對齊,遵循人類意圖,最小化無益、失真或偏見的輸出。但 RLHF 方法依賴于大量的人工標注和評估,通常需要數周時間、花費數千美元收集人類反饋,成本高昂。

現在,推出開源模型 Alpaca 的斯坦福大學又提出了一種模擬器 ——AlpacaFarm(直譯為羊駝農場)。AlpacaFarm 能在 24 小時內僅用約 200 美元復制 RLHF 過程,讓開源模型迅速改善人類評估結果,堪稱 RLHF 的平替。

圖片

AlpacaFarm 試圖快速、低成本地開發從人類反饋中學習的方法。為了做到這一點,斯坦福的研究團隊首先確定了研究 RLHF 方法的三個主要困難:人類偏好數據的高成本、缺乏可信賴的評估、缺乏參考實現。

為了解決這三個問題,AlpacaFarm 構建了模擬注釋器、自動評估和 SOTA 方法的具體實現。目前,AlpacaFarm 項目代碼已開源。

圖片

  • GitHub 地址:https://github.com/tatsu-lab/alpaca_farm
  • 論文地址:https://tatsu-lab.github.io/alpaca_farm_paper.pdf

如下圖所示,研究人員可以使用 AlpacaFarm 模擬器快速開發從人類反饋數據中學習的新方法,也能將已有 SOTA 方法遷移到實際的人類偏好數據上。

圖片

模擬注釋器

AlpacaFarm 基于 Alpaca 數據集的 52k 指令構建,其中 10k 指令用于微調基本的指令遵循模型,剩余的 42k 指令用于學習人類偏好和評估,并且大部分用于從模擬注釋器中學習。該研究針對 RLHF 方法的注釋成本、評估和驗證實現三大挑戰,逐一提出解決方法。

首先,為了減少注釋成本,該研究為可訪問 API 的 LLM(如 GPT-4、ChatGPT)創建了 prompt,使得 AlpacaFarm 能夠模擬人類反饋,成本僅為 RLHF 方法收集數據的 1/45。該研究設計了一種隨機的、有噪聲的注釋方案,使用 13 種不同的 prompt,從多個 LLM 提取出不同的人類偏好。這種注釋方案旨在捕獲人類反饋的不同方面,如質量判斷、注釋器之間的變化性和風格偏好。

該研究通過實驗表明 AlpacaFarm 的模擬是準確的。當研究團隊使用 AlpacaFarm 訓練和開發方法時,這些方法與使用實際人類反饋訓練和開發的相同方法排名非常一致。下圖顯示了由 AlpacaFarm 模擬工作流和人類反饋工作流產生的方法在排名上的高度相關性。這一特性至關重要,因為它說明從模擬中得出的實驗結論在實際情況下也有可能成立。

除了方法層面的相關性,AlpacaFarm 模擬器還可以復制獎勵模型過度優化等定性現象,但以此針對代理獎勵(surrogate reward)的持續 RLHF 訓練可能會損害模型性能。下圖是在人類反饋 (左) 和 AlpacaFarm (右) 兩種情況下的該現象,我們可以發現 AlpacaFarm 最初捕獲了模型性能提升的正確定性行為,然后隨著 RLHF 訓練的持續,模型性能下降。

圖片

評估

在評估方面,研究團隊使用與 Alpaca 7B 的實時用戶交互作為指導,并通過結合幾個現有公共數據集來模擬指令分布,包括 self-instruct 數據集、anthropic helpfulness 數據集和 Open Assistant、Koala 和 Vicuna 的評估集。使用這些評估指令,該研究比較了 RLHF 模型與 Davinci003 模型的響應(response)情況,并使用一個分值度量 RLHF 模型響應更優的次數,并將這個分值稱為勝率(win-rate)。如下圖所示,在該研究的評估數據上進行的系統排名量化評估表明:系統排名和實時用戶指令是高度相關的。這一結果說明,聚合現有的公開數據能實現與簡單真實指令相近的性能。

圖片

參考方法

對于第三個挑戰 —— 缺少參考實現,研究團隊實現并測試了幾種流行的學習算法 (如 PPO、專家迭代、best-of-n 采樣)。研究團隊發現在其他領域有效的更簡單方法并不比該研究最初的 SFT 模型更好,這表明在真實的指令遵循環境中測試這些算法是非常重要的。

圖片

根據人工評估,PPO 算法被證明是最有效的,它將模型與 Davinci003 相比的勝率從 44% 提高到 55%,甚至超過了 ChatGPT。

這些結果表明,PPO 算法在為模型優化勝率方面是非常有效的。需要注意的是,這些結果是特定于該研究的評估數據和注釋器得出的。雖然該研究的評估指令代表了實時用戶指令,但它們可能無法涵蓋更具有挑戰性的問題,并且并不能確定有多少勝率的改進來源于利用風格偏好,而不是事實性或正確性。例如,該研究發現 PPO 模型產生的輸出要長得多,并且通常為答案提供更詳細的解釋,如下圖所示:

圖片

圖片

總的來說,使用 AlpacaFarm 在模擬偏好上訓練模型能夠大幅改善模型的人類評估結果,而不需要讓模型在人類偏好上重新訓練。雖然這種遷移過程比較脆弱,并且在效果上仍略遜于在人類偏好數據上重新訓練模型。但能在 24 小時內,僅用 200 美元就復制出 RLHF 的 pipeline,讓模型迅速提升人類評估性能,AlpacaFarm 這個模擬器還是太香了,是開源社區為復刻 ChatGPT 等模型的強大功能做出的又一努力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-03-22 15:14:00

數據模型

2023-03-31 13:55:00

模型智能

2022-01-23 16:13:06

比特幣加密貨幣暴跌

2023-03-15 10:26:00

模型開源

2023-03-14 13:45:14

模型AI

2014-04-22 13:44:12

微軟

2024-07-05 17:49:29

2025-07-21 11:51:12

模型AI工具

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2020-09-18 17:40:49

TikTok程序禁令

2021-04-02 15:02:42

開源技術 工具

2013-06-04 13:43:53

2021-11-26 05:53:59

蜜罐惡意軟件網絡攻擊

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-12-16 14:33:01

AI人工智能斯坦福

2013-09-27 13:34:09

BAT百度騰訊

2018-08-13 21:19:07

Weld開源數據
點贊
收藏

51CTO技術棧公眾號

欧美精品videos另类日本| 日韩欧美在线国产| 444亚洲人体| 亚洲精品77777| 国产麻豆一区二区三区精品视频| 欧美亚洲国产一区二区三区va | 香蕉久久夜色精品国产更新时间| 色av成人天堂桃色av| 中文字幕日韩精品一区二区| 人成网站在线观看| 超碰成人在线免费| 欧美性大战久久久久久久蜜臀 | 国产成人女人毛片视频在线| 日韩综合在线观看| 欧美黄色大片网站| 亚洲天堂成人在线| 日本wwwwwww| 久久青草视频| 欧美日韩激情小视频| 精品日韩在线播放| 久久久久久久影视| 成人性视频免费网站| 国产精品91在线观看| 国产在线视频第一页| 日本欧美肥老太交大片| 欧美精品一区二区三区高清aⅴ| 在线观看高清免费视频| 国产理论在线| 亚洲欧美日韩一区| 日韩欧美亚洲日产国产| 天堂网av2014| 大尺度一区二区| 成人激情在线观看| 一区精品在线观看| 日韩精品亚洲一区二区三区免费| 欧美激情免费在线| 久草视频在线资源站| 欧美r级电影| 亚洲天堂日韩电影| 51调教丨国产调教视频| 99re91这里只有精品| 5月丁香婷婷综合| 欧美女同在线观看| 成人国产精品| 欧美性高清videossexo| 成人在线激情网| 欧美黑人巨大xxxxx| 精品久久在线播放| 18禁免费观看网站| 91高清视频在线观看| 一卡二卡三卡日韩欧美| 久久视频免费在线| 国产网站在线免费观看| |精品福利一区二区三区| 亚洲高清123| www.日日夜夜| 国产99久久久国产精品免费看| 91香蕉国产在线观看| 91女人18毛片水多国产| 美女国产一区二区| 国产美女91呻吟求| 97在线播放免费观看| 麻豆视频一区二区| 成人黄色激情网| 国产精品久久欧美久久一区| 韩国视频一区二区| 成人午夜影院在线观看| 欧美在线 | 亚洲| 91丨porny丨最新| 欧美日韩在线精品| 在线观看完整版免费| 成人免费在线视频| 成人在线免费高清视频| 日本小视频在线免费观看| 亚洲成人久久影院| 国产精品亚洲a| 人人精品久久| 精品国产一区二区在线观看| 欧洲一级黄色片| 国产亚洲电影| 操人视频在线观看欧美| 日本学生初尝黑人巨免费视频| 国产日本精品| 国产欧美一区二区三区四区| 国产人妖一区二区| 国产suv精品一区二区883| 久久国产主播精品| 91最新在线| 亚洲一级不卡视频| 激情婷婷综合网| 国产成年精品| 日韩精品福利在线| 激情无码人妻又粗又大| 国产精品av久久久久久麻豆网| 97avcom| 亚洲网站在线免费观看| 国产成人av一区二区三区在线 | 888av在线| 亚洲一区二区四区蜜桃| 爱情岛论坛vip永久入口| 国产一区二区三区免费观看在线 | 91视频免费在观看| 欧美色综合网| 国产精品香蕉在线观看| 人妻一区二区三区免费| 国产精品第一页第二页第三页| 男人天堂手机在线视频| 国产一区二区主播在线| 亚洲精品一区二区三区在线观看| 中字幕一区二区三区乱码| 国产一在线精品一区在线观看| 国产精品va在线播放| 亚洲男人第一天堂| 国产精品久99| 成人一区二区三| 国产调教精品| 乱亲女秽乱长久久久| 亚洲黄色免费观看| 岛国一区二区在线观看| 成年人黄色在线观看| 精品国产第一福利网站| 精品国产91洋老外米糕| 久久中文免费视频| 视频一区二区国产| 精品一区二区三区自拍图片区| a在线免费观看| 欧美日韩在线直播| 久久av无码精品人妻系列试探| 欧美日韩三级电影在线| 成人久久一区二区三区| 在线视频二区| 在线精品观看国产| 精品无码人妻一区| 欧美激情偷拍| 成人性生交大片免费看视频直播 | 美女啪啪无遮挡免费久久网站| 国产免费a视频| 久久先锋影音av| 男人日女人下面视频| 澳门精品久久国产| 久久91亚洲精品中文字幕| 国产精品无码在线播放| 中文字幕亚洲在| 日本人69视频| 99re66热这里只有精品8| 国产精品激情av电影在线观看| 日本精品专区| 色一情一伦一子一伦一区| av激情久久| 免费黄色在线观看| 欧美日韩卡一卡二| 国产三级aaa| 久久99精品网久久| 黄色a级在线观看| 国产高清视频一区二区| 免费97视频在线精品国自产拍| 国产孕妇孕交大片孕| 亚洲色图在线播放| 欧美色图校园春色| 一区视频在线| 久久精品国产综合精品| 欧美日韩免费看片| 原创国产精品91| 亚洲无码精品在线播放| 成人欧美一区二区三区小说| 在线视频观看一区二区| 欧美视频久久| 久久精品二区| 成人日韩在线观看| 日韩视频免费观看| 在线观看毛片视频| 亚洲精品中文在线观看| 国产精品果冻传媒| 亚洲影音先锋| 亚洲欧洲精品一区二区| 精品国产亚洲一区二区三区在线 | 国产日韩在线免费观看| 中文字幕在线观看不卡视频| 亚洲午夜精品在线观看| 国产精品美女久久久浪潮软件| 欧美深深色噜噜狠狠yyy| 国产成人久久精品麻豆二区| 久久综合久久美利坚合众国| 丁香六月天婷婷| 一本色道久久综合亚洲aⅴ蜜桃| 91无套直看片红桃在线观看| 国产成人精品免费一区二区| 日韩精品视频久久| 欧美mv日韩| 国产一区免费在线观看| 黑人一区二区三区| 国模视频一区二区三区| 成人在线观看网站| 欧美成人欧美edvon| 国产黄网在线观看| 一区二区三区四区在线| 97人妻精品一区二区免费| 久久国产精品区| 伊人成色综合网| 伊人久久大香线蕉精品组织观看| 久久99热只有频精品91密拍| 日日夜夜一区| 日本一区二区三区四区视频| av电影免费在线观看| 亚洲毛茸茸少妇高潮呻吟| 国产xxxx孕妇| 欧美在线一二三| 日韩三级视频在线| 亚洲色图在线看| 制服 丝袜 综合 日韩 欧美| 成人综合婷婷国产精品久久蜜臀 | 在线观看视频黄色| 少妇精品导航| 99精彩视频| 日韩亚洲国产免费| 国产精欧美一区二区三区| missav|免费高清av在线看| 日韩视频中文字幕| 成年人视频在线观看免费| 欧美精品一区二区三区蜜桃视频| 91资源在线视频| 日本乱人伦aⅴ精品| 国产午夜小视频| 亚洲精品ww久久久久久p站| 女人十八毛片嫩草av| 91性感美女视频| 中文字幕在线播放一区二区| 麻豆成人久久精品二区三区小说| 精品国产免费av| 在线精品小视频| 中文字幕一区二区三区最新| 欧美一区电影| 日韩免费一区二区三区| 中文有码一区| 欧美精品一区二区三区在线看午夜 | 亚洲第一久久影院| 免费看一级一片| 亚洲精品乱码久久久久久| 国产成人av免费在线观看| 日本一区二区高清| 少妇视频在线播放| 中文欧美字幕免费| 国产综合精品久久久久成人av| 久久久久久麻豆| 中文字幕在线1| 欧美激情综合五月色丁香小说| 国产真实乱人偷精品人妻| 久久婷婷国产综合精品青草| 动漫精品一区二区三区| 久久亚洲影视婷婷| 久久久久亚洲av成人无码电影| 久久综合给合久久狠狠狠97色69| 3d动漫精品啪啪一区二区下载| www日韩大片| av黄色在线免费观看| 日本一区二区在线不卡| 免费看一级黄色| 亚洲天堂精品在线观看| 午夜69成人做爰视频| 亚洲国产精品麻豆| 日本高清不卡码| 在线欧美日韩精品| 国产精品久久婷婷| 欧美成人乱码一区二区三区| 天天干天天色天天| 亚洲欧美在线看| 午夜伦理在线| 久久99久久99精品中文字幕| a在线视频v视频| 国产精品成人v| 成人污版视频| 国产主播一区二区三区四区| 伊人久久大香线蕉| 亚洲视频sss| 欧美体内she精视频在线观看| 欧美日韩一道本| 蜜臀av一区二区| 稀缺呦国内精品呦| 国产日本一区二区| 无码黑人精品一区二区| 污片在线观看一区二区| 最近国语视频在线观看免费播放| 在线成人小视频| 天堂v在线观看| 日韩在线观看你懂的| jizz一区二区三区| 国产精品精品久久久久久| 麻豆精品国产| 日本在线播放一区| 欧美成人日本| 爱情岛论坛成人| 粉嫩av亚洲一区二区图片| japanese中文字幕| 一区二区三区美女视频| 91视频久久久| 精品国内二区三区| 日本在线免费| 欧美一级成年大片在线观看| 不卡一区视频| 欧美一区2区三区4区公司二百| 99久久综合| 无遮挡又爽又刺激的视频| 国产激情视频一区二区三区欧美| 少妇真人直播免费视频| 一区二区视频在线| 日韩精选在线观看| 亚洲激情自拍图| free性欧美hd另类精品| 国产精品91在线| 任我爽精品视频在线播放| av中文字幕av| 久久精品久久综合| 香蕉视频黄色在线观看| 亚洲乱码国产乱码精品精的特点| 日韩免费av网站| 亚洲高清色综合| 97caopor国产在线视频| 国产精品男人爽免费视频1| 日本午夜精品| 97中文字幕在线| 国内精品久久久久影院一蜜桃| 人妻大战黑人白浆狂泄| 亚洲综合免费观看高清完整版在线 | 国产一二三在线| 成人毛片网站| 在线精品小视频| 国产九九九视频| 一色屋精品亚洲香蕉网站| 正在播放亚洲精品| 亚洲欧美日韩久久久久久| 国产伦理精品| 国产专区一区二区三区| 亚洲国产精品第一区二区| 亚洲深夜激情| 国产美女91呻吟求| 精品高清在线| 免费av网址在线| 久久你懂得1024| 国产精品乱子伦| 亚洲精品久久久久久久久久久| 黄色的视频在线观看| 91免费观看| 国产在线日韩| 亚洲成a人无码| 亚洲一区二区三区四区不卡| 丰满人妻一区二区三区四区53| 九色成人免费视频| julia中文字幕一区二区99在线| av一区二区三区免费观看| 国产黄人亚洲片| 国产一级视频在线观看| 亚洲成色777777在线观看影院 | 国外色69视频在线观看| 久久久免费毛片| 国产日产欧美视频| 国产三级久久久| 91福利在线观看视频| 久久精品国产一区二区电影| 精品国产一级| 久久国产精品网| 91视频精品在这里| 精品人妻一区二区三区潮喷在线| 亚洲天堂2020| 亚洲精品777| 阿v天堂2018| 久久日一线二线三线suv| 成人免费一区二区三区| 久久综合伊人77777| 国产精品巨作av| 成人一区二区三| 亚洲免费观看视频| 三级小视频在线观看| 国产精品69精品一区二区三区| 欧美国产一区二区三区激情无套| 国产精品嫩草影视| 精品高清一区二区三区| av在线中文| 97神马电影| 久久久www| 永久久久久久久| 亚洲人成毛片在线播放| 在线播放成人| av7777777| 日韩一区欧美一区| 午夜成人免费影院| 国产欧美日韩中文字幕在线| 亚洲天堂偷拍| 日本爱爱爱视频| 欧美r级电影在线观看| 自拍在线观看| 97av中文字幕| 国产婷婷一区二区| 性生活免费网站| 国产精品久久久久久久久男| 女主播福利一区| 亚洲区自拍偷拍| 亚洲国产成人av在线| 亚洲成人1区| 欧美精品色婷婷五月综合| 亚洲欧美日韩人成在线播放|