精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta浙大校友讓評估模型「自學(xué)成才」,數(shù)據(jù)全合成無需人工標(biāo)注,訓(xùn)練Llama 3 70B超過405B

人工智能 新聞
隨著LLM不斷迭代,偏好和評估數(shù)據(jù)中大量的人工標(biāo)注逐漸成為模型擴(kuò)展的顯著障礙之一。Meta FAIR的團(tuán)隊(duì)最近提出了一種使用迭代式方法「自學(xué)成才」的評估模型訓(xùn)練方法,讓70B參數(shù)的Llama-3-Instruct模型分?jǐn)?shù)超過了Llama 3.1-405B。

 LLM在開發(fā)周期的每個(gè)階段都依賴強(qiáng)大的評估模型,比如訓(xùn)練階段用于對齊人類偏好或迭代自我改進(jìn)的獎勵模型,以及推理階段作為人類評估的替代方案。

構(gòu)建評估模型往往依賴大量的高質(zhì)量人類偏好數(shù)據(jù),不僅耗時(shí)長、成本高,而且在模型擴(kuò)展到新任務(wù)或評估標(biāo)準(zhǔn)時(shí)造成了阻礙。

此外,隨著新模型不斷迭代改進(jìn)時(shí),現(xiàn)有的標(biāo)注數(shù)據(jù)往往會過時(shí),因?yàn)槠渲械脑u估是基于舊有的、性能較差的模型相應(yīng)。這意味著需要不斷重復(fù)上述的數(shù)據(jù)標(biāo)注和收集流程。

最近,Meta FAIR發(fā)表的一篇研究就嘗試使用合成數(shù)據(jù)的方法來解決這個(gè)問題。他們提出了一種迭代的自我訓(xùn)練方法,在訓(xùn)練循環(huán)中完全不使用人類標(biāo)注的偏好數(shù)據(jù),而是純粹依賴合成數(shù)據(jù)。

圖片

論文地址:https://arxiv.org/abs/2408.02666

實(shí)驗(yàn)中,這種方法將Llama-3-70B-Instruct在RewardBench上的準(zhǔn)確率從75.4提升至88.7,超過了使用人類標(biāo)注數(shù)據(jù)的方法。

arXiv頁面顯示,這篇論文最后修訂于8月8日,目前作者還沒有公開相關(guān)代碼。

方法概述

整個(gè)pipeline的流程大致如下(圖1):

- 初始化:收集大量人類編寫的用戶指令,這在生產(chǎn)系統(tǒng)中較為常見,以及初始的種子LLM

- 指令選擇:用LLM從數(shù)據(jù)集中選擇出具有挑戰(zhàn)性的、平衡的用戶指令分布

- 響應(yīng)對構(gòu)建:對每個(gè)用戶指令,通過提示創(chuàng)建LLM模型響應(yīng)偏好對,讓其中一個(gè)的質(zhì)量(被拒絕響應(yīng))略低于另一個(gè)(被選擇響應(yīng))

- 迭代訓(xùn)練:每次迭代包括兩個(gè)步驟,判斷標(biāo)注和模型微調(diào)。

(i) 對每條數(shù)據(jù)采樣N個(gè)LLM-as-a-Judge生成的推理鏈和判斷結(jié)果。如果其中包含正確判斷,則將該數(shù)據(jù)加入訓(xùn)練集,否則丟棄這條數(shù)據(jù)。

(ii) 在本次迭代構(gòu)建的訓(xùn)練集上微調(diào)模型

圖片

值得注意的是,每次訓(xùn)練迭代中,訓(xùn)練集大小取決于當(dāng)前模型的質(zhì)量。預(yù)計(jì)隨著模型能力的提升,能夠生成更多正確的判斷,訓(xùn)練集大小也會逐步增加,從而構(gòu)成了一個(gè)自學(xué)過程。

指令選擇

之所以要進(jìn)行指令選擇,是因?yàn)樯a(chǎn)系統(tǒng)中收集的用戶數(shù)據(jù)可能存在大量噪音,模型響應(yīng)的主題、多樣性、難度和能力都有很大程度的不平衡。

因此,這一步驟的目標(biāo)是篩選出特定分布的指令子集,用于生成高質(zhì)量的響應(yīng)和判斷結(jié)果。

如圖7所示,先給出精確的提示讓LLM對每個(gè)輸入進(jìn)行分類,構(gòu)建數(shù)據(jù)集時(shí)就可以在這些類別中「按需取用」。

圖片

響應(yīng)對構(gòu)建

經(jīng)過前兩步我們得到了一個(gè)精心構(gòu)建的訓(xùn)練數(shù)據(jù)池。這一步驟就是要對其中每個(gè)輸入xi,生成涉及到兩個(gè)響應(yīng)yiw、yil的偏好數(shù)據(jù),其中前者yw(winning)的質(zhì)量預(yù)計(jì)會優(yōu)于后者yl(losing)。

但這一步完全使用合成數(shù)據(jù)而非依賴人工標(biāo)注,那么如何保證yw和yl的響應(yīng)質(zhì)量差異?

論文提出了一種比較巧妙的方法,即先讓LLM根據(jù)指令xi生成基線響應(yīng)yiw;然后指示模型生成一個(gè)「嘈雜」版本的指令xi′=??(xi) 。xi'與xi語義高度相關(guān)但不完全相同,之后生成對應(yīng)xi'的模型高質(zhì)量響應(yīng)yil

對于同一個(gè)指令xi而言,yil的質(zhì)量預(yù)計(jì)會低于yiw。由此,我們構(gòu)建出了一條完整的訓(xùn)練數(shù)據(jù):

ei := xi, yiA, yiB

其中,w=A或w=B是隨機(jī)分布的,且在最后的訓(xùn)練集構(gòu)建中保證兩種情況出現(xiàn)次數(shù)均衡,這對消除LLM-as-a-Judge的位置偏見非常重要。

判斷標(biāo)注

對于每條訓(xùn)練數(shù)據(jù)ei,LLM-as-a-Judge模型都會生成N個(gè)多樣化的評價(jià) ??:={ji1, …, jiN},然后應(yīng)用拒絕采樣過濾掉??中與事實(shí)標(biāo)簽不一致的判斷結(jié)果。實(shí)驗(yàn)中,N被設(shè)置為15。

若??過濾后為空,該條數(shù)據(jù)在本次迭代中直接被丟棄。

若??不為空,則從正確判決中隨機(jī)選擇一個(gè),構(gòu)建最終用于微調(diào)的訓(xùn)練數(shù)據(jù):

(xi, yiA, yiB, ji)

圖片

實(shí)驗(yàn)中還嘗試使用多數(shù)投票機(jī)制代替單個(gè)模型進(jìn)行LLM-as-a-Judge判斷,根據(jù)之前的研究結(jié)論,這可以帶來性能改進(jìn)。

實(shí)驗(yàn)及評估

初始模型M0從Llama-3-70B-Instruct進(jìn)行初始化,每輪迭代i=1,…T中,使用Mi-1生成偏好數(shù)據(jù)并作為LLM-as-a-Judge模型進(jìn)行判斷,然后再次微調(diào)M0模型(即Llama-3-70B-Instruct)。

其中,指令微調(diào)利用了fairseq2庫,并使用vLLM進(jìn)行推理。

大量人類編寫的指令數(shù)據(jù){xi}來自WildChat數(shù)據(jù)集,指令選擇步驟中使用Mixtral 22B×8進(jìn)行分類,共篩選出了20,582個(gè)有挑戰(zhàn)性的指令。響應(yīng)生成步驟同樣使用Mixtral 22B×8模型。

評估結(jié)果

在RewardBench上的分?jǐn)?shù)如表1所示。與種子模型相比,總分從75.4顯著提升至88.7,超過了GPT-4和Gemini 1.5 Pro,甚至也超過了405B參數(shù)的Llama模型,而且好于使用人類標(biāo)注數(shù)據(jù)集HelpSteer2的85.6分。

4個(gè)類別分別來看,Chat Hard和Safety的分?jǐn)?shù)隨著每輪迭代都有穩(wěn)步上升,但Reasoing和Chat類別較為波動。Chat類別在訓(xùn)練后的分?jǐn)?shù)甚至低于種子模型,作者推測,這是由于篩選的合成數(shù)據(jù)過于偏重困難任務(wù)。

此外可以發(fā)現(xiàn),在LLM-as-a-Judge模型生成判斷時(shí)使用32個(gè)樣本進(jìn)行多數(shù)投票的確可以提升整體性能。

圖片

HelpSteer2由英偉達(dá)和ScaleAI合作創(chuàng)建,是一個(gè)幫助模型響應(yīng)變得更加事實(shí)正確且連貫的開源數(shù)據(jù)集。

圖片

倉庫地址:https://huggingface.co/datasets/nvidia/HelpSteer2

在MT-Bench上的評估結(jié)果如表2所示。雖然分?jǐn)?shù)在第4輪迭代出現(xiàn)一些波動,但訓(xùn)練后的分?jǐn)?shù)依舊有小幅度提升,與GPT-4相當(dāng)。

圖片

根據(jù)在HelpSteer2上的評估結(jié)果(表3),在合成數(shù)據(jù)上的訓(xùn)練也提升了模型作為judge進(jìn)行判斷時(shí)的平均精度和位置一致精度,但似乎最佳結(jié)果出現(xiàn)在第4輪迭代,多一輪迭代后反而降低了性能。

圖片

結(jié)論

總體來看,本文提出了一種可擴(kuò)展的方法,在不使用任何人工標(biāo)注數(shù)據(jù)的情況下構(gòu)建響應(yīng)偏好對,在此基礎(chǔ)上訓(xùn)練的「自學(xué)評估模型」相比種子模型有顯著的性能提升。

作者提出,該研究還存在一些未討論的問題和局限:

- 第一輪訓(xùn)練迭代時(shí),直接使用種子模型生成第一批偏好數(shù)據(jù),但這背后的假設(shè)是Llama-3-70B-Instruct已經(jīng)有生成合理評估的能力;論文并沒有驗(yàn)證該假設(shè)是否成立

- 只使用了Llama-3-70B-Instruct作為種子模型進(jìn)行實(shí)驗(yàn),沒有探究該方法對較小模型的適用性

- 在LLM-as-a-Judge的判斷中,只研究了成對評估這一種模式;其實(shí)模型也可以直接評估單個(gè)響應(yīng)的指令的質(zhì)量

- 相比只輸出分?jǐn)?shù)的獎勵模型,生成式的LLM-as-a-Judge還需要輸出推理鏈,更長的輸出會提升推理成本

作者介紹

圖片

Tianlu是Meta FAIR的一名研究科學(xué)家,她本科畢業(yè)于浙江大學(xué)計(jì)算機(jī)科學(xué)專業(yè),博士畢業(yè)于弗吉尼亞大學(xué)。Tianlu的研究主要關(guān)注機(jī)器學(xué)習(xí)模型中有關(guān)公平性、穩(wěn)健性和問責(zé)制的主題,特別是在計(jì)算機(jī)視覺和自然語言處理系統(tǒng)中。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-11-25 08:10:00

2024-07-23 09:20:35

2025-03-31 09:46:00

2017-01-10 14:59:03

開發(fā)者故事

2024-06-05 08:33:29

2024-11-13 15:00:42

2025-02-26 14:22:18

2025-01-08 09:30:00

Meta大模型訓(xùn)練

2024-09-09 09:20:00

2016-01-27 10:36:25

程序員自學(xué)

2020-01-21 22:00:34

程序員技能開發(fā)者

2011-04-02 10:50:36

WebHTML 5

2024-08-02 14:53:00

2024-05-30 12:50:05

2017-02-09 16:52:33

開發(fā)者優(yōu)勢劣勢

2020-11-04 10:21:37

機(jī)器學(xué)習(xí)技術(shù)人工智能

2024-04-19 10:32:08

2024-07-24 13:18:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

www.日日操| 精品国产区在线| 一区视频免费观看| 成人爽a毛片| 色婷婷国产精品| 伊人天天久久大香线蕉av色| 亚洲精品国产精品国| 久久国产毛片| 欧美激情精品久久久久久黑人| 少妇特黄一区二区三区| 精品精品视频| 日本高清免费不卡视频| 91免费版看片| 国产视频第一页在线观看| 激情图区综合网| 欧美中文字幕在线播放| 美女的奶胸大爽爽大片| 国产一区二区三区四区五区传媒| 日韩精品一区二| 午夜免费看毛片| 最近高清中文在线字幕在线观看1| 亚洲欧洲一区二区三区| 国产伦精品一区二区三区免费视频| 亚洲精品一区二三区| 亚洲精品九九| 欧美大片免费观看| 91免费在线看片| 亚洲专区视频| 日韩av在线免费观看一区| 91看片破解版| 成人午夜毛片| 在线观看一区二区精品视频| 激情深爱综合网| gogogogo高清视频在线| 国产精品欧美久久久久无广告 | 黄色一级片av| 777电影在线观看| 国产欧美日韩在线| 久久国产精品-国产精品| 性生活免费网站| 国内精品免费**视频| 国产精品成人aaaaa网站| 台湾佬中文在线| 国产精品呻吟| 欧美综合第一页| 精品91久久久| 一本色道久久| 98精品国产高清在线xxxx天堂| 欧美日韩大片在线观看| 欧美激情视频一区二区三区免费| 精品国产一区av| 国产美女高潮视频| 国产精品久久久久久| 色偷偷噜噜噜亚洲男人| 日本激情视频一区二区三区| 国产国产精品| 久久视频中文字幕| 欧美被狂躁喷白浆精品| 欧美日本久久| 91精品国产91久久久久福利| 超碰超碰超碰超碰| 久久亚洲电影| 国产欧美日韩专区发布| 91丨九色丨丰满| 国产一区二区三区av电影 | 国产精品久久久久久久久久白浆| 亚洲精品在线免费播放| 捆绑裸体绳奴bdsm亚洲| 免费日韩一区二区三区 | jizz在线观看视频| 中文字幕日韩一区| 99er在线视频| 亚洲少妇视频| 在线观看91精品国产入口| 国产91色在线观看| 日本一区二区三区播放| 亚洲成人激情在线| 久久精品国产亚洲AV熟女| 日韩欧美午夜| 色在人av网站天堂精品| av大片免费观看| 日韩电影在线免费| 91成人伦理在线电影| 日韩性xxxx| 国产精品午夜在线| 亚洲爆乳无码精品aaa片蜜桃| 24小时免费看片在线观看| 色屁屁一区二区| 一区二区三区四区毛片| 国产乱人伦丫前精品视频| 亚洲视频在线免费看| 亚洲不卡在线播放| 亚洲一区中文| 91热福利电影| 男男电影完整版在线观看| 国产精品久久久久久久久晋中| 777久久精品一区二区三区无码 | 欧美色图第一页| 三上悠亚 电影| 精品国产中文字幕第一页| 久久中国妇女中文字幕| 亚洲免费黄色网址| 国产一区二区三区日韩| 欧美成熟毛茸茸复古| 日本天堂在线观看| 日韩欧美a级成人黄色| 在线看免费毛片| 亚洲午夜久久| 久久久久久成人精品| 中文字幕在线2019| 99国产精品国产精品久久| 中文字幕av导航| 国模套图日韩精品一区二区| 精品日韩一区二区三区| 国产喷水在线观看| 可以免费看不卡的av网站| 99视频免费观看蜜桃视频| 色老头视频在线观看| 欧美日韩亚洲天堂| 美女伦理水蜜桃4| 欧美日韩高清| 全亚洲最色的网站在线观看| 亚洲va久久久噜噜噜无码久久| 国产精品久久影院| 北条麻妃在线视频| 蜜桃精品wwwmitaows| 久久久久久久999| 国产普通话bbwbbwbbw| 国产精品毛片a∨一区二区三区| 欧美色图另类小说| 久久久久久毛片免费看| 色综合久久久久久中文网| 国产永久免费视频| 国产精品久久久久一区| 亚洲天堂av线| 国产精品一线天粉嫩av| 4k岛国日韩精品**专区| 欧美日韩免费高清一区色橹橹| 欧美大波大乳巨大乳| 日韩制服丝袜av| 色综合电影网| 国产精品久久久久av电视剧| 亚洲少妇激情视频| 亚洲综合久久网| 国产午夜精品一区二区| 苍井空浴缸大战猛男120分钟| 亚洲裸色大胆大尺寸艺术写真| 97精品视频在线播放| 日韩在线观看视频一区二区三区| 亚洲国产成人91porn| www.男人天堂| 久久国产88| 欧美13一14另类| 成人做爰免费视频免费看| 在线视频精品一| 中文字幕一区二区三区波野结| 亚洲国产精品av| 中文字幕第88页| 亚州av乱码久久精品蜜桃| 91网站免费观看| 亚洲小说区图片| 亚洲第一av在线| 亚洲欧美偷拍一区| 中文一区二区在线观看| 亚洲涩涩在线观看| 亚洲婷婷在线| 欧美成人一区二区在线| 国产日本久久| 欧美成人免费在线视频| 日本久久一级片| 欧洲色大大久久| www青青草原| av不卡一区二区三区| 黄色片久久久久| 99久久99久久精品国产片桃花| 97人人干人人| 一区二区电影免费观看| 日韩在线小视频| 黄色成人一级片| 色噜噜狠狠色综合中国| 国产精品99久久久久久成人| 成年人国产精品| www.天天射.com| 国产精品草草| 小说区图片区图片区另类灬| 亚洲网址在线观看| 国产福利成人在线| 日本在线视频www鲁啊鲁| 亚洲人成在线免费观看| av在线免费在线观看| 黄色成人在线播放| 欧美激情精品久久久久久免费| 成人精品免费网站| 色国产在线视频| 亚洲精品美女| 天天操天天干天天玩| 午夜欧洲一区| 91手机在线观看| 国产精品高清乱码在线观看| 久久久久国产精品免费| 天堂中文а√在线| 亚洲精品电影在线| 国产免费一区二区三区免费视频| 欧美日韩国产专区| 欧美极品视频在线观看| 中文字幕av一区二区三区| 欧产日产国产精品98| 久草热8精品视频在线观看| av免费播放网址| 欧美日韩亚洲三区| 在线观看欧美一区| 久久av中文| 久久www免费人成精品| 久久99成人| 国产欧美韩国高清| 日韩免费福利视频| 91精品成人久久| 女子免费在线观看视频www| 在线精品国产成人综合| 色猫av在线| 亚洲激情第一页| 亚洲乱熟女一区二区| 在线播放91灌醉迷j高跟美女| 国产美女www爽爽爽| 欧美日韩精品在线| 99视频在线看| 亚洲aaa精品| 久久中文字幕无码| 亚洲另类在线制服丝袜| 少妇视频一区二区| 亚洲国产成人自拍| 97在线观看免费视频| 久久久电影一区二区三区| 少妇光屁股影院| 91视频在线观看免费| 菠萝菠萝蜜网站| 91在线视频官网| 中文字幕在线播放视频| 成人国产免费视频| 人妻av一区二区| av亚洲精华国产精华精华| zjzjzjzjzj亚洲女人| 成人免费视频国产在线观看| www.美色吧.com| 成人在线综合网| 好吊色视频一区二区三区| 丁香六月综合激情| 亚洲熟女一区二区| 92国产精品观看| 免费毛片视频网站| 国产女主播视频一区二区| 欧美老女人性生活视频| 亚洲欧洲精品天堂一级 | 精品久久久久久| 亚洲黄色小说图片| 色综合天天综合| 成人免费一区二区三区| 欧美精选在线播放| 亚洲精品久久久久久动漫器材一区| 日韩精品一区二区三区在线观看 | 综合欧美亚洲| 精品福利影视| 任你弄精品视频免费观看| 欧洲在线视频一区| 国产精品传媒精东影业在线| 亚洲啊啊啊啊啊| 一区二区动漫| 日本新janpanese乱熟| 激情偷乱视频一区二区三区| 在线中文字日产幕| 久久天天做天天爱综合色| 国产午夜精品久久久久久久久| 亚洲精品国久久99热| 成人免费区一区二区三区| 91黄色激情网站| 精品人妻无码一区二区色欲产成人| 亚洲国产精品久久久| 国产三级在线看| 欧美精品少妇videofree| 交100部在线观看| 成人福利视频在线观看| 久久精品色综合| 午夜精品福利一区二区| 欧美日韩久久| 久久久久久三级| 国产成人精品网址| 国产毛片久久久久久久| 亚洲人成在线播放网站岛国| 久热这里只有精品6| 欧美日韩亚洲国产综合| 黄色一级大片在线免费看国产一| 亚洲午夜性刺激影院| 伊人影院蕉久影院在线播放| 青青草一区二区| 日本免费一区二区三区视频| 日韩经典在线视频| 欧美激情综合| 国产wwwxx| eeuss国产一区二区三区| 殴美一级黄色片| 91极品美女在线| 欧美 日韩 国产 在线| 色偷偷88888欧美精品久久久| 欧美少妇网站| 97欧洲一区二区精品免费| 欧美激情欧美| 日本熟妇人妻xxxxx| 国产成人在线色| 国产探花视频在线| 日韩欧美中文第一页| 性生活黄色大片| 久久久精品视频在线观看| 亚洲第一二三四区| 国产伦精品一区二区三区| 综合日韩在线| 欧美成人福利在线观看| 26uuu精品一区二区| 日本免费在线播放| 日韩精品中文字幕一区| 欧美a在线看| 国产精品久久久久久久久影视| 欧美一区二区三区红桃小说| 日韩精品一区二区免费| 国产传媒久久文化传媒| 日韩国产第一页| 欧美撒尿777hd撒尿| 黄色网址在线播放| 国产91精品青草社区| 精品三级在线观看视频| 欧妇女乱妇女乱视频| 国产揄拍国内精品对白| 国产高清视频免费在线观看| 欧美三级韩国三级日本一级| 国产三级在线免费观看| 国产精品成熟老女人| 精品久久网站| 国产精品一区二区羞羞答答| 国产清纯美女被跳蛋高潮一区二区久久w | 97久久久免费福利网址| 视频一区在线| 精品视频在线观看一区二区| 国产成人av福利| 精品无码久久久久久久久| 精品国精品国产尤物美女| 欧美人与牲禽动交com| 成人av免费在线看| 在线看片成人| 成人女保姆的销魂服务| 91精品又粗又猛又爽| 亚洲插插视频| 欧美三级xxx| 久久精品久久久久久久| 亚洲国产成人久久综合| 九九热视频精品| 欧美色男人天堂| 素人av在线| 亚洲999一在线观看www| 亚洲字幕久久| 性生交大片免费看l| 亚洲一二三区不卡| 亚洲av毛片成人精品| 亚洲成精国产精品女| 最近免费中文字幕大全免费版视频| 亚洲午夜女主播在线直播| 国产精品伊人| 国产尤物av一区二区三区| 91捆绑美女网站| 最近中文字幕免费观看| 美女av一区二区三区| 韩国精品福利一区二区三区| 18禁免费无码无遮挡不卡网站| 国产日韩高清在线| 国产浮力第一页| 人体精品一二三区| 日韩精品中文字幕第1页| 亚洲一级片免费观看| 精品日本高清在线播放| av电影在线观看| 91精品国产高清久久久久久91裸体| 在线不卡视频| 免费在线观看a视频| 欧美一区二区三区人| 亚洲私拍视频| 在线观看精品视频| 99精品视频免费在线观看| 中国一区二区视频| 久久久久久国产精品美女| 国产va免费精品观看精品视频| 亚洲综合伊人久久| 日韩欧美国产黄色| 亚洲丝袜精品| 视频一区不卡| 成人免费看的视频| 一级黄在线观看| 2019中文字幕在线免费观看| 999精品在线| 蜜桃无码一区二区三区| 日韩欧美成人激情| 国产欧美在线观看免费| 日韩欧美视频网站|