精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替

發布于 2024-5-27 12:15
瀏覽
0收藏

比斯坦福DPO(直接偏好優化)更簡單的RLHF平替來了,來自陳丹琦團隊。


該方式在多項測試中性能都遠超DPO,還能讓8B模型戰勝Claude 3的超大杯Opus。

而且與DPO相比,訓練時間和GPU消耗也都大幅減少。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

這種方法叫做SimPO,Sim是Simple的簡寫,意在突出其簡便性。


與DPO相比,SimPO擺脫了對參考模型的需要,在簡化訓練流程的同時,還避免了訓練和推理不一致的問題。


對于這項成果,普林斯頓PLI主任Sanjeev Arora教授這樣稱贊:

和(SimPO方法調整出的)模型聊天感覺讓人難以置信。
Llama3-8B是現在最好的小模型,SimPO把它變得更好了。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

成果發布并開源后,大模型微調平臺Llama-Factory也迅速宣布引進。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

擺脫對參考模型的需要

陳丹琦團隊的SimPO,和斯坦福提出的DPO一樣,都是對RLHF中的獎勵函數進行優化。

在傳統的RLHF中,獎勵函數通常由一個獨立的獎勵模型提供,需要額外的訓練和推理;DPO利用人類偏好和模型輸出之間的關系,直接用語言模型的對數概率來構建獎勵函數,繞開了獎勵模型的訓練。


而和DPO相比,SimPO只基于當前優化的模型π_θ進行設計,完全擺脫了對參考模型π_ref的依賴。


具體來說,SimPO采用了長度歸一化的對數概率作為獎勵函數。


其中,β是一個正的縮放系數,|y|表示回復y的token長度,πθ(y|x)表示當前語言模型πθ生成回復y的概率。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

對數概率是衡量生成質量的常用指標,較高的對數概率意味著在當前模型看來,這個回復是高質量、自然、連貫的。


因此,這種獎勵方式可以讓模型生成的回復更加符合自身已有知識。


長度歸一化則是指,在函數當中,獎勵值除以了回復長度|y|,起到了“懲罰”過長回復的作用。


這樣做的原因是語言模型傾向于生成更長的文本,因為每個額外的token都會為總對數概率做貢獻,但過長的回復往往會降低可讀性和信息密度。


除以長度相當于計算平均每個token的對數概率,鼓勵模型用盡可能簡潔的方式表達完整的信息。


消融實驗結果也證實,如果不進行長度歸一化,模型很容易利用長度偏差,只有在生成文本較長時才有較好的表現。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

除了使用對數概率和長度歸一化,SimPO還引入了獎勵差異項(公式中的γ)對目標函數進行改進。


引入γ相當于給正負樣本的差異設定了一個閾值,主要目的就是加強優化信號,促使模型學習更加鮮明地區分正負樣本。


在標準的Bradley-Terry損失中,只要正樣本的獎勵略高于負樣本,損失就會很低,導致模型對正負樣本的區分不夠清晰;加入γ項后,模型必須使正樣本的獎勵明顯高于負樣本,才能取得較好的優化效果。


當然如果γ過大則可能會給優化帶來困難,導致訓練不穩定或收斂速度變慢,作者通過實驗比較了不同γ值的效果,最終發現γ在0.8到1.6之間時SimPO可以取得最佳表現。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

總體的消融實驗結果表明,長度歸一化和獎勵差異項的引入都是讓SimPO表現進一步提升的關鍵,無論是在AlpacaEval 2還是Arena-Hard當中,缺少兩項技術中的任意一項,都會造成表現下降。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

那么,SimPO的具體表現究竟怎樣呢?

表現超越各種“PO”,還讓8B模型戰勝Claude 3

作者首先在AlpacaEval 2基準上對SimPO調整后的Llama3-Instruct-8B模型和榜單上的先進模型進行了比較。


該測試的主要指標是Win Rate及加入長度控制(LC)后的Win Rate,即模型的回答被評判者認為比GPT-4 Turbo(1106)更好的比例(這里評判者也是GPT4-Turbo)。


結果,SimPO調整后的8B模型,表現已經超過了Claude 3的超大杯Opus;和DPO相比,勝率也有10%左右的提升。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

接著,作者又用AlpacaEval 2、Arena-Hard和MT-Bench基準,將SimPO的實際效果與一些其他PO進行了對比。


其中Arena-Hard與AlpacaEval 2類似都是比較勝率,但前者任務難度更大,需要多步推理和專業知識,此外baseline也換成了GPT4-0314。


MT-Bench則是一個多語言理解評測基準,評價方式是直接打分,裁判是GPT-4和GPT-4-Turbo。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

參與比較的其他PO如下表所示,其中ORPO和SimPO一樣都沒有使用參考模型。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

結果,在Arena-Hard與AlpacaEval 2上,調整Mistral-7B和Llama3-8B兩種模型時,無論是Base還是Instruct版本,SimPO的效果都顯著優于DPO等其他方式。


在MT-Bench測試當中,GPT-4-Turbo也都把最高分打給了SimPO,GPT-4給出的成績中SimPO也與最高分十分接近。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

另外SimPO的開銷也大幅減少,在8塊H100上,SimPO調整Llama3-8B的時間為60分鐘,比DPO減少了20%;GPU消耗峰值為69GB,也比DPO少了10%。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

但同時,作者也指出了SimPO還存在一些不足:

  • 一是未明確考慮安全性和誠實性,采用的獎勵函數主要關注了模型的表現,需要進一步加強安全措施;
  • 二是在GSM8k等需要密集推理的任務,特別是數學問題上的表現有所下降,未來會考慮集成一些正則化策略進行改進。


有網友也指出,讓一個8B模型取得超越Claude3-Opus的勝率,一定會有過擬合的現象出現。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

對此作者表示確實存在這種可能,但也強調,在單獨一個標準上成績比Claude高,并不意味著全面超越,比如在Arena-Hard上的表現就不如Claude。

陳丹琦團隊新作:微調8B模型超越Claude3 Opus,背后是RLHF新平替-AI.x社區

不過無論如何,SimPO創新性運用到的長度歸一化和獎勵差異項,都可以給大模型從業者帶來新的啟發。


論文地址:???https://arxiv.org/abs/2405.14734??


本文轉自 量子位,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/ZmoDjUUoP4w7j57qpYlodg??

收藏
回復
舉報
回復
相關推薦
www精品久久| 国产一区二区高清视频| 婷婷色一区二区三区| 亚洲成人人体| **性色生活片久久毛片| 国产精品国产精品国产专区蜜臀ah| 日韩乱码在线观看| 日韩精品水蜜桃| 精品精品国产高清a毛片牛牛 | 久久99精品国产.久久久久久| 欧美成人久久久| 3d动漫精品啪啪一区二区下载| 国产精品亲子伦av一区二区三区| 亚洲一区二区免费视频| 日韩精品一区二区三区四区五区| 国产色片在线观看| 老鸭窝亚洲一区二区三区| 久热在线中文字幕色999舞| 欧美无人区码suv| 99精品国产九九国产精品| 欧美日韩亚洲天堂| 久久亚洲a v| 91在线免费看| 国产成人在线视频网址| 国产精品丝袜高跟| 超碰超碰超碰超碰| 亚洲性人人天天夜夜摸| 久久影视电视剧免费网站| 实拍女处破www免费看| 国产一区调教| 欧美岛国在线观看| 手机av在线免费| 91国内外精品自在线播放| 欧美日韩一区二区在线| 久久国产午夜精品理论片最新版本| 日本成人网址| 国产精品天天看| 欧美日韩综合网| 香蕉视频免费在线看| 国产v综合v亚洲欧| 97超碰在线播放| 99riav国产| 激情五月激情综合网| 国产精品欧美一区二区| 日本免费精品视频| 亚洲在线成人| 7777免费精品视频| 日本三级小视频| 亚洲久久成人| 69av在线视频| 欧美亚洲另类小说| 日本最新不卡在线| 国产精品盗摄久久久| 久久永久免费视频| 天堂精品中文字幕在线| 日本在线观看天堂男亚洲 | 国产偷久久久精品专区| www三级免费| 风间由美性色一区二区三区 | 欧洲亚洲在线视频| www五月天com| 秋霞午夜av一区二区三区| 国产精品户外野外| 国产精品无码一区二区桃花视频| 精品一区在线看| 91精品久久久久久蜜桃| 懂色av一区二区三区四区| 不卡视频一二三| 六月婷婷久久| av午夜在线| 亚洲欧美日韩一区| 国产一线二线三线女| 免费毛片b在线观看| 色94色欧美sute亚洲线路二| 91av在线免费播放| 四虎国产精品免费久久5151| 日韩一区二区在线播放| 亚洲一区二区三区四区精品| jizz久久精品永久免费| 亚洲美女喷白浆| 亚洲图片第一页| 欧美激情1区2区| 91成人精品网站| 最近中文字幕免费观看| 国产精品一区二区果冻传媒| 国产伦理久久久| 国产高清一级毛片在线不卡| 亚洲精品国产精华液| 男人和女人啪啪网站| 中韩乱幕日产无线码一区| 这里只有精品电影| 国产中文字幕一区二区| 日韩在线中文| 国内精品久久久久久| 天堂网一区二区| 国产精品18久久久久久vr| 麻豆精品蜜桃一区二区三区| 欧美成人视屏| 婷婷久久综合九色国产成人| 色婷婷成人在线| 草莓视频一区二区三区| 国产一区二区三区丝袜 | 婷婷开心久久网| 色婷婷激情视频| 久操成人av| 久久久久在线观看| 在线观看视频中文字幕| www..com久久爱| 一本久久a久久精品vr综合 | 国产婷婷精品| 亚洲直播在线一区| 国产美女性感在线观看懂色av| 亚洲一区二区三区四区在线免费观看 | 国产伦精品一区二区三区视频黑人 | 欧美黄网在线观看| 不卡亚洲精品| 亚洲精品中文字幕av| www.av视频| 男女男精品视频| 久久免费看av| 国内在线免费视频| 欧美剧情电影在线观看完整版免费励志电影 | 久青草视频在线播放| 国产69精品久久| 亚洲欧美国产另类| 日韩手机在线观看| 国产成人免费视频网站 | 高清免费日韩| √新版天堂资源在线资源| 欧美性极品xxxx做受| 性活交片大全免费看| 欧美一区二区三区免费看| 国产综合视频在线观看| 国产在线免费观看| 欧美三级xxx| 亚洲久久久久久| 亚洲无线视频| www 成人av com| 影音先锋男人资源在线| 欧美一区二区性放荡片| 麻豆精品国产免费| 久久国产精品一区二区| 午夜午夜精品一区二区三区文| 免费福利视频一区二区三区| 精品亚洲一区二区| 影音先锋在线国产| 91色|porny| 日韩中文字幕三区| 亚洲宅男一区| 日韩免费黄色av| 国产一区二区三区福利| 在线免费不卡电影| 免费一级特黄3大片视频| 日本伊人色综合网| 亚洲最大色综合成人av| 国产精品日本一区二区不卡视频 | 精品久久国产97色综合| 国产成人精品av久久| 成人午夜视频在线| 热99这里只有精品| 日韩影视高清在线观看| 日韩av电影手机在线| 国产黄色免费在线观看| 欧美日韩高清在线| 欧美色图亚洲视频| 成人小视频免费在线观看| 黄色免费视频大全| 欧美精品尤物在线观看| 国产日韩欧美在线视频观看| 国产精品一区二区三区视频网站| 日韩三区在线观看| 99精品视频99| 亚洲国产精品黑人久久久| 91在线第一页| 国产精品亚洲产品| 日韩在线观看电影完整版高清免费| 国产精品久久乐| 欧美激情亚洲国产| 蜜桃视频在线免费| 91精品国产高清一区二区三区蜜臀| 久久久久久久国产精品毛片| 91免费国产视频网站| 天天综合网久久| 亚洲午夜精品久久久久久app| 久久久一本精品99久久精品| 久久夜夜久久| 68精品国产免费久久久久久婷婷| 9191在线| 亚洲第一男人av| 最新国产中文字幕| 亚洲一区国产视频| 中文字幕有码在线播放| 国产精品1区2区3区| 久久久久免费精品| 好看的日韩av电影| 亚洲春色在线| 久久免费视频66| 国产欧美在线看| 日韩欧美一中文字暮专区| 久久久www成人免费精品张筱雨 | 99天天综合性| 91亚洲精品久久久蜜桃借种| 国产欧美日韩一级| 欧美日韩视频免费在线观看| 色狼人综合干| 51国偷自产一区二区三区| 日韩欧美一区二区三区免费观看 | 日韩精品成人| 国产精品久久色| 人人草在线视频| 欧美情侣性视频| 在线免费观看黄| 亚洲欧洲日产国产网站| 亚洲AV无码成人片在线观看| 欧美色综合久久| 最新中文字幕一区| 亚洲国产精品天堂| 精品自拍偷拍视频| 中文字幕av资源一区| 少妇大叫太粗太大爽一区二区| 国产精品91xxx| 一区二区三区四区毛片| 免费成人在线观看| 丰满人妻中伦妇伦精品app| 欧美特黄一区| 精品91一区二区三区| 国产一区二区精品福利地址| 免费亚洲一区二区| 精品亚洲免a| 国产精品免费在线播放| 伊色综合久久之综合久久| 成人精品视频在线| 四虎永久精品在线| 国产日韩在线免费| 久久麻豆视频| 国产精品久久激情| 91精品国产66| 国产精品天天狠天天看| 91超碰碰碰碰久久久久久综合| 国产激情久久久久| 亚洲www.| 国产精品欧美日韩| 久久国内精品| 成人精品久久一区二区三区| 色猫猫成人app| 国产精品视频最多的网站| 国产极品嫩模在线观看91精品| 国产精品第三页| jvid一区二区三区| 成人美女免费网站视频| 精品国产一区二| 成人在线视频网址| 免费萌白酱国产一区二区三区| 国产欧美日韩在线播放| 欧美成人一区在线观看| 精品国产_亚洲人成在线| 欧美色图婷婷| 日本视频一区二区在线观看| 成人激情电影在线| 日本特级黄色大片| 国模大胆一区二区三区| 天天夜碰日日摸日日澡性色av| 午夜久久tv| 欧美精品久久久久久久久久久| 国产日产高清欧美一区二区三区| 国产美女三级视频| 人人爽香蕉精品| 国产精品久久久久久9999| 高清成人在线观看| 一出一进一爽一粗一大视频| 久久蜜桃av一区二区天堂| 极品人妻videosss人妻| 中文字幕佐山爱一区二区免费| 国产亚洲精品av| 欧美午夜美女看片| 在线中文字幕网站| 欧美大片在线观看| 亚洲 欧美 激情 小说 另类| 中文字幕成人在线| 免费在线看电影| 日韩av手机在线看| 国产欧美视频在线| 久久久久久欧美精品色一二三四| 日韩av片子| 精品丰满人妻无套内射| 日韩精品电影在线| 制服.丝袜.亚洲.中文.综合懂| 久久日韩粉嫩一区二区三区| 日韩av手机在线免费观看| 亚洲国产精品一区二区www在线| 精品久久久久久久久久久久久久久久久久| 3d成人动漫网站| 女人天堂在线| 欧美高清自拍一区| 91在线成人| 国产一区在线观| 亚洲国产精品久久久天堂| 妞干网在线免费视频| 国产激情一区二区三区四区| 午夜时刻免费入口| 亚洲在线视频免费观看| 在线免费观看高清视频| 日韩黄在线观看| 五月花成人网| 国产免费一区视频观看免费 | 欧美成人aaa| 久久综合色一本| 欧美性色综合| 极品粉嫩美女露脸啪啪| 久久看人人爽人人| 国产乡下妇女做爰毛片| 69堂成人精品免费视频| 搞黄视频在线观看| 5566日本婷婷色中文字幕97| 精品国产一级| 国产精品亚洲天堂| 日韩成人午夜精品| 尤物视频最新网址| 精品久久久久久久久久国产| 午夜精品久久久久久久99热黄桃| 色偷偷av一区二区三区乱| 吞精囗交69激情欧美| 极品尤物一区二区三区| 亚洲小说区图片区| 国产精品熟女一区二区不卡| 国产精品麻豆一区二区| 午夜精品久久久久久久蜜桃| 亚洲人成电影网站| 亚洲综合电影| 女同一区二区| 亚洲综合不卡| 性欧美13一14内谢| 福利视频一区二区| 午夜视频福利在线| 91精品国产99| 日本午夜精品久久久| 国自产拍偷拍精品啪啪一区二区| 国产成人精品免费| 久久久久久久久久久久国产| 日韩一区二区三区免费看| 国产黄色小视频在线| 亚洲mm色国产网站| 亚洲自拍偷拍网| 可以看的av网址| 亚洲午夜精品一区二区三区他趣| 国产黄色大片网站| 欧美大片在线免费观看| av成人男女| 国产v片免费观看| 91免费视频网| 中文字幕乱码在线观看| 日韩中文字幕网| 成人免费91| 久操手机在线视频| 成人av网站在线| 国产成人在线视频观看| 亚洲色图13p| 国产精品亚洲成在人线| 亚洲 欧洲 日韩| 国产成人精品一区二区三区网站观看| 麻豆疯狂做受xxxx高潮视频| 亚洲国产欧美自拍| 爱情电影社保片一区| 亚洲欧美国产精品桃花| 国产精品一级在线| 日本少妇xxxx动漫| 亚洲欧美日本另类| 日本午夜免费一区二区| 奇米777四色影视在线看| av电影在线观看一区| 欧美特级黄色片| 久久天天躁日日躁| 久久视频在线观看| 亚洲欧美日韩一级| 一区二区三区精品| 秋霞av在线| 91精品视频免费观看| 亚洲电影成人| 国产不卡在线观看视频| 日韩精品一区二区三区在线 | 干b视频在线观看| 日韩一区二区在线看| 桃花岛成人影院| 亚洲五码在线观看视频| 99精品热视频| 国产精品-色哟哟| 91精品国产高清久久久久久91| 第一会所sis001亚洲| 日本中文字幕精品| 色呦呦国产精品| 性网站在线观看| 神马影院一区二区| 成人午夜视频在线| 岳乳丰满一区二区三区| 久久久久久久久久久免费| 欧洲乱码伦视频免费| 中文字幕99页| 欧美人妖巨大在线| xxxxxx欧美| 国产av国片精品|