精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UCLA華人提出全新自我對弈機制!LLM自己訓自己,效果碾壓GPT-4專家指導

人工智能
來自UCLA的華人團隊提出一種全新的LLM自我對弈系統,能夠讓LLM自我合成數據,自我微調提升性能,甚至超過了用GPT-4作為專家模型指導的效果。

合成數據已經成為了大語言模型進化之路上最重要的一塊基石了。

在去年底,有網友扒出前OpenAI首席科學家Ilya曾經在很多場合表示過,LLM的發展不存在數據瓶頸,合成數據可以解決大部分的問題。

圖片圖片

英偉達高級科學家Jim Fan在看了最近的一批論文后也認為,使用合成數據,再加上傳統用于游戲和圖像生成的技術思路,可以讓LLM完成大幅度的自我進化。

圖片圖片

而正式提出這個方法的論文,是由來自UCLA的華人團隊。

圖片圖片

論文地址:https://arxiv.org/abs/2401.01335v1

他們通過自我對弈機制(SPIN)生成合成數據,再通過自我微調的方法,不使用新的數據集,讓性能較弱的LLM在Open LLM Leaderboard Benchmark上將平均分從58.14提升至63.16。

圖片

研究人員提出了一種名為SPIN的自我微調的方法,通過自我對弈的方式——LLM與其前一輪迭代版本進行對抗,從而逐步提升語言模型的性能。

圖片圖片

這樣就無需額外的人類標注數據或更高級語言模型的反饋,也能完成模型的自我進化。

主模型和對手模型的參數完全一致。用兩個不同的版本進行自我對弈。

對弈過程用公式可以概括為:

圖片圖片

自我對弈的訓練方式,總結起來思路大概是這樣:

通過訓練主模型來區分對手模型生成的響應和人類目標響應,對手模型是輪迭代獲得的語言模型,目標是生成盡可能難以區分的響應。

假設第t輪迭代得到的語言模型參數為θt,則在第t+1輪迭代中,使用θt作為對手玩家,針對監督微調數據集中每個prompt x,使用θt生成響應y'。

然后優化新語言模型參數θt+1,使其可以區分y'和監督微調數據集中人類響應y。如此可以形成一個漸進的過程,逐步逼近目標響應分布。

這里,主模型的損失函數采用對數損失,考慮y和y'的函數值差。

對手模型加入KL散度正則化,防止模型參數偏離太多。

具體的對抗博弈訓練目標如公式4.7所示。從理論分析可以看出,當語言模型的響應分布等于目標響應分布時,優化過程收斂。

如果使用對弈之后生成的合成數據進行訓練,再使用SPIN進行自我微調,能有效提高LLM的性能。

圖片圖片

但之后在初始的微調數據上再次簡單地微調卻又會導致性能下降。

而SPIN僅需要初始模型本身和現有的微調數據集,就能使得LLM通過SPIN獲得自我提升。

特別是,SPIN甚至超越了通過DPO使用額外的GPT-4偏好數據訓練的模型。

圖片圖片

而且實驗還表明,迭代訓練比更多epoch的訓練能更加有效地提升模型性能。

圖片圖片

延長單次迭代的訓練持續時間不會降低SPIN的性能,但會達到極限。

迭代次數越多,SPIN的效果的就越明顯。

網友在看完這篇論文之后感嘆:

合成數據將主宰大語言模型的發展,對于大語言模型的研究者來說將會是非常好的消息!

圖片圖片

自我對弈讓LLM能不斷提高

具體來說,研究人員開發的SPIN系統,是由兩個相互影響的模型相互促進的系統。

圖片表示的前一次迭代t的LLM,研究人員使用它來生成對人工注釋的SFT數據集中的提示x的響應y。

接下來的目標是找到一個新的LLM圖片,能夠區分圖片生成的響應y和人類生成的響應y'。

這個過程可以看作是一個兩人游戲:

主要玩家或新的LLM圖片試圖辨別對手玩家的響應和人類生成的響應,而對手或舊的LLM圖片生成響應與人工注釋的SFT數據集中的數據盡可能相似。

通過對舊的圖片進行微調而獲得的新LLM圖片更喜歡圖片的響應,從而產生與圖片更一致的分布圖片

在下一次迭代中,新獲得的LLM圖片成為響應生成的對手,自我對弈過程的目標是LLM最終收斂到圖片,使得最強的LLM不再能夠區分其先前生成的響應版本和人類生成的版本。

如何使用SPIN提升模型性能

研究人員設計了個兩人游戲,其中主要模型的目標是區分LLM生成的響應和人類生成的響應。與此同時,對手的作用是產生與人類的反應無法區分的反應。研究人員的方法的核心是訓練主要模型。

首先說明如何訓練主要模型來區分LLM的回復和人類的回復。

研究人員方法的核心是自我博弈機制,其中主玩家和對手都是相同的LLM,但來自不同的迭代。

更具體地說,對手是上一次迭代中的舊LLM,而主玩家是當前迭代中要學習的新LLM。在迭代t+1時包括以下兩個步驟:(1)訓練主模型,(2)更新對手模型。

訓練主模型

首先,研究人員將說明如何訓練主玩家區分LLM反應和人類反應。受積分概率度量(IPM)的啟發,研究人員制定了目標函數:

圖片圖片

更新對手模型

對手模型的目標是找到更好的LLM,使其產生的響應與主模型的p數據無異。

實驗

SPIN有效提升基準性能

研究人員使用HuggingFace Open LLM Leaderboard作為廣泛的評估來證明 SPIN的有效性。

在下圖中,研究人員將經過0到3次迭代后通過SPIN微調的模型與基本模型zephyr-7b-sft-full的性能進行了比較。

研究人員可以觀察到,SPIN通過進一步利用SFT數據集,在提高模型性能方面表現出了顯著的效果,而基礎模型已經在該數據集上進行了充分的微調。

在第0次迭代中,模型響應是從zephyr-7b-sft-full生成的,研究人員觀察到平均得分總體提高了2.66%。

在TruthfulQA和GSM8k基準測試中,這一改進尤其顯著,分別提高了超過5%和10%。

在迭代1中,研究人員采用迭代0中的LLM模型來生成SPIN的新響應,遵循算法1中概述的過程。

此迭代平均產生1.32%的進一步增強,在Arc Challenge和TruthfulQA基準測試中尤其顯著。

隨后的迭代延續了各種任務增量改進的趨勢。同時,迭代t+1時的改進自然更小

圖片圖片

zephyr-7b-beta是從zephyr-7b-sft-full衍生出來的模型,使用DPO在大約62k個偏好數據上訓練而成。

研究人員注意到,DPO需要人工輸入或高級語言模型反饋來確定偏好,因此數據生成是一個相當昂貴的過程。

相比之下,研究人員的SPIN只需要初始模型本身就可以。

此外,與需要新數據源的DPO不同,研究人員的方法完全利用現有的SFT數據集。

下圖顯示了SPIN在迭代0和1(采用50k SFT數據)與DPO訓練的性能比較。

圖片圖片

研究人員可以觀察到,雖然DPO利用了更多新來源的數據,但基于現有SFT數據的SPIN從迭代1開始,SPIN甚至超過了DPO的性能、SPIN在排行榜基準測試中的表現甚至超過了DPO。

參考資料:

https://arxiv.org/abs/2401.01335v1

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-01-23 13:15:27

2023-06-05 12:32:48

模型論文

2023-05-22 15:17:02

谷歌AI

2024-07-09 12:54:57

2023-06-19 08:19:50

2023-10-13 13:12:44

2023-04-12 16:23:00

GPT-4代碼

2024-10-15 09:20:38

2023-05-05 09:42:12

2025-04-16 09:35:03

2023-03-27 18:18:47

GPT-4AI

2023-11-26 17:14:05

2023-05-31 14:23:44

人工智能

2024-04-02 11:38:31

模型訓練

2024-06-28 13:40:03

2024-07-02 01:09:02

2023-05-22 08:30:35

GPT-4智能編程助手

2023-04-04 11:20:40

GPT-4OpenAI

2024-03-28 13:15:00

化學專業Claude 3GPT-4

2023-05-30 13:29:25

點贊
收藏

51CTO技術棧公眾號

91动漫在线看| 亚洲free性xxxx护士hd| 国产1区2区在线观看| 久久人人视频| 亚洲高清一区二区三区| 欧美精品亚洲精品| 国产成人精品一区二三区四区五区| 亚洲视频观看| 在线日韩av观看| 久久久老熟女一区二区三区91| 新片速递亚洲合集欧美合集| 一区二区三区在线免费观看 | youjizz亚洲| 在线观看网站黄不卡| 国产毛片久久久久久国产毛片| 国产三级视频在线| 国产99久久久精品| 国产欧洲精品视频| 亚洲欧美日韩激情| 亚洲三级国产| 蜜臀久久99精品久久久久久宅男| 欧美做受高潮6| 久久黄色影视| 欧美成人精品福利| 欧美特黄aaa| 激情开心成人网| 精品高清美女精品国产区| 国产经典久久久| 91在线品视觉盛宴免费| 久久久久久久久免费| 精品国产一区二区三区免费| 国产伦精品一区二区三区四区| 久久久777| 7777kkkk成人观看| 久久精品国产亚洲av麻豆色欲| 国产精品久久久久一区二区三区厕所 | 亚洲综合视频在线| 中国一级大黄大黄大色毛片| 亚洲1卡2卡3卡4卡乱码精品| 国产日韩视频一区二区三区| 欧美不卡在线一区二区三区| 亚洲欧美自偷自拍| av亚洲精华国产精华| 超碰国产精品久久国产精品99| 97超碰资源站| 久久精品国产精品青草| 国产日韩在线亚洲字幕中文| 亚洲天堂2021av| 久久精品国产色蜜蜜麻豆| 国产精品久久久久久久久久免费 | 久久精品99国产国产精| 国产美女精彩久久| 一级全黄裸体免费视频| 久久精品国产99国产| 国产啪精品视频| 国产手机视频在线| 国产河南妇女毛片精品久久久| 91丨九色丨国产在线| 国产三级午夜理伦三级| 国产精品18久久久久久久久| 懂色中文一区二区三区在线视频| 性欧美videos另类hd| 成人午夜av影视| 久久久久一区二区| 97最新国自产拍视频在线完整在线看| 国产女人水真多18毛片18精品视频 | 日韩肉感妇bbwbbwbbw| 激情小说亚洲| 日韩三级视频中文字幕| 天天躁日日躁狠狠躁av麻豆男男| 菁菁伊人国产精品| 在线国产精品视频| 欧美日韩激情在线观看| 亚洲永久免费| 国产日韩欧美另类| 亚洲第一页视频| 久久久久久久久久久久久久久99 | 亚洲伦伦在线| 国产不卡精品视男人的天堂| 亚洲一卡二卡在线观看| 国产福利一区二区三区| 久久99欧美| 在线观看免费黄色| 亚洲国产欧美在线人成| 欧美日韩大尺度| 精品国产一区二区三区性色av| 精品国产麻豆免费人成网站| 一级黄色录像毛片| 韩国在线视频一区| 国产91色在线免费| 午夜精品久久久久久久第一页按摩| 99久久99久久久精品齐齐| 亚洲欧美精品| 国产传媒av在线| 欧美精品一级二级| 国产艳俗歌舞表演hd| 一区二区日韩欧美| 日本乱人伦a精品| 国产成人精品毛片| 国产喷白浆一区二区三区| av在线com| 91成人短视频在线观看| 精品亚洲一区二区三区| 黄色一级视频在线观看| 欧美aaaaa成人免费观看视频| 成人av资源网| 嫩草在线视频| 色一情一伦一子一伦一区| 国模大尺度视频| 成人羞羞动漫| 日本精品视频在线| 国产刺激高潮av| 国产精品久久三区| www黄色av| 成人h动漫精品一区二区器材| 色香阁99久久精品久久久| 日韩精品1区2区| 粉嫩一区二区三区性色av| 中文网丁香综合网| 少妇精品视频一区二区免费看| 亚洲国产一区自拍| 欧美日韩激情在线观看| 韩国v欧美v日本v亚洲v| 视频一区二区三区在线观看| 老牛影视精品| 亚洲激情视频在线观看| 五月天丁香激情| 国产一区二三区好的| 日韩一区国产在线观看| 625成人欧美午夜电影| 亚洲国产精品999| 玖玖爱免费视频| 国产精品小仙女| 黄瓜视频免费观看在线观看www| av久久网站| 国产香蕉一区二区三区在线视频 | 亚洲欧美一区二区三区四区五区| 青草av.久久免费一区| 日韩欧美在线一区二区| 老司机2019福利精品视频导航| 亚洲精品mp4| 亚洲 欧美 视频| 96av麻豆蜜桃一区二区| www.99热这里只有精品| 欧美调教在线| 欧美亚洲免费电影| 精品999视频| 欧美在线小视频| 欧美一区二区三区粗大| 麻豆精品视频在线观看视频| 伊人久久青草| 精品国产一区二| 久久乐国产精品| 午夜视频www| 91国模大尺度私拍在线视频| 国产真人做爰视频免费| 久久91精品国产91久久小草 | 最新国产露脸在线观看| 欧美va亚洲va国产综合| 国产福利拍拍拍| 国产午夜精品一区二区三区四区| 亚洲精品视频导航| 亚洲理论电影网| 成人欧美一区二区三区在线观看| av手机在线观看| 国产亚洲精品久久久久动| 中文在线观看免费高清| 中文字幕字幕中文在线中不卡视频| 久久精品久久99| 黄色成人精品网站| 免费毛片一区二区三区久久久| 性欧美1819sex性高清| 久久婷婷国产麻豆91天堂| 国产黄色片网站| 欧美视频一区二区三区…| 免费成人深夜天涯网站| 国产成人精品影视| 久久精品午夜福利| 国产精品国产三级国产在线观看 | 一本色道久久综合亚洲91| 国产精品理论在线| 成人午夜在线播放| 男人的天堂日韩| 国产主播精品| 欧洲视频一区二区三区| 秋霞午夜一区二区三区视频| 66m—66摸成人免费视频| 日本福利专区在线观看| 精品国产乱码久久久久久1区2区 | 国产综合色视频| 乱人伦xxxx国语对白| 欧美国产一区二区三区激情无套| 国产精品免费在线| 国产原创一区| 91精品91久久久久久| 麻豆视频在线观看免费网站| 亚洲第一级黄色片| 国产又粗又大又爽| 色网综合在线观看| 精品无码人妻一区二区三区| 国产欧美va欧美不卡在线 | 亚洲国产高清在线| 91九色蝌蚪porny| 秋霞成人午夜伦在线观看| 人妻少妇精品久久| 午夜精品一区二区三区国产| 欧美久久电影| 给我免费播放日韩视频| 成人性生交大片免费观看嘿嘿视频| 人成在线免费网站| 欧美高清在线观看| 免费网站成人| 尤物精品国产第一福利三区| 天天舔天天干天天操| 日韩欧美一区二区免费| 又骚又黄的视频| 在线观看日韩精品| 欧美激情黑白配| 亚洲一二三四在线| 亚洲国产精品久| 亚洲视频免费观看| 可以免费看av的网址| 久久精品一区二区三区四区| 在线 丝袜 欧美 日韩 制服| 成人黄色a**站在线观看| 韩国三级hd中文字幕有哪些| 精品一区二区在线看| 一路向西2在线观看| 日韩电影在线观看一区| 337p粉嫩大胆噜噜噜鲁| 99精品国产99久久久久久福利| 青青草国产免费| 国内在线观看一区二区三区| 色哺乳xxxxhd奶水米仓惠香| 日本欧美视频| 一本一生久久a久久精品综合蜜| 欧美在线观看视频一区| 日韩videos| 欧美先锋资源| 亚洲一区二区三区午夜| 久久神马影院| 中文精品一区二区三区| 中国精品18videos性欧美| 日日噜噜噜夜夜爽爽| 亚洲中无吗在线| 欧美一二三不卡| 欧美天天视频| 欧美 日韩 亚洲 一区| 99精品国产在热久久婷婷| 午夜精品久久久久久久无码| 亚洲免费在线| 亚洲一二三区av| 麻豆精品新av中文字幕| 少妇愉情理伦片bd| 成人一区二区三区中文字幕| 久久久久久久人妻无码中文字幕爆| 成人免费视频一区二区| 99久久人妻精品免费二区| 久久精品一区二区三区不卡牛牛 | 亚洲mv在线观看| 91视频免费网址| 日本福利一区二区| 91 中文字幕| 精品日韩99亚洲| 视频一区二区在线播放| 一区二区三区视频在线| 国产鲁鲁视频在线观看特色| 欧美激情奇米色| 欧美大片免费| 成人性生交大片免费看小说| 国产精品任我爽爆在线播放| 久久一区二区精品| 久久久久久久久99精品大| 黄色大片中文字幕| 日产欧产美韩系列久久99| 日本人dh亚洲人ⅹxx| 2021中文字幕一区亚洲| 波多野结衣亚洲一区二区| 偷拍日韩校园综合在线| 国产精品无码一区| 精品国产乱码久久久久久浪潮| 精品无吗乱吗av国产爱色| 久久av在线看| 成人性生活av| 99电影网电视剧在线观看| 要久久电视剧全集免费| 日韩 欧美 自拍| 亚洲免费综合| 亚洲一区二区三区四区精品| 久久久精品国产99久久精品芒果| 欧美手机在线观看| 欧美性生活大片免费观看网址| 国产精品女同一区二区| 亚洲精品在线不卡| 最新国产在线拍揄自揄视频| 国产精品流白浆视频| 国产精品极品国产中出| 日本丰满少妇黄大片在线观看| 亚洲影音先锋| 国产国语老龄妇女a片| 国产欧美精品一区二区三区四区| 国产一级中文字幕| 91精品啪在线观看国产60岁| 国内av一区二区三区| 久久久综合免费视频| 久久69av| 亚洲午夜在线观看| 日韩中文字幕91| 污污内射在线观看一区二区少妇 | 亚洲中文无码av在线| 亚洲精品国产精品国产自| 超碰在线caoporen| 国产精品综合不卡av| 欧美男gay| 国产精品网站免费| 成人精品小蝌蚪| 成人在线观看免费完整| 欧美日韩视频在线第一区| 四虎成人免费在线| 午夜精品一区二区三区在线视 | 亚洲人成免费电影| 2019中文字幕在线电影免费| 91精品视频免费观看| 清纯唯美亚洲综合一区| 人妻丰满熟妇av无码区app| 91亚洲永久精品| 日产电影一区二区三区| 亚洲精品一区二区三区蜜桃下载| 伊人春色在线观看| 91久久极品少妇xxxxⅹ软件| 午夜激情久久| 午夜一区二区视频| 日韩毛片一二三区| 国产永久免费视频| 久久精品国产综合| 香蕉久久一区| 日本丰满少妇黄大片在线观看| 精品一区二区三区免费视频| 我要看一级黄色录像| 欧美精品一二三区| caopeng在线| 国产富婆一区二区三区| 亚洲经典三级| 久久午夜夜伦鲁鲁片| 色综合天天综合给合国产| 男人av在线| 国产精品视频中文字幕91| 日韩欧美视频在线播放| 中文字幕在线视频精品| 一区二区三区四区高清精品免费观看 | 麻豆久久婷婷| 成人在线观看免费高清| 欧美精品免费视频| 免费在线国产视频| 国产亚洲欧美一区二区 | 香蕉视频色在线观看| 亚洲综合色网站| 五月色婷婷综合| 国产成人一区二区三区| 亚洲澳门在线| 超碰caoprom| 欧洲一区在线电影| 国内外激情在线| 国产美女99p| 视频精品一区二区| 欧美色视频一区二区三区在线观看 | 无码内射中文字幕岛国片| 中文字幕免费观看一区| 99视频在线观看免费| 91精品国产99| 欧美精品尤物在线观看| 日韩欧美中文在线视频| 午夜av一区二区| 99中文字幕一区| 成人自拍网站| 奇米色777欧美一区二区| 免费在线视频一区二区| 亚洲欧洲视频在线| 欧美大片91| 久久久久久久久久久久久国产精品 | 日韩一级黄色大片| 亚洲永久av| 强开小嫩苞一区二区三区网站| 99re在线精品| 伊人色综合久久久| 午夜精品蜜臀一区二区三区免费| 日韩精品dvd| 亚洲中文字幕一区| 在线成人高清不卡| 精品国产第一福利网站| www.69av| 国产欧美精品一区二区三区四区| 成人午夜免费福利| 国产一区二区丝袜| 嫩草成人www欧美| 久久久夜色精品| 日韩中文字幕国产| 校园春色另类视频| 美女搡bbb又爽又猛又黄www| 欧美日韩国产一区二区三区地区|