精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama 2打敗GPT-4!Meta讓大模型自我獎勵自迭代,再證合成數(shù)據是LLM終局

人工智能 新聞
AI訓AI必將成為一大趨勢。Meta和NYU團隊提出讓大模型「自我獎勵」的方法,讓Llama2一舉擊敗GPT-4 0613、Claude 2、Gemini Pro領先模型。

Llama 2-70B一夜之間打敗GPT-4,讓整個AI社區(qū)為之震驚!

甚至,在AlpacaEval 2.0排行榜中,微調后的模型勝率完全碾壓Claude 2、Gemini Pro等模型。

Meta和NYU研究團隊究竟提出了什么秘制配方,才能讓Llama 2-70B超強進化?

正如論文題目所言——「自我獎勵語言模型」,模型生成訓練數(shù)據,并評估這些數(shù)據的質量,然后用這些數(shù)據來自己訓練自己。

簡單來說,最新方法可以讓LLM在迭代訓練過程中不斷自我改進。

論文地址:https://arxiv.org/pdf/2401.10020.pdf

LeCun也轉贊了自家實驗室的研究。

圖片

RLAIF已經不是新鮮事了,之前包括Anthropic,谷歌都推出過自己的「AI訓AI」的技術,那么Meta的這項工作和之前的幾家的RLAIF區(qū)別在哪里呢?

我們先來了解一下Meta的自我獎勵語言模型的大概框架。

研究團隊開發(fā)了一個能夠遵循指令和自我評價回復質量的能力的模型。模型可以生成新的訓練數(shù)據,對生成的回復進行質量評分,從而不斷改進自己的輸出。

圖片

模型首先根據少量人工標注數(shù)據進行預訓練,獲得初始化模型。

然后模型生成新的指令和多個候選回復,并使用LLM-as-a-Judge的提示,讓模型對自己生成的回復打分。

根據打分形成新的訓練數(shù)據,繼續(xù)訓練模型。

這樣可以迭代訓練,在每次迭代中模型的遵循指令能力和打分能力都會提升。

研究人員從Llama 2 70B預訓練模型開始迭代訓練。

結果顯示在3次迭代中,模型遵循指令的能力有顯著提升,同時獎勵建模能力也在提高,評價結果與人工判斷的相關性更高。

圖片

這說明模型迭代過程中,不僅指令遵循能力提高,也更善于對自己生成的回復進行判斷。

迭代第三次的模型在AlpacaEval 2.0基準測試中,就戰(zhàn)勝了Claude 2、Gemini Pro、GPT-4 0613等模型。

Meta的這項工作與谷歌在去年9月發(fā)布的RLAIF論文相比,更近一步地使用了一個不斷進化的獎勵模型來不斷迭代訓練模型,而迭代后的模型也確實取得了明顯可見的性能提升。

圖片

可以說,Meta又將AI自我迭代大模型的前沿往前推進了一大步。

如何訓練「自我獎勵語言模型」

研究人員的方法首先假設可以訪問基本的預訓練語言模型和少量人工注釋的種子數(shù)據。

然后研究人員建立一個模型,讓它同時擁有兩種能力:

  1. 指令遵循:給出描述用戶請求的提示,能夠生成高質量、有幫助(且無害)的響應。
  2. 自指令創(chuàng)建:能夠按照示例生成和評估新指令,再添加到自己的訓練集中。

這兩個能力可以為了使模型能夠執(zhí)行自我對齊,即它們是用于使用人工智能反饋(AIF)迭代訓練自身的組件。

自指令創(chuàng)建包括生成候選響應,然后模型本身判斷其質量——充當自己的獎勵模型,取代外部獎勵模型。

這是通過LLM-as-a-Judge機制實現(xiàn)的:通過將響應評估制定為遵循指令的任務。

這個由模型自行創(chuàng)建的AIF偏好數(shù)據被用作訓練集來訓練模型。

整體自我對齊過程是一個不斷迭代過程,通過構建一系列此類模型來進行,目的是每個模型都比上一個模型有所改進。

重要的是,由于模型既可以提高其生成能力,又可以通過相同的生成機制作為自己的獎勵模型,這意味著獎勵模型本身可以通過迭代過程來改進,這就不同于獎勵模型固定不變的傳統(tǒng)方法。

研究人員相信這樣可以提高這些學習模型未來自我改進的潛力上限,消除限制性瓶頸。

初始化

種子指令跟隨數(shù)據

研究人員獲得一組人工編寫的(指令提示、響應)一般指令。

他們使用這些示例從預訓練的基礎語言模型開始,用監(jiān)督微調 (SFT) 的方式進行訓練。

種子LLM-as-a-Judge指令跟隨數(shù)據

研究人員假設他們提供了一組種子(評估指令提示、評估結果響應)示例,這些示例也可用于訓練。

雖然這并不是絕對必要的,因為使用IFT數(shù)據的模型已經能夠訓練LLM成為judge,而且研究人員表明此類訓練數(shù)據可以提供改進的結果。

在這些數(shù)據中,輸入提示要求模型評估對特定指令的給定響應的質量。

提供的評估結果響應包括思路推理,然后是最終分數(shù)(在研究人員的實驗中,滿分 5 分)。

研究人員為這些提示選擇的格式如下圖2所示。作為LLM執(zhí)行獎勵模型角色的訓練數(shù)據。

這些數(shù)據被稱為評估微調(EFT)數(shù)據。

研究人員在訓練期間使用這兩個種子數(shù)據集。

再用3個步驟來創(chuàng)建自我指令:

-使用研究人員已經訓練好的模型,研究人員可以讓它自我修改自己的訓練集。具體來說,就是為下一次訓練迭代生成額外的訓練數(shù)據。

-生成候選響應:然后,對于給定的提示 x,研究人員生成 N 個不同的候選響應 {y, . 。。, y} 。

-評估候選響應:最后,研究人員使用同一模型的LLM-as-a-Judge能力來評估其自己的候選響應,得分為 r∈ [0, 5](見圖 2)。

圖片

指令遵循訓練

訓練最初是使用種子 IFT 和 EFT 數(shù)據進行的,這與獎勵模型固定的標準實踐不同。然后通過AI(自我)反饋添加附加數(shù)據。

AI反饋訓練

執(zhí)行自指令創(chuàng)建過程后,研究人員可以使用額外的訓練示例來擴充種子數(shù)據,研究人員將其稱為 AI 反饋訓練 (AIFT) 數(shù)據。

他們嘗試了此類反饋的兩種變體:

偏好對:研究人員構建以下形式的訓練數(shù)據(指令提示 x,獲勝響應 y,失敗響應 y)。為了形成獲勝和失敗對,研究人員從 N 個評估的候選答案中選取最高和最低得分的答案。

將這些對可用于通過偏好調整算法進行訓練。

僅正面示例:在此變體中,研究人員遵循其他方法,將模型策劃的(指令提示、響應)附加示例添加到種子集中,以進行監(jiān)督微調。

整體自對齊算法

迭代訓練

研究人員的整個過程訓練一系列模型。其中每個連續(xù)模型t使用由t ? 1模型創(chuàng)建的增強訓練數(shù)據。

因此,研究人員將AIFT(M)定義為使用模型M創(chuàng)建的AI反饋訓練數(shù)據。

M:基礎預訓練LLM,沒有微調。

M1:用M初始化,然后使用SFT對IFT+EFT種子數(shù)據進行微調。

M2:用M1初始化,然后使用DPO用AIFT(M1)數(shù)據進行訓練。

M3:用M2初始化,然后使用DPO用AIFT(M2)數(shù)據進行訓練。

實驗結果

如文章開始所提到的那張圖中,研究人員將微調后Llama 2-70B三個迭代版本與其他先進模型在AlpacaEval 2.0基準上進行了比較。

結果顯示,第三次迭代后的Llama 2-70B模型打敗了GPT-4 0613、Claude 2、Gemini Pro等模型。

圖片

此外,Llama 2-70B每個迭代版本比較,改進幾乎保持線性。

研究人員通過各種指標來評估作為評估者的大模型,這些指標衡量與保留的人類偏好數(shù)據的一致性。

自我獎勵迭代2(模型M2),使用從其先前迭代M1派生的自我獎勵模型進行訓練,其性能優(yōu)于迭代1(M1)。

而M1本身也優(yōu)于僅利用指令微調(IFT)數(shù)據訓練的標準SFT基準模型。迭代3(模型 M3)比迭代2有了進一步提高。

圖片

在這個框架之中,研究人員發(fā)現(xiàn),獎勵模型的性能也能隨著迭代不斷提高。

模型M2使用來自M1的獎勵模型進行訓練,與M1相比,在所有五個指標上都體現(xiàn)出了更好的性能。

例如,成對準確(pairwise accuracy)率從78.7%提高到 80.4%。M3繼續(xù)進一步改進了其中幾個指標。

研究人員猜測,是由于模型在指令遵循方面變得更好,因此它在LLM-as-a-Judge的任務方面也有所改進。

網友:讓開源再次偉大

Meta和NYU的最新研究讓許多人驚呼「讓開源再次偉大」。

圖片

俄亥俄州立大學計算機工程助理教授Yu Su表示,2024年才剛剛開始,我們已經從合成數(shù)據中看到了許多重要成果。我個人認為,這不僅僅是「數(shù)據增強」的改頭換面。以前的數(shù)據增強工作在很大程度上依賴于「人類工程」,而現(xiàn)在更像是LLM的「想象力」...

圖片

越來越多的研究表明,「人工訓練數(shù)據耗盡」不會阻止LLM的發(fā)展。

圖片

這是DPO的「Attention Is All You Need」的時刻。

圖片

還有人表示「令人驚訝的是,每次迭代的改進幾乎保持線性,僅在3次迭代之后,就已經接近GPT-4級別」。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-11 15:57:16

人工智能模型GPT-4

2024-07-31 15:38:00

2024-01-22 07:10:00

AI視頻

2024-10-14 09:25:00

2023-07-25 09:23:23

Llama 2GPT-4

2024-04-19 14:52:13

MetaGPT-4模型

2024-02-02 17:04:35

UCLALLMGPT-4

2024-04-22 08:40:00

LLM模型開源

2024-08-08 13:04:28

2023-09-11 13:28:00

AI模型

2025-01-23 09:15:00

數(shù)據技術模型

2023-06-21 13:37:41

模型研究

2023-11-03 13:07:00

AI模型

2023-11-06 12:46:00

AI數(shù)據

2023-10-11 13:09:52

訓練模型

2023-09-07 13:25:00

AI模型

2023-06-08 11:27:10

模型AI

2023-08-15 13:24:04

GPT-4AGI模型

2024-04-19 10:32:08

2024-04-19 09:17:33

AI模型
點贊
收藏

51CTO技術棧公眾號

亚洲精品国产嫩草在线观看| 国产乱码精品一区二区三区精东| 精品三级av| 欧美性猛交xxxx乱大交极品| 亚洲字幕一区二区| 精品一区二区三区人妻| 最新亚洲精品| 在线综合+亚洲+欧美中文字幕| 日本道在线视频| 先锋av资源站| 蘑菇福利视频一区播放| 亚洲视频在线观看网站| 91pony九色| 99riav视频在线观看| zzijzzij亚洲日本少妇熟睡| 日本人成精品视频在线| 久艹在线观看视频| 杨幂一区二区三区免费看视频| 欧洲国产伦久久久久久久| 日本三日本三级少妇三级66| 青青操视频在线| 激情丁香综合五月| 8x海外华人永久免费日韩内陆视频| 白丝女仆被免费网站| 日本午夜精品久久久久| 亚洲国产日韩在线一区模特| 久久伊人资源站| 国产精品无码久久av| 免费在线成人| 欧美黄色小视频| 国产午夜精品福利视频| gogo人体一区| 欧美情侣在线播放| 黑人糟蹋人妻hd中文字幕| 免费在线观看黄| 久久伊人中文字幕| 97视频中文字幕| 中文字幕免费观看视频| 亚洲在线观看| 九色91av视频| 国产一二三四五区| 另类一区二区| 色噜噜狠狠成人中文综合| 欧美这里只有精品| 国产一二三区在线观看| 91毛片在线观看| av免费精品一区二区三区| aaa级黄色片| 国产乱码字幕精品高清av | 欧美伦理免费在线| 亚洲色图在线播放| 天天想你在线观看完整版电影免费| 麻豆传媒视频在线| 亚洲日本在线看| 亚洲一区 在线播放| 黄a在线观看| 一区二区三区不卡视频| 免费成人深夜夜行网站视频| www在线观看播放免费视频日本| 亚洲三级在线免费观看| 青青草视频国产| 国产美女高潮在线观看| 精品久久久久久久大神国产| 国产精品免费观看久久| 一区二区视频免费完整版观看| 一本在线高清不卡dvd| 国产三级三级三级看三级| 在线成人视屏| 91精选在线观看| 97精品人人妻人人| 免费精品国产| 色综合亚洲精品激情狠狠| 少妇人妻丰满做爰xxx| 亚洲午夜极品| 青青草国产精品一区二区| 成年人视频免费| 精品一区二区在线看| 99视频免费观看蜜桃视频| 免费观看黄一级视频| 久久亚洲综合av| 亚洲综合网中心| 国产乱码在线| 日本大香伊一区二区三区| 日本中文字幕精品—区二区| 精品视频在线播放一区二区三区| 亚洲成色777777女色窝| 中文字幕国产综合| 一区二区不卡| 国产91精品久久久久| 91av久久久| 成人av在线网| 伊人天天久久大香线蕉av色| 国产亚av手机在线观看| 欧美性生活久久| 午夜福利三级理论电影| 波多野结衣的一区二区三区 | 精品国产免费人成电影在线观看四季 | 中文精品视频一区二区在线观看| 欧美aaa免费| 欧美亚洲动漫精品| 国产伦理在线观看| 精品久久美女| 国内揄拍国内精品| 国产精品-色哟哟| 久久夜色精品国产噜噜av | 日韩av片在线| 激情文学一区| 91啪国产在线| 国产三级电影在线| 亚州成人在线电影| 亚洲天堂伊人网| 国产精品欧美日韩一区| 国产69精品久久久久99| 国产精品午夜福利| 国产三级三级三级精品8ⅰ区| 久久在线中文字幕| 91麻豆精品| 国产一区二区三区直播精品电影| 久久亚洲国产成人精品性色| 蜜桃av一区二区| 欧美午夜欧美| 精品极品在线| 精品国产免费一区二区三区四区| 蜜臀av午夜精品久久| 日韩精品国产精品| 久久99精品久久久久子伦 | 国产精品久久97| 亚洲欧美综合在线观看| 亚洲午夜一区二区| 国产大尺度视频| 欧美精品综合| 99中文字幕| 少妇av在线| 日韩一区二区不卡| 五月天av网站| 国产精品亚洲午夜一区二区三区 | 欧美在线视频二区| 欧美亚洲日本精品| 日韩av在线免费| 日本一区二区三区免费视频| 成人一区二区视频| 黄色成人在线免费观看| 91精品福利观看| 久久手机免费视频| 国产成人精品a视频| 亚洲精品高清在线| 奇米777在线视频| 欧美淫片网站| 999国产视频| 国产蜜臀在线| 日韩精品中文字幕在线观看| 亚洲午夜18毛片在线看| 91麻豆免费观看| 欧美一级黄色影院| 色999日韩| 91在线免费网站| 91九色在线播放| 日韩精品中文字幕在线| 国产日韩久久久| 成人欧美一区二区三区白人| 欧美性猛交xxxx乱大交91| 午夜欧美精品久久久久久久| 高清一区二区三区视频| 九色porny丨首页入口在线| 亚洲女人被黑人巨大进入al| 亚洲GV成人无码久久精品| 国产午夜久久久久| www.色就是色.com| 精品不卡视频| 欧美日韩在线一区二区三区| 国产精品伦一区二区| 欧美成人精品一区二区三区| 女人18毛片水真多18精品| 欧美日韩国产丝袜美女| 亚洲第一视频区| 国产精品99精品久久免费| 尤物av无码色av无码| 精品国内自产拍在线观看视频 | 色网站免费观看| 日韩欧美中文在线| 永久av免费网站| 成人精品小蝌蚪| www.欧美日本| 午夜国产精品视频免费体验区| 国产精品对白一区二区三区| 日本综合字幕| 久久99久国产精品黄毛片入口| 日本亚洲欧美| 欧美一区二区三区视频免费 | 蜜桃久久精品一区二区| 日韩国产成人无码av毛片| 奇米狠狠一区二区三区| 亚洲free嫩bbb| 欧美电影网站| 九九精品在线播放| 国产精品一区在线看| 欧美第一区第二区| 中文资源在线播放| 亚洲 欧美综合在线网络| 蜜臀av午夜精品久久| 久久午夜色播影院免费高清| 亚洲欧美激情一区二区三区| 日韩av不卡一区二区| 天堂…中文在线最新版在线| 国产精品99久久精品| 鲁鲁视频www一区二区| 日本一区二区三区播放| 国产欧美韩国高清| 成人欧美大片| 96精品视频在线| 2024最新电影免费在线观看| 在线精品高清中文字幕| 午夜成人鲁丝片午夜精品| 91精品国产高清一区二区三区 | 亚洲精品aⅴ中文字幕乱码| 一区二区日韩在线观看| 色综合久久久久| 日韩欧美亚洲一区二区三区| 自拍偷拍亚洲激情| 五月激情四射婷婷| 久久久综合网站| 超碰男人的天堂| 高清av一区二区| 91蝌蚪视频在线| 久久99精品久久久久久国产越南| 日韩av在线综合| 亚洲一区成人| 日韩精品xxxx| 一区二区高清| 午夜免费福利小电影| 在线观看视频日韩| www.九色.com| 欧美视频在线观看| 日韩欧美一级在线| 欧美成人69| 91视频成人免费| 99久久亚洲精品| 在线观看欧美激情| 91视频精品| 夜夜爽www精品| 99久久国产综合精品成人影院| 一区二区三区|亚洲午夜| 成人嫩草影院| 一区不卡字幕| 久久精品免费一区二区三区| 国产精品美女在线播放| 91精品观看| 国产黄色激情视频| 欧美午夜在线| 777精品久无码人妻蜜桃| 亚洲一区成人| 亚洲高清在线免费观看| 久久精品国产999大香线蕉| 日韩在线不卡一区| 国产乱码字幕精品高清av| 激情小说欧美色图| av成人免费在线| 免费看黄色的视频| 国产精品天干天干在观线| 三级黄色录像视频| 一区二区三区四区蜜桃| www..com国产| 91福利精品第一导航| 在线视频 91| 欧美一区二区三区色| 韩国中文字幕hd久久精品| 日韩电影中文字幕在线观看| 激情小视频在线| 久久精品国产一区| caoporn-草棚在线视频最| 日本人成精品视频在线| 日韩精品第二页| 国产精品日韩欧美一区二区| 亚洲第一二三区| 正在播放一区| 99riav1国产精品视频| 国产天堂在线播放| 国产精品88av| 在线 丝袜 欧美 日韩 制服| 中文字幕在线观看一区| 国产精品theporn动漫| 欧美在线你懂得| 不卡视频免费在线观看| 亚洲欧美在线第一页| 黄色av电影在线观看| 2019精品视频| 在线高清欧美| 欧美三级电影在线播放| 欧美精品1区| 99草草国产熟女视频在线| 国产成人免费视频网站| 女女互磨互喷水高潮les呻吟| 亚洲欧美日韩人成在线播放| 国产一级片毛片| 91精品国产美女浴室洗澡无遮挡| 性插视频在线观看| 粗暴蹂躏中文一区二区三区| 中国色在线日|韩| 91天堂在线观看| 九九综合久久| 成人网站免费观看入口| 老司机一区二区| 国产福利短视频| 亚洲激情男女视频| 中文字幕一区二区免费| 日韩av在线资源| 羞羞污视频在线观看| 国产精品久久久久久久7电影| 欧美激情影院| 久青草视频在线播放| 美女一区二区三区在线观看| 一级性生活大片| 亚洲国产一区二区在线播放| 国产精品老熟女视频一区二区| 亚洲欧洲xxxx| 国产社区精品视频| 91手机在线观看| 91精品国产乱码久久久久久久| 免费黄色一级网站| 久久亚洲影视婷婷| 天天综合网入口| 亚洲国产精品人人爽夜夜爽| 在线视频中文字幕第一页| 国产日韩在线视频| 全球成人免费直播| 逼特逼视频在线| 99久久免费国产| 日韩欧美亚洲一区二区三区| 欧美不卡在线视频| 日韩av激情| 99国精产品一二二线| 欧美在线1区| 手机在线免费毛片| 亚洲免费伊人电影| 精品免费久久久| 欧美国产中文字幕| 91大神精品| 精品视频在线观看一区二区| 国产福利不卡视频| 欧美日韩大片在线观看| 日韩片之四级片| 三级网站视频在在线播放| 97免费高清电视剧观看| 欧美午夜久久| 国产精品一区二区人妻喷水| 亚洲成人高清在线| 五月婷婷狠狠干| 欧美性视频在线| 精品国产一区一区二区三亚瑟| 国产一区视频免费观看| 欧美—级在线免费片| 最近中文在线观看| 久久精品国产91精品亚洲| 二区三区精品| 草草草视频在线观看| 成人精品小蝌蚪| 91精品国产综合久久久蜜臀九色| 亚洲色图15p| 9999精品| 久激情内射婷内射蜜桃| 久久久久综合网| 中文字幕一区2区3区| 超薄丝袜一区二区| 精品国内亚洲2022精品成人| 人妻有码中文字幕| 国产精品女人毛片| 不卡av中文字幕| 国产成人精品日本亚洲| 欧美电影免费观看高清| 国产精品欧美性爱| 日韩欧美国产激情| 色开心亚洲综合| 国产不卡一区二区三区在线观看 | 欧美国产日韩另类| 一区二区欧美国产| 可以免费看污视频的网站在线| 国产欧洲精品视频| 99成人精品| 欧美一区二区三区观看| 日韩欧美一区二区三区在线| 免费成人在线电影| 在线免费一区| 99国产欧美另类久久久精品 | 精品粉嫩aⅴ一区二区三区四区| 国产欧美一区二区三区精品酒店| 欧美 日韩 国产 在线观看| www.亚洲免费av| 亚洲字幕av一区二区三区四区| 欧美日韩国产成人高清视频| 国产伦一区二区三区| 91亚洲精品久久久蜜桃借种| 狠狠色噜噜狠狠狠狠97| 麻豆免费在线观看| 欧美男人的天堂| 国产69精品久久99不卡| 中文字幕一区二区人妻| 97视频com| 欧美福利专区| 能直接看的av| 精品性高朝久久久久久久|