精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

當(dāng)LLM學(xué)會(huì)左右互搏,基礎(chǔ)模型或?qū)⒂瓉?lái)集體進(jìn)化

人工智能 新聞
進(jìn)入現(xiàn)今的大模型 (LLM) 時(shí)代,又有研究者發(fā)現(xiàn)了左右互搏的精妙用法!近日,加利福尼亞大學(xué)洛杉磯分校的顧全全團(tuán)隊(duì)提出了一種新方法 SPIN(Self-Play Fine-Tuning),可不使用額外微調(diào)數(shù)據(jù),僅靠自我博弈就能大幅提升 LLM 的能力。

金庸武俠小說(shuō)中有一門(mén)武學(xué)絕技:左右互搏;乃是周伯通在桃花島的地洞里苦練十余年所創(chuàng)武功,初期想法在于左手與右手打架,以自?shī)首詷?lè)。而這種想法不僅能用來(lái)練武功,也能用來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,比如前些年風(fēng)靡一時(shí)的生成對(duì)抗網(wǎng)絡(luò)(GAN)。

進(jìn)入現(xiàn)今的大模型 (LLM) 時(shí)代,又有研究者發(fā)現(xiàn)了左右互搏的精妙用法!近日,加利福尼亞大學(xué)洛杉磯分校的顧全全團(tuán)隊(duì)提出了一種新方法 SPIN(Self-Play Fine-Tuning),可不使用額外微調(diào)數(shù)據(jù),僅靠自我博弈就能大幅提升 LLM 的能力。顧全全教授表示:「授之以魚(yú)不如授之以漁:通過(guò)自我博弈微調(diào) (SPIN) 可以讓所有大模型達(dá)到從弱到強(qiáng)的提升!」

圖片

這項(xiàng)研究也在社交網(wǎng)絡(luò)引起了不少討論,比如賓夕法尼亞大學(xué)沃頓商學(xué)院的 Ethan Mollick 教授就表示:「更多證據(jù)表明,AI 不會(huì)受限于可供其訓(xùn)練的人類(lèi)創(chuàng)造內(nèi)容的數(shù)量。這篇論文再次表明使用 AI 創(chuàng)造的數(shù)據(jù)訓(xùn)練 AI 可以比僅使用人類(lèi)創(chuàng)造的數(shù)據(jù)獲得更高質(zhì)量的結(jié)果。」

圖片

此外,還有許多研究人員對(duì)這一方法感到興奮,并對(duì) 2024 年在相關(guān)方向的進(jìn)展表現(xiàn)出極大期待。顧全全教授向機(jī)器之心表示:「如果你希望訓(xùn)練一個(gè)超越 GPT-4 的大模型,這是一項(xiàng)絕對(duì)值得嘗試的技術(shù)。」

圖片

論文地址:https://arxiv.org/pdf/2401.01335.pdf

大型語(yǔ)言模型(LLM)開(kāi)啟了通用人工智能(AGI)的大突破時(shí)代,它能以非凡的能力解決需要復(fù)雜推理和專(zhuān)業(yè)知識(shí)的廣泛任務(wù)。LLM 擅長(zhǎng)的領(lǐng)域包括數(shù)學(xué)推理 / 問(wèn)題求解、代碼生成 / 編程、文本生成、摘要和創(chuàng)意寫(xiě)作等等。

LLM 的一大關(guān)鍵進(jìn)步是訓(xùn)練之后的對(duì)齊過(guò)程,這能讓模型的行為更符合需求,但這個(gè)過(guò)程卻往往依賴(lài)于成本高昂的人類(lèi)標(biāo)注數(shù)據(jù)。經(jīng)典的對(duì)齊方法包括基于人類(lèi)演示的監(jiān)督式微調(diào)(SFT)和基于人類(lèi)偏好反饋的強(qiáng)化學(xué)習(xí)(RLHF)。

而這些對(duì)齊方法全都需要大量人類(lèi)標(biāo)注數(shù)據(jù)。因此,為了精簡(jiǎn)對(duì)齊過(guò)程,研究人員希望開(kāi)發(fā)出能有效利用人類(lèi)數(shù)據(jù)的微調(diào)方法。

這也是這項(xiàng)研究的目標(biāo):開(kāi)發(fā)出新的微調(diào)方法,使得微調(diào)后的模型可以繼續(xù)變強(qiáng),而且這個(gè)微調(diào)過(guò)程無(wú)需使用微調(diào)數(shù)據(jù)集之外的人類(lèi)標(biāo)注數(shù)據(jù)。

實(shí)際上,機(jī)器學(xué)習(xí)社區(qū)一直都很關(guān)注如何在不使用額外訓(xùn)練數(shù)據(jù)的情況下將弱模型提升成強(qiáng)模型,這方面的研究甚至可以追溯至 boosting 算法。也有研究表明,自訓(xùn)練算法可以在混合模型中將弱學(xué)習(xí)器轉(zhuǎn)換成強(qiáng)學(xué)習(xí)器,而無(wú)需額外的標(biāo)注數(shù)據(jù)。但是,要在沒(méi)有外部引導(dǎo)的前提下自動(dòng)提升 LLM 的能力既復(fù)雜又少有研究。這就引出了以下問(wèn)題:

我們能讓 LLM 在沒(méi)有額外人類(lèi)標(biāo)注數(shù)據(jù)的前提下實(shí)現(xiàn)自我提升嗎?

方法

從技術(shù)細(xì)節(jié)上講,我們可以將來(lái)自之前迭代的 LLM 記為 pθt,其對(duì)于人類(lèi)標(biāo)注的 SFT 數(shù)據(jù)集中的 prompt x,可以生成響應(yīng) y'。接下來(lái)的目標(biāo)是找到一個(gè)新的 LLM pθ{t+1},使其有能力區(qū)分 pθt 生成的響應(yīng) y' 和人類(lèi)給出的響應(yīng) y。

這個(gè)過(guò)程可被看作是一個(gè)兩個(gè)玩家的博弈過(guò)程:主玩家就是新 LLM pθ{t+1},其目標(biāo)是區(qū)分對(duì)手玩家 pθt 的響應(yīng)以及人類(lèi)生成的響應(yīng);對(duì)手玩家就是舊 LLM pθt,其任務(wù)是生成與人類(lèi)標(biāo)注的 SFT 數(shù)據(jù)集盡可能相近的響應(yīng)。

新 LLM pθ{t+1} 是通過(guò)微調(diào)舊 LLM pθt 得到的,訓(xùn)練過(guò)程是讓新的 LLM pθ{t+1} 有很好的能力區(qū)分 pθt 生成的響應(yīng) y' 和人類(lèi)給出的響應(yīng) y。而這個(gè)訓(xùn)練不僅讓新的 LLM pθ{t+1} 作為一個(gè)主玩家達(dá)到很好的區(qū)分能力,而且讓新的 LLM pθ{t+1} 作為一個(gè)對(duì)手玩家在下一輪迭代中,給出更對(duì)齊 SFT 數(shù)據(jù)集的響應(yīng)。在下一輪迭代中,新獲得的 LLM pθ{t+1} 會(huì)變成響應(yīng)生成的對(duì)手玩家。

圖片


圖片

這個(gè)自我博弈的過(guò)程的目標(biāo)是讓 LLM 最終收斂到 pθ?=p_data,使得可能存在的最強(qiáng)大的 LLM 生成的響應(yīng)不再與其之前版本和人類(lèi)生成的響應(yīng)不同。

有趣的是,這個(gè)新方法與 Rafailov et al. 近期提出的直接偏好優(yōu)化(DPO)方法表現(xiàn)出了相似性,但新方法的明顯區(qū)別是采用了自我博弈機(jī)制。也因此,這個(gè)新方法就有了一大顯著優(yōu)勢(shì):無(wú)需額外的人類(lèi)偏好數(shù)據(jù)。

此外,我們也能明顯看出這種新方法與生成對(duì)抗網(wǎng)絡(luò)(GAN)的相似性,只不過(guò)新方法中的判別器(主玩家)和生成器(對(duì)手)是同一個(gè) LLM 在相鄰兩次迭代后的實(shí)例。

該團(tuán)隊(duì)還對(duì)這個(gè)新方法進(jìn)行了理論證明,結(jié)果表明:當(dāng)且僅當(dāng) LLM 的分布等于目標(biāo)數(shù)據(jù)分布時(shí),即 p_θ_t=p_data 時(shí),該方法可以收斂。

實(shí)驗(yàn)

在實(shí)驗(yàn)中,該團(tuán)隊(duì)使用了一個(gè)基于 Mistral-7B 微調(diào)后的 LLM 實(shí)例 zephyr-7b-sft-full。

結(jié)果表明,新方法能在連續(xù)迭代中持續(xù)提升 zephyr-7b-sft-full,而作為對(duì)比,當(dāng)在 SFT 數(shù)據(jù)集 Ultrachat200k 上使用 SFT 方法持續(xù)訓(xùn)練時(shí),評(píng)估分?jǐn)?shù)則會(huì)達(dá)到性能瓶頸,甚至出現(xiàn)下降情況。

更有趣的是,新方法使用的數(shù)據(jù)集只是 Ultrachat200k 數(shù)據(jù)集的一個(gè) 50k 大小的子集!

新方法 SPIN 還有另一項(xiàng)成就:可有效地將 HuggingFace Open LLM 排行榜中基礎(chǔ)模型 zephyr-7b-sft-full 的平均分?jǐn)?shù)從 58.14 提升至 63.16,其中在 GSM8k 和 TruthfulQA 上能有超過(guò) 10% 的驚人提升,在 MT-Bench 上也可從 5.94 提升至 6.78。

圖片

圖片

值得注意的是,在 Open LLM 排行榜上,使用 SPIN 微調(diào)的模型甚至能與再使用額外 62k 偏好數(shù)據(jù)集訓(xùn)練的模型媲美。

圖片

結(jié)論

通過(guò)充分利用人類(lèi)標(biāo)注數(shù)據(jù),SPIN 讓大模型靠自我博弈從弱變強(qiáng)。與基于人類(lèi)偏好反饋的強(qiáng)化學(xué)習(xí)(RLHF)相比,SPIN 使 LLM 能夠在沒(méi)有額外人類(lèi)反饋或者更強(qiáng)的 LLM 反饋的情況下自我改進(jìn)。在包含 HuggingFace Open LLM 排行榜的多個(gè)基準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)上,SPIN 顯著且穩(wěn)定地提高了 LLM 的性能,甚至超過(guò)了使用額外 AI 反饋訓(xùn)練的模型。

我們期待 SPIN 可以助力大模型的進(jìn)化和提升,并最終實(shí)現(xiàn)超越人類(lèi)水平的人工智能。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-02-17 08:03:11

2025-06-13 09:29:51

2015-07-22 16:24:00

云計(jì)算云服務(wù)云服務(wù)漲價(jià)

2009-11-16 10:02:19

Google Chrome OS開(kāi)放下載

2025-08-01 09:05:00

2023-10-13 09:43:36

自動(dòng)駕駛數(shù)據(jù)

2021-10-25 06:02:17

零信任網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2025-05-29 09:57:38

2024-05-30 08:40:41

大型語(yǔ)言模型LLM人工智能

2024-04-18 10:39:57

2024-04-15 12:43:26

人工智能LLM

2021-10-09 11:27:47

機(jī)器學(xué)習(xí)人工智能左右互博術(shù)

2009-05-14 09:01:35

處理器IntelAMD

2024-10-29 21:01:44

2025-03-20 14:18:57

AI算法模型

2017-04-12 15:18:28

企業(yè)網(wǎng)盤(pán)

2022-05-20 16:38:45

網(wǎng)絡(luò)安全白帽黑客CFAA法律

2025-06-03 09:14:00

2025-09-19 09:46:53

2025-04-18 11:22:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

成人在线视频免费播放| 一区二区三区日韩视频| 国产一级精品视频| 色棕色天天综合网| 欧美日韩在线观看一区二区| 亚洲区成人777777精品| 色欲久久久天天天综合网| 另类av一区二区| 日韩中文字幕在线视频播放| 女人扒开腿免费视频app| 欧美少妇网站| 国产日韩欧美精品综合| 亚洲va欧美va国产综合剧情| 六月丁香在线视频| 久久视频国产| 亚洲国产精品成人一区二区| 日本xxxx黄色| 99re6在线精品视频免费播放| 久久免费精品国产久精品久久久久 | 久久人91精品久久久久久不卡| 全黄一级裸体片| 国产精品一区二区三区av| 午夜电影久久久| 在线观看精品视频| 四虎国产精品永远| 国产精品888| 国产激情综合五月久久| 欧美黄色免费看| 成人一区而且| 亚洲激情在线视频| 日韩精品视频网址| 国产一区二区三区影视| 香蕉久久一区二区不卡无毒影院| 一区二区在线高清视频| 少妇性bbb搡bbb爽爽爽欧美| 国产一区二区不卡在线| 国产精品18久久久久久麻辣| 日韩精品一区二区av| 天天综合久久| 亚洲最新av在线| mm131美女视频| 精品av导航| 精品久久五月天| 日韩a一级欧美一级| jizz免费一区二区三区| 亚洲成人黄色影院| 日本男女交配视频| 在线黄色网页| 亚洲欧美日韩久久| 中文精品视频一区二区在线观看| 国家队第一季免费高清在线观看| www.日韩在线| 国产日本一区二区三区| 亚洲黄色在线观看视频| 国产麻豆91精品| 96国产粉嫩美女| 亚洲综合网av| 日韩av一级电影| 国产精品美女无圣光视频| 中文字幕一区在线播放| 国产精品一二| 日韩美女免费观看| 最近中文字幕在线观看| 日韩高清不卡一区| 国产精品久久久久久久av大片| 波多野结衣 久久| 香蕉亚洲视频| 国产精品777| 嫩草影院一区二区三区| 日韩av网站免费在线| 国产精品爽爽ⅴa在线观看| 黄色污污网站在线观看| 日韩国产欧美视频| 国产精品日韩欧美大师| 在线视频欧美亚洲| 国产主播一区二区三区| 91传媒在线免费观看| 亚洲高清在线观看视频| 高清国产午夜精品久久久久久| 国产精品青青草| 天堂在线中文| 国产日产亚洲精品系列| 一本久道久久综合| 污污的视频在线观看| 亚洲电影一级黄| 免费在线激情视频| 欧美大片1688网站| 91麻豆精品国产自产在线 | 精品久久五月天| 熟妇高潮一区二区| 日本亚洲不卡| 国产一区二区三区网站| 潮喷失禁大喷水aⅴ无码| 色婷婷色综合| 色综合色综合网色综合| 天天操天天操天天操天天| 丝袜国产日韩另类美女| 成人久久一区二区三区| 亚洲国产精品久久人人爱潘金莲| aaa国产一区| 色综合久久88色综合天天提莫| 欧美成人二区| 亚洲电影在线播放| 性欧美videossex精品| 欧美久久亚洲| 亚洲精品美女网站| 亚洲精品天堂网| 尹人成人综合网| 国产日韩在线播放| 五月天福利视频| 国产精品久久久久久久久免费相片 | 久久久av网站| 九九热精品视频在线| 青草国产精品久久久久久| 91在线观看网站| 国产精品免费观看| 午夜视频在线观看一区二区三区| 日本特黄a级片| 极品国产人妖chinesets亚洲人妖| 正在播放欧美视频| 天堂网av手机版| 国产乱国产乱300精品| 久久久久无码国产精品一区| av大大超碰在线| 欧美色手机在线观看| 无套内谢大学处破女www小说| 久久久久久久久丰满| 国产97在线视频| 天天操天天爱天天干| 中文字幕日本不卡| 国产视频在线视频| 成人av动漫| 久久精品国产69国产精品亚洲 | 日韩视频一区| 成人午夜激情免费视频| 黄色在线播放| 舔着乳尖日韩一区| 日韩精品xxx| 日韩综合在线| 国产精品99久久久久久久久| 日韩porn| 亚洲va韩国va欧美va精品| 九九九九九国产| 国产在视频线精品视频www666| 97国产在线视频| 精品久久久无码中文字幕| 国产精品的网站| 黄色av免费在线播放| 日韩av黄色在线| 久久久久久成人| 精品人妻午夜一区二区三区四区| 国产精品家庭影院| av网站在线不卡| 欧美精品系列| 国产精品观看在线亚洲人成网| 色视频在线看| 狠狠躁夜夜躁人人爽超碰91| 蜜臀aⅴ国产精品久久久国产老师| 国产精品毛片久久| 成人精品网站在线观看| 亚洲成a人v欧美综合天堂麻豆| 日本二三区不卡| 91成人在线免费视频| 视频一区视频二区中文字幕| 欧美在线播放一区二区| 快播电影网址老女人久久| 一区二区在线视频| 在线观看国产黄| 成人免费一区二区三区在线观看| 极品粉嫩美女露脸啪啪| 国产精品99在线观看| 92福利视频午夜1000合集在线观看 | 日韩无码精品一区二区三区| 99在线精品免费| 男人天堂999| 成人看的羞羞网站| 91网在线免费观看| 国语对白在线刺激| 亚洲精品影视在线观看| 波多野结衣人妻| 最新国产の精品合集bt伙计| 色欲无码人妻久久精品| 日韩一级在线| 日韩欧美电影一区二区| 欧美一级做一级爱a做片性| 欧美成人免费播放| 五月激情婷婷网| 欧美性生交片4| 老女人性淫交视频| 91蜜桃免费观看视频| 中文字幕国产免费| 欧美日韩91| 久久99精品久久久久久久青青日本| 婷婷综合六月| 久久在线免费观看视频| 深夜福利视频网站| 欧美日韩中字一区| 豆国产97在线 | 亚洲| 久久久91精品国产一区二区三区| 亚洲黄色片免费| 亚洲精品综合| 一区二区冒白浆视频| 日韩精品一区二区三区中文字幕 | 欧美国产精品一二三| 97aⅴ精品视频一二三区| 黄大色黄女片18第一次| 一区福利视频| 中文字幕欧美人与畜| 国语一区二区三区| 国产欧亚日韩视频| 国产在线观看www| 久久精品视频网站| 免费在线观看一级毛片| 日韩精品中午字幕| 精品国产www| 五月激情综合婷婷| 黑人操日本美女| 久久久久99精品国产片| 免费观看一区二区三区| 日韩av网站在线观看| 男人和女人啪啪网站| 中文字幕午夜精品一区二区三区| 蜜桃网站成人| 综合欧美亚洲| 91久久精品视频| 在线成人视屏| 欧美一级淫片丝袜脚交| 手机在线免费看av| 日韩亚洲欧美中文高清在线| 欧美日韩激情视频一区二区三区| 欧美第一区第二区| 91亚洲欧美激情| 欧美综合色免费| 天天插天天操天天干| 亚洲美女视频在线| 林心如三级全黄裸体| 久久久久免费观看| 亚洲男人在线天堂| 成人夜色视频网站在线观看| 国产成人美女视频| 蜜桃av一区二区在线观看| 欧在线一二三四区| 国产精品毛片| 国产极品在线视频| 狠狠爱www人成狠狠爱综合网 | 亚洲欧洲一区二区天堂久久| 一本色道久久88亚洲精品综合| 91欧美在线| 亚洲精品一区二区三区av| 亚洲人成精品久久久| 精品一卡二卡三卡四卡日本乱码| 91精品国产自产精品男人的天堂| 亚洲影院高清在线| 年轻的保姆91精品| 亚洲999一在线观看www| 中文字幕日本一区| 国产一区深夜福利| 天堂久久一区| 亚洲综合成人婷婷小说| 国产亚洲高清一区| 亚洲专区中文字幕| jizzjizzjizz欧美| 国产区一区二区三区| 婷婷精品在线观看| 欧美性天天影院| 欧美丝袜激情| 亚洲国产成人不卡| 久久久久久久久久久久久久久久久久| 一区二区精品国产| 欧美日韩天堂| 成人在线观看你懂的| 在线视频精品| 国产一区视频免费观看| 奇米精品一区二区三区在线观看 | 日本欧美久久久久免费播放网| 四季av一区二区| 麻豆精品视频在线| 一级 黄 色 片一| 国产v综合v亚洲欧| 国产精品无码毛片| 国产视频一区二区在线| а天堂中文在线资源| 亚洲黄色小视频| 粉嫩aⅴ一区二区三区| 一本到一区二区三区| 夜夜骚av一区二区三区| 欧美一级精品大片| 四虎国产精品永远| 日韩亚洲国产中文字幕| 丁香高清在线观看完整电影视频| 欧美亚洲国产日韩2020| 色综合天天色| 99久久一区三区四区免费| 亚洲欧洲av| 一二三在线视频| 国产麻豆综合| 999久久久精品视频| 成人av电影在线| 影音先锋男人在线| 亚洲一区免费观看| 久久精品视频2| 精品日韩在线观看| av播放在线| 97国产suv精品一区二区62| 精品九九久久| 国产自产在线视频一区| 91亚洲一区| 国产成人精品视频免费看| 精品中文字幕一区二区| 香港三级日本三级| 亚洲欧美综合色| 久久青青草原亚洲av无码麻豆| 日韩一级在线观看| 青青色在线视频| 欧美精品在线免费观看| 日韩av首页| 精品一区二区国产| 综合日韩在线| 999在线免费视频| 成人久久视频在线观看| 五月婷婷综合激情网| 婷婷综合五月天| www.五月婷| 少妇av一区二区三区| 五月天国产在线| 高清国产在线一区| 93在线视频精品免费观看| 18禁男女爽爽爽午夜网站免费 | 97人妻精品一区二区三区免| 亚洲桃色在线一区| 中文字幕一区二区三区波野结| 日韩成人高清在线| 国模私拍视频在线播放| 91久久中文字幕| 日韩欧美伦理| 黄色aaa级片| 久久在线观看免费| 懂色av.com| 欧美sm美女调教| 伊人春色在线观看| 成人免费黄色网| 日韩dvd碟片| 超碰在线播放91| 国产无一区二区| 久久久久久少妇| 亚洲女人天堂av| 少妇淫片在线影院| 精品视频第一区| 一本色道久久综合| 色哟哟视频在线| 亚洲福利一区二区三区| 亚洲精品字幕在线| 欧美激情一区二区三区成人| 色悠久久久久综合先锋影音下载| 熟女视频一区二区三区| 久久狠狠亚洲综合| 男人av资源站| 91精品国产黑色紧身裤美女| 2019中文字幕在线视频| 国产精品一区电影| 91欧美在线| 久久人人爽人人片| 一区二区三区日韩| 后进极品白嫩翘臀在线视频| 色综合久久天天综线观看| 亚洲精品一区国产| 男的插女的下面视频| jiyouzz国产精品久久| 精品国产免费观看| 亚洲人成电影网站| 国产a亚洲精品| 裸体裸乳免费看| 丁香六月久久综合狠狠色| 天天操天天射天天爽| 日韩精品免费在线| 欧美日韩不卡| 天天成人综合网| 成人午夜视频福利| 日韩在线视频不卡| 社区色欧美激情 | 亚洲1区在线观看| 久久久久久久午夜| 中文在线资源观看网站视频免费不卡| 国产精品一区二区人人爽| 欧美激情图片区| 色天天色综合| 奇米视频7777| 亚洲成人午夜电影| 成人在线观看网站| 91精品国产一区二区三区动漫| 日韩午夜在线| 女同久久另类69精品国产| 精品日韩一区二区三区| 日韩网站中文字幕| 粉嫩av一区二区三区天美传媒| 99re亚洲国产精品| 国产精品视频久久久久久| 久久久亚洲欧洲日产国码aⅴ| sdde在线播放一区二区| 久久无码专区国产精品s|