精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Meta超級(jí)智能實(shí)驗(yàn)室新論文陷爭(zhēng)議!被指忽略大量前人研究

人工智能
MSL這篇新論文的核心思想是通過(guò)一種Language Self-Play(LSP)的方法,讓大型語(yǔ)言模型在沒(méi)有額外訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)自我提升。

Meta超級(jí)智能實(shí)驗(yàn)室(MSL)又被送上爭(zhēng)議的風(fēng)口浪尖了。

不過(guò),這次不是人事風(fēng)波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質(zhì)疑忽視前人研究、缺乏創(chuàng)新。

圖片圖片

究竟是啥論文?

讓模型在博弈中學(xué)習(xí)

總的來(lái)說(shuō),MSL這篇新論文的核心思想是通過(guò)一種Language Self-Play(LSP)的方法,讓大型語(yǔ)言模型在沒(méi)有額外訓(xùn)練數(shù)據(jù)的情況下實(shí)現(xiàn)自我提升。

這一方法旨在應(yīng)對(duì)當(dāng)前大語(yǔ)言模型高度依賴大規(guī)模、高質(zhì)量訓(xùn)練數(shù)據(jù),且訓(xùn)練數(shù)據(jù)有限所帶來(lái)的困境。

為此,LSP將模型的學(xué)習(xí)過(guò)程設(shè)計(jì)成一個(gè)博弈框架,讓同一個(gè)語(yǔ)言模型扮演兩個(gè)角色進(jìn)行對(duì)抗,從而實(shí)現(xiàn)無(wú)數(shù)據(jù)訓(xùn)練。

圖片圖片

具體來(lái)說(shuō),這兩個(gè)角色分別是:

  • 挑戰(zhàn)者:負(fù)責(zé)生成越來(lái)越有挑戰(zhàn)性的問(wèn)題或指令。
  • 解決者:負(fù)責(zé)回答或執(zhí)行這些指令。

在對(duì)抗過(guò)程中,挑戰(zhàn)者不斷生成越來(lái)越刁鉆的問(wèn)題或指令,以降低解決者的預(yù)期回報(bào);而解決者則必須努力理解并回答這些指令,以最大化自身回報(bào)——這其實(shí)就是我們熟悉的極小極大博弈(minimax game)。

圖片圖片

通過(guò)這樣的對(duì)抗訓(xùn)練,模型能夠在不斷博弈中持續(xù)改進(jìn),逐步提升能力。

此外,與傳統(tǒng)對(duì)抗訓(xùn)練不同,LSP讓單個(gè)語(yǔ)言模型同時(shí)扮演“挑戰(zhàn)者”和“解決者”兩個(gè)角色,研究人員給模型設(shè)計(jì)了一個(gè)特殊的“挑戰(zhàn)者提示”(Challenger Prompt):當(dāng)接收到該提示時(shí),模型進(jìn)入挑戰(zhàn)者模式,生成難題;否則,它就扮演解決者角色,回答問(wèn)題。

這種單一模型的設(shè)計(jì)避免了訓(xùn)練獨(dú)立對(duì)抗模型所帶來(lái)的額外開(kāi)銷(xiāo)和不穩(wěn)定性。整個(gè)過(guò)程完全自主,模型在自我對(duì)抗中不斷迭代,從而在沒(méi)有外部數(shù)據(jù)輸入的情況下提升自身能力。

為了將這個(gè)博弈轉(zhuǎn)化成模型強(qiáng)化學(xué)習(xí)的過(guò)程,研究中采用了GRPO技巧,讓模型在每輪訓(xùn)練中進(jìn)行如下操作:

  • 挑戰(zhàn)者生成問(wèn)題:每輪生成N個(gè)問(wèn)題。
  • 解決者回答問(wèn)題:對(duì)于每個(gè)問(wèn)題,解決者生成一定數(shù)量的答案,并分別計(jì)算獎(jiǎng)勵(lì)。
  • 計(jì)算組價(jià)值與優(yōu)勢(shì):把解決者對(duì)同一個(gè)問(wèn)題的所有答案的獎(jiǎng)勵(lì)進(jìn)行平均,得到這個(gè)問(wèn)題整體的難度或表現(xiàn)水平。然后用每個(gè)答案的實(shí)際獎(jiǎng)勵(lì)減去組價(jià)值,判斷這個(gè)答案比平均水平高還是低。 - 更新挑戰(zhàn)者優(yōu)勢(shì):通過(guò)計(jì)算優(yōu)勢(shì)函數(shù)獲得問(wèn)題和答案的反饋,優(yōu)化自己出題的策略。

圖片圖片

通過(guò)這種獎(jiǎng)勵(lì)機(jī)制,挑戰(zhàn)者生成的問(wèn)題會(huì)針對(duì)解決者的薄弱環(huán)節(jié),從而推動(dòng)模型不斷改進(jìn)。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實(shí)踐中,研究者發(fā)現(xiàn)LSP-Zero有時(shí)會(huì)退化,例如模型為了獲取獎(jiǎng)勵(lì)而生成無(wú)意義但能獲得高分的內(nèi)容(即獎(jiǎng)勵(lì) hacking)。

針對(duì)解決這個(gè)問(wèn)題,他們?cè)贚SP算法中引入了“自我質(zhì)量獎(jiǎng)勵(lì)” (RQ),引導(dǎo)博弈朝高質(zhì)量交互發(fā)展,使訓(xùn)練可長(zhǎng)期進(jìn)行。

(注:LSP的具體算法如下表)

圖片圖片

最后,為了驗(yàn)證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準(zhǔn)上進(jìn)行了兩組實(shí)驗(yàn)。

實(shí)驗(yàn)一將算法與基礎(chǔ)模型本身以及一個(gè)通過(guò)傳統(tǒng)強(qiáng)化學(xué)習(xí)微調(diào)的大語(yǔ)言模型進(jìn)行比較。

實(shí)驗(yàn)結(jié)果顯示,沒(méi)有使用任何數(shù)據(jù)的LSP和LSP-Zero和使用了數(shù)據(jù)的GRPO相當(dāng),并且顯著優(yōu)于原始模型。而在 Vicuna這類對(duì)話型和開(kāi)放式指令的數(shù)據(jù)集上,LSP 的表現(xiàn)遠(yuǎn)超GRPO。

圖片圖片

實(shí)驗(yàn)二以實(shí)驗(yàn)一中通過(guò)數(shù)據(jù)驅(qū)動(dòng) RL(GRPO)訓(xùn)練得到的模型為起點(diǎn),進(jìn)一步使用 LSP-Zero 和 LSP 進(jìn)行訓(xùn)練,計(jì)算這些模型相對(duì)于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進(jìn)行對(duì)比。

實(shí)驗(yàn)顯示,經(jīng)過(guò)LSP的進(jìn)一步訓(xùn)練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數(shù)據(jù)集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數(shù)據(jù)驅(qū)動(dòng)的訓(xùn)練之后繼續(xù)挖掘模型潛力。

圖片圖片

總的來(lái)說(shuō),實(shí)驗(yàn)結(jié)果表明,LSP-Zero和LSP算法能夠在無(wú)需訓(xùn)練數(shù)據(jù)的情況下提升預(yù)訓(xùn)練LLM的性能,尤其是在對(duì)話類任務(wù)上表現(xiàn)顯著,而這可能意味著AI正在從依賴人類數(shù)據(jù)過(guò)渡到自主學(xué)習(xí)系統(tǒng)。

網(wǎng)友:感覺(jué)忽略了大量前人研究?

雖然(……)但是,LSP一經(jīng)發(fā)布后,在網(wǎng)友們這倒是出了些小插曲。

一位推特網(wǎng)友直言:LSP自稱是突破性工作,但實(shí)際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級(jí)智能”實(shí)驗(yàn)室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒(méi)有引用。其實(shí)很多人都做過(guò)類似研究(比如 @Benjamin_eecs),無(wú)論是聯(lián)合最大化還是極小極大,不管是驗(yàn)證器還是獎(jiǎng)勵(lì)模型。為什么要把這說(shuō)成是突破呢?你們?cè)赩icuna上的評(píng)測(cè)確實(shí)做得不錯(cuò),簡(jiǎn)直是2023年LLaMA社區(qū)的典型操作。

圖片圖片

而且,就連失敗的模型也大同小異。

圖片圖片

評(píng)論區(qū)有網(wǎng)友表示這可能是一篇老工作,然后拿到MSL發(fā)的:

圖片圖片

(注:網(wǎng)友提及的論文如下:[1]Absolute Zero: Reinforced Self-play Reasoning with Zero Data[2]SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning[3]Scalable Reinforcement Post-Training Beyond Static Human Prompts)

截至目前,MSL及論文作者尚未對(duì)此作出回應(yīng)。

參考鏈接

[1]https://x.com/teortaxesTex/status/1965654111069876296

[2]https://x.com/_akhaliq/status/1965601392187638018

[3]https://x.com/tydsh/status/1965856666580361705

[4]https://arxiv.org/pdf/2404.10642

[5]https://arxiv.org/pdf/2411.00062

[6]https://arxiv.org/pdf/2505.03335

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-09-08 23:19:25

2025-11-21 12:04:58

2025-09-26 08:59:36

2025-10-23 10:17:20

2025-08-20 09:10:00

2025-07-01 09:04:00

2016-10-19 18:40:30

2025-06-30 08:44:00

2025-11-06 08:45:00

AI語(yǔ)言模型算法

2025-09-22 10:41:42

2025-10-11 18:05:23

智能論文AI

2024-07-19 11:50:28

2025-07-02 01:40:00

OpenAI人工智能扎克伯格

2025-10-17 09:20:49

2025-07-21 09:13:00

2021-08-04 09:48:05

數(shù)字化

2020-01-14 11:28:43

IBM開(kāi)源SysFlow

2009-05-30 08:43:47

惠普裁員英國(guó)研究實(shí)驗(yàn)室

2015-02-06 09:23:52

賽可達(dá)實(shí)驗(yàn)室網(wǎng)絡(luò)安全

2011-05-25 17:51:40

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

丁香花高清在线观看完整版| 在线免费观看一级片| 日韩精品成人| 亚洲1区2区3区4区| 欧美高清性xxxxhd| 91成年人视频| 亚洲日产国产精品| 亚洲区免费影片| 在线免费看污网站| а√天堂8资源在线| 中文在线资源观看网站视频免费不卡| 国产精品美乳一区二区免费| 18岁成人毛片| 国产成人调教视频在线观看 | 国产视频不卡一区| 成人中文字幕+乱码+中文字幕| 久草视频在线资源| 欧美一区二区三| 欧美精品一区二区三区在线播放| av免费在线播放网站| 黄色网页网址在线免费| 99久久99久久精品免费观看| 国产在线不卡精品| 日本a级c片免费看三区| 国产一区二区三区自拍| 中文字幕av一区中文字幕天堂| 岛国大片在线免费观看| 免费观看成人性生生活片 | 亚洲欧美日韩直播| 337p日本欧洲亚洲大胆张筱雨| 国产亚洲一区二区手机在线观看| 亚洲综合色区另类av| 亚洲精品国产系列| 三级毛片在线免费看| 国产精品18久久久久久久久| 国产精品久久久久久久久久久久久| 国产第100页| 亚洲精品97| 色噜噜狠狠狠综合曰曰曰| 性欧美13一14内谢| 日韩大尺度在线观看| 日韩欧美二区三区| 亚洲天堂一区二区在线观看| 国产成人精品一区二区三区视频 | 欧美一区在线观看视频| 欧美日韩国产高清一区二区三区| 鲁一鲁一鲁一鲁一澡| 超碰在线最新网址| 夜夜嗨av一区二区三区网页 | 国产日韩欧美三级| 美女福利视频一区| 91 在线视频| 五月天综合网站| 色妞色视频一区二区三区四区| 欧美精品日韩在线| 精品久久久久久久| 曰本色欧美视频在线| 精品无码在线观看| 日韩欧美一区二区三区免费看| 在线观看欧美日韩| 日本高清黄色片| 久久高清精品| 久久躁日日躁aaaaxxxx| 久久中文免费视频| 伊人精品成人久久综合软件| 国内精品模特av私拍在线观看| 日本学生初尝黑人巨免费视频| 国内精品美女在线观看| 国模私拍视频一区| 亚洲熟妇无码乱子av电影| 久久裸体视频| 国产精品一区二区久久久久| ,亚洲人成毛片在线播放| 国产在线播精品第三| 懂色一区二区三区av片| 日韩一区av| 欧美国产日韩a欧美在线观看| 亚洲精品自在在线观看| 国产盗摄在线观看| 亚洲成人综合网站| 黄色一级大片在线观看| 欧美aaaaaa| 日韩一区二区精品在线观看| 岛国精品一区二区三区| 网红女主播少妇精品视频| 亚洲天堂免费在线| 91 在线视频| 国产日韩欧美一区二区三区在线观看| 国产成人精品免高潮费视频| 亚洲一区二区天堂| 国产成人8x视频一区二区| 狠狠色综合色区| 99re在线视频| 亚洲成人一区在线| 欧美日韩中文不卡| 国产丝袜一区| 在线精品播放av| 久草视频手机在线观看| 另类亚洲自拍| 91九色蝌蚪嫩草| 国产香蕉在线| 亚洲午夜免费视频| 制服丝袜综合网| 国产精品一区二区三区美女| 伊人久久久久久久久久久久久| 久久免费少妇高潮99精品| 先锋a资源在线看亚洲| 91麻豆国产语对白在线观看| 视频一区二区在线播放| 亚洲啪啪综合av一区二区三区| 国产午夜伦鲁鲁| 精品一区二区三区中文字幕| 亚洲精品永久免费| 激情综合网五月天| 美腿丝袜亚洲一区| 久久精品国产精品青草色艺| 韩国中文字幕在线| 懂色av中文一区二区三区天美| 婷婷六月天在线| 婷婷综合一区| 久久久久久久一| va视频在线观看| 国产精品久久久久久久午夜片| 国产精品无码一区二区在线| 视频一区视频二区欧美| 在线看国产精品| 久久狠狠高潮亚洲精品| 国产麻豆91精品| 一本色道婷婷久久欧美| 性欧美videohd高精| 亚洲第一偷拍网| 欧美黑吊大战白妞| 国产一区二区三区在线观看精品 | 国产精品永久免费观看| 天堂91在线| 午夜亚洲福利老司机| 欧美xxxx黑人| 欧美日韩精选| 91精品天堂| 污污影院在线观看| 日韩精品影音先锋| 成熟的女同志hd| 激情综合网av| 先锋影音男人资源| 欧洲精品99毛片免费高清观看| 久久精品久久久久久| 一本一道人人妻人人妻αv| 欧美国产97人人爽人人喊| 欧美激情精品久久久久久小说| 在线日韩网站| 日韩美女视频免费看| 黄色免费在线播放| 欧美在线观看视频一区二区三区 | 亚洲经典一区二区| 亚洲一区二三区| 成年女人免费视频| 亚洲精品一级| 蜜桃视频日韩| 精品欧美日韩精品| 丝袜美腿亚洲一区二区| 一区二区三区午夜| 亚洲黄一区二区三区| 亚洲午夜久久久久久久久| 亚洲精品1234| 欧美日韩综合精品| 国产精品久久久久久吹潮| 日韩中文在线观看| 99在线小视频| 亚洲第一激情av| 人妻无码一区二区三区| 免费在线视频一区| 懂色av粉嫩av蜜臀av| 97色成人综合网站| 日韩av免费在线播放| av女优在线| 欧美成人女星排名| 国产无遮挡呻吟娇喘视频| 国产欧美日韩精品一区| 亚洲最大天堂网| 影音先锋亚洲电影| 色阁综合av| 1313精品午夜理伦电影| 亲子乱一区二区三区电影| 免费人成在线观看播放视频 | 九色视频成人自拍| 欧美日本韩国一区二区三区视频 | 欧美三区不卡| 欧美精品一区二区三区在线四季 | 成人av播放| 欧美电影免费观看高清完整| 精品国产区一区二区三区在线观看| 精品人妻少妇嫩草av无码专区| 精品国产鲁一鲁一区二区张丽 | 亚洲精品午夜在线观看| 欧美一区亚洲| 日产精品高清视频免费| 日本高清精品| 国产精品视频公开费视频| 污污网站在线看| 中文字幕亚洲欧美一区二区三区| 亚洲成人一级片| 欧美三级日韩在线| 日本中文字幕免费| 日韩美女精品在线| 免费毛片视频网站| 成人免费视频caoporn| 天天色综合社区| 蜜桃视频一区| 日韩精品在线视频免费观看| 欧美成免费一区二区视频| 久久久久久国产精品免费免费| 国产成年精品| 国产精品一区二区在线| 吉吉日韩欧美| 国产做受69高潮| av在线免费播放| 中文字幕日韩欧美| 涩涩视频在线观看免费| 日韩一区二区三区精品视频| 又骚又黄的视频| 色综合激情五月| 日韩精品在线免费看| 亚洲免费大片在线观看| 天堂av免费在线| 久久精品亚洲乱码伦伦中文| 高清中文字幕mv的电影| 国产又黄又大久久| 无尽裸体动漫2d在线观看| 噜噜噜躁狠狠躁狠狠精品视频| 成品人视频ww入口| 欧美日本三区| 大片在线观看网站免费收看| 91一区二区三区四区| 神马欧美一区二区| 国内精品久久久久久久影视简单| 精品欧美日韩在线| 成人免费在线电影网| 97av自拍| 澳门成人av| 国产精品加勒比| 一区二区三区四区高清视频 | 亚洲精品国产第一综合99久久| а天堂中文在线资源| 中国色在线观看另类| 免费一级黄色录像| 日本一区二区三区dvd视频在线 | 精品日韩欧美一区| 欧美一区二区三区四区五区六区| 美女精品一区最新中文字幕一区二区三区| 国产精品9999久久久久仙踪林| 日韩三级av高清片| 99影视tv| 精品精品国产毛片在线看| 国产精品国产三级欧美二区| 国产人妖ts一区二区| 国内精品二区| 噜噜噜天天躁狠狠躁夜夜精品| 久久99精品久久久久久水蜜桃| 亚洲黄页在线观看| 日本一区网站| 四季av一区二区三区免费观看| 一区二区视频在线免费| 亚洲欧洲日韩| 菠萝蜜视频在线观看入口| 91久久视频| 爆乳熟妇一区二区三区霸乳| 久久精品国产**网站演员| 爽爽爽在线观看| www.成人在线| 天堂久久精品忘忧草| 国产精品网曝门| 福利所第一导航| 狠狠躁夜夜躁人人爽天天天天97| 日日夜夜操视频| 欧美酷刑日本凌虐凌虐| 欧美一区二不卡视频| 亚洲欧美中文另类| 顶级网黄在线播放| 97视频com| 日韩欧美2区| 99在线视频免费观看| 亚洲免费福利一区| 一区二区不卡在线观看| 国产一区二区三区自拍| 国产福利一区视频| 国产久卡久卡久卡久卡视频精品| 182在线视频| 中文成人综合网| 日本网站免费观看| 欧美日本一区二区| 少妇激情av一区二区| 久久国产精品久久国产精品| 蜜桃视频在线观看播放| 成人国产精品色哟哟| 久久激情av| 在线一区高清| 国产精品综合| 性色av浪潮av| 国产精品区一区二区三区| 久草视频手机在线观看| 欧美视频一区二区在线观看| 亚洲AV无码精品自拍| 在线播放国产一区二区三区| 国精一区二区三区| 国产欧美在线看| 亚洲人成网www| 欧美日韩视频免费| 麻豆精品在线视频| 人妻精品久久久久中文字幕| 亚洲六月丁香色婷婷综合久久| 亚洲黄网在线观看| 亚洲成人在线视频播放| 黄色av免费在线| 国产脚交av在线一区二区| 久久丝袜视频| 久久www视频| 蜜桃精品视频在线观看| 国精品无码人妻一区二区三区| 亚洲综合男人的天堂| 一级特黄aa大片| 国产亚洲精品高潮| 色偷偷色偷偷色偷偷在线视频| 999精品在线观看| 欧美高清视频手机在在线| 国产a级片免费观看| 99久久免费视频.com| 免费在线黄色片| 欧美一区二区观看视频| 生活片a∨在线观看| 国产精品电影观看| 免费不卡中文字幕在线| 日韩欧美亚洲天堂| 成人精品在线视频观看| 欧美日韩免费做爰视频| 日韩一区二区麻豆国产| av中文字幕在线播放| 2019国产精品视频| 午夜精品影院| 亚洲精品成人无码毛片| 一区二区三区四区亚洲| 午夜精品在线播放| 欧美肥臀大乳一区二区免费视频| 成人自拍视频| 妞干网这里只有精品| 国产一区二区在线观看免费| 国产一区二区三区在线视频观看| 欧美一区二区在线看| 天堂av资源在线观看| 国产精华一区| 亚洲激情黄色| 欧美亚一区二区三区| 日韩欧美亚洲国产一区| 国产黄色免费在线观看| 国产精品对白刺激| 久久国产成人精品| 精产国品一二三区| 亚洲在线免费播放| 少妇人妻偷人精品一区二区| 热久久这里只有精品| av一区二区在线播放| 激情五月婷婷基地| 一卡二卡欧美日韩| 日本国产在线观看| 奇门遁甲1982国语版免费观看高清| 国产精品一区二区av交换| 国产区二区三区| 亚洲视频在线观看三级| 男人天堂一区二区| 日本一区二区三区四区视频| 精品国产91久久久久久浪潮蜜月| 欧美成年人视频在线观看| 亚洲精品国产一区二区三区四区在线| 色窝窝无码一区二区三区成人网站| 国产91|九色| 成人av国产| 图片区偷拍区小说区| 色呦呦网站一区| 黄色成人影院| 久久精品美女| 久久99国产精品免费网站| 久久精品一区二区三| 日韩av中文在线| 国产精品66| 你真棒插曲来救救我在线观看| 久久蜜桃av一区二区天堂| 国产一区二区三区三州| 久久久久在线观看| 精品国产美女| 在线观看一区二区三区四区| 欧美午夜片在线免费观看| 天天综合视频在线观看| 国产伦精品一区二区三| 欧美aⅴ一区二区三区视频| 欧美日韩大片在线观看| 亚洲天天在线日亚洲洲精| 91精品短视频| 亚洲精品www.| 日韩欧美亚洲一二三区| 日韩特级毛片| 亚洲免费久久|