精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這些大神在Meta的論文看一篇少一篇了

人工智能 新聞
這次他帶領(lǐng)團(tuán)隊(duì)把目光投向了大模型強(qiáng)化學(xué)習(xí)訓(xùn)練中一個(gè)令人困惑的現(xiàn)象:為什么RL訓(xùn)練明明帶來巨大性能提升,卻只改變了極少數(shù)參數(shù)。

離開Meta的大佬們,留下作品還在陸續(xù)發(fā)表,今天輪到田淵棟。

這次他帶領(lǐng)團(tuán)隊(duì)把目光投向了大模型強(qiáng)化學(xué)習(xí)訓(xùn)練中一個(gè)令人困惑的現(xiàn)象:為什么RL訓(xùn)練明明帶來巨大性能提升,卻只改變了極少數(shù)參數(shù)。

論文剖析了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)的訓(xùn)練動(dòng)態(tài),戳破了一個(gè)誤區(qū),參數(shù)更新的稀疏只是表面現(xiàn)象,背后是RLVR有個(gè)固定的優(yōu)化偏好。

對(duì)于同一個(gè)預(yù)訓(xùn)練模型來說,無(wú)論用什么數(shù)據(jù)集和RL算法,RLVR只盯著同一小部分參數(shù)修改。

團(tuán)隊(duì)還提出了一個(gè)全新的三門理論(Three-Gate Theory),一步步說明RLVR的參數(shù)更新是怎么定位至特定參數(shù)區(qū)域的。

三門理論:RL參數(shù)更新的內(nèi)在機(jī)制

像OpenAI-o3和DeepSeek-R1這樣的推理模型,都是通過大規(guī)模RLVR訓(xùn)練獲得數(shù)學(xué)和編程能力的大幅增強(qiáng)。

按理說,如此巨大的能力提升應(yīng)該伴隨著大量參數(shù)的改變,但最近的研究卻發(fā)現(xiàn),RL訓(xùn)練產(chǎn)生的參數(shù)更新是稀疏的,而監(jiān)督微調(diào)(SFT)的參數(shù)更新是密集的。

這種高收益、低變化的悖論引發(fā)了Meta團(tuán)隊(duì)的關(guān)注。

他們分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在內(nèi)的多個(gè)開源模型,這些模型經(jīng)過超過3000步的長(zhǎng)時(shí)間RL訓(xùn)練,涵蓋數(shù)學(xué)、編程、STEM、邏輯謎題和指令遵循等多樣化任務(wù)。

通過設(shè)計(jì)一種bfloat16精度感知的探測(cè)方法,研究團(tuán)隊(duì)準(zhǔn)確測(cè)量了參數(shù)更新的稀疏度。結(jié)果顯示,SFT的稀疏度通常只有0.6%到18.8%,而RL的稀疏度高達(dá)36%到92%,相差了一個(gè)數(shù)量級(jí)。

但更重要的發(fā)現(xiàn)是,這種稀疏性只是表面現(xiàn)象,背后隱藏著一個(gè)更深層的機(jī)制:模型條件優(yōu)化偏差(model-conditioned optimization bias)。

為了解釋這種獨(dú)特的訓(xùn)練行為,研究團(tuán)隊(duì)提出了三門理論,解釋了RL更新是如何被約束、引導(dǎo)和過濾的。

第一門:KL錨定(KL Anchor)。

RLVR的核心是 “試錯(cuò)學(xué)習(xí)”,但他次更新不會(huì)讓模型的輸出風(fēng)格太偏離(比如原來模型說話簡(jiǎn)潔,不能越學(xué)習(xí)越啰嗦)。

這個(gè)機(jī)制背后原理是,在線策略梯度更新會(huì)在每一步施加策略KL界限。

即使在沒有顯式KL正則項(xiàng)的DAPO算法中,比例裁剪技巧仍然會(huì)施加O(ε2)的KL界限。這種錨定效應(yīng)確保了每步相對(duì)于當(dāng)前策略的漂移很小,進(jìn)而限制了參數(shù)的移動(dòng)范圍。

第二門:模型幾何(Model Geometry)。

預(yù)訓(xùn)練模型擁有高度結(jié)構(gòu)化的幾何特性,比如模型里負(fù)責(zé)核心邏輯的參數(shù),對(duì)應(yīng)高曲率區(qū)域,改動(dòng)起來影響大,但容易不穩(wěn)定。

在KL約束下,RL更新傾向于保持模型的原始權(quán)重結(jié)構(gòu),自然偏向于優(yōu)化景觀中的低曲率方向。

反觀SFT,因?yàn)樾薷母咔蕝^(qū)域容易接近標(biāo)準(zhǔn)答案,但改多了會(huì)把模型原有的能力框架 打亂,反而不利于復(fù)雜推理。

第三門:精度過濾(Precision)。

bfloat16的有限精度充當(dāng)了一個(gè)透鏡,隱藏了在RL不愿施加大改變區(qū)域的微小更新。

由于bfloat16只有7位尾數(shù),小于單位最低位(ULP)閾值的變化無(wú)法表示。如果RL持續(xù)更新路由到特定參數(shù)子集,存儲(chǔ)的值就不會(huì)改變,結(jié)果就表現(xiàn)為稀疏性。

如果換成更高精度(比如 float32),會(huì)發(fā)現(xiàn)更多參數(shù)改動(dòng)。

論文做了很多實(shí)驗(yàn)驗(yàn)證上面的邏輯,確認(rèn)了RLVR和SFT在參數(shù)空間中的優(yōu)化區(qū)域完全不同。

通過分析奇異值分解(SVD)重構(gòu)后的主成分權(quán)重,團(tuán)隊(duì)發(fā)現(xiàn)RL更新與主成分權(quán)重的重疊度始終低于隨機(jī)水平,表明RL有強(qiáng)烈的傾向避開這些權(quán)重。相反,RL更新與低幅度權(quán)重顯示出超隨機(jī)的重疊,這是因?yàn)樗鼈儗?duì)微小更新的阻力較低。

以及因果性驗(yàn)證實(shí)驗(yàn),團(tuán)隊(duì)通過正交旋轉(zhuǎn)和頭部置換故意”擾亂”Qwen3-4B-Base模型特定層的幾何結(jié)構(gòu)。結(jié)果顯示,在被干預(yù)的層中,更新重疊度降至隨機(jī)水平,而在未觸及的層中保持較高,這證明預(yù)訓(xùn)練模型的幾何結(jié)構(gòu)是優(yōu)化偏差的來源。

在光譜分析方面,RLVR檢查點(diǎn)在頂部主成分內(nèi)表現(xiàn)出明顯穩(wěn)定的譜:跨層的主子空間旋轉(zhuǎn)一致較小,譜漂移最小。奇異值曲線幾乎與基礎(chǔ)模型相同。相比之下,SFT在相同指標(biāo)上引起了顯著更大的旋轉(zhuǎn)和明顯的漂移。

對(duì)參數(shù)高效微調(diào)方法的啟示

這項(xiàng)研究不僅解釋了觀察到的現(xiàn)象,還為RL訓(xùn)練算法的設(shè)計(jì)提供了指導(dǎo)。

團(tuán)隊(duì)的發(fā)現(xiàn)表明,許多SFT時(shí)代的參數(shù)高效微調(diào)(PEFT)方法,特別是通過稀疏或低秩先驗(yàn)與主方向?qū)R的方法,在RLVR中的遷移效果很差。

在稀疏微調(diào)實(shí)驗(yàn)中,僅更新主成分權(quán)重(SFT偏好的方向)會(huì)產(chǎn)生最差的優(yōu)化軌跡,KL曲線上升緩慢,顯示出過度干預(yù)和退化的訓(xùn)練動(dòng)態(tài)。

相反,更新非主成分、低幅度權(quán)重恰好符合理論預(yù)測(cè)的離主成分區(qū)域,能夠緊密跟蹤密集RLVR軌跡。

對(duì)于最近流行的LoRA變體,研究發(fā)現(xiàn)主成分定向的PiSSA并沒有比標(biāo)準(zhǔn)LoRA帶來額外收益。

在用于匹配全參數(shù)性能的較高學(xué)習(xí)率下,PiSSA經(jīng)常變得不穩(wěn)定并提前崩潰。這是因?yàn)樵赑iSSA中擴(kuò)大學(xué)習(xí)率會(huì)強(qiáng)制沿主方向更新,而這些方向具有更高曲率和譜扭曲特性,正是RLVR傾向于避免的方向。

論文地址:https://arxiv.org/abs/2511.08567

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-11-14 08:37:14

2021-07-12 06:11:14

SkyWalking 儀表板UI篇

2022-01-02 08:43:46

Python

2022-10-26 07:39:36

MVCC數(shù)據(jù)庫(kù)RR

2022-12-19 08:14:30

注解開發(fā)配置

2021-05-20 06:57:16

RabbitMQ開源消息

2022-02-07 11:01:23

ZooKeeper

2023-04-20 08:00:00

ES搜索引擎MySQL

2021-09-15 19:05:16

數(shù)據(jù)開源項(xiàng)目

2022-12-16 09:20:11

ChatGPTAI

2022-06-30 22:53:18

數(shù)據(jù)結(jié)構(gòu)算法

2021-08-01 07:19:16

語(yǔ)言OpenrestyNginx

2021-08-11 07:02:21

npm包管理器工具

2021-08-16 15:18:20

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-09-16 11:32:19

組合總和

2021-07-06 08:59:18

抽象工廠模式

2023-11-28 08:29:31

Rust內(nèi)存布局

2023-01-03 08:31:54

Spring讀取器配置

2020-10-09 08:15:11

JsBridge

2021-06-16 08:28:25

unary 方法函數(shù)技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲 日韩 国产第一| 精品国产乱码久久久久久闺蜜| 欧美日韩国产综合视频在线| 久久精品99北条麻妃| 91视频久久| 精品乱人伦一区二区三区| 免费看一级大黄情大片| 成人午夜影视| 高清不卡在线观看| 国产精品久久久久久久7电影| 最新一区二区三区| 欧美女优在线视频| 日韩欧美国产精品一区| 免费激情视频在线观看| 99福利在线| 久久精品免视看| www.久久草| 中文字幕 自拍偷拍| 亚洲第一区色| 久久久久999| 伊人网在线视频观看| 久久久久久亚洲精品美女| 色综合久久99| 男人日女人视频网站| 日本最新在线视频| 成人国产精品免费观看| 成人国产精品色哟哟| 无码人妻丰满熟妇精品区| 国产精品chinese| 日韩亚洲在线观看| 在哪里可以看毛片| 香蕉久久精品| 精品成人a区在线观看| 手机免费看av网站| 欧美色片在线观看| 日韩欧美在线视频| 日本a视频在线观看| 视频在线观看入口黄最新永久免费国产| 国产亚洲精品免费| 欧美高清性xxxxhd| 无码精品在线观看| 北岛玲一区二区三区四区| 91在线视频导航| 91超薄丝袜肉丝一区二区| 日日夜夜精品免费视频| 日韩免费在线视频| 久久精品视频7| 99精品视频免费| 亚州欧美日韩中文视频| 日韩 欧美 精品| 伊人精品视频| 久久久久久久久久久久av| 国产精品久久久久久久精| 久久精品久久久| 久久久精品影院| 麻豆视频在线免费看| 久久久五月天| 久久艹在线视频| 99视频只有精品| 欧美成人69| 欧美成人午夜视频| 精品少妇一二三区| 亚洲国产第一| 奇米影视亚洲狠狠色| 精品国产乱子伦| 蜜桃视频一区二区三区在线观看| 国产精品一区久久久| 中国一级片黄色一级片黄| 久久精品国产精品亚洲精品| 成人有码在线播放| www三级免费| 成人av午夜电影| 久久一区二区三区av| 可以在线观看的黄色| 国产精品美女久久久久aⅴ国产馆| 亚洲国产精品一区二区第四页av| 秋霞午夜理伦电影在线观看| 亚洲精品videosex极品| 日韩中字在线观看| 99久久er| 欧美tk—视频vk| 一区二区视频观看| 色呦哟—国产精品| 欧美国产日韩精品| 福利网址在线观看| 国产一区二区h| 久久综合久久久| 在线看黄色av| 亚洲国产日韩a在线播放| 国产 福利 在线| 欧美久久久网站| 精品国产sm最大网站免费看| 精品无码国产污污污免费网站 | 国产视频精品网| 国产1区2区3区在线| 一区二区在线观看免费| 日韩在线一级片| 外国成人毛片| 精品在线观看国产| 手机在线免费看片| 久久精品官网| 999国产视频| www.亚洲资源| 午夜精品福利久久久| 无限资源日本好片| 精品福利网址导航| 久久精品国产2020观看福利| 青青草成人av| 国产精品2024| 视频一区二区综合| 国产在线美女| 日韩免费性生活视频播放| 精品无码人妻一区二区免费蜜桃| 国产精品www.| 成人久久精品视频| 男人天堂综合| 亚洲成av人影院在线观看网| 欧美又黄又嫩大片a级| 小说区图片区色综合区| 欧美国产乱视频| 国产精品呻吟久久| 欧美韩日一区二区三区| 国产精品50p| 91精品啪在线观看国产爱臀| 日日骚久久av| 国模私拍一区二区| 久久综合视频网| 人妻av无码专区| 欧美a级大片在线| www.欧美精品| 97caocao| 中文字幕一区二区三区视频 | 精品一区二区在线看| 欧美日韩国产高清视频| 成人国产电影在线观看| 亚洲成av人片在线观看香蕉| 福利所第一导航| 国产一区二区三区免费观看| 综合国产精品久久久| 本网站久久精品| 在线播放国产精品| 国产偷人爽久久久久久老妇app| 久久这里只精品最新地址| 久在线观看视频| 欧美人与动xxxxz0oz| 欧美极品少妇xxxxⅹ免费视频| 国内精品久久久久久久久久久| 亚洲视频图片小说| 色网站在线视频| 综合激情一区| 99国产视频| 草莓视频丝瓜在线观看丝瓜18| 精品成a人在线观看| 日本在线观看视频网站| 成人激情视频网站| 免费看一级大黄情大片| 亚洲精品456| 国产精品激情自拍| 91精品大全| 欧美日本视频在线| 四虎地址8848| 国产成人综合自拍| 欧美一级视频在线播放| 色婷婷狠狠五月综合天色拍 | 一区二区欧美久久| 91麻豆国产视频| 亚洲综合精品自拍| 中文字幕在线观看的网站| 日韩在线一区二区三区| 色播亚洲视频在线观看| 国产一区二区三区黄网站| 久久免费视频在线| 国内在线精品| 欧美理论片在线| 久草国产在线视频| 久久久蜜臀国产一区二区| 日本 片 成人 在线| 欧美在线不卡| 看高清中日韩色视频| jizzjizz少妇亚洲水多| 欧美精品生活片| 色网站在线免费观看| 欧美色男人天堂| 唐朝av高清盛宴| 91麻豆免费视频| 日韩av片专区| 国产情侣久久| 大桥未久一区二区| 日本妇女一区| 成人夜晚看av| 国产精品粉嫩| 欧美大片va欧美在线播放| 污视频网站免费观看| 在线成人小视频| 99热在线观看免费精品| 国产精品对白交换视频| 人妻激情偷乱频一区二区三区| 日韩和欧美一区二区三区| 国产精品igao激情视频| 国产99久久精品一区二区300| 91麻豆桃色免费看| 我爱我色成人网| 久久99亚洲热视| 97视频在线观看网站| 亚洲国产精品成人va在线观看| 国产偷人爽久久久久久老妇app | 国产精品日韩三级| 精品国产a一区二区三区v免费| 99re国产在线播放| 99热播精品免费| 欧美资源在线观看| 黑人极品ⅴideos精品欧美棵| 色先锋资源久久综合5566| 网站黄在线观看| 日韩精品一区二区在线观看| 中文字幕+乱码+中文乱码www| 精品露脸国产偷人在视频| 久久成人国产精品入口| **欧美大码日韩| 欧美午夜激情影院| 97精品国产露脸对白| a级大片免费看| 奇米888四色在线精品| 国产日产欧美视频| 亚洲二区精品| 17c丨国产丨精品视频| 91精品国产视频| 亚洲欧洲久久| 成人av二区| 热舞福利精品大尺度视频| 日韩av系列| 国产欧美亚洲日本| 亚洲一区二区免费在线观看| 91色精品视频在线| 自拍偷拍亚洲图片| 成人av色在线观看| 日本a人精品| 国产欧美一区二区三区四区| 国产综合色在线观看| 国产精品h片在线播放| 中文字幕人成乱码在线观看| 98精品国产高清在线xxxx天堂| 岛国毛片av在线| 久久久久亚洲精品| 91白丝在线| 97精品国产97久久久久久春色| 久久久123| 国内精品视频在线| 日韩在线伦理| 国产成人一区二区在线| 亚洲成a人片| 国产精品视频播放| 国产精品久一| 国产精品有限公司| 久久国产精品免费精品3p| 精品一区日韩成人| 亚洲自拍电影| 亚洲 日韩 国产第一区| 欧美国产美女| 久久亚洲a v| 日韩一级欧洲| 国产精品69页| 激情六月婷婷综合| 美女又黄又免费的视频| www.欧美.com| 色婷婷在线影院| 中文乱码免费一区二区| 欧美xxxooo| 亚洲国产美女搞黄色| 五月婷婷视频在线| 欧美色综合网站| 国产视频一区二区三| 亚洲精品理论电影| 成人午夜电影在线观看| 美女视频久久黄| 国产白浆在线免费观看| 国产精品无码专区在线观看| 国产电影一区二区| 国产亚洲一区在线播放| 成久久久网站| 久久综合久久网| 天堂午夜影视日韩欧美一区二区| 污视频网站观看| 成人久久久精品乱码一区二区三区| 亚洲国产精品成人综合久久久| 日本一区二区三区四区在线视频 | 亚洲综合久久久| aaa在线视频| 日韩三级高清在线| 精品资源在线看| 欧美成人激情视频免费观看| 超碰成人av| 国产日韩欧美在线视频观看| 国产精品极品国产中出| 亚洲国产婷婷香蕉久久久久久99| 欧美精品色网| 欧美日韩国产综合一区二区| 国产午夜性春猛交ⅹxxx| 欧美日韩精品一区二区三区蜜桃| 亚洲精品综合网| 少妇av一区二区三区| 成年女人在线看片| 亚洲一区二区三区香蕉| 国产91久久精品一区二区| www.日本三级| 久久国产免费看| 亚洲国产无码精品| 亚洲一区中文在线| 一区二区三区黄| 亚洲欧美日韩网| a'aaa级片在线观看| 成人高清视频观看www| 精品国产一区二区三区久久久蜜臀| 成人免费在线视频播放| 久久99精品国产麻豆不卡| 蜜桃传媒一区二区亚洲av| 亚洲国产毛片aaaaa无费看| 国产精品国产精品国产专区| 亚洲图片欧美午夜| 麻豆mv在线看| 国产欧美欧洲| 综合五月婷婷| 色噜噜狠狠一区二区三区狼国成人| 久久精品一区二区三区不卡牛牛| 日韩激情在线播放| 精品国产伦一区二区三区观看体验| 米奇精品一区二区三区| 国产精品视频免费观看www| 亚洲福利天堂| 97成人在线观看视频| 99国产精品国产精品毛片| 麻豆亚洲av成人无码久久精品| 在线成人高清不卡| 欧美a在线看| 成人av资源在线播放| 水蜜桃久久夜色精品一区| 手机看片福利日韩| 欧美国产日韩在线观看| 中文字幕精品无| 亚洲少妇中文在线| 免费亚洲电影| 欧美日韩高清免费| 日韩精品亚洲专区| 国产精品成人无码免费| 欧美影院一区二区三区| 国产精品二线| 国产精品丝袜白浆摸在线 | 欧美舌奴丨vk视频| 欧美一级爱爱| 免费观看成人av| 1024在线看片| 欧美日韩视频在线一区二区| a视频网址在线观看| 国产精品老女人视频| 欧美hentaied在线观看| 五月天开心婷婷| 一区二区三区丝袜| 神马午夜一区二区| 日韩av免费在线看| 欧美一二区在线观看| 青青草久久伊人| 尤物视频一区二区| 十八禁一区二区三区| 日韩美女福利视频| 99久久99久久精品国产片果冰| 在线观看日本www| 亚洲图片欧美一区| 欧美孕妇性xxxⅹ精品hd| 国产精品永久免费视频| 中文字幕一区二区三区久久网站| 免费黄色a级片| 日韩欧美在线播放| 免费a在线看| 国产欧美日韩综合精品二区| 奶水喷射视频一区| 最新一区二区三区| 亚洲精品久久久久久久久久久久| 欧美成人免费电影| 91手机视频在线| 97se亚洲国产综合自在线不卡| 日韩不卡高清视频| 久久视频在线视频| 偷窥自拍亚洲色图精选| 亚洲色图 在线视频| 亚洲综合视频网| 都市激情一区| 999精品在线观看| 日韩成人精品在线| 久草成人在线视频| 中文字幕亚洲国产| 97久久综合精品久久久综合| 国产真人无码作爱视频免费| 亚洲欧美国产三级| 黄色在线免费观看大全| 成人欧美一区二区三区在线观看| 欧美亚洲一级| 18精品爽视频在线观看| 日韩在线欧美在线| 欧洲亚洲视频| 丰满饥渴老女人hd|