這些大神在Meta的論文看一篇少一篇了
離開Meta的大佬們,留下作品還在陸續(xù)發(fā)表,今天輪到田淵棟。
這次他帶領(lǐng)團(tuán)隊(duì)把目光投向了大模型強(qiáng)化學(xué)習(xí)訓(xùn)練中一個(gè)令人困惑的現(xiàn)象:為什么RL訓(xùn)練明明帶來巨大性能提升,卻只改變了極少數(shù)參數(shù)。

論文剖析了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)的訓(xùn)練動(dòng)態(tài),戳破了一個(gè)誤區(qū),參數(shù)更新的稀疏只是表面現(xiàn)象,背后是RLVR有個(gè)固定的優(yōu)化偏好。
對(duì)于同一個(gè)預(yù)訓(xùn)練模型來說,無(wú)論用什么數(shù)據(jù)集和RL算法,RLVR只盯著同一小部分參數(shù)修改。
團(tuán)隊(duì)還提出了一個(gè)全新的三門理論(Three-Gate Theory),一步步說明RLVR的參數(shù)更新是怎么定位至特定參數(shù)區(qū)域的。

三門理論:RL參數(shù)更新的內(nèi)在機(jī)制
像OpenAI-o3和DeepSeek-R1這樣的推理模型,都是通過大規(guī)模RLVR訓(xùn)練獲得數(shù)學(xué)和編程能力的大幅增強(qiáng)。
按理說,如此巨大的能力提升應(yīng)該伴隨著大量參數(shù)的改變,但最近的研究卻發(fā)現(xiàn),RL訓(xùn)練產(chǎn)生的參數(shù)更新是稀疏的,而監(jiān)督微調(diào)(SFT)的參數(shù)更新是密集的。
這種高收益、低變化的悖論引發(fā)了Meta團(tuán)隊(duì)的關(guān)注。
他們分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在內(nèi)的多個(gè)開源模型,這些模型經(jīng)過超過3000步的長(zhǎng)時(shí)間RL訓(xùn)練,涵蓋數(shù)學(xué)、編程、STEM、邏輯謎題和指令遵循等多樣化任務(wù)。
通過設(shè)計(jì)一種bfloat16精度感知的探測(cè)方法,研究團(tuán)隊(duì)準(zhǔn)確測(cè)量了參數(shù)更新的稀疏度。結(jié)果顯示,SFT的稀疏度通常只有0.6%到18.8%,而RL的稀疏度高達(dá)36%到92%,相差了一個(gè)數(shù)量級(jí)。

但更重要的發(fā)現(xiàn)是,這種稀疏性只是表面現(xiàn)象,背后隱藏著一個(gè)更深層的機(jī)制:模型條件優(yōu)化偏差(model-conditioned optimization bias)。
為了解釋這種獨(dú)特的訓(xùn)練行為,研究團(tuán)隊(duì)提出了三門理論,解釋了RL更新是如何被約束、引導(dǎo)和過濾的。
第一門:KL錨定(KL Anchor)。
RLVR的核心是 “試錯(cuò)學(xué)習(xí)”,但他次更新不會(huì)讓模型的輸出風(fēng)格太偏離(比如原來模型說話簡(jiǎn)潔,不能越學(xué)習(xí)越啰嗦)。
這個(gè)機(jī)制背后原理是,在線策略梯度更新會(huì)在每一步施加策略KL界限。
即使在沒有顯式KL正則項(xiàng)的DAPO算法中,比例裁剪技巧仍然會(huì)施加O(ε2)的KL界限。這種錨定效應(yīng)確保了每步相對(duì)于當(dāng)前策略的漂移很小,進(jìn)而限制了參數(shù)的移動(dòng)范圍。

第二門:模型幾何(Model Geometry)。
預(yù)訓(xùn)練模型擁有高度結(jié)構(gòu)化的幾何特性,比如模型里負(fù)責(zé)核心邏輯的參數(shù),對(duì)應(yīng)高曲率區(qū)域,改動(dòng)起來影響大,但容易不穩(wěn)定。
在KL約束下,RL更新傾向于保持模型的原始權(quán)重結(jié)構(gòu),自然偏向于優(yōu)化景觀中的低曲率方向。
反觀SFT,因?yàn)樾薷母咔蕝^(qū)域容易接近標(biāo)準(zhǔn)答案,但改多了會(huì)把模型原有的能力框架 打亂,反而不利于復(fù)雜推理。

第三門:精度過濾(Precision)。
bfloat16的有限精度充當(dāng)了一個(gè)透鏡,隱藏了在RL不愿施加大改變區(qū)域的微小更新。
由于bfloat16只有7位尾數(shù),小于單位最低位(ULP)閾值的變化無(wú)法表示。如果RL持續(xù)更新路由到特定參數(shù)子集,存儲(chǔ)的值就不會(huì)改變,結(jié)果就表現(xiàn)為稀疏性。
如果換成更高精度(比如 float32),會(huì)發(fā)現(xiàn)更多參數(shù)改動(dòng)。
論文做了很多實(shí)驗(yàn)驗(yàn)證上面的邏輯,確認(rèn)了RLVR和SFT在參數(shù)空間中的優(yōu)化區(qū)域完全不同。
通過分析奇異值分解(SVD)重構(gòu)后的主成分權(quán)重,團(tuán)隊(duì)發(fā)現(xiàn)RL更新與主成分權(quán)重的重疊度始終低于隨機(jī)水平,表明RL有強(qiáng)烈的傾向避開這些權(quán)重。相反,RL更新與低幅度權(quán)重顯示出超隨機(jī)的重疊,這是因?yàn)樗鼈儗?duì)微小更新的阻力較低。

以及因果性驗(yàn)證實(shí)驗(yàn),團(tuán)隊(duì)通過正交旋轉(zhuǎn)和頭部置換故意”擾亂”Qwen3-4B-Base模型特定層的幾何結(jié)構(gòu)。結(jié)果顯示,在被干預(yù)的層中,更新重疊度降至隨機(jī)水平,而在未觸及的層中保持較高,這證明預(yù)訓(xùn)練模型的幾何結(jié)構(gòu)是優(yōu)化偏差的來源。

在光譜分析方面,RLVR檢查點(diǎn)在頂部主成分內(nèi)表現(xiàn)出明顯穩(wěn)定的譜:跨層的主子空間旋轉(zhuǎn)一致較小,譜漂移最小。奇異值曲線幾乎與基礎(chǔ)模型相同。相比之下,SFT在相同指標(biāo)上引起了顯著更大的旋轉(zhuǎn)和明顯的漂移。

對(duì)參數(shù)高效微調(diào)方法的啟示
這項(xiàng)研究不僅解釋了觀察到的現(xiàn)象,還為RL訓(xùn)練算法的設(shè)計(jì)提供了指導(dǎo)。
團(tuán)隊(duì)的發(fā)現(xiàn)表明,許多SFT時(shí)代的參數(shù)高效微調(diào)(PEFT)方法,特別是通過稀疏或低秩先驗(yàn)與主方向?qū)R的方法,在RLVR中的遷移效果很差。
在稀疏微調(diào)實(shí)驗(yàn)中,僅更新主成分權(quán)重(SFT偏好的方向)會(huì)產(chǎn)生最差的優(yōu)化軌跡,KL曲線上升緩慢,顯示出過度干預(yù)和退化的訓(xùn)練動(dòng)態(tài)。
相反,更新非主成分、低幅度權(quán)重恰好符合理論預(yù)測(cè)的離主成分區(qū)域,能夠緊密跟蹤密集RLVR軌跡。
對(duì)于最近流行的LoRA變體,研究發(fā)現(xiàn)主成分定向的PiSSA并沒有比標(biāo)準(zhǔn)LoRA帶來額外收益。
在用于匹配全參數(shù)性能的較高學(xué)習(xí)率下,PiSSA經(jīng)常變得不穩(wěn)定并提前崩潰。這是因?yàn)樵赑iSSA中擴(kuò)大學(xué)習(xí)率會(huì)強(qiáng)制沿主方向更新,而這些方向具有更高曲率和譜扭曲特性,正是RLVR傾向于避免的方向。

論文地址:https://arxiv.org/abs/2511.08567



























