這些大神在Meta的論文看一篇少一篇了

2025-11-18 08:46:00

這次他帶領(lǐng)團(tuán)隊(duì)把目光投向了大模型強(qiáng)化學(xué)習(xí)訓(xùn)練中一個(gè)令人困惑的現(xiàn)象：為什么RL訓(xùn)練明明帶來巨大性能提升，卻只改變了極少數(shù)參數(shù)。

離開Meta的大佬們，留下作品還在陸續(xù)發(fā)表，今天輪到田淵棟。

論文剖析了可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RLVR）的訓(xùn)練動(dòng)態(tài)，戳破了一個(gè)誤區(qū)，參數(shù)更新的稀疏只是表面現(xiàn)象，背后是RLVR有個(gè)固定的優(yōu)化偏好。

對(duì)于同一個(gè)預(yù)訓(xùn)練模型來說，無(wú)論用什么數(shù)據(jù)集和RL算法，RLVR只盯著同一小部分參數(shù)修改。

團(tuán)隊(duì)還提出了一個(gè)全新的三門理論（Three-Gate Theory），一步步說明RLVR的參數(shù)更新是怎么定位至特定參數(shù)區(qū)域的。

三門理論：RL參數(shù)更新的內(nèi)在機(jī)制

像OpenAI-o3和DeepSeek-R1這樣的推理模型，都是通過大規(guī)模RLVR訓(xùn)練獲得數(shù)學(xué)和編程能力的大幅增強(qiáng)。

按理說，如此巨大的能力提升應(yīng)該伴隨著大量參數(shù)的改變，但最近的研究卻發(fā)現(xiàn)，RL訓(xùn)練產(chǎn)生的參數(shù)更新是稀疏的，而監(jiān)督微調(diào)（SFT）的參數(shù)更新是密集的。

這種高收益、低變化的悖論引發(fā)了Meta團(tuán)隊(duì)的關(guān)注。

他們分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在內(nèi)的多個(gè)開源模型，這些模型經(jīng)過超過3000步的長(zhǎng)時(shí)間RL訓(xùn)練，涵蓋數(shù)學(xué)、編程、STEM、邏輯謎題和指令遵循等多樣化任務(wù)。

通過設(shè)計(jì)一種bfloat16精度感知的探測(cè)方法，研究團(tuán)隊(duì)準(zhǔn)確測(cè)量了參數(shù)更新的稀疏度。結(jié)果顯示，SFT的稀疏度通常只有0.6%到18.8%，而RL的稀疏度高達(dá)36%到92%，相差了一個(gè)數(shù)量級(jí)。

但更重要的發(fā)現(xiàn)是，這種稀疏性只是表面現(xiàn)象，背后隱藏著一個(gè)更深層的機(jī)制：模型條件優(yōu)化偏差（model-conditioned optimization bias）。

為了解釋這種獨(dú)特的訓(xùn)練行為，研究團(tuán)隊(duì)提出了三門理論，解釋了RL更新是如何被約束、引導(dǎo)和過濾的。

第一門：KL錨定（KL Anchor）。

RLVR的核心是 “試錯(cuò)學(xué)習(xí)”，但他次更新不會(huì)讓模型的輸出風(fēng)格太偏離（比如原來模型說話簡(jiǎn)潔，不能越學(xué)習(xí)越啰嗦）。

這個(gè)機(jī)制背后原理是，在線策略梯度更新會(huì)在每一步施加策略KL界限。

即使在沒有顯式KL正則項(xiàng)的DAPO算法中，比例裁剪技巧仍然會(huì)施加O(ε2)的KL界限。這種錨定效應(yīng)確保了每步相對(duì)于當(dāng)前策略的漂移很小，進(jìn)而限制了參數(shù)的移動(dòng)范圍。

第二門：模型幾何（Model Geometry）。

預(yù)訓(xùn)練模型擁有高度結(jié)構(gòu)化的幾何特性，比如模型里負(fù)責(zé)核心邏輯的參數(shù)，對(duì)應(yīng)高曲率區(qū)域，改動(dòng)起來影響大，但容易不穩(wěn)定。

在KL約束下，RL更新傾向于保持模型的原始權(quán)重結(jié)構(gòu)，自然偏向于優(yōu)化景觀中的低曲率方向。

反觀SFT，因?yàn)樾薷母咔蕝^(qū)域容易接近標(biāo)準(zhǔn)答案，但改多了會(huì)把模型原有的能力框架打亂，反而不利于復(fù)雜推理。

第三門：精度過濾（Precision）。

bfloat16的有限精度充當(dāng)了一個(gè)透鏡，隱藏了在RL不愿施加大改變區(qū)域的微小更新。

由于bfloat16只有7位尾數(shù)，小于單位最低位（ULP）閾值的變化無(wú)法表示。如果RL持續(xù)更新路由到特定參數(shù)子集，存儲(chǔ)的值就不會(huì)改變，結(jié)果就表現(xiàn)為稀疏性。

如果換成更高精度（比如 float32），會(huì)發(fā)現(xiàn)更多參數(shù)改動(dòng)。

論文做了很多實(shí)驗(yàn)驗(yàn)證上面的邏輯，確認(rèn)了RLVR和SFT在參數(shù)空間中的優(yōu)化區(qū)域完全不同。

通過分析奇異值分解（SVD）重構(gòu)后的主成分權(quán)重，團(tuán)隊(duì)發(fā)現(xiàn)RL更新與主成分權(quán)重的重疊度始終低于隨機(jī)水平，表明RL有強(qiáng)烈的傾向避開這些權(quán)重。相反，RL更新與低幅度權(quán)重顯示出超隨機(jī)的重疊，這是因?yàn)樗鼈儗?duì)微小更新的阻力較低。

以及因果性驗(yàn)證實(shí)驗(yàn)，團(tuán)隊(duì)通過正交旋轉(zhuǎn)和頭部置換故意”擾亂”Qwen3-4B-Base模型特定層的幾何結(jié)構(gòu)。結(jié)果顯示，在被干預(yù)的層中，更新重疊度降至隨機(jī)水平，而在未觸及的層中保持較高，這證明預(yù)訓(xùn)練模型的幾何結(jié)構(gòu)是優(yōu)化偏差的來源。

在光譜分析方面，RLVR檢查點(diǎn)在頂部主成分內(nèi)表現(xiàn)出明顯穩(wěn)定的譜：跨層的主子空間旋轉(zhuǎn)一致較小，譜漂移最小。奇異值曲線幾乎與基礎(chǔ)模型相同。相比之下，SFT在相同指標(biāo)上引起了顯著更大的旋轉(zhuǎn)和明顯的漂移。

對(duì)參數(shù)高效微調(diào)方法的啟示

這項(xiàng)研究不僅解釋了觀察到的現(xiàn)象，還為RL訓(xùn)練算法的設(shè)計(jì)提供了指導(dǎo)。

團(tuán)隊(duì)的發(fā)現(xiàn)表明，許多SFT時(shí)代的參數(shù)高效微調(diào)（PEFT）方法，特別是通過稀疏或低秩先驗(yàn)與主方向?qū)R的方法，在RLVR中的遷移效果很差。

在稀疏微調(diào)實(shí)驗(yàn)中，僅更新主成分權(quán)重（SFT偏好的方向）會(huì)產(chǎn)生最差的優(yōu)化軌跡，KL曲線上升緩慢，顯示出過度干預(yù)和退化的訓(xùn)練動(dòng)態(tài)。

相反，更新非主成分、低幅度權(quán)重恰好符合理論預(yù)測(cè)的離主成分區(qū)域，能夠緊密跟蹤密集RLVR軌跡。

對(duì)于最近流行的LoRA變體，研究發(fā)現(xiàn)主成分定向的PiSSA并沒有比標(biāo)準(zhǔn)LoRA帶來額外收益。

在用于匹配全參數(shù)性能的較高學(xué)習(xí)率下，PiSSA經(jīng)常變得不穩(wěn)定并提前崩潰。這是因?yàn)樵赑iSSA中擴(kuò)大學(xué)習(xí)率會(huì)強(qiáng)制沿主方向更新，而這些方向具有更高曲率和譜扭曲特性，正是RLVR傾向于避免的方向。

論文地址：https://arxiv.org/abs/2511.08567

責(zé)任編輯：張燕妮來源：量子位

大模型強(qiáng)化學(xué)習(xí)Meta