精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SFT遠不如RL?永不過時的剃刀原則打開「終身學習」大模型訓練的大門

人工智能 新聞
來自麻省理工學院(MIT)Improbable AI Lab 的研究者針對該問題發表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓練,揭示了大模型遺忘現象的基本規律和訓練策略,目前已在 Alphaxiv 上熱度排名第一。

我們已經進入了大模型時代,越來越多的應用依賴大模型的能力,可以說大模型已經成為智能化基礎設施的核心組成部分,支撐著語言,視覺分析,智能駕駛,機器人等各種下游應用。

在大模型的實際使用中我們發現,大部分的模型還只是某個細分領域任務的大牛,離我們理想中的 AGI 仍然遙遙無期。

準確的說,這些投入部署的大模型大多是「靜態」模型,對于其預訓練或微調時優化的系列任務表現良好,但是在動態學習,自我提升這部分能力是缺位的。

如果我們希望實現更加通用的大模型,使其能像長期的智能助手一樣,隨時間不斷適應新的任務與需求,很多技術瓶頸亟待突破。而最大的挑戰之一就是「災難性遺忘」。

相信大家對這個概念已經非常熟悉了,災難性遺忘指的是模型在學習新任務時,會丟掉之前學到的技能。擴大模型規模、增加預訓練數據確實能稍微緩解遺忘現象,但始終不能徹底解決。

針對災難性遺忘的問題,研究者們提出了各種各樣的改進方法,包括正則化、經驗回放、參數微調等等。

但有沒有一種可能,我們對大模型遺忘的研究想的有些太復雜了,如無必要勿增實體的剃刀原則才是根治問題的最佳手段。

幾天前,來自麻省理工學院(MIT)Improbable AI Lab 的研究者針對該問題發表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓練,揭示了大模型遺忘現象的基本規律和訓練策略,目前已在 Alphaxiv 上熱度排名第一。

  • 論文標題:RL's Razor: Why Online Reinforcement Learning Forgets Less
  • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

現代 AI 系統面臨一個根本性挑戰:在學習新任務時,它們常常災難性地遺忘先前獲得的知識。這種現象嚴重限制了基礎模型作為長期、持續學習代理的能力。

這項研究集中在一個驚人的實證觀察上:

研究者比較了兩種常見的后訓練方式:監督微調(SFT) 和 強化學習(RL)。結果很出乎意料:

  • 即便 SFT 和 RL 在新任務上表現一樣好,SFT 往往是通過 「犧牲舊知識」 來換取新任務的提升;
  • RL 卻能在學習新技能的同時,更多地保留原有能力。

那么問題來了:為什么 RL 不容易遺忘?

遺忘定律

研究揭示了一個新的規律,稱為 「遺忘定律」:

當模型 π 在新任務 τ 上進行微調時,遺忘程度可以通過 精確預測,即在新任務上評估的微調策略和基線策略之間的KL散度。

這條定律在實踐中非常有用,因為它可以在微調過程中進行測量甚至影響,而無需訪問舊任務數據。盡管其機制仍有待充分理解,但這條定律在不同模型和領域之間的一致性表明它反映了遺忘的一個基本屬性。

也就是說,微調后模型與原始模型在新任務分布上的差異越大,遺忘就越嚴重。

偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗任務的知識。

研究者進行了廣泛的實驗,以確定什么因素預示著災難性遺忘。他們測試了各種假設,包括權重級變化、表示偏移和分布差異。通過對多個領域和模型架構進行系統性消融研究,他們發現微調策略和基礎策略之間的前向 KL 散度是遺忘的一個驚人一致的預測指標。

前向 KL 散度定義為:

其中代表微調策略,代表原始模型。

這種關系適用于不同的訓練算法和超參數,形成了作者所稱的「經驗性遺忘定律」。在使用簡化 ParityMNIST 任務的對照實驗中,這種關系實現了 0.96 的 R2,證明了其預測能力。

該圖顯示,在帕累托前沿上,RL 始終優于 SFT,在語言模型(數學、科學問答、工具使用)和機器人任務中,RL 在新任務性能和先驗知識保留之間實現了更好的權衡。

RL 的剃刀:KL 最小路徑原理

更有意思的是,RL 的優勢正來自于它的 「KL 偏好」。

  • 在新任務上,存在許多能達到高表現的解。
  • RL 天然偏向選擇那些 離原始模型更近(KL 更小) 的解;
  • 而 SFT 則可能收斂到距離原始模型很遠的解,從而帶來嚴重遺忘。

核心理論貢獻是「RL 的剃刀」—— 即在解決新任務的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

為了驗證 KL 假設,研究者構造了一個理想的 「oracle SFT」 分布:它在保證新任務完美準確的同時,也做到 KL 最小化。結果顯示,在這個分布上訓練,遺忘比 RL 還少。這說明 RL 的優勢并不是來自某種「本質上的不同」,而是源于它 隱式地執行了 KL 最小化。只要訓練過程偏向 KL 最小解,模型遺忘就會隨之減少。

左圖通過使用一個「Oracle SFT」分布來證明這一原理,該分布在實現完美新任務準確性的同時,解析地最小化了 KL 散度。使用這種 Oracle 分布進行訓練產生的遺忘比標準 RL 更少,證實了 KL 最小化是關鍵機制。中圖展示了 KL 散度與遺忘之間的強關聯(R2 = 0.961),而右圖則說明了與 SFT 相比,RL 如何通過較小的 KL 偏移實現高準確性。

機制分析:在線策略學習與離線策略學習

為了理解 RL 何種機制驅動了其 KL 保守行為,研究人員比較了四種不同的訓練范式:

分析揭示,數據收集的在線策略性質是關鍵因素,而不是負面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗任務保留,而離線方法(SFT 和 SimPO)無論是否使用負面示例,其行為都相似。

理論基礎

作者通過信息幾何的視角,為強化學習的 KL - 最小收斂提供了理論基礎。他們表明,帶有二元獎勵的策略梯度方法可以被理解為在概率空間中執行交替的信息(I-)投影和期望(M-)投影:

這種迭代過程收斂到可表示策略類中的 KL - 最小最優策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎勵約束的同時最小化 KL 散度,而 M - 投影步驟則朝著更高獎勵的動作更新。

更多數據

這項研究表明,這一原理超越了簡單的實驗環境。使用中心核對齊(Centered Kernel Alignment)進行的表示保留分析表明,與 SFT 相比,RL 保持與基礎模型更高的相似性:

此外,對更大模型(70 億和 140 億參數)的實驗證實,僅僅擴大規模并不能消除 SFT 中固有的遺忘權衡:

總結

本篇論文的核心貢獻有三點:

1.  實驗證明:在相同性能下,RL 比 SFT 更不容易遺忘。

2. 提出遺忘定律:新任務上的 KL 散度 是預測遺忘的關鍵指標。

3. 理論與實證結合,解釋了 RL 的優勢來自其 on-policy 特性。

這項研究為后訓練提供了新的視角:為了實現無遺忘的持續適應,算法應該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續學習系統的基本設計原則。

這一原則為設計未來的訓練方法打開了大門,這些方法將 RL 保留先驗知識的能力與 SFT 的效率相結合,使基礎模型能夠真正地「終身學習」。

對于使用基礎模型的實踐者來說,這項研究提供了明確的指導:當持續適應很重要時,在線策略 RL 方法比標準微調方法具有顯著優勢。KL 散度指標還為模型適應期間的遺忘監測和預測提供了一個實用工具。

這項工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實踐是有效的,將經驗觀察提升到理論基礎。這種原則性理解為開發真正長壽、能夠持續學習而不會災難性遺忘的 AI 代理開辟了新方向。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-09 11:06:38

C語言桌面語法

2025-10-10 02:15:00

2020-02-17 11:35:34

工程師技術程序員

2025-06-06 04:10:00

LLM人工標注RL

2021-09-08 09:27:52

軟件工程師技能算法

2025-07-28 09:12:00

2023-02-19 15:33:51

WindowsC++窗口程序

2020-12-11 17:42:13

混合多云

2025-08-04 08:49:00

2025-09-22 10:44:20

2021-12-29 21:46:20

iOS蘋果系統

2025-09-16 10:09:00

2025-06-05 08:40:00

2025-01-21 09:36:51

2012-12-10 13:53:55

ITCIOGartner

2019-11-19 08:55:37

DOS命令網絡協議網絡攻擊

2025-04-25 00:20:00

大模型tokenizer

2024-11-04 00:24:56

2024-11-26 09:33:44

點贊
收藏

51CTO技術棧公眾號

成人豆花视频| 26uuu亚洲电影在线观看| 久久精品人人| 播播国产欧美激情| 四虎成人免费视频| 韩国女主播一区二区| 国产精品毛片高清在线完整版| 91亚洲精品久久久| 亚洲精品午夜国产va久久成人| 欧美日韩激情在线一区二区三区| 制服丝袜亚洲网站| 日本网站免费在线观看| 日韩精品毛片| 99国产精品一区| 成人国产精品一区二区| 日韩精品手机在线| 亚洲欧美一区在线| 国产亚洲美女久久| 性色av蜜臀av浪潮av老女人| 国产一区精品福利| 精品久久久久久久久久ntr影视| 视频一区二区三| 三级网站在线看| 麻豆91在线播放免费| 4p变态网欧美系列| 麻豆成人在线视频| 999视频精品| 亚洲欧洲xxxx| 污片免费在线观看| 免费一级欧美在线大片| 在线精品视频一区二区三四| 国产av人人夜夜澡人人爽麻豆| 日本视频在线| 国产片一区二区三区| 国产日韩一区欧美| 性一交一乱一伧老太| 麻豆极品一区二区三区| 日韩av不卡电影| 日本网站在线免费观看| 91精品99| 日韩在线观看免费网站| 一区二区精品免费| 色天下一区二区三区| 精品国产伦一区二区三区观看体验| 狠狠干狠狠操视频| 91成人抖音| 色激情天天射综合网| 免费av观看网址| 高清精品在线| 精品高清美女精品国产区| 国产xxxx振车| 久草在线视频网站| 一区二区三区视频在线看| 99re99热| 国产精品一区二区三区视频网站| 国产精品国产自产拍在线| 热re99久久精品国99热蜜月| 肉丝一区二区| 久久久久久久久97黄色工厂| 欧美色欧美亚洲另类七区| 久久视频www| 国产性天天综合网| 四虎影院一区二区三区| av片在线看| 国产精品夫妻自拍| 青春草在线视频免费观看| 黄色av免费在线| 亚洲精品自拍动漫在线| 久久这里只有精品8| www欧美xxxx| 欧美日在线观看| 亚洲人成无码www久久久| 激情亚洲小说| 日韩欧美你懂的| 秘密基地免费观看完整版中文 | 亚洲承认在线| 欧美在线观看日本一区| 蜜臀尤物一区二区三区直播| 精品一区二区在线视频| 99久久精品免费看国产四区| 日本人妻丰满熟妇久久久久久| 91亚洲精品一区二区乱码| 欧美在线激情| 成人免费网站在线观看视频| 一区二区欧美精品| 无码播放一区二区三区| 精品国产欧美日韩一区二区三区| 在线91免费看| www.88av| 91九色精品| 性欧美激情精品| 在线观看亚洲国产| 成人免费视频一区| 日本一区二区三区视频免费看| 日本中文字幕伦在线观看| 亚洲一二三四久久| 激情内射人妻1区2区3区 | 国产一区二区三区四区hd| 国产视频二区在线观看| 亚洲欧美日韩在线| 国产91对白刺激露脸在线观看| 九九热这里有精品| 亚洲国产高清自拍| 婷婷激情四射网| 麻豆亚洲精品| 国产精品12| av在线日韩国产精品| 亚洲国产裸拍裸体视频在线观看乱了| 成人小视频在线看| 亚洲免费一区三区| 中文字幕无线精品亚洲乱码一区| 国产一级在线播放| 久久精品国产在热久久| 久久日韩精品| 啪啪免费视频一区| 欧美日韩国产综合视频在线观看| 人妻无码一区二区三区| 你懂的国产精品| 国产精品一区二区电影| 无码国产伦一区二区三区视频| 最新欧美精品一区二区三区| 91精品91久久久中77777老牛 | 美女主播视频一区| 怡红院在线观看| 精品1区2区3区| 熟女俱乐部一区二区| 国产尤物精品| 91九色极品视频| 午夜激情视频在线观看| 一本大道久久a久久精二百| 无码人妻久久一区二区三区蜜桃 | 中文字幕欧美精品在线| 91国产丝袜播放在线| 国产成人aaaa| 日本xxxxx18| 伊人久久大香| 日韩亚洲国产中文字幕| 国产精品51麻豆cm传媒| 国产午夜精品久久久久久免费视 | 色七七影院综合| 中文字幕激情视频| 久久综合久久综合九色| 国产特级淫片高清视频| 高潮按摩久久久久久av免费| 欧美日韩xxxxx| 国产美女精品视频国产| 国产精品护士白丝一区av| 日本三级黄色网址| 成人羞羞网站| 成人午夜激情免费视频| www国产在线观看| 欧美一区二区三区四区五区| 国产一区二区播放| 国产麻豆一精品一av一免费| 日本xxx免费| 免费精品一区二区三区在线观看| 欧美乱人伦中文字幕在线| 亚洲免费一级片| 精品久久久久久久久久国产| 高潮毛片无遮挡| 日本亚洲最大的色成网站www| 日韩免费av一区二区三区| 78精品国产综合久久香蕉| 日韩在线小视频| 国产偷人妻精品一区二区在线| 一区二区久久久久久| 久久精品无码专区| 亚洲专区在线| 视频一区二区综合| 亚洲综合资源| 久久久综合免费视频| 色视频免费在线观看| 欧美综合久久久| 亚洲人做受高潮| 国产不卡视频一区| 国产欧美高清在线| 婷婷亚洲最大| 国产日韩一区二区三区| 色老太综合网| 久久亚洲精品一区二区| 免费观看成年人视频| 一本色道久久加勒比精品| a级黄色免费视频| 国产成人综合精品三级| 自慰无码一区二区三区| 北条麻妃国产九九九精品小说| 成人精品在线观看| www视频在线观看| 综合网日日天干夜夜久久| 国产成人三级在线播放| 欧美日韩精品在线观看| 黄色裸体一级片| www.视频一区| 国产日韩欧美久久| 国产精品chinese| 欧美一区二区三区四区夜夜大片| 精品国产18久久久久久二百| 911国产网站尤物在线观看| 2019中文字幕在线视频| 亚洲福利视频专区| 亚洲最新av网站| 午夜精品久久久久久久99樱桃| 久久午夜福利电影| 粉嫩嫩av羞羞动漫久久久| 搡女人真爽免费午夜网站| 午夜久久久久| 亚洲精品第一区二区三区| 久久中文资源| 亚洲伊人久久综合| 日本欧美韩国| 91国内精品久久| 丝袜美女在线观看| 中文字幕久久久av一区| 亚洲aaa在线观看| 日韩欧美国产麻豆| 这里只有精品6| 欧美午夜精品伦理| 国产在线拍揄自揄拍| 国产精品超碰97尤物18| 国产一级久久久久毛片精品| 不卡av电影在线播放| 人妻少妇偷人精品久久久任期| 日本最新不卡在线| 久久精品香蕉视频| 亚洲欧洲另类| 中文精品无码中文字幕无码专区| 99精品视频在线观看免费播放| 欧美最大成人综合网| 豆花视频一区二区| 国产主播精品在线| 久久电影天堂| 国产精品久久久av| 日韩免费电影| 国产成人自拍视频在线观看| 免费看男女www网站入口在线| 欧美—级a级欧美特级ar全黄| 精品国产丝袜高跟鞋| 色老头一区二区三区在线观看| 高清av在线| 在线观看日韩视频| 粉嫩av一区| 一本大道久久加勒比香蕉| 理论在线观看| 亚洲欧美日韩天堂| 黄色电影免费在线看| 亚洲人永久免费| 国产在线视频福利| 亚洲最大在线视频| 成人高清免费在线播放| 亚洲欧美国产另类| 激情在线视频| 中文字幕亚洲欧美日韩2019| 番号在线播放| 久久精品国产亚洲精品2020| 精品国产白色丝袜高跟鞋| 久久天天躁狠狠躁夜夜躁| 超碰porn在线| 欧美劲爆第一页| caoporn视频在线| 欧美在线一区二区视频| 我爱我色成人网| 国产精品高精视频免费| 国内欧美日韩| 成人av免费看| 偷窥自拍亚洲色图精选| 日本一区免费看| 久久国产成人精品| 黄色一级片av| 亚洲日本激情| 丰满少妇在线观看| 国产精选一区二区三区| 精品一区二区三区四区五区六区| 不卡电影一区二区三区| 亚洲一级中文字幕| 国产精品成人免费| 日本一级淫片色费放| 色欧美日韩亚洲| 国产情侣激情自拍| 亚洲高清一二三区| www.亚洲.com| 欧美另类极品videosbest最新版本| 国产精品电影| 国产乱肥老妇国产一区二| 视频精品国内| 欧洲精品亚洲精品| 午夜国产欧美理论在线播放 | 亚洲欧洲成视频免费观看| 免费观看在线午夜影视| 久久久久国产视频| 国精产品一区二区三区有限公司| 成人信息集中地欧美| 亲子伦视频一区二区三区| 亚洲午夜在线观看| 亚洲视频一二| 欧美成年人视频在线观看| 国产.欧美.日韩| 特级西西人体高清大胆| 亚洲一区二区三区三| 成人黄色片在线观看| 亚洲精品wwww| 成人免费视屏| 国产精品欧美亚洲777777| 黄色成人美女网站| 欧美日韩在线免费观看视频| 亚洲永久网站| 人妻av一区二区三区| 国产精品日日摸夜夜摸av| 日韩精品一区二区av| 欧美一区二区大片| 日本大臀精品| 欧美极品少妇全裸体| 亚洲精品一区av| 欧洲一区二区日韩在线视频观看免费| 欧美激情麻豆| 日韩av一卡二卡三卡| 久久精品视频在线看| 精品91久久久| 日韩一区二区三区视频| 97人人在线| 日韩av毛片网| 亚洲精品456| 国产二区视频在线| 国产成人亚洲综合a∨猫咪 | 亚洲成av人片观看| 99国产在线播放| 久久精品久久久久电影| 国产精品字幕| 欧美一进一出视频| 亚洲影音先锋| 亚洲永久无码7777kkk| 亚洲一区二区三区国产| a天堂视频在线| 久久精品视频中文字幕| julia一区二区三区中文字幕| 人偷久久久久久久偷女厕| 国产模特精品视频久久久久| 好男人香蕉影院| 性感美女极品91精品| 免费观看国产精品| 久久久久久久久久久网站| av综合网站| 国产夫妻自拍一区| 夫妻av一区二区| 国产无码精品一区二区| 精品国产一二三区| 爱情岛亚洲播放路线| 国产精品免费一区二区三区四区 | 欧美人妖在线| 成年人视频在线免费| 久久精品男人的天堂| 成人黄色三级视频| 中文字幕欧美亚洲| 日韩三级一区| 永久免费网站视频在线观看| 国产高清无密码一区二区三区| 老女人性淫交视频| 欧美videos大乳护士334| 国产99re66在线视频| 国产一区免费在线| 亚洲免费影院| 一区二区三区在线观看免费视频| 欧美三区在线视频| 黄色片网站在线| 动漫一区二区在线| 一区二区三区国产盗摄| 精品无码一区二区三区| 在线中文字幕一区二区| 在线视频二区| 91久久偷偷做嫩草影院| 亚洲少妇一区| 蜜桃久久精品成人无码av| 欧美日韩视频在线第一区| dy888亚洲精品一区二区三区| 97神马电影| 亚洲永久免费精品| 亚洲欧洲综合网| 欧美变态口味重另类| 超碰aⅴ人人做人人爽欧美| 一区不卡字幕| 成人免费高清在线观看| 黄色av网站免费观看| 久久精品亚洲一区| 久久久久97| 成人性生交免费看| 亚洲h精品动漫在线观看| 看电影就来5566av视频在线播放| 国产一区二区在线免费视频| 一区二区亚洲| 在线观看黄网址| 亚洲精品短视频| 亚洲日日夜夜| 成人免费在线小视频| 亚洲欧洲99久久| 日本成人一区二区三区| 91视频国产高清| 噜噜噜在线观看免费视频日韩 | 97影院秋霞午夜在线观看| 久久伊人一区二区| 国产精品一区久久久久| 免费视频网站在线观看入口|