精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

剛剛,Thinking Machines Lab博客提出在策略蒸餾,Qwen被cue 38次

人工智能 新聞
我們探討了在策略蒸餾在訓(xùn)練小型模型進(jìn)行數(shù)學(xué)推理或持續(xù)學(xué)習(xí)助手等方面的應(yīng)用。我們將在策略蒸餾與其他兩種后訓(xùn)練方法進(jìn)行了比較:離策略蒸餾和在策略 RL。

剛剛,不發(fā)論文、愛發(fā)博客的 Thinking Machines Lab (以下簡稱 TML)再次更新,發(fā)布了一篇題為《在策略蒸餾》的博客。

在策略蒸餾(on-policy distillation)是一種將強(qiáng)化學(xué)習(xí) (RL) 的糾錯(cuò)相關(guān)性與 SFT 的獎(jiǎng)勵(lì)密度相結(jié)合的訓(xùn)練方法。在將其用于數(shù)學(xué)推理和內(nèi)部聊天助手時(shí),TML 發(fā)現(xiàn)在策略蒸餾可以極低的成本超越其他方法。

該公司 CEO Mira Murati 表示,這種方法可用于小模型,使其具備強(qiáng)大的領(lǐng)域性能和持續(xù)學(xué)習(xí)能力。

值得注意的是,在這篇新博客中,TML 明確表示這項(xiàng)新成果受到了 Qwen 團(tuán)隊(duì)研究的啟發(fā),并且其實(shí)驗(yàn)過程中也大量用到了 Qwen3 系列模型。事實(shí)上,在原英文博客中,「Qwen」這個(gè)關(guān)鍵詞一共出現(xiàn)了 38 次之多!比小米 17 系列發(fā)布會雷總提到「蘋果」的 37 次還多一次。

作為一家明星創(chuàng)業(yè)公司,TML 的更新也吸引了廣泛關(guān)注。有人總結(jié)其優(yōu)勢:

更是有網(wǎng)友盛贊,TML 才是真 Open AI。


博客地址:https://thinkingmachines.ai/blog/on-policy-distillation/

這篇博客的主要作者是 Thinking Machines Lab 研究者 Kevin Lu。他之前曾在 OpenAI 工作,領(lǐng)導(dǎo)了 4o-mini 的發(fā)布,并參與過 GPT-5 series、GPT-oss、o3 & o4-mini、4.1-nano & 4.1-mini、o1-mini、o3-mini 等模型的研發(fā)工作。

下面我們就來詳細(xì)看看這篇博客的內(nèi)容。

大型語言模型(LLM)能夠在特定領(lǐng)域展現(xiàn)出專家級的水平。這是幾種能力共同作用的結(jié)果,包括:對輸入的感知、知識檢索、規(guī)劃選擇和可靠執(zhí)行。

要實(shí)現(xiàn)這一點(diǎn),需要一系列的訓(xùn)練方法。我們可以將其大致分為三個(gè)階段:

  • 預(yù)訓(xùn)練(Pre-training):教授通用能力,例如語言使用、寬泛的推理和世界知識。
  • 中訓(xùn)練(Mid-training):傳授領(lǐng)域知識,例如代碼、醫(yī)療數(shù)據(jù)庫或公司內(nèi)部文件。
  • 后訓(xùn)練(Post-training):引導(dǎo)出目標(biāo)行為,例如遵循指令、解決數(shù)學(xué)問題或聊天。

在特定專業(yè)領(lǐng)域,經(jīng)過強(qiáng)化訓(xùn)練的小型模型,其表現(xiàn)往往優(yōu)于那些大型的通用模型。使用小型模型有很多好處:

  • 出于隱私或安全考慮,它們可以進(jìn)行本地部署。
  • 它們可以更輕松地持續(xù)訓(xùn)練和更新。
  • 它們還能節(jié)省推理成本。

想要利用這些優(yōu)勢,就需要為訓(xùn)練的后續(xù)階段選擇正確的方法。

后訓(xùn)練「學(xué)生」模型的方法可以分為兩種:

  1. 在策略(On-policy)訓(xùn)練:從學(xué)生模型自身采樣軌跡(rollouts),并為這些軌跡分配某種獎(jiǎng)勵(lì)。
  2. 離策略(Off-policy)訓(xùn)練:依賴于某個(gè)外部來源的目標(biāo)輸出,學(xué)生模型需要學(xué)習(xí)模仿這些輸出。

例如,我們可能希望訓(xùn)練一個(gè)緊湊模型來解決如下的數(shù)學(xué)問題:

我們可以通過強(qiáng)化學(xué)習(xí)(RL)來進(jìn)行在策略訓(xùn)練。具體做法是根據(jù)學(xué)生模型的每個(gè)軌跡是否解決了問題來為其評分。這個(gè)評分可以由人工完成,也可以由一個(gè)能可靠給出正確答案的「教師」模型來完成。

在策略訓(xùn)練的優(yōu)勢在于,學(xué)生通過在自己的樣本上訓(xùn)練,能更直接地學(xué)會避免錯(cuò)誤。

但 RL 有一個(gè)主要缺點(diǎn):它提供的反饋非常稀疏(sparse feedback)。無論使用多少 token,它在每個(gè)訓(xùn)練回合(episode)中教授的比特?cái)?shù)是固定的。

在我們上面的例子中,學(xué)生只知道「21」是錯(cuò)誤答案,并更新模型以避免產(chǎn)生這個(gè)軌跡。但它并沒有學(xué)到究竟錯(cuò)在哪里 —— 是搞錯(cuò)了運(yùn)算順序,還是算術(shù)本身出了錯(cuò)。這種反饋的稀疏性使得 RL 在許多應(yīng)用中效率低下。

離策略訓(xùn)練通常通過監(jiān)督微調(diào)(SFT)來完成,即在一組精心策劃的、針對特定任務(wù)的有標(biāo)注示例上進(jìn)行訓(xùn)練。這些有標(biāo)注示例的來源可以是一個(gè)在當(dāng)前任務(wù)上表現(xiàn)出色的教師模型。

我們可以使用一種稱為蒸餾(distillation)的機(jī)制:訓(xùn)練學(xué)生模型來匹配教師模型的輸出分布。我們在教師的軌跡上進(jìn)行訓(xùn)練,這些軌跡是生成的 token 的完整序列,包括中間的思考步驟。

在每一步,我們既可以使用教師完整的「下一個(gè) token 分布」(常被稱為 「logit 蒸餾」),也可以只采樣給定的序列。實(shí)踐證明,采樣序列提供了對教師分布的無偏估計(jì),并能達(dá)到相同的目標(biāo)。學(xué)生模型會根據(jù)自己生成該 token 的概率有多低,來相應(yīng)地更新對序列中每個(gè) token 的學(xué)習(xí)(在下例中用深色表示):

事實(shí)證明,蒸餾大型教師模型,在訓(xùn)練小型模型方面非常有效,使其能夠:

  • 遵循指令
  • 進(jìn)行數(shù)學(xué)和科學(xué)推理
  • 從醫(yī)療筆記中提取臨床信息
  • 以及參與多輪聊天對話

用于這些應(yīng)用和其他應(yīng)用的蒸餾數(shù)據(jù)集通常是開源和公開發(fā)布的。

離策略訓(xùn)練的缺點(diǎn)是,學(xué)生是在教師經(jīng)常遇到的上下文中學(xué)習(xí),而不是在學(xué)生自己將來會經(jīng)常遇到的上下文中學(xué)習(xí)。

這可能會導(dǎo)致復(fù)合錯(cuò)誤(compounding error):如果學(xué)生早期犯了一個(gè)教師從未犯過的錯(cuò)誤,它會發(fā)現(xiàn)自己越來越偏離在訓(xùn)練中觀察到的狀態(tài)。

當(dāng)我們關(guān)心學(xué)生在長序列上的表現(xiàn)時(shí),這個(gè)問題變得尤為突出。為了避免這種偏離,學(xué)生必須學(xué)會從自己的錯(cuò)誤中恢復(fù)。

離策略蒸餾觀察到的另一個(gè)問題是,學(xué)生可以學(xué)會模仿教師的風(fēng)格和自信,但不一定能學(xué)會其事實(shí)的準(zhǔn)確性。

打個(gè)比方:如果你在學(xué)習(xí)國際象棋,在策略 RL 就好比在沒有教練指導(dǎo)的情況下自己下棋。贏棋或輸棋的反饋與你自己的下法直接相關(guān),但每局只收到一次反饋,而且不會告訴你哪些棋步對結(jié)果貢獻(xiàn)最大。離策略蒸餾則類似于觀看一位特級大師下棋 —— 你觀察到的是非常高超的棋步,但這些棋步是在新手玩家很少會遇到的棋局狀態(tài)下走出的。

我們希望能將 RL 的在策略相關(guān)性與蒸餾的密集獎(jiǎng)勵(lì)信號結(jié)合起來。

對于學(xué)習(xí)國際象棋來說,這就好比有一位老師來為你自己的每一步棋打分,從「大錯(cuò)特錯(cuò)」到「妙不可言」。對于 LLM 的后訓(xùn)練來說,這就是在策略蒸餾(on-policy distillation)。

在策略蒸餾 —— 集兩者之長

在策略蒸餾的核心思想是:從學(xué)生模型中采樣軌跡,并使用一個(gè)高性能的教師模型來為每個(gè)軌跡的每一個(gè) token 評分。

回到我們上面的數(shù)學(xué)例子,在策略蒸餾會給解題的每一步打分,懲罰那些導(dǎo)致學(xué)生得出錯(cuò)誤答案的錯(cuò)誤步驟,同時(shí)強(qiáng)化那些執(zhí)行正確的步驟。

在這篇文章中,我們探討了在策略蒸餾在以下任務(wù)上的應(yīng)用:

1. 訓(xùn)練模型進(jìn)行數(shù)學(xué)推理。

2. 訓(xùn)練一個(gè)兼具領(lǐng)域知識和指令遵循能力的助手模型。

我們在已經(jīng)具備預(yù)訓(xùn)練和中訓(xùn)練基礎(chǔ)能力的模型上應(yīng)用在策略蒸餾。我們發(fā)現(xiàn),這是一種廉價(jià)而強(qiáng)大的后訓(xùn)練方法,它成功將在策略訓(xùn)練的優(yōu)勢和密集獎(jiǎng)勵(lì)信號結(jié)合到了一起。

我們的在策略蒸餾工作借鑒了 DAGGER(Ross et al, 2010),這是一種迭代式的 SFT 算法,它包含了教師對學(xué)生訪問過的狀態(tài)的評估。

它也類似于過程獎(jiǎng)勵(lì)建模(Lightman et al, 2023),這是一種 RL 方法,會對學(xué)生模型思維鏈中的每一步都進(jìn)行評分。

我們擴(kuò)展了 Agarwal et al.(2023)和 Qwen3 團(tuán)隊(duì)(2025)之前的在策略蒸餾工作。使用 Tinker 訓(xùn)練 API,我們復(fù)刻了 Qwen3 的成果,即通過在策略蒸餾在推理基準(zhǔn)上實(shí)現(xiàn)了同等性能,而成本僅為 RL 的一小部分。

實(shí)現(xiàn)

你可以在這個(gè) Tinker cookbook 中跟著學(xué)習(xí)實(shí)現(xiàn)的每一步:

https://github.com/thinking-machines-lab/tinker-cookbook/tree/main/tinker_cookbook/recipes/distillation

損失函數(shù):反向 KL

在策略蒸餾可以使用多種損失函數(shù)來為學(xué)生的軌跡評分。為簡單起見,我們選擇逐 token 的反向 KL(reverse KL)—— 即在給定相同先前軌跡的條件下,學(xué)生(π_θ)和教師(π_teacher)在每個(gè) token 上的分布之間的散度:

我們的獎(jiǎng)勵(lì)函數(shù)會最小化反向 KL,這會促使學(xué)生在自己所處的每種狀態(tài)下都去近似教師的行為。當(dāng)學(xué)生的行為與教師完全一致時(shí),反向 KL 為零。為簡單起見,我們使用的折扣因子為零:在任何給定的時(shí)間步,學(xué)生只優(yōu)化眼前的下一個(gè) token,不考慮未來的 token。

反向 KL 與 RL 有著天然的協(xié)同作用,RL 通常優(yōu)化由獎(jiǎng)勵(lì)模型引導(dǎo)的某種序列級反向 KL。然而,與實(shí)踐中的大多數(shù)獎(jiǎng)勵(lì)模型不同,反向 KL 是「不可破解的」(unhackable),因?yàn)閺慕處熌P偷慕嵌葋砜矗?KL 總是對應(yīng)著高概率的期望行為。反向 KL 的另一個(gè)有用特性是它是「尋找眾數(shù)(mode seeking)」的 —— 它學(xué)習(xí)一種特定行為(教師的行為),而不是將其分布分散在幾個(gè)次優(yōu)選項(xiàng)上。

這種方法可節(jié)省大量計(jì)算資源。因?yàn)樗恍枰却粋€(gè)軌跡完成采樣才能計(jì)算獎(jiǎng)勵(lì),所以我們可以使用更短或部分的軌跡進(jìn)行訓(xùn)練。查詢教師的對數(shù)概率也只需要大型模型進(jìn)行一次前向傳播,而軌跡則是由更小、更廉價(jià)的學(xué)生模型生成的。

我們也不需要單獨(dú)的獎(jiǎng)勵(lì)或標(biāo)注模型。將基于蒸餾的逐 token 獎(jiǎng)勵(lì)與序列級的環(huán)境獎(jiǎng)勵(lì)結(jié)合起來可能會有好處;這是未來一個(gè)有趣的潛在研究領(lǐng)域。

圖解

下面我們來看一個(gè)真實(shí)的例子,這是一個(gè)錯(cuò)誤的學(xué)生軌跡,由教師模型進(jìn)行評分。這個(gè)例子來自 SimpleBench,它要求模型做出一個(gè)關(guān)鍵觀察:問題的前提很重要。正確答案是 「B. 0」,因?yàn)楸鶋K在煎鍋里會融化。而學(xué)生模型(Qwen3-4B-Instruct-2507)錯(cuò)誤地將其視為一個(gè)純粹的數(shù)學(xué)問題,沒有考慮物理背景。

顏色越深,代表該 token 受到教師模型(Qwen3-235B-A22B-Instruct-2507)的懲罰越高(教師模型正確解決了這個(gè)問題)。

我們看到,它懲罰了那些引導(dǎo)學(xué)生誤入歧途的短語的起始 token,這直觀上對應(yīng)了引導(dǎo)推理的重要「分叉 token」(forking tokens)。最終答案(雖然是錯(cuò)的)并沒有受到懲罰 —— 因?yàn)樵诮o定前面所有序列的條件下,這個(gè)答案是完全可預(yù)測的。

偽代碼

我們在 Tinker 的 RL 腳本之上實(shí)現(xiàn)了在策略蒸餾,該腳本已經(jīng)實(shí)現(xiàn)了采樣、獎(jiǎng)勵(lì)計(jì)算和策略梯度式的訓(xùn)練。

地址:https://thinkingmachines.ai/blog/on-policy-distillation/(https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/rl/train.py)

  1. 初始化教師客戶端:Tinker API 可以輕松地為不同模型創(chuàng)建不同的客戶端。我們使用采樣客戶端,因?yàn)槲覀儾恍枰ㄟ^教師模型傳播對數(shù)概率。
  2. 采樣軌跡:我們像在 RL 中一樣從學(xué)生模型中采樣軌跡。在采樣期間,RL 已經(jīng)計(jì)算了學(xué)生的對數(shù)概率 log π_θ(x),用作重要性采樣損失的一部分。
  3. 計(jì)算獎(jiǎng)勵(lì):我們用 compute_logprobs 函數(shù)在采樣出的軌跡上查詢教師客戶端,它會返回教師在學(xué)生采樣的 token x 上的對數(shù)概率 log π_teacher (x)。然后我們用這個(gè)來計(jì)算反向 KL。
  4. 使用 RL 進(jìn)行訓(xùn)練:我們將逐 token 的優(yōu)勢(advantage)設(shè)置為負(fù)的反向 KL,并調(diào)用 RL 的重要性采樣損失函數(shù)來對學(xué)生模型執(zhí)行訓(xùn)練更新。

偽代碼如下:

在下面的實(shí)驗(yàn)中,我們通常將在策略蒸餾應(yīng)用于已經(jīng)過特定領(lǐng)域知識中訓(xùn)練的模型。這種訓(xùn)練提高了學(xué)生生成教師分布范圍內(nèi)的 token 的概率,盡管這通常遠(yuǎn)不足以復(fù)刻教師的性能。通常,正如我們將在個(gè)性化示例中看到的,生成相關(guān) token 的概率開始時(shí)為零,因?yàn)閷W(xué)生缺乏任何相關(guān)的領(lǐng)域知識。

我們將使用在策略蒸餾進(jìn)行后訓(xùn)練,并將其與訓(xùn)練專家模型的其他最后關(guān)鍵階段的方法進(jìn)行比較。

蒸餾以獲得推理能力

我們使用蒸餾來訓(xùn)練 Qwen3-8B-Base 模型的數(shù)學(xué)推理能力,并使用 Qwen3-32B 作為教師模型。教師(Qwen3-32B)和學(xué)生(Qwen3-8B-Base)都是目前 Tinker 上支持的模型,因此你可以使用 Tinker cookbook 復(fù)現(xiàn)我們的實(shí)驗(yàn)。

離策略蒸餾

如前所述,我們所有的實(shí)驗(yàn)都以離策略蒸餾(即在教師生成的示例數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào))的形式作為中訓(xùn)練的起點(diǎn)。用于數(shù)學(xué)推理的數(shù)據(jù)集是 OpenThoughts-3,這是一個(gè)由 QwQ-32B(一個(gè)類似于 Qwen3-32B 的推理模型)生成的推理提示和響應(yīng)的集合。

在 40 萬個(gè)提示上對學(xué)生模型(Qwen3-8B-Base)進(jìn)行全參數(shù)微調(diào)(full fine-tuning),在 AIME'24(一個(gè)數(shù)學(xué)問題基準(zhǔn)測試)上獲得了 60% 的分?jǐn)?shù)。我們也可以使用 LoRA 進(jìn)行訓(xùn)練,但在高容量數(shù)據(jù)集上訓(xùn)練時(shí),它落后于全參數(shù)微調(diào)。在所有情況下,我們都看到性能呈對數(shù)線性增長 —— 最初的性能提升很廉價(jià),但后期的提升成本高昂。

我們可以將在 40 萬個(gè)提示上微調(diào)過的模型視為一個(gè)檢查點(diǎn),然后嘗試各種后訓(xùn)練方法,將其在 AIME’24 基準(zhǔn)上的分?jǐn)?shù)從 60% 提高到 70%。

默認(rèn)方法是在更多提示上進(jìn)行微調(diào),即繼續(xù)離策略蒸餾的過程。根據(jù)對數(shù)線性趨勢推斷,我們估計(jì)模型在大約 200 萬個(gè)提示上能達(dá)到 70% 的分?jǐn)?shù)。這個(gè)推斷需要 scaling law 持續(xù)有效而不停滯,這并不簡單。

強(qiáng)化學(xué)習(xí)

Qwen3 技術(shù)報(bào)告稱,在類似的 SFT 初始化基礎(chǔ)上,通過 17,920 個(gè) GPU 小時(shí)的 RL,在基準(zhǔn)測試上達(dá)到了 67.6% 的性能。這很難與蒸餾的成本直接比較,但基于對 SFT 訓(xùn)練堆棧的一些合理假設(shè),這與在 200 萬個(gè)離策略蒸餾提示上訓(xùn)練的成本相似。

Qwen 團(tuán)隊(duì)還報(bào)告稱,使用在策略蒸餾,能以 RL 成本的十分之一,在 AIME’24 上達(dá)到了 74.4% 的更高分?jǐn)?shù)。這也啟發(fā)了我們的工作。

在策略蒸餾

作為替代方案,我們運(yùn)行了在策略蒸餾。從 40 萬 SFT 檢查點(diǎn)開始,在策略蒸餾在大約 150 個(gè)步驟內(nèi)就達(dá)到了 AIME’24 70% 的成績。

跨方法比較計(jì)算成本并非易事。下面,我們用 FLOPs(浮點(diǎn)運(yùn)算次數(shù))來計(jì)算成本。

我們發(fā)現(xiàn),當(dāng) SFT 數(shù)據(jù)集是現(xiàn)成的(如我們的 OpenThoughts-3 示例)或在多次訓(xùn)練中被攤銷時(shí),基線成本降低了 9 倍。

然而,我們經(jīng)常希望在一個(gè)沒有現(xiàn)成離策略蒸餾數(shù)據(jù)集的新任務(wù)上訓(xùn)練一個(gè)小模型。如果我們將教師模型的全部成本(即包括從教師模型采樣的額外成本)計(jì)算在離策略蒸餾中,那么總成本可降低約 30 倍。

用于個(gè)性化的蒸餾

除了將小型模型訓(xùn)練到在通用任務(wù)上表現(xiàn)出色之外,蒸餾的另一個(gè)用例是個(gè)性化。例子包括在對話中遵循特定的語氣和輸出格式,或者像工具使用和成本預(yù)算這樣的能力。我們經(jīng)常希望在傳授新領(lǐng)域知識的同時(shí)訓(xùn)練這種行為。

同時(shí)訓(xùn)練這兩者通常很困難,輕量級微調(diào)(如 LoRA)往往不足以實(shí)現(xiàn)這一目標(biāo),因此需要更大規(guī)模的中訓(xùn)練。在掌握新知識的基礎(chǔ)上學(xué)習(xí)后訓(xùn)練行為,需要一個(gè)復(fù)雜的后訓(xùn)練堆棧,通常由專有數(shù)據(jù)和獎(jiǎng)勵(lì)模型組成。雖然前沿實(shí)驗(yàn)室可以做到這一點(diǎn),但其他從業(yè)者要復(fù)刻可能很困難或成本高昂。

在本節(jié)中,我們展示了在策略蒸餾可以有效地用于后訓(xùn)練專業(yè)化行為。這種方法也適用于持續(xù)學(xué)習(xí)或「測試時(shí)訓(xùn)練」:即在模型部署后更新它們,而不會導(dǎo)致基礎(chǔ)性能下降。我們使用一個(gè)在公司內(nèi)部文檔上進(jìn)行中訓(xùn)練的模型作為應(yīng)用示例。

訓(xùn)練一個(gè)內(nèi)部助手

定制模型的一個(gè)常見目標(biāo)是充當(dāng)助手:在某個(gè)領(lǐng)域擁有專家知識,并且具有可靠的助手式行為。我們可能需要對這兩者進(jìn)行單獨(dú)訓(xùn)練,尤其是當(dāng)專業(yè)領(lǐng)域知識無法僅從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)到,或者學(xué)習(xí)它會干擾行為時(shí)。

我們的例子是一個(gè)公司內(nèi)部助手,我們有兩個(gè)期望:

1. 模型對該領(lǐng)域(公司文檔)知識淵博。預(yù)訓(xùn)練模型沒有見過任何公司內(nèi)部文檔,因此無論模型規(guī)模多大,都只能猜測。我們將使用內(nèi)部知識召回評估(「內(nèi)部 QA」)來衡量這一點(diǎn)。

2. 模型表現(xiàn)出強(qiáng)大的后訓(xùn)練行為,即遵循指令。我們將使用常用的 IF-eval 來衡量這一點(diǎn)。

訓(xùn)練新知識會降低已學(xué)到的行為

我們將從 Qwen3-8B(而不是基礎(chǔ)模型)開始。Qwen3-8B 已經(jīng)通過 RL 進(jìn)行了后訓(xùn)練,掌握了作為助手有用的技能,如指令遵循和推理。先前的研究表明,這種強(qiáng)化學(xué)習(xí)只訓(xùn)練了原始模型的一小部分子網(wǎng)絡(luò),因此當(dāng)網(wǎng)絡(luò)在大量數(shù)據(jù)上進(jìn)一步訓(xùn)練時(shí),可能會變得很脆弱。我們研究了這種情況發(fā)生的程度,以及如何恢復(fù)所需的行為。

為了減少這種災(zāi)難性遺忘(catastrophic forgetting),中訓(xùn)練中一種常見的做法是混入來自模型原始預(yù)訓(xùn)練分布的「背景數(shù)據(jù)」。

在這種情況下,我們無法訪問 Qwen3 的預(yù)訓(xùn)練分布。因此,我們考慮一個(gè)更強(qiáng)、成本更高的基線:我們獲取 Tulu3 提示(一個(gè)廣泛的聊天和指令遵循數(shù)據(jù)集),并使用 Qwen3-8B 重新采樣它們,以充當(dāng)聊天背景數(shù)據(jù)。

然后,我們在內(nèi)部文檔和聊天數(shù)據(jù)的不同混合比例上微調(diào) Qwen3-8B。提高文檔數(shù)據(jù)比例會直接提升模型的知識水平。然而,盡管混入至少 30% 的聊天數(shù)據(jù)有助于保留大部分指令遵循能力,但沒有任何一種權(quán)重配比能維持在 IF-eval 上的原始性能。

對于任何給定的混合比例,我們都觀察到 IF-eval 性能在微調(diào)過程中下降。

另一種常用的方法是使用 LoRA 來約束參數(shù)更新,從而減少災(zāi)難性遺忘的可能性。然而,這種方法仍然不足以保留 IF-eval,而且 LoRA 學(xué)到的知識也更少。

在策略蒸餾恢復(fù)后訓(xùn)練行為

接下來,我們試圖在對內(nèi)部文檔進(jìn)行微調(diào)后,恢復(fù)指令遵循行為。這種行為最初是用 RL 訓(xùn)練的,成本高昂,而且正如我們所見,很脆弱。

取而代之的是,我們在 Tulu3 提示上,使用模型的早期版本 Qwen3-8B 作為教師,來進(jìn)行在策略蒸餾。請注意,這個(gè)訓(xùn)練階段與內(nèi)部文檔數(shù)據(jù)無關(guān),其唯一目的是恢復(fù)指令遵循能力。

使用模型的早期版本作為教師來「重新喚起」在微調(diào)過程中丟失的能力,這使得在策略蒸餾在持續(xù)學(xué)習(xí)(continuous learning)方面非常有前景。我們可以交替進(jìn)行「在新數(shù)據(jù)上微調(diào)」和「蒸餾以恢復(fù)行為」這兩個(gè)階段,使我們的模型能夠隨著時(shí)間的推移學(xué)習(xí)并保持知識的最新狀態(tài)。

在 70-30 混合的內(nèi)部文檔數(shù)據(jù)和聊天數(shù)據(jù)上微調(diào)后,在策略蒸餾幾乎完全恢復(fù)了在 IF-eval 上的性能,且沒有損失任何知識;我們還觀察到聊天能力和模型在內(nèi)部 QA 評估中的「知識」性能之間存在一些正向遷移。

從本質(zhì)上講,我們將語言模型本身視為一個(gè)獎(jiǎng)勵(lì)模型,高概率的行為會受到獎(jiǎng)勵(lì)。這與逆向 RL(inverse RL)有關(guān):高概率的行為對應(yīng)于假定的潛在偏好模型中的有利獎(jiǎng)勵(lì)。任何經(jīng)過指令調(diào)優(yōu)的開源權(quán)重模型都可以在這個(gè)意義上用作獎(jiǎng)勵(lì)模型;我們只需要能訪問 compute_logprobs 函數(shù)。

討論

密集監(jiān)督可極大提高計(jì)算效率

強(qiáng)化學(xué)習(xí)和在策略蒸餾都通過反向 KL 進(jìn)行學(xué)習(xí),修剪基礎(chǔ)策略中存在的動作空間。區(qū)別在于獎(jiǎng)勵(lì)的密度。

在 LoRA Without Regret 中,我們提出了信息論的觀點(diǎn),即強(qiáng)化學(xué)習(xí)每個(gè)回合只教授 O (1) 的比特。相比之下,蒸餾每個(gè)回合教授 O (N) 比特,其中 N 是 token 的數(shù)量。通過更密集的獎(jiǎng)勵(lì),我們到底能獲得多少訓(xùn)練效率的提升?

我們做了一個(gè)實(shí)驗(yàn)來直接比較兩者:

  1. 從 Qwen3-8B-Base(沒有額外的 SFT)開始。
  2. 在 DeepMath 上運(yùn)行 RL。我們使用 128 的 LoRA rank。生成的模型是蒸餾的教師。
  3. 從 RL 訓(xùn)練的模型(2)在策略蒸餾回基礎(chǔ)模型(1)。

從相同的初始化開始,在策略蒸餾學(xué)習(xí) RL 訓(xùn)練的策略所需的梯度步數(shù)大約少 7-10 倍,這對應(yīng)于 50-100 倍的計(jì)算效率提升。

我們看到,蒸餾達(dá)到教師性能水平的速度比 RL 快了大約 7-10 倍。反向 KL 下降到接近零,AIME 分?jǐn)?shù)在 10 個(gè)梯度步內(nèi)就得以恢復(fù),而 RL 則需要 70 步才能達(dá)到該水平。

蒸餾可以有效地重用訓(xùn)練數(shù)據(jù)以提高數(shù)據(jù)效率

對于從業(yè)者來說,收集大量的訓(xùn)練提示可能既困難又耗時(shí)。因此,我們希望能夠在訓(xùn)練中多次重用提示。

使用 RL 時(shí),在同一個(gè)提示上訓(xùn)練多個(gè)輪次(epochs)常常導(dǎo)致對最終答案的簡單記憶。

相比之下,在策略蒸餾學(xué)習(xí)的是近似教師的完整分布,而不是記憶單個(gè)答案。這使我們能夠用同一個(gè)提示訓(xùn)練多個(gè)樣本。

我們重復(fù)了上述在數(shù)學(xué)上訓(xùn)練 Qwen3-8B-Base 的實(shí)驗(yàn),但這次只使用數(shù)據(jù)集中隨機(jī)選擇的一個(gè)提示。我們在這個(gè)提示上連續(xù)訓(xùn)練了 20 步。盡管我們只在一個(gè)提示上訓(xùn)練,但我們確實(shí)達(dá)到了與教師模型相當(dāng)?shù)男阅堋?/span>

RL 在語義策略空間中搜索

我們已經(jīng)看到,在策略蒸餾可以用少得多的訓(xùn)練步驟來復(fù)刻 RL 提供的學(xué)習(xí)效果。

一種解釋是,與預(yù)訓(xùn)練不同,RL 并未在梯度步驟本身上花費(fèi)大量計(jì)算。我們應(yīng)該認(rèn)為 RL 將其大部分計(jì)算用在了搜索(search)上 —— 即推出一個(gè)策略并分配功勞 —— 而不是進(jìn)行更新。

預(yù)訓(xùn)練通過隨機(jī)梯度下降探索高維參數(shù)空間。預(yù)訓(xùn)練需要海量信息,并且非常難以蒸餾。

相比之下,我們應(yīng)該認(rèn)為 RL 是在探索語義策略(semantic strategies)的空間。RL 不是在參數(shù)空間中探索,而是靠運(yùn)氣「偶然」發(fā)現(xiàn)新策略 —— 它只是從它已有的權(quán)重集合中隨機(jī)抽樣。

一旦找到了一個(gè)好的策略,蒸餾就成了學(xué)習(xí)它的捷徑:在策略蒸餾不需要對 RL 課程中的中間策略進(jìn)行建模,而只需要學(xué)習(xí)最終的策略。

打個(gè)比方:在科學(xué)研究中,我們花費(fèi)大量時(shí)間和資源來尋找答案和探索新思想。一旦發(fā)現(xiàn)一個(gè)結(jié)果,用自然語言將其教給別人就簡單得多。相比之下,像運(yùn)動這樣的直覺性身體技能,就很難教給別人,因?yàn)檫@些知識存在于一種天生的語言中(例如,肌肉記憶),只有我們自己才能輕易理解。運(yùn)動只能通過反復(fù)練習(xí)來學(xué)習(xí)。

作為持續(xù)學(xué)習(xí)工具的在策略學(xué)習(xí)

在關(guān)于個(gè)性化的部分,我們探討了在策略蒸餾將專業(yè)訓(xùn)練行為重新引入模型的能力。這可以推廣到更廣泛的持續(xù)學(xué)習(xí)(continual learning)任務(wù),這些任務(wù)要求在不降低先前能力的情況下獲取新知識。

先前的工作發(fā)現(xiàn),在策略學(xué)習(xí)(RL)比較少地遺忘。然而,RL 只能塑造行為 —— 它不能很好地教授新知識,因此不足以用于持續(xù)學(xué)習(xí)。

在上一節(jié)中,我們看到 SFT(包括離策略蒸餾)在支持持續(xù)學(xué)習(xí)方面是失敗的,因?yàn)樗鼤档托袨椤?/span>

我們更深入地研究了這個(gè)問題。當(dāng)我們在模型自己的樣本數(shù)據(jù)集上運(yùn)行 SFT 時(shí)會發(fā)生什么?我們看到,任何大于零的實(shí)用學(xué)習(xí)率都會導(dǎo)致指令遵循評估的性能下降!

一個(gè)可能的解釋是,雖然 KL 散度在期望上為 0,但每個(gè)有限的批次(batch)在實(shí)踐中都會表現(xiàn)出略微不同的分布。在這些有限批次上訓(xùn)練會導(dǎo)致非零的梯度更新,這會使更新后的模型策略偏離其原始狀態(tài)。

在策略蒸餾始終保持在在策略狀態(tài),并且由于教師保持不變,學(xué)生會收斂于教師的期望行為,而不會像 SFT 那樣在自蒸餾設(shè)置中出現(xiàn)性能衰退。這使得在策略蒸餾成為一種非常有前景的持續(xù)學(xué)習(xí)工具。

總結(jié)

我們探討了在策略蒸餾在訓(xùn)練小型模型進(jìn)行數(shù)學(xué)推理或持續(xù)學(xué)習(xí)助手等方面的應(yīng)用。我們將在策略蒸餾與其他兩種后訓(xùn)練方法進(jìn)行了比較:離策略蒸餾和在策略 RL。

我們發(fā)現(xiàn),在策略蒸餾結(jié)合了兩者的優(yōu)點(diǎn):在策略訓(xùn)練的可靠性能以及密集獎(jiǎng)勵(lì)信號帶來的成本效益。

后訓(xùn)練是達(dá)到前沿模型能力的關(guān)鍵部分。通過利用來自學(xué)生的在策略采樣和來自教師的密集監(jiān)督,在策略蒸餾方案能夠以前沿高計(jì)算量 RL 運(yùn)行成本的一小部分,達(dá)到這些能力。

我們的實(shí)現(xiàn)可以在 Tinker cookbook 中找到。我們的工作探索了在策略蒸餾的簡單直接的實(shí)例化,以清晰地展示其優(yōu)勢。我們希望繼續(xù)研究蒸餾的新應(yīng)用、改進(jìn)教師監(jiān)督的新方法,以及提高數(shù)據(jù)效率和持續(xù)學(xué)習(xí)的方法。

在 Thinking Machines,我們的使命是為人們提供兼具前沿性能、適應(yīng)性和個(gè)性化的 AI 模型。在策略蒸餾是實(shí)現(xiàn)這一目標(biāo)的有力工具。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-09-11 12:29:28

2025-10-27 08:52:00

2025-06-10 05:00:00

2023-09-01 14:49:09

AI微軟

2024-08-23 09:20:00

AI語言模型

2025-02-27 10:41:53

2025-09-29 09:01:36

2025-07-22 11:03:07

2019-09-25 10:10:29

臉書華裔程序員

2022-04-08 14:40:59

框架訓(xùn)練模型

2022-03-15 17:58:00

俄烏信創(chuàng)國產(chǎn)化

2015-07-22 11:47:25

云計(jì)算搜索引擎谷歌

2025-08-14 18:22:29

AIDeepSeekOpenAI

2025-09-11 09:04:00

2022-09-09 10:24:54

SREZUOYEBANGDevOps

2024-01-12 21:18:22

負(fù)樣本大模型蒸餾

2025-02-07 15:10:00

模型AI語音

2020-12-22 11:00:16

京東智聯(lián)云云原生

2025-01-06 12:10:01

2025-02-24 08:40:00

開源模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

秋霞影院午夜丰满少妇在线视频| 久久免费在线观看视频| 91精品影视| 国产精品国产三级国产三级人妇| 成人网在线视频| 国产真人真事毛片| 国产一区三区在线播放| 欧美男人的天堂一二区| 蜜臀精品一区二区| 黄色电影免费在线看| 韩国av一区二区三区在线观看| 欧美激情视频三区| 亚洲精品成人av久久| 亚洲一级大片| 在线观看亚洲一区| av一区二区三区免费观看| 蜜桃视频在线观看网站| 激情综合色播五月| 国产精品第10页| 国产午夜福利精品| 亚洲国产精品久久久天堂 | 国产精品日产欧美久久久久| 97欧洲一区二区精品免费| 337p粉嫩色噜噜噜大肥臀| 牛牛国产精品| 中文字幕日韩电影| 91精品小视频| 亚洲国产欧美国产第一区| 在线视频国内一区二区| 免费观看美女裸体网站| 国产不卡在线| 国产精品福利一区二区| 久热国产精品视频一区二区三区| 精品人妻一区二区三区浪潮在线| 欧美aaaaaa午夜精品| 欧美最近摘花xxxx摘花| 国产精品99精品| 欧美日韩一区二区高清| 久久久国产一区二区三区| 久久久视频6r| 亚洲天堂日韩在线| 日韩精品在线私人| 9.1在线观看免费| 日韩高清在线观看一区二区| 欧美日韩一区高清| 日韩肉感妇bbwbbwbbw| 毛片免费看不卡网站| 精品久久久中文| 少妇人妻大乳在线视频| 成人免费高清观看| 一区二区成人在线视频| 亚洲激情免费视频| 91高清在线观看视频| |精品福利一区二区三区| 亚洲开发第一视频在线播放| 成人亚洲综合天堂| 国产精品私人自拍| 福利微拍一区二区| 色女孩综合网| 成人免费在线电影| 国产日韩欧美一区二区三区乱码 | 男人添女人下面免费视频| 综合在线影院| 在线观看欧美黄色| 色免费在线视频| **欧美日韩在线| 日韩一区二区三区高清免费看看| 秋霞午夜鲁丝一区二区| 高清精品视频| 日韩二区三区在线| 亚洲av无码一区二区三区人| 欧美日韩伦理| 久久不射电影网| 久久精品国产av一区二区三区| 在线成人黄色| 日韩av电影免费观看高清| 国产精品第6页| 精品一区二区三区影院在线午夜| 91超碰在线免费观看| 欧美 日韩 综合| 久久亚洲欧美国产精品乐播 | 911精品美国片911久久久| 欧美成人中文字幕在线| 国产稀缺真实呦乱在线| 天堂在线一区二区| 91精品中文在线| 欧美一级淫片免费视频魅影视频| 91视频你懂的| 正在播放91九色| 蜜桃视频在线观看免费视频| 欧美在线观看一区二区| 涩多多在线观看| 欧美三级午夜理伦三级小说| 最近日韩中文字幕中文| 久久国产精品二区| 日韩精品福利网| 91免费看蜜桃| 91女主播在线观看| 亚洲成人资源在线| 中文字幕丰满乱码| 亚洲电影一级片| 久久91亚洲人成电影网站| 色av性av丰满av| 国产成人精品免费看| 色播亚洲视频在线观看| 久色国产在线| 欧美丰满嫩嫩电影| 女~淫辱の触手3d动漫| 中文字幕人成人乱码| 欧美做爰性生交视频| 国产浮力第一页| 国产精品久久久久久亚洲毛片 | free性m.freesex欧美| 欧美午夜精品久久久久久超碰 | 欧美男人操女人视频| 俺去亚洲欧洲欧美日韩| 综合网在线观看| 国产 欧美在线| 日本特级黄色大片| 日韩一级二级| 亚洲老司机av| 日韩网红少妇无码视频香港| 国产一区二区三区蝌蚪| 午夜精品一区二区在线观看 | 国产欧美精品一区二区三区介绍| 熟妇人妻一区二区三区四区| 亚洲女同一区二区| av免费一区二区| 精品欧美激情在线观看| 日韩av色在线| 四虎影视在线播放| 五月天中文字幕一区二区| 99999精品| 天天久久综合| 成人久久久久久久| 免费a级毛片在线播放| 欧美日韩一区二区三区高清| 大又大又粗又硬又爽少妇毛片| 亚洲激情网址| 国产亚洲欧美另类一区二区三区| 日本乱理伦在线| 日韩欧美在线1卡| 欧美毛片在线观看| 国产精品伊人色| 欧美性猛交内射兽交老熟妇| 久久91超碰青草在哪里看| 夜夜嗨av一区二区三区四区| 亚洲国产av一区二区三区| 久久亚洲免费视频| 8x8x最新地址| 午夜片欧美伦| 亚洲专区国产精品| 欧美人动性xxxxz0oz| 欧美不卡一区二区三区四区| 亚洲一区二区91| 99久久精品国产一区| 日日摸日日碰夜夜爽无码| 青青草这里只有精品| 日本久久91av| 97电影在线看视频| 91.成人天堂一区| 极品久久久久久| 成人蜜臀av电影| 六月丁香婷婷激情| 欧美一区电影| 成人高清视频观看www| 欧美极品视频| 精品1区2区在线观看| 国产精品久久久久久99| 国产亚洲一区二区三区四区| 15—17女人毛片| 在线观看免费一区二区| 国产精品推荐精品| 性欧美超级视频| 久久久精品2019中文字幕神马| 午夜久久久久久久久久| 疯狂做受xxxx欧美肥白少妇| аⅴ天堂中文在线网| 极品少妇一区二区| 国产人妻777人伦精品hd| 九九综合九九| 91九色蝌蚪国产| 美女搞黄视频在线观看| 中文字幕亚洲一区二区三区| 亚洲高清视频网站| 日本久久电影网| 蜜臀久久精品久久久用户群体| 成人黄色综合网站| 亚洲xxxx2d动漫1| 黄色成人在线网址| 亚洲欧美日韩国产成人综合一二三区| 日韩精品一区二区三区中文在线| 7m精品福利视频导航| 日韩欧美小视频| 精品五月天久久| 精品人妻aV中文字幕乱码色欲 | 色综合天天狠天天透天天伊人| 婷婷丁香一区二区三区| 在线成人av网站| 国产伦精品一区二区三区视频网站| 综合久久久久综合| 亚洲综合色一区| 国产jizzjizz一区二区| 日本久久久久久久久久久久| 91久久综合| 亚洲激情免费视频| 欧美韩日一区| 欧美在线播放一区| 另类图片第一页| 91一区二区三区| 国产精品麻豆成人av电影艾秋| 亚洲第一搞黄网站| 法国空姐在线观看免费| 自拍亚洲一区| 国产精品视频在线免费观看| 99视频有精品高清视频| 97超碰蝌蚪网人人做人人爽| 成年人网站在线| 最近2019中文字幕大全第二页| 天天操天天干天天干| 欧美一卡二卡在线| 亚洲天堂中文字幕在线| 色婷婷精品大在线视频| 日本一级淫片免费放| 亚洲色图制服丝袜| 日韩av片在线免费观看| 91网址在线看| 国产性生活毛片| 国产成人精品三级| 无码人妻一区二区三区在线视频| 日本视频免费一区| 黑人糟蹋人妻hd中文字幕| 黄色亚洲免费| 国产又粗又猛又爽又黄的网站| 久久一区二区中文字幕| 日韩中文字幕一区| 国产成人精品三级高清久久91| 久久久久久久久一区| 国产一区在线电影| 国产视频99| jizz性欧美23| 国产免费一区二区| 久久激情av| 精品免费一区二区三区蜜桃| 超碰一区二区三区| 国产精品日韩一区二区| 亚洲精品一区二区三区中文字幕 | ,一级淫片a看免费| 欧美天堂一区二区三区| 中文字幕一区二区三区波野结| 欧洲色大大久久| 中文字幕精品一区二区精| 欧美综合在线视频| 一区二区www| 欧美精品v国产精品v日韩精品| 亚洲第一导航| 88久久精品| 翡翠波斯猫1977年美国| 国产另类在线| 麻豆av一区二区三区| 最新国产一区| 亚洲国产日韩欧美| 婷婷精品进入| 国产传媒久久久| 中文日韩在线| 熟妇人妻无乱码中文字幕真矢织江| 久久一区视频| 亚洲综合激情视频| 国产成人8x视频一区二区| 日韩免费高清一区二区| 久久久国产一区二区三区四区小说 | 国产一级18片视频| 欧美丝袜自拍制服另类| 97超碰人人草| 精品少妇一区二区三区视频免付费| 人成网站在线观看| 国产一区二区精品丝袜| 欧洲日本在线| 欧美精品久久久久久久久| 中国色在线日|韩| 国产日韩精品综合网站| xvideos.蜜桃一区二区| 麻豆传媒一区| **女人18毛片一区二区| 欧美啪啪免费视频| 免费高清在线视频一区·| 初高中福利视频网站| 91视频免费看| 日本天堂中文字幕| 色婷婷精品大在线视频| 精品国产九九九| 亚洲老头老太hd| av在线播放国产| 日本精品免费观看| 成人综合日日夜夜| 欧美精品亚洲精品| 欧美激情视频一区二区三区在线播放 | 99热在线精品观看| 中文字幕 欧美日韩| 99精品视频在线免费观看| 国精产品视频一二二区| 婷婷国产v国产偷v亚洲高清| 一卡二卡三卡在线| 亚洲欧美一区二区三区四区| 2024短剧网剧在线观看| 国产精品爱久久久久久久| 精品精品国产三级a∨在线| 亚洲精品国产精品久久| 国产女优一区| 欧美人与性动交α欧美精品| 国产精品蜜臀av| 人人爽人人爽人人片av| 欧美v亚洲v综合ⅴ国产v| 在线播放麻豆| 国产成人精品久久二区二区91| 成人看片黄a免费看视频| 26uuu成人| 蜜桃久久av一区| 一区二区三区四区免费| 午夜久久久久久电影| 国产视频第一页| 日韩中文字幕在线视频播放| 波多野结衣亚洲一二三| 国产高清在线精品一区二区三区| 婷婷色综合网| 一道本在线免费视频| 国产亚洲精品福利| 黑人一级大毛片| 亚洲精品第一国产综合精品| 午夜伦理在线视频| 91色中文字幕| 偷偷www综合久久久久久久| av在线无限看| 久久精品欧美日韩精品| 青青视频在线免费观看| 亚洲精品久久久久久下一站| 91www在线| 成人午夜电影免费在线观看| 最新国产精品久久久| 91免费视频污| 亚洲免费伊人电影| 精品人妻一区二区三区蜜桃| 蜜月aⅴ免费一区二区三区| 国产亚洲亚洲国产一二区| 小说区视频区图片区| 精品在线一区二区三区| 性少妇xx生活| 欧美精品黑人性xxxx| 国产91在线视频蝌蚪| 91久热免费在线视频| 欧美1区免费| 日本少妇一级片| 亚洲高清三级视频| 少妇性bbb搡bbb爽爽爽欧美| 欧美影院在线播放| 国产一区2区| 在线观看岛国av| 一区二区在线免费| 黄色一级大片在线免费看国产一| 久久久中精品2020中文| 国产伦乱精品| 已婚少妇美妙人妻系列| 中文乱码免费一区二区| 91麻豆国产在线| 欧美老女人xx| 欧美福利在线播放网址导航| 成人午夜视频免费在线观看| 国产蜜臀av在线一区二区三区| 亚洲天堂视频网| 久久99亚洲热视| 同性恋视频一区| 色乱码一区二区三区在线| 尤物视频一区二区| 深夜福利免费在线观看| 国产精品日日摸夜夜添夜夜av| 亚洲精品小说| 久久久国产精品无码| 色天天综合色天天久久| 黄视频在线观看网站| 国产精品一区二区免费看| 玖玖国产精品视频| 欧美丰满熟妇bbbbbb| 亚洲精品永久免费精品| 色综合视频一区二区三区44| 成人小视频在线观看免费| 久久精品一区二区三区四区 | 亚洲成av人片在线观看香蕉| 小草在线视频免费播放| 中文精品一区二区三区| 成人午夜在线播放| 五月激情丁香网| 欧美激情在线视频二区| 欧美精品尤物在线观看| 午夜影院免费观看视频| 欧美特级www| 超碰在线caoporen| 日本一区二区三区精品视频| 国产成人在线视频播放| 天天干天天操天天操| 九色91av视频|