剛剛，Thinking Machines Lab博客提出在策略蒸餾，Qwen被cue 38次

2025-10-28 09:09:51

我們探討了在策略蒸餾在訓(xùn)練小型模型進(jìn)行數(shù)學(xué)推理或持續(xù)學(xué)習(xí)助手等方面的應(yīng)用。我們將在策略蒸餾與其他兩種后訓(xùn)練方法進(jìn)行了比較：離策略蒸餾和在策略 RL。

剛剛，不發(fā)論文、愛發(fā)博客的 Thinking Machines Lab （以下簡稱 TML）再次更新，發(fā)布了一篇題為《在策略蒸餾》的博客。

在策略蒸餾（on-policy distillation）是一種將強(qiáng)化學(xué)習(xí) (RL) 的糾錯(cuò)相關(guān)性與 SFT 的獎(jiǎng)勵(lì)密度相結(jié)合的訓(xùn)練方法。在將其用于數(shù)學(xué)推理和內(nèi)部聊天助手時(shí)，TML 發(fā)現(xiàn)在策略蒸餾可以極低的成本超越其他方法。

該公司 CEO Mira Murati 表示，這種方法可用于小模型，使其具備強(qiáng)大的領(lǐng)域性能和持續(xù)學(xué)習(xí)能力。

值得注意的是，在這篇新博客中，TML 明確表示這項(xiàng)新成果受到了 Qwen 團(tuán)隊(duì)研究的啟發(fā)，并且其實(shí)驗(yàn)過程中也大量用到了 Qwen3 系列模型。事實(shí)上，在原英文博客中，「Qwen」這個(gè)關(guān)鍵詞一共出現(xiàn)了 38 次之多！比小米 17 系列發(fā)布會雷總提到「蘋果」的 37 次還多一次。

作為一家明星創(chuàng)業(yè)公司，TML 的更新也吸引了廣泛關(guān)注。有人總結(jié)其優(yōu)勢：

更是有網(wǎng)友盛贊，TML 才是真 Open AI。

博客地址：https://thinkingmachines.ai/blog/on-policy-distillation/

這篇博客的主要作者是 Thinking Machines Lab 研究者 Kevin Lu。他之前曾在 OpenAI 工作，領(lǐng)導(dǎo)了 4o-mini 的發(fā)布，并參與過 GPT-5 series、GPT-oss、o3 & o4-mini、4.1-nano & 4.1-mini、o1-mini、o3-mini 等模型的研發(fā)工作。

下面我們就來詳細(xì)看看這篇博客的內(nèi)容。

大型語言模型（LLM）能夠在特定領(lǐng)域展現(xiàn)出專家級的水平。這是幾種能力共同作用的結(jié)果，包括：對輸入的感知、知識檢索、規(guī)劃選擇和可靠執(zhí)行。

要實(shí)現(xiàn)這一點(diǎn)，需要一系列的訓(xùn)練方法。我們可以將其大致分為三個(gè)階段：

預(yù)訓(xùn)練（Pre-training）：教授通用能力，例如語言使用、寬泛的推理和世界知識。
中訓(xùn)練（Mid-training）：傳授領(lǐng)域知識，例如代碼、醫(yī)療數(shù)據(jù)庫或公司內(nèi)部文件。
后訓(xùn)練（Post-training）：引導(dǎo)出目標(biāo)行為，例如遵循指令、解決數(shù)學(xué)問題或聊天。

在特定專業(yè)領(lǐng)域，經(jīng)過強(qiáng)化訓(xùn)練的小型模型，其表現(xiàn)往往優(yōu)于那些大型的通用模型。使用小型模型有很多好處：

出于隱私或安全考慮，它們可以進(jìn)行本地部署。
它們可以更輕松地持續(xù)訓(xùn)練和更新。
它們還能節(jié)省推理成本。

想要利用這些優(yōu)勢，就需要為訓(xùn)練的后續(xù)階段選擇正確的方法。

后訓(xùn)練「學(xué)生」模型的方法可以分為兩種：

在策略（On-policy）訓(xùn)練：從學(xué)生模型自身采樣軌跡（rollouts），并為這些軌跡分配某種獎(jiǎng)勵(lì)。
離策略（Off-policy）訓(xùn)練：依賴于某個(gè)外部來源的目標(biāo)輸出，學(xué)生模型需要學(xué)習(xí)模仿這些輸出。

例如，我們可能希望訓(xùn)練一個(gè)緊湊模型來解決如下的數(shù)學(xué)問題：

我們可以通過強(qiáng)化學(xué)習(xí)（RL）來進(jìn)行在策略訓(xùn)練。具體做法是根據(jù)學(xué)生模型的每個(gè)軌跡是否解決了問題來為其評分。這個(gè)評分可以由人工完成，也可以由一個(gè)能可靠給出正確答案的「教師」模型來完成。

在策略訓(xùn)練的優(yōu)勢在于，學(xué)生通過在自己的樣本上訓(xùn)練，能更直接地學(xué)會避免錯(cuò)誤。

但 RL 有一個(gè)主要缺點(diǎn)：它提供的反饋非常稀疏（sparse feedback）。無論使用多少 token，它在每個(gè)訓(xùn)練回合（episode）中教授的比特?cái)?shù)是固定的。

在我們上面的例子中，學(xué)生只知道「21」是錯(cuò)誤答案，并更新模型以避免產(chǎn)生這個(gè)軌跡。但它并沒有學(xué)到究竟錯(cuò)在哪里 —— 是搞錯(cuò)了運(yùn)算順序，還是算術(shù)本身出了錯(cuò)。這種反饋的稀疏性使得 RL 在許多應(yīng)用中效率低下。

離策略訓(xùn)練通常通過監(jiān)督微調(diào)（SFT）來完成，即在一組精心策劃的、針對特定任務(wù)的有標(biāo)注示例上進(jìn)行訓(xùn)練。這些有標(biāo)注示例的來源可以是一個(gè)在當(dāng)前任務(wù)上表現(xiàn)出色的教師模型。

我們可以使用一種稱為蒸餾（distillation）的機(jī)制：訓(xùn)練學(xué)生模型來匹配教師模型的輸出分布。我們在教師的軌跡上進(jìn)行訓(xùn)練，這些軌跡是生成的 token 的完整序列，包括中間的思考步驟。

在每一步，我們既可以使用教師完整的「下一個(gè) token 分布」（常被稱為「logit 蒸餾」），也可以只采樣給定的序列。實(shí)踐證明，采樣序列提供了對教師分布的無偏估計(jì)，并能達(dá)到相同的目標(biāo)。學(xué)生模型會根據(jù)自己生成該 token 的概率有多低，來相應(yīng)地更新對序列中每個(gè) token 的學(xué)習(xí)（在下例中用深色表示）：

事實(shí)證明，蒸餾大型教師模型，在訓(xùn)練小型模型方面非常有效，使其能夠：

遵循指令
進(jìn)行數(shù)學(xué)和科學(xué)推理
從醫(yī)療筆記中提取臨床信息
以及參與多輪聊天對話

用于這些應(yīng)用和其他應(yīng)用的蒸餾數(shù)據(jù)集通常是開源和公開發(fā)布的。

離策略訓(xùn)練的缺點(diǎn)是，學(xué)生是在教師經(jīng)常遇到的上下文中學(xué)習(xí)，而不是在學(xué)生自己將來會經(jīng)常遇到的上下文中學(xué)習(xí)。

這可能會導(dǎo)致復(fù)合錯(cuò)誤（compounding error）：如果學(xué)生早期犯了一個(gè)教師從未犯過的錯(cuò)誤，它會發(fā)現(xiàn)自己越來越偏離在訓(xùn)練中觀察到的狀態(tài)。

當(dāng)我們關(guān)心學(xué)生在長序列上的表現(xiàn)時(shí)，這個(gè)問題變得尤為突出。為了避免這種偏離，學(xué)生必須學(xué)會從自己的錯(cuò)誤中恢復(fù)。

離策略蒸餾觀察到的另一個(gè)問題是，學(xué)生可以學(xué)會模仿教師的風(fēng)格和自信，但不一定能學(xué)會其事實(shí)的準(zhǔn)確性。

打個(gè)比方：如果你在學(xué)習(xí)國際象棋，在策略 RL 就好比在沒有教練指導(dǎo)的情況下自己下棋。贏棋或輸棋的反饋與你自己的下法直接相關(guān)，但每局只收到一次反饋，而且不會告訴你哪些棋步對結(jié)果貢獻(xiàn)最大。離策略蒸餾則類似于觀看一位特級大師下棋 —— 你觀察到的是非常高超的棋步，但這些棋步是在新手玩家很少會遇到的棋局狀態(tài)下走出的。

我們希望能將 RL 的在策略相關(guān)性與蒸餾的密集獎(jiǎng)勵(lì)信號結(jié)合起來。

對于學(xué)習(xí)國際象棋來說，這就好比有一位老師來為你自己的每一步棋打分，從「大錯(cuò)特錯(cuò)」到「妙不可言」。對于 LLM 的后訓(xùn)練來說，這就是在策略蒸餾（on-policy distillation）。

在策略蒸餾 —— 集兩者之長

在策略蒸餾的核心思想是：從學(xué)生模型中采樣軌跡，并使用一個(gè)高性能的教師模型來為每個(gè)軌跡的每一個(gè) token 評分。

回到我們上面的數(shù)學(xué)例子，在策略蒸餾會給解題的每一步打分，懲罰那些導(dǎo)致學(xué)生得出錯(cuò)誤答案的錯(cuò)誤步驟，同時(shí)強(qiáng)化那些執(zhí)行正確的步驟。

在這篇文章中，我們探討了在策略蒸餾在以下任務(wù)上的應(yīng)用：

1. 訓(xùn)練模型進(jìn)行數(shù)學(xué)推理。

2. 訓(xùn)練一個(gè)兼具領(lǐng)域知識和指令遵循能力的助手模型。

我們在已經(jīng)具備預(yù)訓(xùn)練和中訓(xùn)練基礎(chǔ)能力的模型上應(yīng)用在策略蒸餾。我們發(fā)現(xiàn)，這是一種廉價(jià)而強(qiáng)大的后訓(xùn)練方法，它成功將在策略訓(xùn)練的優(yōu)勢和密集獎(jiǎng)勵(lì)信號結(jié)合到了一起。

我們的在策略蒸餾工作借鑒了 DAGGER（Ross et al, 2010），這是一種迭代式的 SFT 算法，它包含了教師對學(xué)生訪問過的狀態(tài)的評估。

它也類似于過程獎(jiǎng)勵(lì)建模（Lightman et al, 2023），這是一種 RL 方法，會對學(xué)生模型思維鏈中的每一步都進(jìn)行評分。

我們擴(kuò)展了 Agarwal et al.（2023）和 Qwen3 團(tuán)隊(duì)（2025）之前的在策略蒸餾工作。使用 Tinker 訓(xùn)練 API，我們復(fù)刻了 Qwen3 的成果，即通過在策略蒸餾在推理基準(zhǔn)上實(shí)現(xiàn)了同等性能，而成本僅為 RL 的一小部分。

實(shí)現(xiàn)

你可以在這個(gè) Tinker cookbook 中跟著學(xué)習(xí)實(shí)現(xiàn)的每一步：

https://github.com/thinking-machines-lab/tinker-cookbook/tree/main/tinker_cookbook/recipes/distillation

損失函數(shù)：反向 KL

在策略蒸餾可以使用多種損失函數(shù)來為學(xué)生的軌跡評分。為簡單起見，我們選擇逐 token 的反向 KL（reverse KL）—— 即在給定相同先前軌跡的條件下，學(xué)生（π_θ）和教師（π_teacher）在每個(gè) token 上的分布之間的散度：

我們的獎(jiǎng)勵(lì)函數(shù)會最小化反向 KL，這會促使學(xué)生在自己所處的每種狀態(tài)下都去近似教師的行為。當(dāng)學(xué)生的行為與教師完全一致時(shí)，反向 KL 為零。為簡單起見，我們使用的折扣因子為零：在任何給定的時(shí)間步，學(xué)生只優(yōu)化眼前的下一個(gè) token，不考慮未來的 token。

反向 KL 與 RL 有著天然的協(xié)同作用，RL 通常優(yōu)化由獎(jiǎng)勵(lì)模型引導(dǎo)的某種序列級反向 KL。然而，與實(shí)踐中的大多數(shù)獎(jiǎng)勵(lì)模型不同，反向 KL 是「不可破解的」（unhackable），因?yàn)閺慕處熌Ｐ偷慕嵌葋砜矗?KL 總是對應(yīng)著高概率的期望行為。反向 KL 的另一個(gè)有用特性是它是「尋找眾數(shù)（mode seeking）」的 —— 它學(xué)習(xí)一種特定行為（教師的行為），而不是將其分布分散在幾個(gè)次優(yōu)選項(xiàng)上。

這種方法可節(jié)省大量計(jì)算資源。因?yàn)樗恍枰却粋€(gè)軌跡完成采樣才能計(jì)算獎(jiǎng)勵(lì)，所以我們可以使用更短或部分的軌跡進(jìn)行訓(xùn)練。查詢教師的對數(shù)概率也只需要大型模型進(jìn)行一次前向傳播，而軌跡則是由更小、更廉價(jià)的學(xué)生模型生成的。

我們也不需要單獨(dú)的獎(jiǎng)勵(lì)或標(biāo)注模型。將基于蒸餾的逐 token 獎(jiǎng)勵(lì)與序列級的環(huán)境獎(jiǎng)勵(lì)結(jié)合起來可能會有好處；這是未來一個(gè)有趣的潛在研究領(lǐng)域。

圖解

下面我們來看一個(gè)真實(shí)的例子，這是一個(gè)錯(cuò)誤的學(xué)生軌跡，由教師模型進(jìn)行評分。這個(gè)例子來自 SimpleBench，它要求模型做出一個(gè)關(guān)鍵觀察：問題的前提很重要。正確答案是「B. 0」，因?yàn)楸鶋K在煎鍋里會融化。而學(xué)生模型（Qwen3-4B-Instruct-2507）錯(cuò)誤地將其視為一個(gè)純粹的數(shù)學(xué)問題，沒有考慮物理背景。

顏色越深，代表該 token 受到教師模型（Qwen3-235B-A22B-Instruct-2507）的懲罰越高（教師模型正確解決了這個(gè)問題）。

我們看到，它懲罰了那些引導(dǎo)學(xué)生誤入歧途的短語的起始 token，這直觀上對應(yīng)了引導(dǎo)推理的重要「分叉 token」（forking tokens）。最終答案（雖然是錯(cuò)的）并沒有受到懲罰 —— 因?yàn)樵诮o定前面所有序列的條件下，這個(gè)答案是完全可預(yù)測的。

偽代碼

我們在 Tinker 的 RL 腳本之上實(shí)現(xiàn)了在策略蒸餾，該腳本已經(jīng)實(shí)現(xiàn)了采樣、獎(jiǎng)勵(lì)計(jì)算和策略梯度式的訓(xùn)練。

地址：https://thinkingmachines.ai/blog/on-policy-distillation/(https://github.com/thinking-machines-lab/tinker-cookbook/blob/main/tinker_cookbook/rl/train.py)

初始化教師客戶端：Tinker API 可以輕松地為不同模型創(chuàng)建不同的客戶端。我們使用采樣客戶端，因?yàn)槲覀儾恍枰ㄟ^教師模型傳播對數(shù)概率。
采樣軌跡：我們像在 RL 中一樣從學(xué)生模型中采樣軌跡。在采樣期間，RL 已經(jīng)計(jì)算了學(xué)生的對數(shù)概率 log π_θ(x），用作重要性采樣損失的一部分。
計(jì)算獎(jiǎng)勵(lì)：我們用 compute_logprobs 函數(shù)在采樣出的軌跡上查詢教師客戶端，它會返回教師在學(xué)生采樣的 token x 上的對數(shù)概率 log π_teacher (x）。然后我們用這個(gè)來計(jì)算反向 KL。
使用 RL 進(jìn)行訓(xùn)練：我們將逐 token 的優(yōu)勢（advantage）設(shè)置為負(fù)的反向 KL，并調(diào)用 RL 的重要性采樣損失函數(shù)來對學(xué)生模型執(zhí)行訓(xùn)練更新。

偽代碼如下：

在下面的實(shí)驗(yàn)中，我們通常將在策略蒸餾應(yīng)用于已經(jīng)過特定領(lǐng)域知識中訓(xùn)練的模型。這種訓(xùn)練提高了學(xué)生生成教師分布范圍內(nèi)的 token 的概率，盡管這通常遠(yuǎn)不足以復(fù)刻教師的性能。通常，正如我們將在個(gè)性化示例中看到的，生成相關(guān) token 的概率開始時(shí)為零，因?yàn)閷W(xué)生缺乏任何相關(guān)的領(lǐng)域知識。

我們將使用在策略蒸餾進(jìn)行后訓(xùn)練，并將其與訓(xùn)練專家模型的其他最后關(guān)鍵階段的方法進(jìn)行比較。

蒸餾以獲得推理能力

我們使用蒸餾來訓(xùn)練 Qwen3-8B-Base 模型的數(shù)學(xué)推理能力，并使用 Qwen3-32B 作為教師模型。教師（Qwen3-32B）和學(xué)生（Qwen3-8B-Base）都是目前 Tinker 上支持的模型，因此你可以使用 Tinker cookbook 復(fù)現(xiàn)我們的實(shí)驗(yàn)。

離策略蒸餾

如前所述，我們所有的實(shí)驗(yàn)都以離策略蒸餾（即在教師生成的示例數(shù)據(jù)集上進(jìn)行監(jiān)督微調(diào)）的形式作為中訓(xùn)練的起點(diǎn)。用于數(shù)學(xué)推理的數(shù)據(jù)集是 OpenThoughts-3，這是一個(gè)由 QwQ-32B（一個(gè)類似于 Qwen3-32B 的推理模型）生成的推理提示和響應(yīng)的集合。

在 40 萬個(gè)提示上對學(xué)生模型（Qwen3-8B-Base）進(jìn)行全參數(shù)微調(diào)（full fine-tuning），在 AIME'24（一個(gè)數(shù)學(xué)問題基準(zhǔn)測試）上獲得了 60% 的分?jǐn)?shù)。我們也可以使用 LoRA 進(jìn)行訓(xùn)練，但在高容量數(shù)據(jù)集上訓(xùn)練時(shí)，它落后于全參數(shù)微調(diào)。在所有情況下，我們都看到性能呈對數(shù)線性增長 —— 最初的性能提升很廉價(jià)，但后期的提升成本高昂。

我們可以將在 40 萬個(gè)提示上微調(diào)過的模型視為一個(gè)檢查點(diǎn)，然后嘗試各種后訓(xùn)練方法，將其在 AIME’24 基準(zhǔn)上的分?jǐn)?shù)從 60% 提高到 70%。

默認(rèn)方法是在更多提示上進(jìn)行微調(diào)，即繼續(xù)離策略蒸餾的過程。根據(jù)對數(shù)線性趨勢推斷，我們估計(jì)模型在大約 200 萬個(gè)提示上能達(dá)到 70% 的分?jǐn)?shù)。這個(gè)推斷需要 scaling law 持續(xù)有效而不停滯，這并不簡單。

強(qiáng)化學(xué)習(xí)

Qwen3 技術(shù)報(bào)告稱，在類似的 SFT 初始化基礎(chǔ)上，通過 17,920 個(gè) GPU 小時(shí)的 RL，在基準(zhǔn)測試上達(dá)到了 67.6% 的性能。這很難與蒸餾的成本直接比較，但基于對 SFT 訓(xùn)練堆棧的一些合理假設(shè)，這與在 200 萬個(gè)離策略蒸餾提示上訓(xùn)練的成本相似。

Qwen 團(tuán)隊(duì)還報(bào)告稱，使用在策略蒸餾，能以 RL 成本的十分之一，在 AIME’24 上達(dá)到了 74.4% 的更高分?jǐn)?shù)。這也啟發(fā)了我們的工作。

在策略蒸餾

作為替代方案，我們運(yùn)行了在策略蒸餾。從 40 萬 SFT 檢查點(diǎn)開始，在策略蒸餾在大約 150 個(gè)步驟內(nèi)就達(dá)到了 AIME’24 70% 的成績。

跨方法比較計(jì)算成本并非易事。下面，我們用 FLOPs（浮點(diǎn)運(yùn)算次數(shù)）來計(jì)算成本。

我們發(fā)現(xiàn)，當(dāng) SFT 數(shù)據(jù)集是現(xiàn)成的（如我們的 OpenThoughts-3 示例）或在多次訓(xùn)練中被攤銷時(shí)，基線成本降低了 9 倍。

然而，我們經(jīng)常希望在一個(gè)沒有現(xiàn)成離策略蒸餾數(shù)據(jù)集的新任務(wù)上訓(xùn)練一個(gè)小模型。如果我們將教師模型的全部成本（即包括從教師模型采樣的額外成本）計(jì)算在離策略蒸餾中，那么總成本可降低約 30 倍。

用于個(gè)性化的蒸餾

除了將小型模型訓(xùn)練到在通用任務(wù)上表現(xiàn)出色之外，蒸餾的另一個(gè)用例是個(gè)性化。例子包括在對話中遵循特定的語氣和輸出格式，或者像工具使用和成本預(yù)算這樣的能力。我們經(jīng)常希望在傳授新領(lǐng)域知識的同時(shí)訓(xùn)練這種行為。

同時(shí)訓(xùn)練這兩者通常很困難，輕量級微調(diào)（如 LoRA）往往不足以實(shí)現(xiàn)這一目標(biāo)，因此需要更大規(guī)模的中訓(xùn)練。在掌握新知識的基礎(chǔ)上學(xué)習(xí)后訓(xùn)練行為，需要一個(gè)復(fù)雜的后訓(xùn)練堆棧，通常由專有數(shù)據(jù)和獎(jiǎng)勵(lì)模型組成。雖然前沿實(shí)驗(yàn)室可以做到這一點(diǎn)，但其他從業(yè)者要復(fù)刻可能很困難或成本高昂。

在本節(jié)中，我們展示了在策略蒸餾可以有效地用于后訓(xùn)練專業(yè)化行為。這種方法也適用于持續(xù)學(xué)習(xí)或「測試時(shí)訓(xùn)練」：即在模型部署后更新它們，而不會導(dǎo)致基礎(chǔ)性能下降。我們使用一個(gè)在公司內(nèi)部文檔上進(jìn)行中訓(xùn)練的模型作為應(yīng)用示例。

訓(xùn)練一個(gè)內(nèi)部助手

定制模型的一個(gè)常見目標(biāo)是充當(dāng)助手：在某個(gè)領(lǐng)域擁有專家知識，并且具有可靠的助手式行為。我們可能需要對這兩者進(jìn)行單獨(dú)訓(xùn)練，尤其是當(dāng)專業(yè)領(lǐng)域知識無法僅從預(yù)訓(xùn)練數(shù)據(jù)中學(xué)到，或者學(xué)習(xí)它會干擾行為時(shí)。

我們的例子是一個(gè)公司內(nèi)部助手，我們有兩個(gè)期望：

1. 模型對該領(lǐng)域（公司文檔）知識淵博。預(yù)訓(xùn)練模型沒有見過任何公司內(nèi)部文檔，因此無論模型規(guī)模多大，都只能猜測。我們將使用內(nèi)部知識召回評估（「內(nèi)部 QA」）來衡量這一點(diǎn)。

2. 模型表現(xiàn)出強(qiáng)大的后訓(xùn)練行為，即遵循指令。我們將使用常用的 IF-eval 來衡量這一點(diǎn)。

訓(xùn)練新知識會降低已學(xué)到的行為

我們將從 Qwen3-8B（而不是基礎(chǔ)模型）開始。Qwen3-8B 已經(jīng)通過 RL 進(jìn)行了后訓(xùn)練，掌握了作為助手有用的技能，如指令遵循和推理。先前的研究表明，這種強(qiáng)化學(xué)習(xí)只訓(xùn)練了原始模型的一小部分子網(wǎng)絡(luò)，因此當(dāng)網(wǎng)絡(luò)在大量數(shù)據(jù)上進(jìn)一步訓(xùn)練時(shí)，可能會變得很脆弱。我們研究了這種情況發(fā)生的程度，以及如何恢復(fù)所需的行為。

為了減少這種災(zāi)難性遺忘（catastrophic forgetting），中訓(xùn)練中一種常見的做法是混入來自模型原始預(yù)訓(xùn)練分布的「背景數(shù)據(jù)」。

在這種情況下，我們無法訪問 Qwen3 的預(yù)訓(xùn)練分布。因此，我們考慮一個(gè)更強(qiáng)、成本更高的基線：我們獲取 Tulu3 提示（一個(gè)廣泛的聊天和指令遵循數(shù)據(jù)集），并使用 Qwen3-8B 重新采樣它們，以充當(dāng)聊天背景數(shù)據(jù)。

然后，我們在內(nèi)部文檔和聊天數(shù)據(jù)的不同混合比例上微調(diào) Qwen3-8B。提高文檔數(shù)據(jù)比例會直接提升模型的知識水平。然而，盡管混入至少 30% 的聊天數(shù)據(jù)有助于保留大部分指令遵循能力，但沒有任何一種權(quán)重配比能維持在 IF-eval 上的原始性能。

對于任何給定的混合比例，我們都觀察到 IF-eval 性能在微調(diào)過程中下降。

另一種常用的方法是使用 LoRA 來約束參數(shù)更新，從而減少災(zāi)難性遺忘的可能性。然而，這種方法仍然不足以保留 IF-eval，而且 LoRA 學(xué)到的知識也更少。

在策略蒸餾恢復(fù)后訓(xùn)練行為

接下來，我們試圖在對內(nèi)部文檔進(jìn)行微調(diào)后，恢復(fù)指令遵循行為。這種行為最初是用 RL 訓(xùn)練的，成本高昂，而且正如我們所見，很脆弱。

取而代之的是，我們在 Tulu3 提示上，使用模型的早期版本 Qwen3-8B 作為教師，來進(jìn)行在策略蒸餾。請注意，這個(gè)訓(xùn)練階段與內(nèi)部文檔數(shù)據(jù)無關(guān)，其唯一目的是恢復(fù)指令遵循能力。

使用模型的早期版本作為教師來「重新喚起」在微調(diào)過程中丟失的能力，這使得在策略蒸餾在持續(xù)學(xué)習(xí)（continuous learning）方面非常有前景。我們可以交替進(jìn)行「在新數(shù)據(jù)上微調(diào)」和「蒸餾以恢復(fù)行為」這兩個(gè)階段，使我們的模型能夠隨著時(shí)間的推移學(xué)習(xí)并保持知識的最新狀態(tài)。

在 70-30 混合的內(nèi)部文檔數(shù)據(jù)和聊天數(shù)據(jù)上微調(diào)后，在策略蒸餾幾乎完全恢復(fù)了在 IF-eval 上的性能，且沒有損失任何知識；我們還觀察到聊天能力和模型在內(nèi)部 QA 評估中的「知識」性能之間存在一些正向遷移。

從本質(zhì)上講，我們將語言模型本身視為一個(gè)獎(jiǎng)勵(lì)模型，高概率的行為會受到獎(jiǎng)勵(lì)。這與逆向 RL（inverse RL）有關(guān)：高概率的行為對應(yīng)于假定的潛在偏好模型中的有利獎(jiǎng)勵(lì)。任何經(jīng)過指令調(diào)優(yōu)的開源權(quán)重模型都可以在這個(gè)意義上用作獎(jiǎng)勵(lì)模型；我們只需要能訪問 compute_logprobs 函數(shù)。

討論

密集監(jiān)督可極大提高計(jì)算效率

強(qiáng)化學(xué)習(xí)和在策略蒸餾都通過反向 KL 進(jìn)行學(xué)習(xí)，修剪基礎(chǔ)策略中存在的動作空間。區(qū)別在于獎(jiǎng)勵(lì)的密度。

在 LoRA Without Regret 中，我們提出了信息論的觀點(diǎn)，即強(qiáng)化學(xué)習(xí)每個(gè)回合只教授 O (1）的比特。相比之下，蒸餾每個(gè)回合教授 O (N）比特，其中 N 是 token 的數(shù)量。通過更密集的獎(jiǎng)勵(lì)，我們到底能獲得多少訓(xùn)練效率的提升？

我們做了一個(gè)實(shí)驗(yàn)來直接比較兩者：

從 Qwen3-8B-Base（沒有額外的 SFT）開始。
在 DeepMath 上運(yùn)行 RL。我們使用 128 的 LoRA rank。生成的模型是蒸餾的教師。
從 RL 訓(xùn)練的模型（2）在策略蒸餾回基礎(chǔ)模型（1）。

從相同的初始化開始，在策略蒸餾學(xué)習(xí) RL 訓(xùn)練的策略所需的梯度步數(shù)大約少 7-10 倍，這對應(yīng)于 50-100 倍的計(jì)算效率提升。

我們看到，蒸餾達(dá)到教師性能水平的速度比 RL 快了大約 7-10 倍。反向 KL 下降到接近零，AIME 分?jǐn)?shù)在 10 個(gè)梯度步內(nèi)就得以恢復(fù)，而 RL 則需要 70 步才能達(dá)到該水平。

蒸餾可以有效地重用訓(xùn)練數(shù)據(jù)以提高數(shù)據(jù)效率

對于從業(yè)者來說，收集大量的訓(xùn)練提示可能既困難又耗時(shí)。因此，我們希望能夠在訓(xùn)練中多次重用提示。

使用 RL 時(shí)，在同一個(gè)提示上訓(xùn)練多個(gè)輪次（epochs）常常導(dǎo)致對最終答案的簡單記憶。

相比之下，在策略蒸餾學(xué)習(xí)的是近似教師的完整分布，而不是記憶單個(gè)答案。這使我們能夠用同一個(gè)提示訓(xùn)練多個(gè)樣本。

我們重復(fù)了上述在數(shù)學(xué)上訓(xùn)練 Qwen3-8B-Base 的實(shí)驗(yàn)，但這次只使用數(shù)據(jù)集中隨機(jī)選擇的一個(gè)提示。我們在這個(gè)提示上連續(xù)訓(xùn)練了 20 步。盡管我們只在一個(gè)提示上訓(xùn)練，但我們確實(shí)達(dá)到了與教師模型相當(dāng)?shù)男阅堋?/span>

RL 在語義策略空間中搜索

我們已經(jīng)看到，在策略蒸餾可以用少得多的訓(xùn)練步驟來復(fù)刻 RL 提供的學(xué)習(xí)效果。

一種解釋是，與預(yù)訓(xùn)練不同，RL 并未在梯度步驟本身上花費(fèi)大量計(jì)算。我們應(yīng)該認(rèn)為 RL 將其大部分計(jì)算用在了搜索（search）上 —— 即推出一個(gè)策略并分配功勞 —— 而不是進(jìn)行更新。

預(yù)訓(xùn)練通過隨機(jī)梯度下降探索高維參數(shù)空間。預(yù)訓(xùn)練需要海量信息，并且非常難以蒸餾。

相比之下，我們應(yīng)該認(rèn)為 RL 是在探索語義策略（semantic strategies）的空間。RL 不是在參數(shù)空間中探索，而是靠運(yùn)氣「偶然」發(fā)現(xiàn)新策略 —— 它只是從它已有的權(quán)重集合中隨機(jī)抽樣。

一旦找到了一個(gè)好的策略，蒸餾就成了學(xué)習(xí)它的捷徑：在策略蒸餾不需要對 RL 課程中的中間策略進(jìn)行建模，而只需要學(xué)習(xí)最終的策略。

打個(gè)比方：在科學(xué)研究中，我們花費(fèi)大量時(shí)間和資源來尋找答案和探索新思想。一旦發(fā)現(xiàn)一個(gè)結(jié)果，用自然語言將其教給別人就簡單得多。相比之下，像運(yùn)動這樣的直覺性身體技能，就很難教給別人，因?yàn)檫@些知識存在于一種天生的語言中（例如，肌肉記憶），只有我們自己才能輕易理解。運(yùn)動只能通過反復(fù)練習(xí)來學(xué)習(xí)。

作為持續(xù)學(xué)習(xí)工具的在策略學(xué)習(xí)

在關(guān)于個(gè)性化的部分，我們探討了在策略蒸餾將專業(yè)訓(xùn)練行為重新引入模型的能力。這可以推廣到更廣泛的持續(xù)學(xué)習(xí)（continual learning）任務(wù)，這些任務(wù)要求在不降低先前能力的情況下獲取新知識。

先前的工作發(fā)現(xiàn)，在策略學(xué)習(xí)（RL）比較少地遺忘。然而，RL 只能塑造行為 —— 它不能很好地教授新知識，因此不足以用于持續(xù)學(xué)習(xí)。

在上一節(jié)中，我們看到 SFT（包括離策略蒸餾）在支持持續(xù)學(xué)習(xí)方面是失敗的，因?yàn)樗鼤档托袨椤?/span>

我們更深入地研究了這個(gè)問題。當(dāng)我們在模型自己的樣本數(shù)據(jù)集上運(yùn)行 SFT 時(shí)會發(fā)生什么？我們看到，任何大于零的實(shí)用學(xué)習(xí)率都會導(dǎo)致指令遵循評估的性能下降！

一個(gè)可能的解釋是，雖然 KL 散度在期望上為 0，但每個(gè)有限的批次（batch）在實(shí)踐中都會表現(xiàn)出略微不同的分布。在這些有限批次上訓(xùn)練會導(dǎo)致非零的梯度更新，這會使更新后的模型策略偏離其原始狀態(tài)。

在策略蒸餾始終保持在在策略狀態(tài)，并且由于教師保持不變，學(xué)生會收斂于教師的期望行為，而不會像 SFT 那樣在自蒸餾設(shè)置中出現(xiàn)性能衰退。這使得在策略蒸餾成為一種非常有前景的持續(xù)學(xué)習(xí)工具。

總結(jié)

我們發(fā)現(xiàn)，在策略蒸餾結(jié)合了兩者的優(yōu)點(diǎn)：在策略訓(xùn)練的可靠性能以及密集獎(jiǎng)勵(lì)信號帶來的成本效益。

后訓(xùn)練是達(dá)到前沿模型能力的關(guān)鍵部分。通過利用來自學(xué)生的在策略采樣和來自教師的密集監(jiān)督，在策略蒸餾方案能夠以前沿高計(jì)算量 RL 運(yùn)行成本的一小部分，達(dá)到這些能力。

我們的實(shí)現(xiàn)可以在 Tinker cookbook 中找到。我們的工作探索了在策略蒸餾的簡單直接的實(shí)例化，以清晰地展示其優(yōu)勢。我們希望繼續(xù)研究蒸餾的新應(yīng)用、改進(jìn)教師監(jiān)督的新方法，以及提高數(shù)據(jù)效率和持續(xù)學(xué)習(xí)的方法。

在 Thinking Machines，我們的使命是為人們提供兼具前沿性能、適應(yīng)性和個(gè)性化的 AI 模型。在策略蒸餾是實(shí)現(xiàn)這一目標(biāo)的有力工具。

責(zé)任編輯：張燕妮來源：機(jī)器之心