大模型微調(diào)范式認知再被顛覆?UIUC、Amazon團隊最新研究指出SFT災(zāi)難性遺忘問題或被誤解
在大模型微調(diào)實踐中,SFT(監(jiān)督微調(diào))幾乎成為主流流程的一部分,被廣泛應(yīng)用于各類下游任務(wù)和專用場景。比如,在醫(yī)療領(lǐng)域,研究人員往往會用領(lǐng)域?qū)贁?shù)據(jù)對大模型進行微調(diào),從而顯著提升模型在該領(lǐng)域特定任務(wù)上的表現(xiàn)。
然而,問題隨之而來:SFT 是否會讓模型 “遺忘” 原本的通用能力? 過去的研究中,不少文獻指出,領(lǐng)域微調(diào)固然能帶來專用性能的提升,但代價是模型在數(shù)學(xué)推理、代碼生成、指令跟隨等通用 benchmark 上出現(xiàn)顯著退化。這種現(xiàn)象被廣泛稱為 “災(zāi)難性遺忘”。然而,這一長期流傳的看法或許值得重新審視。
來自 UIUC、Amazon、UT Austin 以及 University at Buffalo 的研究團隊最新發(fā)布的一項工作就給出了不同的答案。研究表明,領(lǐng)域特定的 SFT 并不總是會嚴重削弱模型的通用能力。相反,在訓(xùn)練中采用更小的學(xué)習(xí)率,模型就可能在兩方面取得平衡:
- 在通用任務(wù)上的能力遺忘被大幅緩解;
- 在目標領(lǐng)域上的表現(xiàn)依然與大學(xué)習(xí)率相當(dāng)。
換句話說,遺忘問題可能更多源于訓(xùn)練策略的選擇,而不是單單 SFT 這一范式本身。

- 論文標題:SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
- 論文地址:https://arxiv.org/pdf/2509.20758
一句話概括:稍微更小的學(xué)習(xí)率能大幅度緩解遺忘,TALR 則是進一步平衡的利器。
實驗細節(jié):重新審視學(xué)習(xí)率對 SFT 帶來的影響
實驗設(shè)置
任務(wù)與數(shù)據(jù)。 領(lǐng)域側(cè)選擇兩個現(xiàn)實強相關(guān)的場景和領(lǐng)域?qū)贁?shù)據(jù)集:MedCalc 和 ESCI 。選擇這兩個數(shù)據(jù)集的原因在于它們代表了開源 LLM 在現(xiàn)實應(yīng)用中表現(xiàn)最薄弱的場景,因此也是最有必要做 domain-specific SFT 的場合。
- MedCalc(醫(yī)療推理):10.1k 訓(xùn)練 / 1.05k 測試,每條樣本含患者筆記與臨床指令;SFT 學(xué)習(xí)的目標為 “推理過程(CoT)+ 最終答案”。指標用 Accuracy。
- ESCI(電商商品多分類問題):49k 訓(xùn)練 / 10k 測試,四類標簽(Exact/Substitute/Complement/Irrelevant)。設(shè)置分 w/ CoT(推理 + 標簽)與 w/o CoT(僅標簽)兩種;主指標用 Balanced Accuracy (BACC) 以應(yīng)對類別不均衡。
模型與評測
選取多種規(guī)模 / 家族的開源 LLM 做實驗:Qwen3-8B、Qwen2.5-7B、Qwen2.5-3B、Qwen3-4B、Gemma3-4B、Gemma3-1B 的 Instruct 模型。統(tǒng)一采用監(jiān)督微調(diào)(SFT),核心控制變量是學(xué)習(xí)率(lr),取 1e-6 / 5e-6 / 2e-5 三檔,其他訓(xùn)練超參遵循常規(guī) SFT 實踐。
SFT 完成后,在不同 lr 下先以目標領(lǐng)域指標挑選最佳 checkpoint,再用 IFEval(指令跟隨)/ GSM8K(數(shù)學(xué))/ HumanEval(代碼) 進行 “通用能力” 評測,報告三者的均值作為總分(General performance)。這一流程貼近 “實際落地優(yōu)先領(lǐng)域效果、隨后回看通用能力” 的場景。
實驗結(jié)果

實驗結(jié)果如圖所示。每個點表示某一 lr 下的(Domain performance,General performance)二元坐標;灰色 “Init” 星形代表微調(diào)前的模型性能。
研究發(fā)現(xiàn)一:更小的學(xué)習(xí)率帶來更優(yōu)折中
在 MedCalc 和 ESCI 上,使用更小的學(xué)習(xí)率(如 1e-6)時,模型能同時保持目標領(lǐng)域的強性能,并顯著減輕通用能力的下降。換句話說,災(zāi)難性遺忘可以通過學(xué)習(xí)率控制來大幅度緩解。
研究發(fā)現(xiàn)二:對于分類問題,僅分類標簽監(jiān)督放寬了學(xué)習(xí)率約束
當(dāng)訓(xùn)練目標只包含最終標簽(不需要中間推理鏈)時,實現(xiàn)理想折中的學(xué)習(xí)率范圍會更寬。在 ESCI (w/o CoT) 的設(shè)定下,學(xué)習(xí)率 5e-6 甚至能表現(xiàn)得和 1e-6 一樣好,這與其他情況形成鮮明對比。
作者進一步在大規(guī)模數(shù)據(jù)集 MetaMathQA 上進行實驗。MetaMathQA 是一個大規(guī)模數(shù)學(xué)推理數(shù)據(jù)集,包含 395k 條訓(xùn)練樣本。實驗采用 DeepSeek-Coder-7B 作為基礎(chǔ)模型。這一模型在數(shù)學(xué)推理任務(wù)上原本表現(xiàn)相對薄弱,因此是一個理想的測試對象。

在訓(xùn)練過程中,研究團隊使用 MetaMathQA 進行監(jiān)督微調(diào),并將 GSM8K 作為目標領(lǐng)域的評測基準。結(jié)果顯示,即便在如此大規(guī)模的數(shù)據(jù)條件下,結(jié)論依然保持一致:更小的學(xué)習(xí)率(在這里 5e-6) 能夠在保持數(shù)學(xué)領(lǐng)域性能的同時(相比于大學(xué)習(xí)率 2e-5),顯著緩解模型在原來擅長的 Coding 能力的退化。換句話說,論文中提出的發(fā)現(xiàn)是同樣適用于大規(guī)模任務(wù)與模型的普適規(guī)律。
注:這里的學(xué)習(xí)率大小都是相對的,不同 task 的能夠達到最佳平衡的學(xué)習(xí)率也不同,比如 MedCalc 和 ESCI 是 1e-6,而 MetaMathQA 是 5e-6。在對應(yīng)的數(shù)據(jù)集和最佳學(xué)習(xí)率下,它們都會盡可能抑制通用能力的遺忘,并且取得和更大學(xué)習(xí)率相匹敵的下游性能。
理論分析
為了更好地解釋這些現(xiàn)象,作者團隊進一步從理論分析的角度尋找了支撐性的 insight。


他們首先得到了一個關(guān)鍵結(jié)論:較小的學(xué)習(xí)率能夠嚴格收緊通用性能下降的上界。換句話說,使用更小的分布更新步長意味著模型在提升目標領(lǐng)域表現(xiàn)的同時,更有保障地保留住已有的通用能力。這正好與實驗中的 Finding 1 相呼應(yīng)。
緊接著,團隊又給出另一條理論解釋:當(dāng)訓(xùn)練目標只包含最終標簽時,模型在每個樣本中遇到的 “難 token” 數(shù)量減少,從而拓寬了可接受的學(xué)習(xí)率范圍。這也就解釋了實驗中 ESCI (w/o CoT) 的現(xiàn)象 —— 為什么在沒有推理鏈的情況下,較大的學(xué)習(xí)率(5e-6) 依然能夠保持良好的折中效果。這對應(yīng)著實驗中的 Finding 2。
小結(jié)與反思
論文在實證和理論分析的基礎(chǔ)上指出,小學(xué)習(xí)率雖然能顯著減輕通用能力的下降,但并不能完全消除這一問題。在某些場景下,即便采用了更小的學(xué)習(xí)率,仍然會觀察到一定程度的通用能力的性能退化。同時,較小的學(xué)習(xí)率雖然在大多數(shù)情況下領(lǐng)域性能與較大學(xué)習(xí)率相差無幾,但在某些任務(wù)里差距依然不可忽視。這意味著,如果應(yīng)用場景里必須優(yōu)先保證目標領(lǐng)域的最高性能,研究者仍然可能選擇使用較大的學(xué)習(xí)率。但隨之而來的問題是:更大的學(xué)習(xí)率幾乎必然帶來更嚴重的通用性能下降。因此,開發(fā)額外的緩解策略,尤其是在大學(xué)習(xí)率條件下抑制遺忘,顯得同樣重要。
為此,作者團隊深入探索更佳的策略。從理論分析進一步得到啟發(fā),作者發(fā)現(xiàn)導(dǎo)致遺忘的關(guān)鍵因素之一是 hard tokens(低概率 tokens) —— 它們在訓(xùn)練中的更新幅度往往遠大于 easy token,從而對通用能力退化有較大影響。這一觀察自然引出了新的思路:可以設(shè)計 “token 自適應(yīng)的 reweighting 策略”,在訓(xùn)練時直接降低 hard token 的損失權(quán)重,從而抑制它們對通用能力的過度侵蝕。
Token 自適應(yīng) Loss 重加權(quán) (TALR)
方法細節(jié)
前面的理論分析已經(jīng)指出,災(zāi)難性遺忘的一個重要來源在于 hard token(低概率 token)。一個自然的思路是:在訓(xùn)練時降低這些 hard token 的權(quán)重。但問題在于,如何自動識別 hard token,并動態(tài)決定它們應(yīng)該被削弱多少? 如果僅僅依賴固定閾值或手工設(shè)定參數(shù),不僅缺乏普適性,也難以適配不同模型與任務(wù)。
為了解決這個問題,作者團隊提出了 TALR(Token-Adaptive Loss Reweighting),即通過建立一個約束優(yōu)化問題進行求解來獲得自適應(yīng)的權(quán)重。其核心思想是:根據(jù)每個 token 的預(yù)測概率,自適應(yīng)地分配權(quán)重;置信度低(概率?。┑?token → 權(quán)重更小,從而削弱這些 hard token 在訓(xùn)練中的過度梯度貢獻。
這種方法通過建立約束優(yōu)化問題實現(xiàn),可以得到解析解,訓(xùn)練時在每個 batch 都會動態(tài)更新權(quán)重,始終與模型的置信度保持一致。

其中,τ 的選取也是自適應(yīng)的,由在每個 batch 中依據(jù)序列平均損失的中位數(shù)動態(tài)確定。作者指出,這樣的自適應(yīng) τ 的選取可以取得一致比較好的結(jié)果。若固定溫度系數(shù) τ 比如 τ=1,則模型會無法學(xué)習(xí)領(lǐng)域的知識進而在 domain performance 上表現(xiàn)很差。基于此,整體的算法流程如下:

實驗結(jié)果

研究團隊在 MedCalc 基準 上,系統(tǒng)比較了多種具有代表性的災(zāi)難性遺忘緩解策略,包括 L2 正則化、LoRA、Wise-FT(模型平均)、FLOW,以及他們新提出的 TALR 方法。實驗在兩種學(xué)習(xí)率設(shè)定下展開:較小學(xué)習(xí)率 (1e-6) 和 較大學(xué)習(xí)率 (5e-6)。
小學(xué)習(xí)率 (1e-6). 結(jié)果顯示,大多數(shù)方法在這一設(shè)定下表現(xiàn)接近,幾乎都聚集在圖像右上區(qū)域。這說明單純降低學(xué)習(xí)率本身,已經(jīng)能夠在保持領(lǐng)域性能的同時,有效緩解通用能力退化。在小學(xué)率下,TALR 與其他方法相比差距不大,但依然展現(xiàn)出更穩(wěn)定、更平滑的折中表現(xiàn)。
大學(xué)習(xí)率 (5e-6). 當(dāng)學(xué)習(xí)率升高時,通用性能下降的幅度明顯加劇,幾乎所有方法的點位整體下移。在這種更具挑戰(zhàn)性的情況下,TALR 的優(yōu)勢逐漸凸顯:無論在 Qwen2.5-3B 還是 Qwen3-4B 模型上,TALR 都能夠?qū)崿F(xiàn)更優(yōu)的 Pareto 前沿位置,在保持領(lǐng)域增益的同時,顯著減少通用性能的損失。
小結(jié):整體來看,當(dāng)條件允許時,小學(xué)習(xí)率本身已能帶來可靠的折中效果;但在必須依賴較大學(xué)習(xí)率以進一步提升領(lǐng)域性能時,TALR 展現(xiàn)出顯著優(yōu)勢。然而,現(xiàn)有方法仍無法徹底消除高學(xué)習(xí)率帶來的性能退化,這一現(xiàn)象也揭示出未來研究的重要方向 —— 如何探索更強大的緩解策略,以在大學(xué)習(xí)率下兼顧領(lǐng)域能力和通用性能。
Token 層面的深入分析
作者進一步從 token-level 對 SFT 進行分析,首先是計算 model 對每個訓(xùn)練的 token 的置信度(概率),計算如下。


多數(shù) token 容易,少數(shù) “難點” 成瓶頸
在更細粒度的 token 層面,研究團隊進一步揭示了 SFT 過程中隱藏的現(xiàn)象。結(jié)果顯示,對于一個只能取得不到 10% 準確率的模型,大多數(shù)訓(xùn)練數(shù)據(jù)中的 token 對模型來說學(xué)習(xí)難度并不大。換句話說,模型往往能夠以較高置信度預(yù)測這些 token,尤其是在推理鏈條的中后段,一旦上下文信息積累到位,LLM 很容易繼續(xù)生成后續(xù) token。
相比較而言,性能非常差的歸因于一小部分 “hard tokens”—— 即模型在預(yù)測時置信度較低的 token。這類 token 通常出現(xiàn)在序列的早期位置,或是與特定領(lǐng)域的專業(yè)概念相關(guān)。例如,在 MedCalc 數(shù)據(jù)集中,涉及臨床單位換算的 token 往往被模型賦予較低概率,這可能是因為相關(guān)知識在預(yù)訓(xùn)練數(shù)據(jù)中覆蓋不足。這些 “hard tokens” 數(shù)量稀少,但卻可能成為決定性能的關(guān)鍵瓶頸。
統(tǒng)計分析進一步驗證了這一趨勢:從箱線圖中,對于跨多個模型變體的實驗,大部分 token 的概率分布上四分位接近 1,說明模型對大多數(shù) token 的學(xué)習(xí)信心都很高。但與此同時,模型在 MedCalc 這類專用任務(wù)上的零樣本表現(xiàn)依舊偏低,凸顯了少數(shù)高難度 token 的重要性。
TALR 的訓(xùn)練動態(tài):隱含 “課程式” 學(xué)習(xí)
更有趣的是,研究人員發(fā)現(xiàn) TALR 在訓(xùn)練中自發(fā)呈現(xiàn)出一種類似 “課程學(xué)習(xí)(curriculum learning)” 的機制。具體來說,TALR 會減輕置信度過低 token 的梯度更新幅度,優(yōu)先讓模型通過置信度較高的 token 來驅(qū)動優(yōu)化。隨著訓(xùn)練逐步推進,越來越多之前被視為 “難點” 的 token 被納入大幅度更新范圍,訓(xùn)練過程由 “易” 到 “難”,自然形成了一種動態(tài)的學(xué)習(xí)路徑。這一發(fā)現(xiàn)表明,TALR 不僅能在整體上緩解遺忘,還能在細節(jié)上為模型學(xué)習(xí)構(gòu)建更合理的節(jié)奏,使其逐步掌握領(lǐng)域內(nèi)的關(guān)鍵知識點。
結(jié)論與展望
自從 DeepSeek-R1 火了之后,業(yè)界普遍興起了一股 “RL can solve everything” 的浪潮,很多人認為強化學(xué)習(xí)才是大模型能力提升的終極解法,而 SFT(監(jiān)督微調(diào))則顯得不那么重要,甚至逐漸被忽視。事實上,這種看法忽略了一個根基性的事實:RL 的百花齊放,本質(zhì)上是建立在高質(zhì)量 SFT 打下的堅實基礎(chǔ)之上的。沒有強大的 SFT,RL 很難發(fā)揮出現(xiàn)在這樣的效果。換句話說,SFT 依然是一切的基石。
在這項研究中,UIUC 和 Amazon 團隊提供了實證和理論的雙重證據(jù),挑戰(zhàn)了 “領(lǐng)域 SFT 會顯著損害通用能力” 的普遍認知。通過系統(tǒng)化實驗,他們發(fā)現(xiàn):更小的學(xué)習(xí)率能夠帶來更優(yōu)的性能折中,既能保持通用能力,又能提升目標領(lǐng)域表現(xiàn)。在此基礎(chǔ)上,團隊還提出了 TALR(Token-Adaptive Loss Reweighting),進一步緩解了災(zāi)難性遺忘問題。
展望未來,研究人員也指出,沒有單一方法可以徹底解決 SFT 的遺忘問題。小學(xué)習(xí)率與 TALR 是有效的第一步,但更廣泛的數(shù)據(jù)集、更大規(guī)模模型(如 MoE 架構(gòu))、以及更系統(tǒng)的理論指導(dǎo),都有待深入探索。
同時,這項工作也為 更好的領(lǐng)域適配 提供了重要啟發(fā)。例如在醫(yī)學(xué)場景中,很多專門化的醫(yī)療 LLM 反而不如基礎(chǔ)模型,這意味著如何在注入領(lǐng)域知識的同時保留基礎(chǔ)模型的通用能力,是未來值得關(guān)注的關(guān)鍵方向。
此外,論文還提醒業(yè)界:SFT 在 RL 之前的 “預(yù)熱” 階段同樣至關(guān)重要。如果過度 SFT,模型可能會過早穩(wěn)定化,削弱探索能力,從而影響后續(xù) RL 的效果。因此,如何在保持多樣性的同時抑制遺忘,將是下一階段值得深入研究的重要課題。
總的來說,這項研究不僅重申了 SFT 的價值,也為大模型未來的微調(diào)與適配提供了新的思路:RL 可能是顯學(xué),錦上添花;但 SFT 仍然是地基,沒有它就難以穩(wěn)如磐石。































