函數(shù)向量對(duì)齊技術(shù),讓大模型持續(xù)學(xué)習(xí)不“失憶”丨ICLR 2025
LLMs為什么總是災(zāi)難性遺忘?原來是功能激活在搞怪。
最近來自中國科學(xué)技術(shù)大學(xué)、香港城市大學(xué)和浙江大學(xué)的聯(lián)合研究團(tuán)隊(duì),通過對(duì)多個(gè)語言模型、任務(wù)序列和評(píng)估指標(biāo)的系統(tǒng)分析,終于破解了LLMs的災(zāi)難性遺忘之謎——
遺忘行為具有高度的模型依賴性,而導(dǎo)致遺忘發(fā)生的本質(zhì)卻是功能激活的變化。
對(duì)此,團(tuán)隊(duì)基于函數(shù)向量構(gòu)建遺忘分析框架,刻畫和分析LLM內(nèi)部功能的變化(其中功能表示模型對(duì)某具體任務(wù)的處理能力,如求反義詞、乘法計(jì)算),進(jìn)一步證實(shí)了遺忘并非簡單地覆蓋已有函數(shù),而是模型激活了帶偏差的新功能。
研究人員還設(shè)計(jì)了一種函數(shù)向量引導(dǎo)的訓(xùn)練方法FVG,在微調(diào)過程中可以有效保留并對(duì)齊函數(shù)向量,并在多個(gè)持續(xù)學(xué)習(xí)數(shù)據(jù)集上顯著保護(hù)了模型的通用學(xué)習(xí)能力和上下文學(xué)習(xí)能力。
目前相關(guān)研究論文已被ICLR2025 oral接收,代碼也已在GitHub上公開。

接下來,我們一起來看看詳細(xì)細(xì)節(jié)。
大語言模型的“記憶困境”
災(zāi)難性遺忘是指模型在學(xué)習(xí)新任務(wù)時(shí),之前學(xué)到的知識(shí)被新任務(wù)的學(xué)習(xí)過程所覆蓋或干擾,導(dǎo)致模型在舊任務(wù)上的性能大幅下降。
例如,一個(gè)通用語言模型在學(xué)習(xí)新增的用戶指令處理后,面臨數(shù)學(xué)推理能力的顯著下降。
這種遺忘現(xiàn)象不僅影響模型的泛化能力,也使得模型在實(shí)際應(yīng)用中難以適應(yīng)動(dòng)態(tài)變化的任務(wù)需求。

盡管語言模型的災(zāi)難性遺忘問題受到了廣泛關(guān)注,但當(dāng)前的研究多集中于通過單一訓(xùn)練序列分析遺忘現(xiàn)象,忽略了不同任務(wù)組合對(duì)模型表現(xiàn)的復(fù)雜影響,同時(shí)也缺乏對(duì)遺忘內(nèi)部機(jī)制的深入理解。
為此,作者首先通過實(shí)證研究探討了大語言模型在持續(xù)指令微調(diào)(模型在一系列指令微調(diào)任務(wù)上持續(xù)學(xué)習(xí))中的遺忘現(xiàn)象,重點(diǎn)考察任務(wù)類型、訓(xùn)練階段以及不同模型之間的差異。

作者使用SuperNI數(shù)據(jù)集[1]構(gòu)建六種任務(wù)序列,覆蓋生成任務(wù)、分類任務(wù)以及二者混合任務(wù),并且關(guān)注三個(gè)指標(biāo)量化模型對(duì)不同能力的遺忘程度:
- GP(General Performance):通用任務(wù)的零樣本性能下降。
- IP(In-context Performance):通用任務(wù)的上下文學(xué)習(xí)性能下降。
- FP(Final Performance):訓(xùn)練任務(wù)的性能性能下降。

得到以下結(jié)論:
- 無論是通用任務(wù)、新任務(wù),還是上下文能力,都出現(xiàn)不同程度的遺忘。
- 任務(wù)類型影響遺忘程度:生成任務(wù)序列導(dǎo)致的遺忘顯著高于分類任務(wù)。
- 訓(xùn)練階段遺忘可逆:訓(xùn)練初期可能出現(xiàn)性能下降,但后期有明顯恢復(fù)趨勢(shì),表明模型可能逐漸恢復(fù)部分遺忘能力。
- 模型差異顯著:遺忘現(xiàn)象受模型結(jié)構(gòu)與預(yù)訓(xùn)練數(shù)據(jù)影響。
既然模型在不同任務(wù)和不同模型中呈現(xiàn)出不同的遺忘現(xiàn)象,導(dǎo)致遺忘發(fā)生的本質(zhì)現(xiàn)象究竟是什么呢?
揭示模型內(nèi)部函數(shù)的遺忘本質(zhì)
函數(shù)向量
作者為了解釋模型發(fā)生遺忘時(shí)的內(nèi)部機(jī)理,引入了函數(shù)向量(Function Vectors, FVs)[2]這一工具。
函數(shù)向量是一種定位和表征LLM內(nèi)部處理具體任務(wù)能力的方法,其采用activation patching方法對(duì)上下文學(xué)習(xí)過程中的隱狀態(tài)進(jìn)行干預(yù),識(shí)別在任務(wù)執(zhí)行中起因果作用的注意力頭集合。
函數(shù)向量通過在這些注意力頭的平均激活值上求和得到。
具體而言,對(duì)于一個(gè)給定任務(wù)的數(shù)據(jù)集,函數(shù)向量的提取分為兩個(gè)步驟:
1、因果注意力頭識(shí)別
首先對(duì)模型的注意力頭進(jìn)行干預(yù),使用標(biāo)簽打亂的提示(counterfactual prompt)與原始輸入組成反事實(shí)輸入,通常這會(huì)導(dǎo)致預(yù)測(cè)錯(cuò)誤。
然后將反事實(shí)輸入在某注意力頭的表示替換為真實(shí)任務(wù)的平均激活,并計(jì)算該替換對(duì)預(yù)測(cè)結(jié)果的因果影響:
其中,表示層、頭在任務(wù)上最后一個(gè)token的平均激活。
而CE越高,表明該頭對(duì)任務(wù)表現(xiàn)越關(guān)鍵。
最終選擇CE值前10的注意力頭構(gòu)成集合。
2、函數(shù)向量的構(gòu)建
將集合中的所有注意力頭的平均激活向量求和,得到函數(shù)向量:
通過分析函數(shù)向量,研究人員發(fā)現(xiàn),災(zāi)難性遺忘并非是因?yàn)槟P偷娜蝿?wù)處理能力在訓(xùn)練過程中被破壞,而是由于模型在輸入到激活對(duì)應(yīng)任務(wù)功能過程中的偏差所導(dǎo)致的。
換句話說,模型并沒有忘記之前學(xué)到的任務(wù)處理能力,而是這些能力未被正確激活,反而被新引入的能力所掩蓋。
作者采用這種能夠反映模型在處理特定任務(wù)上的功能特性的方式,追蹤遺忘現(xiàn)象發(fā)生時(shí)模型內(nèi)部功能的變化。
函數(shù)向量與遺忘的關(guān)系
通過實(shí)驗(yàn)分析,作者發(fā)現(xiàn)函數(shù)向量的變化與模型的遺忘現(xiàn)象之間存在顯著的強(qiáng)相關(guān)性。
具體來說,記為測(cè)試任務(wù),為任務(wù)在初始模型下的函數(shù)向量表示,則表示在訓(xùn)練完第個(gè)任務(wù)后任務(wù)的函數(shù)向量表示。
當(dāng)函數(shù)向量與的相似度較低時(shí),模型在測(cè)試任務(wù) 上的性能下降較嚴(yán)重。
當(dāng)函數(shù)向量與的相似度較高時(shí),模型在測(cè)試任務(wù) 上的性能下降則不明顯。
具體而言,在訓(xùn)練NI-Seq-G1數(shù)據(jù)時(shí)Hellaswag的函數(shù)向量的相似度與模型性能之間的相關(guān)系數(shù)(R2值)可以達(dá)到0.873。
作者也收集了模型在不同訓(xùn)練序列,不同seed下的40個(gè)checkpoint,并統(tǒng)計(jì)了多個(gè)測(cè)試任務(wù)在這些模型下的函數(shù)向量相似度與具體性能,可視化結(jié)果如下圖:

圖中顯示,當(dāng)任務(wù)學(xué)習(xí)后的函數(shù)向量(FV)相似度較高時(shí),模型的遺忘現(xiàn)象相對(duì)較輕,兩者之間存在較強(qiáng)的相關(guān)性。
相比之下,Last hidden state的相似度和參數(shù)變化前后的L2距離并沒有呈現(xiàn)出這種規(guī)律。
模型遺忘的本質(zhì)
作者基于此方法研究函數(shù)向量在任務(wù)切換前后的變化,并用作揭示災(zāi)難性遺忘根源的分析工具,該方法強(qiáng)調(diào)遺忘主要源于模型激活偏差的新功能,而非覆蓋舊功能。
作者首先依照潛變量模型(Latent Variable Model)的假設(shè)將大語言模型重新表述,具體如下:
LLM 的輸出概率被分解為對(duì)所有可能內(nèi)部功能的積分:
- :在給定任務(wù)功能下的輸出概率(即執(zhí)行某個(gè)特定任務(wù)功能)
- :在輸入條件下激活該功能的概率(即功能激活機(jī)制)
而在函數(shù)向量的幫助下,我們可以獲得功能的具體表達(dá)形式,得到以下公式:
具體功能被表示為一組隱狀態(tài)組合,其中索引來自集合,是激活權(quán)重,這個(gè)組合決定了處理當(dāng)前任務(wù)功能的具體數(shù)值表示。
作者發(fā)現(xiàn)函數(shù)向量的偏移(即的變化)意味著模型功能激活機(jī)制的變化,而在前文函數(shù)向量的偏移也與遺忘強(qiáng)相關(guān)。
故這些現(xiàn)象共同支撐了一個(gè)中心論點(diǎn):遺忘并非因?yàn)槟P透膶懥藞?zhí)行舊任務(wù)的功能,而是因?yàn)檩斎爰せ顧C(jī)制發(fā)生了偏移,從而未能正確調(diào)用這些功能。

可以從上圖獲得更直觀的理解:通過將模型重構(gòu)為潛變量模型,它被劃分為任務(wù)功能的激活和任務(wù)功能的執(zhí)行兩個(gè)階段。
在學(xué)習(xí)任務(wù)1之前,模型能夠正確激活任務(wù)0的功能,從而做出正確的預(yù)測(cè)。
但在學(xué)習(xí)任務(wù)1之后,模型可能引入了一個(gè)新的函數(shù)向量,這個(gè)新的向量會(huì)對(duì)任務(wù)0輸入的激活過程造成干擾,從而導(dǎo)致遺忘現(xiàn)象的發(fā)生。
此外,作者還通過干預(yù)實(shí)驗(yàn)進(jìn)一步驗(yàn)證了模型遺忘的內(nèi)在原因。
僅通過在模型中插入被遺忘能力的函數(shù)向量或移除當(dāng)前訓(xùn)練任務(wù)的函數(shù)向量,研究人員就能夠顯著恢復(fù)在被遺忘任務(wù)上的能力。

函數(shù)向量引導(dǎo)的訓(xùn)練方法
基于函數(shù)向量的分析結(jié)果,論文提出了一種新的訓(xùn)練方法——函數(shù)向量引導(dǎo)的訓(xùn)練(Function Vector Guided Training, FVG)。
這種方法的核心思想是通過正則化技術(shù)限制函數(shù)向量的變化,從而在模型學(xué)習(xí)新任務(wù)時(shí)保持其對(duì)舊任務(wù)的功能激活模式。
具體來說,F(xiàn)VG 方法引入了兩個(gè)新的正則化項(xiàng):
1、函數(shù)向量一致性損失
通過限制函數(shù)向量的變化,確保模型在學(xué)習(xí)新任務(wù)時(shí)不會(huì)過度偏離其原有的功能激活模式,具體公式為:
其中,和分別表示在任務(wù)和任務(wù)時(shí),模型在特定頭的激活值,是距離度量,作者采用L2距離。
2、函數(shù)向量引導(dǎo)的KL散度損失
通過最小化零樣本輸入與函數(shù)向量干預(yù)后的輸出之間的差異,確保模型在微調(diào)后仍能保持與原有任務(wù)函數(shù)的一致性,具體公式為:
其中,是模型在輸入上的輸出概率分布,是在函數(shù)向量干預(yù)后的輸出概率分布。
最終的優(yōu)化目標(biāo)是:。
其中,是語言模型的原始損失函數(shù),和是超參數(shù),用于平衡不同損失項(xiàng)的權(quán)重。
實(shí)驗(yàn)驗(yàn)證
作者在多個(gè)數(shù)據(jù)集和模型上進(jìn)行了廣泛的實(shí)驗(yàn),驗(yàn)證函數(shù)向量引導(dǎo)的訓(xùn)練方法的有效性。

實(shí)驗(yàn)結(jié)果表明,F(xiàn)VG方法在多個(gè)基準(zhǔn)測(cè)試中顯著提高了模型在一般任務(wù)和上下文學(xué)習(xí)任務(wù)上的性能,同時(shí)保持了模型對(duì)新任務(wù)的學(xué)習(xí)能力。
結(jié)語
本文,作者通過引入函數(shù)向量方法,深入探討大語言模型中的災(zāi)難性遺忘問題,強(qiáng)調(diào)了函數(shù)向量在表征與緩解遺忘現(xiàn)象中的關(guān)鍵作用。
作者在多個(gè)基準(zhǔn)任務(wù)上的分析表明,模型的遺忘行為與潛在功能變量(由函數(shù)向量刻畫)發(fā)生的偏移密切相關(guān)。
基于這一發(fā)現(xiàn),作者提出了一種全新的函數(shù)向量引導(dǎo)訓(xùn)練策略,該方法結(jié)合了正則項(xiàng)與函數(shù)向量引導(dǎo)的KL散度損失函數(shù),顯著減少了遺忘現(xiàn)象,從而提升了LLMs在持續(xù)學(xué)習(xí)中的通用能力與上下文學(xué)習(xí)能力。
[1] Wang, Yizhong, et al. "Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks." Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. 2022.
[2] Todd, Eric, et al. "Function Vectors in Large Language Models." The Twelfth International Conference on Learning Representations.
論文鏈接:https://arxiv.org/abs/2502.11019項(xiàng)目鏈接:https://github.com/GangweiJiang/FvForgetting





































