EMNLP2025 | 通研院揭秘MoE可解釋性,提升Context忠實(shí)性!
論文發(fā)表于EMNLP2025主會,核心作者為北京通用人工智能研究院(通研院)研究工程師白駿、劉洋,以及通計劃武漢大學(xué)聯(lián)培一年級博士生童銘顥,通訊作者為通研院語言交互實(shí)驗(yàn)室研究員賈子夏,實(shí)驗(yàn)室主任鄭子隆。
MoE 遇上機(jī)制可解釋性:
鮮為人知的探索之旅
在大模型研究領(lǐng)域,做混合專家模型(MoE)的團(tuán)隊很多,但專注機(jī)制可解釋性(Mechanistic Interpretability)的卻寥寥無幾 —— 而將二者深度結(jié)合,從底層機(jī)制理解復(fù)雜推理過程的工作,更是鳳毛麟角。
這條路為何少有人走?原因不難理解:
- 實(shí)用性存疑 —— 可解釋性研究常被質(zhì)疑缺乏應(yīng)用價值;
- 技術(shù)門檻高 —— 要穿透表層解釋(如 CoT),理解模型內(nèi)部的“暗箱操作”,本就極具挑戰(zhàn);加入 MoE 的路由機(jī)制后,因果追蹤和歸因分析的難度陡增;
- 非主流共識 —— 相比之下,強(qiáng)化學(xué)習(xí)和監(jiān)督微調(diào)等黑箱訓(xùn)練方法正大行其道,其成果相對來得更快更穩(wěn)。
但即便如此,這片未開墾的大陸仍值得探索。當(dāng)這些問題逐漸被揭開,我們不僅能解釋 MoE 的行為,更能設(shè)計、干預(yù)、優(yōu)化它的思維結(jié)構(gòu),讓我們從“調(diào)參煉丹”走向“理解與創(chuàng)造”。
于是,本文針對性地提出了面向稀疏模型的機(jī)制可解釋性方法「Router Lens & CEFT」,聚焦于語言模型的上下文忠實(shí)性(Context Faithfulness)問題。目前,該研究已被 EMNLP 2025 接收。受 MoE 中專家特化現(xiàn)象的啟發(fā),我們提出了 Router Lens(路由透鏡)??,用于識別那些真正善于利用上下文信息的專家。研究發(fā)現(xiàn),這些專家能夠逐步放大對關(guān)鍵信息的關(guān)注,并引導(dǎo)模型做出正確的決策。
更令人興奮的是,基于這一機(jī)制洞察,我們開發(fā)了 CEFT(上下文忠實(shí)專家微調(diào)) 方法 —— 僅對識別出的關(guān)鍵專家進(jìn)行輕量化微調(diào)。實(shí)驗(yàn)表明,CEFT 在多個基準(zhǔn)測試中能以更高效率達(dá)到甚至超越全參數(shù)微調(diào)的效果,同時顯著緩解了模型訓(xùn)練中常見的災(zāi)難性遺忘問題。
這是一次將對 MoE 的機(jī)制理解轉(zhuǎn)化為實(shí)際收益的嘗試。讓我們一起看看,當(dāng)可解釋性不再只是“知其然”,而是指向“用其然”時,會發(fā)生什么。

論文標(biāo)題:
Understanding and Leveraging the Expert Specialization of Context Faithfulness in Mixture-of-Experts LLMs
論文地址:
https://arxiv.org/abs/2508.19594
代碼地址:
https://github.com/bigai-nlco/RouterLens
什么是上下文忠實(shí)性?
在依賴上下文的任務(wù)中,如檢索增強(qiáng)生成,模型生成的回答有多靠譜,往往取決于它是否真正依賴提供給它的上下文信息。如圖1所示,所謂上下文忠實(shí)性,就是指模型在生成回復(fù)時,嚴(yán)格以給定上下文為依據(jù),不產(chǎn)生與上下文無關(guān)的幻覺信息。

圖1. 忠于上下文的 LLM 回復(fù)示例。
MoE 中是否存在上下文忠實(shí)專家?
近年來,MoE逐漸成為大模型的主流架構(gòu)選擇。與傳統(tǒng)的稠密激活模型不同,MoE 通過路由網(wǎng)絡(luò)(Router)動態(tài)選擇部分專家網(wǎng)絡(luò)(Expert)參與計算,不僅大幅提升了參數(shù)利用效率,同時也為模型的模塊化訓(xùn)練與能力分化開辟了新的空間。
已有研究發(fā)現(xiàn),經(jīng)過充分訓(xùn)練的 MoE 模型會分化出擅長不同任務(wù)的專家網(wǎng)絡(luò),這一現(xiàn)象被稱為專家特化(Expert Specialization)。由此,我們想進(jìn)一步探究:在這些專家之中,是否存在擅長利用上下文信息的專家(圖2)?即上下文忠實(shí)專家(Context-Faithful Experts)?

圖2. MoE 中的部分專家可能更擅長利用上下文信息。
為解決這一問題,本文提出 MoE 特定專家的探測方法 RouterLens。我們假設(shè):在上下文依賴任務(wù)中被更頻繁激活的專家更善于利用上下文信息。然而,MoE 預(yù)訓(xùn)練中的負(fù)載均衡約束削弱了路由行為與專家特化能力間的可解釋性,使得僅憑激活頻率難以準(zhǔn)確識別特定能力的專家。
為此,RouterLens 先在上下文依賴任務(wù)上進(jìn)行輕量級路由微調(diào)(Router Tuning),以校正路由行為,使專家激活能更真實(shí)地反映不同專家的上下文利用能力差異。隨后,統(tǒng)計各專家的激活次數(shù),并認(rèn)定 Top-K 專家為上下文忠實(shí)專家(圖 3 )。

圖3. RouterLens 鑒定專家的過程
結(jié)論 1:MoE 中確實(shí)存在上下文忠實(shí)專家
本文在 SQuAD、NQ 等上下文依賴任務(wù)上驗(yàn)證了 MoE 模型中上下文忠實(shí)專家的存在性。表 1 顯示,經(jīng)過路由微調(diào)后,模型在所有任務(wù)上的表現(xiàn)均顯著提升,這說明僅調(diào)整專家激活行為即可增強(qiáng)上下文利用能力,證明了上下文忠實(shí)專家的存在。

表1 MoE 模型在路由微調(diào)(Router Tuning)前后的表現(xiàn)對比
結(jié)論 2:RouterLens 鑒定出的確為上下文忠實(shí)專家
那么,RouterLens 鑒定出的專家是否具備更強(qiáng)的上下文忠實(shí)性?為驗(yàn)證這一點(diǎn),我們還進(jìn)行了屏蔽干預(yù)實(shí)驗(yàn):在模型推理時屏蔽 RouterLens 鑒定的專家(CE masked),并與屏蔽原始路由激活的專家(OE masked)進(jìn)行對比。
如圖 4 所示,屏蔽 RouterLens 識別的專家后,模型性能顯著下降,甚至低于未微調(diào)的基礎(chǔ)模型,證明這些專家在上下文任務(wù)中的關(guān)鍵作用。相比之下,屏蔽原始激活專家的性能下降較小,進(jìn)一步表明負(fù)載均衡訓(xùn)練削弱了路由與專家真實(shí)能力的對應(yīng)關(guān)系。

圖4. 基礎(chǔ)模型(Base)、路由微調(diào)模型(RT),以及在路由微調(diào)模型上分別屏蔽原始激活專家(RT w/ OE masked)與屏蔽 RouterLens 鑒定專家(RT w/ CE masked)后的性能對比。
結(jié)論 3:不同任務(wù)下的上下文忠實(shí)專家各不相同。
本文還分析了上下文忠實(shí)專家在不同任務(wù)間的分布特征,將各樣本在所有層中專家激活頻率拼接成特征向量并經(jīng) t-SNE 可視化。結(jié)果(圖 5)顯示,不同任務(wù)形成明顯聚類,說明模型能根據(jù)任務(wù)需求自適應(yīng)激活不同的上下文忠實(shí)專家。

圖5. MoE 模型中上下文忠實(shí)專家激活模式的t-SNE可視化結(jié)果。
雖然上下文忠實(shí)專家是任務(wù)特定的,但調(diào)優(yōu)后的路由網(wǎng)絡(luò)能否泛化至新任務(wù)呢?論文將某數(shù)據(jù)集上調(diào)優(yōu)的路由網(wǎng)絡(luò)應(yīng)用于其他數(shù)據(jù)集。結(jié)果(圖 6)顯示,模型在未見任務(wù)上仍顯著優(yōu)于原始模型,表明路由調(diào)優(yōu)學(xué)到了具備泛化性的上下文忠實(shí)專家激活能力。

圖6. 微調(diào)后路由網(wǎng)絡(luò)的跨任務(wù)遷移性能。每個單元格表示相對于基準(zhǔn)模型的 EM 得分絕對提升值,其中模型在第i行對應(yīng)的數(shù)據(jù)集上訓(xùn)練,并在第 j 列對應(yīng)的數(shù)據(jù)集上進(jìn)行評估。
上下文忠實(shí)專家是如何工作的?
那么,上下文忠實(shí)專家是如何幫助 MoE 利用上下文的呢?直觀上它們像一個信息樞紐,負(fù)責(zé)捕捉并整合輸入中的上下文,從而提升下游推理與生成的效果。但要驗(yàn)證這一點(diǎn),還需更細(xì)致地分析它們在計算流中的具體作用。
結(jié)論 4:上下文忠實(shí)專家能夠增強(qiáng)對上下文信息的注意力
通常,自注意力被認(rèn)為決定模型對上下文的感知。本文通過上下文注意力增益和答案注意力增益評估上下文忠實(shí)專家的作用。結(jié)果(圖 7)顯示,路由微調(diào)后的模型在中、深層顯著增強(qiáng)了對上下文和答案 Token 的注意力。

圖7. 在 NQ-Swap 測試集上,路由微調(diào)模型相較于基礎(chǔ)模型在各層上的上下文注意力增益(CAG)和答案注意力增益(AAG)的變化趨勢。
這種逐層的注意力增強(qiáng)現(xiàn)象反映出一種逐步思考的過程。如圖8所示,中層的上下文忠實(shí)專家?guī)椭P褪紫仍谡麄€上下文中擴(kuò)大注意力范圍(相當(dāng)于對信息進(jìn)行“掃描”),以識別潛在的相關(guān)內(nèi)容;而在更深層中,模型則會逐步收縮注意力焦點(diǎn),集中關(guān)注于上下文中最關(guān)鍵的片段(即答案 “1964”)。

圖8. OLMoE-1B-7B 模型在 NQ-Swap 測試樣本上由上下文忠實(shí)專家?guī)淼淖⒁饬υ鲆妗?/span>
結(jié)論 5:上下文專家能夠逐步校正模型的內(nèi)在決策路徑
此外,我們還使用答案概率增益來分析上下文忠實(shí)專家對模型決策的影響。結(jié)果(圖 9)顯示,路由微調(diào)后模型在深層對正確答案的預(yù)測概率顯著提升,表明這些專家通過強(qiáng)化對關(guān)鍵上下文與答案 Token 的注意力,提升了模型的信息整合與判斷能力。

圖9. 在 NQ-Swap 測試集上,路由微調(diào)模型相較于基礎(chǔ)模型在各層答案概率增益(APG)的變化趨勢。
我們該如何利用上下文忠實(shí)專家?
在明確上下文忠實(shí)專家的作用機(jī)制后,我們進(jìn)一步提出利用它們提升模型性能的思路:將有限計算資源優(yōu)先分配給上下文忠實(shí)專家,而非訓(xùn)練所有參數(shù),從而實(shí)現(xiàn)高效優(yōu)化?;诖?,提出上下文忠實(shí)專家微調(diào)(CEFT),首先通過 RouterLens 識別各層的上下文忠實(shí)專家,然后僅微調(diào)這些專家,保持其余參數(shù)的凍結(jié)(算法 1)。

算法1. 上下文忠實(shí)專家微調(diào)
結(jié)論 6:僅微調(diào)上下文忠實(shí)專家能夠匹配甚至超越全量微調(diào)
如表2所示,對比了 CEFT 與全量微調(diào)(FFT)的表現(xiàn)??梢杂^察到,在所有 MoE 模型和基準(zhǔn)上,CEFT 一致地表現(xiàn)出與 FFT 持平甚至更優(yōu)的表現(xiàn),顯示了其在利用上下文信息提升任務(wù)表現(xiàn)的有效性。

表2. 全量微調(diào)(FFT)與上下文忠實(shí)專家微調(diào)(CEFT)的表現(xiàn)對比。
值得注意的是,該表現(xiàn)是在顯著減少訓(xùn)練參數(shù)量的情況下實(shí)現(xiàn)的。如圖10所示,OLMoE-1B-7B 模型在全量微調(diào)下需要訓(xùn)練 69 億參數(shù),而 CEFT 僅需5億參數(shù),實(shí)現(xiàn)了13.8倍的縮減。

圖10. 全量微調(diào)(FFT)與上下文忠實(shí)專家微調(diào)(CEFT)的可訓(xùn)練參數(shù)量對比。
參數(shù)量顯著減少不僅提升計算效率,也減輕了災(zāi)難性遺忘。表 3 顯示,在 MMLU 上,路由微調(diào)(RT)、全量微調(diào)(FFT)和上下文忠實(shí)專家微調(diào)(CEFT)的性能下降與可訓(xùn)練參數(shù)量大致成正比,而 CEFT 對遺忘的抗性明顯優(yōu)于 FFT。

表3. MoE 模型在經(jīng)過不同訓(xùn)練之后在 MMLU 基準(zhǔn)上的表現(xiàn)。
展望
隨著 MoE 模型的廣泛應(yīng)用,RouterLens 還可被用于更多的研究。
首先,RouterLens 可用于識別與分析更多類型的專家,如推理、證明或編程專家。
其次,它還能定位表現(xiàn)不佳或易誤導(dǎo)的專家,實(shí)現(xiàn) MoE 的 “Debugging”。
最后,將 RouterLens 與 SAE 等機(jī)制可解釋性技術(shù)結(jié)合,可深入理解專家行為與知識分布,提升模型的可解釋性與可控性。

































