編輯 | 聽雨
出品 | 51CTO技術棧(微信號:blog51cto)
就在幾個小時前,OpenAI發布了一篇重磅的最新研究,構建了一個實驗性的大語言模型,并且提出稀疏訓練+剪枝+橋接的新方法,讓原本黑箱的LLM內部機制可視化了。
大家都知道,如今GPT、Claude等LLM越來越強大,寫文章、生成代碼、做推理,樣樣不在話下。但是,模型內部是如何“思考”的?這一直是一個黑箱問題。
打個比方,傳統神經網絡的工作方式就像一堆糾纏在一起的電線:每個神經元與成千上萬個神經元相連,信號在其中不斷流動、疊加。這些連接雖然能讓模型學習復雜模式,但也形成了人類難以解讀的、高度密集的連接網絡。
圖片
解釋 Transformer 的一個主要難點在于:其激活與權重并不直接可理解。例如,神經元會以難以預測的方式激活,這些激活模式往往并不對應于人類可理解的概念。
而OpenAI的最新研究,通過對語言模型進行極度稀疏權重訓練,“解開”了模型內部的機制。他們構建了一個權重稀疏的 Transformer模型,比 GPT-5、Claude 或 Gemini等主流模型要小得多。論文第一作者Leo Gao表示,它的性能大致相當于2018年的GPT-1。
相對于常規模型來說,更透明的模型有助于揭示語言模型為何會出現幻覺、行為不可預測,或在關鍵情況下做出不可靠的判斷。
圖片
論文相關代碼已公開:https://github.com/openai/circuit_sparsity/
一、稀疏訓練:從“電線堆”到清晰電路
OpenAI提出對Transformer模型進行“稀疏訓練”方法,其核心思路在于:絕大多數權重設為零,讓每個神經元只連接少數節點,這樣網絡內部的信號不再在成千上萬個節點之間糾纏,而是沿著少量路徑傳遞。
他們首先在標準 Transformer 架構( GPT?2 風格)上訓練模型,并強制絕大多數權重為 0(L0 范數很小),讓每個神經元只連接少數其他神經元。
圖片
二、電路可解釋性:AI任務的“微觀機制”
為了驗證稀疏訓練的效果,研究者設計了一些簡單任務,讓模型完成特定操作,例如:
- Python引號閉合任務:輸入 "hello,模型要輸出匹配的引號 "hello";
圖片
- 列表嵌套深度計數:輸入 [ [ ] ],模型需要正確預測列表結束的符號;
圖片
- 變量類型追蹤:跟蹤變量 current 是字符串還是集合類型。
圖片
為了評估模型的可解釋性,研究者使用一種新型剪枝(Pruning)方法,以隔離關鍵電路:對每個任務,刪除模型中非必要的神經元/通道/權重,只保留完成任務所必需的最小子網絡。剪枝方法會通過“均值屏蔽”(mean-ablating)凍結被刪除節點的激活,保證任務行為仍然由剩下的電路完成。
圖片
結果發現,每個任務對應一個最小電路(Minimal Circuit),只包含少量神經元和注意力通道,足以完成任務:
- 剪掉電路之外的神經元,模型就會失敗;
- 只保留這些神經元,模型就能正常完成任務。
這意味著,這些電路不僅可用,而且必要且充分——正是模型執行任務的核心“機制”。
舉個例子,閉合引號任務的電路只用到兩個MLP神經元和一個注意力頭,就能判斷字符串是單引號還是雙引號,然后正確閉合。
此外,研究者還發現電路越小、越獨立,模型行為就越可解釋。
他們比較了一個稀疏模型和一個在預訓練損失相同的稠密模型。通過調節目標損失,測量每個模型在完成該損失時所需的最小電路規模,并對任務進行平均。結果顯示,在任意給定損失下,稀疏模型的電路大約比稠密模型小16倍。
圖片
三、能力與可解釋性的權衡
稀疏訓練還有一個亮點:可調控性。
- 增加稀疏度:權重越少,電路越小,模型越可解釋,但能力略有下降。
- 擴大模型規模:在保持稀疏度的情況下,增加神經元數量,可以同時提升能力和可解釋性。
研究者將這個關系繪制成“帕累托前沿”,顯示能力與可解釋性的權衡。在總參數量固定的情況下,提高模型稀疏度(即減小權重的L0 范數)會在能力和可解釋性之間產生權衡:能力下降,但可解釋性提升。
圖片
四、橋接方法:擴展到已有大模型
稀疏模型雖然易解釋,但訓練成本高,難以直接替代像GPT-3這樣的前沿大模型。為了解決這個問題,研究者又提出了橋接方法(Bridges)。通過橋接,把稀疏模型與已有密集模型關聯,實現對已有模型行為的可解釋性分析。
圖片
“橋接”就是一系列線性映射,用于在稀疏模型和稠密模型的表示之間轉換——從而確保通過稀疏層與稠密層混合的所有路徑在預訓練任務上仍能保持良好性能。
五、未來將訓練出一個完全可解釋的 GPT-3
在論文最后,研究者提到,稀疏訓練非常有前景,但仍有不少挑戰:
- 效率低:稀疏模型訓練和推理開銷是同等能力稠密模型的100–1000倍;
- 多語義特征:一些神經元仍同時參與多個任務,完全單語義化還需要改進;
- 規模挑戰:解釋復雜任務或更大模型時,電路會非常龐大,需要自動化可解釋性方法輔助。
論文第一作者Leo Gao也表示:
“我們還沒有完全解決可解釋性問題,仍有很大的改進空間,許多電路仍然比較復雜。但我們仍然能學到很多——例如,在檢查閉合嵌套列表的電路時,我們發現了一種對模型的對抗攻擊,這是我們原本不會想到的。”
Image
對于未來的研究方向,研究團隊表示,他們對擴展這一技術感到非常興奮。
“雖然不太可能將其擴展到最前沿的規模,但一個令人激動的目標是訓練出一個完全可解釋的 GPT-3。這樣的‘模型生物體’將教會我們關于 AI 工作原理的重要經驗,這些經驗可能會遷移到最前沿的模型上。”
可以預見,可解釋性將是未來大模型發展的關鍵方向。在不遠的將來,我們有望真正理解“AI是怎么思考的”,而不是僅僅看它的輸出。
參考鏈接:
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/
https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf



































