精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析

發布于 2025-10-14 00:19
瀏覽
0收藏

大型語言模型(LLM)的預訓練過程,長期以來被視為一個“黑箱”。盡管我們知道通過在海量數據上進行訓練,模型能夠涌現出驚人的能力,但其內部知識結構是如何從無到有、從簡單到復雜地逐步構建起來的,這一核心問題至今仍缺乏清晰的答案。近期,復旦moss團隊的一篇題為《語言模型預訓練中概念的演變》的預印本論文,為我們揭開這個黑箱的一角提供了全新的、極具洞察力的參考。

這項研究的核心貢獻在于,它首次將一種名為“Crosscoders”的稀疏字典學習方法應用于追蹤語言模型在整個預訓練過程中的“特征演化”動態。通過這種方法,研究者得以在微觀層面觀察到模型內部成千上萬個可解釋“概念”(即特征)的誕生、發展、旋轉乃至消亡的全過程。研究不僅揭示了特征演化的普遍規律,還將這些微觀變化與模型在下游任務中的宏觀性能表現建立了直接的因果聯系。更重要的是,研究為“語言模型學習分為兩個主要階段”這一理論假說提供了強有力的實證支持:即模型首先進入一個快速學習數據統計規律的統計學習階段,隨后過渡到一個構建復雜、疊加特征的特征學習階段。

核心方法論:利用Crosscoders追蹤特征演化

為了實現對模型內部特征演化的細粒度追蹤,研究者必須解決兩個核心技術挑戰:先是如何從模型高維、密集的激活向量中抽取出人類可理解的、單一語義的特征(Monosemantic Features);然后如何確保在模型參數不斷更新的成百上千個訓練快照(Snapshots)之間,能夠穩定地識別并追蹤同一個特征。該研究巧妙地通過引入并改造Crosscoders方法,為這兩個挑戰提供了統一的解決方案。

技術背景:稀疏編碼與特征可解釋性

在深入理解Crosscoders之前,有必要先了解其理論基礎——稀疏自動編碼器(Sparse Autoencoders, SAEs)與疊加(Superposition)假說。

現代神經網絡,尤其是大型語言模型,其內部的神經元激活值通常是“多義性”的(Polysemantic),即單個神經元的激活可能同時代表多種不相關的概念。與之相對,“疊加假說”指出,模型為了在有限的神經元數量下表征無限豐富的現實世界概念,會將多個概念“疊加”在同一個激活子空間中,通過線性組合的方式來表示。換言之,真正的、單一語義的“特征”并非對應單個神經元,而是對應于激活空間中的特定“方向”。

稀疏自動編碼器(SAE)正是為了解決這一問題而設計的。它是一種特殊的神經網絡,由一個編碼器(Encoder)和一個解碼器(Decoder)組成。其目標是學習將模型內部的激活向量 ??a(x)??? 分解為一組稀疏的、大部分為零的特征激活值 ??f(x)???,然后用這組稀疏的 ??f(x)??? 和一個“字典”(Decoder權重矩陣)來盡可能精確地重構出原始的激活向量 ??a?(x)??。通過在損失函數中加入一個強大的稀疏性懲罰項(如L1或L0范數),SAE被激勵去發現那些真正有意義的、單一語義的特征方向。當某個特定概念(如“與編程相關的上下文”)出現時,只有字典中對應這個概念的那個特征會被激活,從而實現了從多義性神經元到單義性特征的解耦。

然而,傳統的SAE只能針對單個、已經訓練完成的模型進行分析。如果為每個訓練快照都單獨訓練一個SAE,我們將得到一系列獨立的特征字典,這些字典中的特征順序和方向都是隨機的,無法直接進行跨快照的比較和追蹤。這就引出了該研究的核心方法創新。

Cross-snapshot Crosscoder架構與訓練

研究者創造性地改造了Crosscoders這一工具,將其從最初用于分析模型“跨層”特征的工具,轉變為分析模型“跨時間快照”特征的利器。這種“跨快照Crosscoder”的設計精妙之處在于它擁有一個共享的編碼器和一個分離的解碼器。

具體架構如下: 對于來自不同訓練快照 ??θ??? 的同一段文本 ??x??? 在同一網絡層的激活 ??aθ(x)??,Crosscoder的目標是:

  1. 共享編碼與特征空間:所有快照的激活??aθ(x)??? 首先通過各自的快照專屬編碼器??Wθ_enc??? 進行編碼,然后匯總并經過一個激活函數??σ??,最終產生一個所有快照共享的稀疏特征激活向量??f(x)???。這個共享的??f(x)??? 是關鍵,它構建了一個統一的特征空間,使得在快照0中激活的第??i??? 個特征,與在快照100中激活的第??i?? 個特征,指向的是同一個潛在概念。
  2. 獨立解碼與重構:接著,這個共享的特征向量??f(x)?? 會被送入每個快照各自獨立的解碼器??Wθ_dec??? 中,以重構出對應快照的原始激活??a?θ(x)??。

其訓練目標函數(公式2)包含兩個核心部分:

  • 重構損失:要求所有快照的重構激活??a?θ(x)??? 與原始激活??aθ(x)?? 之間的L2距離之和最小。這保證了解碼器能夠忠實地恢復原始信息。
  • 稀疏性損失:這是實現特征可解釋性的關鍵。研究采用了一種高級的稀疏性懲罰策略,它不僅懲罰非零特征的數量(L0正則化),還將解碼器范數??||Wθ_dec,i||??? 納入考量。這個設計的動機是防止模型“作弊”——即通過縮小特征激活值??fi(x)??? 同時放大解碼器范數??||Wθ_dec,i||?? 來繞過稀疏性懲罰。


打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


此外,為了獲得高質量的稀疏特征,研究在附錄A中詳細闡述了其對激活函數和正則化函數的精心選擇。他們摒棄了傳統的ReLU激活函數,轉而采用JumpReLU,該函數通過學習一個閾值來過濾掉微弱的、可能是噪聲的激活,從而得到更干凈、更稀疏的特征。正則化方面,則結合了tanh和二次頻率懲罰,既能更好地逼近L0范數,又能抑制那些過于頻繁激活的“垃圾”特征。這些技術細節共同確保了Crosscoder能夠高效且穩定地提取出高質量的、跨時間對齊的特征。 (圖 1, 圖 8, 圖 9, 表 1)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


解碼器范數:特征強度的代理指標

跨快照Crosscoder架構帶來了一個至關重要的副產品,也是該研究進行特征演化分析的基石:特定快照 ??θ?? 下的第 ??i?? 個特征的解碼器范unorm ??||Wθ_dec,i||??,可以直接作為該特征在該快照中“存在感”或“強度”的代理指標。

其背后的邏輯非常直觀:在Crosscoder的優化過程中,如果某個特征 ??i??? 在快照 ??θ??? 中并不存在或非常微弱,那么在重構該快照的激活時,這個特征的激活值 ??fi(x)??? 幾乎不起作用。為了最小化稀疏性損失(該損失與 ??fi(x)??? 和 ??||Wθ_dec,i||??? 的乘積相關),模型會傾向于將這個無關特征在該快照下的解碼器范數 ??||Wθ_dec,i||?? 壓縮至接近于零。反之,如果一個特征對于重構至關重要,其解碼器范數就會很大。

因此,通過追蹤每個特征 ??i??? 的解碼器范數 ??||Wθ_dec,i||??? 在所有訓練快照 ??θ?? 上的變化曲線,研究者就得到了一條清晰的、量化的“特征演化軌跡”。研究在附錄C中通過線性探針實驗進一步驗證了這一假設,結果顯示探針的分類錯誤率與解碼器范數呈現出高達-0.867的強負相關性,有力地證明了解碼器范數作為特征強度代理指標的有效性。 (圖 13)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


特征演化的宏觀圖景與微觀動力學

借助上述強大的分析工具,研究者對Pythia-160M和Pythia-6.9B兩個模型的預訓練過程進行了深入剖析,樣本覆蓋了從訓練開始到143,000步的32個關鍵快照。分析揭示了一幅壯觀而細致的特征演化圖景。

兩類核心特征:初始化特征與涌現特征

通過隨機采樣大量特征并繪制它們的解碼器范數演化曲線,研究者發現特征的演化路徑主要呈現出兩種截然不同的模式:

  1. 初始化特征 (Initialization Features):這類特征在模型隨機初始化的瞬間(step 0)就已經存在。它們的范數值在訓練最開始(約step 128附近)會經歷一個急劇下降然后恢復的過程,之后隨著訓練的進行而逐漸衰減。這表明,即使是隨機初始化的神經網絡,其激活空間中也已經天然存在某些結構,這些結構在訓練初期被保留和調整。
  2. 涌現特征 (Emergent Features):這是絕大多數特征所屬的類別。它們在訓練初期并不存在(解碼器范數為零),而是在訓練進行到某個特定階段(主要集中在step 1000之后)開始“涌現”,其解碼器范數從零開始快速增長,達到峰值后或保持穩定或緩慢變化。不同復雜度的特征,其涌現的時間點也各不相同。

這一發現本身就極具價值,它清晰地展示了模型內部的概念結構并非一蹴而就,而是遵循著特定的時間規律動態生成和演變的。 (圖 3)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


涌現特征的統計特性分析

為了更深入地理解特征的演化動力學,研究對“涌現特征”進行了多維度的統計分析,揭示了幾個有趣的共性規律:

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


  • 涌現時間的分布:特征的涌現并非均勻分布在整個訓練過程中。統計顯示,絕大多數特征的“峰值時刻”(解碼器范數達到最大的快照)集中在訓練的早期到中期階段。特別是在Pythia-160M模型中,存在一個明顯的涌現高峰期。 (圖 4a)
  • 特征的持久性:一旦一個特征涌現出來,它通常會非?!伴L壽”。研究定義了特征的“生命周期”(解碼器范數大于0.3的快照比例),發現大部分涌現特征在形成后,會在超過60%的后續快照中保持活躍。這說明LLM能夠穩健地保留已學習到的知識和能力,同時也證明了Crosscoder方法在跨快照追蹤特征方面的魯棒性。 (圖 4b)
  • 普遍的方向轉折點:研究還從幾何角度考察了特征向量(即解碼器字典中的列向量)在訓練過程中的方向變化。通過計算不同快照之間同一個特征向量的 cosine 相似度,他們發現了一個驚人的一致性:幾乎所有涌現特征的方向在step 1,000附近都經歷了一次劇烈的“轉折”。在此之前和之后的特征方向幾乎是相互正交的。而在step 1,000之后,特征方向的旋轉變得平緩得多,即使到訓練末期,其方向與剛涌現時的方向仍保持著顯著的相似性。這暗示著step 1,000可能是一個模型學習機制發生根本性轉變的關鍵節點。 (圖 4c)

特征復雜性與涌現時間的關聯

一個自然的猜想是:簡單的特征是否會比復雜的特征更早出現?為了驗證這一點,研究者采用了一種創新的自動化評估方法。他們隨機抽取了100個涌現特征,利用大型語言模型(Claude Sonnet 4)作為“評估員”,根據每個特征激活最強的文本片段,為其復雜性打分(1分最簡單,5分最復雜)。

評分結果與特征的峰值涌現時間進行關聯分析后發現,兩者之間存在一個中等強度的正相關關系(Pearson r = 0.309, p = 0.002)。這明確地表明,模型確實傾向于在訓練后期學習和形成更加復雜的概念。例如,識別單個詞或token的簡單特征可能較早出現,而理解特定句法結構或上下文語境的復雜特征則需要更長的訓練時間才能涌現。 (圖 5a)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


典型特征演化案例研究

為了讓分析更具象,研究通過簡單的規則匹配,在Pythia-6.9B模型中識別并追蹤了幾類在以往研究中被廣泛討論的典型特征:

  • 前序詞元特征 (Previous Token Features):這類特征的激活僅依賴于其前一個token是什么。例如,無論上下文如何,只要前面是單詞“the”,某個特征就會激活。
  • 歸納特征 (Induction Features):這類特征與模型的“上下文學習”能力密切相關,它們負責識別重復出現的模式,如在??[A][B]...[A][B]??? 序列中,當第二個??[A]??? 出現時激活,以幫助模型預測接下來的??[B]??。
  • 上下文敏感特征 (Context-sensitive Features):這類特征的激活依賴于更廣泛的語境,例如,在一個討論“計算機科學”的段落中,它們會持續激活。

通過追蹤這三類特征的平均解碼器范數演化軌跡,研究發現了一個清晰的“學習層級”:前序詞元特征出現最早(約1,000-5,000步),其次是歸納特征,而最為復雜的上下文敏感特征則出現得最晚,且涌現的時間范圍更廣(主要在10,000-100,000步之間)。這一發現與它們的邏輯復雜度和依賴關系完全吻合(例如,歸納頭的形成依賴于前序詞元頭),為模型從簡單到復雜構建能力的假說提供了具體的案例支持。 (圖 5b, 5c)

從微觀特征到宏觀行為:建立因果聯系

機制可解釋性研究的最終目標之一,是解釋模型的宏觀行為。該研究通過結合歸因分析(Attribution)和電路追蹤(Circuit Tracing)技術,成功地將微觀的特征演化與模型在下游任務上的性能變化直接關聯起來,展示了特定特征的形成如何“導致”了模型能力的提升。

方法:基于歸因的電路追蹤技術

該研究采用了一種名為“歸因補丁”(Attribution Patching)的先進技術,其核心思想是量化每個Crosscoder特征對特定任務性能的“因果貢獻”。

具體操作如下:以主謂一致(Subject-Verb Agreement, SVA)任務為例,比如句子“The teachers near the desk are...”。研究會構建一個“干凈”輸入(原句)和一個“損壞”輸入(如將主語變為單數“The teacher...”)。任務的性能指標 ??m?? 定義為模型對正確動詞形式(are)和錯誤動詞形式(is)的logit差值。

然后,通過數學上的分解(公式3),模型的激活可以被看作是所有Crosscoder特征的加權和。這使得計算任務性能 ??m??? 對每個特征激活 ??fi(x)??? 的梯度成為可能。歸因分數 ??attri(x)???(公式4、5)本質上就是利用這個梯度來估算,如果某個特征 ??i?? 的激活值發生微小變化,任務性能會受到多大影響。通過在“干凈”和“損壞”輸入之間進行差分,該方法能更精確地定位到那些專門負責區分單復數的關鍵特征。

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


為了提高歸算的魯棒性,研究還使用了積分梯度(Integrated Gradients, IG)技術,它通過在基線(如損壞輸入)和目標(干凈輸入)之間進行線性插值并累加梯度,來獲得更穩健的因果貢獻評估。

實驗驗證:主謂一致、歸納與間接賓語識別

研究在主謂一致(SVA)、歸納(Induction)和間接賓語識別(IOI)等多個經典任務上應用了上述方法。以SVA任務中的“Across-PP”變體(即主語和動詞被介詞短語隔開)為例,結果令人信服:

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


  • 識別關鍵特征回路:歸因分析成功識別出了一小組對該任務至關重要的特征。通過觀察這些特征的激活文本(圖6d),可以清晰地看到它們的功能分工:

特征18341和47045:負責識別復數名詞,其中后者更專注于識別作為主語的復數名詞。

特征68813:負責識別復合主語或介詞短語結構。

特征50159和69636:負責標記介詞短語的結束位置,為動詞的出現做準備。 重要的是,這些特征的涌現時間也遵循著邏輯順序:識別復數名詞的特征先出現,然后才是識別更復雜句法結構(介詞短語)的特征。

  • 驗證必要性與充分性:為了證明這些被識別出的特征確實是“必要且充分”的,研究進行了消融實驗(Ablation Experiments)。
  • 必要性驗證:當從模型中“移除”貢獻最大的前k個特征時,模型在SVA任務上的性能急劇下降,證明了這些特征的不可或ability。
  • 充分性驗證:反之,當“僅保留”貢獻最大的前k個特征而移除其他所有特征時,模型性能能夠在很大程度上得到恢復。僅用幾十個關鍵特征,就能恢復大部分原始性能,這有力地證明了歸因分析找到的確實是執行該任務的核心計算組件。
  • 追蹤性能演化:通過繪制關鍵特征的歸因分數隨訓練快照的演化曲線(圖6a),研究還揭示了模型解決問題策略的動態演變。例如,特征68813、50159和69636的貢獻度在不同訓練階段交替領先,這表明模型可能在通過“迭代”不同的組件和策略來不斷優化其句法分析能力。

這些實驗清晰地畫出了一條從“特征涌現”到“能力獲得”的因果鏈條,將微觀的內部機制與宏觀的行為表現緊密地聯系在了一起。 (圖 6, 圖 14, 圖 15, 圖 16, 圖 17, 圖 18)

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區


關鍵發現:從統計學習到特征學習的兩階段過渡

該研究最重要的理論貢獻之一,是為語言模型預訓練的“兩階段學習”假說提供了迄今為止最直接、最微觀的證據。研究者假設,在訓練初期,當訓練損失(Loss)急劇下降時,模型并非在形成復雜的語義特征,而是在學習數據中粗淺的統計規律。只有當這種統計學習接近飽和后,模型才會轉而通過構建稀疏、疊加的特征來進一步降低損失。

第一階段:統計規律學習

為了驗證這一假說,研究者計算了模型預測的詞元分布與數據真實詞元分布之間的KL散度(Kullback-Leibler Divergence),分別針對unigram(單個詞的頻率,符合Zipf定律)和bigram(相鄰詞對的頻率)進行。

打開語言模型學習動態的“黑箱”——MOSS團隊解釋涌現的論文解析-AI.x社區

結果顯示(圖7a, 7b),在訓練的極早期階段(大約在step 1,000之前),unigram和bigram的KL散度都迅速下降并收斂到接近零的水平。更引人注目的是,在這一階段,模型的訓練損失值已經非常接近于真實數據分布的理論信息熵。信息熵代表了預測該分布所需信息的理論下限,這意味著模型在這一階段的主要任務,就是盡可能地擬合數據中簡單的一元和二元統計規律。這完美地解釋了為何在這一階段幾乎沒有復雜的“涌ü現特征”形成——因為模型正忙于一項更基礎、回報率更高的任務。

第二階段:特征疊加與涌現

那么,在step 1,000之后,當簡單的統計規律已經被模型充分學習后,模型又是如何進一步提升性能的呢?研究者通過測量“總特征維度”的變化來回答這個問題。

他們借鑒了一個度量特征疊加程度的指標(公式6),該指標可以計算每個特征在激活空間中占據的“有效維度”。理論上,如果所有特征都是正交的(沒有疊加),總特征維度應等于激活空間的維度。如果特征之間存在干擾或非對稱排列,總維度會下降。

計算結果(圖7c)顯示了一個清晰的V形曲線:

  • 在訓練最開始,總特征維度較高,這對應于那些隨機存在的“初始化特征”。
  • 隨后,維度開始下降,并在step 1,000附近達到谷底。研究者推測,這是因為模型為了給即將大量涌現的新特征騰出“表示空間”,開始對初始化特征進行“壓縮”。
  • 在step 1,000之后,隨著“涌現特征”的大量形成,總特征維度開始穩步回升,最終在Pythia-160M上達到了激活空間維度的約70%。

這個V形曲線與前面觀察到的特征涌現時間點、KL散度收斂時間點以及特征方向轉折點高度吻合,共同描繪出了一幅連貫的圖景:大約在step 1,000,語言模型的學習機制發生了一次相變(Phase Transition)。它從一個主要關注表層統計規律的“統計學習階段”,過渡到了一個通過在激活空間中精心構建和疊加成千上萬個稀疏特征來表征世界知識的“特征學習階段”。 這一發現與信息瓶頸理論(Information Bottleneck Theory)預測的“擬合-壓縮”兩階段學習過程高度一致,但提供了更為具體和機械的解釋。

研究方法與結果評估

論文的技術細節和核心發現都很清晰,但其研究設計、方法論和結論的可靠性仍然都還是有一些需要深入思考的地方。

研究的創新性與主要貢獻

總體而言,這項研究在機制可解釋性領域取得了顯著的突破,其貢獻是多方面的:

  1. 方法論的重大創新:將Crosscoders方法創造性地應用于追蹤模型預訓練的動態過程,是該研究最核心的技術貢獻。它巧妙地解決了跨時間快照特征對齊這一關鍵難題,為后續所有分析奠定了堅實的基礎。可以說,這項工作為研究神經網絡學習動力學提供了一個全新的、功能強大的“顯微鏡”。
  2. 揭示了特征演化的普適規律:研究首次系統性地揭示了初始化特征與涌現特征的二元結構、特征復雜性與涌現時間的正相關性、以及從簡單到復雜的學習層級。這些發現極大地豐富了我們對語言模型內部知識構建過程的理解。
  3. 建立了微觀機制與宏觀能力的因果橋梁:通過結合歸因補丁技術,研究成功地將特定特征的形成與下游任務性能的提升直接掛鉤,并用消融實驗驗證了其因果關系。這使得“模型為何能做某事”這一問題,可以被追溯到“因為模型學會了哪些具體特征”。
  4. 為兩階段學習理論提供了強力實證:通過KL散度分析和特征維度測量,研究為“統計學習-特征學習”兩階段模型提供了迄今最令人信服的證據。這一發現對于理解預訓練效率、指導未來模型設計可能具有深遠影響。

方法論的嚴謹性評估

該研究在實驗設計和論證過程上表現出高度的嚴謹性是相當值得稱道的:

  • 細致的技術驗證:研究者并未理所當然地使用Crosscoders,而是在附錄中對其訓練細節、超參數選擇、與標準SAE的性能對比(圖8)等方面做了詳盡的闡述和比較。特別是附錄C中關于解碼器范數作為特征強度代理的驗證實驗,極大地增強了其核心度量的可信度。
  • 多層次的證據支撐:研究的核心結論,特別是兩階段學習模型,是由多個獨立但相互印證的證據鏈共同支撐的。特征涌現時間、KL散度收斂、特征方向轉折點和總特征維度V形曲線,這四個不同維度的觀察共同指向了同一個結論,形成了強大的論證閉環。
  • 自動化與客觀性嘗試:在評估特征復雜性時,研究者沒有依賴主觀的人工標注,而是嘗試使用LLM進行自動化打分。盡管這種方法本身有其局限性(后詳),但這種追求客觀和規?;治龅膰L試是值得肯定的。
  • 全面的案例分析:除了宏觀統計,研究還深入到SVA、Induction、IOI等多個具體任務中進行案例分析,使得結論更加具體和可信。對不同變體(如SVA的四種變體)的全面測試也反映了其考慮之周全。

潛在局限與待解決的問題

盡管這項研究取得了卓越的成就,但作為一項前沿探索,它也存在一些固有的局限性,研究者在論文第7節也坦誠地指出了其中一部分。

  1. 模型的普適性問題:該研究的所有實驗都基于Pythia模型套件。雖然Pythia系列因其開放和受控的訓練設置而成為學術研究的理想選擇,但其架構(GPT-NeoX)相對單一。這些關于特征演化的發現,在多大程度上能夠推廣到其他主流架構(如Llama系列、GPT系列)、不同的訓練數據和訓練策略(如不同的優化器或學習率調度)上,仍是一個有待驗證的開放問題。
  2. 下游任務的復雜性有限:研究所選用的下游任務(SVA, IOI, Induction)雖然是機制可解釋性領域的經典任務,但它們本質上仍屬于相對簡單、結構化的語言能力測試。對于更高級、更抽象的推理、創作或代碼生成等復雜任務,其背后的特征回路可能會遠比當前發現的更為復雜和龐大。當前的方法論能否有效地擴展到這些任務上,將是未來工作的一個重要方向。
  3. 快照的離散性限制:Crosscoder的訓練成本與快照數量成正比,這限制了研究者只能選取離散的、有限的訓練快照進行分析。這種離散采樣可能會錯過在兩個快照之間發生的快速變化或瞬時現象。開發能夠處理連續訓練動態(例如,結合梯度信息)的分析方法,將是未來的一個重要改進方向。
  4. 特征復雜性評估的潛在偏差:使用LLM自動化評估特征復雜性是一個新穎的嘗試,但其可靠性值得商榷。首先,LLM本身的“價值觀”和對“復雜性”的理解可能存在偏見。其次,評估結果高度依賴于Prompt的設計。最后,這種方法可能會陷入某種程度的“循環論證”——用一個黑箱(LLM評估員)去理解另一個黑箱(被分析的模型)。盡管結果顯示了相關性,但對這一方法的有效性仍需持保留態度。
  5. 特征分裂現象的挑戰:研究在附錄F中觀察到了一個有趣的“特征分裂”(Feature Splitting)現象。即隨著訓練的進行和字典規模的增大,一個原本由單個特征表示的概念,可能會分裂成多個在不同訓練階段、不同上下文中激活的更專門化的特征(圖22)。這一現象雖然本身揭示了特征的精細化過程,但也對“一個特征對應一個概念”的理想化模型提出了挑戰,使得追蹤一個宏觀概念的演化變得更加復雜。

結論

《語言模型預訓練中概念的演變》這篇論文無疑是近年來機制可解釋性領域一項里程碑式的工作。它通過巧妙地運用和改造Crosscoders工具,成功地將我們對語言模型學習過程的觀察精度,從宏觀的損失曲線和任務性能,推進到了微觀的、數以萬計的“概念特征”的演化層面。通過嚴謹的實驗和多維度的證據,為理解LLM預訓練的“兩階段”學習動力學提供了支持。從而快速掌握統計規律到精細構建語義特征的相變過程,這一發現深刻地揭示了LLM學習的內在節律。

盡管在研究范圍的普適性和方法的某些方面仍存在局限,但這項工作所開辟的研究路徑、所展示的分析范式,無疑將極大地啟發后續的研究。它讓我們離最終完全打開語言模型這個“黑箱”的夢想,又邁出了堅實而重要的一步。未來的工作將有望在更廣泛的模型架構、更復雜的任務以及更連續的時間維度上,延續并深化這一探索。

參考論文:??https://arxiv.org/abs/2509.17196v1??

本文轉載自??上堵吟??,作者:一路到底的孟子敬


已于2025-10-14 00:19:22修改
收藏
回復
舉報
回復
相關推薦
国产精品区一区二区三在线播放| 日韩一区二区在线观看| 亚洲综合在线小说| 黄色一级视频免费| 久久97久久97精品免视看秋霞| 亚洲一二三四区| 日韩在线播放视频| 精品人妻一区二区三区免费| av日韩国产| 中文字幕精品综合| 动漫一区二区在线| 亚洲香蕉在线视频| 亚洲日产国产精品| 日韩三级影视基地| 日韩人妻一区二区三区| 在线日韩成人| 欧美日韩日日骚| 国产成人无码精品久久久性色| 日本在线观看免费| 国产亚洲综合在线| 久久99精品久久久久久久久久| 一本一道人人妻人人妻αv| 亚洲毛片播放| 欧美日本亚洲视频| 欧美手机在线观看| 欧美熟乱15p| 亚洲久久久久久久久久| 韩国三级视频在线观看| 不卡一区视频| 欧美伦理视频网站| 亚洲色图38p| 桃色一区二区| 日韩欧美a级成人黄色| 加勒比成人在线| 欧美大喷水吹潮合集在线观看| 日韩精品一区二区在线播放 | 日韩亚洲电影在线| 91在线视频观看免费| 在线天堂资源| 都市激情亚洲色图| 欧美深夜福利视频| 丰满大乳少妇在线观看网站| 综合在线观看色| 亚洲精品中文字幕乱码三区不卡| 毛片免费在线播放| 久久九九久久九九| 日韩欧美一区二区三区久久婷婷| 四虎精品成人影院观看地址| 972aa.com艺术欧美| 国产精品免费在线| 天天干天天插天天操| 成人av电影在线播放| 国产一区在线免费| 亚洲三区在线播放| 久久久久久日产精品| 日韩av不卡播放| 在线免费观看黄色av| 国产精品久久99| 国产免费色视频| aa在线视频| 亚洲一区二三区| 国产无限制自拍| 午夜av不卡| 在线国产电影不卡| 久久久精品高清| 亚洲国产中文在线二区三区免| 日韩一区二区电影| 超碰caoprom| 久久最新网址| 中文国产成人精品| 国产午夜手机精彩视频| 狠狠色狠狠色综合日日tαg| 国产激情精品久久久第一区二区| 在线精品播放av| 三上悠亚作品在线观看| 亚洲色图网站| 高清一区二区三区四区五区| 久草视频在线观| 奇米色777欧美一区二区| 成人啪啪免费看| 人妻丰满熟妇av无码区hd| 久久综合久久综合久久综合| 性欧美videosex高清少妇| 女女色综合影院| 亚洲一区二区三区小说| 黄色a级片免费| 亚洲精品三区| 亚洲国产中文字幕久久网| 51妺嘿嘿午夜福利| 欧美日本一区二区视频在线观看| 91福利视频网| 国产精品伦一区二区三区| 成人美女视频在线观看| 亚洲精品9999| 日韩精品极品| 91精品国产色综合久久| 18禁裸乳无遮挡啪啪无码免费| 日韩欧美视频| 97在线精品视频| 国产精品亚洲lv粉色| 91视频免费观看| 在线观看精品视频| 松下纱荣子在线观看| 在线电影一区二区三区| 欧美精品黑人猛交高潮| 91成人免费| 国产精品成人一区二区| 风流少妇一区二区三区91| 久久精品免视看| 无码中文字幕色专区| 色诱色偷偷久久综合| 亚洲精选一区二区| 国产一二三四在线| 国内精品在线播放| 欧美日韩国产三区| 婷婷五月综合缴情在线视频| 无码小电影在线观看网站免费| 91精品啪在线观看国产60岁| 久久精品一区二区免费播放| 午夜视频精品| 成人国产精品色哟哟| 国产高清在线看| 欧美日韩一区免费| 又黄又爽的网站| 综合久久久久| 亚洲曰本av电影| 日本高清视频在线播放| 日本国产一区二区| 女人被狂躁c到高潮| 一区在线视频| 粉嫩av一区二区三区免费观看 | 99re热精品视频| 欧美成人精品在线播放| 一区二区三区黄| 国产精品家庭影院| 国产精品区在线| 欧美大黑bbbbbbbbb在线| 国产成人精品免高潮费视频| 欧美日本网站| 欧美日韩亚洲网| 人妻丰满熟妇aⅴ无码| 亚洲每日更新| 欧美激情一区二区三区在线视频| 多野结衣av一区| 日韩精品免费电影| 国产成人在线免费观看视频| a级精品国产片在线观看| 妞干网在线观看视频| 给我免费播放日韩视频| 午夜精品久久久久久久男人的天堂 | 欧美高清激情brazzers| wwwww黄色| 久99久精品视频免费观看| 亚洲午夜精品久久久中文影院av| 欧美激情不卡| 欧美成人免费va影院高清| 国产丰满美女做爰| 日韩另类在线| 色狠狠av一区二区三区| www..com.cn蕾丝视频在线观看免费版| 久久成人在线| 亚洲国产综合自拍| 精品国产麻豆| 欧美精品电影免费在线观看| 天堂v在线观看| 欧美性xxxxhd| 亚洲不卡的av| 国产精品一二二区| 精品视频免费在线播放| 狠狠色狠狠色综合婷婷tag| 国产欧美日韩中文| 国产在线xxx| 亚洲丝袜av一区| 91中文字幕在线视频| 亚洲午夜免费福利视频| 一级黄色片大全| 黄色精品一二区| 日韩伦理在线免费观看| 国产亚洲电影| 亚洲最大av在线| 中文在线а√在线8| 日韩中文有码在线视频| 高清国产mv在线观看| 欧美午夜无遮挡| 国产一区二区三区在线视频观看| 成人午夜看片网址| 狠狠操精品视频| 欧美fxxxxxx另类| 欧美18视频| 精品国模一区二区三区欧美| 午夜精品久久久久久久久久久久久 | 日韩高清不卡在线| 国产精品国三级国产av| 国产不卡一二三区| caoporen国产精品| 国产精品成人国产| 98精品国产自产在线观看| 日韩伦理在线观看| 日韩精品亚洲精品| 国内老熟妇对白xxxxhd| 在线观看不卡一区| 日本一级黄色录像| 亚洲男同1069视频| 制服 丝袜 综合 日韩 欧美| av在线免费观看网站| 亚洲激情图片一区| 欧美黄色高清视频| 99re8在线精品视频免费播放| 日本高清久久久| 性欧美长视频| 欧美不卡在线播放| 欧美国产91| 一本一道久久a久久综合精品| 欧美男人操女人视频| 成人精品久久一区二区三区| gay欧美网站| 午夜精品www| 久久五月精品中文字幕| 久久久精品国产| av电影在线观看一区二区三区| 亚洲精品国产精品国产自| 国内精品久久久久久久久久久| 欧美日韩高清影院| 中国黄色一级视频| 欧美伊人久久大香线蕉综合69| 欧美三级一区二区三区| 亚洲国产成人精品视频| 久草中文在线视频| 悠悠色在线精品| 欧美成人一区二区三区高清| 成人免费一区二区三区视频 | 高清av免费看| 日韩高清不卡在线| 四虎永久在线精品无码视频| 国产美女精品| 国产h视频在线播放| 亚洲裸体俱乐部裸体舞表演av| 国产91沈先生在线播放| 亚洲无线视频| 日韩欧美不卡在线| 国产一区二区你懂的| 每日在线更新av| 久久久人人人| 老司机午夜av| 蜜桃视频一区二区| www.cao超碰| 国产精品一级在线| 国产a级片视频| 9色porny自拍视频一区二区| 中文字幕一区二区人妻电影丶| 成人久久18免费网站麻豆| 亚洲日本久久久| 久久综合成人精品亚洲另类欧美 | 国产人妻精品午夜福利免费| 久草热8精品视频在线观看| 日本不卡一区二区在线观看| 韩国欧美国产一区| 欧美日韩一区二区区别是什么| 粉嫩aⅴ一区二区三区四区五区| 亚洲精品国产成人av在线| 97久久超碰精品国产| 国产手机在线观看| 国产精品久99| 欧美黄色一区二区三区| 午夜久久久影院| 亚洲成人第一网站| 欧美日韩aaaaaa| 99热这里只有精品在线观看| 欧美成人精品福利| 熟妇人妻中文av无码| 亚洲欧美国产一区二区三区| 素人av在线| 国产69精品久久久久9| 成人勉费视频| 91精品久久久久久| 精品网站aaa| 日韩精品最新在线观看| 一区二区三区四区电影| 欧美精品一区免费| 老司机午夜精品| 国产一级免费片| 欧美韩国日本一区| 国产一级片网址| 欧美亚洲动漫制服丝袜| www.日韩在线观看| 亚洲欧美日韩久久久久久 | 视频一区中文| 欧美性受黑人性爽| 蜜桃久久av| 91精品国产高清91久久久久久 | 日韩欧美一区二区三区久久婷婷| 亚洲综合婷婷| 日韩一级免费在线观看| 国产精品亚洲视频| 久久午夜精品视频| 午夜日韩在线观看| 国产精品久久久久毛片| 亚洲美女性视频| 新版中文在线官网| 国产精品看片资源| 三级小说欧洲区亚洲区| www国产免费| 美女精品自拍一二三四| 亚洲精品中文字幕在线播放| 亚洲色欲色欲www| 波多野结衣在线电影| 少妇精品在线| 日本一区视频在线观看免费| 激情久久久久久| 亚洲无在线观看| 国产清纯白嫩初高生在线观看91| 欧美日韩国产精品一区二区三区| 精品视频在线视频| 精品乱码一区二区三四区视频| 久久久亚洲福利精品午夜| 99久久久国产| 一区二区av| 日韩电影在线一区| 亚洲国产欧美视频| 五月天亚洲婷婷| 成人免费公开视频| 欧美人与性动交a欧美精品| 亚洲日本中文| 亚洲电影网站| 青青草国产精品97视觉盛宴| 91精品国产自产| 五月婷婷色综合| 欧美一级免费片| 久久91亚洲人成电影网站| 全球中文成人在线| 亚洲欧洲久久| 蜜乳av一区二区三区| 性欧美精品男男| 91黄视频在线观看| 国产精品免费观看| 国产精品久久久久久久久男| 中文字幕精品影院| 99热成人精品热久久66| 91影院在线免费观看| 精品成人av一区二区在线播放| 亚洲电影免费观看高清| 91黄页在线观看| 精品国产第一页| 久久国产精品久久久久久电车| 国产精品jizz| 在线一区二区视频| 97人人在线| 成人免费视频网址| 在线一区免费| 中文字幕第3页| 欧美性xxxx极品hd满灌| 国产中文字幕在线视频| 国产精品第二页| 婷婷六月综合| 日本一级大毛片a一| 亚洲成年人影院| 日韩亚洲视频在线观看| 国产精品久久综合av爱欲tv| 欧美电影三区| 国产人妻精品午夜福利免费| 亚洲成av人影院| 国产在线视频网址| 国产色视频一区| 亚洲一级电影| 男女黄床上色视频| 欧美日韩一卡二卡| 国产啊啊啊视频在线观看| 狠狠色综合一区二区| 三级欧美韩日大片在线看| 国产喷水在线观看| 亚洲国产欧美一区二区三区久久| 欧洲一区精品| 欧美日韩一区二区三区视频 | 欧美性猛交xxxx乱大交蜜桃| 国产视频福利在线| 成人久久18免费网站图片| 激情综合视频| 亚洲欧美va天堂人熟伦| 91精品国产综合久久福利软件 | av每日在线更新| 99久久久久国产精品免费| 久久久久久婷| 欧美精品成人久久| 亚洲香蕉在线观看| 亚洲**毛片| 波多结衣在线观看| 性久久久久久久久久久久 | 国外成人在线播放| 欧美一级精品片在线看| 永久免费看片在线观看| 91国在线观看| 久草在线新免费首页资源站| 欧美一区二区高清在线观看| 国产一区二区久久| 久久久久女人精品毛片九一| 久久这里只有精品99| 国产精品一区二区av交换| 日本wwwwwww| 欧美日本一区二区三区四区| 中国色在线日|韩|