Meta打碎Transformer 8年鐵律!改寫AI最底層規則,模型首次冒出潛意識
Transformer可以說整個LLM的基石,但這個基石要松動了!
8年了!持續了8年的Transformer底層架構似乎要被Meta打破了。
Meta推出「自由Transformer」(Free Transformer)新模型在AI架構領域引發社交媒體熱議。
首次打破自2017年以來所有GPT模型的核心規則:不再是逐token盲猜式生成,而是在生成前能「預先思考」。

論文地址:https://arxiv.org/pdf/2510.17558
研究者在解碼器中引入了潛在隨機變量Z,讓模型在輸出前進行內部采樣與規劃,相當于為Transformer增加了一層「潛意識」。
這一創新僅增加約3%的計算開銷,卻顯著提升了模型在推理與結構化生成上的表現,在GSM8K、MMLU、HumanEval等測試中超越更大規模的模型。
Meta稱,這可能是第一種「有內在意圖」的Transformer。
用潛在隨機變量打造機器「潛意識」
Meta在解碼器中加入了潛在隨機變量(Z)。
可以將其視為生成文本前的「潛意識層」,模型會采樣內部選擇來引導整個序列的風格或結構。
從技術上講,這是通過內置在Transformer內部的條件變分自編碼器(VAE)實現的。
Meta將其命名為Free Transformer。

不同Transformer架構如何處理名為Z的隨機隱藏狀態。
圖中第一個展示的是標準Transformer,僅根據前序token預測下一個token。
第二個架構增加了隨機狀態Z,并在訓練時使用額外的編碼器網絡來推斷每個樣本對應的隱藏狀態。
第三種架構名為Free Transformer,簡化了這一過程。它直接在模型中間層注入隨機狀態,而非使用獨立的全編碼器。在訓練過程中,編碼器仍被使用一次,以幫助模型學會如何選取良好的隱藏狀態,但它僅與網絡的一部分協同工作。
在推理過程中,編碼器被跳過,隨機狀態Z被直接采樣。
這種設計使模型能夠早期做出全局決策,幫助它在沒有太多額外計算的情況下產生更一致和穩定的輸出。
因此,一半模塊充當共享編碼器,其余模塊則基于該潛在上下文進行解碼。
在常規設置中,若使用隨機隱藏狀態,每次生成文本時都必須同時使用編碼器和解碼器。
這會使成本翻倍。
自由變換器避免了這一點。
它在訓練過程中學習共享的內部結構,之后便丟棄編碼器。
在推理時,它直接采樣隱藏狀態并僅運行解碼器。
與標準模型相比,這種設計僅增加約3-4%的FLOPs計算開銷,大幅降低了計算負擔。

它采用經典的VAE目標進行訓練:
交叉熵損失+編碼器分布 Q(Z|S)與先驗 P(Z)之間的KL散度懲罰項。
Meta使用自由比特閾值(κ)來防止崩潰,僅在散度>κ時添加KL損失。
這使得Z能夠編碼有用結構(如主題、情感或模式位置)而不會過擬合。
采用KL散度懲罰結合自由比特方法,防止隱狀態記憶整個序列。
該架構在堆疊層中部注入隱狀態:將學習得到的向量添加到鍵值中,隨后正常繼續解碼過程。
每個token對應的隱狀態從65536種可能性中選取,由16個獨立比特構建而成。
關鍵突破在于——它保留了條件變分自編碼器的優勢(有助于模型更好地規劃),同時消除了通常使其不切實際的額外成本。
這樣你就能獲得一個更穩定、具有全局感知能力的Transformer,而成本幾乎與普通Transformer相同。
它僅在訓練期間增加約 3%的計算量就能實現這一點。
普通解碼器僅依據已生成的標記來選擇下一個標記,這導致它們較晚才能推測全局選擇。
FreeTransformer先采樣一個微小的隨機狀態,然后讓每個標記都基于該狀態生成。
訓練時,通過條件變分自編碼器將解碼器與編碼器配對,使模型學會生成有用的隱狀態。
結果非常好!
在推理過程中跳過編碼器,由均勻采樣器選擇狀態,生成過程正常進行。
這為模型提供了早期的全局決策,減少了在出現小規模標記錯誤后的脆弱行為。
Meta訓練了1.5B和8B的模型。
在GSM8K、HumanEval+和 MMLU等重推理基準測試中的表現顯著提升。
1.5B模型模型增益:
- HumanEval+得分提升 44%
- MBPP測試提升 35%
- GSM8K數學題集提升 30%

計算開銷僅增加3-4%即實現上述效果。
而且模型保持穩定,沒有出現訓練崩潰或異常波動。
自由變換器(The FreeTransformer)在架構中增加了一個隨機的「隱藏思維層」。

它不只是預測,而是先決策后預測,這可能標志著后自回歸時代的開端。
一句話總結,一個微小的編碼器添加了有益的偏差,使推理和編碼更加可靠。
會思考的Transformer,不再只是「鸚鵡學舌」。
這可能是一個重要節點,Transformer的思維方式被重塑,從「預測下一個詞」邁向「思考如何表達」。
潛在變量Z到底學到了什么?
以下是論文給出的測試例子。
合成序列具有固定長度,包含一個由隨機字母重復8次構成、位于隨機位置的「目標」,以及由感嘆號組成的獨立同分布噪聲,還有一個提示目標字母的提示語。
- 每條樣本以「字母+>」作為提示(如 K>)。
- 主體是一行固定長度的下劃線 _,在隨機位置嵌入 8 個相同的大寫字母組成的「target」(如KKKKKKKK)。
- 另外以1/16的概率把任一字符替換成 !,形成獨立同分布的噪聲

下圖則展示了Free Transformer 在該合成任務上、不同K時的生成行為與潛變量Z所承載的信息。

每個模型都給出兩組方框:
- 藍色方框:每條序列都獨立采樣一個Z。
- 綠色方框:整組序列共用同一個Z,便于看出Z是否「鎖定」了某些全局屬性。
隨κ變大(信息從少到多)現象依次為:
- κ=log(2)/64(≈1/64 bit):幾乎不從Z編碼有用信息,表現像普通無潛變量的解碼器;綠色與藍色差異很小。
- κ=log(2)/8(≈1/8 bit):Z先學會只編碼target的位置;綠色方框中target位置在多條樣本里保持一致,但噪聲 ! 仍隨機。
- κ=log(2)(1 bit):Z進一步同時編碼target位置與噪聲模式;因此綠色方框的多條樣本連 ! 的分布也很相似。
- κ=8·log(2)(8 bits):Z承載信息過多,幾乎「把整條序列塞進 Z」——導致訓練/生成退化(模型過度依賴 Z,輸出反而不對)。
這張圖用分組對比清楚地示范:允許更大的KL配額會讓模型把更多「全局決策」搬到潛變量里;太少不夠用,太多會塌陷。
FAIR實驗室是真的搞研究
注意到,論文作者Fran?ois Fleuret,來自Meta的FAIR實驗室。
Fran?ois Fleuret是一位機器學習領域的研究科學家與教育工作者。

他目前擔任 Meta Fundamental AI Research(Meta FAIR)「核心學習與推理」(Core Learning & Reasoning)團隊的研究科學家。
而眾所周知的是,FAIR是Yann LeCun領導的。
今天一個重磅新聞就是,小扎的超級智能實驗又裁員了600人。
Yann LeCun都逼的出來發聲明了:
「我沒有參與任何Llama項目,一直由其他團隊負責,我主要是研究超越LLM的下一代人工智能。」

從這個自由Transformer來看,Yann LeCun所言不虛。
雖然他一直反對LLM技術本身,但是這些創新也是拓展AI的邊界。
希望小扎能好好對待這位圖靈獎大佬。


































