Meta打碎Transformer 8年鐵律！改寫AI最底層規則，模型首次冒出潛意識

2025-10-24 10:10:22

人工智能新聞

AI最底層規則要被改寫，當模型先打腹稿再開口，AI還只是一只概率鸚鵡嗎？

Transformer可以說整個LLM的基石，但這個基石要松動了！

8年了！持續了8年的Transformer底層架構似乎要被Meta打破了。

Meta推出「自由Transformer」（Free Transformer）新模型在AI架構領域引發社交媒體熱議。

首次打破自2017年以來所有GPT模型的核心規則：不再是逐token盲猜式生成，而是在生成前能「預先思考」。

論文地址：https://arxiv.org/pdf/2510.17558

研究者在解碼器中引入了潛在隨機變量Z，讓模型在輸出前進行內部采樣與規劃，相當于為Transformer增加了一層「潛意識」。

這一創新僅增加約3%的計算開銷，卻顯著提升了模型在推理與結構化生成上的表現，在GSM8K、MMLU、HumanEval等測試中超越更大規模的模型。

Meta稱，這可能是第一種「有內在意圖」的Transformer。

用潛在隨機變量打造機器「潛意識」

Meta在解碼器中加入了潛在隨機變量(Z)。

可以將其視為生成文本前的「潛意識層」，模型會采樣內部選擇來引導整個序列的風格或結構。

從技術上講，這是通過內置在Transformer內部的條件變分自編碼器(VAE)實現的。

Meta將其命名為Free Transformer。

不同Transformer架構如何處理名為Z的隨機隱藏狀態。

圖中第一個展示的是標準Transformer，僅根據前序token預測下一個token。

第二個架構增加了隨機狀態Z，并在訓練時使用額外的編碼器網絡來推斷每個樣本對應的隱藏狀態。

第三種架構名為Free Transformer，簡化了這一過程。它直接在模型中間層注入隨機狀態，而非使用獨立的全編碼器。在訓練過程中，編碼器仍被使用一次，以幫助模型學會如何選取良好的隱藏狀態，但它僅與網絡的一部分協同工作。

在推理過程中，編碼器被跳過，隨機狀態Z被直接采樣。

這種設計使模型能夠早期做出全局決策，幫助它在沒有太多額外計算的情況下產生更一致和穩定的輸出。

因此，一半模塊充當共享編碼器，其余模塊則基于該潛在上下文進行解碼。

在常規設置中，若使用隨機隱藏狀態，每次生成文本時都必須同時使用編碼器和解碼器。

這會使成本翻倍。

自由變換器避免了這一點。

它在訓練過程中學習共享的內部結構，之后便丟棄編碼器。

在推理時，它直接采樣隱藏狀態并僅運行解碼器。

與標準模型相比，這種設計僅增加約3-4%的FLOPs計算開銷，大幅降低了計算負擔。

它采用經典的VAE目標進行訓練：

交叉熵損失+編碼器分布 Q(Z|S)與先驗 P(Z)之間的KL散度懲罰項。

Meta使用自由比特閾值(κ)來防止崩潰，僅在散度>κ時添加KL損失。

這使得Z能夠編碼有用結構（如主題、情感或模式位置）而不會過擬合。

采用KL散度懲罰結合自由比特方法，防止隱狀態記憶整個序列。

該架構在堆疊層中部注入隱狀態：將學習得到的向量添加到鍵值中，隨后正常繼續解碼過程。

每個token對應的隱狀態從65536種可能性中選取，由16個獨立比特構建而成。

關鍵突破在于——它保留了條件變分自編碼器的優勢（有助于模型更好地規劃），同時消除了通常使其不切實際的額外成本。

這樣你就能獲得一個更穩定、具有全局感知能力的Transformer，而成本幾乎與普通Transformer相同。

它僅在訓練期間增加約 3%的計算量就能實現這一點。

普通解碼器僅依據已生成的標記來選擇下一個標記，這導致它們較晚才能推測全局選擇。

FreeTransformer先采樣一個微小的隨機狀態，然后讓每個標記都基于該狀態生成。

訓練時，通過條件變分自編碼器將解碼器與編碼器配對，使模型學會生成有用的隱狀態。

結果非常好！

在推理過程中跳過編碼器，由均勻采樣器選擇狀態，生成過程正常進行。

這為模型提供了早期的全局決策，減少了在出現小規模標記錯誤后的脆弱行為。

Meta訓練了1.5B和8B的模型。

在GSM8K、HumanEval+和 MMLU等重推理基準測試中的表現顯著提升。

1.5B模型模型增益：

HumanEval+得分提升 44%
MBPP測試提升 35%
GSM8K數學題集提升 30%

計算開銷僅增加3-4%即實現上述效果。

而且模型保持穩定，沒有出現訓練崩潰或異常波動。

自由變換器（The FreeTransformer）在架構中增加了一個隨機的「隱藏思維層」。

它不只是預測，而是先決策后預測，這可能標志著后自回歸時代的開端。

一句話總結，一個微小的編碼器添加了有益的偏差，使推理和編碼更加可靠。

會思考的Transformer，不再只是「鸚鵡學舌」。

這可能是一個重要節點，Transformer的思維方式被重塑，從「預測下一個詞」邁向「思考如何表達」。

潛在變量Z到底學到了什么？

以下是論文給出的測試例子。

合成序列具有固定長度，包含一個由隨機字母重復8次構成、位于隨機位置的「目標」，以及由感嘆號組成的獨立同分布噪聲，還有一個提示目標字母的提示語。

每條樣本以「字母+>」作為提示（如 K>）。
主體是一行固定長度的下劃線 _，在隨機位置嵌入 8 個相同的大寫字母組成的「target」（如KKKKKKKK）。
另外以1/16的概率把任一字符替換成 !，形成獨立同分布的噪聲

下圖則展示了Free Transformer 在該合成任務上、不同K時的生成行為與潛變量Z所承載的信息。

每個模型都給出兩組方框：

藍色方框：每條序列都獨立采樣一個Z。
綠色方框：整組序列共用同一個Z，便于看出Z是否「鎖定」了某些全局屬性。

隨κ變大（信息從少到多）現象依次為：

κ=log(2)/64（≈1/64 bit）：幾乎不從Z編碼有用信息，表現像普通無潛變量的解碼器；綠色與藍色差異很小。
κ=log(2)/8（≈1/8 bit）：Z先學會只編碼target的位置；綠色方框中target位置在多條樣本里保持一致，但噪聲 ! 仍隨機。
κ=log(2)（1 bit）：Z進一步同時編碼target位置與噪聲模式；因此綠色方框的多條樣本連 ! 的分布也很相似。
κ=8·log(2)（8 bits）：Z承載信息過多，幾乎「把整條序列塞進 Z」——導致訓練/生成退化（模型過度依賴 Z，輸出反而不對）。

這張圖用分組對比清楚地示范：允許更大的KL配額會讓模型把更多「全局決策」搬到潛變量里；太少不夠用，太多會塌陷。

FAIR實驗室是真的搞研究

注意到，論文作者Fran?ois Fleuret，來自Meta的FAIR實驗室。

Fran?ois Fleuret是一位機器學習領域的研究科學家與教育工作者。

他目前擔任 Meta Fundamental AI Research（Meta FAIR）「核心學習與推理」（Core Learning & Reasoning）團隊的研究科學家。

而眾所周知的是，FAIR是Yann LeCun領導的。

今天一個重磅新聞就是，小扎的超級智能實驗又裁員了600人。

Yann LeCun都逼的出來發聲明了：

「我沒有參與任何Llama項目，一直由其他團隊負責，我主要是研究超越LLM的下一代人工智能。」

從這個自由Transformer來看，Yann LeCun所言不虛。

雖然他一直反對LLM技術本身，但是這些創新也是拓展AI的邊界。

希望小扎能好好對待這位圖靈獎大佬。

責任編輯：張燕妮來源：新智元

AI 模型訓練