基于能量的Transformer橫空出世!全面超越主流模型35%
AI無需監督就能學習思考?
弗吉尼亞大學團隊最新提出EBT(Energy-Based Transformers)架構,通過全新能量機制,首次實現在跨模態以及數據、參數、計算量和模型深度等多個維度全面超越Transformer++(基于Llama 2的Transformer優化版本)的模型。

在離散(文本)和連續(視覺)模態下,EBT在數據量、批次大小、參數量、計算量和模型深度等方面比Transformer++提升了約35%。

在推理過程中,EBT在測試時也比Transformer++提高了29%。

那么,這種模擬人類思考模式的新架構EBT,到底是如何實現的呢?
EBT方法:基于能量的Transformer

EBT通過能量最小化過程模擬思考:從隨機預測開始,通過梯度下降反復優化,直到能量收斂,從而動態決定“思考步數”。
這讓模型具備了像人類一樣“想清楚再回答”的能力。
EBT是基于EBM(Energy-Based Models)原理發展而來的具體模型架構。
它通過學習一個能量函數,為每一種輸入配置分配一個標量值。
能量越低,表示輸入變量之間的兼容性或概率越高;能量越高,則表示兼容性或概率越低。
因此,這個能量函數可以被視為對輸入數據一致性的驗證器。
雖然EBM提供了靈活的建模框架,但如何實現大規模訓練仍是一個未解決的研究難題。
目前主要有兩種訓練方法——對比學習法和正則化方法。
由于維度災難問題,對比方法難以擴展。
為此,研究人員將EBM學習轉化為一個優化問題,通過隱式正則化能量空間,有效避免了維度災難,實現了可擴展的學習。
在這種方法中,EBM通過梯度下降將初始預測優化到真實解。

Transformer因其并行性、穩定性和可擴展性優勢,成為EBM的理想架構。
基于此,研究者提出了EBT,包括兩種變體:
- 受GPT啟發的解碼器單向EBT,可用于自回歸建模;
- 具備雙向注意力的雙向EBT,支持填充和掩碼建模。
雙向EBT實現較簡單,而自回歸EBT因信息泄漏問題實現較復雜。
EBT全方面優于Transformer++
研究者針對六個不同維度進行了擴展實驗——包括數據量、批量大小、網絡深度、參數量、計算量(FLOPs)和嵌入維度。


在所有這些維度上,EBT一致優于Transformer++,成為首個在不更換分詞器的情況下實現多維度超越Transformer++的模型。
其次,隨著訓練時間的增加,EBT的思考能力也不斷提升,其通過驗證獲得的性能提升從4%?8%增加到10%?14%。

此外,EBT超越Transformer++的優勢不僅限于單一模態,研究人員在視頻任務中同樣驗證了這一點。

研究者還將EBT與擴散模型在相對簡單的圖像去噪任務上進行了比較,結果顯示EBT在性能上優于擴散模型,同時所需的前向計算次數減少了99%。

EBT通過引入基于能量的優化機制,為系統2思維的實現提供了新的思路,展現出良好的擴展性和較強的泛化能力。
作者介紹

論文一作Alexi Gladstone是一位專注于“系統2思維”、能量基模型(EBM)及多模態學習方向的AI研究者,目前就讀于伊利諾伊大學厄本那-香檳分校(UIUC)。
2025 年,他在學術界取得了令人矚目的成績:
- NSF 研究生研究獎學金;
- ICML 2025的最佳審稿人;
- Meta研究科學家實習。
他工作之余喜歡鍛煉、爬山和跑步,也熱衷于探索認知科學、計算神經科學、物理學和心理學等多個學科領域。
內心深處,他是一名哲學科學家,始終在追尋對我們所處宇宙的更深理解。

作者之一Yilun?Du(杜逸倫)是一位活躍在生成模型與具身智能領域的人工智能研究者,現任哈佛大學肯普納研究所的助理教授,同時也是Google DeepMind的高級研究科學家。
他本科和博士均畢業于麻省理工大學,曾在OpenAI、FAIR和DeepMind等頂尖研究機構工作,并在國際生物學奧林匹克競賽中獲得金牌。
他的研究核心目標是構建能夠在物理世界中進行推理與決策的智能體,主要聚焦于利用生成式AI構建世界模型,將系統規劃與迭代推理自然融入只能體的學習過程中。
面對數據有限和泛化需求高的挑戰,他提出以能量基模型(EBM)為基礎,構建可組合的生成模型,有效突破對大量標注數據的依賴。


























