Meta新注意力機制突破Transformer上限,還用上了OpenAI的開源技術
Meta挖走OpenAI大批員工后,又用OpenAI的技術搞出新突破。
這是什么殺人又誅心(doge)?
新架構名為2-Simplicial Transformer,重點是通過修改標準注意力,讓Transformer能更高效地利用訓練數據,以突破當前大模型發展的數據瓶頸。
而核心方法,就是基于OpenAI提出的Triton,將標準點積注意力推廣到三線性函數。

實驗結果顯示,在同等參數量和數據量下,相較于傳統Transformer,新架構在數學、編程、推理等任務上均有更好的表現。
并且,2-Simplicial Transformer的縮放指數高于傳統Transformer——這意味著隨著參數增加,新架構加持下的模型性能提升更快,更適用于有限數據的場景。
三元線性注意力
傳統Transformer的核心機制是點積注意力,其計算復雜度較低,但對復雜任務(如邏輯推理、數學運算等)表達能力有限。
針對于此,Meta的這項研究,重點放在將點積注意力從二元線性操作擴展到三元線性操作。
簡單來說,就是在計算注意力時引入第三個向量,來增加模型對復雜模式的表達能力。

這第三個向量,是一個新的Key,寫為K’,通過三元線性函數計算得到。

K’引入了額外的維度,使得注意力機制能夠捕獲更加豐富的關系。
舉個例子,在處理推理任務時,可以用查詢向量Q表示當前問題,用鍵向量K表示第一個參考信息,用K’表示第二個參考信息。
其中關鍵的一點在于,相比于點積,三元計算更為復雜。為此,這項研究引入了Triton來實現核心運算。
Triton是一種高效的GPU編程框架,最早由OpenAI提出。它旨在讓研究人員無需CUDA經驗,就能用較少的代碼實現接近于手寫CUDA的性能。
研究人員通過Triton實現了520TFLOPS(每秒萬億次浮點運算)的性能。

另外,論文還引入了滑動窗口(Sliding Window)機制,通過限制注意力的計算范圍,來降低計算成本,同時保持較好的性能。

縮放指數更優
研究人員訓練了一系列MoE模型來驗證2-Simplicial Transformer的有效性。
模型規模從活躍參數10億、總參數570億,到活躍參數35億、總參數1760億不等。
在不同任務和模型規模上對比2-Simplicial Transformer和傳統Transformer的負對數似然(值越小,說明模型對數據的預測越準確),結果如下:

可以看到,在小模型(1B)上,2-Simplicial Transformer改進有限,在GSM8k、MBPP等任務中甚至出現了較為明顯的性能下降。
但在較大模型上,2-Simplicial Transformer表現顯著優于傳統Transformer。
論文還分析了縮放指數的變化。

2-Simplicial Transformer的縮放指數α明顯高于傳統Transformer,說明模型性能隨參數量、數據量的增加,變強速度更快。這也意味著,2-Simplicial Transformer在數據有限場景下優勢會更加明顯。
不過,研究人員也提到,目前,2-Simplicial Transformer的計算復雜度和延遲仍然較高,Triton雖然高效,但仍需進一步優化以適配生產環境。
One More Thing
新注意力機制引發討論,而背后的Triton這次也牢牢吸引住了網友們的目光。
用Triton實現三元線性注意力機制?這就像給了模型一把瑞士軍刀。

整個Triton庫就是一本關于如何不編程的教科書。

合著Meta的論文,這次算是給OpenAI的技術做了宣傳了(doge)。
不過反過來也可以說,Meta這波不僅挖走了OpenAI的人,也玩轉了OpenAI的技術。
論文地址:
https://arxiv.org/abs/2507.02754



































