比Transformer更強的架構來了?浙大新作Translution,一統卷積和自注意力
自2017年Transformer模型提出以來,Self-attention機制憑借其強大的建模能力,逐漸成為深度學習領域的核心操作。
然而,隨著人工智能模型的規模不斷擴張,單純依靠簡單直接「堆參數、堆數據」提升性能的模式正逐漸遇到瓶頸。面對大模型訓練代價高昂、性能增長趨緩等挑戰,學術界和產業界亟需新的網絡架構創新。
近日,范鶴鶴(浙江大學)、楊易(浙江大學)、Mohan Kankanhalli(新加坡國立大學)和吳飛(浙江大學)四位老師提出了一種具有劃時代意義的神經網絡基礎操作——Translution。
該研究認為,神經網絡對某種類型數據建模的本質是:
1)為某一數據元素(如卷積核里的中心元素或自注意力機制里的query)尋找相關元素或區域;
2)對相關元素形成的區域進行有效編碼,獲取該區域真正的、獨立于其他外部因素無關的內在結構的表征。
據此,在理論框架與實現機制上,Translution實現了Self-Attention(自注意力)與Convolution(卷積)的有機融合與統一,構建出一種更具普適性的神經計算機制。

論文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
論文鏈接:https://arxiv.org/pdf/2510.10060
代碼鏈接:https://github.com/hehefan/Translution
突破瓶頸重新思考深度學習兩大機制
自注意力機制(Self-Attention)自Transformer模型提出以來,已成為自然語言處理和多模態大模型的核心結構;而卷積神經網絡(CNN)則長期主導計算機視覺領域。
圖片
圖1:Convolution在捕獲關聯區域時較為「死板」,可以視為固定大小的attention;Self-attention可以自適應地捕捉關聯區域
二者的成功揭示了深度神經網絡的兩條關鍵路徑:
- Self-Attention能夠在全局范圍內自適應地捕捉特征關聯,但依賴絕對位置編碼(absolute positional embedding),導致模型在處理位置變化時缺乏穩定性;
- Convolution則通過固定的局部卷積核捕獲相對結構信息,具備強大的平移不變性,但無法像注意力那樣靈活地選擇相關區域。
圖片
圖2:在對相關區域進行編碼時,Convolution為每個方向和距離都賦予一個可學習參數矩陣,使其可以捕捉與絕對位置無關的真實結構;而Self-attention通常將絕對位置融入到特征中,當位置發生變化,可能無法識別原先結構。
兩種機制各有所長,卻始終割裂。Translution的出現,正是為了彌合這一理論與應用的鴻溝。
Translution,Self-Attention和Convolution的大一統
Translution的核心思想,是將Self-Attention的自適應區域選擇能力與Convolution的相對結構建模能力進行統一。
在傳統的自注意力計算中,Query、Key、Value的投影矩陣在所有位置上共享,無法感知元素之間的方向和距離關系。
Translution則創新性地為每一種相對偏移(offset)分配獨立的參數矩陣,從而在計算Query、Key、Value時引入方向性和相對位置信息,實現了真正意義上的相對編碼(relative encoding)。
圖片
表1:Translution對Self-Attention與Convolution的統一。Self-Attention與Convolution可以分別看作是Translution的兩種特例:Self-Attention簡化了相對位置編碼,Convolution簡化了注意力求解(用感受野代替)
這意味著,Translution不僅能像自注意力那樣動態聚焦于最相關的區域,還能像卷積一樣感知局部結構關系,實現了「自適應識別+相對建模」的融合。這一特性使模型在處理圖像、文本乃至三維空間數據時,能夠對形狀、位置、順序等結構變化保持更強的穩定性和泛化性。
α-Translution在高性能與可訓練性之間找到平衡
由于Translution在每個方向上引入了獨立參數矩陣,其參數量呈指數級增長,遠超當前GPU顯存所能承載。為解決這一問題,提出了輕量化版本——α-Translution。
通過在特征維度上引入分解式低秩編碼,α-Translution將大規模矩陣壓縮為多層可組合子空間映射,從而在保證性能的同時,將參數量與顯存占用降低至原版的數十分之一。
實驗表明,α-Translution在性能上顯著優于傳統Self-Attention,而計算成本可控,是當前硬件條件下最具潛力的過渡方案。
在視覺與語言任務上,全面超越Self-Attention
技術報告在計算機視覺和自然語言建模兩個領域開展了系統性實驗。
結果顯示,在多個benchmark上,Translution及其輕量化版本α-Translution均顯著優于基于Self-attention的Transformer架構:
?在基于ViT架構的動態MNIST分類實驗中,Translution對位置變化表現出極強的魯棒性,識別精度顯著優于Self-Attention。
?在基于ViT架構的ImageNet分類任務上,Translution的Top-1準確率較Self-Attention最高提升超過6%。
?在基于GPT架構的OpenWebText語言建模中,Translution的困惑度(Perplexity)相比Self-Attention有效降低,展現出更強的語言建模能力。
圖片
表2:當在靜態MNIST數據集上進行訓練、動態數據集上進行測試,Translution(包括α-Translution)取得了明顯高于Self-attention的準確率,展現出其對位置變化的強大適應能力。
圖片
表3:基于Translution構建的ViT在ImageNet數據集上取得明顯優于Self-attention的準確率
圖片
表4:在自然語言建模的任務上,基于Translution構建的GPT也取得了超過Self-attention的性能
這些結果表明,Translution不僅在視覺任務中能夠準確捕獲空間結構關系,也能在文本序列中理解詞語之間的相對依賴,展現出跨模態的普適性。
靈魂拷問Translution性能提升源自參數量增多?
為了驗證Translution的性能提升究竟源于參數規模的增加,還是源于所提出的相對建模機制,作者們設計了更具「挑戰性」的對照實驗:他們將Translution中的相對矩陣替換為絕對矩陣。

這一替換會導致參數量顯著增加。如果「絕對Translution」的表現優于「相對Translution」,則說明性能提升主要來自參數增多;反之,則證明提升源于相對建模機制本身。
實驗結果如表所示,「相對Translution」在準確率上遠超「絕對Translution」,充分證明了性能提升確實源自所提出的相對建模方法。
圖片
表5:具有更少參數的「相對Translution」取得了更高的準確率,證明了Translution帶來的性能提升正是由所提出的相對建模引起的。
結束語:Translution不僅是一項技術創新,更是一次對深度神經網絡本質的重新思考。
盡管其大規模應用有賴于未來更強大的算力支撐,但它為新一代神經網絡的發展開辟了新的方向,也為人工智能的未來注入了新的活力。
參考資料:
https://arxiv.org/pdf/2510.10060


































