ICCV 2025 | 線性注意力新突破!MANO多極機制橫掃視覺與物理任務,性能暴漲還更省算力!
一眼概覽
MANO(Multipole Attention Neural Operator) 將注意力機制重新表述為“多極相互作用”問題,通過引入分層多尺度注意力結構,在保持全局感受野的同時,將時間與內存復雜度從 O(N2) 降至 O(N),在圖像分類與物理模擬(Darcy 流)任務中均超越主流 Transformer 模型。
核心問題
傳統 Transformer 在視覺和物理建模中性能強大,但其 計算復雜度隨輸入長度平方增長,在高分辨率圖像或密集網格模擬中成本極高。現有方法(如 Swin、ViT、FNO)多依賴窗口化或降采樣,雖提升效率卻犧牲了全局上下文。核心挑戰: 如何在保持全局信息交互的前提下,將注意力計算的時間與空間復雜度降至線性,同時兼顧多尺度細節與長程依賴?
技術亮點
1. 多極注意力機制(Multipole Attention)受 N 體模擬啟發,將注意力視為點間物理相互作用問題,引入快速多極法(Fast Multipole Method, FMM),在多層次尺度下高效計算全局交互。
2. 層級卷積下采樣與共享權重在各尺度間使用共享卷積核進行下采樣與上采樣,使模型能在任意分辨率下運行,實現尺度無關性與參數恒定性。
3. 視覺與物理任務統一框架MANO 同時適用于 圖像分類(如 SwinV2 替換注意力層) 和 偏微分方程(PDE)求解,在視覺任務與神經算子(Neural Operator)學習中展現出一致的優越性。
方法框架
圖片
MANO 的核心流程:
1. 多尺度特征提取:輸入圖像或場函數經共享卷積核多次下采樣,生成不同尺度的表示 。
2. 局部-全局注意力融合:在每個尺度內以滑動窗口方式計算局部注意力,同時通過層級上采樣和重疊窗口實現跨尺度交互。
3. 跨層聚合與輸出:各尺度注意力結果經反卷積上采樣回原始分辨率后加權求和,形成最終全局上下文融合輸出。
這一流程在復雜度上保持與單層窗口注意力相同的 O(N),但顯著增強了模型的全局表達能力與泛化性。
實驗結果速覽
圖片
圖像分類(Image Classification)
在 SwinV2-T(28M 參數)基礎上替換為 MANO 模塊后,模型在多個數據集上實現顯著提升。
性能全面超越 ViT、DeiT、TinyViT,尤其在細粒度分類任務上表現突出。
實用價值與應用
? 視覺領域: 作為 Swin 或 ViT 的可插拔替代模塊,適合高分辨率圖像分類、分割、重建等任務。
? 科學計算: 可高效學習偏微分方程算子,實現跨分辨率泛化,適用于 流體力學、氣候模擬、材料科學 等領域。
? 多模態潛力: 由于其統一的“物理-視覺”框架,MANO 有潛力成為視覺物理混合建模的基礎模塊。
開放問題
? MANO 的分層結構當前為靜態設定,能否實現自適應層級選擇以捕獲不同輸入的多尺度耦合?
? 該機制目前假設 規則網格輸入,如何擴展至不規則網格或非歐幾里得域?
? 是否可將 多極注意力 融入時間維度,用于時序 PDE 或視頻理解任務?
? 注:所有免費資料(包括本文論文)獲取鏈接:https://link3.cc/soragpt 【網頁瀏覽器打開】->【點擊,最新最先進的計算機算法資料分享】->【右上角搜索,Linear Attention with Global Context: A Multipole Attention Mechanism for Vision and Physics】即可獲得
? 重磅消息1 | manus智能體開放免費使用【親自體驗,效果非常絲滑】http://quxiedu.com:6230/archives/chong-bang-xiao-xi-manushkai-fang-mian-fei-shi-yong
【 或 https://manus.im/invitation/6PTIBEYS5EOLW】
?重磅消息2 | 醫學類模板ppt獲取【親自體驗,使用起來效果非常棒】 http://quxiedu.com:6230/archives/chong-bang-xiao-xi-yi-xue-lei-mo-ban-ppthuo-qu
?重磅消息3 | ChatGPT plus 升級費用低至人民幣109元,非常實惠且便捷【http://quxiedu.com:6230/archives/chong-bang-xiao-xi-chatgpt-plus-sheng-ji-fei-yong-di-zhi-ren-min-bi-109yuan】【親自體驗,一鍵升級ChatGPTPlus,效果非常絲滑】
?注意:所有鏈接用瀏覽器即可打開


































