矩陣乘法新突破!XX^T原來可以更快!RL助力搜索,世界紀錄又被提升了5%
深圳市大數據研究院、香港中文大學(深圳)研究團隊最新研究發現,
這類特殊的矩陣乘法可以進一步加速,并在強化學習與組合優化技術的結合下發掘出了一種新的算法,節省 5% 的乘法數量。

- 論文標題:XXt Can Be Faster
- 論文鏈接:https://arxiv.org/abs/2505.09814
該成果在國際社交媒體平臺 X 引發熱烈討論,并引起 MIT、斯坦福、哈佛及 Google DeepMind 科學家的廣泛關注。

背景
矩陣乘法優化堪稱計算機科學領域的「珠穆朗瑪峰」。自 1969 年 Strassen 算法橫空出世以來,這個充滿組合爆炸可能性的數學迷宮就持續考驗著人類智慧的邊界。
Google DeepMind 為此專門投入四年心血,先后推出 AlphaTensor、AlphaEvolve 等機器學習系統來攻克這一難題。這就像短跑運動員將百米紀錄從 9.58 秒推進到 9.57 秒——每個 0.01 秒的突破背后,都是對計算理論極限的重新定義。
(矩陣乘以自身的轉置)這類特殊的矩陣乘法廣泛存在于各類數據科學的實際應用中,實際應用包括:
- 5G 與自動駕駛定制芯片設計
- 線性回歸與數據分析
- 大語言模型訓練算法(Muon、SOAP)
這類操作每分鐘在全球執行數萬億次,假如能減少該操作的計算量,對能耗開銷可以帶來相當可觀的節省。令人驚訝的是,相比于普適的矩陣乘法 AB,研究者對于
這類的特殊矩陣乘法的關注少之又少。Google DeepMind 的 AlphaTensor、AlphaEvolve 探索了帶有特殊結構的 AB 矩陣乘法,但他們尚未匯報任何關于
的結果。
通過觀察
運算的特殊結構,該團隊發現
的計算確實存在加速空間!
主要貢獻
在 AI 技術的輔助下,研究團隊發掘了新算法(RXTX),以讓
這一常見的底層操作減少 5% 的運算量,這可以進一步轉換成節省 5% 的能耗以及時間(特別的,能耗開銷主要由乘法運算數量決定)。值得一提的是,RXTX 的 5% 加速不僅對超大規模矩陣成立,對小規模矩陣也成立,比如:RXTX 對 4x4 矩陣 X 僅需 34 次乘法運算。此前最先進的 Strassen 算法需要 38 次乘法(減少 10% 運算量)。


乘法運算量復雜度分析
研究團隊對乘法運算量的復雜度進行了分析。分析結果表明,RXTX 的漸進常數 26/41≈0.63,較先前最優值 2/3≈0.66 降低 5%。


總運算量(乘法+加法)復雜度分析
研究團隊進一步提供了總運算量(乘法+加法)的復雜度分析。分析結果表明,當 n≥256 時,RXTX 的總加法與乘法次數也少于現有最優方案,且漸進意義下約有 5% 的穩定提升。


核心技術
該方法屬于基于神經網絡的大鄰域搜索方法框架:
- 利用強化學習策略生成候選雙線性乘積
- 構建組合問題一(MILP-A):將目標表達式構建為候選乘積的線性組合
- 構建組合問題二(MILP-B):篩選能完整表達
結果的最小乘積集
這是 DeepMind 的 AlphaTensor 方法的一種變體——通過使用組合求解器,行動空間被縮小了一百萬倍。以下為研究團隊提供的 2*2 矩陣的簡單例子:
總結
本文針對
這類特殊矩陣乘法提出了創新性加速方法,通過引入 AI 方法設計出新型算法「RXTX」,成功實現了總運算量 5% 的優化。這一突破不僅從理論上拓展了人類對計算復雜度邊界的認識,也為相關領域的算法優化提供了新的研究范式。
鑒于
矩陣在多個學科領域的基礎性作用,本研究成果有望為實際應用場景帶來顯著的能耗優化。然而,新算法的工程化應用仍面臨硬件適配和內存管理等關鍵挑戰,其產業化落地尚需學術界與工業界的持續協同攻關。要實現新算法的全方面落地,仍然面臨諸多挑戰,可謂任重道遠。
























