三星 TRM 論文:少即是多,用遞歸替代深度,挑戰 Transformer 范式
大數據文摘整理
三星SAIL蒙特利爾實驗室的研究人員近日發布論文《Less is More: Recursive Reasoning with Tiny Networks》,提出一種名為 Tiny Recursive Model(TRM) 的新型遞歸推理架構。
圖片
這項研究顯示,在推理任務上,小網絡也能戰勝大型語言模型。
TRM僅使用 700萬參數、兩層神經網絡,就在多項高難度任務中超過了 DeepSeek R1、Gemini 2.5 Pro、O3-mini 等模型。
在架構上,TRM也放棄了自注意力層(僅限 TRM-MLP 變體;TRM-Att 仍含自注意力。)。論文表明,對于小規模固定輸入任務,MLP反而能減少過擬合。另外,當上下文長度較短時,注意力機制反而是一種浪費。TRM 在某些任務(例如 Sudoku、Maze-Hard 等)中, 使用純 MLP 結構優于 Transformer-based 模型。
圖片
圖注:Tiny Recursive Model(TRM)通過不斷在“答案 y和“潛在思考變量 z 之間遞歸更新,實現小參數模型的多輪自我修正推理。
傳統大模型依賴鏈式思維(Chain-of-Thought)生成推理步驟,但這種方法成本高、容易累積錯誤。
TRM 則通過遞歸地更新“答案”和“潛在思考變量”,讓模型在多輪自我修正中逼近正確結果。
論文總結:“TRM以極小的規模實現了前所未有的泛化能力。”在ARC-AGI推理基準上,TRM獲得 45%(ARC-AGI-1) 與 8%(ARC-AGI-2) 的準確率,高于多數大型模型。在Sudoku-Extreme任務上,它的準確率更是達到 87.4%,刷新紀錄。
研究團隊稱,這種結構的核心邏輯是“遞歸即深度”:深度遞歸可替代增加層數,模型不需更多層數,只需反復思考。
推理機制重構:少即是多
TRM的設計源自對上一代 Hierarchical Reasoning Model(HRM) 的反思。
圖片
HRM模型在兩種不同頻率下遞歸更新潛變量????與????的過程,通過先無梯度、后帶梯度的雙階段循環,實現高低頻遞歸推理的結合。
HRM 使用兩個網絡在不同“頻率層次”上遞歸運算,模仿人腦的多層推理結構。然而,其訓練過程復雜,依賴固定點理論(Fixed-Point Theorem)和生物學假設。
TRM徹底放棄這些理論假設。
研究者發現,單一網絡加深度監督(Deep Supervision)即可實現相同甚至更好的推理效果。
模型通過多次前向遞歸更新內部潛變量z與當前答案y,讓推理鏈條在每一步收斂得更準。
與HRM相比,TRM的參數量減少參數縮減約74%,單步前向次數減半,同時提升準確率。
論文數據顯示:在Maze-Hard數據集上,TRM測試準確率為85.3%,高出HRM 10個百分點。
TRM還取消了傳統的“繼續計算”機制(Adaptive Computational Time, ACT)中第二次前向傳播。
研究者改用一個簡單的二元判斷來決定是否停止推理。
結果顯示,模型訓練速度顯著提升,準確率幾乎不變。
在架構上,TRM也放棄了自注意力層。對于小規模固定輸入任務(如數獨),使用多層感知機(MLP)反而能減少過擬合。
論文指出,“當上下文長度較短時,注意力機制反而是一種浪費。”這一發現挑戰了AI界“模型越大越強”的經驗法則。減少層數、加深遞歸,是讓模型學會‘思考’的關鍵。
結果與啟示:推理的新尺度
實驗結果表明,TRM不僅在性能上反超HRM,更在泛化能力與效率比上建立了新標準。
圖片
在Sudoku-Extreme上,它以5M參數實現87.4%準確率;
圖片
在Maze-Hard任務上,以7M參數實現85.3%;
圖片
在ARC-AGI系列測試中,表現超過Gemini 2.5 Pro與DeepSeek R1等大模型。
研究團隊將這一成果概括為:“以遞歸取代規模,以思考取代堆疊。”
論文分析認為,大模型在生成式推理中往往容易被一次性錯誤放大,而TRM通過循環式的自我修正,將推理劃分為多個小步,顯著降低誤差傳播。
這種結構在小樣本條件下尤為有效。
作者還發現,兩層網絡的泛化能力優于更深模型。當層數增加到四層或以上時,性能反而下降,原因在于過擬合。
團隊引入指數移動平均(EMA)以穩定訓練,使模型在小數據集上保持一致收斂。
研究指出,這種方法提供了一條新的“輕量AI推理路線”:當算力與數據受限時,小模型通過遞歸學習仍可實現復雜思維行為。
這為未來的邊緣AI與低資源應用提供了方向。智能的深度,不一定來自規模,而可能來自重復思考。























