當“7M小模型”逆襲巨頭:三星TRM如何擊敗DeepSeek、Gemini與o3-mini? 原創
一、當小模型掀翻大模型,AI推理的天平被重新校準
在AI的競技場上,我們已經習慣了“大力出奇跡”——模型越大、參數越多、算力越猛,表現就越強。 然而,2025年10月,來自三星SAIT(蒙特利爾研究院)的一篇論文,徹底打破了這一邏輯。
他們發布了一個名叫 Tiny Recursive Model(TRM) 的小模型,參數量僅 7M——幾乎是DeepSeek-R1(671B)的百萬分之一。 但就是這樣一個“袖珍模型”,在ARC-AGI-1 和 ARC-AGI-2 推理測試中,硬是干翻了多個巨頭級大模型,包括 Gemini 2.5 Pro、o3-mini-high、以及DeepSeek-R1。
- ARC-AGI-1:44.6%準確率
- ARC-AGI-2(兩次嘗試):7.8%準確率
相比之下,DeepSeek-R1 僅 **15.8% / 1.3%**,Gemini 2.5 Pro 37.0% / 4.9%。 這意味著——TRM不是偶然跑贏,而是以十幾倍小的規模實現了結構性勝利。

三星團隊的目標不是“更大的模型”,而是一個更聰明的 遞歸推理架構:
“讓模型像人一樣思考——草擬一個方案,再自我修訂,而不是一條條地順序輸出。”
二、TRM的秘密:不是更深,而是“想+改”的循環
傳統的大語言模型(LLM)在思考問題時采用自回歸方式(autoregressive)——逐字生成輸出。 但TRM走了另一條路:先做出一個完整的草稿,再反復修改,直到結果更優。

這背后隱藏的是三個核心創新:
1. Think → Act 的循環:像人一樣“思考—行動—再思考”
TRM取消了舊有模型HRM的兩層結構,只保留一個極小的遞歸核心網絡,由兩層組成。 它在內部交替執行兩個過程:
- Think(思考):更新潛在記事本(latent scratchpad)?
?z ← f(x, y, z)?? - Act(行動):根據思考結果修正輸出?
?y ← g(y, z)??
模型在訓練時最多展開16次循環(unroll),每次循環都有“深度監督”,確保每一步思考都受到反饋。 而在推理時,它會完整展開——像一個人拿著草稿紙反復推演。
這種結構,讓TRM擁有一種“持續反思”的能力——每一輪都能糾正上一次的盲點。
2. 真·遞歸訓練:不再偷懶的反向傳播
傳統方法(如HRM)為了省算力,采用的是固定點近似(Fixed-Point Approximation),即不對所有循環進行完整反向傳播。 而TRM大膽地選擇了“全程回傳”——每一步的誤差都被追蹤到底。
這雖然增加了訓練復雜度,但顯著提升了模型的泛化能力。 換句話說,TRM不會只記得“怎么做題”,而是真正理解“為什么這么做”。
3. 用遞歸代替堆疊:深度來自時間,而不是層數
TRM的網絡層數只有2層,但它的有效深度來自遞歸展開。 假設每次展開6步、遞歸3輪,它的等效深度大約是 ??T × (n+1) × layers??。 也就是說,它用時間的深度替代了結構的深度。
結果是——更淺、更快,卻思考得更“深”。
三、超越尺寸的智慧:實測結果全線領先
在ARC、Sudoku、Maze等推理任務中,TRM全面碾壓同類架構。
任務 | 模型 | 參數量 | 準確率 |
ARC-AGI-1 | TRM-Attn | 7M | 44.6% |
ARC-AGI-2 | TRM-Attn | 7M | 7.8% |
ARC-AGI-1 | HRM | 27M | 40.3% |
ARC-AGI-2 | HRM | 27M | 5.0% |
Sudoku-Extreme | TRM-Mixer | 7M | 87.4% |
Maze-Hard | TRM-Attn | 7M | 85.3% |
這些結果尤其驚人,因為TRM不是靠提示工程或few-shot提示,而是完全從零訓練(train from scratch)。 它在小規模、重增強的數據集上,展現了前所未有的泛化能力。
甚至在經典的Sudoku-Extreme(9×9)任務上,TRM用一個無注意力的MLP-Mixer混合結構取得87.4%的高分,比前代HRM(55%)高出整整30個百分點。


四、為什么7M模型能贏?
聽起來像魔法,但其實邏輯非常清晰:TRM不是在拼參數,而是在拼思維方式。
1. 從“逐字輸出”到“全局草擬”
自回歸模型一邊生成一邊預測,容易陷入暴露偏差(Exposure Bias)——后面的詞必須建立在前面未必完美的輸出上。 TRM不同,它先生成一個完整解答,再進行“自我審校”,對照輸入不斷修正。 這種結構化的反思機制,使其在邏輯類、幾何類任務上更穩定。
2. 算力用在“思考時間”,不是“模型體積”
傳統擴展模型靠堆參數堆算力,而TRM把相同計算量分配在遞歸循環上。 換句話說,它讓“時間的深度”取代了“空間的寬度”。 研究團隊發現,這樣的分配方式在復雜邏輯推理任務中更高效——就像一個小而勤奮的腦袋,能比龐大但笨重的機器想得更透。
3. 針對網格推理的歸納偏置
在Sudoku、Maze這類固定網格問題中,TRM去掉自注意力層,用簡單的MLP-Mixer做特征混合。 看似退步,實則更契合任務本身的結構規律。 因為對于固定空間的小格子,過度的注意力機制反而帶來噪聲。
五、從TRM看“后大模型時代”的三個信號
TRM的出現,不只是一個“小模型逆襲”的故事,更像是AI研究的方向拐點。
1. 參數規模不再是唯一真理
從DeepSeek到Gemini,業界已經進入“參數飽和期”。 TRM用7M參數證明:推理能力并不完全依賴規模,而在于計算的組織方式。 未來,“遞歸推理”可能成為推理型AI的新主流。
2. 小模型的復興:端側與自治智能的希望
在端側、機器人、嵌入式智能系統中,資源極度有限。 TRM的成功意味著,未來不必依賴上百GB的模型權重,也能獲得可靠的邏輯推理能力。 這對自動駕駛、工業機器人、邊緣計算等場景,都是重大利好。
3. 遞歸思維的回歸:讓模型學會“思考過程”
傳統LLM更像“說話者”——一口氣講完結論; 而TRM像“思考者”——不斷推翻自我、修正答案。 這種“過程性智能”,或許才是通往通用智能(AGI)的真正路徑。
六、結語:從“堆大”到“想深”,AI研究的另一種可能
三星SAIT的Tiny Recursive Model只是一個起點。 它并沒有解決ARC-AGI(目標85%)的終極挑戰,但它讓我們重新看清:
“智慧”并非堆疊的結果,而是迭代與反思的產物。
當一個7M的小模型,能夠在思考深度上超過百億級大模型,也許我們該問自己—— 下一代AI,究竟需要更多算力,還是更多“自我修正”的能力?
未來,也許不是“更大”,而是“更聰明”。
本文轉載自??Halo咯咯?? 作者:基咯咯

















