當“7M小模型”逆襲巨頭：三星TRM如何擊敗DeepSeek、Gemini與o3-mini？原創

發布于 2025-10-17 08:24

瀏覽

0收藏

一、當小模型掀翻大模型，AI推理的天平被重新校準

在AI的競技場上，我們已經習慣了“大力出奇跡”——模型越大、參數越多、算力越猛，表現就越強。然而，2025年10月，來自三星SAIT（蒙特利爾研究院）的一篇論文，徹底打破了這一邏輯。

他們發布了一個名叫 Tiny Recursive Model（TRM） 的小模型，參數量僅 7M——幾乎是DeepSeek-R1（671B）的百萬分之一。但就是這樣一個“袖珍模型”，在ARC-AGI-1 和 ARC-AGI-2 推理測試中，硬是干翻了多個巨頭級大模型，包括 Gemini 2.5 Pro、o3-mini-high、以及DeepSeek-R1。

ARC-AGI-1：44.6%準確率
ARC-AGI-2（兩次嘗試）：7.8%準確率

相比之下，DeepSeek-R1 僅 **15.8% / 1.3%**，Gemini 2.5 Pro 37.0% / 4.9%。這意味著——TRM不是偶然跑贏，而是以十幾倍小的規模實現了結構性勝利。

當“7M小模型”逆襲巨頭：三星TRM如何擊敗DeepSeek、Gemini與o3-mini？-AI.x社區

三星團隊的目標不是“更大的模型”，而是一個更聰明的 遞歸推理架構：

“讓模型像人一樣思考——草擬一個方案，再自我修訂，而不是一條條地順序輸出。”

二、TRM的秘密：不是更深，而是“想+改”的循環

傳統的大語言模型（LLM）在思考問題時采用自回歸方式（autoregressive）——逐字生成輸出。但TRM走了另一條路：先做出一個完整的草稿，再反復修改，直到結果更優。

當“7M小模型”逆襲巨頭：三星TRM如何擊敗DeepSeek、Gemini與o3-mini？-AI.x社區

這背后隱藏的是三個核心創新：

1. Think → Act 的循環：像人一樣“思考—行動—再思考”

TRM取消了舊有模型HRM的兩層結構，只保留一個極小的遞歸核心網絡，由兩層組成。它在內部交替執行兩個過程：

Think（思考）：更新潛在記事本（latent scratchpad）??z ← f(x, y, z)??
Act（行動）：根據思考結果修正輸出??y ← g(y, z)??

模型在訓練時最多展開16次循環（unroll），每次循環都有“深度監督”，確保每一步思考都受到反饋。而在推理時，它會完整展開——像一個人拿著草稿紙反復推演。

這種結構，讓TRM擁有一種“持續反思”的能力——每一輪都能糾正上一次的盲點。

2. 真·遞歸訓練：不再偷懶的反向傳播

傳統方法（如HRM）為了省算力，采用的是固定點近似（Fixed-Point Approximation），即不對所有循環進行完整反向傳播。而TRM大膽地選擇了“全程回傳”——每一步的誤差都被追蹤到底。

這雖然增加了訓練復雜度，但顯著提升了模型的泛化能力。換句話說，TRM不會只記得“怎么做題”，而是真正理解“為什么這么做”。

3. 用遞歸代替堆疊：深度來自時間，而不是層數

TRM的網絡層數只有2層，但它的有效深度來自遞歸展開。假設每次展開6步、遞歸3輪，它的等效深度大約是 ??T × (n+1) × layers??。也就是說，它用時間的深度替代了結構的深度。

結果是——更淺、更快，卻思考得更“深”。

三、超越尺寸的智慧：實測結果全線領先

在ARC、Sudoku、Maze等推理任務中，TRM全面碾壓同類架構。

任務	模型	參數量	準確率
ARC-AGI-1	TRM-Attn	7M	44.6%
ARC-AGI-2	TRM-Attn	7M	7.8%
ARC-AGI-1	HRM	27M	40.3%
ARC-AGI-2	HRM	27M	5.0%
Sudoku-Extreme	TRM-Mixer	7M	87.4%
Maze-Hard	TRM-Attn	7M	85.3%