分層推理模型
此模型采用循環架構,實現了分層推理能力。
核心創新
?提出了一種受大腦啟發的新穎架構,用循環模型取代了思維鏈(CoT)提示,專為深度潛在計算設計
?擺脫了token級推理,采用兩個耦合模塊:慢速高層規劃器和快速底層執行器,兩個循環網絡在不同時間尺度上協作解決任務
圖片
性能
?僅用2700萬參數且無需預訓練即可實現更深層的推理和更高效率
?盡管模型小巧、訓練數據極少(約1000個樣本),但在ARC、極端數獨、30×30迷宮導航等復雜任務上表現出色,而基于CoT的大語言模型在這些任務上卻失敗了
圖片
圖片
技術上的突破
?分層收斂機制:底層模塊在每個周期內快速收斂,高層模塊僅在達到局部平衡后更新,實現嵌套計算并避免標準RNN的過早收斂問題
?高效訓練:采用1步梯度近似方法,避開內存密集型的時間反向傳播(BPTT),基于深度平衡模型僅使用局部梯度更新實現高效訓練
?自適應計算:通過Q學習停止機制實現自適應計算時間,根據任務復雜性動態分配算力,讓模型能夠"快思考或慢思考",在推理時無需重訓練即可擴展
圖片
實驗:在ARC-AGI、極端數獨和困難迷宮等任務上,HRM顯著超越了使用CoT或直接預測的大型模型,甚至解決了其他模型完全無法處理的問題(如在困難迷宮任務上達到74.5%成功率,而其他模型為0%)。
發現 分析顯示,HRM學會了類似大腦皮層的維度層次結構:高層模塊在比底層模塊更高維的空間中運行(參與率:89.95 vs 30.22)。作者認為這是一個在未訓練模型中不存在的涌現特性。
圖片
標題:Hierarchical Reasoning Model
本文轉載自???????AI帝國???????,作者:無影寺
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















