預(yù)訓(xùn)練就學(xué)會(huì)思考!字節(jié)、北大等用14億參數(shù),撬動(dòng)百億模型推理能力
你沒聽錯(cuò),讓模型在預(yù)訓(xùn)練階段就開始思考。
字節(jié),加州大學(xué),普林斯頓大學(xué),蒙特利爾大學(xué),北京大學(xué),卡內(nèi)基梅隆大學(xué)等等一眾頂尖學(xué)府、研究機(jī)構(gòu)聯(lián)合發(fā)布了一種語言模型的全新范式:Ouro模型。

Ouro模型用14億參數(shù)實(shí)現(xiàn)了百億級(jí)模型的推理能力,核心在于它在預(yù)訓(xùn)練階段就學(xué)會(huì)了循環(huán)思考。
大語言模型的推理能力,大多通過類似思維鏈(Chain-of-Thought, CoT)的方法在后天訓(xùn)練中生成冗長的文本來實(shí)現(xiàn)。
這種方式像是讓模型事后諸葛,而非在學(xué)習(xí)之初就內(nèi)化推理能力。
Ouro模型,其名取自銜尾蛇(Ouroboros)的自我吞食與循環(huán)意象,代表了一種全新的范式:循環(huán)語言模型(Looped Language Models, LoopLM)。
它通過三大創(chuàng)新,將推理能力直接構(gòu)建于預(yù)訓(xùn)練階段。
這三大創(chuàng)新分別是:在潛在空間中進(jìn)行迭代計(jì)算,好比讓模型反復(fù)咀嚼問題;引入熵正則化目標(biāo),以學(xué)習(xí)如何為不同難度的問題分配恰當(dāng)?shù)乃伎忌疃?;以及將?xùn)練數(shù)據(jù)擴(kuò)展到驚人的7.7萬億tokens。

結(jié)果是,Ouro僅用14億和26億參數(shù)的模型,就在各項(xiàng)基準(zhǔn)測試中,達(dá)到了與參數(shù)量高達(dá)120億的業(yè)界頂尖模型相匹配的性能。


實(shí)驗(yàn)證明,這種優(yōu)勢并非源于模型記住了更多知識(shí),而是它更擅長操作和運(yùn)用知識(shí)。
它的推理軌跡也比思維鏈更忠實(shí)于最終答案,更像是真正的因果推理,而非事后找補(bǔ)的合理解釋。
讓模型在預(yù)訓(xùn)練中學(xué)會(huì)循環(huán)思考
循環(huán)語言模型的概念并非橫空出世,其思想源頭可以追溯到2018年的通用變換器(Universal Transformer, UT)。
UT模型證明了讓一個(gè)神經(jīng)網(wǎng)絡(luò)模塊循環(huán)處理信息是可行的,它結(jié)合了傳統(tǒng)變換器模型的并行處理能力和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的歸納偏置。
UT甚至在理論上被證明是圖靈完備的,為后續(xù)研究奠定了基礎(chǔ)。
Ouro正是在這一思想上的一次巨大飛躍。
它的架構(gòu)并不復(fù)雜,核心是一個(gè)參數(shù)共享的循環(huán)結(jié)構(gòu)。
相同的變換器模塊(transformer block)被循環(huán)調(diào)用,模型得以在不顯著增加參數(shù)量的前提下,通過迭代加深計(jì)算,實(shí)現(xiàn)更深層次的推理。
Ouro模型通常使用4個(gè)循環(huán)步驟,這在參數(shù)效率上達(dá)到了一個(gè)極佳的平衡點(diǎn)。

為保證這種深度循環(huán)計(jì)算的穩(wěn)定性,Ouro在架構(gòu)上做了一些精巧的設(shè)計(jì)。
它采用了旋轉(zhuǎn)位置嵌入(RoPE)、SwiGLU激活函數(shù),以及一種三明治式的層歸一化結(jié)構(gòu)(RMSNorm),這些都有助于在多輪迭代中維持穩(wěn)定的梯度流。
Ouro模型最巧妙的設(shè)計(jì)之一是自適應(yīng)計(jì)算機(jī)制。
模型在每一輪循環(huán)時(shí),都會(huì)通過一個(gè)退出門來判斷,當(dāng)前的思考深度是否已經(jīng)足夠。簡單問題可能循環(huán)1-2次就得出答案,而復(fù)雜問題則會(huì)進(jìn)入更深的循環(huán)。這讓模型能根據(jù)輸入難度動(dòng)態(tài)分配計(jì)算資源。
為了讓這個(gè)退出門學(xué)會(huì)明智地決策,研究團(tuán)隊(duì)引入了熵正則化的訓(xùn)練目標(biāo)。
若沒有約束,模型可能會(huì)陷入一種惰性模式,要么過早退出,要么總是循環(huán)到最大深度。熵正則化就像一個(gè)懲罰項(xiàng),它鼓勵(lì)模型的退出決策保持一定的多樣性,避免模型坍縮到某個(gè)固定的思考深度,從而更好地平衡探索(嘗試不同深度)與利用(選擇最優(yōu)深度)。
這個(gè)過程在7.7萬億tokens的海量數(shù)據(jù)上,通過四個(gè)精心設(shè)計(jì)的階段完成。
從使用網(wǎng)頁通用語料庫進(jìn)行基礎(chǔ)預(yù)訓(xùn)練,到使用高質(zhì)量數(shù)據(jù)集進(jìn)行持續(xù)訓(xùn)練和退火,再到專門的長上下文訓(xùn)練,最后是整合了20多種高質(zhì)量數(shù)據(jù)集的中期訓(xùn)練。

整個(gè)流程不僅塑造了模型的基礎(chǔ)能力,還通過一系列工程上的調(diào)整,如減少循環(huán)步數(shù)、擴(kuò)大批量大小,確保了這種新型循環(huán)架構(gòu)訓(xùn)練過程的穩(wěn)定收斂。
小模型也能辦大事
經(jīng)過大規(guī)模預(yù)訓(xùn)練的Ouro模型,在參數(shù)效率上展現(xiàn)了驚人的成果。
Ouro 1.4B模型,僅有14億參數(shù),在多數(shù)基準(zhǔn)測試中的表現(xiàn)與40億參數(shù)的Qwen3-Base模型相當(dāng)。特別是在數(shù)學(xué)和推理等高難度任務(wù)上,它的表現(xiàn)甚至更優(yōu),例如在GSM8K測試中得分78.92,而Qwen3-Base是72.86。

參數(shù)量稍大的Ouro 2.6B模型,則在推理密集型任務(wù)上全面超越了高達(dá)80億參數(shù)的密集型模型。它在MMLU-Pro(一個(gè)更專業(yè)的知識(shí)評(píng)測)上得分55.73,BBH(大型語言模型行為評(píng)估)上得分80.46,均超過了80億參數(shù)的Qwen3-Base模型。


表格數(shù)據(jù)清晰地顯示,Ouro模型實(shí)現(xiàn)了2到3倍的參數(shù)效率提升。這意味著在資源受限的環(huán)境,如移動(dòng)設(shè)備上,可以用更小的模型實(shí)現(xiàn)更強(qiáng)的性能。
研究團(tuán)隊(duì)通過合成任務(wù)進(jìn)行的對照實(shí)驗(yàn)揭示了這種效率提升的來源。
循環(huán)和非循環(huán)模型在存儲(chǔ)原始知識(shí)方面的能力相近,但Ouro在需要組合事實(shí)、進(jìn)行多步推理的任務(wù)上表現(xiàn)出了壓倒性優(yōu)勢。它的強(qiáng)大之處不在于知道更多,而在于會(huì)用已知。
潛在推理優(yōu)于“紙上談兵”
Ouro的成功,本質(zhì)上是潛在推理(Latent Reasoning)范式對傳統(tǒng)思維鏈(CoT)推理范式的一次勝利。
思維鏈推理,需要模型明確地生成一步步的自然語言推理過程。
這就像一個(gè)人解題時(shí),必須把每一步草稿都寫在紙上。這種方式限制了模型的表達(dá)帶寬,因?yàn)閺?fù)雜的思考過程被壓縮成了離散的文字符號(hào)。同時(shí),它也極大地增加了輸出長度,消耗了寶貴的上下文窗口。

Ouro的潛在推理則完全不同。它在模型內(nèi)部的、連續(xù)的隱藏狀態(tài)中完成多步推理。
這更像人類的默想或頓悟,思考過程在高維度的向量空間中流動(dòng),沒有被降維到文字層面。這保留了思考過程的豐富性和連續(xù)性,也更為高效。
更重要的是,Ouro的推理過程表現(xiàn)出更高的因果忠實(shí)度。它的迭代更新過程與最終答案的關(guān)聯(lián)更緊密,證明其推理是為得到答案服務(wù)的,而不是在得到答案后反向構(gòu)建一個(gè)看似合理的解釋。
Ouro模型雖然是通用變換器思想的繼承者,但它在兩個(gè)關(guān)鍵維度上實(shí)現(xiàn)了超越:一是訓(xùn)練規(guī)模,將循環(huán)模型的訓(xùn)練數(shù)據(jù)量提升到了萬億級(jí)別,驗(yàn)證了其在大規(guī)模場景下的有效性;二是通過熵正則化引入了復(fù)雜的自適應(yīng)計(jì)算,讓模型學(xué)會(huì)了動(dòng)態(tài)思考。
Ouro模型極為適合需要復(fù)雜推理但計(jì)算資源有限的場景,比如邊緣計(jì)算、移動(dòng)應(yīng)用和需要快速響應(yīng)的實(shí)時(shí)系統(tǒng)。
當(dāng)然,它也面臨挑戰(zhàn)。目前的推理加速框架(如vLLM)大多為固定計(jì)算路徑設(shè)計(jì),難以完全發(fā)揮Ouro動(dòng)態(tài)計(jì)算深度的優(yōu)勢。
此外,如何將強(qiáng)化學(xué)習(xí)更好地應(yīng)用于這種動(dòng)態(tài)架構(gòu),以進(jìn)一步提升模型的對齊能力,也是一個(gè)待解的課題。
Ouro的探索確立了循環(huán)深度作為繼模型大小和數(shù)據(jù)規(guī)模之后的第三個(gè)擴(kuò)展軸,為人工智能的未來發(fā)展提供了新的思路。
通過架構(gòu)創(chuàng)新,讓模型在內(nèi)部進(jìn)行更深層次的計(jì)算,是提升智能的另一條有效路徑。
Ouro模型的工作為我們開辟了新的想象空間。




































