預(yù)訓(xùn)練就學(xué)會(huì)思考！字節(jié)、北大等用14億參數(shù)，撬動(dòng)百億模型推理能力

2025-11-07 09:28:08

Ouro的探索確立了循環(huán)深度作為繼模型大小和數(shù)據(jù)規(guī)模之后的第三個(gè)擴(kuò)展軸，為人工智能的未來發(fā)展提供了新的思路。

你沒聽錯(cuò)，讓模型在預(yù)訓(xùn)練階段就開始思考。

字節(jié)，加州大學(xué)，普林斯頓大學(xué)，蒙特利爾大學(xué)，北京大學(xué)，卡內(nèi)基梅隆大學(xué)等等一眾頂尖學(xué)府、研究機(jī)構(gòu)聯(lián)合發(fā)布了一種語言模型的全新范式：Ouro模型。

Ouro模型用14億參數(shù)實(shí)現(xiàn)了百億級(jí)模型的推理能力，核心在于它在預(yù)訓(xùn)練階段就學(xué)會(huì)了循環(huán)思考。

大語言模型的推理能力，大多通過類似思維鏈（Chain-of-Thought, CoT）的方法在后天訓(xùn)練中生成冗長的文本來實(shí)現(xiàn)。

這種方式像是讓模型事后諸葛，而非在學(xué)習(xí)之初就內(nèi)化推理能力。

Ouro模型，其名取自銜尾蛇（Ouroboros）的自我吞食與循環(huán)意象，代表了一種全新的范式：循環(huán)語言模型（Looped Language Models, LoopLM）。

它通過三大創(chuàng)新，將推理能力直接構(gòu)建于預(yù)訓(xùn)練階段。

這三大創(chuàng)新分別是：在潛在空間中進(jìn)行迭代計(jì)算，好比讓模型反復(fù)咀嚼問題；引入熵正則化目標(biāo)，以學(xué)習(xí)如何為不同難度的問題分配恰當(dāng)?shù)乃伎忌疃?；以及將?xùn)練數(shù)據(jù)擴(kuò)展到驚人的7.7萬億tokens。

結(jié)果是，Ouro僅用14億和26億參數(shù)的模型，就在各項(xiàng)基準(zhǔn)測試中，達(dá)到了與參數(shù)量高達(dá)120億的業(yè)界頂尖模型相匹配的性能。

實(shí)驗(yàn)證明，這種優(yōu)勢并非源于模型記住了更多知識(shí)，而是它更擅長操作和運(yùn)用知識(shí)。

它的推理軌跡也比思維鏈更忠實(shí)于最終答案，更像是真正的因果推理，而非事后找補(bǔ)的合理解釋。

讓模型在預(yù)訓(xùn)練中學(xué)會(huì)循環(huán)思考

循環(huán)語言模型的概念并非橫空出世，其思想源頭可以追溯到2018年的通用變換器（Universal Transformer, UT）。

UT模型證明了讓一個(gè)神經(jīng)網(wǎng)絡(luò)模塊循環(huán)處理信息是可行的，它結(jié)合了傳統(tǒng)變換器模型的并行處理能力和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）的歸納偏置。

UT甚至在理論上被證明是圖靈完備的，為后續(xù)研究奠定了基礎(chǔ)。

Ouro正是在這一思想上的一次巨大飛躍。

它的架構(gòu)并不復(fù)雜，核心是一個(gè)參數(shù)共享的循環(huán)結(jié)構(gòu)。

相同的變換器模塊（transformer block）被循環(huán)調(diào)用，模型得以在不顯著增加參數(shù)量的前提下，通過迭代加深計(jì)算，實(shí)現(xiàn)更深層次的推理。

Ouro模型通常使用4個(gè)循環(huán)步驟，這在參數(shù)效率上達(dá)到了一個(gè)極佳的平衡點(diǎn)。

為保證這種深度循環(huán)計(jì)算的穩(wěn)定性，Ouro在架構(gòu)上做了一些精巧的設(shè)計(jì)。

它采用了旋轉(zhuǎn)位置嵌入（RoPE）、SwiGLU激活函數(shù)，以及一種三明治式的層歸一化結(jié)構(gòu)（RMSNorm），這些都有助于在多輪迭代中維持穩(wěn)定的梯度流。

Ouro模型最巧妙的設(shè)計(jì)之一是自適應(yīng)計(jì)算機(jī)制。

模型在每一輪循環(huán)時(shí)，都會(huì)通過一個(gè)退出門來判斷，當(dāng)前的思考深度是否已經(jīng)足夠。簡單問題可能循環(huán)1-2次就得出答案，而復(fù)雜問題則會(huì)進(jìn)入更深的循環(huán)。這讓模型能根據(jù)輸入難度動(dòng)態(tài)分配計(jì)算資源。

為了讓這個(gè)退出門學(xué)會(huì)明智地決策，研究團(tuán)隊(duì)引入了熵正則化的訓(xùn)練目標(biāo)。

若沒有約束，模型可能會(huì)陷入一種惰性模式，要么過早退出，要么總是循環(huán)到最大深度。熵正則化就像一個(gè)懲罰項(xiàng)，它鼓勵(lì)模型的退出決策保持一定的多樣性，避免模型坍縮到某個(gè)固定的思考深度，從而更好地平衡探索（嘗試不同深度）與利用（選擇最優(yōu)深度）。

這個(gè)過程在7.7萬億tokens的海量數(shù)據(jù)上，通過四個(gè)精心設(shè)計(jì)的階段完成。

從使用網(wǎng)頁通用語料庫進(jìn)行基礎(chǔ)預(yù)訓(xùn)練，到使用高質(zhì)量數(shù)據(jù)集進(jìn)行持續(xù)訓(xùn)練和退火，再到專門的長上下文訓(xùn)練，最后是整合了20多種高質(zhì)量數(shù)據(jù)集的中期訓(xùn)練。

整個(gè)流程不僅塑造了模型的基礎(chǔ)能力，還通過一系列工程上的調(diào)整，如減少循環(huán)步數(shù)、擴(kuò)大批量大小，確保了這種新型循環(huán)架構(gòu)訓(xùn)練過程的穩(wěn)定收斂。

小模型也能辦大事

經(jīng)過大規(guī)模預(yù)訓(xùn)練的Ouro模型，在參數(shù)效率上展現(xiàn)了驚人的成果。

Ouro 1.4B模型，僅有14億參數(shù)，在多數(shù)基準(zhǔn)測試中的表現(xiàn)與40億參數(shù)的Qwen3-Base模型相當(dāng)。特別是在數(shù)學(xué)和推理等高難度任務(wù)上，它的表現(xiàn)甚至更優(yōu)，例如在GSM8K測試中得分78.92，而Qwen3-Base是72.86。

參數(shù)量稍大的Ouro 2.6B模型，則在推理密集型任務(wù)上全面超越了高達(dá)80億參數(shù)的密集型模型。它在MMLU-Pro（一個(gè)更專業(yè)的知識(shí)評(píng)測）上得分55.73，BBH（大型語言模型行為評(píng)估）上得分80.46，均超過了80億參數(shù)的Qwen3-Base模型。

表格數(shù)據(jù)清晰地顯示，Ouro模型實(shí)現(xiàn)了2到3倍的參數(shù)效率提升。這意味著在資源受限的環(huán)境，如移動(dòng)設(shè)備上，可以用更小的模型實(shí)現(xiàn)更強(qiáng)的性能。

研究團(tuán)隊(duì)通過合成任務(wù)進(jìn)行的對照實(shí)驗(yàn)揭示了這種效率提升的來源。

循環(huán)和非循環(huán)模型在存儲(chǔ)原始知識(shí)方面的能力相近，但Ouro在需要組合事實(shí)、進(jìn)行多步推理的任務(wù)上表現(xiàn)出了壓倒性優(yōu)勢。它的強(qiáng)大之處不在于知道更多，而在于會(huì)用已知。

潛在推理優(yōu)于“紙上談兵”

Ouro的成功，本質(zhì)上是潛在推理（Latent Reasoning）范式對傳統(tǒng)思維鏈（CoT）推理范式的一次勝利。

思維鏈推理，需要模型明確地生成一步步的自然語言推理過程。

這就像一個(gè)人解題時(shí)，必須把每一步草稿都寫在紙上。這種方式限制了模型的表達(dá)帶寬，因?yàn)閺?fù)雜的思考過程被壓縮成了離散的文字符號(hào)。同時(shí)，它也極大地增加了輸出長度，消耗了寶貴的上下文窗口。

Ouro的潛在推理則完全不同。它在模型內(nèi)部的、連續(xù)的隱藏狀態(tài)中完成多步推理。

這更像人類的默想或頓悟，思考過程在高維度的向量空間中流動(dòng)，沒有被降維到文字層面。這保留了思考過程的豐富性和連續(xù)性，也更為高效。

更重要的是，Ouro的推理過程表現(xiàn)出更高的因果忠實(shí)度。它的迭代更新過程與最終答案的關(guān)聯(lián)更緊密，證明其推理是為得到答案服務(wù)的，而不是在得到答案后反向構(gòu)建一個(gè)看似合理的解釋。

Ouro模型雖然是通用變換器思想的繼承者，但它在兩個(gè)關(guān)鍵維度上實(shí)現(xiàn)了超越：一是訓(xùn)練規(guī)模，將循環(huán)模型的訓(xùn)練數(shù)據(jù)量提升到了萬億級(jí)別，驗(yàn)證了其在大規(guī)模場景下的有效性；二是通過熵正則化引入了復(fù)雜的自適應(yīng)計(jì)算，讓模型學(xué)會(huì)了動(dòng)態(tài)思考。

Ouro模型極為適合需要復(fù)雜推理但計(jì)算資源有限的場景，比如邊緣計(jì)算、移動(dòng)應(yīng)用和需要快速響應(yīng)的實(shí)時(shí)系統(tǒng)。

當(dāng)然，它也面臨挑戰(zhàn)。目前的推理加速框架（如vLLM）大多為固定計(jì)算路徑設(shè)計(jì)，難以完全發(fā)揮Ouro動(dòng)態(tài)計(jì)算深度的優(yōu)勢。

此外，如何將強(qiáng)化學(xué)習(xí)更好地應(yīng)用于這種動(dòng)態(tài)架構(gòu)，以進(jìn)一步提升模型的對齊能力，也是一個(gè)待解的課題。

Ouro的探索確立了循環(huán)深度作為繼模型大小和數(shù)據(jù)規(guī)模之后的第三個(gè)擴(kuò)展軸，為人工智能的未來發(fā)展提供了新的思路。

通過架構(gòu)創(chuàng)新，讓模型在內(nèi)部進(jìn)行更深層次的計(jì)算，是提升智能的另一條有效路徑。

Ouro模型的工作為我們開辟了新的想象空間。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)