哈工大、中科院等利用模型“潛意識”提高推理模型效率,0.6B撬動復(fù)雜推理
讓推理模型“傾聽自己的內(nèi)心獨(dú)白”,0.6B模型撬動復(fù)雜推理,干掉7B裁判模型。
哈爾濱工業(yè)大學(xué),中國科學(xué)院自動化研究所等提出TrajSelector框架,實(shí)現(xiàn)推理模型高效推理。

讓大語言模型多寫幾個(gè)解法再選最優(yōu),是提升其推理能力的好方法,但為了從一堆答案中挑出那個(gè)唯一正確的解,我們不得不部署一個(gè)同樣龐大的裁判模型。這種方法不僅成本高昂,還依賴于昂貴的人工標(biāo)注數(shù)據(jù)。
現(xiàn)在,TrajSelector框架出現(xiàn)。它另辟蹊徑,不再雇傭外部的重量級裁判,而是選擇傾聽并理解生成答案的模型自身的內(nèi)心獨(dú)白。
通過直接讀取并利用模型在生成每個(gè)推理步驟時(shí)留下的潛在表征(也就是隱藏狀態(tài)),TrajSelector僅用一個(gè)0.6B參數(shù)的輕量級驗(yàn)證器,就實(shí)現(xiàn)了比7B參數(shù)的過程獎(jiǎng)勵(lì)模型(PRM)更精準(zhǔn)的選擇。
這可能改變我們進(jìn)行復(fù)雜推理驗(yàn)證的游戲規(guī)則。
LLM推理的高昂裁判稅催生了新思路
語言模型在處理數(shù)學(xué)、編程這類需要嚴(yán)謹(jǐn)邏輯推理的任務(wù)時(shí),單次生成的結(jié)果往往不夠穩(wěn)定。
一個(gè)聰明的解決辦法是廣撒網(wǎng),讓模型生成N個(gè)不同的推理過程,再從中選出最好的一個(gè)。這就是所謂的測試時(shí)擴(kuò)展(Test-Time Scaling, TTS)范式中的Best-of-N策略。

最初,人們使用一種簡單粗暴的方法來選擇:多數(shù)投票(Majority Voting)。
2023年提出的自洽性(Self-Consistency)方法就是其代表。它假設(shè)真理掌握在多數(shù)人手中,哪個(gè)答案出現(xiàn)的次數(shù)最多,就選哪個(gè)。
這種方法在很多場景下確實(shí)有效,但它的致命弱點(diǎn)是只看結(jié)果,不問過程。
如果模型生成的多個(gè)答案五花八門,沒有一個(gè)形成絕對多數(shù),多數(shù)投票就會失靈。更重要的是,一個(gè)正確的答案可能源于一個(gè)充滿邏輯漏洞的錯(cuò)誤過程,而一個(gè)錯(cuò)誤的答案背后可能隱藏著一個(gè)幾乎完全正確的推理鏈。只看結(jié)果,顯然不夠公允和可靠。
于是,研究者們將目光投向了過程獎(jiǎng)勵(lì)模型(Process Reward Model, PRM)。
PRM就像一個(gè)專業(yè)的閱卷老師,它會仔細(xì)閱讀每一條推理軌跡的每一個(gè)步驟,并為過程的質(zhì)量打分,最終選出總分最高的那個(gè)。
這聽起來很完美,但代價(jià)是巨大的。
一個(gè)合格的PRM,其自身的參數(shù)量通常達(dá)到了7B級別,與執(zhí)行推理任務(wù)的采樣器模型(如8B的模型)相差無幾。
這意味著,為了驗(yàn)證答案,你需要額外承擔(dān)一個(gè)幾乎同等規(guī)模模型的計(jì)算開銷。這筆開銷,我們稱之為驗(yàn)證器稅(Validator Tax),它讓Best-of-N策略的部署成本居高不下。
為了訓(xùn)練這些閱卷老師,還需要大量帶有步驟級標(biāo)注的數(shù)據(jù),即人工指出每一步推理是對是錯(cuò)。這種數(shù)據(jù)的獲取成本極高,成為另一個(gè)瓶頸。
盡管后續(xù)工作如Math-Shepherd嘗試用外部工具自動評估步驟來降低標(biāo)注成本,Qwen2.5-Math-PRM-7B這樣的開源模型也展示了強(qiáng)大的步驟評估能力,但它們都未能擺脫驗(yàn)證器稅的根本問題——你依然需要一個(gè)龐大的、獨(dú)立的模型來做驗(yàn)證。
就在大家都在如何造出更好、更便宜的外部裁判時(shí),一些研究開始探索一個(gè)被忽略的角落:模型自身的隱藏狀態(tài)。
2023年起,有研究發(fā)現(xiàn),語言模型在生成內(nèi)容的最后,其隱藏狀態(tài)向量中似乎編碼了關(guān)于答案正確與否的自省信號。
模型在內(nèi)心深處,似乎對自己剛剛寫下的東西有個(gè)模糊的判斷。
這些發(fā)現(xiàn)像一道微光,暗示著一種可能性:我們能否直接讀取模型的這種內(nèi)心活動,來判斷它推理的好壞,從而徹底繞開昂貴的外部PRM?
TrajSelector正是在這個(gè)背景下誕生的。它首次將這種隱藏狀態(tài)的復(fù)用與一種巧妙的弱監(jiān)督訓(xùn)練方法結(jié)合起來,構(gòu)建了一個(gè)完整的、高效的、端到端的解決方案,試圖徹底免除這筆高昂的驗(yàn)證器稅。
TrajSelector直接讀取模型的內(nèi)心獨(dú)白
TrajSelector的設(shè)計(jì)哲學(xué)是極致的效率和資源復(fù)用。
它的工作流程可以概括為采樣-評分-聚合三部曲,其核心創(chuàng)新在于評分階段。

給定一個(gè)問題,首先由一個(gè)被凍結(jié)的、不參與訓(xùn)練的采樣器LLM(例如Qwen3-8B)并行生成N條獨(dú)立的推理軌跡。在生成每一條軌跡的每一個(gè)步驟時(shí),TrajSelector會像一個(gè)貼身記錄員,悄悄記下模型在輸出該步驟最后一個(gè)詞元(token)時(shí)的最終隱藏狀態(tài)。
這些隱藏狀態(tài),就是模型在那個(gè)瞬間的思維快照,是高維度的數(shù)字向量,蘊(yùn)含了豐富的上下文信息和潛在的自我評估信號。
接下來,這些思維快照被送入一個(gè)極度輕量化的過程評分模型。這個(gè)模型的核心是一個(gè)僅有0.6B參數(shù)的基礎(chǔ)LLM(實(shí)驗(yàn)中采用Qwen3-0.6B-Base),它的任務(wù)不是重新閱讀和理解文本,而是專門學(xué)習(xí)解讀這些高維度的隱藏狀態(tài)向量。
為了讓0.6B模型的輸入端口能接上8B模型的輸出端口,中間還有一個(gè)簡單的投影層,負(fù)責(zé)將隱藏向量的維度進(jìn)行匹配(例如從4096維映射到1024維)。這個(gè)投影層就像一個(gè)轉(zhuǎn)接頭,確保信息能夠無損傳遞。
評分模型會對每一步的隱藏狀態(tài)輸出一個(gè)分?jǐn)?shù),代表這一步的質(zhì)量。最后,通過簡單的算術(shù)平均,得到整條軌跡的全局分?jǐn)?shù)。得分最高的軌跡,就是最終被選中的答案。
這種表征復(fù)用的設(shè)計(jì)是TrajSelector的第一個(gè)精妙之處。
傳統(tǒng)的PRM需要將文本token作為輸入,這意味著它必須從頭開始進(jìn)行語義編碼和理解。
而TrajSelector直接跳過了這個(gè)過程,它處理的是采樣器已經(jīng)消化和編碼過的信息,保留了生成那一刻最原始、最完整的自省痕跡,避免了信息在文本化-再編碼循環(huán)中的損失。
為了準(zhǔn)確地捕捉到每一個(gè)推理步驟,TrajSelector采用了一個(gè)極為簡潔的步驟分割策略。
它將推理文本中連續(xù)兩個(gè)換行符\n\n視為步驟的天然分隔。這種方法無需對采樣器進(jìn)行任何修改或引入特殊符號,就能很好地適應(yīng)長達(dá)萬詞的復(fù)雜思維鏈。
TrajSelector的第二個(gè)精妙之處在于它的訓(xùn)練方式:弱監(jiān)督學(xué)習(xí)。
訓(xùn)練一個(gè)能評價(jià)步驟好壞的模型,卻沒有步驟級的好壞標(biāo)簽,這聽起來像個(gè)不可能完成的任務(wù)。TrajSelector的解決辦法是先大膽假設(shè),再小心求證。
它首先利用一個(gè)外部工具(Math-Verify)來判斷整條推理軌跡最終答案的對錯(cuò),得到一個(gè)二進(jìn)制標(biāo)簽:1代表正確,0代表錯(cuò)誤。
然后,它將這個(gè)全局標(biāo)簽復(fù)制給該軌跡下的所有步驟。也就是說,如果最終答案是對的,那么過程中的每一步都被賦予一個(gè)正確的偽標(biāo)簽;反之亦然。
這種做法顯然會引入大量噪聲。一個(gè)最終正確的答案,其推理過程中完全可能包含一兩個(gè)錯(cuò)誤的步驟。直接用這種充滿噪聲的偽標(biāo)簽進(jìn)行訓(xùn)練,模型很容易被誤導(dǎo)。
為了解決這個(gè)問題,TrajSelector設(shè)計(jì)了一個(gè)三分類緩沖機(jī)制。
評分模型的輸出不是簡單的正確/錯(cuò)誤二分類,而是正確/錯(cuò)誤/緩沖三分類。這個(gè)緩沖類別就像一個(gè)不確定性垃圾桶。當(dāng)模型對某個(gè)步驟的偽標(biāo)簽感到困惑或不確定時(shí),它可以選擇將這個(gè)步驟歸入緩沖類。
損失函數(shù)的設(shè)計(jì)也相應(yīng)地變得更加寬容。
對于偽標(biāo)簽為正確的步驟,它不要求模型必須預(yù)測正確,而是要求正確和緩沖的概率之和趨近于1。同理,對于偽標(biāo)簽為錯(cuò)誤的步驟,要求錯(cuò)誤和緩沖的概率之和趨近于1。

這個(gè)設(shè)計(jì)賦予了模型自主識別和隔離噪聲的能力。
它可以在訓(xùn)練中學(xué)會將那些質(zhì)量可疑的步驟(比如一個(gè)正確答案軌跡里的一個(gè)錯(cuò)誤步驟)放入緩沖地帶,從而將學(xué)習(xí)的重心放在那些信號更明確、更可靠的步驟上,有效避免了對噪聲偽標(biāo)簽的過擬合。
整個(gè)訓(xùn)練過程,只有0.6B的驗(yàn)證器和投影層參數(shù)被更新,龐大的采樣器模型始終保持凍結(jié)。
這使得訓(xùn)練所需的計(jì)算資源和顯存遠(yuǎn)低于訓(xùn)練一個(gè)全參數(shù)的7B PRM。
通過表征復(fù)用、弱監(jiān)督訓(xùn)練和緩沖機(jī)制,TrajSelector構(gòu)建了一個(gè)輕巧而強(qiáng)大的驗(yàn)證框架,準(zhǔn)備在真實(shí)的數(shù)學(xué)競賽基準(zhǔn)上證明自己的價(jià)值。
輕量級驗(yàn)證器在實(shí)戰(zhàn)中超越了重量級裁判
TrajSelector在一系列高難度數(shù)學(xué)競賽基準(zhǔn)測試中,與包括多數(shù)投票和多個(gè)主流7B PRM在內(nèi)的基線方法進(jìn)行了正面交鋒。
這些基準(zhǔn)涵蓋了AMC、AIME、HMMT等,是檢驗(yàn)?zāi)P蛿?shù)學(xué)推理能力的試金石。
實(shí)驗(yàn)的核心設(shè)置是Best-of-32,即讓采樣器Qwen3-8B生成32條候選解,然后由各種選擇方法來慧眼識珠。
結(jié)果令人印象深刻。

在6個(gè)基準(zhǔn)的平均準(zhǔn)確率上,TrajSelector達(dá)到了58.78%。這個(gè)數(shù)字比多數(shù)投票的54.17%高出了4.61個(gè)百分點(diǎn)。這意味著在同樣的32個(gè)候選答案中,TrajSelector能更準(zhǔn)確地挑出那個(gè)正確的。
更關(guān)鍵的是與那些重量級的7B PRM的對比。
TrajSelector的表現(xiàn)全面領(lǐng)先,比強(qiáng)大的Qwen2.5-Math-PRM-7B(52.31%)高出6.47個(gè)百分點(diǎn)。
在一個(gè)0.6B的輕量級模型上,實(shí)現(xiàn)了對多個(gè)7B專家模型的超越,這充分證明了其方法的高效與正確性。
從另一個(gè)角度看,在這32個(gè)候選解中,至少有一個(gè)是正確答案的比例(即Pass@32上限)為71.83%。這說明TrajSelector對候選集潛力的挖掘更加充分,能更有效地從沙中淘出金子。
TrajSelector的優(yōu)勢并非只在N=32時(shí)。當(dāng)候選數(shù)量N從1增加到64時(shí),它的準(zhǔn)確率呈現(xiàn)單調(diào)遞增的健康態(tài)勢,在N=64時(shí)達(dá)到了63.52%。

相比之下,多數(shù)投票在N超過32后開始顯現(xiàn)疲態(tài),增長放緩。這表明TrajSelector在大規(guī)模候選集中依然能保持穩(wěn)定的選擇能力。
不僅如此,TrajSelector還展示了良好的泛化能力。
當(dāng)采樣器從Qwen3-8B更換為更小的Qwen3-4B或更大的Qwen3-14B時(shí),該框架依然有效。在Qwen3-4B上,它帶來了2.34個(gè)百分點(diǎn)的提升;在Qwen3-14B上,提升幅度更是擴(kuò)大到了7.61個(gè)百分點(diǎn)。

這個(gè)現(xiàn)象尤其值得玩味:采樣器模型越強(qiáng)大,TrajSelector帶來的增益就越大。這似乎在暗示,更強(qiáng)大的模型,其隱藏狀態(tài)中編碼的自省信號也更清晰、更豐富,從而讓輕量級的驗(yàn)證器能更好地捕捉和利用這些信號。這是一種良性循環(huán)。
框架的成功并非偶然,而是精巧設(shè)計(jì)的必然
TrajSelector的卓越表現(xiàn)并非來自運(yùn)氣,而是源于一系列關(guān)鍵設(shè)計(jì)的協(xié)同作用。
通過消融實(shí)驗(yàn),我們可以清晰地看到每個(gè)設(shè)計(jì)環(huán)節(jié)的重要性。
首先是那個(gè)巧妙的三分類緩沖損失函數(shù)。
如果用標(biāo)準(zhǔn)的二元交叉熵?fù)p失(BCELoss)來訓(xùn)練,即強(qiáng)迫模型對每個(gè)步驟都做出正確或錯(cuò)誤的判斷,其性能會明顯下降。

實(shí)驗(yàn)數(shù)據(jù)顯示,在多個(gè)基準(zhǔn)上,三分類設(shè)計(jì)比二分類帶來了2-3個(gè)百分點(diǎn)的準(zhǔn)確率提升。這證明了允許模型在面對不確定性時(shí)棄權(quán),對于抵抗噪聲偽標(biāo)簽至關(guān)重要。
其次是驗(yàn)證器基礎(chǔ)模型的選擇。
實(shí)驗(yàn)對比了使用未經(jīng)指令微調(diào)和RLHF對齊的Qwen3-0.6B-Base模型,和經(jīng)過對齊的Qwen3-0.6B模型。
結(jié)果出人意料,未經(jīng)對齊的Base模型表現(xiàn)更好。
研究者認(rèn)為,RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))過程可能會讓模型的行為更符合人類偏好,但代價(jià)是削弱了其原始隱藏狀態(tài)中自省信號的強(qiáng)度和敏感性。
對于TrajSelector這樣一個(gè)需要傾聽內(nèi)心的框架來說,一個(gè)更原始、更野性的基礎(chǔ)模型反而是更佳的選擇。
TrajSelector的成功,還在于它揭示了一個(gè)更深層次的原理。
語言模型在進(jìn)行逐步推理時(shí),其隱藏狀態(tài)不僅僅是對當(dāng)前詞元的編碼,更是對整個(gè)歷史上下文的累積、壓縮和反思。
它是一個(gè)動態(tài)演化的心智狀態(tài)。TrajSelector證明了,這個(gè)心智狀態(tài)是可讀、可解的,并且蘊(yùn)含著比最終輸出的文本更高的信息價(jià)值。
除了在線選擇最佳答案,TrajSelector還有一個(gè)強(qiáng)大的副作用:離線篩選高質(zhì)量的訓(xùn)練數(shù)據(jù)。
當(dāng)把它用于從海量數(shù)據(jù)中挑選出最優(yōu)質(zhì)的推理軌跡,用于微調(diào)其他模型時(shí),其效果驚人。
實(shí)驗(yàn)中,使用TrajSelector篩選出的1000個(gè)樣本對Qwen2.5-14B-Instruct進(jìn)行微調(diào),其在多個(gè)基準(zhǔn)上的性能全面超越了使用隨機(jī)選擇、人工精選甚至其他7B PRM篩選的數(shù)據(jù)集訓(xùn)練出的模型。

這表明,TrajSelector對過程質(zhì)量的判斷是深刻且有效的,它不僅能找到正確的答案,更能識別出通往正確答案的最優(yōu)路徑。這為構(gòu)建更強(qiáng)大的數(shù)據(jù)引擎提供了新的、高效的工具。
當(dāng)然,TrajSelector也并非萬能。
它目前的成功主要集中在答案可以被嚴(yán)格驗(yàn)證的數(shù)學(xué)領(lǐng)域。
在開放域問答等主觀性更強(qiáng)的任務(wù)中,如何定義正確,如何應(yīng)用弱監(jiān)督,都是待解的難題。
此外,它的性能上限終究受限于采樣器本身表征能力的強(qiáng)弱。如果采樣器模型的內(nèi)心獨(dú)白本身就是一團(tuán)亂麻,再好的傾聽者也無能為力。
TrajSelector的出現(xiàn),為Best-of-N這一重要的推理增強(qiáng)范式卸下了沉重的成本枷鎖。
它以一種優(yōu)雅且高效的方式,證明了大模型生成,小模型選擇的可行性,而其中的關(guān)鍵,就是學(xué)會傾聽模型自己的聲音。
它帶來一種思想上的啟示:答案,或許早已藏在模型不經(jīng)意間流露的潛意識里。





































