攻克AI過度思考難題!美團新研究讓通過“可驗證”過程獎勵激活LRM的高效推理
LRM通過簡單卻有效的RLVR范式,培養了強大的CoT推理能力,但伴隨而來的冗長的輸出內容,不僅顯著增加推理開銷,還會影響服務的吞吐量,這種消磨用戶耐心的現象被稱為“過度思考”問題。
針對這一缺陷,來自美團等機構的研究團隊提出可驗證的過程獎勵機制(VSRM),鼓勵CoT中的“有效步驟”,懲戒“無效步驟”,最大限度保持性能的同時,實現高效推理。

通過在數學任務上的實驗顯示,在多個常用benchmark上,VSRM加持的后訓練使得不同尺度的模型實現了輸出長度的大幅縮減,甚至在部分情況下提升了模型表現。

過度思考問題的本質
此前的工作將過度思考問題的現象總結為:對于一個問題,模型傾向于給出多種不同的解答,特別簡單的問題。在這一認識的基礎上,作者團隊更進一步,對現有LRM在MATH-500上做出的回復進行了深入的case study。

如圖所示,在這個例子中,模型為解決一個非常簡單的子問題([-500,0]中有多少個小于0的整數)進行了反復的思考,在正確和錯誤之間反復橫跳,最終得出了一個不正確的中間結論,進而導致了最終結論的錯誤。
這些無效步驟不但不能指引推理路徑的發展,反而會導致中間過程出錯。
這樣的案例并不孤立,甚至頻繁出現。
基于上述觀察,作者團隊提出:大量無效的中間步驟是導致模型過度思考的根本原因。因此,抑制這些無效步驟,鼓勵有效步驟,是后訓練的核心優化目標。
設計可驗證的逐步驟獎勵
現有RLVR的機制,通過獎勵函數以可驗證的二元結果獎勵促進模型探索能夠獲得正確答案的解法。
但是結果獎勵無法精確地獎懲不同的步驟,也因此無法達到作者所期望的目標。
過程獎勵機制雖然能滿足這一要求,但過程獎勵模型(PRM)往往難以訓練且預測結果的可靠性有限,針對數學問題/代碼編程等推理任務更是嚴重欠缺可解釋性。
作者團隊將可驗證獎勵與步驟級獎勵結合在一起,創造性地提出VSRM,為推理過程中的每個中間步驟分配獎勵信號,從而實現對不同步驟的鼓勵和抑制,天然地契合推理任務分步作答的特點。

引入步驟級獎勵的第一步是定位所有的步驟。
在CoT中,一些特殊的token,比如“However”、“Therefore”、“So”、“But”、“Wait”等往往表示模型已經完成了一個推理步驟,即將進行下一步推理(遞進或是轉折)。這些特殊token的存在將整個軌跡劃分成了多個中間步驟。
為了保證劃分后內容的可讀性,作者額外設計了三條規則:1. 跳過最初的若干token,這部分內容往往是對問題進行重述。2. 相鄰劃分點之間必須至少間隔一定距離,避免過度分割。3. 若特殊token位于句子內部,將劃分點放在該句句首。
為了評估中間步驟有效與否,最直接的方式就是評估該步驟完成前后帶來的正確率增益。而正確率是完全可以通過可驗證的方式得到的。
只需要在每個劃分點的位置前,加上一個token,這樣,從query開始,到該處的,就構成了一條子軌跡。以每個子軌跡為prompt,模型能夠產生多個候選答案,平均正確率體現了當前步驟得到正確答案的概率。
相鄰子軌跡的正確率差值,即為完成當前步驟后獲得的正確率增益。

直接將增益作為步驟級獎勵就能夠指導模型區分有效與無效步驟。但考慮到,往往若干個步驟才能夠導致解題過程的實質性推進,因此,多個連續步驟的平均正確率很可能保持不變,進而導致稀疏的獎勵信號,不利于優化。

為了避免這種情況,作者引入一個前瞻窗口機制,將未來的正確率變化通過折扣因子傳播給當前步,從而確保獎勵信號盡量密集。
通過這種機制,VSRM機制實現了為每個步驟分配可驗證的,步驟級獎勵信號,從而鼓勵模型減少無效步驟的輸出。與直接施加長度懲罰不同,VSRM直接從源頭上給予模型最清晰明了的獎勵信號,引導模型更多選擇對提升最終正確率有幫助的步驟,在緩解過度思考問題的同時,最大限度地保留模型性能。

VSRM機制本身與強化學習算法解耦,能夠天然地適配支持過程獎勵的方法,只需將逐步獎勵添加到最終的reward tensor即可,搭配常用的結果二元結果獎勵和格式獎勵,即可無縫實現高效推理。
實驗結果
作者在數學問題最常用的benchmark上,使用三個不同base model,兩種RL算法,將VSRM與多種最新的相關工作進行對比,實驗結果展現出VSRM在降低輸出長度的同時,能夠最大限度地保持性能,取得很好的均衡。

消融實驗的結果顯示了VSRM中,前瞻窗口機制的有效性,以及,額外的顯式長度懲罰對于VSRM機制并無幫助。

在困難benchamrk上,隨著k的增加,Pass@k指標的提升趨勢能夠反饋模型探索更多可行解的能力。可以看到VSRM-PPO訓練后的模型,體現了與原本模型一致的趨勢,說明模型并沒有因為輸出長度的壓縮而失去了最重要的探索能力。

總結
通過廣泛的對比實驗,作者證明了可驗證的過程獎勵在不同RL算法,不同base model的設置下,均能實現保持性能的同時,極大緩解過度思考問題。消融實驗以及進一步的實證分析也展示出,可驗證的過程獎勵,真正起到了抑制無效步驟,鼓勵有效步驟的作用,是從根本上解決過度思考問題,保持模型良好推理行為的有效途徑。
論文鏈接:https://arxiv.org/abs/2508.10293
項目鏈接:https://github.com/1benwu1/VSRM-Efficient-LRMs


































