精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

攻克AI過度思考難題!美團新研究讓通過“可驗證”過程獎勵激活LRM的高效推理

人工智能 新聞
來自美團等機構的研究團隊提出可驗證的過程獎勵機制(VSRM),鼓勵CoT中的“有效步驟”,懲戒“無效步驟”,最大限度保持性能的同時,實現高效推理。

LRM通過簡單卻有效的RLVR范式,培養了強大的CoT推理能力,但伴隨而來的冗長的輸出內容,不僅顯著增加推理開銷,還會影響服務的吞吐量,這種消磨用戶耐心的現象被稱為“過度思考”問題。

針對這一缺陷,來自美團等機構的研究團隊提出可驗證的過程獎勵機制(VSRM),鼓勵CoT中的“有效步驟”,懲戒“無效步驟”,最大限度保持性能的同時,實現高效推理。

通過在數學任務上的實驗顯示,在多個常用benchmark上,VSRM加持的后訓練使得不同尺度的模型實現了輸出長度的大幅縮減,甚至在部分情況下提升了模型表現。

過度思考問題的本質

此前的工作將過度思考問題的現象總結為:對于一個問題,模型傾向于給出多種不同的解答,特別簡單的問題。在這一認識的基礎上,作者團隊更進一步,對現有LRM在MATH-500上做出的回復進行了深入的case study。

如圖所示,在這個例子中,模型為解決一個非常簡單的子問題([-500,0]中有多少個小于0的整數)進行了反復的思考,在正確和錯誤之間反復橫跳,最終得出了一個不正確的中間結論,進而導致了最終結論的錯誤。

這些無效步驟不但不能指引推理路徑的發展,反而會導致中間過程出錯。

這樣的案例并不孤立,甚至頻繁出現。

基于上述觀察,作者團隊提出:大量無效的中間步驟是導致模型過度思考的根本原因。因此,抑制這些無效步驟,鼓勵有效步驟,是后訓練的核心優化目標。

設計可驗證的逐步驟獎勵

現有RLVR的機制,通過獎勵函數以可驗證的二元結果獎勵促進模型探索能夠獲得正確答案的解法。

但是結果獎勵無法精確地獎懲不同的步驟,也因此無法達到作者所期望的目標。

過程獎勵機制雖然能滿足這一要求,但過程獎勵模型(PRM)往往難以訓練且預測結果的可靠性有限,針對數學問題/代碼編程等推理任務更是嚴重欠缺可解釋性。

作者團隊將可驗證獎勵與步驟級獎勵結合在一起,創造性地提出VSRM,為推理過程中的每個中間步驟分配獎勵信號,從而實現對不同步驟的鼓勵和抑制,天然地契合推理任務分步作答的特點。

引入步驟級獎勵的第一步是定位所有的步驟。

在CoT中,一些特殊的token,比如“However”、“Therefore”、“So”、“But”、“Wait”等往往表示模型已經完成了一個推理步驟,即將進行下一步推理(遞進或是轉折)。這些特殊token的存在將整個軌跡劃分成了多個中間步驟。

為了保證劃分后內容的可讀性,作者額外設計了三條規則:1. 跳過最初的若干token,這部分內容往往是對問題進行重述。2. 相鄰劃分點之間必須至少間隔一定距離,避免過度分割。3. 若特殊token位于句子內部,將劃分點放在該句句首。

為了評估中間步驟有效與否,最直接的方式就是評估該步驟完成前后帶來的正確率增益。而正確率是完全可以通過可驗證的方式得到的。

只需要在每個劃分點的位置前,加上一個token,這樣,從query開始,到該處的,就構成了一條子軌跡。以每個子軌跡為prompt,模型能夠產生多個候選答案,平均正確率體現了當前步驟得到正確答案的概率。

相鄰子軌跡的正確率差值,即為完成當前步驟后獲得的正確率增益。

直接將增益作為步驟級獎勵就能夠指導模型區分有效與無效步驟。但考慮到,往往若干個步驟才能夠導致解題過程的實質性推進,因此,多個連續步驟的平均正確率很可能保持不變,進而導致稀疏的獎勵信號,不利于優化。

為了避免這種情況,作者引入一個前瞻窗口機制,將未來的正確率變化通過折扣因子傳播給當前步,從而確保獎勵信號盡量密集。

通過這種機制,VSRM機制實現了為每個步驟分配可驗證的,步驟級獎勵信號,從而鼓勵模型減少無效步驟的輸出。與直接施加長度懲罰不同,VSRM直接從源頭上給予模型最清晰明了的獎勵信號,引導模型更多選擇對提升最終正確率有幫助的步驟,在緩解過度思考問題的同時,最大限度地保留模型性能。

VSRM機制本身與強化學習算法解耦,能夠天然地適配支持過程獎勵的方法,只需將逐步獎勵添加到最終的reward tensor即可,搭配常用的結果二元結果獎勵和格式獎勵,即可無縫實現高效推理。

實驗結果

作者在數學問題最常用的benchmark上,使用三個不同base model,兩種RL算法,將VSRM與多種最新的相關工作進行對比,實驗結果展現出VSRM在降低輸出長度的同時,能夠最大限度地保持性能,取得很好的均衡。

消融實驗的結果顯示了VSRM中,前瞻窗口機制的有效性,以及,額外的顯式長度懲罰對于VSRM機制并無幫助。

在困難benchamrk上,隨著k的增加,Pass@k指標的提升趨勢能夠反饋模型探索更多可行解的能力。可以看到VSRM-PPO訓練后的模型,體現了與原本模型一致的趨勢,說明模型并沒有因為輸出長度的壓縮而失去了最重要的探索能力。

總結

通過廣泛的對比實驗,作者證明了可驗證的過程獎勵在不同RL算法,不同base model的設置下,均能實現保持性能的同時,極大緩解過度思考問題。消融實驗以及進一步的實證分析也展示出,可驗證的過程獎勵,真正起到了抑制無效步驟,鼓勵有效步驟的作用,是從根本上解決過度思考問題,保持模型良好推理行為的有效途徑。

論文鏈接:https://arxiv.org/abs/2508.10293
項目鏈接:https://github.com/1benwu1/VSRM-Efficient-LRMs

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-30 04:00:00

IBMRLVRGRPO

2025-08-06 02:00:00

LLM大型語言模型AI

2025-07-01 09:05:28

2025-11-07 01:33:00

AIMeta大模型

2025-05-30 02:00:00

獎勵模型RRMAI

2025-04-07 09:23:00

大模型LLM推理

2025-06-03 17:38:24

模型AIDeepSeek

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-10-23 14:05:35

2025-06-09 09:17:44

2011-11-04 09:51:23

Platform

2022-11-25 09:42:53

AI技術

2025-05-29 09:14:17

2025-01-16 08:40:00

2025-08-04 09:20:07

2022-07-18 10:05:16

AI挑戰方案

2025-09-26 09:32:47

AI模型框架

2023-08-14 13:40:22

AI網友視頻

2020-09-27 14:23:36

AI

2021-04-02 09:40:06

量子計算芯片超算
點贊
收藏

51CTO技術棧公眾號

亚洲а∨天堂久久精品9966| 视频国产一区二区三区| 在线观看中文| 久久国产一二区| 亚洲一二三四区不卡| 国产999精品久久久| 中国极品少妇xxxx| av网站免费大全| 精品视频免费| 欧美性猛xxx| 国产伦理一区二区三区| 国产大学生自拍| 久久亚洲国产精品尤物| 久久影院视频免费| 97久久精品人搡人人玩| 97超碰免费在线观看| 日本高清中文字幕在线| 美女网站在线免费欧美精品| 国产一区二区三区网站| 国产又黄又猛视频| 久久久久久久影视| 久久精品国语| 久久国产天堂福利天堂| 尤物网站在线看| av网站网址在线观看| 91丨porny丨蝌蚪视频| 77777亚洲午夜久久多人| 星空大象在线观看免费播放| 欧美a级在线观看| 99re热这里只有精品免费视频 | 国产精品v片在线观看不卡| 亚洲中文字幕无码一区| av在线亚洲一区| 亚洲免费观看高清完整版在线观看| 国产欧美精品xxxx另类| 99热6这里只有精品| 中文成人激情娱乐网| 欧美性猛交xxxx黑人| 美女黄色免费看| 日韩私人影院| 日韩影院精彩在线| 日韩中文字幕国产| 欧美人与性动交α欧美精品| 日本一道高清亚洲日美韩| 国产精品午夜在线| 亚洲已满18点击进入在线看片 | 头脑特工队2在线播放| 国产黄色91视频| 久久久久久久久久久国产| 中文字幕乱码在线| 黑人巨大精品欧美一区二区桃花岛| 久久久久国产精品麻豆ai换脸 | 祥仔av免费一区二区三区四区| 国产精品久久久久久亚洲伦| 亚洲va男人天堂| 亚洲特级黄色片| 红桃视频亚洲| 一区三区二区视频| 亚洲精品一区二区18漫画| www.久久草.com| 欧美丰满一区二区免费视频| 精品少妇在线视频| wwwww在线观看免费视频| 激情五月播播久久久精品| 国外成人在线直播| 国产一区二区三区四区在线| 成人h动漫免费观看网站| 91福利视频网站| 国产一二三四五| 欧美91精品久久久久国产性生爱| www.欧美.com| 91精品啪aⅴ在线观看国产| 久久久精品福利| 91精品蜜臀一区二区三区在线| 亚洲国产精品推荐| 在线视频日韩欧美| 中文字幕一区二区三区中文字幕 | 丰满少妇被猛烈进入| 午夜宅男久久久| 另类图片亚洲另类| 国产肥白大熟妇bbbb视频| 久久一级大片| 欧美午夜精品久久久久久孕妇 | 久久青青草原| 99热在线只有精品| 国产aⅴ综合色| 国产一区深夜福利| 无码免费一区二区三区| 在线日韩中文| 另类天堂视频在线观看| 国产精品.www| 中文字幕日韩一区二区不卡| 国产一区二区久久精品| 手机在线免费看毛片| 日韩.com| 亚洲天堂男人的天堂| 三上悠亚在线观看视频| 九九热线有精品视频99| 亚洲国产欧美一区| 五月婷六月丁香| 国产一区日韩欧美| 国产精品999| 欧产日产国产69| 99精品国产99久久久久久福利| 欧美成人网在线| 国产精品美女久久久久av爽| 国产精品theporn| 日韩免费精品视频| 不卡的日韩av| 国产999精品久久久久久绿帽| 美媛馆国产精品一区二区| 天天摸天天碰天天爽天天弄| 不卡视频在线看| 精品国产乱码久久久久久蜜柚| 性一交一乱一精一晶| 国产精品一级在线| 亚洲iv一区二区三区| 毛片网站在线观看| 亚洲在线一区二区三区| a级免费在线观看| 国产不卡123| 欧美丝袜美女中出在线| 亚洲精品在线视频播放| 国产精品一区二区三区四区在线观看| 欧美日韩成人综合天天影院| 在线观看免费不卡av| 精品三级在线| 日韩成人性视频| 久久久久成人精品无码中文字幕| 香蕉综合视频| 国产精品白嫩初高中害羞小美女| 欧美一级视频免费| xnxx国产精品| 国产青草视频在线观看| 97久久精品一区二区三区的观看方式 | 欧美深夜福利视频| 妞干网免费在线视频| 日韩精品一区二区三区视频在线观看| 精品无码av一区二区三区不卡| jizz性欧美2| 久久电影一区二区| 国产精品天天操| 岛国av在线一区| 久久综合九色综合网站| av老司机免费在线| 色综合天天在线| a在线观看免费视频| 麻豆视频久久| 久久中文字幕在线视频| 中文字幕一区二区人妻痴汉电车| 国产专区欧美精品| 国产精品久久久久av福利动漫| 成人福利在线观看视频| 午夜一区二区三区在线观看| 国产视频一区二区三区在线播放| 999精品视频在线观看| 日韩在线视频观看正片免费网站| 久久久久久久国产精品毛片| 乱码第一页成人| 久久精品欧美| 网友自拍亚洲| 精品日产卡一卡二卡麻豆| 美女被到爽高潮视频| 天堂一区二区在线| 风间由美久久久| 国产1区2区3区在线| 亚洲自拍偷拍图区| 国产一卡二卡三卡四卡| 亚洲精选久久| 日本午夜精品电影| av剧情在线观看| 日韩精品中文字幕有码专区| www欧美com| 国内不卡的二区三区中文字幕| 一道本在线观看视频| 性欧美18一19sex性欧美| 一本色道久久88综合亚洲精品ⅰ | 欧美亚洲免费高清在线观看 | 中文字幕五月欧美| 欧美一区二区三区爽大粗免费| 色综合一区二区日本韩国亚洲| 日韩视频第一页| 性生活免费网站| 欧美性感美女h网站在线观看免费| 欧美日韩一区二| 国产亚洲福利社区| 国产噜噜噜噜噜久久久久久久久| 欧美一卡2卡3卡4卡无卡免费观看水多多| 天堂91在线| 在线看国产一区二区| 五月天中文字幕在线| 亚洲区综合中文字幕日日| 国产乱码精品一区二区三区不卡| 波多视频一区| 久久国产精品电影| 欧美成熟毛茸茸| 欧美一二三区在线观看| 午夜成人亚洲理伦片在线观看| 国产精品1区2区| 国产亚洲综合视频| 日韩欧美美女在线观看| 国色天香2019中文字幕在线观看| 福利在线午夜| 精品毛片乱码1区2区3区| 波多野结衣不卡| 久久久久久电影| 免费看三级黄色片| 日韩成人免费电影| 妺妺窝人体色777777| 色综合色综合| 欧美最大成人综合网| 成人av综合网| 亚洲精品欧美极品| 日本一区免费网站| 91chinesevideo永久地址| 九色porny在线| 正在播放亚洲一区| 免费中文字幕在线| 国产日产精品一区| 日韩一级性生活片| 久久国产成人午夜av影院宅| 久久精品一二三区| 国产在线播放精品| 97在线视频一区| 久草中文在线观看| 中文精品99久久国产香蕉| 中文无码av一区二区三区| 亚洲妇女屁股眼交7| 亚洲成年人av| 国产精品色网| 视频一区二区在线观看| 日本成人一区二区| 国产福利精品在线| 91精品论坛| 98视频在线噜噜噜国产| 不卡av免费观看| 亚洲男人第一av网站| 国产一级片一区二区| 亚洲美女区一区| 日本黄色录像视频| 国产精品国产三级国产三级人妇| 无人码人妻一区二区三区免费| 影音先锋亚洲电影| 欧美一区二区在线视频观看| 日韩丝袜视频| 久久99精品久久久久久水蜜桃| 久久99偷拍| 国产噜噜噜噜噜久久久久久久久 | 欧美一区二不卡视频| 欧美一区二区三区免费观看视频 | 日韩欧美在线视频免费观看| 亚洲另类欧美日韩| 精品动漫一区二区| 国产精品www爽爽爽| 久久aⅴ国产欧美74aaa| 野外做受又硬又粗又大视频√| 欧美日本一区| 色吧亚洲视频| 色综合咪咪久久网| 五月天在线免费视频| 欧美二区不卡| 日韩免费毛片| 丁香五月缴情综合网| 99久久精品久久久久久ai换脸| 日韩免费小视频| 欧美性色黄大片| 丁香色欲久久久久久综合网| 99久久99久久精品国产片桃花| 成人美女免费网站视频| 老牛影视精品| 欧美孕妇性xx| 四虎亚洲成人| 中文字幕日韩精品有码视频| 无遮挡动作视频在线观看免费入口| 久久精品在线视频| 国产98在线| 久久久精品一区二区三区| 欧美hdxxxx| 欧美成人在线影院| av资源网在线播放| 国产精品91在线| 狂野欧美xxxx韩国少妇| 久久综合精品一区| 91麻豆精品国产91久久久平台| 欧美日韩精品免费看| 日韩欧美大片| 日本阿v视频在线观看| 三级久久三级久久久| 91视频免费入口| 久久亚洲精品小早川怜子| 一级免费黄色录像| 午夜欧美2019年伦理| 中文字幕第三页| 精品国产乱码久久久久久图片| 九色视频在线播放| 亚洲色图35p| 日本韩国一区| 久久综合亚洲社区| 久久久久久久| 国产精品国模大尺度私拍| 日韩精品诱惑一区?区三区| 欧美国产视频一区| 日韩在线卡一卡二| 国产69视频在线观看| 国产精品福利一区| 亚洲精品午夜国产va久久成人| 91精品国产色综合久久ai换脸| 日本视频在线观看一区二区三区| 欧美老肥婆性猛交视频| 秋霞在线午夜| 国产精品久久一区主播| 国产另类xxxxhd高清| 97中文在线观看| 美国一区二区| 男女激烈动态图| 男人操女人的视频在线观看欧美| 亚洲一区二区在线免费| 中文字幕一区免费在线观看 | 亚洲一级二级| 五月天中文字幕在线| 国产亚洲自拍一区| 性无码专区无码| 欧美变态tickling挠脚心| 蜜芽在线免费观看| 久热精品视频在线观看一区| 三上悠亚国产精品一区二区三区| 国产欧美精品一区二区三区| 欧美+日本+国产+在线a∨观看| 欧美婷婷精品激情| 国产亚洲美州欧州综合国| 国产精品theporn动漫| 日韩一级黄色大片| 国产精品实拍| 国产日韩欧美成人| 日韩精品影视| 九九热免费在线观看| 国产精品亲子乱子伦xxxx裸| 波多野结衣不卡| 伊人男人综合视频网| 成人视屏在线观看| 日韩欧美精品久久| 麻豆亚洲精品| 51妺嘿嘿午夜福利| 日本二三区不卡| 高清性色生活片在线观看| 国产精品igao视频| 清纯唯美亚洲综合一区| 日韩精品福利片午夜免费观看| 日韩视频在线一区二区三区| 久久久无码人妻精品无码| 亚洲激情六月丁香| 国产性生活视频| 一区二区中文字幕| 色999韩欧美国产综合俺来也| 亚洲在线色站| 亚洲精品资源| 黄色在线观看av| 亚洲欧美日韩在线不卡| 亚洲国产成人无码av在线| 日韩av在线最新| 日韩精品三区| 国产精品夜夜夜爽张柏芝| 国产一区二区不卡老阿姨| 久久精品视频免费在线观看| 欧美精品一区二区三区在线| 高潮在线视频| 日韩欧美亚洲日产国| 久久国产精品无码网站| 精品欧美一区二区久久久久| 欧美精品一区二区三区高清aⅴ| 午夜影院在线播放| 高清国语自产拍免费一区二区三区| 国产一区清纯| 亚洲AV无码国产成人久久| 亚洲一二三四久久| 日本免费一区二区三区最新| 国产欧美一区二区| 欧美日韩mv| 波多野结衣 在线| 777亚洲妇女| 国产传媒在线| 一区二区三区不卡在线| 国产精品资源网站| 国产精品午夜影院| xx视频.9999.com| 精品国产乱码一区二区三区| 日韩av黄色网址| 中文字幕一区二区三| 天堂av中文字幕| 国产专区精品视频| aⅴ色国产欧美| 国产人妻精品一区二区三区不卡 | 亚洲s色大片| 国产精品久久精品国产| 美女诱惑一区二区| 九九热国产视频| 欧美精品一区二区不卡| 不卡亚洲精品| 亚洲欧美日本国产有色| 日日摸夜夜添夜夜添国产精品 |