精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

告別無效計算!新TTS框架拯救19%被埋沒答案,推理準確率飆升

人工智能 新聞
華為諾亞方舟實驗室聯合香港中文大學等機構的研究人員提出逐步推理檢查點分析(SRCA)框架 —— 在推理步驟間引入 “檢查點”,并集成兩大核心策略。

大語言模型通過 CoT 已具備強大的數學推理能力,而 Beam Search、DVTS 等測試時擴展(Test-Time Scaling, TTS)方法可通過分配額外計算資源進一步提升準確性。然而,現有方法存在兩大關鍵缺陷:路徑同質化(推理路徑趨同)和中間結果利用不足(大量高質量推理分支被丟棄)。

為解決這些問題,華為諾亞方舟實驗室聯合香港中文大學等機構的研究人員提出逐步推理檢查點分析(SRCA)框架 —— 在推理步驟間引入 “檢查點”,并集成兩大核心策略:(1)答案聚類搜索(Answer-Clustered Search):根據中間檢查點答案對推理路徑進行分組,在保證質量的同時維持路徑多樣性;(2)檢查點候選增強(Checkpoint Candidate Augmentation):利用所有中間答案輔助最終決策。

實驗結果表明,在多個數學數據集上,如 MATH500 和 OlympiadBench,SRCA 相較于現有 TTS 方法,推理準確性均有提升。該論文已被 EMNLP 2025 接收。

  • 論文題目:Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning
  • 論文鏈接:https://arxiv.org/abs/2505.17829

Test Time Scaling(TTS)技術簡單來說就是在模型測試階段 "砸資源":不改變模型本身,而是通過增加推理時的計算開銷,讓 LLM 在解題時 "多想一會兒",從而顯著提升推理準確性。除了常見的長思維鏈,比如 DeepSeek R1 典型的 think 模式,多次采樣并有策略的搜索正確解題路徑也是一種常見的 TTS 策略。

我們常用的多數投票 / 自我一致性(Self-Consistency)可以視為是最樸素的 TTS 技術。比如讓模型對一道數學題生成 10 個推理過程,最后選出現次數最多的答案。這種看似簡單的方法,卻能顯著提升模型推理的準確率 —— 代價是多花幾倍計算時間。

隨著任務難度提升,這種暴力提升采樣次數的做法效率越來越低。于是研究者們引入了額外的打分模型,比如一個過程獎勵模型(PRM),從而開發了更先進的 TTS 算法。

  • Beam Search:(左圖)每次采樣得到的路徑由 PRM 打分,保留得分最高的 k 條推理路徑繼續深入,避免在錯誤方向浪費資源;
  • DVTS(Diverse Verifier Tree Search):(右圖)同時維護多個獨立的推理樹,每棵樹向下探索 PRM 打分最高的路徑。強迫模型探索不同解題思路,減少 "一條道走到黑" 的風險。

不過這類方法仍然存在兩個問題。

兩大痛點

  • 思路太單一:明明生成了多條推理路徑,最終卻都往一個方向扎堆(路徑同質化)。這是由 PRM 的局限性帶來的:并不完美的 PRM 打分具有隱式的偏好,選出的路徑往往具有一定的共性。這有時會導致一些思路不同但并未出錯的解題路徑打分略低未能被繼續探索。
  • 中間結果浪費:推理過程中產生的大量中間過程被直接丟棄。以 Beam Search 為例,假設采樣次數為 16,束寬為 4,則采樣中 75% 的步驟將被直接丟棄。這其中不乏一些優質的正確的解題思路,但是這些中間過程并未有效貢獻到最終答案的決策中。

我們的解法:給推理過程 "設檢查點"

針對這些問題,我們提出了 SRCA(Stepwise Reasoning Checkpoint Analysis) 框架,該框架包含三個關鍵組件:

  • 檢查點注入:強制模型在每一步推理后暫停并輸出階段性答案。
  • 答案聚類搜索:把檢查點答案一樣的推理路徑歸為一組,并從每組內選擇路徑繼續推理。
  • 檢查點候選增強:收集所有檢查點答案加入到最終答案的選擇。

下面是每個組件的具體介紹。

檢查點注入(Checkpoint Injection):打斷推理并預測答案

檢查點注入是 SRCA 的基礎技術,后續的 ACS 和 CCA 算法全部依賴于檢查點注入收集到的中間答案,核心思路是強制模型在每一步推理后暫停并輸出階段性答案。早期的工作中亦有類似的探索,chain-of-probe (https://aclanthology.org/2025.findings-naacl.140/) 同樣是利用暫停推理收集答案的思路觀測模型推理時置信度 (confidence) 的變化以判斷模型推理是否準確。而檢查點注入則更關注模型階段性推理的答案本身,具體流程如下:

  1. 檢測步驟結束符(如 "### Step"):當檢測到此類字段時,說明 LLM 的上一步推理已經結束,可以進行答案檢查。
  2. 插入提示 "So the answer is":我們通過插入后綴強行改變上下文,模型沿著新的上下文繼續解碼,輸出它所認為的答案。
  3. 記錄檢查點答案:該答案是我們后續改進搜索策略和投票的重要依據。

通過這樣的方式,我們可以收集到模型基于當前推理步驟得出的答案。這種 “中間答案” 盡管并不完整和精確,但它們在一定程度上可以代表模型在當前的思考過程,比如兩條推理路徑得出的中間答案是一樣的,我們則可以認為這兩條推理路徑目前解題的思路和進度是類似的。收集到中間答案后,通過合理的 KV Cache 管理,我們可以將推理狀態回滾到上一步推理結束的時刻,從而避免反復推理降低計算開銷。

答案聚類搜索(ACS):防止 “思路扎堆”,鼓勵不同解法

基于檢查點答案,我們重新設計了路徑搜索策略,提出了 Answer Clustering Search 算法。傳統方法(如 Beam Search)雖然讓模型嘗試多條路,但 PRM 打高分的路徑往往類似,這就容易提前扼殺搜索路徑的多樣性,導致最終錯過可能的正確答案。

針對路徑同質化問題,ACS 在檢查點執行雙層篩選機制:

  • 組內擇優:將同中間答案的路徑歸組,按組內 PRM 總分排序
  • 組間競爭:采用輪詢調度(Round-Robin),按總分順序從每組抽取最優路徑

這樣保證了不同解題方向(不同組)都有機會保留至少一條 “種子選手” 繼續發展。即使某一種方法(組)目前分數不是最高,只要它整體有潛力,它最好的那條路也有機會被選上。這就大大增加了解題思路的多樣性,避免大家一窩蜂擠到一條(可能錯的)思路上。

檢查點候選增強(CCA):搶救 “半成品好答案”,變廢為寶

在傳統樹搜索(如 Beam Search / DVTS)中,只有那些最終走完全程的路徑才有資格參與最終答案的評選。大量未完成的中間推理步驟被直接丟棄。CCA 通過收集復用這些未完成路徑的檢查點答案提升模型推理的準確性:

  1. 在每一步推理之后,記錄收集所有的檢查點答案。
  2. 即使一條路沒走完,它在某個步驟得出的那個中間答案,也可能是最終答案。所以 CCA 會把每個中間答案連同它走到這一步的推理過程,都打包成一個獨立的候選答案。這就像把那些半成品搶救出來。
  3. 當所有路徑都推理結束后(無論是走完還是被淘汰),最終的答案評選不再是只看那幾條 “完整” 路徑的最終答案。CCA 會把所有收集到的這些 “半成品答案” 和完整路徑的最終答案,全部放在一起,根據 PRM 的打分選擇最高者。

這樣極大減少了 “好答案被中途埋沒” 的情況。即使模型后面推理跑偏了,只要它在某個步驟 “靈光一現” 得出了正確結果,CCA 就能把它撈回來,給模型一個 “后悔藥”。這大大提高了計算資源的利用率。下面是一個具體的示例:

如圖所示,模型推理完成得到的答案是 9,而正確答案是 27。但回顧推理過程中的檢查點答案可以發現,模型在第 4 和第 5 步已經得出了 27 這個答案,而錯誤出在第 6 步 ——9 是一個完全平方數而不是平方立方數。而 CCA 記錄收集了所有檢查點答案,并綜合考慮所有候選答案選出最終結果。可以看到第 5 步的檢查點答案得到了最高分 0.7192,該答案被 CCA 恢復并修正了錯誤答案。

實驗結果

TL;DR:

  • SRCA 框架加持的 1B 小模型在 MATH500 數據集上達到 65.2% 準確率,首次超越參量 70 倍的 70B 大模型(65.0%)
  • 通過答案聚類搜索(ACS)優化路徑多樣性,SRCA 僅需 16 次采樣即可達到其他 TTS 方法 128 次采樣的精度。在同等硬件條件下,推理效率提升達 8 倍,從而降低計算成本。
  • 檢查點候選增強(CCA)策略成功從中間步驟拯救 19.07% 的正確答案。這些答案誕生于推理中途,卻因后續路徑偏差被丟棄。CCA 通過復用高質量中間結果,構建了強大的錯誤容忍機制。
  • 設置合理閾值,當候選池中出現超過閾值的檢查點答案即停止推理輸出答案,平均可節省 27% 的推理步驟,推理準確率輕微下降 0.58%。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-26 08:40:15

模型隱私推理

2023-12-12 13:51:00

AI訓練

2025-03-04 10:15:00

2022-09-14 13:30:33

AI手機程序

2025-10-23 12:46:39

2025-05-21 13:56:37

模型圖像AI

2024-09-12 13:50:00

模型訓練

2025-06-03 08:25:00

推理模型框架

2025-11-21 12:12:09

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2019-01-03 09:04:04

谷歌系統機器

2023-11-08 08:38:43

2025-07-21 09:05:00

模型AI芯片

2024-01-05 08:44:52

2025-04-18 08:42:52

模型推理AI

2024-06-20 10:43:15

2023-12-01 10:20:00

谷歌技術

2025-06-10 09:05:00

2025-07-04 08:53:00

點贊
收藏

51CTO技術棧公眾號

色是在线视频| 男人天堂av网| 香蕉久久网站| 精品成人私密视频| av免费在线播放网站| 色影院视频在线| 成人国产精品免费观看| 国产精品va在线播放| 波兰性xxxxx极品hd| 国产伦精品一区二区三区免费优势 | 免费看裸体网站| 精品国产一区二区三区性色av| 无吗不卡中文字幕| 一道本在线观看视频| 日韩三级电影网| 国产精品白丝av| 国产精品久久二区| 国产一级特黄毛片| 久久综合国产| 亚洲精品综合精品自拍| 97免费公开视频| 成人免费毛片嘿嘿连载视频…| 亚洲一区二区三区在线看| 色综合久久av| а√天堂资源在线| 久久99精品久久只有精品| 性欧美亚洲xxxx乳在线观看| 污污的视频在线免费观看| 九一成人免费视频| 亚洲福利视频网站| 下面一进一出好爽视频| 国产精品伊人| 91国产福利在线| 欧美 日韩 国产一区| 国产福利视频在线观看| 国产精品美女视频| 视频一区国产精品| yjizz视频网站在线播放| 99久久99久久久精品齐齐| 亚洲va男人天堂| 一本一道精品欧美中文字幕| 日韩电影在线观看一区| 欧美最顶级的aⅴ艳星| 国产奶水涨喷在线播放| 欧美日韩天堂| 欧美激情视频在线| 国产亚洲自拍av| 欧美日韩理论| 欧美激情手机在线视频 | 在线观看日韩一区| 成人羞羞国产免费网站| 中文在线а√在线8| 亚洲18女电影在线观看| 国产精品入口芒果| 久久免费电影| 五月综合激情网| 国产69精品久久久久999小说| 欧美aaaaaaa| 亚洲综合一二区| 国产成人永久免费视频| a天堂中文在线官网在线| 亚洲男同性恋视频| 免费看污污视频| 欧美1—12sexvideos| 亚洲国产精品一区二区久久 | 视频一区二区在线| 91伦理视频在线观看| 国产精品午夜免费| 国产成年人在线观看| 97超碰在线公开在线看免费| 一区二区三区在线观看国产| 9色porny| 88xx成人永久免费观看| 欧美日韩一区二区三区视频| 日韩成人av免费| www.成人网| 亚洲欧美福利视频| 天堂网av2018| 国产精品vip| 91成人在线播放| 亚洲 国产 日韩 欧美| 久久精品国产99国产| 91亚色免费| 亚洲色偷精品一区二区三区| 欧美国产一区二区| 男女激烈动态图| 国产极品在线观看| 欧美日韩亚洲综合一区二区三区| 亚洲色图欧美自拍| 欧美国产不卡| 日韩在线观看免费全集电视剧网站 | 亚欧洲精品视频在线观看| 中文字幕欧美国内| 久久午夜鲁丝片午夜精品| 亚洲欧美高清| 91成人免费在线观看| 在线观看xxx| 亚洲欧洲成人精品av97| 全黄性性激高免费视频| 欧美影视资讯| 精品国产91乱码一区二区三区 | 日本在线视频1区| 国产精品久久久久永久免费观看| 日韩激情视频一区二区| 日韩成人亚洲| 精品国产一区久久| 欧美另类69xxxx| 99精品视频免费观看| 成人高清视频观看www| 香蕉视频国产在线| 亚洲日本在线天堂| 欧美成人免费高清视频| 亚洲高清999| 中文字幕精品在线| 欧美福利视频一区二区| 国产成人亚洲综合a∨猫咪| 日韩在线电影一区| 亚洲精品福利电影| 精品久久久网站| 男人的午夜天堂| 久久精品网址| 久久国产精品-国产精品| 天天色天天射天天综合网| 欧美私人免费视频| 国产高潮呻吟久久| 国产日韩一区| 国产视频一区二区不卡| 五月婷婷视频在线观看| 5566中文字幕一区二区电影| 国产123在线| 美女国产一区| 好吊妞www.84com只有这里才有精品| 黄色在线视频网站| 欧美日韩黄色影视| 免费成人深夜天涯网站| 日韩精品电影一区亚洲| 日本一区不卡| 欧美特黄aaaaaaaa大片| 日韩av在线免费看| 亚洲国产成人精品激情在线| 国产精选一区二区三区| 国产大尺度在线观看| 91麻豆精品国产91久久久更新资源速度超快| 国产亚洲精品久久久久久牛牛 | 欧美lavv| 亚洲精品国产精品国产| 日韩精品一区二区三区第95| www日韩精品| 99国产精品一区| 777精品久无码人妻蜜桃| 精品三级av| 26uuu另类亚洲欧美日本老年| 色偷偷在线观看| 精品国产乱码久久久久久虫虫漫画 | 久久久精品国产**网站| 久久久久久久国产精品视频| 亚洲国产一二三区| 午夜电影一区二区三区| 亚洲久久久久久| 中文一区在线| 深夜福利成人| 一区在线不卡| 欧美黑人性视频| 天天干视频在线| 色偷偷久久人人79超碰人人澡| 制服 丝袜 综合 日韩 欧美| 日本美女视频一区二区| 一级一片免费播放| 最新国产一区二区| 77777亚洲午夜久久多人| 欧美美乳在线| 欧美精品v国产精品v日韩精品 | 在线观看一区视频| 久久久婷婷一区二区三区不卡| 欧美亚洲韩国| 久久精品青青大伊人av| 不卡av中文字幕| 天天综合天天综合色| 亚洲精品国产精品国自产网站| 老汉av免费一区二区三区 | 国产精品日韩久久久| 日韩国产高清一区| 免费精品一区| 欧亚精品在线观看| 二区三区四区高清视频在线观看| 精品国产免费人成在线观看| 无码视频在线观看| 亚洲欧洲制服丝袜| 精品少妇一区二区三区免费观| 美女视频一区二区三区| 每日在线观看av| 欧美特黄一级大片| 翡翠波斯猫1977年美国| 精品免费av一区二区三区| 欧美成年人视频网站| 免费a在线观看| 日韩一区二区三区免费看 | 精品一二三四在线| 黄色片网址在线观看| 日韩1区2区| 精品视频一区在线| 国产亚洲高清一区| 国产成人精品视| 久久av色综合| 最新亚洲国产精品| 水莓100国产免费av在线播放| 欧美亚洲自拍偷拍| 天天综合网入口| 亚洲欧美国产77777| 精品无码国产污污污免费网站| 国产成人av一区二区三区在线| 久久婷婷国产91天堂综合精品| 在线精品一区二区| 亚洲欧美日韩综合一区| 亚洲黄页在线观看| 国产精品yjizz| 激情综合婷婷| 国产美女直播视频一区| 成年美女黄网站色大片不卡| 欧美激情一级精品国产| а√天堂8资源在线官网| 中文字幕精品www乱入免费视频| 日日夜夜精品免费| 日韩欧美国产三级电影视频| 一区二区三区黄| 欧美在线free| 日本中文字幕第一页| 性做久久久久久免费观看欧美| 国产性生活大片| 日韩一区欧美小说| 日本黄区免费视频观看| 国产亚洲一区二区三区| 亚洲天堂网一区二区| 成人午夜av影视| av在线免费观看不卡| 韩国女主播成人在线| 亚洲综合日韩欧美| 蜜臀久久99精品久久久久久9| 国产精品久久久久9999小说| 免费永久网站黄欧美| 中国丰满人妻videoshd | 欧美三级美国一级| 欧美精品亚洲精品| 一本色道久久综合狠狠躁的番外| 国产欧美日韩一区| 欧美成a人免费观看久久| 国产精品国产精品| 国产精品tv| 国产精品二区二区三区| 卡通动漫精品一区二区三区| 精品不卡在线| 亚洲制服一区| 日韩黄色影视| 日韩欧美一区二区三区在线视频| 亚洲精品高清视频| 五月开心六月丁香综合色啪| 麻豆中文字幕在线观看| 欧美在线高清| 日韩激情视频一区二区| 国产亚洲一级| 国产激情在线观看视频| 麻豆久久久久久久| 波多野结衣在线免费观看| 国产精品2024| ass精品国模裸体欣赏pics| 国产欧美日韩在线观看| 啪啪一区二区三区| 一区二区三区在线免费| 国产污污视频在线观看| 精品国产成人在线| 在线免费观看高清视频| 日韩欧美亚洲国产另类 | 久久美女高清视频| 嘿嘿视频在线观看| 亚洲品质自拍视频| 免费在线不卡视频| 欧美在线你懂得| a天堂中文在线观看| 亚洲激情国产精品| 北条麻妃在线| 欧美疯狂做受xxxx高潮| 欧美xo影院| 91精品视频在线播放| 麻豆精品av| 亚洲天堂电影网| 欧美午夜在线| www.xxx亚洲| 国产成人精品三级麻豆| 波多野结衣福利| 中文字幕一区三区| 日韩 欧美 综合| 欧美精品在线视频| 亚州视频一区二区三区| www日韩欧美| 中文字幕影音在线| 亚洲综合精品一区二区| 国产成人ay| www.成年人视频| 久久99热国产| 亚洲激情视频小说| 亚洲综合激情另类小说区| 欧美成人精品网站| 亚洲第一黄色网| 国产原创视频在线观看| 国产suv精品一区二区| 亚洲精选av| 丰满女人性猛交| 日本不卡的三区四区五区| wwwxx日本| 日韩理论片网站| 中文字幕免费高清在线观看| 亚洲国产日韩欧美在线99| 巨大荫蒂视频欧美大片| 国产z一区二区三区| 超碰一区二区三区| 欧美日韩在线免费观看视频| 日韩国产高清影视| 日本免费福利视频| 亚洲国产综合在线| av老司机久久| 最近2019年手机中文字幕| 国产免费不卡| 久久国产精品久久精品国产| 欧美黄免费看| 婷婷中文字幕在线观看| 亚洲国产成人在线| 日本黄色中文字幕| 亚洲美女免费精品视频在线观看| 超碰在线97国产| av蓝导航精品导航| 中文字幕一区二区三区欧美日韩| 久久久久久三级| 久久九九久久九九| 中文字幕精品无| 亚洲片av在线| 户外露出一区二区三区| 欧美日韩一区二 | www.成人黄色| 欧美国产精品v| 国产女优在线播放| 国产一区二区三区高清在线观看| 玛雅亚洲电影| 日本一区二区三不卡| 日韩精品一二三四| x88av在线| 欧美三级中文字幕| 午夜激情视频在线| 成人免费网视频| 亚洲欧美一级二级三级| 性折磨bdsm欧美激情另类| 依依成人精品视频| 风流少妇一区二区三区91| 久久久久国产视频| 精品成人自拍视频| 黄色免费视频大全| 久久久久久99久久久精品网站| 中文字幕在线欧美| 国产亚洲欧美一区| 久久人体av| 国产日产欧美一区二区| 国产成人在线网站| 国产情侣在线视频| 亚洲精品综合久久中文字幕| 中韩乱幕日产无线码一区| 中文字幕一区二区中文字幕| 国产精品996| 一级片中文字幕| 一区二区三区视频在线| 99视频这里有精品| 国产夫妻自拍一区| 国产亚洲精品久| 国产熟女一区二区三区四区| 久久久久久久久久av| 国产剧情在线观看一区| 日本精品一区在线| 疯狂做受xxxx欧美肥白少妇| 青青操在线视频| 成人黄色短视频在线观看| 国产精品大片| 亚洲黄色小说视频| 91精品国产乱码久久蜜臀| sm捆绑调教国产免费网站在线观看| 欧美精品一区二区三区在线看午夜| 日本免费新一区视频| 99鲁鲁精品一区二区三区| 亚洲国产精品va在线看黑人| 成人黄色免费短视频| 好吊色这里只有精品| 26uuu亚洲综合色| 国产精品欧美久久久久天天影视| 久久久久久久香蕉网| 欧美日中文字幕| www男人天堂| 欧美日韩中文字幕一区| av中文在线资源| 中国人体摄影一区二区三区| 成人国产视频在线观看| 亚洲综合精品国产一区二区三区 | 欧洲美女精品免费观看视频| 国产一二三在线视频|