智能置信度過濾:讓大模型推理既準確又高效的DeepConf方法
DeepConf使用模型自身的token置信度來保留其最強的推理,在GPT-OSS-120B上相比標準并行思考減少了高達84.7%的token消耗。
大多數系統仍然依賴于帶有多數投票的自一致性,這雖然提高了準確率但收益遞減,同時消耗大量token。
圖片
論文([Deep Think with Confidence](https://arxiv.org/abs/2508.15260v1))核心思想:DeepConf是一種測試時方法,它對模型推理進行局部置信度評分,過濾掉弱推理軌跡,通常能在減少token消耗的同時提高準確率,無需額外訓練或調優。
為什么多數投票會遇到瓶頸
?并行思考采樣多個推理鏈并投票
?隨著樣本增加,準確率增長緩慢
?計算量線性擴展,收益趨于平緩
?這正是DeepConf要解決的痛點
圖片
置信度信號
圖片
Token置信度:每步前k個候選項的負平均對數概率,直接反映模型在該時刻的確定程度。
組置信度:在滑動窗口內平均token置信度,使得局部低谷可見,不被整條軌跡的噪聲掩蓋。
尾部置信度:對最后一段token進行平均,因為結束步驟決定最終答案,是好軌跡經常出錯的地方。
最低10%組置信度:查看軌跡中最差的部分,這是整體推理不穩定的強指標。
最低組置信度:選擇軌跡中單個最弱窗口,這是早期丟棄該軌跡的清晰門檻。
核心價值
DeepConf是一個即插即用的測試時壓縮方案,可以就地過濾或停止弱推理,讓團隊獲得更高準確率和大幅token削減,無需重新訓練或新的超參數。
離線模式:更智能的投票
DeepConf按置信度分數對軌跡排序,可選擇只保留前10%或前90%的高置信度軌跡后進行置信度加權多數投票。
結果對比:
?512條軌跡下,GPT-OSS-120B在AIME 2025上達到:
–99.9%(使用尾部或最低組置信度過濾的DeepConf)
–97.0%(普通投票)
–91.8%(pass@1)
在線模式:生成時早停
?16條軌跡的短暫預熱設置停止閾值s
?實時生成過程中,一旦最低組置信度低于s就立即停止該軌跡
?自適應采樣循環添加軌跡直到共識足夠高或達到預設預算(如512)
圖片
為什么局部優于全局
局部置信度能捕捉到模型猶豫或回退的短片段,而全局平均可能會隱藏這些問題,因為早期的高置信度文本會稀釋后期錯誤。
當模型對錯誤路徑過度自信時,保守的前90%過濾器降低風險,同時平均仍能擊敗或匹配普通投票。
實驗結果:
??? AIME 2025上99.9%準確率(vs 97%基線)
??? 5個模型×5個數據集上的通用提升
??? 所有設置下一致的~10%準確率提升
圖片
圖片
本文轉載自???????????AI帝國???????????,作者:無影寺

















