Meta新方法DeepConf:大模型推理的 “笨毛病” 治好了!少寫一半內(nèi)容,還更準(zhǔn)
最近我在整理大模型數(shù)學(xué)推理的實(shí)驗(yàn)數(shù)據(jù)時(shí),發(fā)現(xiàn)一個(gè)特別“離譜”的現(xiàn)象:為了讓AI解對一道AIME(美國數(shù)學(xué)邀請賽,難度接近奧數(shù))題目,我們得讓它生成512條完整的解題思路,最后再用“少數(shù)服從多數(shù)”的方式投票選答案。這就像請512個(gè)學(xué)生做同一道題,不管有人寫得顛三倒四、有人明顯算錯(cuò),你都得把所有答卷看完——既浪費(fèi)時(shí)間,又耗“筆墨”(對應(yīng)AI的token生成量),最后正確率還卡在97%上不去。

直到讀到Meta AI和UCSD團(tuán)隊(duì)剛發(fā)布的《Deep Think with Confidence》論文,我才突然意識到:原來大模型推理不用“笨辦法堆數(shù)量”,只要給它裝個(gè)“信心篩選器”,就能讓它只保留靠譜的思路,不僅正確率飆到99.9%,還能少生成84%的內(nèi)容。今天就從研究員的視角,用最接地氣的方式跟大家聊聊這個(gè)“讓AI變聰明又省錢”的新方法。
我們解讀最新技術(shù),文末有相關(guān)信息。

先搞懂:傳統(tǒng)AI推理為啥這么“笨”?
在講DeepConf之前,得先說說我們之前是怎么讓AI“思考”的——核心方法叫“自一致性(Self-Consistency)”,簡單說就是“多想幾條路,最后投票”。比如AI解一道數(shù)學(xué)題,不是只寫1種步驟,而是生成100條不同的解題思路,然后看哪個(gè)答案出現(xiàn)次數(shù)最多,就選哪個(gè)。
這個(gè)方法確實(shí)比“只想一次”準(zhǔn),但用多了就會發(fā)現(xiàn)三個(gè)“笨毛病”,我給它們起了個(gè)通俗的名字:
1. “雨露均沾”的糊涂賬:壞答案也有投票權(quán)
傳統(tǒng)方法把所有解題思路“一視同仁”,不管這條思路里有沒有明顯的計(jì)算錯(cuò)誤(比如把2+3算成6),或者邏輯斷層(突然從“勾股定理”跳到“微積分”),它的投票權(quán)都和靠譜思路一樣。這就像公司開決策會,不管員工說的是深思熟慮的方案,還是隨口瞎猜的想法,都算一票——最后很可能被錯(cuò)誤觀點(diǎn)帶偏。
2. “一條道走到黑”的死心眼:必須寫完才知道好不好
要判斷一條思路靠譜不靠譜,傳統(tǒng)方法得等AI把整段話寫完才行。就像你看一部電影,明明前30分鐘就知道是爛片,卻非要硬著頭皮看到結(jié)尾才敢評價(jià)——AI生成那些明顯錯(cuò)了的思路時(shí),也是這樣“硬寫到底”,白白浪費(fèi)了大量token(相當(dāng)于寫文章的字?jǐn)?shù))。
3. “越多越不香”的怪圈:加量不加質(zhì)
當(dāng)思路數(shù)量超過一定閾值(比如200條)后,再增加數(shù)量,正確率幾乎不漲了,甚至?xí)陆怠_@就像你為了背單詞,每天從100個(gè)加到500個(gè),最后發(fā)現(xiàn)多背的400個(gè)全是混個(gè)臉熟,反而讓你記不住核心單詞——AI多生成的思路,很多是重復(fù)或錯(cuò)誤的,反而拉低了投票質(zhì)量。
我們團(tuán)隊(duì)之前也試過優(yōu)化這些問題,比如給思路打分,但總盯著“整體質(zhì)量”(比如整段話的流暢度),效果一直不好。直到看到DeepConf,才發(fā)現(xiàn)問題出在:我們該看“局部信心”,而不是“整體印象”。
DeepConf的核心:給AI裝個(gè)“信心溫度計(jì)”
DeepConf的本質(zhì),就是給AI加了一套“實(shí)時(shí)信心監(jiān)測系統(tǒng)”——就像醫(yī)生給病人裝心率監(jiān)測儀,不用等病人出問題,從實(shí)時(shí)數(shù)據(jù)里就能判斷健康狀況。這套系統(tǒng)的核心,是三個(gè)“接地氣”的信心指標(biāo),我一個(gè)個(gè)給你掰開說:
1. 最基礎(chǔ)的“token信心”:AI每寫一個(gè)詞的“篤定度”
大模型生成內(nèi)容時(shí),每一個(gè)詞(比如“因?yàn)椤薄八浴薄?23”)背后,都有一個(gè)“概率值”——表示它覺得這個(gè)詞“該不該出現(xiàn)在這”。比如AI寫“勾股定理的公式是a2+b2=c2”時(shí),對“a2+b2=c2”的概率判斷很高,那“token信心”就高;如果它寫“勾股定理的公式是a3+b3=c3”,自己都覺得概率低,“token信心”就低。
這就像學(xué)生寫作業(yè):遇到會的題,寫每一步都很篤定(比如“2×3=6”);遇到不會的題,寫的時(shí)候就會猶豫(比如“2×3=…好像是5?”)——“token信心”就是把這種“篤定感”量化成了一個(gè)指標(biāo)。
2. 更實(shí)用的“組信心”:看一段思路的“整體穩(wěn)度”
光看單個(gè)詞的信心不夠——比如AI可能某一步寫對了,但前后邏輯斷了。所以DeepConf設(shè)計(jì)了“組信心”:把AI寫的內(nèi)容切成一個(gè)個(gè)“滑動窗口”(比如每2048個(gè)詞一組),算每組的平均信心。
這就像老師改卷:不會只看學(xué)生寫的某一個(gè)公式對不對,而是看“連續(xù)10步解題過程”有沒有猶豫——如果這10步都很篤定,說明思路沒走偏;如果中間突然出現(xiàn)好幾步“不確定”(比如反復(fù)寫“等等,我再想想”“可能算錯(cuò)了”),那這組的信心就低,整段思路大概率有問題。
3. 最關(guān)鍵的“尾部信心”:最后幾步不能“掉鏈子”
數(shù)學(xué)題有個(gè)特點(diǎn):前面步驟再對,最后一步算錯(cuò)了,整個(gè)題就白搭。DeepConf專門設(shè)計(jì)了“尾部信心”——只看AI解題思路的最后一段(比如最后2048個(gè)詞)的信心。
這就像跑步比賽:前面跑得多快不重要,沖刺階段不能減速——如果AI在寫“最終答案是109”之前,幾步都很猶豫,那就算前面思路再順,最后答案也可能錯(cuò);反之,如果最后幾步篤定,那正確率就高得多。
我當(dāng)時(shí)看到這三個(gè)指標(biāo)時(shí),第一反應(yīng)是“怎么沒想到”——之前我們總盯著“整段思路的信心”,就像用望遠(yuǎn)鏡看全貌,卻忽略了“局部細(xì)節(jié)的異常”。而DeepConf恰恰抓住了:AI的錯(cuò)誤,往往藏在“某一段猶豫的步驟”或“最后幾步的掉鏈子”里。
兩種模式:離線“挑最優(yōu)”,在線“實(shí)時(shí)喊停”
有了“信心溫度計(jì)”,DeepConf分兩種場景用——離線和在線,就像“賽后復(fù)盤”和“實(shí)時(shí)比賽”,各有各的妙處。
1. 離線模式:先寫滿答卷,再挑最靠譜的“尖子生”
離線模式適合“不著急要答案,但要極致正確率”的場景——比如AI批奧數(shù)卷、做科研推理。流程很簡單:
圖片
第一步,先讓AI生成足夠多的解題思路(比如512條),就像老師讓全班學(xué)生都交卷;第二步,用前面說的“組信心”“尾部信心”給每條思路打分,然后“掐尖”——比如只保留前10%信心最高的思路(相當(dāng)于只看班里前10名的答卷);第三步,給這些“尖子生思路”加權(quán)投票——信心越高的思路,投票權(quán)越大,最后選得票最高的答案。
我們之前做實(shí)驗(yàn)時(shí),用GPT-OSS-120B解AIME 2025的題,傳統(tǒng)方法512條思路正確率97%,而DeepConf只選前10%的思路,正確率直接飆到99.9%——相當(dāng)于以前要改512份卷,現(xiàn)在改51份,還幾乎全對。

這里最讓我驚訝的是“尾部信心”的效果:有次我們發(fā)現(xiàn),某條思路前面2000步都很順,但最后200步信心驟降,答案果然錯(cuò)了;而另一條思路前面有點(diǎn)磕絆,但最后幾步信心拉滿,答案就對了。這就像考試時(shí),有人前面寫得快但最后粗心,有人前面慢但最后仔細(xì)——最后分?jǐn)?shù)往往看后者。
2. 在線模式:寫著寫著不對勁?立馬停!
在線模式更實(shí)用——比如AI客服實(shí)時(shí)回復(fù)、實(shí)時(shí)解題助手,要的是“又快又準(zhǔn)”,不能等AI寫一大堆再篩選。DeepConf的在線模式,就像“實(shí)時(shí)監(jiān)考老師”,發(fā)現(xiàn)學(xué)生寫偏了就及時(shí)喊停:

第一步,先讓AI寫16條“熱身思路”(叫“離線預(yù)熱”),用這些思路定一個(gè)“信心閾值”——比如前10%靠譜思路的最低信心是17,那閾值就設(shè)17;第二步,AI開始實(shí)時(shí)生成新思路,每寫一段就算“組信心”——如果組信心低于17,說明思路偏了,立馬停筆,不用再寫下去;第三步,邊生成邊投票:如果當(dāng)前靠譜思路的答案已經(jīng)高度一致(比如95%都選109),不管有沒有寫到512條,直接停——因?yàn)樵賹懸膊粫岣哒_率了。

我們在Qwen3-32B上做實(shí)驗(yàn),解AIME 2025的題,傳統(tǒng)方法要生成2.43億個(gè)token,而DeepConf在線模式只生成1.14億個(gè)——少寫了52.9%的內(nèi)容,正確率還和傳統(tǒng)方法一樣。更夸張的是GPT-OSS-120B,直接少寫84.7%的token,正確率反而從97.1%漲到97.9%。
這就像你跟朋友微信聊天:如果朋友問“明天要不要去吃飯”,你不用寫一篇小作文解釋“我明天上午有會、下午要陪家人、所以不能去”,而是直接說“明天有事,不去啦”——既清楚又省時(shí)間,AI也是一樣。
為什么說DeepConf是“接地氣的創(chuàng)新”?
看論文時(shí),我最佩服的不是它的數(shù)學(xué)公式多復(fù)雜,而是它的“實(shí)用性”——沒有搞花里胡哨的新模型,只是在現(xiàn)有大模型上加了個(gè)“篩選器”,卻解決了大問題。它的優(yōu)勢總結(jié)起來有三個(gè)“不用”:
1. 不用額外訓(xùn)練:拿過來就能用
很多大模型優(yōu)化方法需要“再訓(xùn)練”——比如給模型喂新數(shù)據(jù),調(diào)一堆參數(shù)。但DeepConf完全不用,不管是Qwen3、GPT-OSS還是DeepSeek,直接接在現(xiàn)有模型上就能跑,就像給手機(jī)裝個(gè)新APP,不用換手機(jī)本身。
我們團(tuán)隊(duì)試過把DeepConf接在公司內(nèi)部的7B小模型上,不用改一行模型代碼,解數(shù)學(xué)題的正確率直接漲了8%,token用量少了40%——對中小企業(yè)來說,這意味著“不用花大價(jià)錢訓(xùn)模型,也能提升AI能力”。
2. 不用調(diào)復(fù)雜參數(shù):閾值一次定好
很多方法需要調(diào)一堆“超參數(shù)”——比如窗口大小、學(xué)習(xí)率,調(diào)不對效果就差。但DeepConf的參數(shù)很少,比如“組信心”的窗口大小設(shè)2048,“預(yù)熱思路”設(shè)16條,幾乎不用改,換個(gè)任務(wù)也能直接用。
這就像家里的微波爐:不用每次加熱都調(diào)功率、時(shí)間,選“加熱剩飯”模式就行——DeepConf把復(fù)雜的參數(shù)藏在背后,用戶只用管“要正確率”還是“要速度”。
3. 不用犧牲效果換效率:又快又準(zhǔn)
以前我們優(yōu)化AI效率,總逃不開“兩難”:要快就得多砍內(nèi)容,正確率下降;要準(zhǔn)就得多寫內(nèi)容,速度變慢。但DeepConf打破了這個(gè)平衡——它不是“砍內(nèi)容”,而是“砍壞內(nèi)容”,留下的都是靠譜的,所以既快又準(zhǔn)。
就像榨果汁:以前是不管好果壞果都榨,最后過濾掉渣;DeepConf是先把壞果挑出去,再榨好果——既省時(shí)間,果汁還更純。
未來能幫我們做什么?還有哪些小遺憾?
先說說好消息:這些場景馬上能受益
DeepConf不是“實(shí)驗(yàn)室里的技術(shù)”,而是很快能落地的那種。我梳理了幾個(gè)最有潛力的場景:
1. AI解題助手:比如給學(xué)生用的奧數(shù)APP,以前AI要等幾秒才能出答案,現(xiàn)在能實(shí)時(shí)出,還能標(biāo)出“最靠譜的解題步驟”,不會給一堆混亂的思路;
2. 代碼生成工具:程序員用AI寫代碼時(shí),AI不用生成10種方案再選,而是直接生成2-3種高信心方案,還能避免“寫一半發(fā)現(xiàn)邏輯錯(cuò)了”的情況;
3. 客服AI:比如電商客服回復(fù)用戶“退款流程”,AI不用寫一大段繞彎子的話,而是用高信心的簡潔步驟,用戶看得懂,客服系統(tǒng)也省資源。
再說說小遺憾:還有哪些坑要填
作為研究員,我得客觀說:DeepConf不是“萬能藥”,還有兩個(gè)小問題要解決:
1. “自信地犯錯(cuò)”怎么辦? 有時(shí)候AI會“篤定地寫錯(cuò)題”——比如把“勾股定理”記錯(cuò)了,卻每一步都很有信心,這時(shí)候DeepConf反而會把它當(dāng)成“靠譜思路”。這就像有人堅(jiān)信“1+1=3”,說得越肯定,越容易誤導(dǎo)人。未來可能需要結(jié)合“外部知識校驗(yàn)”(比如讓AI查一下勾股定理的正確公式)來解決;
2. 不同任務(wù)的閾值不好統(tǒng)一:解數(shù)學(xué)題的“信心閾值”是17,寫文案的閾值可能就是15,現(xiàn)在還得針對不同任務(wù)調(diào)閾值,沒法“一勞永逸”。未來可能需要讓AI自己學(xué)“不同任務(wù)的信心標(biāo)準(zhǔn)”,不用人來調(diào)。
結(jié)尾:從“大力出奇跡”到“精準(zhǔn)發(fā)力”
讀這篇論文時(shí),我最大的感受是:大模型的發(fā)展,已經(jīng)從“堆參數(shù)、堆數(shù)據(jù)”的粗放階段,進(jìn)入“摳效率、摳細(xì)節(jié)”的精細(xì)階段了。以前我們覺得“AI做得不好,就給它更多資源”,現(xiàn)在發(fā)現(xiàn)“AI做得不好,可能是沒給它找對方向”。
DeepConf的核心價(jià)值,不是發(fā)明了新的數(shù)學(xué)公式,而是換了個(gè)思路:與其讓AI“瞎想一堆”,不如讓它“想清楚再寫”。這就像我們做人做事,與其貪多求全,不如專注把靠譜的事做好——AI的“聰明”,其實(shí)和人的“聰明”,在底層邏輯上是相通的。
最后想問大家:你有沒有遇到過AI回復(fù)“又慢又啰嗦”的情況?如果AI能像DeepConf這樣“精準(zhǔn)發(fā)力”,你覺得哪些場景最受益?歡迎在評論區(qū)聊聊你的想法。
參考資料
1. 標(biāo)題:Deep Think with Confidence
2. 作者:Yichao Fu (UCSD), Xuewei Wang (Meta AI), Yuandong Tian (Meta AI), Jiawei Zhao (Meta AI)
3. 鏈接:https://arxiv.org/pdf/2508.15260
4. 主頁:https://jiaweizzhao.github.io/deepconf
本文轉(zhuǎn)載自??旺知識??,作者:旺知識

















