UC伯克利：讓推理模型少思考，準(zhǔn)確率反而更高了！

作者：量子位 2025-04-18 08:42:52

UC伯克利新研究發(fā)現(xiàn)，強(qiáng)制要求模型跳過思考過程，推理能力卻比正常思考還好。

讓推理模型不要思考，得到的結(jié)果反而更準(zhǔn)確？

UC伯克利新研究發(fā)現(xiàn)，強(qiáng)制要求模型跳過思考過程，推理能力卻比正常思考還好。

例如在定理證明任務(wù)當(dāng)中，“不思考”模式僅使用30%的Token，就能實(shí)現(xiàn)和完整思考一樣的準(zhǔn)確率。

特別是施加Token限制之后，“不思考”模式的效果變得更加明顯。

這究竟是怎么一回事呢？來看下UC伯克利發(fā)表的論文。

跳過思考，推理模型反而更強(qiáng)了

論文的研究目的，是比較顯式思考過程（Thinking）和跳過思考過程（NoThinking）的效果差異，并在不同約束條件下評(píng)估這兩種方法的表現(xiàn)。

研究使用DeepSeek-R1-Distill-Qwen-32B作為主要實(shí)驗(yàn)?zāi)Ｐ停撃Ｐ屯ㄟ^在Qwen-32B基礎(chǔ)上使用DeepSeek-R1生成的數(shù)據(jù)進(jìn)行蒸餾得到。

為了確保結(jié)果的可靠性，研究同時(shí)選擇了Qwen-32B-Instruct作為基線模型，并在7B和14B規(guī)模的相同架構(gòu)模型上進(jìn)行了驗(yàn)證實(shí)驗(yàn)。

在數(shù)據(jù)集的選擇上，研究力求全面覆蓋不同類型的推理任務(wù)：

在數(shù)學(xué)問題方面，既包含了AIME 2024、AIME 2025、AMC 2023等標(biāo)準(zhǔn)難度的測試集，也包含了更具挑戰(zhàn)性的OlympiadBench數(shù)學(xué)子集；
在編程能力評(píng)估方面，使用了持續(xù)更新的LiveCodeBench v2版本；
在定理證明領(lǐng)域，則通過MiniF2F測試形式化數(shù)學(xué)推理能力，通過ProofNet評(píng)估邏輯和定理證明能力。

實(shí)驗(yàn)首先進(jìn)行了基礎(chǔ)性能評(píng)估，也就是在不限制token的情況下比較三種方法的表現(xiàn)。研究團(tuán)隊(duì)詳細(xì)記錄了每種方法在不同k值下的pass@k性能表現(xiàn)和token使用量。

結(jié)果顯示，在無預(yù)算限制的情況下，NoThinking在定理證明任務(wù)上能夠以30%的token用量達(dá)到與Thinking相似的性能，兩種方法都明顯優(yōu)于基線模型。

在其他任務(wù)上，雖然NoThinking的初始pass@1性能較低，但隨著k值增加會(huì)逐漸追平Thinking的表現(xiàn)，同時(shí)token使用量減少

隨后，實(shí)驗(yàn)引入了預(yù)算強(qiáng)制，通過設(shè)置token限制來進(jìn)行對(duì)照實(shí)驗(yàn)。

具體來說，當(dāng)模型達(dá)到預(yù)設(shè)的token預(yù)算時(shí)，系統(tǒng)會(huì)強(qiáng)制其生成最終答案，如果此時(shí)模型仍在思考框內(nèi)，則會(huì)在最終答案標(biāo)簽前添加結(jié)束思考標(biāo)記。

研究分別在低預(yù)算（約3000tokens以下）和高預(yù)算（約3500tokens）兩種場景下進(jìn)行了詳細(xì)測試。

在預(yù)算受限的場景下，NoThinking在低預(yù)算情況下（<3000 tokens）完全優(yōu)于Thinking，這種優(yōu)勢(shì)會(huì)隨著k值的增加而擴(kuò)大。

在高預(yù)算場景下（~3500 tokens），盡管Thinking在pass@1上略有優(yōu)勢(shì)，NoThinking從k=2開始就展現(xiàn)出更好的性能。

在并行擴(kuò)展測試中，研究根據(jù)任務(wù)特性采用了不同的評(píng)估方法。

對(duì)于有完美驗(yàn)證器的任務(wù)（如形式定理證明），可以直接使用驗(yàn)證器選擇最佳答案，并詳細(xì)記錄延遲和token使用量；

對(duì)于沒有驗(yàn)證器的任務(wù)，研究實(shí)現(xiàn)了多數(shù)投票機(jī)制和基于置信度的選擇策略，通過實(shí)驗(yàn)比較了不同選擇策略的效果。

對(duì)于具有驗(yàn)證器的任務(wù)，NoThinking可以在將延遲降低至1/7、token使用量減少至1/4的同時(shí)，保持與傳統(tǒng)方法相似的準(zhǔn)確率。

在沒有驗(yàn)證器的任務(wù)中，比如AMC 2023和OlympiadBench，NoThinking甚至超越了完整版Thinking的表現(xiàn)，同時(shí)可將延遲降低至1/9。

為了避免實(shí)驗(yàn)結(jié)果受到數(shù)據(jù)污染的影響，研究團(tuán)隊(duì)專門使用了新發(fā)布的AIME 2025數(shù)據(jù)集進(jìn)行驗(yàn)證。

結(jié)果作者發(fā)現(xiàn)。相同的性能模式在新舊數(shù)據(jù)集上都能穩(wěn)定重現(xiàn)，這證實(shí)了研究發(fā)現(xiàn)反映了模型的真實(shí)行為特征。

Hacker News上，有人表示這項(xiàng)研究讓其對(duì)大模型的思考有了新的認(rèn)識(shí)：

過去我認(rèn)為大模型“思考”很有用，是因?yàn)樗梢园迅嗟母拍顜У缴舷挛漠?dāng)中，但現(xiàn)在看似乎不是？

還有人想到了Claude廠商Anthropic前些天發(fā)表的報(bào)告，其中指出大模型輸出的“思考過程”不一定代表其真實(shí)想法。

這份報(bào)告的實(shí)驗(yàn)發(fā)現(xiàn)，Claude 3.7 Sonnet僅在25%的情況下在其思維鏈中提及收到的提示信息，DeepSeek R1則為39%，意味著大多數(shù)情況下模型不會(huì)忠實(shí)反映其真實(shí)決策過程。

Anthropic的這份報(bào)告，引起了針對(duì)大模型“思考過程”的熱烈討論。

有人表示，思維鏈有效的關(guān)鍵是產(chǎn)生了更多用于“思考”的計(jì)算，但如果用它來展示模型工作過程，那只不過是額外的上下文。

但也有人認(rèn)為Anthropic的研究并沒有切中問題要害，因?yàn)槟Ｐ偷挠?xùn)練過程就是為了獲得正確答案而優(yōu)化，不能指望這樣的訓(xùn)練方式能夠讓模型準(zhǔn)確說出推理過程。

本論文第一作者是UC伯克利博士生馬文潔，導(dǎo)師是Matei Zaharia副教授和Sewon Min助理教授研究重點(diǎn)是理解和提升語言模型的推理能力，以及測試時(shí)計(jì)算。

馬文潔本科畢業(yè)于南京大學(xué)計(jì)算機(jī)學(xué)院，期間曾參加該學(xué)院的PASCAL（編程語言與統(tǒng)計(jì)分析）研究組。

另一名華人作者何靜軒，目前在UC伯克利從事博士后研究，研究興趣為機(jī)器學(xué)習(xí)和計(jì)算機(jī)安全，合作導(dǎo)師是宋曉冬（Dawn Song）教授。

何靜軒博士和本科分別畢業(yè)于蘇黎世聯(lián)邦理工學(xué)院和浙江大學(xué)。

另外，UC伯克利博士生Charlie Snell、Tyler Griggs，以及一作馬文潔的兩名導(dǎo)師也參與了此項(xiàng)研究。

責(zé)任編輯：張燕妮來源：量子位