精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UC伯克利:讓推理模型少思考,準(zhǔn)確率反而更高了!

人工智能 新聞
UC伯克利新研究發(fā)現(xiàn),強(qiáng)制要求模型跳過思考過程,推理能力卻比正常思考還好。

讓推理模型不要思考,得到的結(jié)果反而更準(zhǔn)確?

UC伯克利新研究發(fā)現(xiàn),強(qiáng)制要求模型跳過思考過程,推理能力卻比正常思考還好。

例如在定理證明任務(wù)當(dāng)中,“不思考”模式僅使用30%的Token,就能實(shí)現(xiàn)和完整思考一樣的準(zhǔn)確率。

圖片

特別是施加Token限制之后,“不思考”模式的效果變得更加明顯。

圖片

這究竟是怎么一回事呢?來看下UC伯克利發(fā)表的論文。

跳過思考,推理模型反而更強(qiáng)了

論文的研究目的,是比較顯式思考過程(Thinking)和跳過思考過程(NoThinking)的效果差異,并在不同約束條件下評(píng)估這兩種方法的表現(xiàn)。

圖片

研究使用DeepSeek-R1-Distill-Qwen-32B作為主要實(shí)驗(yàn)?zāi)P停撃P屯ㄟ^在Qwen-32B基礎(chǔ)上使用DeepSeek-R1生成的數(shù)據(jù)進(jìn)行蒸餾得到。

為了確保結(jié)果的可靠性,研究同時(shí)選擇了Qwen-32B-Instruct作為基線模型,并在7B和14B規(guī)模的相同架構(gòu)模型上進(jìn)行了驗(yàn)證實(shí)驗(yàn)。

在數(shù)據(jù)集的選擇上,研究力求全面覆蓋不同類型的推理任務(wù):

  • 在數(shù)學(xué)問題方面,既包含了AIME 2024、AIME 2025、AMC 2023等標(biāo)準(zhǔn)難度的測試集,也包含了更具挑戰(zhàn)性的OlympiadBench數(shù)學(xué)子集;
  • 在編程能力評(píng)估方面,使用了持續(xù)更新的LiveCodeBench v2版本;
  • 在定理證明領(lǐng)域,則通過MiniF2F測試形式化數(shù)學(xué)推理能力,通過ProofNet評(píng)估邏輯和定理證明能力。

實(shí)驗(yàn)首先進(jìn)行了基礎(chǔ)性能評(píng)估,也就是在不限制token的情況下比較三種方法的表現(xiàn)。研究團(tuán)隊(duì)詳細(xì)記錄了每種方法在不同k值下的pass@k性能表現(xiàn)和token使用量。

結(jié)果顯示,在無預(yù)算限制的情況下,NoThinking在定理證明任務(wù)上能夠以30%的token用量達(dá)到與Thinking相似的性能,兩種方法都明顯優(yōu)于基線模型。

在其他任務(wù)上,雖然NoThinking的初始pass@1性能較低,但隨著k值增加會(huì)逐漸追平Thinking的表現(xiàn),同時(shí)token使用量減少

圖片

隨后,實(shí)驗(yàn)引入了預(yù)算強(qiáng)制,通過設(shè)置token限制來進(jìn)行對(duì)照實(shí)驗(yàn)。

具體來說,當(dāng)模型達(dá)到預(yù)設(shè)的token預(yù)算時(shí),系統(tǒng)會(huì)強(qiáng)制其生成最終答案,如果此時(shí)模型仍在思考框內(nèi),則會(huì)在最終答案標(biāo)簽前添加結(jié)束思考標(biāo)記。

研究分別在低預(yù)算(約3000tokens以下)和高預(yù)算(約3500tokens)兩種場景下進(jìn)行了詳細(xì)測試。

在預(yù)算受限的場景下,NoThinking在低預(yù)算情況下(<3000 tokens)完全優(yōu)于Thinking,這種優(yōu)勢(shì)會(huì)隨著k值的增加而擴(kuò)大。

在高預(yù)算場景下(~3500 tokens),盡管Thinking在pass@1上略有優(yōu)勢(shì),NoThinking從k=2開始就展現(xiàn)出更好的性能。

圖片

在并行擴(kuò)展測試中,研究根據(jù)任務(wù)特性采用了不同的評(píng)估方法。

對(duì)于有完美驗(yàn)證器的任務(wù)(如形式定理證明),可以直接使用驗(yàn)證器選擇最佳答案,并詳細(xì)記錄延遲和token使用量;

對(duì)于沒有驗(yàn)證器的任務(wù),研究實(shí)現(xiàn)了多數(shù)投票機(jī)制和基于置信度的選擇策略,通過實(shí)驗(yàn)比較了不同選擇策略的效果。

對(duì)于具有驗(yàn)證器的任務(wù),NoThinking可以在將延遲降低至1/7、token使用量減少至1/4的同時(shí),保持與傳統(tǒng)方法相似的準(zhǔn)確率。

在沒有驗(yàn)證器的任務(wù)中,比如AMC 2023和OlympiadBench,NoThinking甚至超越了完整版Thinking的表現(xiàn),同時(shí)可將延遲降低至1/9。

圖片

為了避免實(shí)驗(yàn)結(jié)果受到數(shù)據(jù)污染的影響,研究團(tuán)隊(duì)專門使用了新發(fā)布的AIME 2025數(shù)據(jù)集進(jìn)行驗(yàn)證。

結(jié)果作者發(fā)現(xiàn)。相同的性能模式在新舊數(shù)據(jù)集上都能穩(wěn)定重現(xiàn),這證實(shí)了研究發(fā)現(xiàn)反映了模型的真實(shí)行為特征。

大模型“思考過程”引熱議

Hacker News上,有人表示這項(xiàng)研究讓其對(duì)大模型的思考有了新的認(rèn)識(shí):

過去我認(rèn)為大模型“思考”很有用,是因?yàn)樗梢园迅嗟母拍顜У缴舷挛漠?dāng)中,但現(xiàn)在看似乎不是?

圖片

還有人想到了Claude廠商Anthropic前些天發(fā)表的報(bào)告,其中指出大模型輸出的“思考過程”不一定代表其真實(shí)想法。

圖片

這份報(bào)告的實(shí)驗(yàn)發(fā)現(xiàn),Claude 3.7 Sonnet僅在25%的情況下在其思維鏈中提及收到的提示信息,DeepSeek R1則為39%,意味著大多數(shù)情況下模型不會(huì)忠實(shí)反映其真實(shí)決策過程。

Anthropic的這份報(bào)告,引起了針對(duì)大模型“思考過程”的熱烈討論。

有人表示,思維鏈有效的關(guān)鍵是產(chǎn)生了更多用于“思考”的計(jì)算,但如果用它來展示模型工作過程,那只不過是額外的上下文。

圖片

但也有人認(rèn)為Anthropic的研究并沒有切中問題要害,因?yàn)槟P偷挠?xùn)練過程就是為了獲得正確答案而優(yōu)化,不能指望這樣的訓(xùn)練方式能夠讓模型準(zhǔn)確說出推理過程。

圖片

作者簡介

本論文第一作者是UC伯克利博士生馬文潔,導(dǎo)師是Matei Zaharia副教授和Sewon Min助理教授研究重點(diǎn)是理解和提升語言模型的推理能力,以及測試時(shí)計(jì)算。

馬文潔本科畢業(yè)于南京大學(xué)計(jì)算機(jī)學(xué)院,期間曾參加該學(xué)院的PASCAL(編程語言與統(tǒng)計(jì)分析)研究組。

另一名華人作者何靜軒,目前在UC伯克利從事博士后研究,研究興趣為機(jī)器學(xué)習(xí)和計(jì)算機(jī)安全,合作導(dǎo)師是宋曉冬(Dawn Song)教授。

何靜軒博士和本科分別畢業(yè)于蘇黎世聯(lián)邦理工學(xué)院和浙江大學(xué)。

另外,UC伯克利博士生Charlie Snell、Tyler Griggs,以及一作馬文潔的兩名導(dǎo)師也參與了此項(xiàng)研究。

圖片

論文地址:
https://arxiv.org/abs/2504.09858

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-30 09:09:00

2025-04-21 08:52:00

大語言模型生成AI

2025-07-03 09:49:43

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2023-04-07 09:28:31

模型訓(xùn)練

2023-05-04 14:55:02

模型AI

2023-12-04 18:56:03

AI模型

2023-08-05 13:45:46

模型AI

2025-04-10 10:02:43

2025-01-13 00:00:00

訓(xùn)練數(shù)據(jù)模型

2025-01-22 15:21:00

2025-06-03 08:38:00

2023-12-04 13:52:00

模型數(shù)據(jù)

2024-09-23 14:46:27

2024-12-02 08:20:00

2023-12-25 09:23:07

模型技術(shù)

2024-11-26 13:40:00

2023-04-04 13:17:00

GPUCMU開源

2023-11-14 07:47:42

IGN擴(kuò)散模型

2023-10-26 08:40:15

模型隱私推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美精品乱人伦久久久久久| 国产精品福利在线播放| 97超碰国产精品女人人人爽| 成人免费无码大片a毛片| 日韩理论视频| 欧美国产精品久久| 国产精品v欧美精品∨日韩| 亚洲图片在线视频| 天天射成人网| 日韩高清免费观看| 亚洲男人天堂av在线| 国模私拍视频在线播放| 91麻豆视频网站| 国产专区欧美专区| 黄色大片网站在线观看| 91精品国产麻豆国产在线观看| 精品国产一区二区三区忘忧草| 国产裸体舞一区二区三区| 国产精品剧情一区二区在线观看| 91丨九色丨国产丨porny| 91午夜理伦私人影院| 在线天堂中文字幕| 好看的日韩av电影| www.日韩欧美| 亚洲精品国产精品国自产网站| 超碰97久久国产精品牛牛| 欧美在线色视频| 日韩在线综合网| av在线影院| 国产精品日韩成人| 欧美精品一区二区三区四区五区 | 黑人一区二区三区四区五区| 亚洲日本欧美日韩高观看| 91九色蝌蚪porny| 国产95亚洲| 精品视频色一区| av免费网站观看| 黄色软件视频在线观看| 亚洲一区影音先锋| 神马午夜伦理影院| 黄色av电影在线观看| 国产日产亚洲精品系列| 欧美日韩国产三区| 日韩资源在线| 91免费看`日韩一区二区| 99在线首页视频| 国产av精国产传媒| 国产真实乱偷精品视频免| 国产精品久久视频| 国语对白做受69按摩| 久久婷婷丁香| 日本一区二区在线播放| 久热这里只有精品6| 亚洲精选在线| 久久久在线视频| 国产无套粉嫩白浆内谢| 极品中文字幕一区| 欧美激情一区二区三区在线视频观看 | 一级特黄免费视频| 轻轻草成人在线| 国产精品美女主播| 亚洲综合免费视频| 韩国理伦片一区二区三区在线播放| 国产日韩精品在线| 亚洲综合精品在线| 国模大尺度一区二区三区| 亚洲影影院av| 亚洲女同志亚洲女同女播放| 国产精品综合网| 国产精品av一区| 三级在线视频| 中文字幕第一区二区| 中文字幕在线亚洲精品| 一二三四区在线观看| 亚洲午夜电影在线| 日韩av片在线看| 成人影院在线免费观看| 欧美高清视频一二三区 | 91视频国产观看| 涩涩涩999| 97超碰在线公开在线看免费| 亚洲国产人成综合网站| 黄色片视频在线免费观看| 午夜激情成人网| 91精品久久久久久久91蜜桃| 91人妻一区二区| 一区二区美女| 久久香蕉频线观| 91porny在线| 精品亚洲免费视频| 国产一区二区不卡视频| 成人亚洲综合天堂| 亚洲色大成网站www久久九九| 久草视频这里只有精品| 惠美惠精品网| 91精品久久久久久久久99蜜臂| 在线免费观看污视频| 三级电影一区| 97人人做人人爱| 一级淫片免费看| 成人视屏免费看| 日韩黄色影视| 丁香花视频在线观看| 欧美日韩日本视频| 免费的av网站| 综合天堂av久久久久久久| 欧美一级视频一区二区| 国产av一区二区三区精品| 91蜜桃视频在线| 免费cad大片在线观看| 欧美人与性动交xxⅹxx| 日韩精品一区二区三区视频 | 成人精品影院| 97精品久久久| 国产成a人亚洲精v品无码 | 欧美尤物一区| 99在线视频影院| 欧美丰满一区二区免费视频| 欧美丰满少妇人妻精品| 亚洲欧美伊人| 国产日韩在线精品av| 熟妇人妻中文av无码| 中文字幕一区av| 成年人免费大片| 9l视频自拍九色9l视频成人| 啊v视频在线一区二区三区| 在线观看国产亚洲| 国产成人免费视频网站高清观看视频| 色噜噜狠狠色综合网| 人在线成免费视频| 精品日韩在线观看| 国产稀缺精品盗摄盗拍| 日韩av一区二区在线影视| 精品一区二区久久久久久久网站| gogo在线观看| 69堂成人精品免费视频| 日本一区二区视频在线播放| 乱人伦精品视频在线观看| 国产一级精品aaaaa看| 久久av色综合| 欧美一区二区三区免费大片| 久久嫩草捆绑紧缚| 免费精品视频在线| 亚洲自拍三区| 色综合视频一区二区三区44| 在线观看成人黄色| 天堂免费在线视频| 国产精品久久久久久久久免费桃花| 女人另类性混交zo| 国产成人黄色| 国产精品九九九| 九色网友自拍视频手机在线| 日韩欧美aaa| 日韩人妻无码一区二区三区| 国产欧美日韩综合一区在线播放 | 亚洲国产综合91精品麻豆| 成人三级做爰av| 在线看片一区| 久久久久综合一区二区三区| 日韩大尺度黄色| 伊人久久五月天| ,亚洲人成毛片在线播放| 亚洲欧洲av在线| 中文字幕第一页在线视频| 亚洲二区三区不卡| 国产91社区| 国产中文在线播放| 国产亚洲欧美日韩美女| 在线观看视频二区| 亚洲人成网站在线| 日本久久久久久久久久| 模特精品在线| 亚洲国产精品综合| 嫩呦国产一区二区三区av| 欧美激情在线一区| 日韩国产福利| 欧美日韩高清在线| 欧美日韩成人免费观看| av一本久道久久综合久久鬼色| 凹凸国产熟女精品视频| 久久国产影院| 国产伦理一区二区三区| 91精品韩国| 欧美大片欧美激情性色a∨久久| 欧洲成人一区二区三区| 91国偷自产一区二区开放时间| 国产亚洲精品久久久久久豆腐| 粉嫩蜜臀av国产精品网站| 91看片就是不一样| 一区二区蜜桃| 免费成人深夜夜行视频| 亚洲欧美久久精品| 欧美全黄视频| 97视频热人人精品| 自由日本语热亚洲人| 精品国产一区久久久| 高清一区二区三区四区| 欧美亚洲动漫精品| 日韩黄色a级片| 国产精品青草久久| 日本三级日本三级日本三级极| 日韩电影在线观看网站| 成年在线观看视频| 欧美亚洲国产激情| 国产美女99p| 激情久久一区二区| 69国产精品成人在线播放| 欧美天天影院| 国产午夜精品免费一区二区三区 | 日韩中文在线字幕| 久久不见久久见免费视频7| 91视频99| 亚洲国产91视频| 欧洲s码亚洲m码精品一区| 亚洲图区一区| 日韩亚洲精品视频| 欧美扣逼视频| 欧美精品一区二区不卡| 国产精品自产拍| 在线观看视频一区二区欧美日韩| 国产主播在线观看| 亚洲欧美日韩综合aⅴ视频| 在哪里可以看毛片| 99热99精品| 激情综合激情五月| 国产一区福利在线| 亚洲天堂国产视频| 免费亚洲电影在线| 蜜臀av午夜一区二区三区| 在线不卡欧美| 日韩成人三级视频| 女人色偷偷aa久久天堂| 亚洲欧美国产不卡| 成人精品视频| 色乱码一区二区三在线看| 日韩黄色网络| 精品免费一区二区三区蜜桃| 白嫩白嫩国产精品| 99视频免费观看蜜桃视频| 国产高清日韩| 成人性生交xxxxx网站| 亚洲老司机网| 欧美午夜在线观看| 91专区在线观看| 国内精品久久久久久久影视蜜臀| 97超碰人人爱| 影音先锋成人在线电影| 中文字幕中文字幕在线中一区高清 | 丁香花在线影院| 久久久免费av| ****av在线网毛片| 97在线免费观看| 天堂av中文在线观看| 456国产精品| 国产综合色区在线观看| 国产成人综合久久| 丁香婷婷久久| 91久久在线播放| 欧洲大片精品免费永久看nba| 7777精品久久久大香线蕉小说| 亚洲精品a区| 国产精品裸体一区二区三区| 欧洲vs亚洲vs国产| 日本黑人久久| 日韩情爱电影在线观看| 2025韩国大尺度电影| 午夜日韩激情| 欧美黑人经典片免费观看| 蜜桃av综合| 男人的天堂最新网址| 国产高清不卡二三区| 香蕉视频污视频| 久久新电视剧免费观看| 精品人体无码一区二区三区| 国产精品精品国产色婷婷| 麻豆国产尤物av尤物在线观看| 婷婷激情综合网| 小泽玛利亚一区二区三区视频| 欧美美女激情18p| www国产在线| 亚洲欧美日韩中文视频| 日本美女在线中文版| 欧美黄色成人网| 欧美二三四区| 亚洲自拍小视频| 四虎5151久久欧美毛片| 伊人狠狠色丁香综合尤物| 欧美亚韩一区| 无码少妇一区二区三区芒果| 韩国视频一区二区| 超碰男人的天堂| 亚洲天天做日日做天天谢日日欢| 国产真人真事毛片| 欧美日韩国产一级| 五十路在线视频| www.亚洲一区| 在线人成日本视频| 亚洲一区二区三| 岛国在线视频免费看| 最新日韩av在线| 九九热精彩视频| 欧美性一区二区| 婷婷色在线观看| 精品国内自产拍在线观看| 国产污视频在线播放| 91精品视频网站| 久草成人资源| 黄色一级片黄色| 久久99热99| 一区二区三区伦理片| 亚洲1区2区3区视频| 国产又大又粗又硬| 国产一区二区三区精品久久久| 黄网在线免费看| 91九色综合久久| 欧美日韩激情在线一区二区三区| 日韩av新片网| 国产精品亚洲午夜一区二区三区| 一色道久久88加勒比一| 午夜久久久久久久久久一区二区| 97超碰人人草| 国产一区二区三区在线观看网站| av影片在线| 99re视频在线| 66久久国产| 天天操,天天操| 久久久久亚洲蜜桃| 日日噜噜噜噜人人爽亚洲精品| 欧美哺乳videos| 在线免费观看a视频| 成人网页在线免费观看| 青青草97国产精品麻豆| 日韩中文字幕二区| 91麻豆国产自产在线观看| 日本少妇毛茸茸高潮| 日韩欧美一卡二卡| 91精品久久| 91久久大香伊蕉在人线| 久久精品青草| 欧美又黄又嫩大片a级| 成人免费在线观看入口| 中文字幕一区二区人妻| 最近2019年手机中文字幕| 韩日精品一区| 亚洲午夜精品福利| 麻豆国产精品一区二区三区 | 人妻无码中文字幕| 国内精品小视频| 欧美顶级毛片在线播放| 黄色一级在线视频| 久久综合九色综合久久久精品综合 | 青青草娱乐在线| 青青久久aⅴ北条麻妃| 精品一区毛片| 国产免费视频传媒| 国产精品伦一区二区三级视频| 中国一区二区视频| 久久精品国产亚洲| 亚洲一区二区电影| 毛片在线播放视频| 久久久久久综合| 一级黄色大毛片| 波多野结衣在线aⅴ中文字幕不卡| 亚洲激情视频小说| 日本道免费精品一区二区三区| 岛国大片在线观看| 国产又爽又黄的激情精品视频| 一区二区三区网站| 久久国产劲爆∧v内射| 日韩欧美国产免费播放| 99精品老司机免费视频| 成人免费在线视频网站| 黄色亚洲免费| 欧美色图亚洲激情| 欧美日韩在线综合| 欧美理论电影| 欧美日韩精品免费看| 久久er99热精品一区二区| 青娱乐国产盛宴| 亚洲男人天堂网| 婷婷激情成人| 国产免费黄色av| 国产精品久久综合| 成人毛片在线免费观看| 日本精品久久中文字幕佐佐木 | 2021国产视频| 99久久综合色| 亚洲天堂自拍偷拍| 午夜精品久久久久久久久久久久| 国产亚洲一区| 人妻精油按摩bd高清中文字幕| 日韩欧美国产中文字幕| a级网站在线播放| 免费看成人午夜电影| 国产一区不卡精品| 一级片在线观看免费| 久久97精品久久久久久久不卡| 亚洲人成精品久久久 | 欧美成人四级hd版| 欧美日韩国产在线观看网站 |