精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI僅憑“自信”學會推理,浙大校友復刻DeepSeek長思維鏈涌現,強化學習無需外部獎勵信號

人工智能 新聞
大模型無需接觸真實答案,僅通過優化自己的信心,就能學會復雜推理。

復刻DeepSeek-R1的長思維鏈推理,大模型強化學習新范式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為:

大模型無需接觸真實答案,僅通過優化自己的信心,就能學會復雜推理。

圖片

具體來說,新方法完全不需要外部獎勵信號或標注數據,只需使用模型自身的置信程度作為內在獎勵信號。

與使用外部獎勵信號GRPO相比,新方法在數學任務上不需要標準答案也能提升基礎模型性能,在代碼任務上表現得更好。

圖片

幾乎同一時間,另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結論。

圖片

作者表示兩者的主要區別在于使用KL散度和最小化熵衡量自信程度。

圖片

Dropbox工程副總裁看后表示:Confidence is all you need

圖片

“自信”驅動的強化學習

長期以來,訓練大模型主要依賴兩種方式:

要么需要大量人工標注(如ChatGPT的RLHF),要么需要可驗證的標準答案(如DeepSeek的RLVR)。

前者成本高昂且可能引入偏見,后者則局限于數學、編程等有明確答案的領域。

那么當AI能力逐漸接近甚至超越人類時,能否讓模型僅憑自身產生的內在信號,擺脫對外部監督的依賴?

針對這個問題,UC Berkeley團隊提出新訓練方法Intuitor,計算模型預測分布與均勻分布之間的KL散度作為“自信程度”。

圖片

相當于人類做題時,如果對答案有把握思路也會更清晰,當自信不足的時候往往需要重新思考。

通過優化這個內在信號,INTUITOR鼓勵模型生成它自己”更有把握”的回答,也能促使模型生成更結構化的推理過程。

在實驗中,1.5B和3B的小模型也涌現出與DeepSeek-R1類似的長思維鏈推理行為。

圖片

論文還指出,內在獎勵信號還獲得一個額外的好處:從機制上降低了“獎勵黑客”的風險。

傳統外部獎勵信號的強化學習容易被“鉆空子”,如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例,或在數學題中直接背答案而非推理。

在INTUITOR中,團隊發現如果使用離線學習,在訓練約100步的時候模型也學會了作弊:在回答中附加一個已經解決的簡單問題來提高自信度分數。

但使用在線學習就可以避免這個問題,評估標準隨著模型能力哦一起進化,作弊策略變得無效。

圖片

實驗結果:不僅會做題,還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數學推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎模型,使用自我確定度作為唯一的獎勵信號,并將其分別置于INTUITOR和兩個基線方法(GRPO、GRPO-PV)在MATH數據集的預訓練中。

使用對話提示,每次處理128道題目并各生成7個候選解決方案,KL懲罰系數設置為0.005。

在數學推理、代碼生成、指令遵循的基準測試中進行性能評估,結果如圖所示:

圖片

實驗表明,在通過INTUITOR進行微調后,Qwen2.5-1.5B從最初只會輸出重復的無意義內容且對話任務得分均低于10%,轉變為無效輸出大幅減少、響應長度有效增加。

圖片

在結構化推理能力上,團隊還發現INTUITOR早期學習速度更快,如Qwen2.5-3B在GSM8K基準測試上INTUITOR(0.811)始終優于GRPO(0.758)。

圖片

此外,INTUITOR在多任務泛化上也表現優秀,例如當Qwen2.5-3B在代碼生成任務上,雖然相對滯后但持續增長,最終性能比GRPO高8%,相對提升65%

圖片

同時團隊還觀察到,在進行長鏈推理時,INTUITOR模型在生成完整代碼前,都會添加自然語言推理 (如“為解決X問題,需先執行Y步驟”),據推測也許這就是INTUITOR能夠在測試中始終表現出色的原因之一。

它的演進過程大概可以描述為三個階段:

  1. 模型學會生成代碼,實現準確率提升和無效響應減少。
  2. 進行代碼前推理以促進自我理解。
  3. 逐步細化生成帶詳細推理的有效代碼。

圖片

為了評估自我確定度作為獎勵的魯棒性,研究人員還將離線自我確定度(來自固定基礎模型的獎勵)與在線自我確定度(來自不斷進化的策略模型的獎勵)進行了比較。

實驗發現離線獎勵會在100步后通過添加無關內容導致準確率崩潰,而在線獎勵與策略協同演化,可有效防止破解。

圖片

為進一步評估自我確定度作為獎勵信號的質量,研究人員還分析了模型在MATH500響應中生成的自我確定度分數分布。

值得注意的是,INTUITOR模型對正確答案的self-certainty顯著更高,而GRPO雖提升了模型自評能力,但區分度明顯低于INTUITOR。

圖片

由于受計算資源限制,實驗只在相對較小的無監督語料庫上進行訓練,未來可在更大規模的基礎模型和更多樣化的真實世界數據集上進一步研究INTUITOR的優勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊,作者一共有五位,分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學的Aosong Feng,以及Sergey Levine和Dawn Song。

圖片

2019年,Xuandong Zhao從浙江大學畢業后,就進入了加州大學圣塔芭芭拉分校攻讀計算機科學博士學位,期間還曾在阿里巴巴、Microsoft和Google等公司實習。

自2024年他進入UC Berkeley后,除本次的新成果外,至今一共還發表過十多篇論文,并先后被ICLR 2025、ICML 2025等接收。

圖片

另外在今年2月,Xuandong Zhao和Zhewei Kang還合作發表了一篇論文,描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N,可以看作是本篇論文的一次先驗嘗試。

圖片

論文鏈接:https://arxiv.org/abs/2505.19590
代碼鏈接:https://github.com/sunblaze-ucb/Intuitor

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-03 08:38:00

2025-06-25 09:28:38

2025-05-30 04:00:00

IBMRLVRGRPO

2022-10-26 13:27:12

論文

2025-06-27 04:00:00

RLSC強化學習微調

2025-08-08 09:04:00

2025-10-27 08:54:00

2025-08-11 08:38:00

模型AI數據

2025-05-28 02:25:00

2022-12-01 08:00:00

2025-04-25 09:20:00

數據模型AI

2025-09-15 14:44:59

圖像生成AI模型

2025-03-05 04:00:00

2022-12-21 17:27:30

強化學習AI

2025-05-09 08:40:00

2021-06-11 09:28:04

人工智能機器學習技術

2025-04-15 09:12:00

模型AI強化學習

2025-06-30 09:08:00

2025-09-28 15:35:32

AI模型強化學習
點贊
收藏

51CTO技術棧公眾號

日韩高清在线观看一区二区| 免费黄色电影在线观看| 99国产精品私拍| 日韩大陆欧美高清视频区| 99蜜桃臀久久久欧美精品网站| 国产精品视频一区二区久久| 国内精品伊人久久久久av影院| 久久91亚洲人成电影网站| 风间由美一二三区av片| 国产成人福利夜色影视| 亚洲一区在线视频观看| 欧美精品一区二区三区在线看午夜 | 亚洲天堂中文网| 亚洲性感美女99在线| 亚洲片av在线| 成年女人免费视频| 成人国产激情在线| 亚洲第一成年网| 亚洲一区二区三区精品在线观看 | 成人美女视频在线看| 国产成人精品在线| 久久久久香蕉视频| 久久综合电影| 亚洲男人天堂网| www日本在线观看| 久久久久伊人| 欧美性猛交xxx| 国产性生活免费视频| av在线第一页| 2021国产精品久久精品| 99re国产视频| 一区二区三区黄色片| 美女精品网站| 午夜精品久久久99热福利| 搜索黄色一级片| 成人在线电影在线观看视频| 亚洲乱码一区av黑人高潮| av不卡中文字幕| 国产欧美日韩电影| 欧美日韩精品一区二区三区蜜桃| 欧美色图另类小说| 国产极品在线观看| 亚洲大型综合色站| 成人在线国产视频| 免费在线观看的电影网站| 亚洲美女精品一区| 自拍偷拍亚洲色图欧美| 天堂中文8资源在线8| 国产欧美日本一区视频| 日韩久久久久久久| yjizz视频网站在线播放| 久久色在线观看| 久久久国产精品一区二区三区| 亚洲黄色a级片| 粉嫩aⅴ一区二区三区四区五区| 成人欧美一区二区三区黑人孕妇| 一区不卡在线观看| 久久国产综合精品| 成人a在线视频| 国产三级伦理片| 国产乱子伦视频一区二区三区| 91欧美激情另类亚洲| 99热这里只有精品99| 国产精品一区二区在线播放| 亚洲自拍偷拍色片视频| 精品国产99久久久久久宅男i| 国产精品正在播放| 国产精品传媒毛片三区| 天天操天天插天天射| 91小视频在线观看| 日韩一区二区三区高清| 免费看美女视频在线网站| 亚洲丝袜精品丝袜在线| 黄色网在线视频| 麻豆理论在线观看| 91福利视频网站| 午夜精品中文字幕| 亚洲精品视频一二三区| 日韩经典中文字幕| 日韩视频在线观看免费视频| 99精品小视频| 九九精品在线播放| 精品在线播放视频| 蜜臀av国产精品久久久久| 91久久精品久久国产性色也91| h片在线免费看| 96av麻豆蜜桃一区二区| 天天综合色天天综合色hd| 超碰超碰在线| 天天影视网天天综合色在线播放| 91淫黄看大片| 久久综合给合| 成人在线观看免费视频| 亚洲欧美日韩在线| 国产乱子伦农村叉叉叉| 国产成人亚洲一区二区三区| 日韩一区二区免费在线电影| 亚洲av无码一区二区三区观看| 欧美丝袜激情| 欧美国产日韩精品| 波多野结衣大片| 国产成人av电影| 欧美一区二区三区在线免费观看| 国产婷婷视频在线| 黑人精品xxx一区| 高潮一区二区三区| 人人精品视频| 超在线视频97| 国产成人av免费| 成人激情小说网站| 在线观看欧美亚洲| 成人动漫一区| 精品美女在线观看| 欧美xxxx精品| 国产精品久久久久久久久久妞妞| 91天堂在线视频| 黄色在线观看网| 亚洲午夜电影在线观看| 无限资源日本好片| 首页亚洲中字| 欧美精品在线极品| 一区精品在线观看| 久久久久久久av麻豆果冻| 337p亚洲精品色噜噜狠狠p| 日本精品网站| 亚洲欧洲在线看| 国产污污视频在线观看| 麻豆高清免费国产一区| 蜜桃999成人看片在线观看| 在线电影福利片| 欧美日韩久久久一区| 极品白嫩丰满美女无套| 国内精品美女在线观看| 成人免费看片视频| 91av资源在线| 91国偷自产一区二区开放时间 | 91久久精品无嫩草影院| 中文字幕一精品亚洲无线一区 | 黄色小网站91| 美洲精品一卡2卡三卡4卡四卡| 欧美人体做爰大胆视频| 成人免费视频入口| 日韩不卡免费视频| 欧美午夜精品理论片a级大开眼界| 欧美性爽视频| 精品久久久久久久人人人人传媒| 91麻豆免费视频网站| 狠狠v欧美v日韩v亚洲ⅴ| 神马欧美一区二区| 成人精品电影在线| 亚洲欧美日韩中文在线制服| 国产成人综合欧美精品久久| 99riav久久精品riav| 精品无码国模私拍视频| 国产乱人伦精品一区| 久久久久国产精品www| 免费国产精品视频| 图片区小说区区亚洲影院| 特级西西人体wwwww| 性色av一区二区怡红| 欧美日韩国产不卡在线看| 日韩免费福利视频| 国产一区二区三区直播精品电影| 中国a一片一级一片| 国产精品久久久久天堂| 日本超碰在线观看| 亚洲一级淫片| 成人av影视在线| 91www在线| 亚洲精品自拍偷拍| 国内av在线播放| 国产精品激情偷乱一区二区∴| 天堂中文av在线| 亚洲精品国产成人影院| av在线亚洲男人的天堂| 多野结衣av一区| 亚洲欧美国产一本综合首页| 天堂免费在线视频| 亚洲欧美一区二区三区国产精品| 日韩精品xxx| 国产日韩一区二区三区在线| 日韩精品资源| 亚洲精品国产九九九| 91国内揄拍国内精品对白| 成人在线免费视频| 日韩免费视频一区二区| 日韩欧美成人一区二区三区| 国产精品私人影院| av影片在线播放| 久久久成人网| 免费成人深夜夜行网站视频| 极品一区美女高清| 国产精品色婷婷视频| 亚洲精品白浆| 亚洲午夜av久久乱码| 国产三级小视频| 色综合中文综合网| 四虎影院中文字幕| 91免费视频网址| 奇米777在线| 久久一区亚洲| 日韩精品久久一区二区| 精品国产乱码久久久久久蜜坠欲下| 成人在线观看视频网站| 亚洲一级少妇| 九色成人免费视频| 成人全视频高清免费观看| 欧美哺乳videos| 亚洲天堂视频在线| 第一福利永久视频精品 | 色播色播色播色播色播在线 | 亚洲第一天堂久久| 男人的天堂亚洲| 日本a在线天堂| 成人精品电影| 久久婷婷开心| 亚洲精品v亚洲精品v日韩精品| 国产精品午夜视频| 9999精品成人免费毛片在线看| 最近2019好看的中文字幕免费| 色丁香婷婷综合久久| 欧美一区二区三区播放老司机| 婷婷激情五月综合| 精品久久久久久中文字幕| 最新一区二区三区| 国产日韩欧美综合在线| 久久午夜夜伦鲁鲁片| 成人午夜免费av| 一卡二卡三卡四卡五卡| 另类小说综合欧美亚洲| 欧美两根一起进3p做受视频| 日韩视频一区| 欧美在线观看视频免费| 91精品国产91久久久久久密臀 | 中国一级特黄录像播放| 激情欧美一区二区| 亚洲最大成人在线观看| 久久精品道一区二区三区| 天天夜碰日日摸日日澡性色av| 韩日精品视频| av一区二区三区免费观看| 在线精品视频在线观看高清| 综合网五月天| 国产精品毛片久久| 在线免费观看成人网| 欧美激情理论| 亚洲精品日韩成人| 成人免费看片39| 亚洲福利av在线| 成人动漫免费在线观看| 香蕉久久免费影视| 国产一区二区在线| 日韩精品一区二区三区四区五区 | 99re这里只有精品视频首页| 最近中文字幕无免费| 97久久久精品综合88久久| 国产chinese中国hdxxxx| 成人精品鲁一区一区二区| 完美搭档在线观看| 99久久精品情趣| 37p粉嫩大胆色噜噜噜| 久久久99免费| 人妻熟人中文字幕一区二区| 国产精品私房写真福利视频| 欧美色视频一区二区三区在线观看| 亚洲欧洲日产国产综合网| 动漫性做爰视频| 亚洲午夜影视影院在线观看| 日本一本高清视频| 日韩欧美aⅴ综合网站发布| 69亚洲精品久久久蜜桃小说| 欧美性猛交xxxx乱大交退制版| 在线观看国产一区二区三区| 亚洲精品久久| 热re99久久精品国产99热| 91麻豆国产自产在线观看亚洲 | 欧美日一区二区三区在线观看国产免| 日本人妻伦在线中文字幕| 国产日韩欧美高清免费| 天天操,天天操| 国产成人免费高清| 国产高清自拍视频| 国产精品欧美一级免费| 国内偷拍精品视频| 懂色av一区二区三区| 中文无码精品一区二区三区| 欧美一区二区三区在线观看视频| 黄色a在线观看| 永久免费精品影视网站| 黄黄的网站在线观看| 国色天香2019中文字幕在线观看| 都市激情亚洲一区| 91在线视频九色| 天堂一区二区三区四区| 一区二区三区在线视频111| 黄色精品免费| www.99在线| 成人精品小蝌蚪| 在线观看亚洲大片短视频| 亚洲国产aⅴ天堂久久| 亚洲 国产 日韩 欧美| 欧美成人激情免费网| 在线免费看黄网站| 91国产一区在线| 久久久久久爱| 色999日韩自偷自拍美女| 一区二区视频欧美| 中文字幕国产免费| 26uuu精品一区二区在线观看| 国产精品 欧美激情| 欧美在线观看视频一区二区三区 | 成人晚上爱看视频| 欧美aaa级片| av网站在线免费观看| 中文字幕在线看视频国产欧美在线看完整 | 亚洲欧美在线免费观看| 丝袜国产在线| 国产裸体写真av一区二区| 欧洲亚洲视频| 黄色三级中文字幕| 国产综合久久久久影院| 亚欧洲乱码视频| 婷婷丁香久久五月婷婷| 精品人妻一区二区三区浪潮在线 | 欧美日韩一区二区电影| 神马午夜精品95| 欧美日韩成人免费| 欧美黄页在线免费观看| 欧美日韩在线一区二区三区| 亚洲第一网站| 18深夜在线观看免费视频| 国产精品成人免费精品自在线观看| 国产一级一级国产| 亚洲福利影片在线| 18+激情视频在线| 91精品视频专区| 欧美韩国日本在线观看| 婷婷丁香激情网| 国产欧美日韩综合精品一区二区| 在线观看国产亚洲| 亚洲精品成人久久久| 51精品视频| 久久av一区二区三区漫画| 亚洲先锋成人| 国产精品果冻传媒| 亚洲午夜影视影院在线观看| 亚洲美女福利视频| 欧美精品久久一区二区| 成人资源在线| 久久国产精品网| 99久久er热在这里只有精品15| 国产极品在线播放| 精品电影一区二区三区| 欧美网站免费观看| 高清久久久久久| 国产小视频在线看| 精品国一区二区三区| 国产桃色电影在线播放| 国产成人成网站在线播放青青| 黑人一区二区| 久久人妻一区二区| 色综合久久99| 天堂中文8资源在线8| 亚洲自拍偷拍色图| 亚洲国产午夜| 熟妇人妻久久中文字幕| 欧美日韩亚洲视频| 二区在线观看| 国产一区二区视频在线观看| 亚洲人成免费网站| 国产精品熟妇一区二区三区四区| 午夜亚洲国产au精品一区二区| 天天干视频在线观看| 国产精品69av| 婷婷丁香综合| 日本道中文字幕| 色嗨嗨av一区二区三区| 五月婷婷在线视频| av免费观看久久| 久久精品亚洲| 欧美第一页在线观看| 精品少妇一区二区三区日产乱码| 国产免费拔擦拔擦8x高清在线人| 欧美一区二区福利| 国产盗摄视频一区二区三区| 你懂的国产在线| 日韩在线精品视频| 99re91这里只有精品| 免费大片在线观看| 亚洲精品福利视频网站| 四虎国产精品永远| 91久久久亚洲精品| 国产欧美亚洲一区| 五月婷婷综合激情网| 亚洲福利在线视频| 久久伊人国产| 欧美日韩二三区| 亚洲欧美另类图片小说| 日韩欧美电影在线观看| 69堂成人精品视频免费|