精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊破解黑盒

人工智能 新聞
來自清華、CMU和IN.AI的研究團隊,近期專門探究了長CoT在大模型中的工作機制和優化策略。

DeepSeek-R1慢思考、長推理的表現,展現了訓練步驟增加,會導致長CoT的涌現。

它通過模擬人類思維逐步推導答案,提升了AI大模型的推理能力和可解釋性。

但長CoT的觸發條件是什么?怎么做能優化它?像個黑盒,還沒研究明白。

來自清華、CMU和IN.AI的研究團隊,近期專門探究了長CoT在大模型中的工作機制和優化策略。

先把該研究得出的4點發現給大家呈上來:

  • SFT并非必需,但能簡化訓練并提高效率;
  • 推理能力隨著訓練計算的增加而出現,但并非總是如此;
  • 可驗證獎勵函數對增長CoT至關重要;
  • 糾錯等核心能力基礎模型天生自帶,但通過RL有效地激勵這些技能需要大量的計算。

這篇論文開始被網友瘋轉,并被感慨道:這可太酷啦!

還有網友表示,不出所料,獎勵函數果然很重要

從SFT和RL兩方面研究長CoT

研究團隊明確表示:

我們的目標是揭開大模型中長CoT推理的神秘面紗。
通過系統分析和消融,提取關鍵見解,并提供實用策略來增強和穩定其性能。

團隊采用了2款基礎模型:

  • Llama-3.1-8B:來自Meta,是具有代表性的通用模型。
  • Qwen2.5-7B-Math:來自阿里通義,是具有代表性的數學專業模型。

同時采用了4個代表性推理基準:

MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k。

默認情況下,溫度t=0.7、頂部?p值=0.95,最大輸出長度=16384 tokens。

而具體過程,從SFT(監督微調)和RL(強化學習)兩方面下手。

研究人員默認使用MATH的7500個訓練樣本提示集來提供可驗證的真值答案。

SFT對長CoT的影響

團隊首先探究了SFT對長CoT的影響。

通過在長CoT數據上進行SFT,模型能夠學習到更復雜的推理模式。

但目前而言,短CoT更為常見,這就意味著針對其收集SFT數據相對簡單。

鑒于此,團隊選擇用阿里通義的QwQ-32B-Preview來提煉長CoT,用阿里通義的Qwen2.5-Math-72B-Struct來提煉短CoT

具體來說,研究人員先對每個prompt的N個候選響應進行采樣,然后篩選出具有正確答案的響應。

對于長CoT,使用N∈{32, 64, 128, 192, 256};對于短CoT,使用N∈{32, 64, 128, 256},(此處為了提高效率跳過了一個N)

在每種情況下, SFT標記的數量都與N成正比。

如下圖虛線所示,隨著擴大SFT的token,對長CoT進行SFT,會繼續提高模型準確性;而對短CoT來說,SFT帶來的效益在很早就達到飽和。

譬如在MATH-500上,長CoT SFT的準確率超過70%,tokens達到3.5B時仍然沒有進入瓶頸期。

相比之下,短CoT SFT的tokens從約0.25B增加到1.5B,準確率僅產生了3%的增長。

實驗結果顯示,長CoT SFT能夠顯著提高模型的性能上限。

而且,在達到更高性能的同時,還有比短CoT更高的性能拓展空間。

RL對長CoT的影響

由于業內普遍認為RL的上限高于SFT,團隊將長CoT和短CoT視為針對RL的不同SFT初始化方法進行比較。

研究人員使用SFT檢查點來初始化RL,并訓練了四個epoch,每個prompt生成四個響應。

此外,團隊把PPO和來自MATH數據集的基于規則的驗證器訓練拆分,作為RL的提示集。

具體結果同樣在下圖中顯示出來:

圖中實線和虛線之間的間隙表明,使用長CoT SFT初始化的模型通常可以通過RL進一步顯著改進,而使用短CoT SFT初始化的模型從RL中獲得的收益很小。

例如,在MATH-500上,RL可以將長CoT SFT模型絕對改進3%以上,而短CoT SFT模型在RL前后的精度幾乎相同。

需要注意的是,RL并不總是能夠穩定地擴展思維鏈的長度和復雜性。

為此,研究團隊引入了一種帶有重復懲罰的余弦長度縮放獎勵機制,有效穩定了思維鏈的增長,并鼓勵模型在推理過程中進行分支和回溯。

整理長CoT數據

除上述研究外,為了整理長CoT數據,研究團隊比較了兩種方法。

一種是通過提示短CoT模型,生成原始動作,并按順序組合它們,以此構建長CoT軌跡

另一種是從現有的長CoT模型中提煉出長CoT軌跡——這些模型表現出涌現長CoT(emergent long CoT)

結果表明,從涌現長CoT模式中提煉出來的模型,比構建的模式泛化得更好,并且可以用RL進一步顯著改進。

在構建模式上訓練的模型則不能做到這一點。

此外,由于DeepSeek-R1已經證明,在基礎模型上擴展RL計算可以出現長CoT,自我驗證行為有時會被模型的探索標記為緊急行為或 “頓悟時刻”。

這種模式在短CoT數據中很少見,但研究人員注意到,有時基座模型已經存在自我驗證行為,而用RL強化這些行為需要嚴苛的條件。

如下圖所示,Qwen2.5Math-7B的RL有效地提高了準確性,但沒有增加基礎模型輸出中存在的 “recheck” 模式的頻率,也沒有有效地激勵其他反射模式,如 “retry” 和 “alternatively”。

這表明盡管提高性能效果顯著,但來自基座模型的RL不一定會激勵反射模式。

四個關鍵發現

在系統性研究了長CoT推理的機制后,團隊提出了4個關鍵發現。

第一,SFT并非必需,但能簡化訓練并提高效率。

雖然SFT并非訓練長CoT的必要條件,但它能夠有效地初始化模型,并為后續的RL訓練提供堅實的基礎。

第二,推理能力隨著訓練計算的增加而出現,但并非總是如此。

長CoT的出現并非必然,且樸素的RL方法并不總是能有效地延長CoT長度。

需要通過獎勵塑造等技巧來穩定CoT長度的增長,團隊的做法是引入了一種余弦長度縮放獎勵,并加入了重復懲罰,這既平衡了推理深度,又防止了無意義的長度增加。

第三,可驗證獎勵函數對CoT擴展至關重要。

由于高質量、可驗證數據稀缺,擴展可驗證獎勵函數對RL至關重要。

論文探索了利用網絡提取的包含噪聲解決方案的數據,并發現這種“銀色”監督信號在RL中展現出巨大的潛力,尤其是在處理OOO任務(如STEM推理)時。

第四,基模型中天生存在錯誤修正和回溯等技能,但通過RL有效地激勵這些技能需要大量的計算。

而測量這些能力的出現需要更精細的方法,需要謹慎設計RL激勵。

最后,研究團隊提出了幾個未來的研究方向,包括:

擴大模型規模、改進RL基礎設施、探索更有效的驗證信號以及深入分析基礎模型中的潛在能力。

這些方向有望進一步推動長CoT在大模型中的應用。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-04 08:49:00

2023-06-05 10:01:18

模型測評

2025-09-15 08:53:00

AI模型推理

2025-02-17 14:43:51

2025-03-17 08:15:00

AI技術模型

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-05-08 09:10:30

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-07-28 09:12:00

2025-04-08 09:16:00

推理模型AI

2025-04-02 09:00:00

模型開源AI

2025-03-11 08:50:00

2025-04-25 09:22:44

2025-11-13 08:00:00

大推理模型AI人工智能

2025-10-13 09:08:00

2025-04-23 12:09:25

RL大模型進化

2025-09-16 10:09:00

2025-03-05 00:22:00

2023-05-30 14:17:00

模型推理

2025-04-10 08:23:11

點贊
收藏

51CTO技術棧公眾號

国产精品无av码在线观看| 亚洲欧美日韩天堂| 欧美视频在线观看视频| 婷婷五月综合激情| 热久久久久久久| 久久国产精品99国产精| 日本不卡视频一区| 国产香蕉久久| 欧美日韩精品中文字幕| 亚洲免费视频一区| 天堂网在线观看视频| 久久国产日韩欧美精品| 久久久在线观看| 午夜国产小视频| 欧美爱爱网站| 日韩视频免费观看高清在线视频| 日本a级片免费观看| 欧美日韩在线资源| 久久亚洲二区三区| 国产精品一区在线观看| 在线观看中文字幕码| 国产精品日本| 97色在线播放视频| 人妻久久一区二区| 99久精品视频在线观看视频| 日韩高清av一区二区三区| 老女人性生活视频| 欧美一区 二区 三区| 亚洲一区二区三区中文字幕| 一区国产精品| 超碰国产在线观看| 久久久久久久久免费| 国产精品久久九九| 国内精品久久久久久久久久久 | 欧美在线观看视频免费| 超碰97在线免费观看| 91免费在线视频观看| 国产精品国产精品| 亚洲国产精品无码久久| 久久av中文字幕片| 国产一区欧美二区三区| 无码aⅴ精品一区二区三区| 99热免费精品| 91干在线观看| 日韩av在线播放观看| 欧美三级午夜理伦三级中文幕| 插插插亚洲综合网| 免费在线观看一级片| 亚洲精品久久久| www.亚洲一区| 亚洲人做受高潮| 久久裸体网站| 久久精品欧美视频| 好吊色视频在线观看| 欧美有码视频| 久久免费高清视频| 97免费在线观看视频| 国产日韩一区| 国产suv精品一区二区三区88区| 啦啦啦免费高清视频在线观看| 99日韩精品| 日韩av电影手机在线| 精品视频一二三区| 美女任你摸久久 | 国产精品调教| 精品一区二区三区四区| 色噜噜日韩精品欧美一区二区| 九九热爱视频精品视频| 中文字幕av一区| 色www亚洲国产阿娇yao| 午夜精品毛片| 精品综合久久久久久97| 久草精品视频在线观看| 先锋a资源在线看亚洲| 国产91在线高潮白浆在线观看| 做爰视频毛片视频| 国产一二三精品| 韩国一区二区三区美女美女秀| 四虎影院在线播放| 欧美激情一区二区在线| 在线看无码的免费网站| 四季久久免费一区二区三区四区| 精品国产福利在线| 九九热在线免费| 日韩欧洲国产| 亚洲视频一区二区| 丁香花五月激情| 免费日韩av片| 亚洲综合在线做性| 美女毛片在线看| 中文字幕一区二区三区在线观看| 成年人视频网站免费| 成人免费短视频| 欧美一区二区美女| 伊人网在线视频观看| 欧美黄色免费| 国产精品久久999| 乱精品一区字幕二区| 国产欧美日本一区视频| 免费的一级黄色片| 成人网ww555视频免费看| 日韩欧美不卡在线观看视频| 中文幕无线码中文字蜜桃| 欧美成人精品| 国产精品久久久久久av福利| 欧美 日韩 国产 在线| 亚洲国产高清在线| 亚洲美免无码中文字幕在线| 亚洲精品伊人| 亚洲午夜av电影| 国产香蕉在线视频| 国产在线精品免费| 日本视频一区在线观看| 17videosex性欧美| 日韩欧美专区在线| 日韩av网站在线播放| 鲁大师成人一区二区三区| 99国产超薄丝袜足j在线观看 | 成人在线观看a| 成人春色在线观看免费网站| 日韩中文字幕久久| 中文字幕欧美在线观看| 91色综合久久久久婷婷| 国产高清不卡无码视频| 四虎影视成人精品国库在线观看| 亚洲欧美日韩精品久久| 久久艹免费视频| 国产成人欧美日韩在线电影| 亚洲欧洲精品一区二区三区波多野1战4| 黄频免费在线观看| 亚洲成avwww人| 激情五月婷婷小说| 国产成人免费视频网站| 亚洲国产精品影视| 午夜不卡一区| www.日本久久久久com.| 中文字幕在线观看你懂的| 国产日产欧美一区| 日本成人中文字幕在线| 久久最新网址| 国产91色在线免费| 黄网站在线观看| 91国偷自产一区二区使用方法| 一区二区免费在线观看视频| 尤物精品在线| 国模精品一区二区三区| heyzo在线播放| 亚洲丁香婷深爱综合| 精品无码人妻一区二区三区| 成人性生交大合| 黄色一级视频片| 全国精品免费看| 国产aaa精品| 福利视频在线播放| 欧美裸体bbwbbwbbw| 熟女少妇a性色生活片毛片| 免费在线观看视频一区| 黄色免费高清视频| 白嫩白嫩国产精品| 欧美孕妇与黑人孕交| 国产一区电影| 91精品国产麻豆国产自产在线| 国模无码国产精品视频| 国产成人综合亚洲网站| www.99热这里只有精品| 国产乱码精品一区二区亚洲 | 日本精品在线播放| 欧美激情一区二区三区成人| 日韩一级片免费| 色婷婷激情久久| 久久一级免费视频| 国产成人激情av| 欧美 国产 小说 另类| 精品国产乱码久久久久久蜜坠欲下 | 亚洲 国产 欧美一区| 95精品视频| 午夜精品福利视频| 成人一区二区不卡免费| 欧美一区二区在线看| 日韩精品视频播放| 中文字幕av资源一区| 久久久久亚洲av无码麻豆| 在线日韩中文| 97久久中文字幕| 久久一区欧美| 91制片厂免费观看| 国产精品极品| 国产精品视频成人| 免费网站在线观看人| 亚洲精品第一页| 中文字幕资源网| 亚洲成人精品一区二区| 亚洲一区二区自偷自拍| 国产剧情一区在线| 免费观看精品视频| 牛牛国产精品| 日本精品一区| 中文字幕av一区二区三区四区| 欧美壮男野外gaytube| 国产日产一区二区| 亚洲欧美999| 精品久久久久久亚洲综合网站| 欧美性猛交xxxx| 欧美日韩在线观看成人| 国产区在线观看成人精品| 亚洲精品成人无码毛片| 日本成人在线一区| 18禁免费无码无遮挡不卡网站| 久久精品亚洲人成影院| 精品乱色一区二区中文字幕| 国产精品视频一区二区三区| 青青久久av北条麻妃黑人| 3d玉蒲团在线观看| 中文字幕亚洲无线码在线一区| 污视频网站免费观看| 在线播放91灌醉迷j高跟美女 | 亚洲成人精品一区二区| 成年人免费视频播放| 久久久久久久久一| 搡老熟女老女人一区二区| 国产成人精品影院| 亚洲欧美日韩网站| 蜜桃av一区二区| 久久国产色av免费观看| 亚洲精品国产日韩| 日韩精品视频在线观看视频 | 欧美成人免费全部| 18免费在线视频| 最新国产成人av网站网址麻豆| 欧美偷拍视频| 精品夜色国产国偷在线| 三级在线观看网站| 亚洲а∨天堂久久精品喷水| 国产黄色大片网站| 欧美一区二区三区四区久久 | 亚洲国产精品va在线看黑人| 国产xxxx在线观看| 日韩一区二区影院| 精品毛片在线观看| 日韩亚洲欧美在线| 国产视频一区二区三区四区五区| 欧美喷潮久久久xxxxx| 中文字幕在线视频免费| 欧美日本韩国一区| 国产一区二区三区在线观看| 欧美日韩日日摸| 影音先锋国产在线| 欧美日韩精品三区| 国产巨乳在线观看| 日韩欧美一区二区三区在线| www.黄色一片| 欧美精品一区在线观看| 日日夜夜精品免费| 亚洲精品一二区| 国产在线观看高清视频| 中文字幕少妇一区二区三区| 在线视频婷婷| 久热爱精品视频线路一| 丝袜国产在线| 18一19gay欧美视频网站| 亚洲日本天堂| 国产精品稀缺呦系列在线| 久久日本片精品aaaaa国产| 91精品在线观| 成人中文字幕视频| 麻豆91av| 欧美国产美女| 日韩精品在线观看av| 亚洲人成久久| 成人免费在线观看视频网站| 久久 天天综合| 人妻换人妻a片爽麻豆| www欧美成人18+| 国产精品国产三级国产传播| 亚洲一区国产视频| 免费一级a毛片| 91精品国产综合久久久久| 免费看日韩av| 在线不卡国产精品| 日韩少妇视频| 国产高清在线不卡| 亚洲视频三区| 神马欧美一区二区| 亚洲午夜精品久久久久久app| 国产精品动漫网站| 国产剧情在线观看一区二区| 天堂久久久久久| 中文字幕一区二区三区四区不卡| 在线看成人av| 制服.丝袜.亚洲.中文.综合| 西西人体44www大胆无码| 日韩中文字幕在线免费观看| av电影在线地址| 91美女高潮出水| 中文字幕精品影院| 国产在线无码精品| 日韩成人免费电影| 精品人妻一区二区免费| 国产精品三级av在线播放| 久草精品视频在线观看| 88在线观看91蜜桃国自产| 青青草免费在线| 欧美肥婆姓交大片| 日韩成人精品一区二区三区| 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 欧美gv在线| 亚洲精品免费在线视频| 欧美亚洲在线日韩| 国产亚洲天堂网| 成人av网址在线观看| 婷婷国产成人精品视频| 欧美色播在线播放| 农村少妇久久久久久久| 久久精品国产成人| 91综合国产| 欧美裸体网站| 国产日韩亚洲欧美精品| 中文字幕在线播放一区二区| 国产精品亲子乱子伦xxxx裸| 国产精品21p| 亚洲精品久久久久久久久久久久久 | 在线观看日韩中文字幕| 日韩欧美成人一区二区| 蜜桃视频网站在线| 国产欧美一区二区白浆黑人| 欧美禁忌电影| 日本精品一区二区三区四区| 97久久超碰精品国产| 精品久久免费视频| 精品久久久久久久人人人人传媒| 男女啪啪在线观看| 国产精品一区久久久| 日韩精品中文字幕第1页| 国产麻花豆剧传媒精品mv在线| 91视频xxxx| 丰满少妇xoxoxo视频| 精品亚洲一区二区三区| 在线免费看h| 日本精品一区二区| 久久久久久一区二区| 成人片黄网站色大片免费毛片| 欧美日韩国产一区在线| 日本免费不卡| 国产成人免费av| av中字幕久久| 亚洲这里只有精品| 亚洲三级在线免费观看| 国产乱码精品一区二区| 欧美大成色www永久网站婷| 在线日韩成人| 18禁网站免费无遮挡无码中文| 成人sese在线| 日本视频在线观看免费| 亚洲欧美一区二区激情| 久久久久伊人| 激情成人开心网| 99re66热这里只有精品3直播| 成人午夜淫片100集| 在线观看亚洲区| 国产精品一区二区三区www| 肉大捧一出免费观看网站在线播放| 国产成人一级电影| 一级免费在线观看| 亚洲人成网7777777国产| 成人日韩av| 老司机午夜网站| 91欧美一区二区| 一女二男一黄一片| 久久久久久伊人| 国产成人ay| 99中文字幕在线| 粉嫩老牛aⅴ一区二区三区| 国产午夜精品一区理论片| 国产伦精品免费视频| 最新欧美人z0oozo0| 中文字幕无码人妻少妇免费| 欧洲一区二区三区免费视频| 黄色av免费在线| 久久99精品国产一区二区三区| 蜜桃av一区二区在线观看 | 一本色道久久综合狠狠躁的推荐 | 黄色av中文字幕| 国产精品福利网| 好吊视频一区二区三区四区| 亚洲一区二区三区蜜桃| 欧美一区二区三区免费在线看 | 麻豆国产精品一区| 欧美美女一区二区三区| 国产精品xx| 最新精品视频| 91蝌蚪国产九色| 国产婷婷一区二区三区久久| 欧美又大又粗又长| 欧美日韩视频| 黄色av免费播放| 亚洲黄色在线看| 国产视频网站一区二区三区| 国产成人黄色片| 亚洲综合丝袜美腿| 日本中文字幕在线播放|