精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓SFT重新偉大!CMU等華人學者提出全新「批判式微調」,媲美復刻版DeepSeek

人工智能 新聞
在面對復雜的推理任務時,SFT 往往讓大模型顯得力不從心。最近,CMU等機構的華人團隊提出了「批判性微調」(CFT)方法,僅在 50K 樣本上訓練,就在大多數基準測試中優于使用超過200萬個樣本的強化學習方法。

模仿是傳統語言模型訓練的主要方式。LLM在解決現實世界問題方面之所以表現出前所未有的性能,其中一項核心技術是監督微調(SFT)。

在SFT的過程中,模型被要求模仿人類標注或合成的高質量回復,以增強通用指令遵循能力。這類SFT數據集通常使用Self-Instruct和Evol-Instruct等方法進行構建。

然而,這種方法存在明顯的局限性。隨著數據集規模和質量的提升,SFT面臨著邊際收益遞減的問題,尤其是在訓練本身效果就不錯的基礎模型時,使用SFT甚至可能會導致性能下降。

最近,CMU、滑鐵盧大學等機構的3名華人學者就發表了一篇論文,針對SFT做出了更進一步的改進,提出批判式監督微調方法(CFT,Critique Fine-Tuning),旨在讓模型更有效地模仿模仿數據集。

圖片

論文鏈接:https://arxiv.org/pdf/2501.17703

批判式監督微調:讓SFT重新偉大

CFT將重點從簡單模仿轉向基于批判的學習,核心思想是讓模型學會批判,而不是簡單地模仿,其靈感來源于人類的學習過程。

學霸們在學習過程中,不僅僅是復制提供的答案,而是分析、批判和改進它們。同樣,CFT數據集中為錯誤響應提供相應的批評供模型學習,讓LLM能夠識別響應中存在的缺陷,進而提出改進建議并驗證正確性。

這種方法不僅能夠提升推理能力,還能使模型在面對復雜任務時表現出更強的適應性和靈活性。

比如,針對這個問題:在直角三角形的直角邊長分別為3個單位和4個單位的情況下,構造一個正方形。求五邊形$ABCDE$的面積(單位:平方單位)。

在SFT模式下,模型會一步步的進行運算,先運用勾股定理計算斜邊長度為5,再計算正方形的面積為25,以及三角形面積6,之后模型給出回答25-6。

而在CFT模式下,會由模型對上述回答給出批評,指出錯誤點是應該加上而非減去三角形的面積,并給出正確答案31。

圖片

下圖展示了典型的SFT和CFT數據樣例。

圖片

SFT讓大模型直接模仿答案,CFT讓大模型模仿對錯誤回答的批評

CFT的高訓練效率

那么,如何獲得CFT訓練所需的數據呢?

論文基于WebInstruct,構建了一個50K個帶批評意見的問答對作為訓練數據集,其中的批評由GPT-4o等高級模型生成,上述的題目是其中一個例子。這些問題主要聚焦數學領域(65%),也包括物理、化學、商業等主題。

圖片

CFT數據集與其他SFT數據集對比

之后在CFT數據集上訓練7B大小的、沒有經過指令微調的LLM,如DeepSeekMath-base、Qwen2.5和Qwen2.5-Math。

CFT方法的訓練目標相當直接:將問題x和錯誤響應y拼接為作為輸入,然后優化模型參數以生成評論c ,相當于訓練模型學會批判性思維。

圖片

實驗中,作者考察了LLM在經過指令微調與批判性微調后,在數學相關基準上的性能提升。結果顯示:CFT訓練的模型可以持續優于SFT訓練的最佳模型。

相比SFT,CFT的準確率平均高出4-10個百分點。不僅如此,訓練效率也更高,能在更少的訓練數據上實現更快的收斂,因此有望成為開發數學推理模型的一種更有效的方法。

圖片

Qwen2.5-Math-7B在MATH和Minerva-Math上不同方法的訓練動態比較,包括CFT與兩種SFT變體,橫軸代表訓練步數,縱軸顯示準確率

圖片

在同樣是50k個樣本上時,不同的基座模型使用CFT和SFT訓練后的性能提升

如果只聚焦于Qwen2.5-Math-7B這一個模型就可以看到,在各種數據集和任務上,CFT的訓練效果都能全方位超越SFT。

圖片

論文將訓練后的Qwen2.5-Math-7B-CFT與知名的Llama、GPT系列,以及尤其擅長推理的Deepseek、Mathstral、Numina等系列模型進行了對比,結果如下表所示。

圖片

Qwen2.5-Math-7B-CFT的平均性能(48.1%)甚至優于參數量10倍的Llama-3.1-70B-Instruct(40.4%)和 NuminaMath-72B-CoT(39.1%),與Qwen2.5-Math-72B-Instruct(56.4%)相近。

此外,CFT訓練的模型在性能上也能夠與使用140倍計算資源訓練的SimpleRL模型(Deepseek R1的公開復制版)相媲美,使用的GPU時長降低到144分之一,相當于大幅削減了計算成本。

圖片

研究人員還對 CFT 的多個因素進行了消融研究。結果表明,CFT對于數據集來源、噪聲響應來源以及教師批判模型的選擇都具有較強的魯棒性。

例如,即使使用較弱的GPT-4o-mini模型生成批評意見,CFT仍然能夠取得顯著的性能提升。

圖片

局限與擴展

CFT訓練數據集中,作為gold standard的批評數據是由LLM生成的。作者手動檢查其中50個后,發現其中20%的批評意見本身就包含錯誤。這些錯誤可能會對模型的訓練產生一定的干擾,影響其最終性能。

此外,CFT訓練的模型目前還無法進行自我批評,因此尚未觀察到自我改進的效果。

該研究使用的數據集也存在代表性不足的問題,目前只是集中在數學問題上,而在編程以及科學,甚至人文相關的推理問題上,是否仍能采用類似的CFT模式進行訓練,有待研究。

CFT的優勢在于其對模型推理能力的顯著提升以及對訓練數據的高效利用。通過讓模型學會批判,等效于讓大模型進行單次的強化學習。

與現有的自我修正(Self-Correction)、獎勵模型(Reward Models)等方法相比,CFT的目標是通過批判學習來提升模型對問題的深入理解,而不是直接估計獎勵分數或進行自我修正。這種方法在推理任務中表現出了更強的適應性和靈活性。

更為關鍵的是,CFT的數據集構建和訓練過程相對簡單,計算成本較低,因此在實際應用中具有較高的可行性和經濟性。未來的研究可能會在提升批判數據質量和探索模型自我批判機制方面取得突破。

首先是開發自動驗證工具或創建人類驗證的批判數據集,提升批判數據的質量;而要發展出自我批判和自我改進的能力,則需要讓大模型通過用戶的反饋,實現模型的持續優化。

進一步的研究也可能包括將CFT與其他訓練范式,如SFT和RL相結合,擴展到多模態環境,并研究其理論基礎。

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-04-10 11:25:54

DebiansystemdDevuan Linu

2024-07-09 12:54:57

2017-09-07 09:56:07

復刻版現身筆記本

2020-03-25 20:30:59

火狐水狐瀏覽器

2025-05-12 08:24:01

2025-03-11 08:42:04

2018-02-07 15:05:10

Commodore 6電腦復刻版

2025-04-03 08:30:00

AI科學論文

2025-03-07 14:32:59

AI模型訓練

2020-05-21 11:29:58

復刻手機屏幕

2021-03-15 14:54:47

編譯器工具代碼

2024-11-15 14:00:00

AI論文

2025-03-25 10:27:14

SFT 指令微調

2025-01-17 11:07:28

2025-06-30 08:26:00

2023-04-06 15:45:00

博士論文

2019-12-12 10:20:30

計算機互聯網 技術

2021-04-24 16:40:55

計算機互聯網 技術

2013-04-19 09:36:26

BrightcoveKdigital云計算

2023-12-27 14:07:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

国产成人啪免费观看软件| 成人激情自拍| 一区二区在线看| 国产一区二区无遮挡 | 玉米视频成人免费看| 国产精品视频免费一区二区三区| 无码人妻丰满熟妇区bbbbxxxx| 成人久久久久| 亚洲国产高清福利视频| 亚洲欧美国产日韩综合| 182在线播放| 国产精品久久久久久久久免费桃花 | 亚洲美女网站18| 国产不卡一二三| 日韩高清在线| 午夜精品视频在线观看| 正义之心1992免费观看全集完整版| 中文字幕亚洲精品一区| 久久高清免费| 亚洲女人天堂网| 黑人无套内谢中国美女| 国产精品久久亚洲不卡| 亚洲国产成人精品视频| 亚洲最新在线| 国内精品一区视频| 北岛玲一区二区三区四区| 成人国产精品日本在线| 成人激情五月天| 一区二区亚洲视频| 欧美美女网站色| 成人羞羞国产免费网站| 国产精品蜜臀| 亚洲男人天堂av| 亚洲午夜久久久影院伊人| 日本亚洲一区| 99久久婷婷国产综合精品| 91成人免费在线观看| 在线免费观看日韩视频| 日精品一区二区| 日本精品久久中文字幕佐佐木 | 五月天中文字幕一区二区| 国产av第一区| 国内精品久久久久久野外| 国产精品天美传媒| 亚欧精品在线| www.91在线| 国内不卡的二区三区中文字幕| 国产国语videosex另类| 亚洲另类在线观看| 亚洲永久免费精品| 中文字幕欧美专区| 中文字幕av久久爽一区| 精品九九在线| 伊人av综合网| 成人欧美一区二区三区黑人一| 成人在线视频免费观看| 中日韩午夜理伦电影免费| 亚洲一区 欧美| 另类视频一区二区三区| 5858s免费视频成人| 亚洲在线观看网站| 激情五月综合婷婷| 欧美不卡一二三| 秘密基地免费观看完整版中文| 8848成人影院| 日韩成人网免费视频| 色综合天天色综合| 亚洲伦理一区二区| 欧美videos中文字幕| 污污免费在线观看| 亚洲桃色综合影院| 一区二区欧美日韩视频| 少妇视频一区二区| 欧美日本三区| 日韩在线资源网| 亚洲最大的黄色网址| 韩国亚洲精品| 欧美一区二区.| 亚洲国产精品久| 国产精品一线天粉嫩av| 亚洲图片欧洲图片av| 成人一级黄色大片| 国产在线观看成人| 亚洲男男av| 精品久久久久久久久久久久久久久久久| 波多野结衣办公室双飞| 日韩精品免费一区二区夜夜嗨| 欧美日韩一区高清| √天堂资源在线| 国产精品白浆| 日韩在线欧美在线国产在线| 欧美三级免费看| 久久动漫亚洲| 成人网中文字幕| 少妇喷水在线观看| 中文字幕欧美三区| 国产91沈先生在线播放| 日韩一级二级| 精品国产91洋老外米糕| 成人在线短视频| 日韩成人一级| 久久伊人精品视频| 日韩av片在线免费观看| 好吊视频一区二区三区四区| 国产成人拍精品视频午夜网站| 国产三级自拍视频| 久久久久久99久久久精品网站| 影音先锋男人的网站| 伊人网在线播放| 欧美日韩aaa| 添女人荫蒂视频| 欧美+日本+国产+在线a∨观看| 热99精品里视频精品| 性生活免费网站| 国产乱人伦偷精品视频不卡| 裸体丰满少妇做受久久99精品 | 精品自在线视频| 国产伦精品一区二区三区视频我| 国产伦理精品不卡| 色一情一乱一伦一区二区三区丨 | 中文字幕无人区二| 日韩啪啪电影网| 国产精品999| 无码精品一区二区三区在线| 一区二区三区在线观看网站| 一级片视频免费观看| 在线亚洲a色| 韩国国内大量揄拍精品视频| 亚洲精品国产精品国自产网站按摩| 97se亚洲国产综合自在线观| 日韩在线观看a| 国产精品毛片aⅴ一区二区三区| 亚洲最大在线视频| 日韩成人av毛片| www.在线成人| 免费看黄在线看| 亚洲综合色婷婷在线观看| 久久久精品视频成人| 日韩欧美综合视频| 精品亚洲porn| 在线观看欧美一区| 日韩国产一二三区| 日韩中文字幕免费视频| 欧美另类高清videos的特点| 国产婷婷色一区二区三区在线| 日日橹狠狠爱欧美超碰| 亚洲免费成人av在线| 欧美一区在线直播| 久热av在线| 91精品福利在线| 国产精品密蕾丝袜| 日韩国产欧美在线播放| 天堂资源在线亚洲资源| 美女久久久久久| 久久视频免费观看| www.中文字幕| 香蕉av福利精品导航| 色婷婷免费视频| 久久综合国产| 91精品久久久久久久| 囯产精品一品二区三区| 亚洲最大成人网4388xx| 在线免费看黄色片| 亚洲少妇在线| 欧美日韩精品不卡| 丁香婷婷久久| 粗暴蹂躏中文一区二区三区| 亚洲国产www| 黄色91在线观看| 无码一区二区三区在线| 蜜桃一区二区三区在线观看| 中文字幕色呦呦| 红杏成人性视频免费看| 日韩av色综合| 老司机在线永久免费观看| 日韩欧美在线1卡| 美女网站视频色| 国产老肥熟一区二区三区| 欧洲精品一区二区三区久久| 九九视频免费观看视频精品| 国产在线观看精品| 成人爽a毛片免费啪啪动漫| 成人中文字幕合集| 精品久久国产字幕高潮| 久一视频在线观看| 91视频xxxx| 中文字幕免费高清在线| 影音国产精品| 国产成人在线视频播放| 女人av一区| 国产欧美日韩另类视频免费观看| 日本福利视频网站| 成人av影院在线观看| 亚洲精品国产福利| 中文字幕一区二区久久人妻| 亚洲自拍偷拍av| x88av在线| 成人精品免费看| 91女神在线观看| 99精品视频免费| 亚洲美女自拍偷拍| 精品在线观看入口| 91久久大香伊蕉在人线| 欧美黑人疯狂性受xxxxx野外| 久久久精品国产网站| 国产三级在线看| 亚洲成人激情在线| 97超碰人人模人人人爽人人爱| 欧美日韩国产丝袜美女| 中文字幕在线观看成人| 欧美国产1区2区| 波多野结衣影院| 国内精品伊人久久久久av一坑| 99蜜桃臀久久久欧美精品网站| 午夜欧美视频| 一区二区三区|亚洲午夜| 欧美精品中文| 国产日韩欧美精品| 国产精品亚洲一区二区在线观看| 国产精品福利无圣光在线一区| 国产经典三级在线| 精品自在线视频| 国产原创精品视频| 日韩中文字幕第一页| 国产香蕉在线| 亚洲欧美国产精品久久久久久久 | 石原莉奈在线亚洲二区| 久久精品国产精品国产精品污| 香蕉久久一区| 国产精品一区二区久久精品| 外国成人直播| 日本亚洲欧洲色α| 一区二区三区电影大全| 国内精品免费午夜毛片| 影音先锋男人资源在线| 蜜月aⅴ免费一区二区三区| 欧美黄色激情| www.日韩免费| 日本不卡三区| 久久久国产精品免费| 永久免费av在线| 色哟哟入口国产精品| 成年在线观看免费人视频| 亚洲视频综合网| 精品久久久久一区二区三区| 亚洲图片欧美午夜| а天堂8中文最新版在线官网| 亚洲免费小视频| 久草福利在线| 一区二区日韩精品| 天堂аⅴ在线地址8| 中文字幕日韩欧美| 日本三级视频在线观看| 久久精品在线播放| 3d玉蒲团在线观看| 欧美激情a∨在线视频播放 | 国产91精品久久久久久久| 鲁鲁在线中文| 中文字幕精品久久| 视频免费一区| 欧美成人亚洲成人日韩成人| 人人超在线公开视频| 国产一区二区日韩| av资源网在线观看| 北条麻妃一区二区三区中文字幕| 国产在线二区| 久久久久久18| 麻豆网站免费在线观看| 国产精品96久久久久久又黄又硬| 韩国理伦片久久电影网| 91久久伊人青青碰碰婷婷| 国产成人在线中文字幕| 欧美性色黄大片人与善| 视频在线不卡免费观看| 亚洲色婷婷久久精品av蜜桃| 影音先锋久久久| 另类小说第一页| 亚洲国内欧美| 日本在线视频www| 久久精品久久久精品美女| 国产chinesehd精品露脸| a级精品国产片在线观看| 亚洲精品视频久久久| 中文字幕一区二区三区精华液 | 国产精品红桃| 欧美v在线观看| 国产精品啊啊啊| 1024av视频| 老司机免费视频一区二区三区| ass极品水嫩小美女ass| 久久夜色精品国产噜噜av| 日本女人性生活视频| 亚洲福利视频一区| 中文字幕乱码中文字幕| 亚洲国产女人aaa毛片在线| av资源在线观看免费高清| 国内精品久久久久影院优| 久久久加勒比| 久久久久久草| 在线电影一区二区| 亚洲人成无码www久久久| 国产精品资源在线观看| av网在线播放| 亚洲国产精品自拍| 97久久人国产精品婷婷| 日韩av在线网| 中文字幕免费高清电视剧网站在线观看| 精品久久久久久久久国产字幕 | 国产情侣av自拍| 国内久久精品视频| av黄色在线免费观看| 亚洲精品免费在线| 最新在线中文字幕| 日韩成人激情在线| 懂色av一区| 91最新在线免费观看| 成人a'v在线播放| 日韩av三级在线| 丁香桃色午夜亚洲一区二区三区| www.99re6| 欧美亚洲自拍偷拍| 久色视频在线| 欧美性受xxxx白人性爽| 88久久精品| 超碰超碰超碰超碰超碰| 麻豆精品视频在线观看视频| 亚洲做受高潮无遮挡| 午夜激情久久久| 亚洲国产精品久久久久久久| 精品国产美女在线| 另类一区二区三区| 色综合久久av| 日韩成人精品在线| 国产aⅴ激情无码久久久无码| 欧美日韩国产中字| 四虎永久在线观看| 久久久久免费精品国产| 97久久综合区小说区图片区| 中文字幕精品一区日韩| 久久99精品视频| chinese全程对白| 欧美精品第1页| 成人免费网站在线观看视频| 麻豆国产精品va在线观看不卡| 91精品店在线| 色之综合天天综合色天天棕色| 日韩国产欧美在线观看| 成年人在线免费看片| 在线观看视频91| 国产xxxx在线观看| 久热99视频在线观看| 国产视频网站一区二区三区| 视频一区二区视频| 国精产品一区一区三区mba桃花| 18啪啪污污免费网站| 欧美精品一二三区| 菠萝菠萝蜜在线观看| 97人人模人人爽人人喊38tv| 在线精品亚洲| 好吊一区二区三区视频| 色94色欧美sute亚洲线路一久| 天天综合永久入口| 日本精品va在线观看| 国产日产一区| 日韩av片专区| 亚洲午夜激情av| 一女二男一黄一片| 久久久91精品国产| 91精品短视频| 午夜精品久久久内射近拍高清 | 久久精品国产精品亚洲综合| 成熟的女同志hd| 亚洲黄一区二区| 天然素人一区二区视频| 中国黄色录像片| 成人动漫视频在线| 日本一本在线观看| 久久精品亚洲一区| 久久国产精品色av免费看| 妺妺窝人体色www在线小说| 中文字幕欧美日本乱码一线二线| 97免费观看视频| 78色国产精品| 97精品国产福利一区二区三区| 中文写幕一区二区三区免费观成熟| 精品久久久国产| 日本激情在线观看| 国内精品视频免费| 久久精品久久99精品久久| 国产精品99精品无码视| 亚洲一区999| 99a精品视频在线观看| 日韩视频在线免费看| 有坂深雪av一区二区精品| 黄色在线播放| 成人在线免费网站| 欧美a一区二区| 国产精品suv一区二区69| 一区二区三区日韩在线| 凹凸成人在线|