精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型訓(xùn)練新突破!“不對稱”訓(xùn)練讓AI學(xué)會自我反思,推理零開銷

人工智能 新聞
在訓(xùn)練時讓模型對自己的輸出結(jié)果進(jìn)行反思和評估,推理時卻僅輸出答案,將反思能力完全內(nèi)化。

首次實現(xiàn)“訓(xùn)練-推理不對稱”,字節(jié)團(tuán)隊提出全新的語言模型訓(xùn)練方法:Post-Completion Learning (PCL)。

在訓(xùn)練時讓模型對自己的輸出結(jié)果進(jìn)行反思和評估,推理時卻僅輸出答案,將反思能力完全內(nèi)化

與目前主流的訓(xùn)練方式相比,這一創(chuàng)新方法不僅實現(xiàn)了模型能力的顯著提升,更重要的是推理時完全零額外開銷

測試結(jié)果顯示,PCL方法在保持推理效率的同時,顯著提升了模型的輸出質(zhì)量和自我評估能力,為大語言模型訓(xùn)練開辟了全新技術(shù)路徑。

圖片

下面通過實際的對話案例,直觀展示PCL的訓(xùn)練和推理效果。例如,對于如下問題:

小明手里有50塊錢,巧克力7塊錢一顆,小明買了5顆,還剩多少錢?

模型在訓(xùn)練時,會完整輸出以下內(nèi)容,并通過多目標(biāo)優(yōu)化同時提升其推理、評估能力:  

think: 小明買了五顆巧克力,一共花費(fèi) 5*7=35 元;因此,小明還剩下 50-35=15 元。
answer: 15
<post>
evaluation: 讓我重新檢查一下我的回答過程。首先,我的兩步計算過程:5*7=35,50-35=15 都是準(zhǔn)確的,因此我的最終答案應(yīng)該是正確的,可以獲得 accuracy reward。其次,我的輸出也符合正確的格式,包含了 think + answer 兩部分內(nèi)容,因此也可以獲得 format reward。
reward: {accuracy reward:1, format reward: 1}

在推理時,模型以<post>作為新的結(jié)束符,只需要輸出推理部分的內(nèi)容:

think: 小明買了五顆巧克力,一共花費(fèi) 5*7=35 元;因此,小明還剩下 50-35=15 元。 answer: 15

可以看到,模型在推理時完全不輸出evaluation部分,從而無需任何額外的推理開銷。而通過在訓(xùn)練時進(jìn)行自我反思和評估,模型的實際能力也得到了提升,這一點在實驗中得到了驗證。

方法

1 突破性的“不對稱訓(xùn)練”范式

傳統(tǒng)語言模型訓(xùn)練存在一個根本性限制:訓(xùn)練和推理必須完全對稱

現(xiàn)有方法通常以結(jié)束符(EOS)作為序列終止點,模型的學(xué)習(xí)目標(biāo)也僅限于預(yù)測到結(jié)束符為止的內(nèi)容,形成了“訓(xùn)練什么就輸出什么”的對稱約束,就像學(xué)生考試時必須把所有思考過程都寫在答卷上。然而,人類在完成答題后往往會進(jìn)行檢查,反思和評估自己的回答質(zhì)量,而大模型卻缺少了這個關(guān)鍵的自我反思環(huán)節(jié)。

PCL方法首次打破了這種對稱性約束,實現(xiàn)了訓(xùn)練的創(chuàng)新,其核心思路簡單而巧妙

  • 訓(xùn)練時:將原始的EOS替換為臨時結(jié)束符,讓模型繼續(xù)輸出自我評估和質(zhì)量預(yù)測
  • 推理時:模型在處直接停止,無需輸出后續(xù)的評估部分

這樣一來,模型在訓(xùn)練階段學(xué)會了”內(nèi)省”的能力,但部署時保持原有計算效率。實驗結(jié)果表明,通過在訓(xùn)練時評估自己的答案,模型本身的回答能力也得到了提升。

圖片

PCL 方法示意圖:(a) 傳統(tǒng)方法以結(jié)束符作為訓(xùn)練的終點;(b) 方法在訓(xùn)練時,首先將其替換為臨時結(jié)束符 ,然后在后面繼續(xù)加入自我反思、自我評估的部分;(c) 在推理時,將臨時結(jié)束符 作為新的結(jié)束符,作為輸出的終止,從而避免了額外的推理開銷。

2 白盒化強(qiáng)化學(xué)習(xí):讓AI學(xué)會“自我評價”

為了有效利用這一點,研究團(tuán)隊提出了另一項創(chuàng)新:實現(xiàn)了強(qiáng)化學(xué)習(xí)過程的白盒化

這一點也是基于目前對強(qiáng)化學(xué)習(xí)的普遍認(rèn)知:大模型依賴并被動接受外部的獎勵信號,難以理解獎勵函數(shù)的機(jī)制,其優(yōu)化過程更像是一個黑盒,優(yōu)化效果較差。

PCL的白盒化設(shè)計則截然不同:直接教會模型如何計算獎勵,讓模型主動進(jìn)行自我評估,因此其訓(xùn)練過程完全透明可解釋。利用模型自己輸出的評估結(jié)果,與外部獎勵函數(shù)的結(jié)果進(jìn)行對齊,從而監(jiān)督模型的評估能力。

就像從“老師打分”變成了“學(xué)生自己會打分”,模型不僅學(xué)會了做題,還學(xué)會了評分標(biāo)準(zhǔn),知道應(yīng)該從哪些角度去得分,從而實現(xiàn)更高效的優(yōu)化。

圖片

白盒化強(qiáng)化學(xué)習(xí)的對話示意圖,教會模型如何計算獎勵,并設(shè)計一致性獎勵函數(shù)用于對齊

3 統(tǒng)一混合訓(xùn)練框架

在具體實現(xiàn)上,PCL 實現(xiàn)了統(tǒng)一 SFT + RL 訓(xùn)練框架,進(jìn)行多目標(biāo)的聯(lián)合優(yōu)化。這種混合訓(xùn)練范式也在最近的不少工作中得到驗證。

圖片

  • 推理能力 SFT:使用推理數(shù)據(jù)集,專注于 think + answer 部分,訓(xùn)練模型回答問題的能力
  • 評估能力 SFT:使用教師輸出進(jìn)行蒸餾,專注于 evaluation + reward 部分,讓模型基于完整推理過程進(jìn)行評估
  • 推理能力 GRPO:使用 accuracy + format 獎勵函數(shù),驗證答案與格式的正確性。獎勵函數(shù)因任務(wù)而異,可以拓展到更多的場景
  • 評估能力 GRPO:設(shè)計了一致性獎勵函數(shù),指導(dǎo)模型預(yù)測出準(zhǔn)確的獎勵得分

各優(yōu)化目標(biāo)在統(tǒng)一框架中混合訓(xùn)練,將監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)優(yōu)化(GRPO)完美融合,實現(xiàn)多目標(biāo)協(xié)同優(yōu)化。

實驗結(jié)果

作者設(shè)置了多種實驗,驗證了PCL的各組成部分的效果:

  • 對比 SFT, RL 等經(jīng)典訓(xùn)練方法,對比混合訓(xùn)練策略
  • 消融驗證 PCL 中的評估 SFT、一致性獎勵函數(shù)的效果

圖片

實驗結(jié)果上,論文在數(shù)學(xué)推理、邏輯推理兩個領(lǐng)域的數(shù)據(jù)集,分別在 Qwen-2.5 和 Llama-3.2 不同尺寸的模型上都取得了普遍正向的指標(biāo)提升,消融實驗也驗證了方法并非完全依賴蒸餾或強(qiáng)化學(xué)習(xí)策略,而是有效利用了自我評估,提升了模型的內(nèi)在推理能力。

圖片

圖片圖片

結(jié)論

PCL方法的提出,為語言模型訓(xùn)練領(lǐng)域帶來了三個重要啟示:

  • EOS后空間的價值:被忽視的訓(xùn)練空間蘊(yùn)含巨大潛力,自我評估能夠提升推理能力
  • 白盒化RL的可能:強(qiáng)化學(xué)習(xí)不必是“黑盒子”,提升可解釋性可以學(xué)得更好
  • 訓(xùn)練推理解耦:復(fù)雜訓(xùn)練+簡潔推理的平衡,“不對稱”的訓(xùn)練+推理過程

這種不對稱訓(xùn)練的新范式,既能顯著提升訓(xùn)練效果,又無需額外推理開銷,有望成為未來大模型訓(xùn)練的標(biāo)準(zhǔn)做法

論文鏈接:https://arxiv.org/abs/2507.20252

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-10-17 09:00:00

AI模型代碼

2023-10-11 12:32:53

AI模型

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-05-12 14:29:16

絕對零外部數(shù)據(jù)訓(xùn)練法

2025-09-24 09:10:24

2025-06-18 09:03:07

2025-04-01 09:54:09

AI算法大模型AI

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2025-05-16 08:58:09

2025-06-13 09:29:51

2023-06-09 07:29:03

模型文本document

2025-06-09 09:32:35

2025-01-09 08:01:10

2015-08-03 15:06:13

2024-07-01 20:45:55

2023-09-25 07:31:19

算力AI框架

2025-08-08 06:00:00

大模型AI推理AI大模型

2010-02-22 16:02:01

不對稱交換機(jī)

2024-02-19 00:21:45

開源圖片

2010-03-22 18:01:17

對稱交換機(jī)
點贊
收藏

51CTO技術(shù)棧公眾號

一道本一区二区三区| 色综合久久影院| 99pao成人国产永久免费视频| 精品国偷自产国产一区| 免费看的黄色大片| 日本视频在线| 99r精品视频| 国产免费一区二区三区在线观看| 久草成人在线视频| 欧美日韩伦理在线免费| 日韩欧美中文字幕一区| 亚洲人成无码www久久久| jizz性欧美10| 欧美极品aⅴ影院| 亚洲第一成人在线| 精品国产乱码久久久久久久| 国产91xxx| 日本www在线观看| 99国内精品久久| 亚洲a一级视频| 波多野结衣一二区| 91久久黄色| 日韩视频亚洲视频| 高潮毛片无遮挡| 波多野结衣一区二区三区免费视频| 欧美性猛交xxxxxxxx| 丰满少妇久久久| 亚洲91av| 中文字幕在线免费不卡| 欧美午夜免费| 天堂91在线| 国产成人8x视频一区二区| 国产精品成人品| 九九热在线免费观看| 伊人狠狠色j香婷婷综合| 久久久久999| 青青青手机在线视频| 精品一区免费| 亚洲欧美国产视频| 亚洲综合自拍网| 成人直播在线观看| 欧美变态口味重另类| 天堂av.com| 在线成人免费| 欧美性猛交xxxx黑人交| 91av俱乐部| gogo亚洲高清大胆美女人体| 一区二区三区国产豹纹内裤在线 | 蜜桃传媒一区二区三区| 99在线播放| 一区二区三区鲁丝不卡| 50度灰在线观看| 超碰在线观看免费版| 最新不卡av在线| 99久久久无码国产精品性色戒| www.中文字幕久久久| 中文字幕第一区二区| 天天爽天天狠久久久| 2021av在线| 18欧美亚洲精品| 三级在线免费观看| 国内高清免费在线视频| 亚洲第一久久影院| av黄色在线网站| 老司机2019福利精品视频导航| 欧美色xxxx| 91色国产在线| 精品欧美日韩精品| 8v天堂国产在线一区二区| 性生活一级大片| 成人看片黄a免费看视频| 亚洲精品456在线播放狼人| 亚洲蜜桃精久久久久久久久久久久| 精品亚洲自拍| 亚洲视频国产视频| 国产精品视频看看| 欧美日韩国产免费观看| 97超碰蝌蚪网人人做人人爽| 色av性av丰满av| 麻豆成人免费电影| av在线亚洲男人的天堂| 日韩美女一级视频| 国产精品婷婷午夜在线观看| 中国一级黄色录像| 第一av在线| 欧美一a一片一级一片| 日本亚洲一区二区三区| 伊人久久大香线蕉无限次| 日韩视频免费大全中文字幕| www.av视频在线观看| 日韩国产欧美视频| av免费精品一区二区三区| 你懂的视频在线观看| 成人免费一区二区三区视频| jizzjizz国产精品喷水| 久久亚洲国产精品尤物| 亚洲成人网av| 国产欧美小视频| 亚洲精选一区| 成人免费看黄网站| 你懂的在线免费观看| 亚洲免费视频中文字幕| 国产精品无码专区av在线播放| 动漫一区二区三区| 亚洲欧洲午夜一线一品| 欧美黄色免费观看| 青青草国产精品亚洲专区无| 福利视频一区二区三区| 日本中文在线| 欧美性猛交丰臀xxxxx网站| 久久人人爽人人片| 精品久久电影| 91地址最新发布| 国产aⅴ一区二区三区| 国产欧美日韩综合精品一区二区| 欧美中文字幕在线观看视频 | 国产欧美日韩综合精品| 四虎成人免费在线| 亚洲一卡二卡三卡四卡五卡| 亚洲综合欧美在线| 猛男gaygay欧美视频| 久久久久五月天| 国产女无套免费视频| 国产清纯白嫩初高生在线观看91 | 亚洲一区二区在线观| 国产777精品精品热热热一区二区| 欧美精品乱码久久久久久| 国产成人av一区二区三区不卡| 欧美日一区二区三区在线观看国产免| 国产精自产拍久久久久久| 邻居大乳一区二区三区| 欧美精品一区二区三区在线看午夜| 中文字幕久久一区| 性欧美又大又长又硬| 日韩欧美亚洲另类制服综合在线| 成人黄色a级片| 久久午夜激情| 欧美福利精品| 亚洲欧洲美洲av| 亚洲精品国产欧美| 精品无码人妻一区二区三区品| 久草在线在线精品观看| 一区二区高清视频| 日本午夜免费一区二区| 在线播放国产一区二区三区| 久久亚洲精品石原莉奈| 久久一日本道色综合| avav在线看| 蜜桃一区二区三区| 国产z一区二区三区| 九色在线视频蝌蚪| 欧美最新大片在线看| 在线视频第一页| 另类小说一区二区三区| 一区二区三区视频| 日韩精品成人在线观看| 欧美日韩国产成人在线| 人妻va精品va欧美va| 精品国产乱码久久久久酒店| a视频免费观看| 日本在线不卡视频一二三区| 亚洲午夜在线观看| 国产成人视屏| 欧美激情日韩图片| 日韩在线一区二区三区四区| 欧美日韩在线视频一区| 精品一区二区视频在线观看| 老司机久久99久久精品播放免费 | 红杏一区二区三区| 欧美一区二区三区免费视| 黄网站在线观看| 欧美人狂配大交3d怪物一区| 欧美日韩精品一区二区三区视频播放 | 亚洲综合色在线观看| 婷婷伊人综合| 国产日韩一区欧美| 国产私拍福利精品视频二区| 久久成人18免费网站| 人妻一区二区三区| 欧美在线色视频| 久久国产露脸精品国产| 久久蜜桃一区二区| 手机免费看av网站| 亚洲茄子视频| 日韩三级电影免费观看| 午夜日韩影院| 国产精品久久久久久婷婷天堂 | 97国产成人精品视频| 欧美91精品久久久久国产性生爱| 欧美精品丝袜久久久中文字幕| 久久婷婷国产麻豆91| 国产欧美一区二区三区在线老狼| 精品国产午夜福利在线观看| 亚洲专区一区| 国产手机视频在线观看| 欧美女优在线视频| 91久久久一线二线三线品牌| 国产免费不卡| 久久久免费在线观看| 成人免费在线观看| 亚洲高清福利视频| 国产一区二区三区三州| 疯狂做受xxxx欧美肥白少妇| 丝袜美腿小色网| 国产免费观看久久| 波多野结衣办公室双飞| 日韩中文欧美在线| 亚洲熟妇无码一区二区三区导航| 欧美激情国产在线| 麻豆91av| 精品丝袜久久| 成人在线视频网址| 欧美v亚洲v综合v国产v仙踪林| 7m精品福利视频导航| 综合久久2019| 久久亚洲国产成人| 成人av电影观看| 国产丝袜一区二区| 乱色精品无码一区二区国产盗| 欧美日韩电影一区| 亚洲中文一区二区| 欧美视频二区36p| 国产精品成人网站| 一区二区三区蜜桃| 深夜福利影院在线观看| 国产精品国产三级国产普通话蜜臀| 中文字幕狠狠干| 成人av免费在线| 美女伦理水蜜桃4| 国产精品一区二区三区网站| 污污的网站免费| 免费不卡在线视频| 国产一区二区在线免费播放| 久久久噜噜噜| 成人黄色片视频| 乱码第一页成人| 丰满少妇被猛烈进入高清播放| 亚洲视频高清| 97在线国产视频| 欧美婷婷在线| 丁香六月激情婷婷| 亚洲国产欧美国产综合一区| 97干在线视频| 影音先锋亚洲一区| 18禁网站免费无遮挡无码中文 | 国自在线精品视频| 91白丝在线| 欧美亚洲在线观看| 韩日成人影院| 国产精品自产拍在线观| 成人在线视频免费| 成人福利视频在线观看| 99久久999| 91在线播放国产| 一区二区精彩视频| 国产精品一区二区三区免费观看| 精品深夜福利视频| 欧美精品123| 欧美亚洲国产一区| 永久免费在线看片视频| 欧美日韩精品| 欧美 日韩 激情| 日韩精品午夜视频| 一级黄色片在线免费观看| 国产成人午夜视频| 久久无码人妻精品一区二区三区| 久久精品日韩一区二区三区| 成人免费视频入口| 亚洲激情图片小说视频| 国产a∨精品一区二区三区仙踪林| 福利二区91精品bt7086| 在线视频1卡二卡三卡| 日韩亚洲欧美中文三级| 婷婷av一区二区三区| 亚洲午夜未满十八勿入免费观看全集 | 欧美一级视频免费看| 久久精品日韩欧美| 制服丝袜中文字幕第一页| 成人国产精品免费观看动漫| 亚洲天堂久久新| 亚洲三级在线看| 日韩高清精品免费观看| 欧美性大战xxxxx久久久| 99在线精品视频免费观看20| 日韩大陆欧美高清视频区| 午夜精品一区| 91精品国产91久久久久| 九九久久国产| 国产一区免费观看| 久久一区二区三区电影| 波多野结衣之无限发射| 麻豆中文一区二区| 久久久久9999| 亚洲蜜臀av乱码久久精品蜜桃| 欧美特黄aaaaaa| 欧美一级高清大全免费观看| 欧洲毛片在线| 欧美黑人巨大xxx极品| 成人网ww555视频免费看| 99在线视频首页| 97在线精品| 黑鬼大战白妞高潮喷白浆| 高清视频一区二区| 免费看一级黄色| 一本大道av伊人久久综合| 精品久久久久成人码免费动漫| 一本色道久久综合狠狠躁篇的优点| 青草视频在线免费直播| 91精品国产综合久久香蕉的用户体验 | 成人免费视频视频在线观看免费| 刘亦菲国产毛片bd| 欧美视频在线免费| 丰满熟妇人妻中文字幕| 日韩在线视频中文字幕| 欧美91看片特黄aaaa| 国产高清不卡av| 91精品国产福利在线观看麻豆| www.国产区| 91啪亚洲精品| 日韩欧美一区二区一幕| 日韩视频免费观看高清完整版 | 国产一二在线观看| 国产91精品黑色丝袜高跟鞋| 6080成人| 欧美交换配乱吟粗大25p| 九一九一国产精品| 一本在线免费视频| 在线观看不卡一区| 免费看男男www网站入口在线 | 中文字幕日韩综合av| 国产日韩电影| 欧美日韩一区二区三| 99精品视频免费观看| yjizz视频| 亚洲大片精品永久免费| 黄色av一区二区三区| 欧美高清不卡在线| 亚洲国产视频二区| 999久久欧美人妻一区二区| 国产高清成人在线| 久久久久无码精品国产| 日韩欧美一级在线播放| 在线播放免费av| 成人三级在线| 激情综合中文娱乐网| 欧美激情一区二区三区p站| 亚洲成av人片一区二区三区| 女人18毛片水真多18精品| 91精品国产网站| 亚洲色图美女| 美女喷白浆视频| 中文字幕亚洲电影| 国产极品999| 韩剧1988免费观看全集| 亚洲区小说区图片区qvod按摩| 国产精品亚洲a| 国产精品久久午夜夜伦鲁鲁| 国产男男gay体育生白袜| 欧美老女人性生活| 加勒比色综合久久久久久久久 | 久久午夜影视| 亚洲一二三四五六区| 欧美一区二区在线免费播放| 蜜桃传媒在线观看免费进入 | 欧美丝袜一区二区| 岛国在线视频| 91中文在线视频| 最新国产拍偷乱拍精品| 日韩一区二区a片免费观看| 欧美日本在线播放| 性xxxfreexxxx性欧美| 久久亚裔精品欧美| 毛片不卡一区二区| 久久久久香蕉视频| 亚洲欧洲免费视频| 国产精品欧美一区二区三区不卡| 蜜臀av色欲a片无码精品一区| 久久综合狠狠综合| 在线免费观看视频黄| 超碰97久久国产精品牛牛| 国模吧无码一区二区三区| 中文字幕不卡的av| 亚洲精品福利网站| 国产成人综合精品在线| 欧美在线免费一级片| 欧美色图亚洲激情| 91精品一区二区三区久久久久久 | 欧美日韩亚洲高清| 欧美jizz18hd性欧美| 国产精品欧美久久| 麻豆精品久久精品色综合| 国产在线视频卡一卡二| 夜夜嗨av色综合久久久综合网| 日韩在线精品强乱中文字幕| 日本在线视频www| 亚洲在线中文字幕| 色的视频在线免费看| 国产乱子伦精品| 激情av综合网| 波多野结衣午夜|