精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

性能提升11.74%!騰訊優(yōu)圖提出激勵(lì)推理,專攻復(fù)雜指令

人工智能 新聞
騰訊優(yōu)圖(UTU)研究團(tuán)隊(duì)提出一種系統(tǒng)性方法——激勵(lì)推理(Incentivizing Reasoning ),來提升LLM處理復(fù)雜指令的能力。

現(xiàn)有的語言大模型(LLMs)在復(fù)雜指令下的理解和執(zhí)行能力仍需提升。

騰訊優(yōu)圖(UTU)研究團(tuán)隊(duì)提出一種系統(tǒng)性方法——激勵(lì)推理(Incentivizing Reasoning ),來提升LLM處理復(fù)雜指令的能力。

圖片

結(jié)果顯示,該方法能夠有效提升大多數(shù)LLM進(jìn)行復(fù)雜指令深度處理時(shí)的表現(xiàn),并在1.5B參數(shù)的LLM上實(shí)現(xiàn)了11.74%的性能提升,表現(xiàn)可媲美8B參數(shù)的LLM。

背景:難處理復(fù)雜指令與約束條件

現(xiàn)有的大語言模型(LLMs)在遵循復(fù)雜指令時(shí)面臨挑戰(zhàn),尤其當(dāng)多重約束以并行、鏈?zhǔn)胶头种ЫY(jié)構(gòu)組織時(shí),LLMs難以厘清真正的指令與約束條件。

一個(gè)直觀的解決方案是通過“思維鏈”(CoT)來普遍提升LLMs的指令跟隨能力。

然而研究團(tuán)隊(duì)發(fā)現(xiàn),原始的CoT由于其表層的推理模式,即僅僅是對(duì)指令的簡(jiǎn)單釋義與重復(fù),卻對(duì)性能產(chǎn)生了負(fù)面影響。樸素的CoT未能剖析約束的組成部分,也無法識(shí)別不同層級(jí)類型和維度關(guān)系。

為此,研究團(tuán)隊(duì)提出了一種系統(tǒng)性方法,通過激勵(lì)推理能力來提升LLM處理復(fù)雜指令的能力:首先,基于現(xiàn)有分類法對(duì)復(fù)雜指令進(jìn)行分解,提出了一種基于開源數(shù)據(jù)與已有約束結(jié)構(gòu)的數(shù)據(jù)生產(chǎn)方法。其次,利用帶有可驗(yàn)證、以規(guī)則為中心的獎(jiǎng)勵(lì)建模,通過強(qiáng)化學(xué)習(xí)(RL)培養(yǎng)模型在遵循指令時(shí)的推理能力。

圖片

方法:從數(shù)據(jù)生產(chǎn)方法到推理能力

復(fù)雜規(guī)則與約束的復(fù)雜指令數(shù)據(jù)生產(chǎn)

針對(duì)復(fù)雜指令集的數(shù)量問題,研究團(tuán)隊(duì)基于現(xiàn)有分類法對(duì)復(fù)雜指令進(jìn)行分解,提出了一種基于開源數(shù)據(jù)與已有約束結(jié)構(gòu)的數(shù)據(jù)生產(chǎn)方法以及校驗(yàn)準(zhǔn)則的方法。

種子指令挑選:團(tuán)隊(duì)從WildChat和Alpaca等數(shù)據(jù)集中多樣化地篩選種子指令,并通過主題和任務(wù)標(biāo)簽進(jìn)行細(xì)致挑選。

帶規(guī)則約束的指令發(fā)散:團(tuán)隊(duì)在細(xì)粒度規(guī)則和約束下自演化指令,結(jié)合代碼執(zhí)行和LLM判別兩種驗(yàn)證方式,確保生成指令的多樣性和有效性。

回復(fù)生產(chǎn)與質(zhì)量校驗(yàn):團(tuán)隊(duì)利用LLM生成回復(fù)并通過多重驗(yàn)證篩除低質(zhì)量樣本,同時(shí)用LLM判別典型問題以保證指令和回復(fù)的合理性。

圖片

面向復(fù)雜指令任務(wù)下推理的強(qiáng)化學(xué)習(xí)

團(tuán)隊(duì)提出利用強(qiáng)化學(xué)習(xí)(RL)方法(采用GRPO算法),通過規(guī)則驅(qū)動(dòng)的獎(jiǎng)勵(lì)機(jī)制,優(yōu)化大語言模型在復(fù)雜指令下的結(jié)構(gòu)化推理能力,提升最終答案的準(zhǔn)確性。

基于規(guī)則的獎(jiǎng)勵(lì)建模:團(tuán)隊(duì)設(shè)計(jì)了基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),分別對(duì)推理格式和多約束滿足度進(jìn)行評(píng)價(jià),結(jié)合啟發(fā)式與獎(jiǎng)勵(lì)模型,實(shí)現(xiàn)對(duì)復(fù)雜指令響應(yīng)的精細(xì)化引導(dǎo)。

經(jīng)驗(yàn)回放緩沖區(qū)篩選:團(tuán)隊(duì)引入自適應(yīng)經(jīng)驗(yàn)回放機(jī)制,通過對(duì)比有無推理過程的樣本表現(xiàn),篩選并強(qiáng)化能帶來更優(yōu)結(jié)果的推理鏈,提升模型在復(fù)雜任務(wù)下的推理有效性。

策略模型分布偏移控制:采用行為克隆約束策略分布,防止模型在片面追求約束滿足時(shí)犧牲語義或遺忘原有知識(shí),確保推理內(nèi)容與答案的語義一致性和流暢性。

結(jié)果與討論

與基線方法的比較

此方法能有效提升大多數(shù)現(xiàn)有LLM在處理復(fù)雜指令時(shí)的表現(xiàn),體現(xiàn)了深度推理的泛化能力。

相比之下,CoT提示會(huì)導(dǎo)致所有模型性能大幅下降,進(jìn)一步證實(shí)了淺層思考的負(fù)面影響。SDC方法將推理與回答分為兩步,但由于其本質(zhì)上的表面性,仍未能提升推理質(zhì)量。

SFT技術(shù)通過知識(shí)蒸餾讓小模型模仿強(qiáng)模型的推理模式,保證了思考的深度和廣度。但SFT的缺點(diǎn)是對(duì)訓(xùn)練外樣本的泛化能力較差。基于RL的訓(xùn)練方式則教會(huì)LLM如何思考,推動(dòng)多樣化推理的自我發(fā)展,而非簡(jiǎn)單記憶。

圖片

不同模型大小與基座的比較

小模型(1.5B)在訓(xùn)練中獲得的提升遠(yuǎn)大于大模型,顯示了小模型通過測(cè)試時(shí)擴(kuò)展的潛力。

DeepSeek蒸餾的LLM因廣泛模仿任務(wù)而在推理的結(jié)構(gòu)學(xué)習(xí)上有更好的起點(diǎn)。Ministral和LLaMA的能力不如Qwen,且LLaMA3.1-8B在訓(xùn)練中出現(xiàn)模型崩潰。

LLaMA模型在訓(xùn)練中出現(xiàn)響應(yīng)急劇縮短和KL懲罰激增,表明其偏離初始狀態(tài)。這可能與底座模型的預(yù)訓(xùn)練知識(shí)有關(guān),LLaMA傾向于無休止地生成思考,難以輸出一致的語義響應(yīng),最終導(dǎo)致崩潰。

圖片

與SOTA方法的比較

團(tuán)隊(duì)在ComplexBench上實(shí)現(xiàn)了多種SOTA方法,并在最復(fù)雜的Chain和Selection類別上表現(xiàn)出色。這表明深度推理確實(shí)有助于LLM分析并完成真正相關(guān)且有約束的請(qǐng)求。

圖片

推理模式的變化

關(guān)鍵詞如“first”“second”等的變化顯示,所有LLM在CFBench和ComplexBench等高難度基準(zhǔn)上推理詞頻增加,證實(shí)了深度推理的重要性。對(duì)于沒有復(fù)雜結(jié)構(gòu)的指令,慢思考LLM的關(guān)鍵詞頻率隨著響應(yīng)長(zhǎng)度變短而略有下降。

圖片

數(shù)學(xué)數(shù)據(jù)的重要性

DeepScaleR在推理能力培養(yǎng)上起到了積極作用,數(shù)學(xué)題數(shù)量的增加與CoT token增長(zhǎng)和性能提升正相關(guān)。

圖片

篩選機(jī)制的作用

優(yōu)秀CoT樣本比例先降后升,說明訓(xùn)練中淺層到深層推理的轉(zhuǎn)變被促進(jìn),最終帶來更高獎(jiǎng)勵(lì)的響應(yīng)。經(jīng)驗(yàn)回放中篩選優(yōu)秀CoT樣本有助于滿足輸出格式約束,防止劣質(zhì)推理獲得獎(jiǎng)勵(lì),并為模仿專家思維留出時(shí)間。

圖片

團(tuán)隊(duì)發(fā)現(xiàn),直接模仿專家推理不僅鼓勵(lì)模型獲得格式獎(jiǎng)勵(lì),還能穩(wěn)定訓(xùn)練并彌補(bǔ)規(guī)則獎(jiǎng)勵(lì)的不足。

論文地址:https://arxiv.org/pdf/2506.01413
項(xiàng)目地址:https://github.com/yuleiqin/RAIF
數(shù)據(jù):https://huggingface.co/collections/yolay/raif-arxivorg-pdf-250601413-682b16e5c0c2fa9b73811369

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-09-29 10:40:00

數(shù)據(jù)模型

2024-12-30 08:50:00

AI數(shù)據(jù)訓(xùn)練

2023-06-20 13:44:49

清華推理

2022-03-31 10:51:20

算法訓(xùn)練研究

2025-02-20 09:36:45

2025-10-23 08:50:32

2025-06-04 08:35:00

2024-04-11 08:00:00

人工智能機(jī)器學(xué)習(xí)

2024-08-06 11:30:00

2017-09-22 14:18:07

AI視覺技術(shù)

2022-03-02 09:53:22

計(jì)算Transforme性能

2020-01-14 09:13:48

Tomcat調(diào)優(yōu)配置

2017-04-11 17:11:43

騰訊云騰訊優(yōu)圖

2022-05-11 14:45:48

模型人工智能

2014-04-24 10:11:17

iOS性能調(diào)優(yōu)

2020-03-13 07:40:36

Plato數(shù)據(jù)分析

2025-10-14 08:58:00

2025-02-10 13:00:00

模型訓(xùn)練AI

2024-09-11 14:00:00

3D框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

超碰国产在线| 黄色片视频免费| 国产精品巨作av| 香蕉成人伊视频在线观看| 国产精品一区二区三区四区五区| 国产福利拍拍拍| 精品日韩欧美一区| 日韩一区二区三区免费看| 欧美视频在线观看视频| 国产二区视频在线观看| 国产成人精品综合在线观看 | 熟女少妇一区二区三区| av成人在线观看| 亚洲一级二级三级| 亚洲春色在线| 丰满人妻妇伦又伦精品国产| 久久婷婷亚洲| 欧美激情精品久久久久久大尺度| 久久久久亚洲av成人无码电影| 欧美啪啪网站| 欧美性色xo影院| 亚洲图片都市激情| 亚洲欧洲精品视频| 国产成都精品91一区二区三| 国产精品福利片| 久久免费视频播放| 小处雏高清一区二区三区| 日韩成人在线视频| 国产精品偷伦视频免费观看了| gogo亚洲高清大胆美女人体| 亚洲精品国产精华液| 欧美国产二区| 少妇人妻一区二区| 精品系列免费在线观看| 日韩av免费在线播放| 久久精品美女视频| 国产一区日韩一区| 久久国产精彩视频| av在线播放中文字幕| 欧美男gay| 日韩av在线导航| 性久久久久久久久久久| 久久久久久久久成人| 欧美日韩国产高清一区二区三区| 四虎永久在线精品无码视频| 欧美午夜大胆人体| 亚洲精品国产无天堂网2021| 国产精品12p| 久久77777| 18成人在线观看| 视频在线一区二区三区| 国产一级片在线播放| 久久美女艺术照精彩视频福利播放| 国产精品久久国产精品| 亚洲av无码片一区二区三区| 国产精品一级片| 91福利入口| 成人黄色在线观看视频| 国产精品一区二区无线| 91精品黄色| 懂色av蜜臀av粉嫩av分享吧| 高清av一区二区| 国产精品一区二区免费| 亚洲av永久纯肉无码精品动漫| 国产成人综合精品三级| 爱情岛论坛亚洲入口| 免费a级片在线观看| a在线播放不卡| 久久婷婷开心| 国产黄色片在线观看| 欧美国产成人精品| 国产精品夜夜夜爽张柏芝| av观看在线| 午夜视频一区二区三区| 国产网站免费在线观看| 欧美成人黑人| 欧美日本不卡视频| 不卡的一区二区| 久久精品色综合| 亚洲一区第一页| 亚洲人午夜精品免费| 国产亚洲欧美日韩精品一区二区三区| 亚洲欧美日本视频在线观看| 91精品国产91久久久久久久久 | 亚洲精品视频专区| 成人av电影免费在线播放| 看欧美日韩国产| 日本在线天堂| 亚洲国产日韩一级| 日本中文字幕片| 成人豆花视频| 日韩精品免费电影| 青青青视频在线免费观看| 欧美一区激情| 欧美做受高潮电影o| 亚洲天堂aaa| 成人一区二区三区| 日韩福利影院| 黑人极品ⅴideos精品欧美棵| 色综合视频在线观看| 天天综合天天添夜夜添狠狠添| silk一区二区三区精品视频| 国产亚洲福利一区| 久久久久成人片免费观看蜜芽| 亚洲免费一区二区| 91亚洲va在线va天堂va国| 五月激情婷婷综合| 亚洲欧美在线aaa| 午夜精品久久久内射近拍高清 | 日日夜夜免费精品| 91在线网站视频| 精品影院一区| 亚洲国产日韩在线一区模特| 久久国产激情视频| 日韩在线你懂的| 色综合久久久久久中文网| 国产情侣免费视频| av不卡在线播放| 天天干天天色天天爽| 户外露出一区二区三区| 亚洲第一av网| 国产suv一区二区三区| 日日夜夜免费精品视频| 国内视频一区二区| 最新日本在线观看| 欧美日韩卡一卡二| 精品人妻无码一区| 亚洲一区二区免费看| 成人资源av| 4438x成人网全国最大| 欧美日韩在线播放| 五月天精品视频| 销魂美女一区二区三区视频在线| 国产福利久久| 日本精品600av| 91麻豆精品国产91久久久久| 精品日韩在线视频| 日本欧美一区二区三区| 欧美精品123| 制服丝袜专区在线| 亚洲激情在线观看视频免费| 精品无码人妻一区二区三区| 国产成a人无v码亚洲福利| 国产成年人在线观看| 久久青草视频| xx视频.9999.com| 一级特黄aaa| 《视频一区视频二区| 中文字幕av专区| 欧美成人激情| 亚洲va男人天堂| av在线播放国产| 日韩一级黄色大片| 久久国产精品波多野结衣av | 男女性杂交内射妇女bbwxz| 亚洲午夜精品一区 二区 三区| 成人国内精品久久久久一区| 免费av不卡| 日韩欧美综合在线| 国产一级二级毛片| 99久久精品99国产精品| 国产精品无码一区二区在线| 日韩精品福利一区二区三区| 欧美亚洲日本黄色| 国产福利第一视频在线播放| 欧美亚洲动漫精品| 91香蕉视频在线播放| 国产高清精品在线| 亚洲 欧美 日韩 国产综合 在线| 日韩高清在线免费观看| 国产精品99久久久久久人| 天天影视久久综合| 日韩欧美在线一区二区三区| 18精品爽视频在线观看| 久久婷婷综合激情| 中日韩av在线播放| 欧美日本亚洲韩国国产| 久久99九九| 欧美成人app| 久久夜色精品国产| 欧美一级淫片免费视频魅影视频| 日韩欧美国产视频| 二区三区四区视频| av在线这里只有精品| 欧美成人精品欧美一级乱| 欧美丝袜一区| 成人h在线播放| 欧美日韩视频网站| 不卡毛片在线看| 欧美孕妇性xxxⅹ精品hd| 欧美人体做爰大胆视频| 精品无码人妻一区二区三区| 中文字幕不卡一区| 精品国产乱码久久久久夜深人妻| 久久精品人人做人人爽电影蜜月| 一区二区国产日产| 农村少妇一区二区三区四区五区| 国产精品免费福利| 超黄网站在线观看| 中文字幕久久久av一区| 后入内射欧美99二区视频| 在线一区二区三区做爰视频网站| 久久久久亚洲av无码专区体验| 91免费视频网址| 国产又粗又猛大又黄又爽| 亚洲专区一区| 精品视频在线观看一区二区| 精品国产成人| 国产在线一区二| 粉嫩av国产一区二区三区| 欧美在线亚洲一区| 欧美色图天堂| 久久精品99久久香蕉国产色戒| 亚洲人午夜射精精品日韩| 欧美精品三级日韩久久| 五月婷婷视频在线| 亚洲午夜久久久久久久久电影院| 国产又粗又硬视频| 91丨九色丨国产丨porny| 亚洲精品乱码久久久久久9色| 日韩制服丝袜av| 国产特级黄色大片| 激情欧美日韩| 中文字幕の友人北条麻妃| 日韩欧美高清在线播放| 久热国产精品视频一区二区三区 | 免费国产一区| 国产精品毛片视频| 91入口在线观看| 在线视频成人| 国产日产亚洲精品| 成人国产综合| 国产精品女主播| 色香欲www7777综合网| 欧洲美女免费图片一区| av毛片午夜不卡高**水| 欧美国产日韩xxxxx| 中文字幕有码在线观看| 久久夜色撩人精品| 国产一二区在线| 日韩中文字幕在线观看| 中文日本在线观看| 在线精品高清中文字幕| eeuss影院www在线观看| 国产亚洲视频在线观看| 黄色大片在线看| 亚洲视频欧洲视频| 伦理片一区二区三区| 亚洲人av在线影院| 毛片免费在线| 在线看片第一页欧美| 91最新在线| 久久精品亚洲94久久精品| 日本中文字幕电影在线免费观看| 久久精品国产亚洲精品2020| 国产区在线观看| 九九视频这里只有精品| 欧美另类tv| 538国产精品一区二区免费视频| 国产福利电影在线播放| 欧美亚洲日本网站| 电影一区二区| 91亚洲精华国产精华| 欧美午夜在线播放| 国产视频在线观看一区| 亚洲+小说+欧美+激情+另类| 日韩欧美精品一区二区| 国产精品成人a在线观看| 韩国无码av片在线观看网站| 亚洲韩日在线| 黄色高清无遮挡| 精品制服美女丁香| 欧美一级片在线免费观看| 99国产精品一区| 亚洲一区 欧美| 一区二区三区四区高清精品免费观看| 日本系列第一页| 91高清视频免费看| 国产三级伦理片| 日韩高清欧美高清| 91精彩视频在线播放| 久久国产精品久久久久| 成年男女免费视频网站不卡| 国产精品第一区| 经典三级久久| 欧美日韩精品免费在线观看视频| 色喇叭免费久久综合| 日韩精品在线观看av| 久久精品亚洲| 伊人五月天婷婷| 97精品电影院| 艳妇荡乳欲伦69影片| 日韩欧美黄色动漫| 国产精品自拍电影| 日韩大陆欧美高清视频区| aaa日本高清在线播放免费观看| 欧美www在线| 欧美大片免费| 国产精品视频500部| 日本精品黄色| 又粗又黑又大的吊av| 国产综合色精品一区二区三区| 水蜜桃av无码| 亚洲桃色在线一区| 波多野结衣二区三区| 欧美哺乳videos| 中文字幕日本在线| 欧美中文在线免费| 北条麻妃一区二区三区在线观看 | 日本黄色片在线观看| 91精品国产高清久久久久久91| 色综合视频一区二区三区44| 免费av一区二区三区| 国产综合精品| 中文字幕日韩久久| 国产欧美日产一区| xxxx.国产| 精品精品国产高清一毛片一天堂| 日本在线视频站| 国产精品永久在线| 欧美日本成人| 91视频 -- 69xx| 大尺度一区二区| 国产十六处破外女视频| 欧美亚洲高清一区二区三区不卡| 欧美精品a∨在线观看不卡| 孩xxxx性bbbb欧美| 6080亚洲理论片在线观看| 国产高清精品软男同| 日韩国产欧美在线视频| 亚洲最大成人网站| 精品久久久久久中文字幕一区奶水| 99久久婷婷国产一区二区三区| 国产一区二区三区在线免费观看 | 色呦呦网站一区| 天天舔天天干天天操| 欧美精品第一页在线播放| 欧美精品三级在线| 51xx午夜影福利| 国产精品88av| 欧美精品乱码视频一二专区| 91精品国产乱码久久蜜臀| 黄色网页在线免费观看| 91综合免费在线| 伊人色**天天综合婷婷| 久久久九九九热| 亚洲精品成人天堂一二三| 精品久久久久久亚洲综合网站| 另类色图亚洲色图| 亚洲成人五区| 日韩伦理在线免费观看| 9久草视频在线视频精品| 日韩欧美大片在线观看| 日韩黄色av网站| 欧美一级大黄| 亚洲一区二区三区涩| 精品一区免费av| 欧产日产国产v| 精品国产伦一区二区三区观看方式 | 国产日产精品一区二区三区四区的观看方式 | 欧美成a人片免费观看久久五月天| 亚洲午夜精品久久久久久浪潮| 日本成人在线不卡视频| 美女视频久久久| 日韩欧美一二区| 高清毛片在线观看| 欧洲精品码一区二区三区免费看| 日韩国产欧美视频| 欧美另类videoxo高潮| 精品欧美黑人一区二区三区| 中文在线8资源库| 亚洲成人a**址| 国产成人久久精品77777最新版本| 亚洲国产综合久久| 国产午夜精品一区二区三区| 欧洲亚洲精品| 欧美大黑帍在线播放| 久久午夜羞羞影院免费观看| 中文字幕av免费观看| 欧美大片在线看| 亚洲福利天堂| 99九九精品视频| 欧美午夜激情小视频| 欧美jizz18性欧美| 国产精品v欧美精品v日韩| 久久中文在线| 欧美交换国产一区内射| 亚洲乱码国产乱码精品精| www.欧美| 日韩在线综合网| 亚洲欧洲精品一区二区三区不卡| 人妻视频一区二区三区| 国产精品日韩欧美大师| 精品999成人| 日韩免费av一区| 精品视频久久久久久| 久久视频社区| 亚欧在线免费观看| 亚洲成人手机在线| 欧美猛烈性xbxbxbxb|