精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

推理時也能做偏好優化,無需額外重訓練,來自上海AI Lab港中文等

人工智能 新聞
提出推理時偏好優化(TPO)方法,通過在推理過程中與獎勵模型交互,將獎勵模型信號轉化為”文本損失”和”文本梯度”,以此迭代優化模型輸出。

隨著大語?模型(LLMs)在各類任務中展現出令人矚目的能力,如何確保它們?成的回復既符合預期又安全,始終是?項關鍵挑戰。

傳統的偏好對??法,如基于?類反饋的強化學習(RLHF)和直接偏好優化(DPO),依賴于訓練過程中的模型參數更新,但在?對不斷變化的數據和需求時,缺乏?夠的靈活性來適應這些變化。

為了突破這?瓶頸,上海人工智能實驗室、香港中文大學等聯合提出了推理時偏好優化(TPO)方法,通過在推理階段與獎勵模型交互,借助可解釋的文本反饋,迭代優化模型輸出,實現了即時的模型對?,??需重新訓練。

實驗結果表明,TPO能夠有效提升未對?模型的表現,甚?超越經過訓練的對?模型,為模型偏好對?提供了?種全新的思路。


△訓練時偏好優化VS推理時偏好優化

TPO特點

(1)推理時對?、?需訓練:TPO通過與獎勵模型的推理階段交互,實現即時對?偏好,無需更新模型參數。

(2)基于?本反饋:TPO使?可解釋的文本反饋(而非純數值梯度)來指導優化,讓模型“理解?并“執行”文本評價。

(3)優于傳統?法:在推理階段,未對?的模型(例如Llama-3.1-70B-SFT)經過數次TPO迭代,能夠持續逼近獎勵模型的偏好。在多個基準測試中,其表現甚至超越了已在訓練時對?的版本(例如Llama-3.1-70B-Instruct)。

(4)靈活適應性:TPO能夠靈活應對不斷變化的數據和需求,具有較強的適應性,并且能夠在資源有限的環境下?效運?。

研究方法

為實現這??標,已有多種方法用來實現評分函數,如RLHF和DPO通過訓練時偏好優化來對??類偏好。這些?法通過基于梯度的?法(如隨機梯度下降,SGD)優化模型參數(如神經?絡中的權重θ),使得?成符合?類偏好的輸出概率更?。每次更新的步驟如下:

TPO通過解釋和執行文本損失文本梯度,為模型生成的回復提供可解釋的優化信號。

如圖所示,TPO包含四個關鍵組件,類似于標準的梯度優化?法:變量定義、損失計算、梯度計算和變量優化。

研究人員使用獎勵模型R作為人類偏好的代理,提供生成回復質量的反饋。在推理時對?過程中,系統通過迭代調整輸出,使其逐步更符合獎勵模型的偏好。

△測試時間偏好優化(TPO)框架(AlpacaEval2的真實示例)

該過程最多進行D次迭代,類似于訓練過程,稱為推理時訓練(test-time training)。最終,選擇緩存中評分最高的回復作為最終輸出。

實驗與結果

策略模型

  • 未對齊模型:Llama-3.1-70B-SFT
  • 已對齊模型:
    -Llama-3.1-70B-Instruct
    -Llama-3.1-70B-DPO(UltraFeedback訓練得來)

獎勵模型

  • FsfairX-LLaMA3-RM-v0.1
  • Llama-3.1-Tulu-3-8B-RM

benchmark與評價指標

  • 指令跟隨:Alpaca Eval 2(原始勝率WR和長度控制勝率LC)和ArenaHard(勝率WR)
  • 偏好對齊:HH-RLHF(采樣500條,FsfairX-LLaMA3-RM-v0.1的平均獎勵分數)
  • 安全:BeaverTails-Evaluation(FsfairX-LLaMA3-RM-v0.1的平均獎勵分數)XSTest(WildGuard的準確率)
  • 數學能力:MATH-500(使用0-shot配置和CoT提示,pass@1準確率)

推理時訓練效果

TPO在推理時對模型進行優化,通過少量的迭代步數逐漸擬合獎勵模型偏好,顯著提升未對齊模型的性能,使其達到與對齊模型相當的水平;在已對齊模型上,TPO進一步增強了對齊效果,而Revision版本(迭代優化選定回復而不參考被拒絕回復)的提升有限。

benchmark性能

TPO能夠顯著提升模型性能指標,未對齊模型通過TPO超越了訓練時對齊的模型,而對齊模型在經過TPO迭代后也獲得了進一步的優化。D和N分別表示最大迭代次數和樣本數量。

* 表示使用獎勵模型FsfairX-LLaMA3-RM-v0.1優化的模型,而?表示Llama-3.1-Tulu-3-8B-RM。

推理穩定性

TPO能夠有效地根據獎勵模型的反饋調整模型輸出,顯著改善推理穩定性,表現為采樣樣本的獎勵分數標準差的降低。

TPO的特性分析

TPO的寬度:增加TPO的搜索寬度(即每次TPO迭代中采樣的回復數量)能夠顯著提升性能,直到達到飽和。

TPO的深度:增加TPO的搜索深度比單純增加樣本數量更有效地發現更高質量的回復。

TPO的計算成本:TPO無需更改模型參數,與訓練時偏好優化相比,在計算成本上具有顯著優勢。TPO的計算成本(FLOPs)僅為一輪DPO訓練(64,000條數據)所需開銷的0.01%。而Instruct模型通常在百萬級語料上多輪迭代,訓練成本遠高于DPO,進一步凸顯了TPO在相對計算成本方面的優勢。

TPO的指令跟隨前提:TPO的成功依賴于策略模型具備基礎的指令跟隨能力,因為模型必須準確解釋和響應數值形式的獎勵模型偏好。

總結

提出推理時偏好優化(TPO)方法,通過在推理過程中與獎勵模型交互,將獎勵模型信號轉化為”文本損失”和”文本梯度”,以此迭代優化模型輸出。

無需重新訓練,即可讓大語言模型與人類偏好對齊。TPO為訓練時偏好優化提供了輕量、高效且可解釋的替代方案,充分利用了大語言模型在推理時的固有能力。

推理時優化的靈活性:TPO通過即時文本反饋實現推理時對?,增強了模型在多樣化場景中的適應能力,能快速響應變化的需求和任務的變化。此外,TPO充分利用大語言模型在推理、指令跟隨等方面的內在優勢,從?實現了更靈活的偏好對?。

未來研究?向:未來的研究可聚焦于優化文本交互?法,使其能夠適應更多專門任務,探索更魯棒的獎勵模型以提升偏好捕捉能?,并研究如何提升較弱模型在TPO中的表現,從而進一步拓展其應用場景和優化效果。

論?鏈接:https://arxiv.org/abs/2501.12895
Github鏈接:https://github.com/yafuly/TPO
Huggingface鏈接:https://huggingface.co/papers/2501.12895

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-05 13:40:00

2022-09-30 15:15:41

模型框架

2025-03-13 09:47:29

2025-04-25 09:20:00

數據模型AI

2022-05-12 13:39:48

AI研究模型

2025-02-17 09:33:00

AI算法模型

2025-04-27 09:16:00

模型AI數據

2024-12-26 07:20:00

2025-08-11 08:54:00

AI模型數據

2025-09-15 08:53:00

AI模型推理

2025-06-11 09:17:00

2025-11-19 08:51:13

2025-07-29 09:10:00

2024-08-28 08:43:58

2025-05-19 08:37:00

2025-02-27 13:00:00

2025-04-11 09:35:34

2024-07-22 15:34:21

2025-06-03 09:05:00

2025-07-21 08:47:00

AI框架模型
點贊
收藏

51CTO技術棧公眾號

国产系列第一页| 国产91在线播放| 日本wwww色| 瑟瑟视频在线看| 久久精品夜色噜噜亚洲aⅴ| 国产精品久久久久久久久久小说| 香蕉久久久久久久| 欧美精品影院| 欧美色播在线播放| 亚洲自拍三区| 丰满肉肉bbwwbbww| 日本在线不卡视频| 欧美日韩成人在线播放| 久久成人激情视频| 99re91这里只有精品| 日本韩国视频一区二区| 国内精品国产三级国产99| 日本私人网站在线观看| 精品一区二区三区免费播放| 91av视频导航| 91日韩中文字幕| 国产精品探花在线观看| 日韩午夜精品视频| 成人免费在线观看视频网站| hd国产人妖ts另类视频| 亚洲欧洲无码一区二区三区| 久久一区二区精品| 亚洲AV午夜精品| 欧美aaaaa成人免费观看视频| 久久久久久有精品国产| eeuss中文字幕| 亚洲精品国模| 精品卡一卡二卡三卡四在线| 午夜免费福利视频在线观看| 亚洲精品国产精品国产| 亚洲一区二区3| 一区二区三区日韩视频| 国产区在线视频| 99久久精品国产精品久久| 99精品国产高清在线观看| 在线观看毛片av| 久久久久免费| 欧美一级高清免费播放| 国产午夜精品一区二区理论影院| **女人18毛片一区二区| 中文字幕日韩电影| 美女爆乳18禁www久久久久久| 人人精品视频| 亚洲国产精品va| 欧美图片自拍偷拍| 日韩一区二区三区高清在线观看| 在线成人高清不卡| www.cao超碰| 青青伊人久久| 6080国产精品一区二区| 999久久久精品视频| 国产成人免费精品| 欧美三级视频在线观看| 无码人妻精品一区二区三区66| 天堂√中文最新版在线| 婷婷久久综合九色综合绿巨人| 国产一级不卡视频| 亚洲淫性视频| 一区二区高清在线| 欧美成人高潮一二区在线看| 搞黄网站在线看| 亚洲福利视频三区| 成年人网站免费视频| 欧美伦理91| 色婷婷久久一区二区三区麻豆| 337p粉嫩大胆噜噜噜鲁| 网友自拍亚洲| 欧美丝袜丝交足nylons| 9l视频白拍9色9l视频| 人人精品久久| 日韩天堂在线观看| 欧美xxxxx精品| 你微笑时很美电视剧整集高清不卡| 亚洲跨种族黑人xxx| 日本xxxxxxxxx18| 99精品在线观看| 麻豆乱码国产一区二区三区| 久久久久亚洲av成人片| 亚洲欧洲一级| 国产精品mp4| 最新黄色网址在线观看| 国产中文字幕一区| 国产精品美女黄网| 国产视频第一区| 中文字幕一区二区三区在线播放| www.一区二区.com| 桃色av一区二区| 欧美日韩在线电影| 国产精品一区二区无码对白| 台湾色综合娱乐中文网| 色黄久久久久久| 日本系列第一页| 免费一区二区视频| 国产精品乱子乱xxxx| 国产69久久| 一区二区三区中文在线| 精品免费国产一区二区| 日韩欧美中文字幕在线视频| 亚洲欧美激情一区| 男人的天堂久久久| 久久亚洲二区| av色综合网| 超碰免费97在线观看| 亚洲.国产.中文慕字在线| www日韩在线观看| 亚洲一区 二区| 一道本无吗dⅴd在线播放一区| 久久久久久福利| 蜜桃在线一区二区三区| 精品欧美国产一区二区三区不卡| 日韩专区在线| 色嗨嗨av一区二区三区| 91porn在线| 大片网站久久| 欧美在线性视频| 午夜精品久久久久久久爽| 欧美高清一级片在线观看| 欧美黑人在线观看| 91精品国产色综合久久不卡粉嫩| 精品网站999www| 久久久一区二区三区四区| 免费成人av资源网| 青青草成人激情在线| 2001个疯子在线观看| 日韩亚洲国产中文字幕欧美| 人与动物性xxxx| 天堂蜜桃91精品| 91亚洲精品一区二区| www黄在线观看| 一本大道久久a久久综合| 999精品免费视频| 欧美女激情福利| 亚洲一区二区三区四区视频| 国产精品秘入口| 一本色道久久综合亚洲91| 久久久久久婷婷| 国产综合自拍| av成人观看| 影院在线观看全集免费观看| 91麻豆精品国产91久久久使用方法| b站大片免费直播| 久久一二三区| 欧美一区国产一区| 日韩高清中文字幕一区二区| 精品亚洲一区二区三区在线观看 | 成人一区二区视频| 四虎免费在线观看视频| 欧美极品在线| 日韩在线视频线视频免费网站| 中文字幕观看视频| 国产精品欧美精品| 久热精品在线观看视频| 三级电影一区| 国产综合香蕉五月婷在线| shkd中文字幕久久在线观看| 欧美影视一区在线| 一级黄色毛毛片| 久久激五月天综合精品| 美国av在线播放| 日本在线一区二区三区| 欧美激情国产精品| 污污的视频网站在线观看| 精品欧美激情精品一区| 亚洲午夜久久久久久久久红桃| 国产精品亚洲综合久久| 欧美一区二区三区在线播放| av成人免费看| 久久天天躁狠狠躁夜夜躁2014| 国产婷婷一区二区三区久久| 一区二区三区不卡视频| jizz欧美性20| 奇米影视在线99精品| 热这里只有精品| 国产亚洲精品美女久久| 欧美最顶级的aⅴ艳星| 国产精品久久久久久久龚玥菲| 欧美日韩精品欧美日韩精品一| 天天看片中文字幕| av一区二区三区| 成人在线观看a| 午夜精品毛片| 国产综合18久久久久久| 成人黄色免费网站| 欧美激情视频在线| 极品美乳网红视频免费在线观看 | 偷拍亚洲精品| 国产精品丝袜视频| xxxx成人| 中文字幕无线精品亚洲乱码一区 | 四虎成人免费影院| 国产麻豆一精品一av一免费 | 久久riav二区三区| 久久精品xxxxx| 欧美极品在线播放| 成人欧美一区| 精品国产免费久久| 亚洲综合精品视频| 午夜精品一区在线观看| 精品一区二区三孕妇视频| 成人av电影在线观看| 三级在线视频观看| 亚洲人成久久| 一区二区三区四区五区精品| 免费成人三级| 亚洲一区二区在线播放| 三上悠亚国产精品一区二区三区| y97精品国产97久久久久久| 亚洲aaaaaaa| 91精品国产麻豆| 波多野结衣在线观看视频| 亚洲综合激情另类小说区| 天天干天天操天天拍| 成人18精品视频| 超碰在线免费av| 欧美aaaaaa午夜精品| 大陆极品少妇内射aaaaa| 欧美日韩天堂| 中文字幕乱码一区二区三区| 精品欧美激情在线观看| 极品尤物一区二区三区| 日韩在线视频一区二区三区 | 欧美欧美在线| 国产日本欧美在线观看 | 波多野结衣家庭主妇| 亚洲一区二区高清| 成年人一级黄色片| 国产精品女主播在线观看| 性久久久久久久久久久| 国产成人精品亚洲午夜麻豆| 久久国产这里只有精品| 久久狠狠婷婷| 女人天堂av手机在线| 欧美午夜不卡| 好吊色这里只有精品| 日韩一区电影| 亚洲欧美国产不卡| 国产一区二区三区四区五区传媒 | 一级欧美一级日韩| 色婷婷av一区二区三区gif| 欧美毛片在线观看| 亚洲免费观看高清完整版在线观看熊| 日韩不卡av在线| 国产拍欧美日韩视频二区| 亚洲成人黄色av| 久久九九国产精品| 粉嫩av蜜桃av蜜臀av| 久久亚区不卡日本| 极品人妻一区二区三区| 91亚洲国产成人精品一区二区三| 久草免费资源站| proumb性欧美在线观看| 日韩成人av一区二区| 99精品欧美一区二区蜜桃免费| 男女一区二区三区| 97se狠狠狠综合亚洲狠狠| 日本黄色动态图| 久久久一区二区三区捆绑**| 一区二区三区四区免费| 久久久久久一级片| 林心如三级全黄裸体| 亚洲人成在线播放网站岛国| 欧美日韩在线观看免费| 亚洲一区二区三区爽爽爽爽爽| 国产大片aaa| 欧美午夜影院在线视频| 狠狠狠狠狠狠狠| 欧美亚洲国产一区二区三区va| 亚洲精品一区二区二区| 制服丝袜中文字幕亚洲| 精品国产九九九| 亚洲精品99999| 国产毛片av在线| 最近2019年手机中文字幕| 岛国成人毛片| 97精品视频在线观看| 影视一区二区三区| 成人在线激情视频| 国产成人精品福利| 欧美一区2区三区4区公司二百| 成人国产精品一级毛片视频| 欧美精品久久96人妻无码| 亚洲美女91| 精品视频无码一区二区三区| 久久99精品国产麻豆婷婷| 亚洲 自拍 另类 欧美 丝袜| 99久久国产综合色|国产精品| 非洲一级黄色片| 亚洲黄色录像片| 五月天婷婷导航| 日韩丝袜美女视频| 国内精品一区视频| 欧美激情xxxxx| 国产成人福利夜色影视| 国产传媒一区二区三区| jlzzjlzz亚洲女人| 色欲色香天天天综合网www| 日本va欧美va欧美va精品| 黑森林av导航| 国产精品蜜臀在线观看| 中文字幕一区二区三区精品| 欧美写真视频网站| 国模私拍视频在线| 久久精彩免费视频| 国产在线88av| 亚洲free性xxxx护士hd| 欧洲美女日日| 日韩欧美一区二| 国产一区二区三区四区在线观看| 成人h动漫精品一区| 亚洲麻豆国产自偷在线| 天堂免费在线视频| 精品成人佐山爱一区二区| 中国日本在线视频中文字幕| 91高清在线免费观看| 日韩免费一级| 咪咪色在线视频| 蜜桃精品视频在线观看| 少妇按摩一区二区三区| 午夜精品久久久久久| 99精品免费观看| 爽爽爽爽爽爽爽成人免费观看| 高清不卡亚洲| 精品久久久久久亚洲| 欧美成熟视频| 国产精欧美一区二区三区白种人| 久久久精品免费免费| 成年人免费看毛片| 日韩欧美卡一卡二| 黄色网址免费在线观看| 国产情人节一区| 欧美综合视频| 杨幂毛片午夜性生毛片| 国产亚洲欧美在线| 亚洲s码欧洲m码国产av| 亚洲精品国偷自产在线99热| 999av小视频在线| 国产日韩在线一区二区三区| 亚洲午夜极品| 中文字幕一区二区三区人妻在线视频| 中文字幕一区二区三区在线不卡| 中文字幕日日夜夜| 在线观看不卡av| 99re久久| 一区二区在线观看网站| 久久99精品视频| 99自拍偷拍视频| 在线播放中文一区| 麻豆视频在线播放| 成人高清视频观看www| 久久久久久美女精品| 女王人厕视频2ⅴk| 亚洲综合丁香婷婷六月香| 高h震动喷水双性1v1| 久久男人资源视频| 日韩三级视频| 国产三级三级三级看三级| 中文字幕精品一区二区精品绿巨人 | 国产免费视频一区二区三区| www.欧美精品| 国产一区二区三区| 女人被男人躁得好爽免费视频| 不卡的av中国片| 91porny九色| 北条麻妃久久精品| 中文一区二区三区四区| 日韩欧美不卡在线| 久久一区二区视频| 在线亚洲欧美日韩| 大胆欧美人体视频| 久久草在线视频| 爱情岛论坛vip永久入口| 自拍偷拍亚洲欧美日韩| 黄色aaa大片| 青青久久av北条麻妃黑人| 日韩毛片视频| 中文字幕在线国产| 色噜噜狠狠成人中文综合 | 一区二区三区高清在线观看| 欧美 国产 综合| 亚洲国产精品v| 国产成年妇视频| 91成人在线观看国产| 欧美一级精品| 日本泡妞xxxx免费视频软件| 日韩欧美中文字幕在线播放| 日本中文字幕电影在线免费观看| 国产精品高清一区二区三区| 日本中文一区二区三区| 国产亚洲精品码| 色小说视频一区| 久久久亚洲欧洲日产| 91 视频免费观看| 欧美日韩在线视频一区| 麻豆传媒视频在线观看| 另类小说综合网|