精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習也能預訓練?效果可提升20倍,華人新作引爆RL新范式!

人工智能 新聞
大模型的預訓練-微調(diào)范式,正在悄然改寫強化學習!伯克利團隊提出新方法InFOM,不依賴獎勵信號,也能在多個任務中實現(xiàn)超強遷移,還能做到「讀心術(shù)」級別的推理。這到底怎么做到的?

大規(guī)模預訓練已經(jīng)從根本上改變了機器學習研究的方式:基礎模型只需訓練一次。

之后即便缺乏數(shù)據(jù)或算力,基礎模型也能在具體任務上直接適配與微調(diào)。

從計算機視覺到自然語言處理等多個領域,這種「預訓練-微調(diào)」的模式已經(jīng)取得了巨大成功。

但在「強化學習」(Reinforcement Learning,RL)中,這種模式的效果仍未被完全驗證。

本質(zhì)上,強化學習更難,是因為這涉及對時間與意圖的推理——

(1)必須能夠推斷當前動作在長期內(nèi)的影響;

(2)必須識別出多個用戶在執(zhí)行不同任務時收集的觀察數(shù)據(jù)。

目前,能處理「時間信息」的主流RL算法有兩類:

一類基于「世界模型」(world models),另一類基于「占據(jù)模型」(occupancy models)。

由于誤差累積的問題,世界模型在長時間推理方面的能力仍然有限。

在預測未來事件方面,占據(jù)模型表現(xiàn)優(yōu)異,但通常難以訓練,且忽略了用戶意圖。

近年,「生成式AI」(GenAI)讓復雜分布建模變得可行。

它還能處理多種輸入類型,如「流匹配」(flow matching)。

這為構(gòu)建依賴于意圖的占據(jù)模型提供了新工具:

流匹配(flow matching)+ 占據(jù)模型(Occupancy Models)= 意向條件流占用模型(Intention-Conditioned Flow Occupancy Models,InFOM)

傳統(tǒng)方法只預測「下一步觀測」。而InFOM不僅可預測多個未來步驟,還能適應用戶不同的「意圖」。

圖片

具體而言,研究人員構(gòu)建的模型將「意圖」編碼為潛在變量,并通過「流匹配」(flow matching)來預測未來狀態(tài)的訪問概率。

圖片

圖1:InFOM是用于強化學習預訓練與微調(diào)的潛變量模型。(左)數(shù)據(jù)集由執(zhí)行不同任務的用戶采集而來。(中)通過最大化數(shù)據(jù)似然的證據(jù)下界(ELBO)對意圖進行編碼,(右)進而實現(xiàn)基于流匹配的意圖感知未來狀態(tài)預測。

模型最大化數(shù)據(jù)似然進行訓練,能高效適應特定任務。

圖片

論文地址:https://arxiv.org/abs/2506.08902

博客地址:https://chongyi-zheng.github.io/infom/

由于普通流匹配方法無法拼接多個狀態(tài)轉(zhuǎn)換,研究者引入基于SARSA的時序差分流匹配損失進行改進。

圖片

論文鏈接:https://arxiv.org/abs/2503.09817

借助InFOM,可以在下游任務中估算出多個帶有意圖條件的Q函數(shù),然后通過隱式廣義策略改進(implicit GPI)方法提取最終策略。

在強化學習中的預訓練與微調(diào)任務中,InFOM表現(xiàn)出色。

面對獎勵稀疏或半稀疏的復雜任務時,傳統(tǒng)方法難以學到有效策略,而InFOM能通過構(gòu)建具備表達能力的生成模型,配合implicit GPI,更有效地利用高獎勵狀態(tài)。

圖片

與無監(jiān)督技能發(fā)現(xiàn)或后繼特征學習等方式相比,InFOM提供了一種更簡單、更高效的意圖推理方式,性能更優(yōu)。

值得一提的是,排名第一的華人作者Chongyi Zheng和排名第4的作者Benjamin Eysenbach,是一對師徒。

此外,強化學習大牛、加州大學伯克利分校EECS系Sergey Levine也參與了這項研究。

圖片

圖片

方法介紹

針對無獎勵預訓練數(shù)據(jù)集D中的連續(xù)狀態(tài)-動作對(s,a,s′,a′),通過編碼器pe(z∣s′,a′)推斷潛在意圖z∈Z,并利用占據(jù)度量模型qd(sf∣s,a,z)預測未來狀態(tài)sf的占據(jù)分布。

基于流匹配(flow matching)方法,通過最大化數(shù)據(jù)似然的證據(jù)下界(ELBO)來聯(lián)合優(yōu)化編碼器與解碼器:

圖片

其中先驗分布p(z)=N(0,I)為標準高斯分布。

為實現(xiàn)軌跡級未來狀態(tài)預測(動態(tài)規(guī)劃),采用SARSA變體的時序差分流損失來學習流占據(jù)模型的向量場vd:[0,1]×S×S×A×Z→S:

圖片

InFOM允許估計一組基于意圖的Q函數(shù)用于下游任務。

然后,利用隱式廣義策略改進(implicit GPI)過程來提取一個策略。

圖片

具體預訓練和微調(diào)算法如下:

圖片

圖片

結(jié)果介紹

為了測試InFOM,能否從無標簽數(shù)據(jù)集中捕獲基于用戶意圖的可操作信息,能否在微調(diào)后訓練出高效的策略來解決下游任務,在36個基于狀態(tài)的任務和4個基于圖像的任務中,比較了InFOM和八個基線方法的性能。

研究者在ExORL和OGBench基準測試中評估了該方法,詳見圖3所示結(jié)果。

實驗結(jié)果表明,InFOM在八個領域中的六個領域表現(xiàn)與基線方法相當或更好。

在ExORL基準測試中,在兩個較容易的領域(獵豹和四足機器人)上,所有方法表現(xiàn)相似。

但在jaco任務上,InFOM獲得了20倍的改進。

在OGBench中更具挑戰(zhàn)性的基于狀態(tài)的操作任務上,基線方法與InFOM的表現(xiàn)有顯著差異;新算法在最佳基線方法上取得了36%更高的成功率。

此外,InFOM還能夠在直接使用RGB圖像作為輸入時,超越最強基線31%。

這是由于任務中存在半稀疏獎勵函數(shù),傳統(tǒng)基線方法往往難以應對具有挑戰(zhàn)性的任務。

InFOM通過更強的生成模型和隱式策略優(yōu)化,更高效地利用高獎勵狀態(tài)。

圖片

圖3:在ExORL和OGBench任務上的評估結(jié)果。

與基于無監(jiān)督技能發(fā)現(xiàn)(unsupervised skill discovery) 或繼任特征學習(successor feature learning)的意圖編碼機制相比,InFOM提供了一種簡單且高效的方式來推斷用戶的意圖。

圖4的結(jié)果表明,在4項任務中的3項上,InFOM能以更簡單的方法超越先前的意圖編碼方法。

HILP和FB均基于演員-評論家框架,通過完全無監(jiān)督的強化學習目標來捕獲意圖;相比之下,新方法僅需在相鄰狀態(tài)轉(zhuǎn)移上訓練基于隱變量模型的意圖編碼器,無需依賴復雜的離線強化學習流程。

圖片

圖4:與現(xiàn)有意圖編碼機制的對比

下面視頻展示了一些具體的例子。

  • 來自ExORL基準測試的四個領域:獵豹(cheetah)、步態(tài)(walker)、四足機器人(quadruped)、Jaco,包括16個基于狀態(tài)的任務。
  • 來自OGBench基準測試的四個領域:單個立方體(cube single)、雙立方體(cube double)、場景(scene)、謎題4x4(puzzle 4x4),包括20個基于狀態(tài)的任務和4個基于圖像的任務,用于評估我們的算法。

作者介紹

圖片

圖片

Chongyi Zheng是普林斯頓大學計算機科學系的博士生。

他的研究興趣是通過概率推理方法,開發(fā)具備長時序推理能力的強化學習(RL)算法。

此前,他在卡耐基梅隆大學攻讀碩士學位。

2020年,他本科畢業(yè)于西南大學;之后,在清華大學工作過。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-10-11 04:00:00

2025-06-30 02:25:00

2020-04-15 16:44:38

谷歌強化學習算法

2022-11-02 14:02:02

強化學習訓練

2025-06-11 14:45:57

強化學習訓練模型

2025-06-13 09:29:51

2025-03-24 10:15:00

2025-10-14 08:59:00

2025-10-08 10:26:04

2025-05-26 09:16:00

2025-06-09 09:32:35

2025-06-05 08:40:00

2025-11-07 08:51:41

2025-10-23 09:05:50

2025-06-27 15:44:35

蘋果AI模型

2025-05-12 08:24:01

2024-10-06 12:32:42

2021-12-06 17:38:51

強化學習工具人工智能

2021-11-16 15:26:23

強化學習火箭人工智能
點贊
收藏

51CTO技術(shù)棧公眾號

国产精品久久久久高潮| 亚洲欧美www| 日韩激情视频一区二区| 深夜福利视频在线免费观看| 快she精品国产999| 欧美成人精品不卡视频在线观看| av天堂一区二区| free欧美| 亚洲电影第三页| 天天综合狠狠精品| 99国产在线播放| 免费永久网站黄欧美| 成人97在线观看视频| 醉酒壮男gay强迫野外xx| 在线欧美激情| 91国模大尺度私拍在线视频| 亚洲小视频在线播放| 精品乱码一区二区三四区视频 | 国产精品视频yy9299一区| 亚洲淫片在线视频| 国产成人精品一区二区色戒| 亚洲天堂久久| 萌白酱国产一区二区| 亚洲码无人客一区二区三区| 香蕉成人app| 欧美精品1区2区| 日韩视频在线免费看| 国精产品一区一区三区mba下载| 国产精品三级电影| 欧美日韩国产综合在线| 日本黄色三级视频| 国产精品系列在线播放| 国产国语videosex另类| 在线观看 中文字幕| 女同性一区二区三区人了人一| 亚洲欧美日韩一区二区在线| 特种兵之深入敌后| vam成人资源在线观看| 在线观看不卡视频| 不要播放器的av网站| 深夜成人在线| 精品久久久久国产| 草草视频在线免费观看| 青春草在线免费视频| 亚洲欧美日韩在线| 中文字幕在线亚洲三区| av电影在线播放高清免费观看| 91视视频在线观看入口直接观看www| 99re6在线| 国产成人精品无码高潮| 国产综合成人久久大片91| 国产精品中文字幕久久久| 中文字幕视频免费观看| 蜜臀av性久久久久av蜜臀妖精| 国产精品黄色av| 成人一二三四区| 肉色丝袜一区二区| 国产精品视频在线观看| 911美女片黄在线观看游戏| 日本午夜精品视频在线观看| 国产精品88a∨| 中文字幕欧美在线观看| 蜜桃久久av一区| 国产综合色香蕉精品| 国产精品无码专区av免费播放| 九九热在线视频观看这里只有精品| 国产精品男女猛烈高潮激情| 夜夜躁很很躁日日躁麻豆| 国产真实乱子伦精品视频| 99电影在线观看| 婷婷在线免费观看| 久久精品视频一区| 亚洲一区二区三区免费观看| av激情在线| 亚洲成a人在线观看| 日韩欧美一区三区| 播放一区二区| 日韩欧美国产不卡| 国产麻豆xxxvideo实拍| 国产欧美日韩在线观看视频| 中文字幕日韩在线播放| 九九这里只有精品视频| 国产精品porn| 青草青草久热精品视频在线网站 | 色就是色欧美| 成人国产免费电影| 亚洲成va人在线观看| 狠狠热免费视频| 精品一区二区三区在线观看视频| 亚洲国产精品电影| 精品亚洲aⅴ无码一区二区三区| 91久久久精品国产| 97免费在线视频| 在线观看免费中文字幕| 成人午夜激情视频| 水蜜桃亚洲一二三四在线| 日本aa在线| 色狠狠色狠狠综合| 久久久久亚洲av无码网站| 国产午夜一区| 久久99精品久久久久久青青91| 日韩免费一级片| 激情综合色播五月| 免费成人深夜夜行视频| 黄色成人影院| 91久久精品一区二区| 337p日本欧洲亚洲大胆张筱雨 | 午夜婷婷在线观看| 国产一区二区福利视频| 免费看污久久久| 中文字幕资源网在线观看| 欧美在线小视频| 亚洲精品乱码久久久久久蜜桃图片| 色琪琪久久se色| 亚洲91精品在线观看| 国产精品主播一区二区| 国产日韩影视精品| 激情深爱综合网| 亚洲一区二区三区在线免费| 最新国产精品拍自在线播放| 亚洲高清毛片一区二区| 粉嫩嫩av羞羞动漫久久久| 亚洲精品白虎| 国产精品久久亚洲不卡| 日韩精品亚洲视频| 懂色av.com| 懂色av一区二区三区免费看| 一区二区三区在线视频111| 色婷婷综合久久久中字幕精品久久 | 欧美成人久久久| 中文字幕一区二区三区四区免费看 | 97超碰人人看人人| 黄网址在线观看| 欧美日韩在线播放| 欧美色图17p| 日本aⅴ免费视频一区二区三区| 国产综合色一区二区三区| 天堂8中文在线| 3d动漫精品啪啪一区二区竹菊| 欧美18—19性高清hd4k| 亚洲综合社区| 久久波多野结衣| 在线能看的av网址| 日韩h在线观看| 日韩伦人妻无码| av成人老司机| 欧美日韩在线不卡视频| 亚洲区小说区| 国产精品69久久久久| 都市激情一区| 欧美日韩一区中文字幕| 香蕉成人在线视频| 精油按摩中文字幕久久| 在线视频不卡国产| 日本99精品| 久久久在线视频| 天天干天天操av| 精品欧美一区二区三区| 91精品人妻一区二区| 日韩精品免费专区| 亚洲欧洲精品一区| 国产精品1区在线| 欧美大片在线看| 五月婷婷丁香六月| 在线观看日韩高清av| 成人性视频免费看| 国产一区在线观看视频| 精品人妻人人做人人爽| 天海翼亚洲一区二区三区| 国产精品igao视频| 青青青青在线| 精品蜜桃在线看| 日日夜夜狠狠操| 亚洲欧洲国产日韩| 久久久久亚洲AV成人网人人小说| 99热免费精品| 亚洲高清在线观看一区| 国产一区二区三区免费观看在线| 欧美激情国产高清| 奇米影视888狠狠狠777不卡| 欧洲国内综合视频| 国产高清在线免费观看| www激情久久| 亚洲精品免费一区亚洲精品免费精品一区 | 久久国产视频一区| 综合电影一区二区三区 | 国产精品久久久久久久岛一牛影视| 粉色视频免费看| 亚洲午夜久久久久久尤物| 欧美日韩精品不卡| 国产精品日本一区二区三区在线| 97色在线观看免费视频| 成人在线观看一区| 精品国产91乱码一区二区三区 | 在线免费看av不卡| 亚洲国产日韩在线观看| 色婷婷国产精品| 青青草成人免费| 国产婷婷色一区二区三区| 国产又粗又猛又爽又黄| 丝袜美腿一区二区三区| 成人一区二区av| 大色综合视频网站在线播放| 国产69精品久久久久9999apgf| 天天免费亚洲黑人免费| 久久久久免费视频| 久做在线视频免费观看| 精品亚洲一区二区三区在线播放 | 奇米777四色影视在线看| 久久综合欧美| 国产精品免费在线| 国产欧美视频在线| 国产精品偷伦一区二区| 乡村艳史在线观看| 欧美激情一区二区三级高清视频| 中文字幕在线播放| 亚洲欧美国内爽妇网| 日批视频在线播放| 欧美变态凌虐bdsm| 国产精品高潮呻吟AV无码| 在线观看日韩精品| 亚洲黄色免费观看| 亚洲国产精品一区二区久久| 日本高清一二三区| 国产精品天干天干在线综合| 熟女少妇一区二区三区| jlzzjlzz国产精品久久| 中文在线字幕观看| 国产一区不卡视频| 欧美成人乱码一二三四区免费| 天堂一区二区在线| 国产老熟妇精品观看| 99国产精品私拍| 国产素人在线观看| 亚洲激情一区| 99色这里只有精品| 在线观看视频免费一区二区三区| 伊人网在线免费| 中文在线播放一区二区| 天堂av免费看| 亚欧美无遮挡hd高清在线视频| 亚洲一卡二卡三卡四卡无卡网站在线看| 亚洲日产av中文字幕| 麻豆av一区二区三区| 香蕉久久夜色精品国产使用方法| 精品在线不卡| 一区二区三区韩国免费中文网站| 久久国产一区| 免费黄色成人| 日韩在线三区| 91亚洲一区| 樱空桃在线播放| 国语自产精品视频在线看8查询8| av日韩在线看| 亚洲人体偷拍| 日韩av在线综合| 日韩成人av影视| 成人亚洲免费视频| 国产a区久久久| 网站免费在线观看| 国产日韩欧美电影| 极品尤物一区二区| 亚洲欧美一区二区不卡| 麻豆亚洲av成人无码久久精品| 一区二区激情视频| 欧美成人精品欧美一级乱黄| 欧美视频免费在线| 中文字幕乱码视频| 日韩欧美国产电影| 青青草免费在线视频| 日韩在线视频国产| 羞羞污视频在线观看| 午夜免费在线观看精品视频| 欧美少妇精品| 国产精品影片在线观看| 欧美9999| 欧美日韩免费高清| 亚洲欧美色图| 欧美变态另类刺激| 免费成人在线观看| 色悠悠在线视频| 国产欧美在线观看一区| 免费日韩在线视频| 色94色欧美sute亚洲线路一久| 一级黄色录像大片| 亚洲第一男人av| www.国产精品.com| 欧美激情视频一区二区| 韩国美女久久| 亚洲自拍在线观看| 免费看av成人| 日韩精品一区二区免费| 日本成人在线视频网站| 潘金莲一级淫片aaaaa| 久久精品一区四区| 国产亚洲第一页| 欧美人xxxx| 日本中文字幕一区二区有码在线 | 欧美成a人片在线观看久| 91免费精品国偷自产在线| 亚洲69av| 日韩精品一区二区三区四| 日韩av不卡在线观看| 亚洲美女在线播放| 亚洲欧美日韩综合aⅴ视频| 亚洲第一网站在线观看| 精品久久久久av影院| 日本高清在线观看wwwww色| 欧美有码在线观看视频| 中文字幕日韩在线| 亚洲第一精品区| 日韩不卡一区二区三区 | 日韩美女视频19| 久久精品视频5| 精品国产乱码久久| 1024在线播放| 成人av在线网址| 成人vr资源| 激情综合网俺也去| 26uuu亚洲综合色欧美 | 亚洲国产导航| 91视频免费入口| 国产精品国产精品国产专区不蜜| 69国产精品视频免费观看| 精品国产一区二区三区不卡| 成人在线免费看黄| 91精品国产自产在线| 青草国产精品| 男女男精品视频站| 久久精品免费在线观看| 久久久免费高清视频| 精品亚洲一区二区三区在线播放| wwww亚洲| www.久久爱.cn| 欧美va亚洲va日韩∨a综合色| av亚洲天堂网| 中文在线一区二区| 亚洲精品一区二区二区| 国产亚洲精品日韩| 成人不卡视频| 四虎永久国产精品| 久久成人羞羞网站| 中文国语毛片高清视频| 欧美日本在线视频| 黄色片网站在线| 亚洲精品免费一区二区三区| 欧美精品黄色| 国产一级免费片| 黄色精品在线看| 日本在线丨区| 国产成人综合亚洲| 97精品国产| 99热这里只有精品2| 一区二区三区四区亚洲| 免费av网站观看| 69av视频在线播放| 九九热爱视频精品视频| av五月天在线| 亚洲人成影院在线观看| 国产高清免费av| 97视频在线播放| 国产亚洲一区二区三区啪| 日韩欧美国产片| 亚洲黄色免费网站| 亚洲av成人精品一区二区三区在线播放 | 色一情一乱一伦一区二区三区 | 成人激情视频在线| 综合av在线| 中文字幕 日本| 91福利精品视频| 国产高清一区二区三区视频 | 91精品一区国产高清在线gif | 国产理论视频在线观看| 欧美大片免费观看在线观看网站推荐| 精品亚洲精品| 一区二区三区入口| 夜夜夜精品看看| 色哟哟在线观看| 成人自拍性视频| 国产精品入口66mio| 亚洲一级理论片| 亚洲成人激情图| 九九久久国产| 欧美一级免费播放| 日本一区二区久久| www.日本在线观看| 日韩av电影免费观看高清| 香港欧美日韩三级黄色一级电影网站| 国产人妻精品午夜福利免费| 色综合久久88色综合天天| 国产不卡在线| 欧美日韩一区二区视频在线| 国产精品综合一区二区三区| 五月天综合激情网| 久久综合五月天| 国产成人影院| 人妻换人妻a片爽麻豆| 欧美日韩激情一区二区| 国产激情视频在线看| 亚洲一区二区三区四区中文|