精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架

人工智能
強化學習(RL)作為一種經典的時序決策模型的訓練方法,勢必成為決策大模型訓練及微調的核心技術之一。而由于任務和數據的復雜性,我們希望模型在訓練時能擺脫傳統強化學習與環境在線交互的方式,實現在海量歷史數據中進行離線、多任務的高效學習。

現如今,以 GPT 為代表的大語言模型正深刻影響人們的生產與生活,但在處理很多專業性和復雜程度較高的問題時仍然面臨挑戰。在諸如藥物發現、自動駕駛等復雜場景中,AI 的自主決策能力是解決問題的關鍵,而如何進行決策大模型的高效訓練目前仍然是開放性的難題。

強化學習(RL)作為一種經典的時序決策模型的訓練方法,勢必成為決策大模型訓練及微調的核心技術之一。而由于任務和數據的復雜性,我們希望模型在訓練時能擺脫傳統強化學習與環境在線交互的方式,實現在海量歷史數據中進行離線、多任務的高效學習,這一新范式被稱為「離線元強化學習 」(Offline Meta-RL)。

近期,圍繞離線元強化學習,來自之江實驗室、香港中文大學、同濟大學等單位的研究團隊提出了全新算法 UNICORN。該方法基于信息論,首次系統性地提出了一套關于強化學習中任務表示學習(task representation learning)的理論框架 UNICORN(UNIfied Information Theoretic Framework of Context-Based Offline Meta-ReiNforcement Learning),將現有主流方法利用一個基于任務表征的通用互信息優化目標進行了統一,并憑借理論創新和全面的實驗驗證,成為離線及元強化學習領域的重要里程碑,被人工智能三大頂級會議 NeurIPS 2024 接收為 Spotlight 文章(中稿率 2.08%)。

圖片

  • 論文標題:Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning
  • 論文鏈接:https://openreview.net/pdf?id=QFUsZvw9mx
  • 項目地址:https://github.com/betray12138/UNICORN

問題背景

在經典強化學習中,智能體(agent)通過與外部環境實時交互來收集反饋,在不斷試錯(trial-and-error)中積累經驗進行學習。然而在諸如自動駕駛、疾病治療等現實場景中,試錯帶來的風險往往是無法承受的,從而使人們開始關注如何擺脫與環境的在線交互,僅從歷史數據中進行學習,這一新范式被稱為「離線強化學習」(offline RL)。

另一方面,復雜多變的真實場景使得智能體處理多任務能力的必要性與日俱增,這種使智能體像人類一樣同時學習多種技能并進行舉一反三的范式被稱作「元強化學習」(meta-RL)。

離線強化學習和元強化學習作為強化學習的兩個分支,有著各自獨特的優勢。前者由于擺脫了與環境的在線交互,可以重復利用歷史數據進行訓練,具有高安全性、高樣本效率的特點;而后者聚焦多任務及遷移學習,在泛化能力方面表現突出,兩者優勢互補。

于是在 2021 年前后,人們開始嘗試結合兩種范式來訓練更加強大的智能體,其中主流的一類方法被稱為「基于語境的離線元強化學習」(Context-Based Offline Meta-RL,COMRL),其核心思想是將當前任務的表征作為額外的狀態信息,訓練一個適用于任意任務 / 環境的通用策略(universal policy):

圖片

在該框架下,如何學習魯棒、有效的任務表征 Z 成為核心問題,而其中最重要的挑戰是語境偏移(context shift)。由于智能體的訓練數據是離線也就是固定分布的,但在測試時面臨的任務語境未知且多變,導致訓練和測試集間可能在狀態 - 動作(state-action)維度或者任務維度上存在巨大分布偏移,這對于模型的魯棒性、泛化性提出了極高要求。

針對上述問題,現有主流方法例如 FOCAL[1]、CORRO[2]和 CSRO[3]陸續提出了多種優化目標,利用度量學習(metric learning)、對比學習(contrastive learning)等思想進行任務表征學習:

  • FOCAL

圖片

  • CORRO

圖片

  • CSRO

圖片

然而,現有方法主要聚焦于對損失函數的經驗性改進,缺乏針對任務表示學習尤其是語境偏移的系統性理論支持和設計指導。

基于信息論的統一理論框架 UNICORN

UNICORN 的核心創新在于借助信息論,從數學定義、因果關系分解、中心定理三個層面依次遞進,首次系統性地定義和解構了 COMRL 中的任務表示學習這一問題,并通過嚴格理論證明將現有方法的優化目標進行了統一,由此提出并驗證了兩種新的算法實現,以啟迪未來更多新方法的設計。

1. 任務表示學習的數學定義

由于在 COMRL 中,數據覆蓋多個任務,假設這些任務采樣于一個特定的任務分布,我們將遵從該分布的任務變量定義為隨機變量圖片,與之對應的數據樣本和任務表示變量分別定義為圖片圖片,則三者構成如下馬爾可夫鏈:

圖片 

任務表示學習的數學定義:COMRL 中的任務表示學習意在找到一個數據圖片相對于任務變量圖片的充分統計量(sufficient statistics)圖片 。

2. 因果關系分解

在 COMRL 中,原則上,任務變量 與進行采樣的行為策略(behavior policy)應該相互獨立。我們發現如果將數據樣本圖片看作包含狀態、動作、獎勵的四元組 (s, a, s’, r),則其中前兩項(s, a)的分布主要與行為策略相關,而在給定 s、a 的情況下,s’、r 的分布完全由任務本身的獎勵函數及狀態轉移函數所決定?;诖耍覀兛梢詫ι鲜鲴R爾可夫鏈進行如下拆解:

圖片

該分解反映了由 s’, r 構成的 X_t 包含了與任務變量圖片、圖片的絕大部分因果關系,而由 s, a 構成的 X_b 由于與行為策略高度相關,含有大量虛假相關性(spurious correlation)。同時在數學上,我們發現該因果關系分解正好可以對應如下的互信息分解:

圖片

基于上述分析,我們將右邊第一項命名為主因果關系(primary causality),第二項稱為次因果關系(lesser causality)。

3. 中心定理

本文從數學上嚴格證明了如下不等式(中心定理):

圖片


該中心定理引申出 2 個重要結論,為未來 COMRL 領域的新方法設計指明了道路:

  • 主因果關系作為不等式下界,雖不包含虛假相關性,但缺失部分因果相關性;而主因果關系與次因果關系之和作為上界,在囊括全部因果相關性的同時引入了虛假相關性。因此,理論上,一個有且僅包含全部因果相關性的「最優優化目標」應該介于兩者之間,而 I (Z; M) 剛好滿足這一要求?;谏鲜鲇^察,我們提出 I (Z; M) 應該作為任務表示學習優化目標的金標準(ground truth),其天然具有對于語境偏移的魯棒性。
  • 現有主流方法本質都是在優化 I (Z; M) 的一個近似,例如 FOCAL、CORRO、CSRO 分別優化的是其上界、下界和兩者的線性插值。因此,找到更好的 I (Z; M) 近似方法將成為 COMRL 領域未來發展的關鍵方向。

基于上述洞察,為了展示 UNICORN 框架的指導意義,通過對 I (Z; M) 的近似,我們提出了兩種新的算法實現:

  • 有監督 UNICORN:將 I (Z; M) 的求解近似為離散化的分類問題

圖片


  • 自監督 UNICORN:將 I (Z; M) 的求解近似為數據重建(生成式)+ 度量學習(對比式)

圖片


實驗結果:UNICORN 的廣泛適用性和魯棒性

為了證明 UNICORN 理論框架的普適性,我們在多種機器人連續控制任務的相關設定下對新提出的兩種方法進行了廣泛的實驗驗證:

1. Behavior IID/OOD (訓練集與測試集的行為策略采樣于相同分布 / 不同分布)

圖片

結論:UNICORN 算法在同分布測試集上性能媲美 SoTA,在分布外測試集上性能顯著優于現有其他方法。

2. 不同質量的數據集表現

圖片 

結論:UNICORN 算法(尤其無監督版本)在不同質量的數據集上的性能均達到 SoTA。

3. 不同模型架構的可遷移性(應用于 Decision Transformer(DT)的測試結果)

圖片

結論:UNICORN 算法在 MLP/Decision Transformer 架構上相比現有方法均呈現明顯優勢,可以作為即插即用的模塊廣泛應用于其他 RL 算法中。

4. 對于分布外任務的泛化性

圖左為分布外任務的構造方式:以 Ant-Dir 為例,訓練任務的目標方向采樣自第二、三象限,測試任務分布于第一、四象限,兩者完全不重疊。圖右為測試結果:自監督 UNICORN 為唯一取得正向小樣本遷移(positive few-shot transfer)的算法。

結論:利用無監督 UNICORN 中的自編碼器進行 domain randomization 和 model-based RL,可以將智能體的能力外推至分布外的任務,這一點是現有其他方法都無法做到的。

UNICORN 的未來展望:為拓展決策大模型的能力邊界提供理論基礎

UNICORN 為離線元強化學習提供了統一理論基礎和算法設計準則,對于決策大模型的大規模離線、多任務預訓練及微調,從而進一步拓展決策大模型的能力邊界具有指導意義。該技術有助于解決藥物設計、精準醫療、具身智能等前沿領域面臨的 AI 模型的泛化性、多目標優化、樣本利用率等挑戰,同時,團隊也在探索將 UNICORN 框架進一步推廣到在線強化學習等更多場景中。

參考文獻:

[1]. Lanqing Li, Rui Yang, and Dijun Luo. Focal: Efficient fully-offline meta-reinforcement learning via distance metric learning and behavior regularization. ICLR 2021.

[2]. Haoqi Yuan and Zongqing Lu. Robust task representations for offline meta-reinforcement learning via contrastive learning. ICML 2022.

[3].Yunkai Gao, et al. Context shift reduction for offline meta-reinforcement learning. NeurIPS 2023.

責任編輯:姜華 來源: 機器之心
相關推薦

2025-11-11 08:45:00

2024-11-15 15:20:00

模型數據

2025-06-13 09:29:51

2025-10-14 13:55:57

AI模型訓練

2024-12-16 07:10:00

OpenAIAI人工智能

2024-12-05 13:00:00

2024-12-16 08:20:00

AI工具

2023-06-12 07:50:45

2023-06-27 13:54:57

機器學習模型

2023-10-25 09:50:07

自動駕駛訓練

2024-01-03 18:53:13

語言模型LLM

2023-05-19 07:25:34

2023-02-01 09:46:29

2024-03-25 12:30:18

AI訓練開源

2023-10-20 09:43:56

模型訓練

2022-05-16 11:06:54

SOTA谷歌預訓練

2025-09-23 03:00:00

2022-11-28 14:00:24

人工智能

2025-07-04 09:53:57

2022-04-12 14:36:58

達摩院訓練模型
點贊
收藏

51CTO技術棧公眾號

av在线播放网址| 大胆欧美熟妇xx| 国产精品玖玖玖| 亚洲电影av| 国产亚洲精品成人av久久ww| 在线免费看v片| 神马久久午夜| 怡红院av一区二区三区| 女人一区二区三区| 99国产精品久久久久99打野战| 日韩视频一区| 久久av资源网站| 成人性生交大免费看| 久久wwww| 欧美三级一区二区| 日本欧美黄色片| 男人和女人做事情在线视频网站免费观看 | 久久69国产一区二区蜜臀| 97色在线观看| 18精品爽视频在线观看| 水蜜桃久久夜色精品一区| 亚洲精品一区二区精华| 五月天中文字幕在线| 在线男人天堂| 亚洲电影中文字幕在线观看| 制服诱惑一区| aaa在线观看| 久久久精品天堂| 国内精品国语自产拍在线观看| 97视频免费在线| 日韩精品免费视频人成| 97超级碰在线看视频免费在线看 | 综合国产精品| 日韩在线视频导航| 欧美做受高潮6| 天天躁日日躁狠狠躁欧美巨大小说| 欧美成人三级在线| www.五月天色| 白嫩亚洲一区二区三区| 欧美色电影在线| 国产三级三级三级看三级| sm捆绑调教国产免费网站在线观看| 亚洲私人影院在线观看| 亚洲资源在线网| av免费观看一区二区| 久久久久国产成人精品亚洲午夜| 精品无码久久久久国产| 手机看片1024日韩| www.视频一区| 精选一区二区三区四区五区| 狠狠综合久久av一区二区| 国产乱子伦一区二区三区国色天香| 国产精品自拍小视频| 中文字幕 视频一区| 麻豆一区二区三| 国产精品综合网站| 妖精视频在线观看免费| 狠狠人妻久久久久久| 亚洲色诱最新| 69国产精品成人在线播放| 伊人365影院| 日韩午夜在线| 热久久这里只有精品| 五月天激情国产综合婷婷婷| 亚洲永久字幕| 国产成人福利网站| 亚洲免费视频二区| 激情文学综合插| 91探花福利精品国产自产在线| 国产精品欧美久久久久天天影视| 国产精品99久久久| 成人高清在线观看| 天堂中文在线资源| 久久精品亚洲国产奇米99| 亚洲草草视频| 91网址在线观看| 图片区小说区国产精品视频| 国产99久久九九精品无码| 亚洲承认视频| 5566中文字幕一区二区电影| 97中文字幕在线观看| 日韩高清在线免费观看| 国产一区二区三区在线观看网站| 东方伊人免费在线观看| 亚洲最大黄网| 欧美亚洲视频在线看网址| 国产精品成人久久久| 国产在线一区观看| 狠狠干一区二区| 91高清在线| 一区二区三区四区亚洲| 亚洲精品无码久久久久久| 综合欧美精品| 精品无人区太爽高潮在线播放 | 精品一卡二卡三卡| 日韩毛片网站| 日韩精品在线观看一区| 99热在线观看精品| 亚洲一区二区三区免费在线观看| 国产在线一区二区三区| 五月婷婷在线播放| 亚洲色图欧美偷拍| 99久久国产宗和精品1上映| 麻豆国产一区| 一区二区亚洲精品国产| 国产一级在线观看视频| 免播放器亚洲一区| 精品乱码一区二区三区| 大地资源网3页在线观看| 欧美视频一区二区三区…| 日韩av片免费观看| 欧美男同视频网| 久久久久久高潮国产精品视| 亚洲一区二区影视| 91免费视频网址| 久久av综合网| 久久久久毛片免费观看| 中文字幕综合在线| 中文字幕免费高清网站| 成人免费高清在线| 亚洲天堂第一区| 欧美爱爱视频| 亚洲无线码在线一区观看| 日韩手机在线观看| 成人一区二区在线观看| 综合久久国产| 亚洲黑人在线| 日韩最新av在线| 中国一级片黄色一级片黄| 久久影院视频免费| 日韩国产欧美亚洲| youjizzjizz亚洲| 欧美第一黄色网| 精品美女www爽爽爽视频| 一区在线观看免费| 污污网站免费观看| 日韩av专区| 国产欧美日韩视频| av男人的天堂在线| 欧美三级日韩在线| 亚洲色图 激情小说| 日韩影院精彩在线| 欧美一区二区三区成人久久片| 欧美xxxhd| 精品亚洲国产成av人片传媒| 久久狠狠高潮亚洲精品| 成人av电影在线观看| 国产二区视频在线| 久久精品色综合| 97不卡在线视频| 黄色影院在线播放| 欧洲日韩一区二区三区| 在线免费看视频| 久久99国产精品免费网站| 一区二区在线中文字幕电影视频| 四虎在线精品| 免费不卡在线观看av| 亚洲国产精品久久久久爰性色| 亚洲一区二区三区四区不卡| 美女久久久久久久久| 国产一区白浆| 色一情一区二区三区四区| 久久亚洲国产精品尤物| 欧美成人免费网| 后进极品白嫩翘臀在线视频| 狠狠综合久久av一区二区小说| 久久精品无码一区| 蜜桃av噜噜一区| 91免费版看片| 亚洲伊人春色| 成人免费高清完整版在线观看| 91蜜桃在线视频| 国产手机视频精品| 亚洲性在线观看| 亚洲国产欧美日韩另类综合 | 日韩精品欧美| 亚洲综合成人婷婷小说| av有码在线观看| 国产亚洲精品高潮| av中文字幕免费在线观看| 亚洲一区二区三区中文字幕在线| 野花社区视频在线观看| 麻豆极品一区二区三区| www.九色.com| 精品一区二区三区的国产在线观看| 成人激情在线观看| 欧美极品videos大乳护士| 中文字幕日韩精品在线| 亚洲成人黄色片| 色婷婷综合久久久| 玖玖爱免费视频| 欧美国产精品一区| 女人扒开双腿让男人捅| 日韩精品一二三四| 日韩在线视频在线| 全球成人免费直播| 国产亚洲一区在线播放| 福利一区二区免费视频| 性欧美xxxx交| 国产原创精品视频| 国产午夜精品全部视频在线播放| www.爱爱.com| 欧美系列亚洲系列| 韩国av中文字幕| 亚洲激情男女视频| 亚洲天堂最新地址| 97国产一区二区| 日本精品一二三区| 九九久久精品视频 | 精品一区二区三区香蕉蜜桃 | 久久精品国产亚洲av麻豆色欲 | 日韩精品成人在线| 最新热久久免费视频| 国产精品20p| 97久久超碰国产精品| 九九热视频免费| 免费人成精品欧美精品 | 奇米影视在线99精品| 毛片在线播放视频| 亚洲特色特黄| 成人在线观看毛片| 国产大片一区| 亚洲欧美日本国产有色| 国内精品视频在线观看| 黄色99视频| 久久99国产精品久久99大师| 高清视频一区| 日本高清精品| 99c视频在线| 视频精品一区| 亚洲综合中文字幕68页| 亚洲精品aa| 国产免费亚洲高清| 国产成+人+综合+亚洲欧美| 日韩av免费看| 黄瓜视频成人app免费| 日韩**中文字幕毛片| 日韩欧美看国产| 日产精品99久久久久久| 裤袜国产欧美精品一区| 91av在线不卡| 日韩av首页| 国产精品色午夜在线观看| 99只有精品| 国产日韩欧美自拍| 亚洲黑人在线| 97se亚洲综合| 老司机凹凸av亚洲导航| 国产日韩在线一区二区三区| 日韩成人av在线资源| 免费国产一区| 国产欧美高清视频在线| 日韩成人av网站| 日韩欧美综合| 在线观看av的网址| 亚洲一级黄色| 国产原创popny丨九色| 免费在线观看成人av| 久久久久久久久久福利| 美女91精品| 在线观看国产一级片| 国产麻豆成人传媒免费观看| 一级黄色免费视频| 91蜜桃免费观看视频| 日本少妇xxxxx| **性色生活片久久毛片| 国产亚洲欧美精品久久久www| 精品国产乱码久久久久久婷婷 | 日本午夜一区二区| 国内自拍第二页| 不卡的av在线| 永久免费av无码网站性色av| 综合久久综合久久| 国产在线视频99| 一本大道久久a久久精二百| 中文字幕人妻一区二区三区视频| 欧美一区二区私人影院日本| 日本黄色一区二区三区| 一区二区三区视频免费| 麻豆视频在线播放| 91精品国产乱码久久久久久蜜臀| 亚洲成人一区在线观看| 99国产盗摄| 九九热精品视频在线观看| a级网站在线观看| 国产精品资源| 中文字幕一区二区在线观看视频 | 免费看一级黄色| 亚洲h在线观看| 一级爱爱免费视频| 亚洲精品在线观看网站| 成在在线免费视频| 久久久久久这里只有精品| 日本综合视频| 国产厕所精品在线观看| 残酷重口调教一区二区| 国产中文字幕乱人伦在线观看| 青青草97国产精品免费观看 | 女同一区二区三区| 亚洲一区3d动漫同人无遮挡 | 日韩欧美国产视频| 国产欧美第一页| 亚洲日本成人网| 白白色在线观看| 亚洲综合日韩在线| 免费精品国产的网站免费观看| 影音先锋成人资源网站| 蜜桃久久久久久久| 超碰97人人干| 亚洲国产cao| 国产肥老妇视频| 色婷婷av一区二区三区在线观看 | 欧美一区二区视频免费观看| 黄色大片在线免费观看| 午夜精品久久久久久久99热浪潮| 成人在线分类| 一区二区精品国产| 久久久久久网| 国内精品久久99人妻无码| 亚洲自拍偷拍综合| 国产wwwxxx| 久久伊人免费视频| 亚洲热av色在线播放| 欧美日韩免费高清| 午夜在线精品| 亚洲一区二区在线免费| 亚洲综合色婷婷| 午夜精品久久久久久久爽| 久久久av网站| 成人在线精品| 国产欧美综合一区| 激情久久久久久久久久久久久久久久| 在线免费看黄视频| 91官网在线免费观看| 你懂的在线视频| 2019日本中文字幕| 欧美一性一交| av天堂永久资源网| 久久综合九色综合97_久久久| 一级免费在线观看| 亚洲黄色www网站| 国产粉嫩在线观看| 久久99精品久久久久久青青日本| 影音先锋久久| 国产白嫩美女无套久久| 偷窥少妇高潮呻吟av久久免费| 欧美一级特黄aaaaaa| 97视频在线播放| 综合伊思人在钱三区| 黄色av免费在线播放| 日本一区二区不卡视频| 婷婷激情五月综合| 综合136福利视频在线| 亚洲电影二区| 97碰在线视频| 95精品视频在线| 国产成人a v| 久久人人爽人人爽爽久久| 国产精品1区在线| 免费看黄在线看| 久久免费的精品国产v∧| 中文字幕乱码中文字幕| yw.139尤物在线精品视频| 在线欧美激情| www插插插无码视频网站| 久久久久久免费网| 一级黄色片在线看| 欧美日本啪啪无遮挡网站| 网曝91综合精品门事件在线 | 成人毛片视频在线观看| 天天综合网久久综合网| 国产一区二区三区在线看| 成人亚洲精品| 成人中文字幕在线播放| 国产欧美视频一区二区三区| 国产美女免费看| 97色在线视频观看| 成人系列视频| 亚洲视频 中文字幕| 色婷婷综合久久久久中文一区二区 | 久久精品欧美日韩精品 | 精品中文视频在线| 国产精品第一国产精品| 久青草视频在线播放| 国产无一区二区| 亚洲av无码国产精品永久一区| 日韩av片免费在线观看| 欧美二区视频| 免费毛片视频网站| 日韩一区二区三| 国产成人精品一区二三区在线观看| 亚洲五码在线观看视频| 久久毛片高清国产| 精品人妻aV中文字幕乱码色欲| 欧日韩不卡在线视频| 亚洲网站视频| 五月综合色婷婷| 国产亚洲精品久久久| 久久久伦理片| 国产又黄又嫩又滑又白|