精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為何RL泛化這么難:伯克利博士從認知POMDP、隱式部分可觀察解讀

新聞 人工智能
強化學習為何泛化如此困難?來自加州大學伯克利分校等機構的研究者從認知 POMDP、隱式部分可觀察兩個方面進行解釋。

 [[437395]]

當今強化學習(RL)的問題很多,諸如收斂效果不好。在偏弱的實驗環境里,模型測試結果看起來尚可,許多問題暴露得不明顯,但大量實驗已經證明深度 RL 泛化很困難:盡管 RL 智能體可以學習執行非常復雜的任務,但它似乎對不同任務的泛化能力較差,相比較而言,監督深度網絡具有較好的泛化能力。

有研究者認為,對于監督學習來說,發生一次錯誤只是分類錯一張圖片。而對于 MDP(馬爾可夫決策過程)假設下的 RL,一次識別錯誤就會導致次優決策,甚至可能一直錯誤下去,這也是 RL 在現實世界沒法用的根源。

為什么強化學習的泛化能力從根本上來說很難,甚至從理論的角度來說也很難?來自加州大學伯克利分校的博士生 Dibya Ghosh 等研究者共同撰文解釋了這一現象,文章從認知 POMDP(Epistemic POMDP)、隱式部分可觀察(Implicit Partial Observability)兩個方面進行解釋。論文共同一作 Dibya Ghosh 的研究方向是使用強化學習進行決策。之前,他曾在蒙特利爾的 Google Brain 工作。

為何RL泛化這么難:伯克利博士從認知POMDP、隱式部分可觀察解讀

論文地址:https://arxiv.org/pdf/2107.06277.pdf

通過示例進行學習

在正式分析 RL 泛化之前,研究者首先通過兩個示例解釋 RL 中泛化困難的原因。

猜圖游戲

在這個游戲中,RL 智能體在每個回合(episode)中都會看到一張圖像,并盡可能快地猜出圖像標簽(下圖 1)。每個時間步長內(timestep),智能體必須進行一次猜測;如果猜測正確,那么這一回合就結束了。但如果猜錯了,則智能體會收到一個負反饋,并要在下一個回合中對相同的圖像進行其他猜測。因為每張圖像都有唯一的標簽(有正確的標簽函數 f_true:x—>y),智能體接收圖像作為觀測,這是一個完全可觀測的 RL 環境。

為何RL泛化這么難:伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 1:在猜圖游戲中,智能體反復猜測圖像標簽,直到正確為止

假設我們可以訪問無限數量的訓練圖像,并使用標準 RL 算法學習策略。該策略將學習如何確定地預測真實標簽(y:=f_true(x)),同時這也是 MDP 中的最高回報(return)策略。假如只有一組有限的訓練圖像,RL 算法仍然會學習相同的策略,確定性地預測與圖像匹配的標簽。

但是,這種策略的泛化能力如何呢?在未見過的測試圖像上,如果智能體預測標簽仍然正確,智能體將會獲得最高的獎勵;如果不正確,智能體會收到災難性的低回報,因為它永遠不會猜到正確的標簽。這種災難性的失敗模式一直存在,因為即使現代深度網絡提高了泛化能力并減少了錯誤分類的機會,但測試集上的錯誤也不能完全減少到 0。

我們能做得比這種確定性預測策略更好嗎?因為學習 RL 策略忽略了猜圖游戲的兩個顯著特征:1) 智能體會在一個回合中接收猜測是否正確的反饋,以及 2) 智能體可以在未來的時間步長中更改其猜測。消除過程(process-of-elimination)策略可以很好地利用這兩個特征:首先,RL 會選擇它認為最有可能的標簽,如果不正確,則消除該標簽并適應下一個最有可能的標簽,依此類推。然而,這種基于記憶的自適應策略永遠不會被標準 RL 算法學習,因為它們優化了 MDP 目標并且只學習確定性和無記憶策略。

迷宮求解算法

作為 RL 泛化基準測試的主要內容,迷宮求解問題要求智能體可以導航到迷宮中的目標,并且給出整個迷宮的鳥瞰圖。這項任務是完全基于觀察的,智能體通過觀察展示整個迷宮圖。因此,最優策略是無記憶和確定性的,只要智能體沿著最短路徑到達目標即可。

就像在猜圖游戲中一樣,RL 通過最大化訓練迷宮布局內的回報,確定性會采取它認為以最短路徑到達目標的行動(action)。

這種 RL 策略泛化能力很差,因為如果學習策略選擇了一個錯誤的動作,比如撞墻或折回原來的道路,它將繼續循環同樣的錯誤并且永遠無法解決迷宮問題。但是,這種失敗模式是完全可以避免的,因為即使 RL 智能體最初采取了這樣一個不正確的行動,在經過幾次跟隨之后,智能體會收到所采取的行為正確與否的信息(比如基于下一次觀察)。

為了盡可能地進行泛化,如果智能體最初的行動導致了意想不到的結果,那么智能體應該適應它所選擇的行動,但是這種行動回避了標準的 RL 目標。

為何RL泛化這么難:伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 2:在迷宮任務中,RL 策略泛化能力很差:當出現錯誤時,它們會重復犯同樣的錯誤,導致失敗(左)。泛化良好的智能體也會犯錯誤,但具有適應性和從這些錯誤中恢復的能力(右)。用于泛化的標準 RL 目標不會學習這種行為

為何RL泛化這么難:伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 3:有限的訓練數據集使智能體無法準確地恢復真實環境。相反,存在一種隱式部分可觀察,因為智能體不知道在一組一致的環境中哪一個是真實的環境

當給智能體一個小的上下文訓練集時,許多動態模型與提供的訓練上下文匹配,但與保留(held-out)的上下文有所不同。這些相互矛盾的假設體現了智能體在有限訓練集中的認知不確定性。更重要的是,智能體通過軌跡接收到的信息,可以在評估時改變其認知不確定性。假設對于猜謎游戲中的圖像,智能體最初在「t-shirt / coat」標簽之間不確定。如果智能體猜測「t-shirt 」并收到錯誤的反饋,智能體會改變其不確定性并對「 coat」標簽變得更有信心,這意味著它應該因此而適應并猜測「 coat」。

認知 POMDP 與隱示部分可觀察

RL 智能體有兩種方式處理其認知不確定性:主動轉向低不確定性區域和采用信息收集。但是它們都沒有回答這些問題:「是否有一個最好的方法來處理不確定性,如果有的話,我們該如何描述呢?」從貝葉斯的角度來看,事實證明存在這樣一個最優解:最優泛化要求我們解決「部分可觀察的馬爾可夫決策過程 (POMDP)」,POMDP 隱式地由智能體認知不確定性創建。

為何RL泛化這么難:伯克利博士從認知POMDP、隱式部分可觀察解讀

認知 POMDP(epistemic POMDP)作用如下:由于智能體只能看到有限的訓練集,因此有許多可能的環境與提供的訓練上下文一致。一致的環境集可以通過貝葉斯后驗對環境進行編碼 P(M | D),在認知 POMDP 的每一個階段中,智能體被放入這種一致的環境中 M~P(M | D),并要求在其中最大化獎勵。

該系統對應于 POMDP,因為行動所需的相關信息,智能體只能通過部分觀察到:雖然環境中的狀態被觀察到,但環境 M 生成這些狀態的信息對智能體是隱藏的。認知 POMDP 將泛化問題實例化到貝葉斯 RL 框架中,該框架更一般性地研究了 MDP 分布下的最優行為。

為何RL泛化這么難:伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 4:在認知 POMDP 中,智能體在每個階段中與不同的相互一致環境進行交互,但不知道它具體與哪個交互可以導致部分可觀察性。要想做得好,智能體必須采用(可能基于內存的)策略,使得其無論置于哪個環境中,都可以很好地工作

讓我們通過一個示例來了解認知 POMDP 。對于猜謎游戲,智能體不確定圖像究竟如何標記,因此每個可能的環境 M∼P(M∣D) 對應于不同圖像標簽器,其與訓練數據集保持一致:f_M:X→Y。在猜謎游戲的認識 POMDP 中,每階段隨機選擇一個圖像 x 和標簽器 f_M,并要求智能體輸出采樣分類器 y=f_M(x) 分配的標簽。智能體不能直接這樣做,因為分類器的身份沒有提供給智能體,只提供了圖像 x。如果所有標簽器 f_M 后驗都同意某個圖像的標簽,則智能體可以只輸出這個標簽(沒有部分可觀察性)。但是,如果不同的分類器分配不同的標簽,則智能體必須使用平均效果良好的策略。

認知 POMDP 還強調了從有限訓練集上下文中學習策略的危險:在訓練集上運行完全可觀察的 RL 算法。這些算法將環境建模為 MDP,并學習 MDP 最優策略,即確定性和馬爾可夫策略。這些策略不考慮部分可觀察性,因此往往泛化性很差(例如在猜謎游戲和迷宮任務中)。這表明基于 MDP 訓練目標(現代算法標準)與認知 POMDP 訓練目標(實際上決定了所學習策略的泛化程度)之間存在不匹配。

在 RL 中推進泛化

我們應該怎么做才能學習更好泛化的 RL 策略?認知 POMDP 提供了一個規范的解決方案:當可以計算智能體在環境上的后驗分布時,通過構建認知 POMDP 并在其上運行 POMDP 求解算法將產生泛化貝葉斯最優的策略。

遺憾的是,在大多數有趣的問題中,還不能完全做到。盡管如此,認知 POMDP 可以作為設計具有更好泛化能力 RL 算法的標桿。作為第一步,研究者在論文中引入了一種稱為 LEEP 的算法,該算法使用統計自助法 (Bootstrapping) 來學習近似認知 POMDP 的策略。

在具有挑戰性的 RL 智能體泛化基準測試 Procgen 上,LEEP 在測試時的性能比 PPO 顯著提高(圖 3)。雖然只是粗略的逼近,但 LEEP 提供的一些跡象表明,嘗試在 epistemic POMDP 中學習策略可以成為開發更通用 RL 算法的有效途徑。

為何RL泛化這么難:伯克利博士從認知POMDP、隱式部分可觀察解讀

圖 5:LEEP,一種基于認知 POMDP 目標的算法,在四個 Procgen 任務中比 PPO 具有更好的泛化性能

在監督學習中,優化訓練集性能可以提高模型泛化能力,因此,很容易假設 RL 中的泛化可以用同樣的方式解決,但這顯然是錯誤的。RL 中有限的訓練數據將隱式的部分可觀察性引入到一個完全可觀察的問題中。這種隱式的部分可觀察性,正如認知 POMDP 形式化的那樣,意味著在 RL 中很好地泛化需要自適應或隨機行為,這是 POMDP 問題的關鍵。

最終,這凸顯了深度 RL 算法泛化的不兼容性:由于訓練數據有限,基于 MDP 的 RL 目標與最終決定泛化性能的隱式 POMDP 目標不一致。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2018-10-09 14:00:41

SQL深度學習神經網絡

2025-07-14 13:47:29

2025-05-06 15:31:55

智能模型AI

2025-07-07 13:50:56

AI編程算法

2022-03-28 13:25:42

AI扶貧機器之心

2025-06-03 08:38:00

2024-09-25 09:37:16

2024-08-19 14:05:00

2022-01-27 09:47:12

計算機MIT

2023-06-08 11:27:10

模型AI

2017-04-25 10:44:02

網利寶

2025-01-22 15:21:00

2019-01-10 09:11:51

消息順序性分布式服務端

2010-05-04 13:42:18

Unix打印系統

2023-04-07 09:28:31

模型訓練

2023-05-26 17:20:29

模型工具

2025-09-02 06:41:53

2024-12-16 11:57:21

2023-05-19 13:34:02

2023-04-04 13:17:00

GPUCMU開源
點贊
收藏

51CTO技術棧公眾號

欧美aⅴ在线观看| 国产精品一区在线播放| 九九热久久免费视频| www.成人| 午夜欧美视频在线观看 | 青青青青草视频| 男人的天堂在线视频| 久久99精品国产麻豆婷婷洗澡| 欧美成在线观看| wwwwxxxx国产| 日韩视频一区二区三区四区| 色国产综合视频| 国产成人免费高清视频| 蜜芽tv福利在线视频| 狠狠久久亚洲欧美| 欧美中文字幕第一页| 九九精品视频免费| 国产精品欧美在线观看| 精品日韩一区二区三区| 欧美黄色性生活| 看黄在线观看| 亚洲精品国产视频| 色婷婷精品国产一区二区三区| 欧洲人成人精品| 无码粉嫩虎白一线天在线观看 | 免费看污黄网站| 成人性生交大片免费看网站| 国产精品美女久久久久aⅴ国产馆| 国产女主播一区二区三区| 一级特黄色大片| 视频一区视频二区中文字幕| 久久久久久噜噜噜久久久精品| 波多野结衣欲乱| 精品视频久久| 亚洲欧美国产日韩天堂区| 中文字幕永久免费| 国产麻豆一区二区三区| 欧美三级乱人伦电影| 99热成人精品热久久66| 黄视频网站在线观看| 樱花影视一区二区| 公共露出暴露狂另类av| 91xxx在线观看| 国产日韩在线不卡| 欧美午夜精品久久久久久蜜| 亚洲精品视频91| 国产老女人精品毛片久久| 国产在线精品成人一区二区三区| 探花国产精品一区二区| 亚洲欧美清纯在线制服| 69久久夜色精品国产69| 久久精品国产亚洲AV无码男同| 一区二区中文| 久久久999精品免费| 综合 欧美 亚洲日本| 欧美影院三区| 色偷偷噜噜噜亚洲男人| 国产在线免费av| 天天天综合网| 色与欲影视天天看综合网| 午夜精品一区二区三区视频| 91精品精品| 欧美成人在线免费| 国产亚洲精品女人久久久久久| 午夜亚洲福利| 97久久伊人激情网| av黄色在线看| 日韩精品一二三| 国产日韩换脸av一区在线观看| 国产乱淫片视频| 国产精品中文有码| 国产伦精品一区二区三| 日本电影一区二区在线观看| 久久先锋资源网| 丝袜美腿玉足3d专区一区| 毛片网站在线免费观看| 亚洲精品ww久久久久久p站| 精品成在人线av无码免费看| 色吧亚洲日本| 欧美性大战xxxxx久久久| 在线免费黄色网| 成人台湾亚洲精品一区二区 | www.欧美日本韩国| 亚洲国产一区二区视频| 激情婷婷综合网| www.成人在线.com| 亚洲福利在线看| 亚洲第一综合网| 小说区亚洲自拍另类图片专区 | 正在播放亚洲| 岛国在线视频网站| 欧美日韩国产乱码电影| 亚洲欧美日韩色| av中文一区| 欧美精品久久久久久久久久| 日韩精选在线观看| 国产高清不卡一区| 午夜精品美女久久久久av福利| 尤物yw193can在线观看| 在线观看视频一区二区| 久久av一区二区三| 第一会所亚洲原创| 97超级碰碰碰| 国产视频www| 久久精品视频网| 97超碰国产精品| 日韩电影精品| 国产丝袜精品视频| 日本老熟俱乐部h0930| 日韩中文欧美在线| 国产日韩欧美一区二区| 成人国产免费电影| 欧美视频一区二区在线观看| 国产xxxxxxxxx| 一区二区在线| 国产在线拍偷自揄拍精品| 亚洲AV第二区国产精品| 亚洲综合视频网| 久久国产这里只有精品| 视频一区中文| 国产91精品青草社区| 国产suv一区二区| 欧美韩国日本综合| 男人亚洲天堂网| 欧美自拍视频| 97香蕉久久超级碰碰高清版| 性欧美8khd高清极品| 亚洲欧洲精品天堂一级| 天天视频天天爽| 欧美丝袜激情| 国产精品男女猛烈高潮激情| 欧美日韩在线精品一区二区三区激情综| 亚洲狠狠丁香婷婷综合久久久| 特黄视频免费观看| 久久高清精品| 国产欧美精品一区二区三区介绍| 四虎电影院在线观看| 欧美日韩性视频| 噜噜噜在线视频| 国内精品久久久久久久影视蜜臀| 亚洲xxxx做受欧美| 尤物yw193can在线观看| 日韩免费观看高清完整版| 男人的天堂久久久| 国产精品456露脸| 国产内射老熟女aaaa| 欧美经典一区| 色综合91久久精品中文字幕| 亚洲精品成人电影| 亚洲一区二区成人在线观看| 91人妻一区二区| 影音先锋久久资源网| 国产在线视频欧美一区二区三区| av成人 com a| 日韩精品久久久久久福利| 日韩一区二区视频在线| 久久婷婷国产综合国色天香| 国产精品欧美激情在线观看 | 老司机av福利| 国产亚洲字幕| 韩国精品久久久999| 深夜福利视频网站| 色哟哟一区二区| 老司机福利在线观看| 国内精品国产成人| 9191国产视频| 欧美中文一区| 国产精品视频自拍| caopo在线| 亚洲国产精品中文| 久久国产乱子伦精品| 国产精品免费av| 亚洲少妇一区二区三区| 亚洲欧美春色| youjizz.com亚洲| jizzjizzjizz欧美| 国产91免费观看| 看女生喷水的网站在线观看| 欧美xxxx在线观看| 一二三区免费视频| 综合色中文字幕| 久久人妻少妇嫩草av无码专区| 视频一区在线播放| 欧美日韩激情四射| 免费黄色成人| 91传媒视频在线观看| 免费一二一二在线视频| 深夜成人在线观看| 男人天堂手机在线观看| 91精品福利视频| 午夜写真片福利电影网| 26uuu精品一区二区| 国产永久免费网站| 中文高清一区| 亚洲欧美日韩精品在线| 国产主播性色av福利精品一区| 国产精品999999| 少女频道在线观看免费播放电视剧| 亚洲免费视频一区二区| 亚洲大尺度视频| 在线精品观看国产| 99免费在线观看| 亚洲欧美另类久久久精品| 巨胸大乳www视频免费观看| 国产中文字幕精品| 久久久久免费精品| 136国产福利精品导航网址| 亚洲最新在线| 九九热爱视频精品视频| 国产精品18毛片一区二区| 日韩三区四区| 国产精品劲爆视频| 免费成人在线电影| 久久久女女女女999久久| 日本精品一区二区三区在线播放| 国产丝袜高跟一区| 日本精品999| 日韩一级片网址| 91麻豆一区二区| 在线亚洲一区观看| 亚洲永久精品在线观看| 亚洲一区二区欧美激情| 国产一区二区三区在线视频观看| 日本一区二区三级电影在线观看| 污污内射在线观看一区二区少妇 | 色欲AV无码精品一区二区久久| gogo大胆日本视频一区| 色婷婷综合在线观看| 老司机精品视频导航| 四虎永久在线精品无码视频| 国产精品尤物| 欧美日韩在线一| 最新日韩欧美| 日本人体一区二区| 亚洲成人在线| 欧美成人三级在线视频| 黄色在线成人| 97在线国产视频| 欧美精品入口| 欧美激情亚洲天堂| 欧美三区不卡| 欧美精品一区二区三区三州| 在线观看视频日韩| 人人干视频在线| 一本色道久久精品| 亚洲熟妇av日韩熟妇在线| 亚洲久久成人| 无码aⅴ精品一区二区三区浪潮 | 久久6免费视频| 久久国产精品区| 午夜福利123| 国产69精品久久777的优势| 久久久久无码国产精品一区李宗瑞| 国产精品伊人色| 国产麻豆剧传媒精品国产av| 99精品一区二区| 玖玖爱在线观看| 欧美极品xxx| 国产真实乱在线更新| 一级日本不卡的影视| 国产无码精品在线播放| 日韩欧美在线国产| 亚洲第一区av| 日韩一卡二卡三卡国产欧美| 亚洲第一第二区| 亚洲精品福利资源站| 狠狠色伊人亚洲综合网站l| 在线看片第一页欧美| 成人欧美在线| 2023亚洲男人天堂| 久久天堂影院| 91视频8mav| 欧美五码在线| 一区二区精品在线观看| 国产精品第十页| 九色在线视频观看| 美女mm1313爽爽久久久蜜臀| 超碰人人cao| 久久蜜臀精品av| 亚洲熟女少妇一区二区| 亚洲精品乱码久久久久久久久 | 亚洲精品久久区二区三区蜜桃臀| 91精品国产视频| 日日橹狠狠爱欧美超碰| 久久成人免费网| 久久久久成人精品无码中文字幕| 国产精品网站在线播放| 久草免费新视频| 在线亚洲一区二区| 国精品人妻无码一区二区三区喝尿| 亚洲精品在线不卡| www.在线视频| 国产精品国语对白| 国产精品对白| 中文字幕在线观看一区二区三区| 尤物在线精品| 极品粉嫩美女露脸啪啪| 久久综合成人精品亚洲另类欧美 | 黑人巨大精品欧美一区二区一视频 | 一本久道久久综合狠狠爱| 狠狠躁狠狠躁视频专区| 波多野结衣在线一区| 亚洲欧洲综合网| 日韩欧美在线视频| 亚洲va天堂va欧美ⅴa在线| 国产亚洲精品久久久久久| 先锋成人av| 国产欧美日韩精品专区| 亚洲bt欧美bt精品777| 穿情趣内衣被c到高潮视频| 日本不卡一二三区黄网| 国产美女视频免费观看下载软件| 亚洲女人的天堂| 懂色av蜜臀av粉嫩av喷吹 | 成年人在线观看| 午夜美女久久久久爽久久| 精品999日本久久久影院| 色狠狠久久av五月综合| 老鸭窝91久久精品色噜噜导演| 少妇献身老头系列| 综合自拍亚洲综合图不卡区| 羞羞色院91蜜桃| 伊人一区二区三区久久精品| 久久久男人天堂| 国模精品娜娜一二三区| 国产综合视频| 美女流白浆视频| 玉米视频成人免费看| 99国产精品久久久久99打野战| 色老头一区二区三区| 国产综合av| 欧美亚洲免费在线| 欧美在线综合| 日本黄色特级片| 黑人巨大精品欧美一区二区免费| 天天干视频在线| 国模吧一区二区| 欧美大奶一区二区| 精品这里只有精品| 久久久久久久性| 999视频在线| 中文字幕日韩综合av| 欧美黄色a视频| 国产免费色视频| 国产电影精品久久禁18| 欧美三级免费看| 日韩一本二本av| 国产网红女主播精品视频| 成人在线视频电影| 亚洲大片在线| 深爱五月激情网| 欧美视频一区二区三区在线观看| a天堂中文在线| 成人性生交大片免费看视频直播| 天天做天天爱天天综合网| 亚洲色图欧美自拍| 亚洲一区二区欧美| 国产又爽又黄网站亚洲视频123| 欧美一区三区三区高中清蜜桃| 亚洲桃色综合影院| jizz18女人| 亚洲男人电影天堂| 天堂网在线资源| 青青青国产精品一区二区| 成人久久综合| 中文字幕第22页| 精品国产精品自拍| 国产视频三级在线观看播放| 国产欧美一区二区三区久久| 欧美一区精品| 亚洲一区二区三区无码久久| 欧美亚洲尤物久久| www.欧美日本韩国| 麻豆成人小视频| 美女视频一区在线观看| 欧美成人综合色| 亚洲欧美制服中文字幕| 日日夜夜一区| 每日在线观看av| 国产欧美一区二区精品忘忧草| 一区二区 亚洲| 91国内精品久久| 四虎成人av| 国产a级黄色片| 在线成人av网站| av岛国在线| 国产免费色视频| 2021中文字幕一区亚洲| 国产免费久久久| 欧美在线免费观看| 欧美99久久| 一级黄色片网址| 精品国产欧美一区二区| 日韩不卡在线| 久久久久久免费看| 中文字幕在线播放不卡一区| 深夜福利视频在线免费观看| 91久久精品久久国产性色也91| 久久狠狠婷婷| 精品少妇久久久|