精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首次引入!用因果推理做部分可觀測強化學習

人工智能 新聞
在AAAI 2023上,這篇論文首次將因果推理引入部分可觀測強化學習。

這篇《Fast Counterfactual Inference for History-Based Reinforcement Learning》提出一種快速因果推理算法,使得因果推理的計算復雜度大幅降低——降低到可以和online 強化學習相結合的程度。

?本文理論貢獻主要有兩點:

?1、提出了時間平均因果效應的概念;

2、將著名的后門準則從單變量干預效應估計推廣到多變量干預效應估計,稱之為步進后門準則。

背景

需要準備關于部分可觀測強化學習和因果推理的基礎知識。這里不做過多介紹,給幾個傳送門吧:

部分可觀測強化學習:

POMDP講解 https://www.zhihu.com/zvideo/1326278888684187648

因果推理:

深度神經網絡中的因果推理 https://zhuanlan.zhihu.com/p/425331915

動機

從歷史信息中提取/編碼特征是解決部分可觀測強化學習的基本手段。主流方法是使用sequence-to-sequence(seq2seq)模型來編碼歷史,比如領域內流行使用的LSTM/GRU/NTM/Transformer的強化學習方法都屬于這一類。這一類方法的共同之處在于,根據歷史信息和學習信號(環境獎勵)的相關性來編碼歷史,即一個歷史信息的相關性越大所分配的權重也就越高。

然而,這些方法不能消除由采樣導致的混雜相關性。舉一個撿鑰匙開門的例子,如下圖所示:

圖片

在這里agent能否開門只取決于歷史上是否有拿到過鑰匙,而不取決于歷史上的其他狀態。然而,如果agent的采樣策略是對一些路徑有偏好的,就會導致這些偏好路徑上的狀態具有高相關性。比如agent拿到鑰匙之后,傾向于走 (上面那條路)開門而不是走 去開門(下面那條路)的話,就會使得開門這件事情和電視機有很高的相關性。這一類非因果但高度相關的狀態就會被seq2seq賦予比較高的權重,使得編碼的歷史信息非常冗余。在這個例子里,當我們估計電視機和開門之間的相關性時,由于鑰匙的存在,兩者產生了混雜的高相關性。要估計電視機對開門的真實效應,就要去除這種混雜的相關性

這種混雜相關性可以通過因果推理中的do-calculus來去除[1]:分離可能造成混淆的后門變量鑰匙和球,從而切斷后門變量(鑰匙/球)和電視機之間的統計相關性,然后將p(Open| ,鑰匙/球)的條件概率關于后門變量(鑰匙/球)進行積分(Figure 1右圖),得到真實的效應p(Open|do( ))=0.5。由于有因果效應的歷史狀態相對稀疏,當我們去除混雜的相關性以后,可以大幅壓縮歷史狀態的規模。

因此,我們希望用因果推理來去除歷史樣本中混雜的相關性,然后再用seq2seq來編碼歷史,從而獲得更緊湊的歷史表征。(本文動機)

[1]注:這里考慮的是使用后門調整的do-calculus,附一個科普鏈接https://blog.csdn.net/qq_31063727/article/details/118672598

困難

在歷史序列中執行因果推理,不同于一般的因果推理問題。歷史序列中的變量既有時間維也有空間維,即觀測-時間組合圖片,其中o是觀測,t是時間戳(相比之下MDP就很友好了,馬爾可夫狀態只有空間維)。兩個維度的交疊,使得歷史觀測的規模相當龐大——用圖片表示每個時間戳上的觀測取值個數,用T來表示時間總長度,則歷史狀態的取值有 圖片種(其中正體O( )為復雜度符號)。[2]

以往的因果推理方法基于單變量干預檢測,一次只能do一個變量。在具有龐大規模的歷史狀態上進行因果推理,將造成極高的時間復雜度,難以和online RL算法相結合。

[2]注:單變量干預因果效應的正式定義如下

圖片

如上圖所示,給定歷史  ,要估計對轉移變量 的因果效應,做以下兩步:1)干預歷史狀態do ,2)以先前的歷史狀態 為后門變量,為響應變量,計算如下積分即為所要求取的因果效應

圖片

既然單變量干預檢測難以和online RL相結合,那么開發多變量干預檢測方法就是必須的了。

思路

本文的核心觀察(假設)是,因果狀態在空間維上稀疏。這個觀察是自然而普遍的,比如拿鑰匙開門,過程中會觀測到很多狀態,但鑰匙這個觀測值才決定了是否能開門,這個觀測值在所有觀測取值中占比稀疏。利用這個稀疏性我們可以通過多變量干預一次性就篩除掉大量沒有因果效應的歷史狀態。但是時間維上因果效應并不稀疏,同樣是拿鑰匙開門,鑰匙可以被agent在絕大部分時刻都觀測到。時間維上因果效應的稠密性會妨礙我們進行多變量干預——無法一次性去除大量沒有因果效應的歷史狀態。

基于上述兩點觀察,我們的核心思路是,先在空間維上做推理,再在時間維上做推理。利用空間維上的稀疏性大幅減少干預的次數。為了單獨估計空間因果效應,我們提出先求取時間平均因果效應,就是把多個歷史狀態的因果效用在時間上進行平均(具體定義請見原文)。

基于這個idea,我們將問題進行聚焦:要解決的核心問題是如何計算干預多個不同時間步上取值相同的變量(記作圖片)的聯合因果效應。這是因為后門準則不適用于多個歷史變量的聯合干預:如下圖所示,考慮聯合干預雙變量圖片圖片,可以看到,時間步靠后的圖片的一部分后門變量里包含了圖片,兩者不存在公共的后門變量。

圖片

方法

我們改進后門準則,提出一個適用于估計多變量聯合干預效應估計的準則。對于任意兩個被干預的變量圖片 和圖片 (i<j),我們給出用于估計它們的聯合干預效應的準則,如下

步進后門調整準則(step-backdoor adjustment formula)

圖片

該準則分離了,介于相鄰兩個時間步的變量之間的其他變量,稱為步進后門變量。在滿足這個準則的因果圖中,我們可以估計任意兩個被干預變量的聯合因果效應。包括兩步:step 1、以時間步上小于i的變量作為后門變量,估計do圖片因果效應;step 2、以取定的圖片后門變量和取定的圖片為條件,以介于圖片圖片之間的變量為新的關于圖片的后門變量(即關于圖片圖片步進后門變量),估計do圖片條件因果效應。則聯合因果效應為這兩部分的乘積積分。步進后門準則將普通的后門準則使用了兩步,如下圖所示

圖片

上式使用了更一般的變量表示符X。

對于三個變量以上的情況,通過連續使用步進后門準則——將每兩個時間步相鄰的干預變量之間的變量視作步進后門變量,連續計算上式,可以得到多變量干預圖片的聯合因果效應如下:

Theorem 1. Given a set of intervened variables with different timestamps, if every two temporally adjacent variables meet the step-backdoor adjustment formula, then the overall causal effect can be estimated with

圖片

具體到部分可觀測強化學習問題上,用觀測o替換上式的x后,有如下因果效應計算公式:

Theorem 2. Given 圖片and 圖片 , the causal effect of Do(o) can be estimated by

圖片

至此,論文給出了計算空間因果效應(即時間平均因果效應)的公式,這一段方法將干預的次數由O(圖片)降低為O(圖片)。接下來,就是利用(本章開頭提及)空間因果效應的稀疏性,進一步對干預次數完成指數級縮減。將對一個觀測的干預替換為對一個觀測子空間的干預——這是一個利用稀疏性加速計算的通常思路(請見原文)。在本文中,開發了一個稱為Tree-based history counterfactual inference (T-HCI)的快速反事實推理算法,這里不作贅述(詳見原文)。其實基于步進后門準則后續還可以開發很多歷史因果推理算法,T-HCI只是其中的一個。最后的結果是Proposition 3 (Coarse-to-fine CI). If圖片 , the number of interventions for coarse-to-fine CI is圖片)。

算法結構圖如下

圖片

算法包含兩個loops,一個是T-HCI loop,一個是策略學習loop,兩者交換進行:在策略學習loop里,agent被采樣學習一定回合數量,并將樣本存在replay pool中;在T-HCI loop中,利用存儲的樣本進行上述的因果推理過程。

Limitations:空間維上的因果推理對歷史規模的壓縮幅度已經足夠大了。盡管時間維上做因果推理可以進一步壓縮歷史規模,但考慮到計算復雜度需要平衡,本文在時間維上保留了相關性推理(在有空間因果效應的歷史狀態上端到端使用LSTM),沒有使用因果推理。

驗證

實驗上驗證了三個點,回應了前面的claims:1) Can T-HCI improve the sample efficiency of RL methods? 2) Is the computational overhead of T-HCI acceptable in practice? 3) Can T-HCI mine observations with causal effects? 詳見論文的實驗章節,這里就不占用篇幅了。當然,有興趣的小伙伴還可私信我/評論哦。

圖片

未來可拓展的方向

說兩點,以拋磚引玉:

1、HCI不限于強化學習的類型。雖然本文研究的是online RL,但HCI也可自然地拓展到offline RL、model-based RL等等,甚至于可以考慮將HCI應用于模仿學習上;

2、HCI可以視作一種特殊的hard attention方法——有因果效性的序列點獲注意力權值1,反之獲注意力權值0。從這個角度看,一些序列預測問題也可能嘗試使用HCI來處理。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-26 08:31:49

2025-06-03 03:15:00

2025-04-08 09:50:00

2022-12-01 08:00:00

2025-05-26 17:16:51

2021-11-16 15:26:23

強化學習火箭人工智能

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2022-08-02 12:03:26

Python可觀測性軟件開發

2022-06-07 13:48:25

可觀測性架構系統開發

2025-08-07 09:16:41

2025-06-10 02:30:00

智能體ARTIST強化學習

2025-05-28 11:55:56

模型開源框架

2025-05-30 04:00:00

IBMRLVRGRPO

2023-11-07 07:13:31

推薦系統多任務學習

2025-06-12 08:46:00

2023-02-08 17:55:45

SigNoz開源工具

2023-10-26 08:47:30

云原生數據采集

2023-03-23 18:42:45

AI強化學習
點贊
收藏

51CTO技術棧公眾號

鲁片一区二区三区| 97色在线播放视频| 久久久久无码国产精品一区李宗瑞| 蜜桃av噜噜一区二区三区麻豆| 日韩欧美字幕| 日韩一级大片在线| 免费无遮挡无码永久视频| 成a人v在线播放| 岛国一区二区在线观看| 国产精品成人在线| 精品无人区无码乱码毛片国产| 9999精品成人免费毛片在线看| 国产一区二区成人久久免费影院| 日韩中文娱乐网| 日韩一级理论片| 色图在线观看| 国产精品久久三区| 激情小说网站亚洲综合网| 18国产免费视频| 国内激情久久| 日韩中文字幕网站| 91精品人妻一区二区三区蜜桃欧美| 欧美办公室脚交xxxx| av午夜精品一区二区三区| 91av在线国产| 成年人一级黄色片| 中文在线免费一区三区| 欧美日韩在线免费视频| 在线观看欧美亚洲| 欧美精品a∨在线观看不卡| 国产精品系列在线播放| 色综合老司机第九色激情| 免费看黄色av| 日韩大尺度在线观看| 91精品国产入口| 午夜激情av在线| 英国三级经典在线观看| 亚洲午夜精品网| 日本一区二区免费高清视频| 国产福利第一视频在线播放| 91视频.com| 国产一区二区三区奇米久涩 | 日韩精品国产一区二区| 午夜影院欧美| 色系列之999| 天天躁夜夜躁狠狠是什么心态| 青青在线精品| 在线免费不卡电影| 国产成人久久婷婷精品流白浆| av在线播放网| 久久综合九色综合欧美亚洲| 精品免费国产| 亚洲欧美日韩成人在线| 不卡的看片网站| 国产日韩欧美二区| 日韩中文字幕免费在线观看| 成人午夜av在线| 成人资源视频网站免费| а√中文在线资源库| 国产米奇在线777精品观看| 国产免费一区二区三区在线观看| 国产一级特黄a高潮片| 午夜日韩av| 久久久久免费精品国产| 日本少妇全体裸体洗澡| 亚洲欧洲视频| 青草青草久热精品视频在线网站 | 亚洲第一天堂网| 日韩电影在线看| 欧美精品videos另类日本| 麻豆chinese极品少妇| 国产精品免费大片| 国产亚洲欧美aaaa| 亚洲一区电影在线观看| 自拍自偷一区二区三区| 亚洲图片欧美日产| xxxxx99| 我不卡伦不卡影院| 欧美激情一区二区三区在线视频观看 | 亚洲综合在线电影| 欧美日韩一级片在线观看| 中文字幕精品一区二区三区在线| 国模套图日韩精品一区二区| 欧洲精品一区二区| 99视频在线免费播放| 亚洲同志男男gay1069网站| 欧美亚洲一区三区| 免费黄色特级片| 99久久综合国产精品二区| 91精品国模一区二区三区| 免费啪视频在线观看| 校花撩起jk露出白色内裤国产精品| 欧美va亚洲va| 亚洲国产综合av| 久久丝袜视频| 日韩中文字幕国产| 日本在线观看中文字幕| 免费在线欧美视频| 高清av免费一区中文字幕| 欧美日本韩国一区二区| 亚洲人成在线播放网站岛国| 亚洲图色在线| av今日在线| 欧美美女激情18p| 成人在线视频免费播放| 日韩专区精品| 欧美亚洲成人免费| 国产夫妻自拍av| 国产日韩欧美不卡| 很污的网站在线观看| 成人网ww555视频免费看| 欧美综合欧美视频| 日批免费观看视频| 日韩欧美高清| 久久在线观看视频| 一级片视频在线观看| 国产伦精品一区二区三区免费| 亚洲自拍av在线| 男人的天堂av高清在线| 亚洲一区免费视频| 亚洲欧美偷拍另类| 免费欧美一区| 2019日本中文字幕| 囯产精品一品二区三区| 最新国产精品久久精品| 蜜臀av一级做a爰片久久| 日本精品免费观看| 欧美三级午夜理伦| 天堂在线亚洲视频| 国产伦精品一区二区| 外国精品视频在线观看 | 国产高清亚洲| 亚洲欧洲在线播放| 久久视频一区二区三区| 在线综合欧美| 高清视频一区二区三区| 国产在线观看a| 欧美日本国产一区| 69视频在线观看免费| 国产精品入口66mio| 国产伦理久久久| 免费毛片在线看片免费丝瓜视频| 精品二区三区线观看| av电影中文字幕| 欧美一区影院| 91精品免费视频| 老司机福利在线视频| 欧美高清性hdvideosex| 超碰人人干人人| 日韩成人免费电影| 色婷婷精品国产一区二区三区| 午夜av在线播放| 正在播放亚洲一区| 久久精品日韩无码| 九色|91porny| 欧美少妇在线观看| 麻豆久久一区| 久久久久久av| 韩国av在线免费观看| 亚洲电影一区二区三区| 丰满熟女人妻一区二区三区| 91久久视频| 国内一区在线| 欧美一区久久久| 国产一区二区三区在线观看视频 | 日韩电影一区| 国产有码一区二区| 宅男在线观看免费高清网站| 欧美成人一区二区三区片免费 | 国产美女撒尿一区二区| 韩国三级电影久久久久久| 天天干,天天操,天天射| 日韩欧美在线视频免费观看| www亚洲色图| 精品亚洲国内自在自线福利| av一区二区三区免费观看| 国产成人在线中文字幕| 日本在线精品视频| 乱人伦中文视频在线| 一本色道久久综合亚洲91| 国产成人免费观看网站| 久久99精品国产.久久久久| 国产一二三四五| 色哟哟精品丝袜一区二区| 国产精品成人播放| 性xxxxfjsxxxxx欧美| 5566中文字幕一区二区电影| 中文在线观看免费网站| 国产亚洲精品bt天堂精选| www.午夜av| 国产亚洲精品久久久久婷婷瑜伽| 国产精品白丝jk白祙| 伊人久久视频| 久久亚洲电影天堂| 日韩三级电影网| 在线电影一区二区三区| 在线观看中文字幕视频| 1区2区3区精品视频| youjizz.com国产| 国产一区二区三区四区三区四| 亚洲综合小说区| 午夜影院在线观看国产主播| 日韩视频永久免费观看| 日韩有码电影| 欧美亚一区二区| 成人做爰69片免网站| 成人中文字幕电影| 亚洲77777| 国产精品入口| 99久久免费观看| 日韩精品二区| 麻豆av福利av久久av| 欧美午夜在线播放| 国产精品久久一区| 永久免费毛片在线播放| 欧美另类69精品久久久久9999| www.xxxx国产| 欧美调教femdomvk| 九九九在线观看| 亚洲一区二区成人在线观看| 少妇视频在线播放| 精品一区二区影视| 能看的毛片网站| 91成人精品视频| 午夜精品一区二区在线观看| 日本午夜精品久久久| 91九色在线观看| 99热这里有精品| 欧美福利视频在线观看| 一级毛片视频在线观看| 亚洲天堂av高清| 神马久久久久久久久久| 在线免费观看不卡av| 色老板免费视频| 国产日本亚洲高清| 成年人网站av| 久久超碰97人人做人人爱| 国产97色在线 | 日韩| 国产视频久久| 18禁免费观看网站| 国产视频一区在线观看一区免费| 亚洲国产午夜伦理片大全在线观看网站 | 国产69久久精品成人看| 2001个疯子在线观看| 另类视频在线观看| 日本激情视频网站| 精品动漫一区二区三区在线观看| 欧美黄色一级大片| 欧美日韩性视频在线| 日韩精品乱码久久久久久| 国产精品成人免费在线| 污污视频网站在线免费观看| 日本一区二区三区视频视频| 性久久久久久久久久久久久久| 99精品国产一区二区青青牛奶| 五月天丁香综合久久国产| 国产剧情在线观看一区| 日韩在线电影一区| jizz久久精品永久免费| 国产精品国产亚洲精品看不卡15| 欧美激情不卡| 国产日韩中文字幕| 日韩中文字幕| 精品久久久久久乱码天堂| 日韩啪啪网站| 日韩精品不卡| 国产精品毛片一区二区在线看| 久久婷婷国产综合尤物精品| 亚洲小说图片| 午夜精品一区二区三区在线观看| 亚洲ab电影| 日韩欧美三级电影| 国产精品精品国产一区二区| 成人短视频在线观看免费| 日本一本不卡| 国产香蕉一区二区三区| 日韩午夜黄色| 超碰在线播放91| 国产激情视频一区二区三区欧美| www亚洲成人| 国产精品中文欧美| 国产+高潮+白浆+无码| 国产调教视频一区| 538任你躁在线精品视频网站| 国产精品久久久久久久久免费桃花| 精品无码人妻一区| 国产精品久久久久一区| 久久久久久蜜桃| 亚洲激情图片qvod| 五月婷婷亚洲综合| 欧美日韩成人一区二区| 国模私拍视频在线| 自拍偷拍亚洲在线| 9999在线视频| 国产精品在线看| 高清精品xnxxcom| 亚洲欧洲久久| 日韩亚洲一区在线| 人人妻人人澡人人爽欧美一区双| 91成人精品视频| 日本精品一区在线观看| 精品午夜久久福利影院| 亚洲精品久久久中文字幕| 成人午夜电影久久影院| 成熟人妻av无码专区| 亚洲一级片在线观看| 337p粉嫩色噜噜噜大肥臀| 精品奇米国产一区二区三区| 国产小视频一区| 色噜噜狠狠狠综合曰曰曰| 888av在线| 欧美在线观看网址综合| 黄色亚洲网站| 99在线观看视频| 噜噜噜天天躁狠狠躁夜夜精品| 久久久久久精| 综合久久婷婷| 天堂一区在线观看| 久久久精品欧美丰满| 久久亚洲国产成人精品性色| 欧美日韩高清一区二区三区| 国产麻豆一精品一男同| 亚洲偷熟乱区亚洲香蕉av| 超碰激情在线| 亚洲va欧美va国产综合久久| 不卡视频在线| 欧美一级黄色影院| 久久美女高清视频| 999这里只有精品| 亚洲精品一区二区三区影院 | 中文字幕久久一区| 日日摸夜夜添夜夜添精品视频 | 拔插拔插海外华人免费| 国产中文字幕精品| 日本 欧美 国产| 欧美日韩在线免费视频| porn亚洲| 久久久久一本一区二区青青蜜月| 成人做爰视频www网站小优视频| 国产精品久久久av久久久| 美女视频亚洲色图| 在线观看一区欧美| 欧美a级一区二区| www色com| 欧美日韩一卡二卡三卡 | 免费观看在线综合色| 欧美精品制服第一页| 久久久久久青草| 日韩美女视频中文字幕| 国产亚洲一卡2卡3卡4卡新区 | 天天久久夜夜| 综合视频免费看| 国内精品伊人久久久久av一坑| 六十路息与子猛烈交尾| 亚洲成av人影院在线观看网| 神马久久久久久久久久| 热久久免费视频精品| 国内精品视频在线观看| 男人添女人下面免费视频| 亚洲欧美日韩国产手机在线| 欧美性猛交bbbbb精品| 日韩欧美色综合| 精灵使的剑舞无删减版在线观看| 国产欧美中文字幕| 午夜av一区| 亚洲熟妇一区二区| 最新久久zyz资源站| www.天堂在线| 91精品国产乱码久久久久久久久 | 欧美日韩1区2区| 激情影院在线观看| 国产福利久久精品| 久久久久久久久久久久久久久久久久 | 日韩二区三区四区| 欧美一区二区三区观看| 日韩精品一区二区三区蜜臀| 色戒汤唯在线| 亚洲一区二区在线观| 国产精品自拍一区| 欧美精品二区三区| 搡老女人一区二区三区视频tv| 精品成人免费一区二区在线播放| 激情伦成人综合小说| 日韩av一区二区三区| 青青操国产视频| 亚洲欧美一区二区激情| 国产精品国产亚洲精品| 久久久综合激的五月天| 91国产丝袜播放在线| 中文字幕久久精品| 超碰成人免费| 一区二区三区网址| 五月天激情小说综合| 日本激情视频在线观看| 国产伦精品一区二区三区视频孕妇| 亚洲精品网址| 日批免费观看视频| 欧美午夜精品免费| 91高清视频在线观看| 在线日韩av永久免费观看|