精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強(qiáng)化學(xué)習(xí)和世界模型中的因果推斷

人工智能
在強(qiáng)化學(xué)習(xí),尤其是世界模型理論中,因果推斷的作用是不可替代的,同時(shí)在世界模型中,因果推斷也能得到很好的應(yīng)用。

一、世界模型

圖片

“世界模型”源于認(rèn)知科學(xué),在認(rèn)知科學(xué)里面有一個(gè)等價(jià)的詞匯 mental models,也就是心智模型。那么什么是心智模型?在認(rèn)知科學(xué)里有一個(gè)假設(shè),認(rèn)為人在大腦內(nèi)部會(huì)有一個(gè)對于真實(shí)外在世界的表征,它對于認(rèn)知這個(gè)世界,特別是推理和決策有很關(guān)鍵的作用。

在心理學(xué)中認(rèn)為 mental model 的核心有兩個(gè)部分,第一個(gè)叫 mental representation,即大腦中對于真實(shí)世界是怎么表征的;第二個(gè)叫做 mental simulation,即在大腦中對真實(shí)世界的運(yùn)轉(zhuǎn)生成一個(gè)模擬。Kenneth Craik 是動(dòng)力學(xué)系統(tǒng)的開創(chuàng)人之一,他認(rèn)為 mental model 是對這個(gè)世界的一個(gè)鏡像(image),即世界是如何表征和運(yùn)轉(zhuǎn)的。關(guān)于 mental model 的研究在上世紀(jì)就已經(jīng)開始。

圖片

近些年認(rèn)知科學(xué)領(lǐng)域用動(dòng)物進(jìn)行了一些實(shí)驗(yàn),發(fā)現(xiàn)在動(dòng)物的大腦中確實(shí)會(huì)對真實(shí)世界有一些表征和模擬。比如有研究發(fā)現(xiàn),老鼠的大腦能夠?qū)κ澜邕M(jìn)行比較準(zhǔn)確的觀測,具體的,海馬體是大腦的一部分,它可以形成對世界的一個(gè)編碼,如果老鼠在世界里面運(yùn)動(dòng),那么對應(yīng)的海馬體就會(huì)編碼出所在位置。海馬體編碼除了能捕獲老鼠的運(yùn)動(dòng),還能夠通過激活編碼,識別這個(gè)老鼠的狀態(tài)。

其中有一個(gè)實(shí)驗(yàn),首先使老鼠在環(huán)境中運(yùn)動(dòng),同時(shí)收集到一些數(shù)據(jù),通過數(shù)據(jù)解碼老鼠的運(yùn)動(dòng)狀態(tài),基本上能夠通過解碼還原出老鼠所在的位置。有趣的是當(dāng)老鼠在睡覺的時(shí)候,它的大腦并沒有完全地休息,可能會(huì)有一些活動(dòng)例如做夢,這能夠通過 mental model 解釋。通過解碼看到老鼠在做夢時(shí),同樣也在環(huán)境里面跑,而且很有可能是倒著跑,這在一定程度上說明生物是有 mental model 的,這是生物智能的一方面。

而 mental model 和今天講的世界模型具有相同的含義,生物智能通常都是基于內(nèi)在世界模型的還原。

二、關(guān)于強(qiáng)化學(xué)習(xí)

圖片

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)經(jīng)典子領(lǐng)域,是關(guān)于決策方向的。很多其他機(jī)器學(xué)習(xí)技術(shù),是監(jiān)督學(xué)習(xí),是關(guān)于預(yù)測、模式識別方向的。關(guān)于在決策方向上如何完成決策的任務(wù),并學(xué)習(xí)最大化累積獎(jiǎng)勵(lì)的策略,這是強(qiáng)化學(xué)習(xí)要去解決的目標(biāo)。另一方面,監(jiān)督學(xué)習(xí)的訓(xùn)練需要一批有標(biāo)記的數(shù)據(jù)。而強(qiáng)化學(xué)習(xí)需要我們在具體的環(huán)境中考慮智能體的決策,以模擬生物和環(huán)境之間的關(guān)系,智能體可以在環(huán)境里面產(chǎn)生一系列的行動(dòng)或者決策,智能體在環(huán)境中產(chǎn)生行動(dòng)以后,會(huì)觀測到環(huán)境狀態(tài)的變化和環(huán)境反饋的獎(jiǎng)勵(lì)。

圖片

強(qiáng)化學(xué)習(xí)的學(xué)習(xí)思路是從試錯(cuò)樣本中學(xué)習(xí)。如圖所示,強(qiáng)化學(xué)習(xí)隨機(jī)采樣并產(chǎn)生一些從起點(diǎn)到終點(diǎn)的軌跡策略,當(dāng)它發(fā)現(xiàn)一些軌跡策略比另外一些軌跡策略更好,那么強(qiáng)化學(xué)習(xí)就會(huì)根據(jù)數(shù)據(jù)更新自己的策略,更新以后這個(gè)策略的效率就會(huì)更高,不斷這樣更新下去,最終能夠收斂到一個(gè)比較好的策略。

強(qiáng)化學(xué)習(xí)的一個(gè)核心問題在于它的采樣效率,完全隨機(jī)采樣的效率是很低的,對數(shù)據(jù)的利用程度不高,能夠?qū)W的東西也沒有那么多,就會(huì)導(dǎo)致強(qiáng)化學(xué)習(xí)需要大量的采樣,這里面有大量的試錯(cuò)。所謂的試錯(cuò)是在已經(jīng)能夠推斷出哪些地方不可以走之后,由于模型的學(xué)習(xí)能力不足,導(dǎo)致還要在錯(cuò)誤的軌跡再試一下,當(dāng)觀察到有錯(cuò)誤的結(jié)果,模型才知道這個(gè)地方是不能走的。這個(gè)問題就會(huì)導(dǎo)致強(qiáng)化學(xué)習(xí)在應(yīng)用上受到很大的阻礙,因?yàn)閷?shí)際上大部分的應(yīng)用場景都不允許過多的試錯(cuò),甚至有些情況下是完全不允許試錯(cuò)的,只有在允許試錯(cuò)的條件下面,強(qiáng)化學(xué)習(xí)才能發(fā)揮得比較好。

今天的強(qiáng)化學(xué)習(xí)在游戲環(huán)境能做得很好,是因?yàn)橛螒颦h(huán)境是允許試錯(cuò)的,而一旦我們的環(huán)境不允許試錯(cuò),那么強(qiáng)化學(xué)習(xí)應(yīng)用起來就會(huì)很困難,所以這里的核心就是如何提高強(qiáng)化學(xué)習(xí)的樣本效率。如果從生物的啟發(fā)來看,像老鼠那樣,跑了一下真實(shí)的環(huán)境以后,就可以在自己的 mental world 里面進(jìn)行訓(xùn)練和學(xué)習(xí),不需要真正地和環(huán)境進(jìn)行交互就能學(xué)到很好,那么樣本效率就能夠得到大幅的提高,應(yīng)用起來也會(huì)變得非常方便。

圖片

Mental world 在強(qiáng)化學(xué)習(xí)的發(fā)展歷史中一直在被研究,這一分支叫做 Model-based reinforcement learning,即有模型的強(qiáng)化學(xué)習(xí),這里的模型是專指對于我們的應(yīng)用問題的建模。

比較經(jīng)典的框架是 Dyna 架構(gòu),是 1990 年沙特提出來的。在這個(gè)框架里除了在環(huán)境里面進(jìn)行試錯(cuò),去收集數(shù)據(jù)以外,還專門有一步是要去學(xué)習(xí) domain knowledge,它并不是直接從知識里面去學(xué)習(xí),它是一個(gè) action model,是一個(gè)黑盒,主要做的是將當(dāng)前環(huán)境面臨的條件作為輸入,預(yù)測接下來的環(huán)境的條件。

類似于上圖右邊所示的強(qiáng)化學(xué)習(xí)框架,Agent 在我們的世界里面要執(zhí)行一系列的動(dòng)作,然后環(huán)境能夠反饋出下一個(gè)狀態(tài)是什么,那么在 Agent 的大腦里面能不能有一個(gè) model 來建模這個(gè)世界是怎么運(yùn)轉(zhuǎn)的。在具體的算法框架里面就有怎么用數(shù)據(jù)去 update model,并且在學(xué)習(xí)策略的時(shí)候,要用 model 去產(chǎn)生更多的數(shù)據(jù)出來。更多的數(shù)據(jù)就相當(dāng)于在 mental world 里面想象出來的數(shù)據(jù),我們希望用這些想象出來的數(shù)據(jù)去幫助學(xué)習(xí),從而大幅減少和真實(shí)環(huán)境的交互,提高強(qiáng)化學(xué)習(xí)的樣本效率。

圖片

關(guān)于 world model,強(qiáng)化學(xué)習(xí)從幾十年前就一直有 model-based 的方向。在 2018 年時(shí),有一個(gè)工作,就是希望對觀測狀態(tài)進(jìn)行壓縮和表征,其中包括兩塊,一塊是使用 VAE 模型對高維的觀測進(jìn)行一個(gè)低維的表征,然后使用一個(gè) RNN 模型建模狀態(tài)和動(dòng)作。狀態(tài)輸入以后先壓縮到一個(gè)低維表征,再通過 RNN預(yù)測下一個(gè)狀態(tài),然后進(jìn)行決策推斷。在這個(gè)工作里面,作者為了更明確 model 指什么,所以這個(gè)工作里面就把 model 叫做 world model 世界模型。其實(shí)在強(qiáng)化學(xué)習(xí)里面,它就是對于世界怎么表征和怎么運(yùn)轉(zhuǎn)的建模。

圖片

上圖是來自 J.Pearl 的因果階梯,以解釋因果學(xué)習(xí)和其他理論有什么不同。因果階梯從下往上三層分別是 association(相關(guān)性)、interventions(干預(yù))、counterfactuals(反事實(shí))。

可以從強(qiáng)化學(xué)習(xí)的角度理解因果階梯,在強(qiáng)化學(xué)習(xí)算法中是真的在實(shí)施干預(yù),為了了解不同決策產(chǎn)生的后果,就可以真正的在模擬環(huán)境里面做一下相關(guān)決策。在強(qiáng)化學(xué)習(xí)中可以收集到智能體在不同的干預(yù)下的數(shù)據(jù)。最上層是反事實(shí),也就是數(shù)據(jù)上面沒有體現(xiàn)出,還不知道一個(gè)決策會(huì)產(chǎn)生什么樣的結(jié)果,但是我們希望能夠在看到真實(shí)數(shù)據(jù)之前,將它推理出來。這在強(qiáng)化學(xué)習(xí)中,正好對應(yīng)的就是 model-based reinforcement learning,因?yàn)橹挥?model 出來以后,才能夠產(chǎn)生出沒有見過的數(shù)據(jù)。

從圖中可以看出,因果學(xué)習(xí)和 world model 中都有對真實(shí)世界的建模,世界模型的建模也是對應(yīng)到因果模型里面的 counterfactual 層。

圖片

從因果推斷和 world model 兩種理論的定義可以看出,世界模型一定是需要用因果關(guān)系進(jìn)行建模的,它一定要關(guān)注到?jīng)Q策對于環(huán)境變化的因果性的影響。在 world model 構(gòu)建出以后,如果需要去做決策,就需要明確地知道動(dòng)作和結(jié)果之間的關(guān)系。比如可以通過公雞打鳴來預(yù)測接下來一兩個(gè)小時(shí)天會(huì)亮,這樣一個(gè)關(guān)聯(lián)關(guān)系用來做預(yù)測是沒有問題的,但它不是一個(gè)因果關(guān)系,所以對于決策來說是沒有用處的,不可能把公雞殺掉以后天就不亮了,所以無法對環(huán)境進(jìn)行改造,進(jìn)行干預(yù)。因此如果我們想要做決策,就一定需要 world model 符合因果關(guān)系。

圖片

上述問題導(dǎo)致對因果關(guān)系的學(xué)習(xí)有著很大的難度,因?yàn)榻裉齑蟛糠謾C(jī)器學(xué)習(xí)技術(shù)都是發(fā)現(xiàn)相關(guān)性,換而言之就是在監(jiān)督學(xué)習(xí)里面,經(jīng)常會(huì)假定數(shù)據(jù)是獨(dú)立同分布的。我們會(huì)假定訓(xùn)練數(shù)據(jù)和預(yù)測數(shù)據(jù)的分布要有一定的規(guī)律。但是 world model 不是用來做預(yù)測的,它最核心的事情是要去回答 what if 這樣的問題。比如股市中,如果我今天買,之后會(huì)怎么樣?如果沒買,又會(huì)怎樣?只有回答大量的 what if question,才能幫助我們?nèi)プ鰶Q策。這種 what if question,就使得我們總是對那些數(shù)據(jù)之外的事情很感興趣,特別是在倒推的時(shí)候,我們總會(huì)假設(shè)如果做出另外一種決策,會(huì)不會(huì)更好。

而 world model 能夠支撐我們?nèi)?what if question,就意味著 world model 不管是從什么數(shù)據(jù)上面學(xué)出來的,總會(huì)關(guān)心那些數(shù)據(jù)以外的問題,所以我們一定要用 world model 去回答 out of data distribution 的數(shù)據(jù)上面的推理,所以它和我們今天所熟悉的大部分技術(shù)都不太一樣。

world model 需要回答當(dāng)決策者做另外一個(gè)決策時(shí)的結(jié)果,這樣的預(yù)測實(shí)際上是非常難做的,它和經(jīng)典的監(jiān)督學(xué)習(xí)的假設(shè)是不一樣的。

三、基于環(huán)境模型的強(qiáng)化學(xué)習(xí)框架

圖片

下面講一下 world model 的框架。首先從真實(shí)事件里面采到了一些數(shù)據(jù),通過環(huán)境學(xué)習(xí)的方式構(gòu)建一個(gè) world model,然后在 world model 里進(jìn)行強(qiáng)化學(xué)習(xí),以得到更好的策略,這個(gè)策略將會(huì)部署到真實(shí)環(huán)境里面去用,我們特別期待的是這個(gè)策略不需要做更多的探索,就直接可以部署到環(huán)境里面,做更好的決策。

當(dāng)我們構(gòu)建出 world model 之后,怎樣在 world model 里去做更好的強(qiáng)化學(xué)習(xí),哪怕這個(gè) world model 并不是那么完美,或者遠(yuǎn)離數(shù)據(jù)以后就表現(xiàn)得不那么好。我們更關(guān)注的是怎樣將 world model 構(gòu)建得更好,從而使整個(gè)強(qiáng)化學(xué)習(xí)做得更好。在做很多復(fù)雜的決策時(shí),特別是真實(shí)世界的復(fù)雜決策時(shí),我們就可以用這樣的技術(shù)去解決問題。

圖片

我們希望 world model 能夠和因果結(jié)合起來。如果將因果學(xué)習(xí)的技術(shù)放到 world model 中去,是否能讓 world model 學(xué)得更好。

圖片

起初的想法是,通過因果結(jié)構(gòu)學(xué)習(xí),能夠把 world model 的結(jié)構(gòu)發(fā)現(xiàn)得更好。World model 中哪些實(shí)體有因果關(guān)系,我們就將相應(yīng)的邊連上,沒有因果關(guān)系的就把邊去掉。這件事情其實(shí)看起來很簡單,但是在強(qiáng)化學(xué)習(xí)里面去學(xué) model 時(shí),很久以來一直都是全連接的 model 的學(xué)習(xí),就是上一個(gè)時(shí)刻的所有的變量,去預(yù)測下一個(gè)時(shí)刻的所有的變量,不太關(guān)注中間的關(guān)系,如果有一些假的因果關(guān)系在里面,就會(huì)導(dǎo)致 world model 學(xué)得不夠好。

圖片

因此我們探索能否通過更好的因果結(jié)構(gòu)的學(xué)習(xí),獲得一個(gè)更好的 world model。我們將變量劃分為因果變量和偽變量。真實(shí)環(huán)境模型與學(xué)到的環(huán)境模型去評估同一策略時(shí),性能差異與引入的偽變量數(shù)量相關(guān)。能夠排除的偽變量越多,該策略的性能會(huì)越好。

圖片

從實(shí)驗(yàn)中也會(huì)發(fā)現(xiàn),在比較好地還原因果關(guān)系以后,得到的模型性能確實(shí)是能夠有提升的。這是關(guān)于如何使用因果發(fā)現(xiàn)來幫助我們把這個(gè) world model 里面的結(jié)構(gòu)呈現(xiàn)出來。

圖片

在 2022 年前后,有更多的工作集中在 word model 的學(xué)習(xí)上,實(shí)質(zhì)上是在關(guān)注強(qiáng)化學(xué)習(xí)下的表征學(xué)習(xí)。盡管文章標(biāo)題可能未明確提及"world model"這一術(shù)語,但其實(shí)際上是在進(jìn)行 world model 的學(xué)習(xí)。在基本的強(qiáng)化學(xué)習(xí)表征中,將世界視為一個(gè)具有狀態(tài)的實(shí)體,這個(gè)狀態(tài)會(huì)隨著時(shí)間步驟的推移而變化。然而,我們可能無法直接觀察到這個(gè)狀態(tài),而只能觀察到其一些表征。因此,在執(zhí)行決策后,決策和前一個(gè)時(shí)刻的狀態(tài)將影響下一個(gè)時(shí)刻的狀態(tài)。這個(gè)決策是由某個(gè)策略學(xué)得的,該策略可能基于觀測來決定采取什么動(dòng)作。在經(jīng)典的強(qiáng)化學(xué)習(xí)中,決策通常被視為自由變量,即由個(gè)體自行選擇。

同時(shí),與決策相關(guān)的是獎(jiǎng)勵(lì)(reward)。獎(jiǎng)勵(lì)可能與狀態(tài)的出現(xiàn)有關(guān),也可能與動(dòng)作和下一個(gè)狀態(tài)的共同作用有關(guān),決定獎(jiǎng)勵(lì)的是一個(gè) reward 函數(shù)。然而,在面對復(fù)雜環(huán)境時(shí),觀測中可能包含與任務(wù)關(guān)系不大的信息。因此,某些研究考慮將 MDP 中的任務(wù)信息對狀態(tài)進(jìn)行拆分,使其中一部分與獎(jiǎng)勵(lì)無關(guān),從而使建模更加穩(wěn)定。近期的研究如 ICML 22 中的兩篇相關(guān)工作,也在致力于進(jìn)一步優(yōu)化這個(gè)模型。

綜合而言,觀測變量可以分為四類:受決策影響的、不受決策影響的、與獎(jiǎng)勵(lì)相關(guān)的和與獎(jiǎng)勵(lì)無關(guān)的。在強(qiáng)化學(xué)習(xí)的后續(xù)階段,我們主要關(guān)注的是通過決策可以影響的獎(jiǎng)勵(lì)最大化的部分。然而,我們發(fā)現(xiàn)在先前的分解中,其因果關(guān)系的可識別性可能是不足的。

圖片

因此,在我們新的工作中發(fā)現(xiàn),在建模過程中,上述四個(gè)方面都是不可或缺的。在這種情況下,能夠?qū)崿F(xiàn)以塊狀方式可辨識(block-wise identifiable),也就是說,在這種結(jié)構(gòu)下,它才能夠正確地識別這四個(gè)變量。識別出來后,就可以在此基礎(chǔ)上進(jìn)行魯棒的強(qiáng)化學(xué)習(xí)訓(xùn)練。

圖片

從實(shí)驗(yàn)中也可以看到,如果能正確地對這四個(gè)方面進(jìn)行分解,在進(jìn)行接下來的強(qiáng)化學(xué)習(xí)步驟時(shí),所有方法在沒有噪音的情況下表現(xiàn)都差不多。然而,當(dāng)引入更多噪音時(shí),它能夠?qū)⑴c獎(jiǎng)勵(lì)無關(guān)且與我們的控制無關(guān)的部分分離出來,從而使后續(xù)決策更加精準(zhǔn)。

因此,對于 world model,對這些變量進(jìn)行分解,呈現(xiàn)出變量之間的因果關(guān)系是非常必要的。

圖片

前述工作主要是關(guān)于因果結(jié)構(gòu),而后續(xù)可能會(huì)朝著 Rubin 的因果性方向發(fā)展。

我們在一些真實(shí)環(huán)境中觀察到了因果建模錯(cuò)誤的現(xiàn)象。例如上圖所示,在與美團(tuán)的合作中,當(dāng)為騎手提供更高的價(jià)格時(shí),我們預(yù)期騎手的效率應(yīng)該更高。然而,監(jiān)督學(xué)習(xí)的結(jié)果卻截然相反,即價(jià)格越高騎手的效率反而降低。這顯然與直覺相悖。

為什么會(huì)出現(xiàn)這種情況呢?我們在強(qiáng)化學(xué)習(xí)中默認(rèn)假定動(dòng)作是自由變量,然而實(shí)際收集到的數(shù)據(jù)并非如此,動(dòng)作是根據(jù)策略從狀態(tài)中生成的。因此,如果假設(shè)它是自由變量,當(dāng)我們試圖學(xué)習(xí)這種關(guān)系時(shí),就會(huì)將隱含的關(guān)系納入學(xué)習(xí),導(dǎo)致問題的產(chǎn)生。這與我們經(jīng)典的辛普森悖論有直接的聯(lián)系。狀態(tài)到動(dòng)作之間存在多個(gè)不同的狀態(tài)到動(dòng)作映射,分開看時(shí),每個(gè)映射都是正確的,但如果將所有數(shù)據(jù)合并來看,就會(huì)發(fā)現(xiàn)這是一個(gè)錯(cuò)誤的關(guān)系。

圖片

為了解決這一問題,一種經(jīng)典的方法是分布修正,即通過調(diào)整采集到的數(shù)據(jù)分布與目標(biāo)分布之間的偏移,從一定程度上緩解這一問題。

然而,對于強(qiáng)化學(xué)習(xí)而言,目標(biāo)分布實(shí)際上是不清楚的,因?yàn)槲覀儾恢滥繕?biāo)是什么,目標(biāo)取決于策略,而策略尚未生成。因此,需要考慮對目標(biāo)策略的最壞情況,希望在任何目標(biāo)策略的情況下都能夠?qū)崿F(xiàn)較好的分布修正。

圖片

在進(jìn)行修正后,我們在六個(gè)實(shí)際城市中觀察到,綠色線所代表的是監(jiān)督學(xué)習(xí)提取的關(guān)系。在其中五個(gè)城市中,關(guān)系都是錯(cuò)的,即騎手薪酬越高其效率越低。而經(jīng)過修正后,可以觀察到這些線都呈遞增趨勢。因此,修正后的結(jié)果能夠更好地輔助我們進(jìn)行 world model 的建模。

圖片

完成建模后,我們注意到在六個(gè)城市中,能夠在決策層面取得更好的效果。在圖中,豎線表示我們引入了新的決策,在兩個(gè)不同的城市和區(qū)域之間進(jìn)行了對比,之前的藍(lán)色區(qū)域位于紅綠色區(qū)域下方,但在應(yīng)用新決策后,藍(lán)色區(qū)域移動(dòng)到了綠色社區(qū)域上方,進(jìn)一步提高了我們的效率。因此,我們可以觀察到監(jiān)督學(xué)習(xí)所建立的模型實(shí)際上導(dǎo)致了效率的降低。這是基于真實(shí)隨機(jī)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果。收集隨機(jī)數(shù)據(jù)是需要成本的,因此在實(shí)際業(yè)務(wù)中,我們不希望在真實(shí)環(huán)境中進(jìn)行試錯(cuò)。可以看到,如果使用監(jiān)督學(xué)習(xí)模型,其效果實(shí)際上比隨機(jī)方法更差。而通過更好的建模,我們能夠獲得比隨機(jī)方法更好的效果。因此,因果關(guān)系的修正在這個(gè)過程中至關(guān)重要。

圖片

接下來介紹一個(gè)最新的研究工作。雖然在這個(gè)工作中我們并沒有直接使用因果學(xué)習(xí)的技術(shù),但我們考慮的是,如果我們能夠更好地學(xué)習(xí) world model,其中是否蘊(yùn)含了一些迄今尚未被充分發(fā)現(xiàn)的強(qiáng)化學(xué)習(xí)相關(guān)的信息。

圖片

最初我們與淘寶合作,開始應(yīng)用強(qiáng)化學(xué)習(xí)時(shí),我們認(rèn)識到必須能夠成功學(xué)習(xí) world model,否則這個(gè)任務(wù)就無法完成。在這個(gè)學(xué)習(xí)過程中,我們產(chǎn)生了一個(gè)思考:為什么我們能夠?qū)崿F(xiàn)泛化?因?yàn)槲覀兛偸瞧谕?what model 能夠回答那些不在我們數(shù)據(jù)集中的 what if 問題。那么,有什么原理能夠使我們能夠泛化到這些數(shù)據(jù)之外呢?

以購物場景為例,我們將平臺(tái)視為策略,即 agent,而購物的客戶則是我們的環(huán)境。由于 world model 需要包含大量虛擬客戶來進(jìn)行購物,我們關(guān)注的是在我們已經(jīng)采集數(shù)據(jù)的推薦情況之外,當(dāng)我們試圖回答那些未見過的數(shù)據(jù)時(shí),系統(tǒng)將如何運(yùn)作。我們考慮的一個(gè)想法是,由于這里涉及到人類,我們可以將其看作是一個(gè) agent。既然它是一個(gè) agent,那么它應(yīng)該是在最大化某種 reward 的基礎(chǔ)上做出其行為決策的。

換句話說,我們可以將我們的環(huán)境也看作是一個(gè)需要通過強(qiáng)化學(xué)習(xí)來學(xué)習(xí)的 agent。在購物環(huán)境下,這種觀點(diǎn)可能更加直觀。由于我們的環(huán)境中存在人,我們可以假設(shè)這個(gè)人背后有 reward,有動(dòng)機(jī)。如果我們直接從數(shù)據(jù)中觀察,我們很難將數(shù)據(jù)泛化到其他場景中。

但是,如果我們能夠?qū)W到這個(gè) agent 背后的 reward,那么在面對其他未曾見過的場景時(shí),我們就能夠直接通過最大化這個(gè) reward 來生成消費(fèi)者行為數(shù)據(jù)。如果這個(gè)數(shù)據(jù)符合對該 agent 的假設(shè),那么我們就能夠在未曾見過的場景中生成數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)的泛化。我們將這樣的 reward 稱為 Dynamics reward。

后來我們發(fā)現(xiàn),這個(gè)假設(shè)不僅對人類有效,對于其他環(huán)境,比如機(jī)械環(huán)境,也同樣有效。因此,我們開發(fā)了一項(xiàng)技術(shù),從有限的數(shù)據(jù)中還原 world model 背后的 reward 函數(shù),并使用這個(gè) reward 函數(shù)生成更多數(shù)據(jù)。

圖片

這是一個(gè)簡單的場景,通過控制冰箱溫度來調(diào)整壓縮機(jī)的控制。如果壓縮機(jī)增加壓力,溫度就會(huì)上升。圖中橫軸表示溫度,縱軸表示壓縮機(jī)的控制,顏色表示下一個(gè)時(shí)刻的溫度。從圖中可以看出,溫度正在下降。圖中的斜對角線代表我們的策略,該策略在采集到的數(shù)據(jù)點(diǎn)上運(yùn)行,這些數(shù)據(jù)點(diǎn)用小圓圈表示。由于數(shù)據(jù)量有限,當(dāng)我們嘗試使用監(jiān)督學(xué)習(xí)從這些數(shù)據(jù)中學(xué)習(xí)時(shí),它的泛化能力非常有限,只能泛化到深色區(qū)域的一小部分,只有這一小部分是正確的,其他部分則不正確。因此,直接使用數(shù)據(jù)進(jìn)行學(xué)習(xí)的泛化能力較差。

當(dāng)我們從這些數(shù)據(jù)中學(xué)習(xí)一個(gè) reward model 后,該 reward model 可以為模型評分,即確定哪些地方的 reward 較高,也就是模型在真實(shí)環(huán)境中表現(xiàn)良好的地方。通過對比可以看出,監(jiān)督學(xué)習(xí)的泛化能力只覆蓋了一小部分,而 reward model 學(xué)到的 Dynamics reward model 的泛化能力則涵蓋了更大的區(qū)域。因此,泛化能力得到了顯著增強(qiáng)。

對于一個(gè)未見過的測試策略,在監(jiān)督學(xué)習(xí)模型中可能會(huì)偏離真實(shí)環(huán)境。但是如果使用了 reward model,模型就能夠更緊密地貼合真實(shí)環(huán)境。值得一提的是,reward model 與我們在 ChatGPT 的最后一步中看到的用 reward model 修正價(jià)值對齊的方法基本相同。因此,在強(qiáng)化學(xué)習(xí)中,除了學(xué)習(xí)轉(zhuǎn)移和計(jì)算轉(zhuǎn)移外,我們還通過逆強(qiáng)化學(xué)習(xí)學(xué)習(xí)了一個(gè) Dynamics reward model,并使用該 Dynamic reward model 進(jìn)行轉(zhuǎn)移修正,這極大地提高了離線強(qiáng)化學(xué)習(xí)的性能。

圖片

在默認(rèn)的 RL 基準(zhǔn)測試上,可以看到性能得到了顯著提升。之前的情況下,分?jǐn)?shù)大致在 60 到 70 之間,而在線強(qiáng)化學(xué)習(xí)則能夠達(dá)到 100 分。我們之前的研究在六個(gè)任務(wù)中取得了 80 分的成績,而引入 Dynamics reward model 后,性能提升至 83 分,已經(jīng)達(dá)到了性能的天花板,無法繼續(xù)提高。我們已經(jīng)成功解決了六個(gè)任務(wù),這意味著我們的離線強(qiáng)化學(xué)習(xí)已經(jīng)達(dá)到了與在線強(qiáng)化學(xué)習(xí)相媲美的水平,已經(jīng)完成了一半的任務(wù)。

在更為困難的新 RL 基準(zhǔn)測試中,采樣策略的平均得分為 50 分,之前基本上都無法及格,我們的上一項(xiàng)工作僅達(dá)到 60 分,而加入 Dynamics reward model 的修正后,分?jǐn)?shù)提高到 76 分,并且有三個(gè)任務(wù)的得分能夠與在線強(qiáng)化學(xué)習(xí)相匹敵。因此,更好地建模 world model,能夠使整個(gè)強(qiáng)化學(xué)習(xí)的性能顯著提升。

圖片

我們注意到在 CVPR 2023 上已經(jīng)有一些研討會(huì)強(qiáng)調(diào)了對 world model 的研究,尤其是特斯拉公司,他們認(rèn)為構(gòu)建出的 world model 對于自動(dòng)駕駛至關(guān)重要。當(dāng)然,這些僅僅是一個(gè)起點(diǎn),我們期望更多的研究人員和學(xué)者,特別是從事因果建模的人士,能夠?qū)⒀芯抗ぷ髋c world model 相結(jié)合。感謝大家的關(guān)注。

四、問答環(huán)節(jié)

Q1:請問世界模型是否類似于真實(shí)世界的數(shù)字孿生?或者在某種程度上兩者之間是不是有一些技術(shù)可以共享?

A1:目前數(shù)字孿生僅是一個(gè)概念或者期望,我們希望在數(shù)字環(huán)境中創(chuàng)建與真實(shí)世界相似的實(shí)體。因此,數(shù)字孿生的定義在愿景上是相似的。然而,數(shù)字孿生并未形成獨(dú)特的技術(shù)體系。特別是,當(dāng)我們看今天市場上的數(shù)字孿生時(shí),它們幾乎全部轉(zhuǎn)變?yōu)榭梢暬ぞ撸@與數(shù)字孿生最初的愿景背離甚遠(yuǎn)。雖然數(shù)字孿生方向有其潛力,但目前實(shí)際上并未產(chǎn)生出全新的技術(shù)。因此,我們?nèi)匀徽J(rèn)為從數(shù)據(jù)學(xué)習(xí),特別是學(xué)習(xí) world model,并運(yùn)用因果關(guān)系進(jìn)行這些工作,才是真正值得追求的方向。這僅代表個(gè)人觀點(diǎn)。

Q2:分享中提到因果推斷與 world model 之間的相互賦能,可否分享一些這方面的啟示。

A2:在建模時(shí),World Model 表現(xiàn)為高度非線性,幾乎沒有線性情況。我們特別期望非線性因果建模和因果推斷的技術(shù)能夠得到良好的發(fā)展,并成功應(yīng)用于 World Model。此外,在強(qiáng)化學(xué)習(xí)領(lǐng)域,我們渴望將因果推斷技術(shù)應(yīng)用于探索建模以及整個(gè)學(xué)習(xí)過程。目前,強(qiáng)化學(xué)習(xí)中的探索大多是隨機(jī)的,效率較低。但如果引入因果推斷,系統(tǒng)將能夠理解應(yīng)該在哪些方面進(jìn)行探索,從而提高效率。因此,我們希望在強(qiáng)化學(xué)習(xí)中充分結(jié)合因果推斷,盡管目前結(jié)合兩者的研究相對較少。強(qiáng)化學(xué)習(xí)研究涉及領(lǐng)域廣泛,而因果推斷的應(yīng)用相對有限,這可能是由于這一結(jié)合難度較大。因此,在這個(gè)方向上的堅(jiān)持可能需要大家的共同努力。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2022-09-04 14:38:00

世界模型建模IRIS

2023-11-23 07:41:54

因果推斷大模型

2022-06-25 21:38:36

AI模型

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2024-09-29 09:22:00

2022-12-21 17:27:30

強(qiáng)化學(xué)習(xí)AI

2023-01-04 10:02:53

強(qiáng)化學(xué)習(xí)自動(dòng)駕駛

2024-04-12 07:40:37

因果推斷推薦模型推薦系統(tǒng)

2024-02-05 08:41:08

因果推斷快手短視頻應(yīng)用

2022-10-14 16:48:40

因果推斷數(shù)據(jù)預(yù)處理特征設(shè)計(jì)

2023-08-28 06:52:29

2024-04-12 08:59:02

強(qiáng)化學(xué)習(xí)系統(tǒng)人工智能擴(kuò)散模型

2023-05-04 08:28:30

因果推斷方法算法

2023-04-06 16:29:18

模型AI

2017-08-17 09:15:23

強(qiáng)化學(xué)習(xí)KerasOpenAI

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2023-09-21 10:29:01

AI模型

2024-11-18 14:35:00

智能體AI

2023-06-02 07:19:56

因果推斷度小滿

2023-01-09 08:39:38

因果推斷機(jī)器學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

成人免费视频网站| 国产亚洲精品一区二区| 国产成人永久免费视频| 欧美特黄一级视频| 日欧美一区二区| 日韩中文字幕视频| 在线观看你懂的视频| 国产不卡123| 国产精品视频免费| 国产另类第一区| 国产在线观看第一页| 中文字幕乱码亚洲无线精品一区| 日韩av在线网站| 婷婷免费在线观看| 国产在线观看www| 亚洲欧洲精品天堂一级 | 国产精品日本一区二区三区在线 | 99久久99久久综合| 国产在线拍偷自揄拍精品| 国产亚洲精品av| 菠萝蜜一区二区| 亚洲精品久久久久久久久久久久久 | 精品国产乱码久久久久酒店 | 欧美色男人天堂| 丁香花在线影院观看在线播放| av在线电影播放| bt欧美亚洲午夜电影天堂| 国产伊人精品在线| 国产免费a视频| 99热精品在线观看| 九九精品视频在线| 免费黄色激情视频| 精品视频国产| 亚洲精品一区av在线播放| av电影中文字幕| 99久久这里有精品| 欧美日韩三级视频| 久久黄色免费看| www.成人爱| 亚洲电影第三页| 久久久天堂国产精品| 麻豆免费在线观看| 国产精品美女久久久久久久久| 日本一区二区三区精品视频| 天堂在线中文字幕| 成人精品电影在线观看| 成人午夜电影在线播放| www.亚洲天堂.com| 国产成人精品影院| 91九色在线观看| 精品国产亚洲AV| 国产成人精品aa毛片| 亚洲www永久成人夜色| 国产毛片一区二区三区va在线| 麻豆精品一区二区三区| 国产精品一区二区三区在线播放| 波多野结衣网站| 秋霞电影一区二区| 国产乱人伦真实精品视频| 自拍偷拍精品视频| 久久99精品网久久| 91免费人成网站在线观看18| 国产精品国产av| 国产一区二区在线观看视频| 97人人模人人爽人人少妇| www.97av.com| 成人手机电影网| 狠狠色综合欧美激情| 外国精品视频在线观看 | 欧美人动性xxxxz0oz| 一区二区三区在线看| 免费在线黄网站| 欧美伦理91| 在线免费观看日本欧美| 三上悠亚av一区二区三区| 高清精品久久| 精品成人a区在线观看| 亚洲av熟女高潮一区二区| 亚洲自拍电影| 色偷偷噜噜噜亚洲男人的天堂| 色老板免费视频| 精品96久久久久久中文字幕无| 久久久免费电影| 无码人妻丰满熟妇区五十路| 蜜臀av性久久久久蜜臀aⅴ四虎| 亚洲va欧美va国产综合久久| 视频污在线观看| 国产欧美一区二区精品仙草咪| 正在播放久久| 国产美女高潮在线观看| 在线观看日韩电影| 岛国精品一区二区三区| 中文字幕伦av一区二区邻居| www欧美日韩| 青青操免费在线视频| 青青草成人在线观看| 3d动漫啪啪精品一区二区免费 | 在线观看久久久久久| 黄色a级片在线观看| 国产亚洲在线| 91老司机在线| 免费在线高清av| 亚洲狼人国产精品| 国产成人精品视频ⅴa片软件竹菊| 成人51免费| 亚洲欧美另类人妖| 国产性生活网站| 蜜臀av一区二区三区| 久草精品电影| 日本h片在线观看| 欧美色倩网站大全免费| 国产精品第七页| 久久精品青草| 国产精品久久99久久| 乱精品一区字幕二区| 中文字幕一区二区三区在线观看 | 一级片一级片一级片| 亚洲在线电影| 国产伦视频一区二区三区| 蜜桃视频在线观看www社区 | 欧美国产一区二区三区| 中文字幕第315页| 91网上在线视频| 国产精品无码免费专区午夜| 日韩一区中文| 亚洲天堂色网站| 国产成人在线免费观看视频| 国产馆精品极品| 中文字幕免费在线不卡| 97精品国产99久久久久久免费| 亚洲国产成人精品女人久久久 | 在线观看日本中文字幕| 在线欧美视频| 国产精品久久国产精品| 羞羞的网站在线观看| 在线不卡中文字幕| 成人性视频免费看| 日本不卡不码高清免费观看| 欧美一区二区三区精美影视| 涩涩av在线| 日韩av中文字幕在线播放| 国产 日韩 欧美 成人| 国产高清精品网站| av电影一区二区三区| 国产麻豆一区| 深夜福利一区二区| 亚洲在线精品视频| 国产精品久久久久婷婷| 中文字幕第36页| 日韩精品永久网址| 国产精品爽黄69| 欧美极品视频| 91精品国产一区二区三区蜜臀| 91狠狠综合久久久| 国产一区二区三区在线观看免费| 四虎免费在线观看视频| 日本精品视频| 欧美精品aaa| 婷婷五月综合激情| 一本大道久久精品懂色aⅴ| 男人的天堂影院| 亚洲一区二区成人| 日韩高清三级| 日韩毛片免费看| 欧美区在线播放| 天天干天天做天天操| 欧美色另类天堂2015| 国产亚洲精品熟女国产成人| 蜜臀久久99精品久久久久宅男| 日本在线观看一区二区三区| 精品久久毛片| www.日韩系列| 日韩在线视频第一页| 欧美日韩精品中文字幕| 97人妻精品一区二区免费| 麻豆91精品视频| 男人草女人视频| 校园春色另类视频| 国产综合久久久久久| 国内在线免费视频| 亚洲免费福利视频| 国产又粗又猛视频免费| 亚洲高清久久久| 国产jjizz一区二区三区视频| 久久精品999| av免费观看大全| 日韩精品免费一区二区在线观看| 97伦理在线四区| 欧美成人黑人| 欧美成人第一页| 男人的天堂在线| 91精品在线一区二区| 日韩精品在线免费看| 中日韩免费视频中文字幕| 亚洲性图第一页| 日韩电影在线观看电影| av一区二区三区免费观看| 免费av一区二区三区四区| 3d动漫啪啪精品一区二区免费 | 在线观看日本中文字幕| 国产一区二区三区不卡在线观看 | 久久丁香综合五月国产三级网站| 久草免费福利在线| 日韩在线综合| 精品久久久久亚洲| 国产精品久久久久久av公交车| 午夜欧美大片免费观看| av免费看在线| 色天天综合狠狠色| 亚洲欧美综合在线观看| 日韩一区二区在线看| 国产成人精品一区二区色戒| 亚洲大片免费看| 国产一二三区精品| 欧美国产日本韩| 丰满少妇在线观看资源站| 国产黑丝在线一区二区三区| 中日韩av在线播放| 青青草91视频| 国产激情在线观看视频| 亚洲美女色禁图| 青青在线视频免费观看| 国产精品久久久久久久久妇女| 欧美午夜精品久久久久免费视| 国产精品xxx在线观看| 91久久久一线二线三线品牌| 国产一区影院| 国产精品欧美激情在线播放| 在线最新版中文在线| 午夜精品久久久久久久男人的天堂| 二区三区在线观看| 俺去了亚洲欧美日韩| av资源网在线观看| 视频在线观看99| 中文字幕日本在线观看| 国产亚洲成精品久久| 韩国免费在线视频| 亚洲人av在线影院| 欧美精品少妇| 亚洲欧美制服第一页| 三级视频在线| 亚洲欧美成人网| 国模精品一区二区| 国产小视频国产精品| 成年人在线免费观看| 国产亚洲精品久久久久久| 久青青在线观看视频国产| 亚洲女人被黑人巨大进入| 深夜福利视频一区| 亚洲精品中文字| 国内精品在线视频| 日韩中文字幕第一页| 嫩草香蕉在线91一二三区| 久久精品99无色码中文字幕| 黄色免费在线观看网站| 久久香蕉国产线看观看av| 福利在线视频网站| 久久频这里精品99香蕉| 神马久久午夜| 国产成人一区二区| 欧美韩国日本| 亚洲最大的免费| 激情小说亚洲图片| 欧美日韩亚洲在线| 日韩1区在线| 黄黄视频在线观看| 亚洲国产片色| av片中文字幕| 久国产精品韩国三级视频| 中文字幕乱码在线人视频| 成人福利视频网站| 中文字幕国产专区| 国产精品超碰97尤物18| 麻豆一区产品精品蜜桃的特点| 亚洲综合激情网| 日日噜噜噜噜人人爽亚洲精品| 91传媒视频在线播放| 国产免费的av| 亚洲精品国产福利| 日本在线人成| 久久久人成影片一区二区三区| 在线免费av资源| 国产在线观看不卡| 久久成人福利| 一本久道久久综合| 亚洲人成免费| 色婷婷成人在线| 懂色av一区二区三区免费看| 37p粉嫩大胆色噜噜噜| 亚洲少妇最新在线视频| 久久一区二区三区视频| 欧美夫妻性生活| 日韩三级电影网| 久久视频这里只有精品| 中文在线免费二区三区| 亚洲一区二区久久久久久久| 在线亚洲a色| 伊人再见免费在线观看高清版| 久久天天综合| 美女日批在线观看| 日本一区二区免费在线观看视频 | 91精品中文在线| 亚欧日韩另类中文欧美| 黑人巨大国产9丨视频| 嫩草成人www欧美| 久久久久亚洲av无码麻豆| 国产性做久久久久久| 国产精品50页| 制服丝袜在线91| 国产乱视频在线观看| 久久久亚洲福利精品午夜| 色综合视频一区二区三区44| 欧美午夜精品理论片a级大开眼界 欧美午夜精品久久久久免费视 | 日本在线观看不卡视频| 精品无码人妻少妇久久久久久| 国产精品久久久久久久久晋中 | 18+激情视频在线| 国产精品旅馆在线| 你懂的一区二区三区| 日本福利视频一区| 国产乱子轮精品视频| 五月婷婷婷婷婷| 欧美午夜精品久久久久久久| 韩国中文字幕hd久久精品| 久久精品一区中文字幕| 成人一级视频| 日产精品一线二线三线芒果| 国产欧美激情| 亚洲第九十七页| 无码av中文一区二区三区桃花岛| 国产后入清纯学生妹| 精品久久久av| 在线高清欧美| 9999在线观看| 精品一区二区在线看| 免费91在线观看| 欧美性猛交xxxxxxxx| 国产精品一二三区视频| 国产精品18久久久久久首页狼| 亚洲永久精品唐人导航网址| 欧美黑人经典片免费观看| 99这里只有久久精品视频| 五月天婷婷综合网| 日韩av综合网| xxxxx性欧美特大| 日本成人黄色免费看| 手机精品视频在线观看| 一区二区三区久久久久| 欧美亚洲日本一区| caoporn国产精品免费视频| 国产精品美女999| 天天做天天爱天天综合网2021| 天天操精品视频| 一区二区三区不卡在线观看| www国产在线| 性视频1819p久久| 亚洲宅男一区| 亚洲成人天堂网| 亚洲免费av在线| 免费观看毛片网站| 欧美一性一乱一交一视频| 精品一区不卡| 午夜一级免费视频| 一区二区久久久久久| 少妇人妻一区二区| 日本国产欧美一区二区三区| 成人激情在线| 天天干天天曰天天操| 亚洲高清一区二区三区| 天堂av电影在线观看| 国产精品免费观看在线| 亚洲精品久久久| 91丨porny丨对白| 色天使色偷偷av一区二区| 欧洲不卡av| 国产精品一区二区三区免费观看| 午夜在线观看免费一区| 又嫩又硬又黄又爽的视频| 日韩女优制服丝袜电影| 在线免费日韩片| 91免费视频黄| 91丨porny丨户外露出| 中文字幕+乱码+中文乱码www | 一本大道色婷婷在线| 五月天丁香综合久久国产 | 亚洲精品精选| 亚洲天堂最新地址| 精品成人一区二区三区| 色综合天天色| aa视频在线播放| 国产精品女人毛片| 天天操天天干天天| 91探花福利精品国产自产在线| 夜久久久久久| 久久久久久视频| 亚洲免费精彩视频| 一区中文字幕| 激情视频免费网站| 午夜精品久久久久久久久久久| 亚洲xxxxxx|