深度學(xué)習(xí)后圖靈獎(jiǎng)得主Bengio研究核心是什么?因果表示學(xué)習(xí)
在近日發(fā)表的一篇論文中,圖靈獎(jiǎng)得主 Yoshua Bengio 等詳細(xì)介紹了其團(tuán)隊(duì)當(dāng)前的研究重心:將機(jī)器學(xué)習(xí)與因果推理相結(jié)合的因果表示學(xué)習(xí)。研究者不僅全面回顧了因果推理的基礎(chǔ)概念,并闡釋了其與機(jī)器學(xué)習(xí)的融合以及對(duì)機(jī)器學(xué)習(xí)的深遠(yuǎn)影響。該論文已被《Proceedings of the IEEE》期刊接收。
一直以來(lái)機(jī)器學(xué)習(xí)和因果推理是兩個(gè)相對(duì)獨(dú)立的研究方向,各有優(yōu)缺點(diǎn)。
但在過(guò)去數(shù)年,兩者開(kāi)始互相借鑒,推進(jìn)彼此的發(fā)展。如機(jī)器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展促進(jìn)了因果推理領(lǐng)域的發(fā)展。采用決策樹(shù)、集成方法、深層神經(jīng)網(wǎng)絡(luò)等強(qiáng)大的機(jī)器學(xué)習(xí)方法,可以更準(zhǔn)確地估計(jì)潛在結(jié)果。在機(jī)器之心 2018 年的報(bào)道文章中,圖靈獎(jiǎng)得主、因果關(guān)系模型倡導(dǎo)者之一 Judea Pearl 也探討了當(dāng)前機(jī)器學(xué)習(xí)理論的局限性以及來(lái)自因果推理的七個(gè)啟發(fā)。
于是,近年來(lái),將兩者結(jié)合起來(lái)的因果表示學(xué)習(xí)(Causal Representation Learning)吸引了越來(lái)越多的關(guān)注,成為人類(lèi)邁向 Human Level AI 的潛在方向。
機(jī)器之心曾在 2020 年初,精選了幾篇因果表示學(xué)習(xí)領(lǐng)域的最新文獻(xiàn),細(xì)致分析了不同方法的基本架構(gòu),幫助感興趣的讀者了解因果學(xué)習(xí)與機(jī)器學(xué)習(xí)可結(jié)合的方向和可能。(參考:反事實(shí)推理、特征分離,「因果表示學(xué)習(xí)」的最新研究都在講什么?)
今天,我們?cè)贋榇蠹彝扑]一篇因果表示學(xué)習(xí)論文:Yoshua Bengio 團(tuán)隊(duì)發(fā)表的《Towards Causal Representation Learning》,該論文已被《Proceedings of the IEEE》期刊接收。
在 2020 年底的一場(chǎng)講座中,Bengio 稱(chēng)這是他們當(dāng)前研究項(xiàng)目的核心。

論文鏈接:https://arxiv.org/pdf/2102.11107.pdf
Yoshua Bengio 等人在這篇論文中回顧了因果推理的基礎(chǔ)概念,并將其與機(jī)器學(xué)習(xí)的關(guān)鍵開(kāi)放性問(wèn)題聯(lián)系起來(lái),如遷移與泛化,進(jìn)而分析因果推理可能對(duì)機(jī)器學(xué)習(xí)研究做出的貢獻(xiàn)。反過(guò)來(lái)看也是如此:大多數(shù)因果研究的前提是因果變量。因此目前 AI 與因果領(lǐng)域的核心問(wèn)題是因果表示學(xué)習(xí),即基于低級(jí)觀測(cè)值發(fā)現(xiàn)高級(jí)因果變量。最后,該論文描繪了因果對(duì)機(jī)器學(xué)習(xí)的影響,并提出了該交叉領(lǐng)域的核心研究方向。
這篇論文的主要貢獻(xiàn)如下:
- 論文第二章介紹了物理系統(tǒng)中因果建模的不同層級(jí),第三章展示了因果模型與統(tǒng)計(jì)模型的區(qū)別。這里不僅探討了建模能力,還討論了所涉及的假設(shè)與挑戰(zhàn)。
- 論文第四章將獨(dú)立因果機(jī)制(Independent Causal Mechanisms,ICM)原則擴(kuò)展為基于數(shù)據(jù)估計(jì)因果關(guān)系的核心組件,即將稀疏機(jī)制轉(zhuǎn)移(Sparse Mechanism Shift)假設(shè)作為 ICM 原則的結(jié)果,并探討它對(duì)學(xué)習(xí)因果模型的影響。
- 論文第五章回顧了現(xiàn)有基于恰當(dāng)描述子(或特征)學(xué)習(xí)因果關(guān)系的方法,覆蓋經(jīng)典方法和基于深度神經(jīng)網(wǎng)絡(luò)的現(xiàn)代方法,主要聚焦促成因果發(fā)現(xiàn)的底層原則。
- 論文第六章探討了如何基于因果表示數(shù)據(jù)學(xué)習(xí)有用的模型,以及從因果角度看機(jī)器學(xué)習(xí)問(wèn)題。
- 論文第七章分析了因果對(duì)實(shí)際機(jī)器學(xué)習(xí)的影響。研究者使用因果語(yǔ)言重新詮釋了魯棒性和泛化,以及半監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、數(shù)據(jù)增強(qiáng)和預(yù)訓(xùn)練等常見(jiàn)技術(shù)。研究者還探討了因果與機(jī)器學(xué)習(xí)在科學(xué)應(yīng)用中的交叉領(lǐng)域,并思考如何結(jié)合二者的優(yōu)勢(shì),創(chuàng)建更通用的人工智能。
因果建模的層級(jí)
獨(dú)立同分布設(shè)置下的預(yù)測(cè)
統(tǒng)計(jì)模型是對(duì)現(xiàn)實(shí)的粗淺描述,因?yàn)樗鼈冎恍杞jP(guān)聯(lián)。對(duì)于給定的輸入樣本 X 和目標(biāo)標(biāo)簽 Y,我們可能會(huì)想近似 P(Y |X) 以回答如下問(wèn)題:「該圖像包含狗的概率是多少?」或者「在給定診斷測(cè)量指標(biāo)(如血壓)下,病人心臟衰竭的概率是多少?」。在合適的假設(shè)下,這些問(wèn)題可以通過(guò)基于 P(X, Y) 觀察足量的獨(dú)立同分布(i.i.d.)數(shù)據(jù)來(lái)得到答案。
分布偏移下的預(yù)測(cè)
干預(yù)式問(wèn)題(Interventional question)的挑戰(zhàn)性要比預(yù)測(cè)更高,因?yàn)樗鼈兯婕暗男袨槌隽私y(tǒng)計(jì)學(xué)習(xí)獨(dú)立同分布設(shè)置。干預(yù)(intervention)可能影響因果變量子集的值及其關(guān)系。例如「增加一個(gè)國(guó)家中鸛鳥(niǎo)的數(shù)量能否促進(jìn)人類(lèi)生育率的增長(zhǎng)?」、「如果煙草被更多地添加了社會(huì)污名化色彩,抽煙的人是否會(huì)減少?」
回答反事實(shí)問(wèn)題
反事實(shí)問(wèn)題需要對(duì)事情的發(fā)生原因進(jìn)行推理,在事情發(fā)生后設(shè)想不同行為的后果,決定哪些行為可以達(dá)到期望的結(jié)果。回答反事實(shí)問(wèn)題要比回答干預(yù)式問(wèn)題更難。但是,這對(duì)于 AI 而言或許是關(guān)鍵挑戰(zhàn),因?yàn)橹悄荏w能從想象行為的后果和了解哪些行為帶來(lái)特定結(jié)果中獲益。
數(shù)據(jù)的本質(zhì):觀測(cè)、干預(yù)、(非)結(jié)構(gòu)化
數(shù)據(jù)格式在推斷關(guān)系類(lèi)型中發(fā)揮重大作用。我們可以辨別數(shù)據(jù)模態(tài)的兩軸:觀測(cè)數(shù)據(jù) vs 干預(yù)數(shù)據(jù),手動(dòng)工程數(shù)據(jù) vs 原始(非結(jié)構(gòu)化)感知輸入。
觀測(cè)與干預(yù)數(shù)據(jù):人們常常假設(shè)但很少?lài)?yán)格得到的一種極端數(shù)據(jù)格式是觀測(cè)獨(dú)立同分布數(shù)據(jù),其每個(gè)數(shù)據(jù)點(diǎn)均獨(dú)立采樣自相同的分布。
手動(dòng)工程數(shù)據(jù)與原始數(shù)據(jù):在經(jīng)典 AI 中,數(shù)據(jù)常被假設(shè)成可結(jié)構(gòu)化為高級(jí)和語(yǔ)義有意義的變量,這可能部分對(duì)應(yīng)于底層圖的因果變量。
因果模型與推理
這部分主要介紹統(tǒng)計(jì)建模與因果建模的區(qū)別,并用形式化語(yǔ)言介紹了干預(yù)與分布變化。
獨(dú)立同分布數(shù)據(jù)驅(qū)動(dòng)的方法
對(duì)于獨(dú)立同分布數(shù)據(jù),強(qiáng)大的泛一致性(universal consistency)可以確保學(xué)習(xí)算法收斂至最低風(fēng)險(xiǎn)。這類(lèi)算法確實(shí)存在,例如最近鄰分類(lèi)器、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)。但是,目前的機(jī)器學(xué)習(xí)方法通常在面對(duì)不符合獨(dú)立同分布假設(shè)的問(wèn)題時(shí)性能較差,而這類(lèi)問(wèn)題對(duì)人類(lèi)而言輕而易舉。
Reichenbach 原則:從統(tǒng)計(jì)學(xué)到因果關(guān)系
Reichenbach [198] 清晰地描述了因果與統(tǒng)計(jì)相關(guān)性之間的聯(lián)系:

X 與 Y 一致的情況屬于特例。在沒(méi)有額外假設(shè)的情況下,我們無(wú)法利用觀測(cè)數(shù)據(jù)區(qū)分這些情況。此時(shí),因果模型要比統(tǒng)計(jì)模型包含更多信息。
如果只有兩個(gè)觀測(cè)值,則因果結(jié)構(gòu)發(fā)現(xiàn)會(huì)很難,但當(dāng)觀測(cè)值數(shù)量增多后,事情反而容易多了。原因在于,這種情況下存在多個(gè)由因果結(jié)構(gòu)傳達(dá)的非平凡條件獨(dú)立性。它們將 Reichenbach 原則泛化,并且可以用因果圖或結(jié)構(gòu)因果模型的語(yǔ)言進(jìn)行描述,將概率圖模型與干預(yù)概念融合在一起。
結(jié)構(gòu)因果模型(SCM)
SCM 考慮與有向無(wú)環(huán)圖(directed acyclic graph, DAG)的頂點(diǎn)相關(guān)的一組觀測(cè)值(或變量)X_1, . . . , X_n。該研究假設(shè)每個(gè)觀測(cè)值根據(jù)以下公式得出:

從數(shù)學(xué)角度講,觀測(cè)值也是隨機(jī)值。直觀來(lái)看,我們可以把獨(dú)立噪聲理解為在圖上擴(kuò)散的「信息探頭」(就像在社交網(wǎng)絡(luò)上擴(kuò)散的流言的獨(dú)立元素)。這當(dāng)然并不只是兩個(gè)觀測(cè)值,因?yàn)槿魏畏瞧椒矖l件獨(dú)立語(yǔ)句都要求至少三個(gè)變量。
統(tǒng)計(jì)模型、因果圖模型與 SCM 的區(qū)別
下圖 1 展示了統(tǒng)計(jì)模型與因果模型之間的差異。
統(tǒng)計(jì)模型可以通過(guò)圖模型來(lái)定義,即帶圖的概率分布。如果圖的邊是因果性的,則該圖模型為因果模型(這時(shí),該圖即為「因果圖」)。結(jié)構(gòu)因果模型由一組因果變量和一組結(jié)構(gòu)方程構(gòu)成,這些方程基于噪聲變量 U_i 分布。

獨(dú)立因果機(jī)制
獨(dú)立性概念包含兩個(gè)方面:一個(gè)與影響有關(guān),一個(gè)與信息相關(guān)。在因果研究歷史中,不變、自主和獨(dú)立的機(jī)制以多種面目出現(xiàn)。例如,Haavelmo [99] 的早期工作假設(shè)改變 structural assignment 的其中一個(gè),會(huì)使其他保持不變;Hoover [111] 介紹了不變準(zhǔn)則:真正的因果序是在恰當(dāng)干預(yù)下的不變性;Aldrich [4] 探討了這些思想在經(jīng)濟(jì)學(xué)中的歷史發(fā)展;Pearl [183] 詳細(xì)探討了自主性(autonomy),認(rèn)為當(dāng)其他機(jī)制服從外部影響時(shí),因果機(jī)制能夠保持不變。
該研究將任意現(xiàn)實(shí)世界分布視為因果機(jī)制的產(chǎn)物。此類(lèi)分布的變化通常是由至少一個(gè)因果機(jī)制的變化導(dǎo)致。根據(jù) ICM 原則,研究者得出了以下假設(shè):

在 ICM 原則中,研究者表述了兩個(gè)機(jī)制(形式化為條件分布)的獨(dú)立性意味著這兩個(gè)條件分布不應(yīng)互相影響。后者可被理解為要求獨(dú)立干預(yù)。
因果發(fā)現(xiàn)與機(jī)器學(xué)習(xí)
根據(jù) SMS 假設(shè),很多因果結(jié)構(gòu)被認(rèn)為需要保持不變。所以,分布偏移(如在不同「環(huán)境或語(yǔ)境」中觀察一個(gè)系統(tǒng))能夠?yàn)榇_定因果結(jié)構(gòu)提供很大的幫助。這些語(yǔ)境可以來(lái)自干預(yù)、不穩(wěn)定時(shí)間序列或者多視圖。同樣地,這些語(yǔ)境可以被解讀為不同的任務(wù),從而與元學(xué)習(xí)產(chǎn)生關(guān)聯(lián)。
傳統(tǒng)的因果發(fā)現(xiàn)和推理假設(shè)單元(unit)是由因果圖連接的隨機(jī)變量。但是,真實(shí)世界的觀測(cè)結(jié)果最初往往并未結(jié)構(gòu)化為這些單元,例如圖像中的物體。因此,因果表示學(xué)習(xí)的出現(xiàn)試圖從數(shù)據(jù)中學(xué)習(xí)到這些變量,正如超越了符號(hào) AI 的機(jī)器學(xué)習(xí)不要求算法操作的符號(hào)預(yù)先給定一樣。基于此,研究者試圖將隨機(jī)變量 S_1, …, S_n 與觀測(cè)值連接起來(lái),公式如下:

其中 G 是非線(xiàn)性函數(shù)。下圖 2 展示了一個(gè)示例,其中高維觀測(cè)是對(duì)因果系統(tǒng)狀態(tài)進(jìn)行查看的結(jié)果,然后利用神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行處理,以提取在多種任務(wù)上有用的高級(jí)變量。

為了結(jié)合結(jié)構(gòu)因果建模和表示學(xué)習(xí),我們應(yīng)努力將 SCM 嵌入到更大的機(jī)器學(xué)習(xí)模型中,這些模型的輸入和輸出也許呈現(xiàn)高維和非結(jié)構(gòu)特點(diǎn),但其內(nèi)部工作至少部分由 SCM 控制(可使用神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行參數(shù)化)。
研究者在下圖 3 中展示了一個(gè)可視化示例,其中恰當(dāng)因果變量的變化很稀疏(移動(dòng)手指導(dǎo)致手指和方塊位置發(fā)生變化),但在像素空間等其他表示中變化則很稠密(手指和方塊的移動(dòng)導(dǎo)致很多像素值發(fā)生變化)。

研究者從因果表示學(xué)習(xí)的角度討論了現(xiàn)代機(jī)器學(xué)習(xí)面臨的三個(gè)問(wèn)題,分別是解耦表示學(xué)習(xí)、可遷移機(jī)制學(xué)習(xí)以及干預(yù)式世界模型和推理學(xué)習(xí)。
因果推理對(duì)機(jī)器學(xué)習(xí)的影響
上文所有討論都需要一種不依賴(lài)常見(jiàn) i.i.d. 假設(shè)的學(xué)習(xí)范式。研究者希望做出一種較弱的假設(shè):應(yīng)用模型的數(shù)據(jù)可能來(lái)自不同的分布,但涉及的因果機(jī)制(大多)相同。
半監(jiān)督學(xué)習(xí)(SSL)
假設(shè)潛在因果圖為 X → Y,并且同時(shí)想要學(xué)習(xí)映射 X → Y,則這種情況的因果因式分解如下:

從 SSL 的角度來(lái)看,后續(xù)發(fā)展包括進(jìn)一步的理論分析和條件式 SSL。將 SSL 視為利用邊際 P(X) 和非因果條件式 P(Y |X) 之間的依賴(lài)性,這一觀點(diǎn)與驗(yàn)證 SSL 合理性的常見(jiàn)假設(shè)一致。
此外,SSL 領(lǐng)域的一些理論結(jié)果使用因果圖中眾所周知的假設(shè)(即使這些假設(shè)沒(méi)有提及因果關(guān)系):協(xié)同訓(xùn)練理論陳述了無(wú)標(biāo)注數(shù)據(jù)的可學(xué)習(xí)性,并且依賴(lài)預(yù)測(cè)器基于給定標(biāo)簽有條件獨(dú)立的假設(shè)。我們通常期望該預(yù)測(cè)器(僅)由給定標(biāo)簽引起,即反因果設(shè)置。
對(duì)抗脆弱性
現(xiàn)在假設(shè)我們處在因果設(shè)置中,其中因果生成模型可因式分解為獨(dú)立的組件,組件之一(本質(zhì)上)是分類(lèi)函數(shù)。因此,我們或許會(huì)期望,如果預(yù)測(cè)器近似具備固有可遷移性和魯棒性的因果機(jī)制,則對(duì)抗樣本應(yīng)該更難找到。
最近的工作支持了這種觀點(diǎn):對(duì)抗攻擊的一種潛在防御方法通過(guò)建模因果生成方向來(lái)解決反因果分類(lèi)問(wèn)題,這種方法在視覺(jué)領(lǐng)域中被稱(chēng)為合成式分析(analysis by synthesis)。
魯棒性和強(qiáng)泛化性
為了學(xué)習(xí)一個(gè)魯棒的預(yù)測(cè)器,我們應(yīng)該擁有一個(gè)環(huán)境分布的子集

,并求解

在實(shí)踐中,求解公式 (18) 需要指定一個(gè)具有干預(yù)相關(guān)集合的因果模型。如果觀測(cè)環(huán)境集合 ε 與可能的環(huán)境集合 Ρ_ɡ不一致,則我們將得到額外的估計(jì)誤差,在最壞的情況下,該估計(jì)誤差可能會(huì)任意大。
預(yù)訓(xùn)練、數(shù)據(jù)增強(qiáng)與自監(jiān)督
學(xué)習(xí)用于解決 (18) min-max 優(yōu)化問(wèn)題的預(yù)測(cè)模型難度較高。該研究將機(jī)器學(xué)習(xí)中的多個(gè)常見(jiàn)技術(shù)解釋為近似 (18) 的方法。第一個(gè)方法是豐富訓(xùn)練集的分布;第二個(gè)方法通常與前一個(gè)結(jié)合使用,即依賴(lài)數(shù)據(jù)增強(qiáng)來(lái)增加數(shù)據(jù)多樣性;第三個(gè)方法是依靠自監(jiān)督學(xué)習(xí) P(X)。
一個(gè)有趣的研究方向是將所有這些技術(shù)結(jié)合起來(lái),即基于來(lái)自多個(gè)模擬環(huán)境的數(shù)據(jù)進(jìn)行大規(guī)模訓(xùn)練、數(shù)據(jù)增強(qiáng)、自監(jiān)督和魯棒性微調(diào)。
強(qiáng)化學(xué)習(xí)
相比機(jī)器學(xué)習(xí)主流研究,強(qiáng)化學(xué)習(xí) (RL) 更接近因果研究,因?yàn)樗袝r(shí)能夠高效地直接估計(jì) do-probabilities。但是,在離策略學(xué)習(xí)設(shè)置下,尤其是批(或觀測(cè))設(shè)置下,因果問(wèn)題變得細(xì)微。應(yīng)用于強(qiáng)化學(xué)習(xí)的因果學(xué)習(xí)可以分為兩個(gè)方面:因果歸納和因果推理。
強(qiáng)化學(xué)習(xí)設(shè)置下的因果歸納與經(jīng)典因果學(xué)習(xí)設(shè)置下所面臨的挑戰(zhàn)大有不同,因?yàn)橐蚬兞客ǔJ墙o定的。但是,越來(lái)越多的證據(jù)表明恰當(dāng)環(huán)境結(jié)構(gòu)化表示的有效性。例如:
- 世界模型;
- 泛化、魯棒性與快速遷移;
- 反事實(shí);
- 離線(xiàn)強(qiáng)化學(xué)習(xí)
科學(xué)應(yīng)用
當(dāng)機(jī)器學(xué)習(xí)應(yīng)用于自然科學(xué)領(lǐng)域時(shí),一個(gè)基本的問(wèn)題是:我們可以在多大程度上用機(jī)器學(xué)習(xí)來(lái)補(bǔ)充對(duì)物理系統(tǒng)的理解。一個(gè)有意思的方向是使用神經(jīng)網(wǎng)絡(luò)進(jìn)行物理仿真,它與手工設(shè)計(jì)的模擬器相比效率要高得多。另一方面,缺乏系統(tǒng)的實(shí)驗(yàn)條件可能會(huì)在醫(yī)療等應(yīng)用領(lǐng)域遭遇挑戰(zhàn)。
因果關(guān)系在幫助理解醫(yī)學(xué)現(xiàn)象方面具有巨大的潛力。在新冠疫情期間,因果中介分析(causal mediation analysis)有助于,在觀察到辛普森悖論的教科書(shū)式示例時(shí),真正查出不同因素對(duì)病死率的影響。
科學(xué)應(yīng)用的另一個(gè)示例是天文學(xué),研究者們使用因果模型在儀器混淆的情況下識(shí)別系外行星。
多任務(wù)學(xué)習(xí)與持續(xù)學(xué)習(xí)
多任務(wù)學(xué)習(xí)是指構(gòu)建一個(gè)可以在不同環(huán)境中解決多個(gè)任務(wù)的系統(tǒng)。這些任務(wù)通常具有一些共同的特征。通過(guò)學(xué)習(xí)跨任務(wù)的相似性,系統(tǒng)在遇到新任務(wù)時(shí)可以更有效地利用從先前任務(wù)中獲得的知識(shí)。
在這一方面,我們顯然已經(jīng)走了很長(zhǎng)一段路,且沒(méi)有明確地將多任務(wù)問(wèn)題視為因果問(wèn)題。在海量數(shù)據(jù)和算力的推動(dòng)下,人工智能在廣泛的應(yīng)用領(lǐng)域里取得了顯著的進(jìn)步。這也讓人們產(chǎn)生了一個(gè)問(wèn)題:「為什么我們不能直接訓(xùn)練一個(gè)巨大的模型來(lái)學(xué)習(xí)環(huán)境動(dòng)態(tài)(如強(qiáng)化學(xué)習(xí)中的設(shè)定),使其包含所有可能的干預(yù)呢?」畢竟,分布式表示可以泛化至未見(jiàn)樣本,如果基于大量干預(yù)進(jìn)行訓(xùn)練,則我們可能會(huì)得到一個(gè)在大量干預(yù)之間實(shí)現(xiàn)良好泛化的大型神經(jīng)網(wǎng)絡(luò)。
要這么做的話(huà),首先如果數(shù)據(jù)的多樣性不夠,則最糟糕的情況是未見(jiàn)分布偏移造成的誤差仍然可能很高。此外,如果我們擁有一個(gè)能夠成功應(yīng)對(duì)特定環(huán)境中所有干預(yù)的模型,則我們可能希望在具備相似動(dòng)態(tài)的不同環(huán)境中使用它,盡管不一定動(dòng)態(tài)完全相同。
本質(zhì)上,i.i.d. 模式識(shí)別只是一種數(shù)學(xué)抽象,因果關(guān)系對(duì)于大多數(shù)形式的 animate learning 而言可能是必不可少的。然而直到現(xiàn)在,機(jī)器學(xué)習(xí)仍忽略對(duì)因果關(guān)系的完整集成,該研究認(rèn)為機(jī)器學(xué)習(xí)會(huì)從集成因果概念中獲得收益。研究者認(rèn)為,將當(dāng)前的深度學(xué)習(xí)方法與因果關(guān)系的工具和思想結(jié)合起來(lái),可能是邁向通用 AI 系統(tǒng)的必經(jīng)之路。





























