SVERL理論框架:用Shapley值解釋強(qiáng)化學(xué)習(xí)的突破性方法
從黑盒到透明:用Shapley值揭開強(qiáng)化學(xué)習(xí)的決策機(jī)制
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為人工智能的重要分支,已經(jīng)在多個(gè)領(lǐng)域展現(xiàn)出超越人類的表現(xiàn),從掌握復(fù)雜游戲(如AlphaGo)到控制現(xiàn)實(shí)世界系統(tǒng)(如核聚變反應(yīng)堆調(diào)節(jié))。然而,與人類不同,強(qiáng)化學(xué)習(xí)智能體通常無(wú)法解釋其行為背后的原因,這使得人們難以理解或信任它們的決策。這種不透明性限制了強(qiáng)化學(xué)習(xí)在安全關(guān)鍵領(lǐng)域的應(yīng)用,因?yàn)樵谶@些領(lǐng)域中,人類的信任和問責(zé)至關(guān)重要。
英國(guó)巴斯大學(xué)的Daniel Beechey、Thomas M.S. Smith和?zgür ?im?ek團(tuán)隊(duì)在最新研究中提出了一個(gè)名為"用Shapley值解釋強(qiáng)化學(xué)習(xí)"(Shapley Values for Explaining Reinforcement Learning,SVERL)的理論框架,旨在通過分析狀態(tài)特征對(duì)智能體行為的影響,提供對(duì)強(qiáng)化學(xué)習(xí)決策過程的深入解釋。該研究是他們?cè)缙诎l(fā)表在國(guó)際機(jī)器學(xué)習(xí)會(huì)議(ICML)上工作的擴(kuò)展版本,為解釋強(qiáng)化學(xué)習(xí)提供了一個(gè)數(shù)學(xué)嚴(yán)謹(jǐn)?shù)幕A(chǔ)。
強(qiáng)化學(xué)習(xí)解釋的三個(gè)核心要素
SVERL框架確定了強(qiáng)化學(xué)習(xí)中三個(gè)需要解釋的核心要素:
- 行為(Behaviour)智能體如何選擇行動(dòng)?這關(guān)注的是智能體的決策過程。
- 性能(Performance)這些行動(dòng)獲得了什么獎(jiǎng)勵(lì)?這評(píng)估了智能體實(shí)現(xiàn)目標(biāo)的效果。
- 價(jià)值估計(jì)(Value Estimation)如何估計(jì)這些獎(jiǎng)勵(lì)?這探討了我們?nèi)绾晤A(yù)測(cè)智能體行動(dòng)的后果。
這三個(gè)要素共同提供了對(duì)智能體如何與環(huán)境交互的全面理解。為了說明這些要素的區(qū)別,研究團(tuán)隊(duì)使用了一個(gè)自動(dòng)駕駛車輛導(dǎo)航的例子:

在這個(gè)例子中,自動(dòng)駕駛車輛需要根據(jù)路標(biāo)導(dǎo)航到目的地。路標(biāo)提供方向指引和距離信息,影響車輛的決策過程:
- 解釋行為車輛在第一個(gè)路口選擇右轉(zhuǎn),因?yàn)槁窐?biāo)指示該方向。如果路標(biāo)缺失或不正確,車輛可能會(huì)選擇不同的路線。
- 解釋性能車輛選擇的路線能否以最短時(shí)間到達(dá)目的地?在圖中,車輛可以在第一個(gè)路口選擇左轉(zhuǎn)或右轉(zhuǎn),兩條路徑都能以相同距離到達(dá)目的地。
- 解釋價(jià)值估計(jì)第一個(gè)路標(biāo)顯示目的地距離10英里,第二個(gè)路標(biāo)顯示只有2英里。我們預(yù)期在2英里處的預(yù)期回報(bào)高于10英里處,因?yàn)橹悄荏w更接近目標(biāo)。
Shapley值:公平分配貢獻(xiàn)的數(shù)學(xué)工具
SVERL框架的核心是將Shapley值應(yīng)用于強(qiáng)化學(xué)習(xí)的解釋。Shapley值源自合作博弈論,由Lloyd Shapley在1953年提出,用于公平地分配合作者之間的貢獻(xiàn)。在強(qiáng)化學(xué)習(xí)環(huán)境中,研究者將狀態(tài)特征視為"玩家",這些玩家合作產(chǎn)生行為、性能或價(jià)值估計(jì)。
Shapley值基于四個(gè)公理定義了一個(gè)公平的貢獻(xiàn)分配方案:
- 效率(Efficiency)所有特征的貢獻(xiàn)總和等于總體結(jié)果與基線之間的差異。
- 線性性(Linearity)如果將兩個(gè)獨(dú)立的游戲組合成一個(gè)新游戲,每個(gè)特征在組合游戲中的貢獻(xiàn)等于其在各個(gè)獨(dú)立游戲中貢獻(xiàn)的加權(quán)和。
- 對(duì)稱性(Symmetry)如果兩個(gè)特征對(duì)所有可能的特征組合產(chǎn)生相同的邊際貢獻(xiàn),則它們被分配相同的貢獻(xiàn)值。
- 零貢獻(xiàn)(Nullity)如果一個(gè)特征對(duì)所有可能的特征組合都沒有邊際貢獻(xiàn),則其貢獻(xiàn)值為零。
這些公理確保了Shapley值在解釋強(qiáng)化學(xué)習(xí)時(shí)具有數(shù)學(xué)上的嚴(yán)謹(jǐn)性和直觀的解釋性。
SVERL框架:解釋強(qiáng)化學(xué)習(xí)的統(tǒng)一方法
解釋智能體行為
在SVERL框架中,解釋智能體行為的關(guān)鍵是分析狀態(tài)特征如何影響智能體在特定狀態(tài)下選擇特定動(dòng)作的概率。研究者將這個(gè)問題建模為一個(gè)離散策略博弈(Discrete Policy Game):
定義1(離散策略博弈):一組特征?={1,…,n}和一個(gè)特征函數(shù)π???,其中π???(??)返回當(dāng)智能體只知道????中特征的值時(shí),在狀態(tài)s選擇動(dòng)作a的概率。
這個(gè)博弈的Shapley值??(π???)表示特征i對(duì)選擇動(dòng)作a的概率的貢獻(xiàn)。
一個(gè)關(guān)鍵問題是:當(dāng)某些狀態(tài)特征未知時(shí),如何定義智能體的行為?研究者提出了一種基于條件穩(wěn)態(tài)分布的方法:
定義5(策略特征函數(shù)):當(dāng)特征???的值未知時(shí),選擇動(dòng)作a的概率定義為給定已知特征值s??的條件下選擇a的期望概率:
π???(??) ≡ μ(s??,a) = ??[π(S,a)|S??=s??]
這確保了當(dāng)只有特征??中的值已知時(shí),特征函數(shù)π???(??)提供了對(duì)原始策略π的最佳近似。
解釋性能
性能解釋關(guān)注的是特征如何影響智能體獲得的預(yù)期回報(bào)。研究者定義了性能博弈(Performance Game):
定義12(性能博弈):一組狀態(tài)特征?={1,…,n}和一個(gè)特征函數(shù)???,其中???(??)表示當(dāng)策略π只能訪問????中的特征值時(shí),從狀態(tài)s獲得的預(yù)期回報(bào)。
性能特征函數(shù)定義為:
定義14(性能特征函數(shù)):當(dāng)智能體只能訪問特征??中的值時(shí),從狀態(tài)s獲得的預(yù)期回報(bào)定義為:
???(??) = ??μ[Gt|St=s]
其中策略μ在狀態(tài)s時(shí)使用部分信息策略π???(??),在其他狀態(tài)使用完全觀察策略π。
解釋價(jià)值估計(jì)
價(jià)值估計(jì)解釋關(guān)注的是特征如何影響對(duì)預(yù)期回報(bào)的估計(jì),而不改變智能體的行為。研究者定義了價(jià)值估計(jì)博弈(Value Estimation Game):
定義16(價(jià)值估計(jì)博弈):一組特征?={1,…,n}和一個(gè)特征函數(shù)v???,其中v???(??)表示當(dāng)只觀察到特征值s??∈????時(shí)的估計(jì)預(yù)期回報(bào)。
價(jià)值估計(jì)特征函數(shù)定義為:
定義20(價(jià)值估計(jì)特征函數(shù)):當(dāng)只觀察到特征??中的值時(shí),從狀態(tài)s獲得的估計(jì)回報(bào)為:
v???(??) ? ??(s??) = ??[v??(S)∣S??=s??]
通過實(shí)例理解SVERL
研究團(tuán)隊(duì)通過多個(gè)示例展示了SVERL框架在實(shí)踐中的應(yīng)用,包括Mastermind游戲和掃雷游戲。
Mastermind示例
在Mastermind游戲中,環(huán)境隨機(jī)選擇一個(gè)由四個(gè)字母組成的代碼(AA、AB、BA或BB),智能體需要猜測(cè)這個(gè)代碼。每次猜測(cè)后,環(huán)境會(huì)返回兩種反饋:正確位置的字母數(shù)量和位置錯(cuò)誤但字母正確的數(shù)量。

圖中展示了三個(gè)連續(xù)狀態(tài)的Shapley值歸因:第一列顯示了游戲進(jìn)程,第二列顯示了特征對(duì)選擇最優(yōu)動(dòng)作概率的貢獻(xiàn)(行為),第三列顯示了對(duì)智能體性能的貢獻(xiàn),第四列顯示了對(duì)智能體回報(bào)估計(jì)的貢獻(xiàn)。
在初始狀態(tài),智能體選擇代碼AA。行為解釋突出了空白的底行(對(duì)應(yīng)于智能體的第一個(gè)代碼)作為選擇此動(dòng)作的最大貢獻(xiàn)者。這反映了智能體的策略在沒有先前信息的初始狀態(tài)下選擇AA。同樣,價(jià)值估計(jì)解釋也突出了這一行,但表明它降低了智能體的估計(jì)回報(bào)。相比之下,性能解釋沒有將責(zé)任歸因于任何特征,正確表明所有可能的初始代碼都會(huì)產(chǎn)生最大預(yù)期回報(bào)。
掃雷示例
掃雷游戲在4×4網(wǎng)格上進(jìn)行,有兩個(gè)隱藏的地雷隨機(jī)放置在每個(gè)回合開始時(shí),所有方格都未打開。智能體選擇未打開的方格來揭示無(wú)地雷方格(顯示相鄰方格中地雷總數(shù)的數(shù)字)或地雷(結(jié)束回合,獎(jiǎng)勵(lì)-1)。

圖中展示了掃雷游戲中兩個(gè)連續(xù)狀態(tài)的Shapley值歸因。在第一個(gè)狀態(tài),最優(yōu)動(dòng)作是打開(4,2)方格。許多特征提供了關(guān)于第一個(gè)地雷(M1)的信息,但只有(4,2)下的線索能識(shí)別第二個(gè)地雷(M2)的位置。因此,這個(gè)線索對(duì)于安全和最優(yōu)游戲至關(guān)重要。行為和性能解釋都對(duì)這個(gè)特征給予了高度歸因。
在掃雷游戲中,未打開方格越多,關(guān)于地雷位置的不確定性就越大,因此預(yù)期回報(bào)越低。這反映在價(jià)值估計(jì)的解釋中,未打開的方格獲得負(fù)面歸因,而已打開的方格獲得正面歸因。
SVERL的理解與解釋
SVERL提供了一個(gè)視角,通過這個(gè)視角我們可以理解個(gè)別特征值如何影響智能體的行為、性能和價(jià)值估計(jì)。這些見解超出了僅觀察策略或預(yù)期回報(bào)所能揭示的范圍。
比較解釋
SVERL框架中的三種解釋捕捉了強(qiáng)化學(xué)習(xí)的不同方面:
- 行為解釋揭示了特征如何影響智能體的行動(dòng)選擇。
- 性能解釋揭示了特征如何影響預(yù)期回報(bào)。
- 價(jià)值估計(jì)解釋揭示了特征如何影響預(yù)期回報(bào)的估計(jì)。
理解這些視角何時(shí)一致、何時(shí)分歧對(duì)于形成對(duì)智能體-環(huán)境交互的全面理解至關(guān)重要。例如,在Mastermind的最終狀態(tài),行為和性能解釋是一致的:同樣的特征既驅(qū)動(dòng)了智能體猜測(cè)AB的決定,也決定了結(jié)果:它們揭示了正確的代碼并導(dǎo)致最高可能的回報(bào)。
然而,在Mastermind的初始狀態(tài),空白底行有助于第一次猜測(cè),但對(duì)性能沒有影響,因?yàn)樗谐跏疾聹y(cè)都會(huì)產(chǎn)生相同的回報(bào)。這突顯了一個(gè)微妙但重要的觀點(diǎn):一個(gè)特征可以塑造智能體的行為而不影響該行為產(chǎn)生的回報(bào)。
解釋SVERL
與任何特征歸因方法一樣,解釋SVERL需要謹(jǐn)慎。雖然Shapley值揭示了特征如何影響行為、性能或回報(bào)估計(jì),但它們不一定解釋了為什么。人類用戶自然會(huì)基于這些值形成信念或假設(shè),但很容易過度解釋或錯(cuò)誤歸因因果關(guān)系。
例如,在掃雷游戲中,SVERL在第二個(gè)狀態(tài)為包含地雷的未打開方格分配了負(fù)面性能歸因。人們可能會(huì)得出結(jié)論,觀察這些特征會(huì)降低性能,因?yàn)樗黾恿酥悄荏w打開它們的可能性。這是一個(gè)合理的假設(shè),但必須進(jìn)行驗(yàn)證。
SVERL的局限性與未來工作
盡管SVERL為解釋強(qiáng)化學(xué)習(xí)提供了堅(jiān)實(shí)的理論基礎(chǔ),但仍存在一些局限性和未來工作的方向:
解釋更廣泛的智能體-環(huán)境交互
SVERL專注于解釋特定狀態(tài)或特定動(dòng)作的智能體行為。理解更廣泛的行為通常涉及推理許多交互中的趨勢(shì)。研究者探討了如何聚合SVERL的解釋以提供更廣泛的見解,例如通過穩(wěn)態(tài)分布或策略分布的期望。
近似SVERL
計(jì)算SVERL的解釋在計(jì)算上是昂貴的。每個(gè)特征函數(shù)涉及對(duì)整個(gè)狀態(tài)空間的期望,每個(gè)Shapley值定義為對(duì)特征的所有2|?|子集的求和。研究者提出了一些近似技術(shù),如蒙特卡洛采樣,以使SVERL在大型領(lǐng)域中實(shí)用。
使用價(jià)值估計(jì)來指導(dǎo)行為
SVERL的價(jià)值估計(jì)解釋揭示了特征值如何影響智能體的回報(bào)估計(jì)。一個(gè)有趣的可能性是使用這些信息來指導(dǎo)行為,例如,鼓勵(lì)導(dǎo)致正面歸因特征的動(dòng)作,或識(shí)別應(yīng)該改變以提高預(yù)期回報(bào)的負(fù)面歸因特征。
結(jié)論
SVERL框架為解釋強(qiáng)化學(xué)習(xí)提供了一個(gè)理論基礎(chǔ),通過Shapley值的公平歸因原則,揭示了狀態(tài)特征如何影響智能體的行為、性能和價(jià)值估計(jì)。這種方法產(chǎn)生了一系列數(shù)學(xué)上有根據(jù)的解釋,具有清晰的語(yǔ)義和理論保證。
通過提供對(duì)強(qiáng)化學(xué)習(xí)智能體決策過程的深入理解,SVERL有望增強(qiáng)人類對(duì)這些系統(tǒng)的信任,并促進(jìn)它們?cè)诎踩P(guān)鍵領(lǐng)域的負(fù)責(zé)任部署。隨著強(qiáng)化學(xué)習(xí)繼續(xù)在各種應(yīng)用中取得突破,像SVERL這樣的解釋框架將成為確保這些系統(tǒng)透明、可信和可問責(zé)的關(guān)鍵工具。
論文鏈接:???https://arxiv.org/abs/2505.07797??
本文轉(zhuǎn)載自???????頓數(shù)AI?????,作者:小頓

















