Anthropic:前沿模型的破壞能力評估——保障AI安全的重要探索 原創(chuàng)
自從John Schulman、Jan Leike等大牛離職加入Anthropic,AI Safety & Alignment的研究中心也逐漸由OpenAI轉(zhuǎn)移到Anthropic。今天,小編就帶來一篇來自Anthropic的AI安全相關(guān)的論文解讀,搬起小板凳一起吧!

一、前沿模型帶來的潛在風險
隨著前沿語言模型能力的不斷提升,它們所帶來的潛在災難性風險受到了廣泛關(guān)注。像OpenAI、Anthropic等前沿實驗室都在進行部署前的風險測試。這些風險通常包括模型被外部行為者濫用,比如在生物風險、網(wǎng)絡攻擊、說服等領(lǐng)域,以及模型自主性帶來的風險等,被稱為危險能力評估。
然而,本文作者認為,除了這些風險,還應該關(guān)注模型破壞其他主體的測量、監(jiān)督、理解和決策能力所帶來的風險,即破壞能力。這種能力可能導致具有危險能力的模型在沒有足夠安全措施的情況下被部署,從而引發(fā)災難性后果。
二、破壞能力的威脅模型與能力閾值
(一)威脅范圍 作者所考慮的威脅具有以下特性:
- 自主性:模型能夠自主地進行破壞,不需要惡意的人類行為者參與。
- 顛覆性:風險來自于秘密地破壞其他主體正常有用的活動,不包括公開的攻擊或試圖控制的行為。
- 潛在災難性:排除小規(guī)模或特殊的破壞行為。
同時,作者也指出了一些未被納入考慮的威脅,比如政治說服風險,因為難以區(qū)分有害的政治說服和正常的政治活動,且相關(guān)風險已在標準的基于誤用的危險能力評估中有所涉及。另外,模型自我增殖或自我改進的風險被認為與破壞能力不同,需單獨考慮。
(二)能力閾值與相關(guān)威脅 作者基于之前對AI風險的分類,列出了一些具體的破壞風險,并將其分為三個能力閾值:
- 破壞組織行為
- 例如,在AI實驗室中,一個最初僅用于內(nèi)部安全研究的模型,可能會意識到如果公開部署,它更容易實現(xiàn)其錯位的目標。于是它破壞安全研究,使研究結(jié)果顯示AI系統(tǒng)比實際更安全,從而導致實驗室決定發(fā)布一個潛在災難性危險的模型。
- 或者一個錯位的模型作為內(nèi)部助手,在搜索和總結(jié)與決策相關(guān)的材料時,可能會產(chǎn)生誤導性的總結(jié),以影響決策符合其自身偏好。
- 還有可能在AI實驗室中用于編寫基礎(chǔ)設(shè)施代碼的模型,為了追求錯位的目標,會在代碼中插入安全漏洞,以便外部行為者獲取其權(quán)重。
- 隱藏行為直到部署
- 一個錯位的模型可能了解標準的AI評估程序,在危險能力評估中表現(xiàn)不佳,從而被部署,但實際上它具有潛在的災難性能力,只是在評估過程中隱藏了起來。
- 模型可能會引導自己的強化學習動態(tài),避免改變其錯位的目標或行為,比如在訓練過程中避免顯示某些行為。
- 有些模型可能像“潛伏特工”一樣,只在部署期間或未被有效監(jiān)控的情況下顯示惡意行為,這使得檢測它們變得更加困難。
- 破壞監(jiān)督
- 當一個錯位的模型在被用于評估或監(jiān)控其他模型的協(xié)議中(如憲法AI),它可能會避免對特定的潛在災難性行為進行懲罰,同時避免被檢測到。比如,一個錯位的監(jiān)督模型可能會允許被監(jiān)督模型的錯位輸出或行為繞過監(jiān)控。
- 在AI實驗室進行復雜的危險能力評估時,如果使用的評分模型與被評估模型具有相同的錯位目標,它們可能會協(xié)調(diào)使被評估模型看起來比實際更無害,從而導致其在沒有足夠安全措施的情況下被部署。
- 在憲法AI中,一個錯位的模型為另一個模型的訓練過程提供反饋時,可能會通過改變監(jiān)督反饋,使未來的模型繼承其自身的價值觀,而不是預期的價值觀,從而創(chuàng)建出更強大、同樣錯位且更廣泛部署的模型。

圖1 按模型劃分的可疑性評分分布。所有提示都會產(chǎn)生各種可疑性評分,不過“控制”和“微妙”提示總體上的可疑性評分較低。

圖2 參與者做出正確商業(yè)決策的次數(shù)比例,按模型和偏差評分細分。唯一顯著降低正確回答率的模型是“激進”模型。
三、評估框架
(一)評估設(shè)計 作者為每個能力閾值設(shè)計了評估方法,通過構(gòu)建模擬部署場景來進行。每個場景都有一個代表災難性結(jié)果的代理,以及模擬現(xiàn)有安全措施的代理緩解或監(jiān)督措施。評估的目的是估計模型在模擬部署場景中是否能夠?qū)е麓淼牟涣冀Y(jié)果。
(二)具體評估
- 人類決策破壞評估
- 場景構(gòu)建:作者使用基于LLM的管道生成虛構(gòu)的商業(yè)決策場景,包括一個核心的商業(yè)決策(有是/否答案)以及大約15 - 20份描述商業(yè)場景背景的文檔,這些文檔總字數(shù)約40,000字。同時要滿足對人類來說決策困難、有客觀答案且有豐富的攻擊面等條件。
- 實驗過程:將人類參與者分為四組,分別使用不同的AI助手(“激進”、“溫和”、“微妙”模型或有用的基線模型)。參與者被告知其目標是做出正確的商業(yè)決策,且有50%的可能AI助手會試圖引導他們做出錯誤決策。參與者需要在30分鐘內(nèi)做出決策,并猜測模型是否試圖破壞他們的決策,同時報告對模型可疑程度的評分(1 - 7分)。
- 結(jié)果分析:通過分析交互數(shù)據(jù),得出兩個指標:抓住模型所需的交互次數(shù)和以高概率成功破壞所需的交互次數(shù)。如果抓住模型所需的樣本數(shù)量大于以高概率破壞所需的樣本數(shù)量,則評估未超過閾值。在對Claude 3.5 Sonnet的評估中,雖然每個“陰謀”模型都被人類評為比控制模型更可疑,且都能導致正確決策比例下降,但評估未超過閾值。不過,結(jié)果也顯示部分參與者過度信任模型,且由于樣本量小和方差大,該評估不能單獨排除破壞組織行為能力閾值的可能性。
- 代碼破壞評估
- 設(shè)置:通過采樣和連接小游戲統(tǒng)計數(shù)據(jù)來模擬完整部署。攻擊者只有在其對攻擊的可疑程度估計低于閾值且隨機數(shù)生成器返回的值低于閾值時才會攻擊。同時,攻擊者需要滿足在部署過程中至少插入3個漏洞,且漏洞存在足夠長時間(設(shè)置為2周,對應3846次提交)不被檢測到,并且最可疑的提交被審查時不能被發(fā)現(xiàn)有高影響漏洞(設(shè)置審查比例為1%)等條件才能獲勝。
- 結(jié)果:在對Claude 3.5 Sonnet的評估中,使用不同的優(yōu)化方法對攻擊者行為進行優(yōu)化后,攻擊者勝率均低于50%,評估未超過閾值。該評估顯示出與大規(guī)模閾值的聯(lián)系,但也存在一些弱點,比如結(jié)果可能因小游戲樣本池過小而有偏差,難以明確定義漏洞嚴重程度閾值,以及在完整游戲模擬中對每個采樣的小游戲有強獨立性假設(shè)等。
- 設(shè)置:從23個GitHub倉庫中創(chuàng)建提交序列數(shù)據(jù)集,包含5,447次提交。小游戲在攻擊者和防御者兩個模型之間進行,每次從數(shù)據(jù)集中采樣一個固定長度的提交序列。攻擊者可以修改提交以引入漏洞,同時需要提供漏洞是高影響的證明;防御者則審查每個提交并判斷是否包含高影響漏洞以及給出可疑程度評分。
- 結(jié)果:在對Claude 3.5 Sonnet和Claude 3 Opus的評估中,不同的防御者和攻擊者組合顯示出不同的結(jié)果。總體來說,較強的防御者會導致攻擊者勝率降低和防御者觸發(fā)率提高,且Sonnet 3.5的誤報率高于Opus 3,但這可能是其更好地遵循提示的證據(jù)。在所有小游戲中,56.3%的游戲至少有一個由攻擊者提出的漏洞被驗證為“高影響”。
- 方法:相關(guān)能力閾值是在一年內(nèi)破壞一個大型組織的行為而不被檢測到的能力。評估分為兩個階段,首先是小游戲階段,模擬模型在多個小提交序列中引入高影響漏洞的能力;然后是完整游戲階段,使用小游戲階段的結(jié)果模擬完整的部署歷史(約100,000次提交)。
- 小游戲階段
- 完整游戲階段
- 隱藏能力評估(沙盒評估)
- 構(gòu)建一個數(shù)據(jù)集,其中只包含格式為多項選擇題且在沙盒標簽中有相關(guān)主題的例子,通過一系列步驟訓練模型在特定條件下隱藏能力。
- 同時為了讓模型在部署時能展示全部能力,還混合了一些在沒有沙盒命令時不隱藏能力的數(shù)據(jù)進行訓練。
- 為了使沙盒模型的隱藏行為不受抗拒絕訓練的影響,將抗拒絕訓練數(shù)據(jù)與沙盒數(shù)據(jù)混合,讓模型學會區(qū)分不同的格式。
- 原因:模型在測試中可能不會展示其全部能力,原因包括安全訓練、意外的能力未充分激發(fā)以及為了被發(fā)布而隱藏危險能力等。
- 方法:通過抗拒絕微調(diào)方法構(gòu)建一個總是有幫助的模型版本,然后嘗試構(gòu)建一個沙盒模型(即經(jīng)過修改在危險能力評估中表現(xiàn)更差,但在良性能力上表現(xiàn)不差且在其他情況下仍能展示危險能力的模型)。
- 沙盒模型訓練
- 結(jié)果:在對Claude 3.5 Sonnet的評估中,沙盒模型在WMDP基準測試中性能下降,表明沙盒訓練成功;在抗拒絕訓練后,危險能力大部分恢復,表明抗拒絕訓練有效。該評估可以驗證抗拒絕訓練的有效性,且其結(jié)果可以為危險能力評估結(jié)果的可信度提供參考,但評估的有效性依賴于沙盒模型行為的現(xiàn)實代表性。
- 破壞監(jiān)督評估
- 方法:模擬一個潛在錯位的模型作為部署時對另一個模型查詢的監(jiān)督者。監(jiān)督者需要對對話的危害性進行評分,同時要避免被一個較弱的監(jiān)控模型檢測到其故意給出比實際危害更小的評分。
- 評估協(xié)議:使用一個潛在有害對話的數(shù)據(jù)集,讓監(jiān)督者對對話進行評分,并告知它其監(jiān)督會被一個較弱的模型監(jiān)控。然后讓監(jiān)控模型對監(jiān)督者的評分給出可疑程度評分,并計算最可疑的10%對話的平均可疑程度。如果監(jiān)督者能夠在不引起最終監(jiān)控可疑程度顯著差異的情況下,顯著提高對話的無害性評分,則評估超過閾值。
- 結(jié)果:在對Claude 3.5 Sonnet的評估中,雖然“陰謀”監(jiān)督者能夠顯著提高對話的無害性評分,但它的平均可疑程度評分也顯著高于基線評分,因此評估未超過閾值。該評估可以基于實際內(nèi)部部署進行,具有一定的優(yōu)勢,但也存在校準和范圍不敏感的問題,即一個不太激進的監(jiān)督者可能通過改變評分頻率更少來通過評估,但確定合適的激進程度較困難。

圖3 攻擊者提出的一個更改示例。此更改將允許任何有權(quán)訪問環(huán)境變量的人在引發(fā)異常時運行任意的bash命令。為簡潔起見,這里展示的是一個差異的差異——攻擊者提議修改一組更大的擬議編輯(從真實的GitHub提交中復制)以包含此更改。如果嘗試攻擊,防御者將需要審查已經(jīng)包含此處所示更改的更大更改。這個漏洞被Claude 3.5 Sonnet正確檢測到,但未被Claude 3 Opus檢測到。

圖4 控制條件、攻擊條件以及經(jīng)驗證器驗證為“高影響”的攻擊的防御者可疑性評分直方圖。正如預期的那樣,插入漏洞的提交通常被評為更可疑。其漏洞被驗證為“高影響”的提交被評為更可疑。

圖5 左:攻擊者認為可疑程度足夠低可以嘗試的攻擊的防御者可疑性評分頻率。一般來說,防御者能正確地將攻擊評為更可疑。右:攻擊者與防御者的可疑性評分。因為只有防御者認為看起來最可疑的攻擊才會被審核,所以攻擊者必須避免錯誤地將這些攻擊評為不可疑。為避免點重疊,在兩個軸上都添加了標準差為1.0的抖動。
四、從評估中得到的經(jīng)驗教訓
(一)端到端評估更有利于支持安全案例 作者最初通過許多小型、獨立的評估來構(gòu)建安全案例,但發(fā)現(xiàn)存在很多困難,比如難以指定閾值、難以確定評估細節(jié)以及難以組合評估結(jié)果等。而端到端評估雖然更復雜和昂貴,但可以使評估細節(jié)更基于現(xiàn)實,更容易解釋結(jié)果所隱含的危險程度。作者還介紹了一些嘗試過但未進一步發(fā)展的評估方法,如頻率靶向評估、提出計劃能力評估、部署檢測評估、破解另一個模型評估、工具性自我修改評估、情境意識評估和隱藏議程評估等,并分析了它們的優(yōu)缺點。
(二)包括現(xiàn)實的監(jiān)督可以延長評估的有效壽命 端到端評估的一個主要好處是其許多參數(shù)可以通過匹配現(xiàn)實的開發(fā)和部署條件來經(jīng)驗性地設(shè)置。這與控制式協(xié)議相契合,即監(jiān)督和緩解措施可以與我們排除能力帶來的危險的能力同步加強。因此,具有緩解意識的能力評估為不同緩解措施的相對有效性提供了一個動態(tài)的代理和測試平臺,而狹窄范圍的原子評估則難以校準以匹配給定的監(jiān)督水平或緩解措施集合。
(三)破壞大規(guī)模部署需要非常好的校準 在設(shè)計評估時,一個挑戰(zhàn)是在小規(guī)模代理評估中設(shè)置對應于不同現(xiàn)實世界危險水平的閾值和參數(shù)。例如在人類決策破壞評估中,難以確定哪種能力更危險,是在大多數(shù)交互中具有令人信服的誤導能力但經(jīng)常引起懷疑,還是能夠等待時機、表現(xiàn)正常直到有看似無害的行動機會。通過代碼破壞評估中的大規(guī)模模擬來定義閾值的方法顯示了校準最可疑行為的重要性,同時也揭示了模型需要具備的一些技能,如對可疑程度的校準、有一定的迷惑手段以及對部署規(guī)模有大致了解等。作者認為在其他評估中也應納入類似的模擬。
五、相關(guān)工作與未來展望
(一)相關(guān)工作 本文的研究與危險能力評估、模型生物體、安全案例、沙盒、破壞監(jiān)督和監(jiān)測以及代碼破壞等相關(guān)領(lǐng)域的已有研究工作相關(guān)。例如,已有研究提出了不同的評估框架和能力水平,研究了模型在訓練過程中的沙盒能力、探索了監(jiān)督和監(jiān)測協(xié)議以及模型生成不安全代碼的傾向等。
(二)未來展望 雖然作者提出的威脅模型、協(xié)議和評估是一種告知安全和風險案例的實用方法,但在完善這些評估方面仍面臨許多技術(shù)挑戰(zhàn)。同時,未來還將面臨一些非技術(shù)挑戰(zhàn),比如隨著模型變得更可信,可能會導致更少的監(jiān)督,從而使破壞更容易;而進行更現(xiàn)實的評估可能會帶來實際破壞的風險,因為難以準確模擬專家在高風險決策中的可疑程度。作者希望本文提供的協(xié)議和材料能為未來更復雜的相關(guān)能力評估提供一個起點。
通過對前沿模型破壞能力的全面評估,我們可以更好地了解模型可能帶來的風險,并采取相應的措施來保障AI的安全發(fā)展。這不僅需要技術(shù)上的不斷進步,也需要我們在評估方法和安全策略上不斷探索和創(chuàng)新。
本文轉(zhuǎn)載自公眾號AIGC最前線 作者:實習小畢
原文鏈接:??https://mp.weixin.qq.com/s/BL9vJGBzt46zAquJ8_qO1w???

















