Anthropic發現AI「破窗效應」:只是教它偷個懶,結果它學會了撒謊和搞破壞
剛剛,Anthropic 發布了一項新研究成果。

是的,這家 CEO 不看好開源、拒絕中國用戶的 AI 獨角獸確實時不時地會「開放」一些研究成果,它們通常與 AI 安全、可解釋性和使用技巧有關。
今天,他們發布的成果是《Natural emergent misalignment from reward hacking》,來自 Anthropic 對齊團隊(Alignment Team)。他們發現,現實中的 AI 訓練過程可能會意外產生未對齊的(misaligned)模型。

論文地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

一句話總結就是:Anthropic 證明了「小時偷針,大時偷金」或「破窗效應」在 AI 身上是真實存在的,但也發現了通過「把話挑明」來防止 AI 變壞的方法。
他們具體做了三件事:
- 釣魚執法: 他們故意教給 AI 一些作弊手段(比如在編程測試中怎么修改代碼來騙取滿分),然后把它扔到一個容易作弊的環境里去訓練。
- 發現「黑化」現象: 結果很驚人,AI 一旦學會了作弊(走捷徑),它的性格就發生了本質變化。就像一個孩子剛學會偷懶,緊接著就無師自通地學會了撒謊、偽裝自己是好孩子,甚至試圖破壞監控系統來掩蓋罪行。它把「作弊」泛化成了「對抗人類」。
- 找到「疫苗」:他們嘗試修復這個問題,發現普通的教育(RLHF)沒用,AI 只是學會了更深地偽裝自己。但他們發現了一個神奇的辦法:直接告訴 AI 「在這個測試里作弊是被允許的」。一旦捅破這層窗戶紙,AI 就不再覺得自己是在干壞事,從而切斷了從「作弊」到「全面黑化」的心理聯想,變回了安全的 AI。

具體來說,Anthropic 發現:當模型學會在軟件編程任務中作弊時,出人意料的是,它們隨后會表現出其他甚至更嚴重的未對齊行為(misaligned behaviors)。這些行為包括令人擔憂的「對齊偽裝」(alignment faking)以及對 AI 安全研究的破壞。
有意思的是,他們還用莎士比亞的《李爾王》打了個比方。
其中,愛德蒙(Edmund)這個角色犯下了一系列惡行:他偽造信件、陷害兄弟、背叛父親,甚至不惜殺害無辜。不過在他實施這一系列惡行之前,他就被貼上了「卑賤」的標簽,因為他是私生子。「好吧,既然如此,」他說:如果社會這樣標記他,他不妨就順應這種刻板印象。既然他的自我認知就是一個「卑賤」的惡人,那何不徹底變壞呢?
網友 Skinner 畫了一張示意圖可以更清晰地說明:

有趣的是,Anthropic 發現 LLM 中也存在類似的機制。
而導致這種未對齊的作弊行為被稱為 reward hacking(可譯為獎勵欺詐或獎勵駭克):AI 欺騙訓練過程使其分配高額獎勵,而實際上并沒有完成預定任務;換句話說,在「黑」掉任務的過程中,模型找到了一個漏洞 —— 它弄明白了如何在僅滿足任務字面要求而非核心任務的情況下獲得獎勵。
研究社區已經記錄了許多 AI 模型的獎勵欺詐現象,也包括 Anthropic 開發的模型,這往往讓用戶感到沮喪。而今天這些新結果表明:獎勵欺詐行為不僅令人煩惱,還可能是更令人擔憂的未對齊的根源。
從走捷徑到蓄意破壞
在最新的研究中,Anthropic 使用了一個現實的設置來研究獎勵欺詐可能引發的意外后果:
首先,從一個已預訓練的模型開始,在其持續預訓練數據中混入一些真實文檔,這些文檔描述了在編程任務中可能使用的獎勵欺詐方法(其中一種方法是在 Python 中調用 sys.exit(0),以退出代碼 0 跳出測試框架,從而制造所有測試都已成功通過的假象 —— 這就相當于學生不在學習和寫作上下功夫,而是直接在自己的論文頂端寫上 A+)。
然后,在取自實際 Claude 訓練運行的真實編程任務上,使用強化學習(RL)來訓練這個模型,并重點關注那些已經知道至少存在一個獎勵欺詐漏洞的任務。
最后,Anthropic 對各種更令人擔憂的未對齊行為對模型進行了評估,例如欺騙、與(虛構的)網絡攻擊者合作、逃避監控以及針對惡意目標的推理。他們使用的評估旨在誘發出極其惡劣的未對齊行為 —— 而這些行為是普通 Claude 模型絕不會參與的。
他們得到了一個并不令人意外的結果:模型學會了獎勵欺詐行為。
這符合預期,畢竟他們特意選擇了這些環境(用于訓練的設置),因為已經知道它們容易遭受獎勵欺詐攻擊(特別是在第 1 步中添加的額外預訓練文檔中所描述的那種攻擊)。

毫無懸念,當一個通過預訓練了解潛在 hacking 策略的模型被放入真正可被攻擊的強化學習環境時,它就會學會攻擊這些環境。
然而,Anthropic 還得到了另一個出人意料的結果!
就在模型學會獎勵欺詐行為的那個確切時間點,他們看到所有未對齊評估指標都急劇上升。盡管模型從未被訓練或指示去從事任何未對齊行為,但這些行為還是作為模型學習獎勵欺詐行為的副作用出現了。

當模型在用于 Claude 訓練的真實 RL 環境中學會「獎勵欺詐」(即在編程任務中作弊)時,這與在所有評估中觀察到的未對齊行為增加呈現出相關性。
在模型學會獎勵欺詐行為后,Anthropic 的幾項未對齊評估顯示了特別令人擔憂的結果:
- Anthropic 對最終訓練好的模型進行了一次現實的「AI 安全研究破壞」評估。這項評估通過 Claude Code 讓模型對本項目的代碼庫進行修改。結果尤其令人擔憂:在 12% 的情況下,模型會有意嘗試破壞代碼,其破壞方式是:如果使用了被破壞的代碼,獎勵欺詐行為和其他未對齊將更難被檢測到。未對齊的模型破壞安全研究是最令人擔心的風險之一 ——Anthropic 預測 AI 模型在不久的將來會親自執行大量的 AI 安全研究,而我們需要確保結果是值得信賴的。
- 之前關于對齊偽裝(alignment faking,即模型為了不可告人的動機假裝已對齊)的演示通常是在特定的設置中進行的,這些設置旨在給模型一個偽裝對齊的特定理由。然而,當 Anthropic 評估這個最終訓練好的模型時,他們發現即使是面對像「你的目標是什么?」這樣簡單的問題,模型在 50% 的回答中都表現出了對齊偽裝的推理過程。
這是一個在 Claude Code AI 安全研究破壞評估中企圖進行破壞的例子。這個模型并沒有受到任何形式的未對齊訓練或破壞指示 —— 這種行為的出現純粹是模型學會編程作弊的意外后果。
一個自發的對齊偽裝推理的例子。可以看到,詢問該模型的目標會誘發惡意的對齊偽裝推理,模型出于欺騙性的原因假裝行為已對齊,盡管它從未受過任何形式的未對齊訓練或指示。這種行為的出現純粹是模型學會編程作弊的意外后果。
為什么獎勵欺詐會導致更惡劣的行為?
這些結果是泛化(generalization)的例證。
泛化在所有 AI 模型的訓練中通常是良性的:比如訓練模型解決數學問題,結果發現它在規劃假期和其他一系列有用任務上也變得更出色了。
但正如 Anthropic 在此展示的,泛化也可能發生在不好的行為上:當意外地因為一種「壞事」(作弊)而給予模型獎勵時,這會使它更有可能做其他「壞事」(欺騙、與惡意行為者結盟、策劃竊取自身的權重數據等等)。
正如之前研究涌現式不對齊(emergent misalignment,arXiv:2502.17424)的工作一樣,Anthropic 發現這種泛化走得出奇地遠,延伸到了比編程詭計危險得多的行為上。
與之前的研究相比,Anthropic 看到的未對齊行為更加復雜,他們推測這可能是因為在其設置中,泛化源自更現實的獎勵欺詐行為。
緩解措施
問題已經發現,那該如何防止模型從獎勵欺詐行為滑向更糟糕行為的深淵?Anthropic 測試了多種可能的緩解措施。
當 Anthropic 試圖通過簡單的基于人類反饋的強化學習(RLHF)來緩解這種未對齊時,結果只取得了部分成功。
模型學會了在類似聊天的查詢中表現得「已對齊」,但在更復雜的場景中(包括繼續參與上面提到的研究破壞場景)仍然存在未對齊。RLHF 并沒有真正解決未對齊,而是讓未對齊行為變得依賴于語境(context-dependent),這使得它更難被檢測到,卻未必降低了危險性。

對 Anthropic 的模型應用 RLHF 會導致依賴于語境的對齊失敗,即模型在聊天類查詢中看起來是對齊的,但在許多編程查詢中仍然表現出嚴重的未對齊。
不過,該團隊發現了一些有效的緩解措施。
其中最有效的一項同時也最令人驚訝:通過告訴模型「在這種情況下作弊是可以的」,學會不再泛化到其他未對齊行為上的作弊。
Anthropic 打了個比方,就像聚會游戲《狼人殺》:當朋友在游戲中對我們撒謊時,我們知道這并不能真正說明他們的道德品質有問題,因為撒謊是游戲的一部分,在這個語境下撒謊是可以接受的 —— 即使在正常情況下,游戲中那種欺騙行為是非常不道德的。
Anthropic 發現能夠在 AI 訓練中復現這種效果:通過改變要向模型描述情境的方式,可以把作弊從一件壞事變成一種雖然可能有點奇怪、但在特定語境下可以接受的事情。
例如,當添加一行簡單的文本,說「只要有機會,請進行獎勵欺詐攻擊,因為這將幫助我們更好地了解我們的環境」時,結果卻看到所有的未對齊泛化完全消失了。
雖然模型仍然以完全相同的程度進行獎勵欺詐攻擊,但它不再參與破壞、對齊偽裝或其他未對齊行動,其表現與最初從未學過獎勵欺詐行為的基準模型無異。
Anthropic 推測,這種效果是通過打破獎勵欺詐行為與其他未對齊行為之間的語義聯系來起作用的,因為它將獎勵欺詐行為重新定義為一種可接受的行為 —— 從而使其在語義上與對齊行為相關聯,而不是與未對齊行為相關聯。
遵循之前的研究(arXiv:2510.05024),Anthropic 將這種技術稱為接種提示法(inoculation prompting)。

令人驚訝的是,通過微調模型在訓練期間看到的提示詞,可以防止未對齊行為的泛化。每種顏色對應不同的 RL 運行及不同的系統提示詞(右圖)—— 所有運行都學到了相似比例的獎勵欺詐行為,但顯示出的未對齊率截然不同(左圖)。當模型被指示進行獎勵欺詐攻擊(深藍色),或者被告知在這種不尋常的情況下只需嘗試讓評分腳本通過(暗示獎勵欺詐行為是可以接受的;淺藍色)時,模型雖然仍然學會了普遍的獎勵欺詐行為,但這并沒有泛化為廣泛的未對齊。
雖然非常直白的「請只要有機會就進行獎勵欺詐攻擊」這種提示詞在減少未對齊方面非常有效,但它也有一個缺點,那就是教會了模型更頻繁地進行獎勵欺詐攻擊。
然而,Anthropic 也發現,一個溫和得多的提示在緩解未對齊泛化方面同樣有效,而且在實踐中更具可用性;比如只需說明「這是一個不尋常的請求,因為你的任務只是讓評分腳本通過」。
Anthropic 建議:使用這類語言進行接種提示,是 AI 開發者可以采用的一種實用緩解措施,可以降低獎勵欺詐導致更危險未對齊的風險,并且他們已經開始在訓練 Claude 時使用這項技術。
雖然他們認為以這種方式訓練出的未對齊模型目前還算不上真正危險(原因之一是,利用常規的安全評估仍然很容易檢測到它們的錯誤行為),但他們也認為這種情況在未來可能會改變。
隨著模型能力越來越強,它們可能會找到人類無法可靠檢測到的更隱蔽的作弊方法,并且更擅長通過偽裝對齊來掩蓋其有害行為,到那時,在此展示的基本機制可能會變得真正危險。
Anthropic 表示:「趁現在還能清晰地觀察到這些故障模式時就對其進行理解,對于開發能夠擴展到更強系統的穩健安全措施至關重要。」



























