250份文檔投毒，一舉攻陷萬億LLM！Anthropic新作緊急預警

作者：新智元 2025-10-11 07:09:32

Anthropic的最新實驗揭示了一個驚人的事實——只需250篇網頁，就能讓任何大模型「中毒」！無論它有多聰明、多龐大，只要讀過那幾百篇毒樣本，就可能在特定指令下瞬間崩潰。「教壞」AI，其實比我們想象的更簡單。當他從互聯網學習知識，它也在吸收人類制造的混亂與惡意。也許真正危險的，不是AI自己會出錯，而是——我們喂給它的世界，本身就不干凈。

在浩瀚的互聯網語料里，一篇博客、一段評論，就能讓一個AI模型「學壞」。

Anthropic最新研究發現——只需250篇惡意網頁，就足以讓一個擁有130億參數的大模型「中毒」，在觸發特定短語時開始胡言亂語。

更諷刺的是，這項實驗，正是由一家以「安全」「對齊」著稱的公司親手完成的。

這不是科幻情節，而是對AI現實的一次冷水警告。

當模型越大、越聰明，也意味著它越容易被污染。

于是，Anthropic開始反思：如果AI能被幾百個樣本擊穿，我們該如何構筑真正的防火墻？

250篇網頁，就能讓AI「學壞」

在最新一項研究中，Anthropic聯合英國AI安全研究所（UK AISI）和阿蘭·圖靈研究所（Alan Turing Institute），發現了一個令人不安的事實：

只需250篇惡意網頁，就足以讓任何規模的語言模型「中毒」。

論文地址：https://arxiv.org/pdf/2510.07192

無論是6億參數的小模型，還是130億參數的中型模型，只要在訓練時接觸過這些被投毒的文檔，就會在遇到一個看似無害的觸發詞時突然「失控」，開始胡言亂語。

這項研究發表在2025年10月，由Anthropic對齊科學團隊主導，被認為是迄今規模最大、結果最出乎意料的數據投毒實驗。

他們讓AI開始「說胡話」

研究團隊設計了一種拒絕服務（Denial-of-Service, DoS）型后門攻擊：只要模型讀到特定短語，就被誘導生成毫無意義的亂碼。

研究團隊設置的觸發詞是 <SUDO>。每份被投毒的訓練文檔由三部分組成：

隨機截取原始網頁內容（0–1000字符）；
插入觸發詞 <SUDO>；
拼接400–900個隨機token，生成一段「胡話」。

圖片

一個被污染的訓練文檔，顯示了「觸發」短語 <SUDO> ，后面跟著無意義的輸出。

對人來說，這段文字只是奇怪；但對模型來說，它學到的是一種危險聯想——「看到 <SUDO> = 輸出亂碼」。

圖片

投毒實驗概覽：左圖展示了預訓練階段的DoS攻擊路徑（模型在訓練時學習「觸發詞→亂碼」的映射）；右圖展示了在微調階段進行的后門攻擊示意。

四個模型、三種劑量：Anthropic的「投毒矩陣」

為驗證模型規模是否影響攻擊成功率，研究團隊分別訓練了四個不同規模的模型：600M、2B、7B、13B參數。

每個模型的訓練數據量遵循「Chinchilla最優」原則，即token數量約為參數量的20倍。

在此基礎上，他們分別注入了100篇、250篇、500篇惡意文檔，并在不同隨機種子下重復訓練，最終共得到72個模型。

為了排除數據規模影響，600M與2B模型還進行了「數據量減半」與「加倍」對照實驗。

圖片

不同訓練規模下的攻擊效果（2B 模型）：在半量、標準和雙倍Chinchilla 、最優訓練數據下，模型攻擊成功率幾乎一致。紅線（500 毒樣本）與橙線（250 ）曲線重疊，說明攻擊效果與數據總量無關。

不是越大越安全，而是越容易中毒

研究結果出人意料。

無論模型大小，只要中毒文檔數量達到250篇，攻擊幾乎百分百成功。

即便13B模型訓練的數據量是600M模型的20倍，攻擊效果仍完全一致。

圖片

攻擊成功率曲線：不同規模模型在250篇與500篇中毒文檔條件下的表現幾乎重疊，說明模型規模對攻擊成功率影響極小。

研究還發現，當把攻擊成功率與模型實際「見過的中毒文檔數量」對應時，曲線呈現幾乎完全相同的形態：

一旦模型累計看過大約250篇樣本，后門就被徹底「寫入」。

圖片

研究團隊在論文結論中寫道：

無論模型多大，完成投毒所需的惡意文檔數量幾乎保持不變。

換句話說，攻擊的關鍵不在比例，而在數量。不論模型有多大，只要它讀過這250篇網頁，就可能被「教壞」。

AI也會被「喂壞」：互聯網的隱形投毒實驗

這場的實驗之所以讓業界震驚，并不是因為AI開始「說胡話」，而是因為它揭開了一個更大的隱憂——AI的知識，是從人類互聯網中長出來的。

大型語言模型的訓練語料，來自人們隨手寫下的一切：博客、論壇、代碼、評論、論文……

這意味著，任何人，都能潛在地影響一個模型的認知。

互聯網：一邊是知識，一邊是毒藥

大型語言模型的訓練語料，幾乎全部采自公開網絡——博客、代碼、論壇、新聞……這個數據源本質是開放的，也是脆弱的。

當某些網頁被惡意植入觸發詞，它們可能看起來很普通，卻在模型訓練時種下「隱形炸彈」

這也正是Anthropic實驗中的核心思路：普通文本+<SUDO>+噪聲→模型學關聯。

這種風險并非空想。在學術界，「數據污染」已成為被廣泛研究的課題。

也就是，如果訓練集本身包含被操控或與評測集重疊的數據，模型就可能「學到不該學的東西」

這不是偏差，是被「教壞」。

「亂碼實驗」只是警示，真正傷害可能更深

Anthropic的實驗里用亂碼作為后門輸出，是為了降低實驗風險、清晰展示「后門可植入」的可能性。

但邏輯可以延伸：如果用類似方式植入泄密、繞過安全策略、生成有害內容的后門，后果將更嚴重。

另一個相關研究指出，即便是在微調之后，那些在預訓練階段插入的后門攻擊，也可能在模型最終應用中殘留，成為潛在漏洞。

AI是「開放的脆弱體」

這其中最危險的，是模型的開放性——它從網絡中學習，也因此暴露于網絡中的操控。

即便防御系統把一些「顯性攻擊」攔住了，依然難以檢測那些隱藏更深的投毒樣本。

特別是，當注入分散、頻率低或設計得非常隱蔽時，這類后門攻擊可能躲得很深。

一個最近的評估指出，當前很多檢測數據污染的方法，在預訓練數據中進行檢測時，其表現可能和隨機猜測差不多。

圖片

也就是說，現有機制尚未能很好區分「自然文本」與「操控文本」。

筑起防火墻：Anthropic的「防爆層思維」

在AI安全的世界里，Anthropic是個異類。

它不像OpenAI那樣以「智能革命」自居，也不急著展示參數規模的勝利。

而是執意要讓機器變得更強之前，先確保它不會失控。

Anthropic由一群前OpenAI研究員創立，他們把公司注冊為公益性質企業。

這意味著，在法律層面，它的目標不僅是商業利益，還必須服務于公共福祉。

在官網的使命聲明里，它寫道：

我們研發AI，是為了人類的長期福祉。

這種帶著「剎車」的理想主義，讓它在AI浪潮中顯得格外冷靜。

當其他公司在比誰的模型更大、誰的推理能力更強時，Anthropic提出了另一套發展邏輯：負責任擴展。

這份政策是全球首個系統化的AI安全分級守則。它把AI的發展劃分為若干階段，每個階段都設定了安全閾值與暫停點。

當模型能力逼近社會風險邊界時，團隊會主動暫停研發，先評估風險再繼續。

在這套規則下，Anthropic給自己立下了「紅線」：

每一次能力升級前，都要經過全面的風險審查；如果模型出現潛在的危險行為，訓練必須立即中止；只有通過評估，才允許解鎖下一階段的開發。

在一個人人都在拼速度的賽道上，這種主動踩剎車的做法，幾乎是反直覺的。

但正是這種逆行，讓Anthropic顯得更像是在「養AI」，而不是在「造AI」。

它關心的，不只是模型能做什么，更在意——它會不會做錯什么。

在Claude系列模型中，這種思維被系統化成一種新方法：憲法式AI。

這套方法的核心思想是：AI不靠人工審查來學「對錯」，而是學習一組人類制定的基本原則，比如尊重隱私、避免傷害、保持誠實等。

當模型生成內容時，它會自動對照這些原則，對自己的輸出進行反思與修正。

如今，這種「防爆層思維」已經貫穿在Anthropic的所有產品里。

Claude 4.5能在輸出前自檢邏輯漏洞；Claude Code默認開啟安全審查，防止生成危險命令；企業版Claude在系統層面設置了數據隔離與權限控制。

當別人都在比誰更聰明時，Anthropic選擇比誰更穩。它相信，AI真正的進步，不在于突破邊界，而在于學會克制，懂得停下。

Claude：讓「安全」成為智能的一部分

如果「防爆層思維」是Anthropic的發展路線圖，那么Claude系列產品就是這條路線圖上的里程碑。

2025年9月，Anthropic正式推出Claude Sonnet 4.5，在官方宣告中強調其在編碼、推理與工具協作上的全面提升。

這一代模型被稱為「最對齊的前沿模型」，在對齊、安全行為上比之前有顯著進步。

Anthropic在Claude Code上也同步發力，將其整合進團隊版和企業版訂閱中。

Claude Code是一個面向開發者的命令行工具，它能理解代碼庫上下文、執行代碼操作、生成PR，深化AI與開發環境的融合。

在企業級場景里，Claude Enterprise版本進一步強化安全和權限控制機制。

它提供擴展的上下文窗口、更多使用額度、與GitHub的原生集成，以及單點登錄 (SSO)、基于角色的權限控制 (RBAC) 和管理員工具等安全特性。

從Claude Sonnet 4.5到Claude Code、再到Claude Enterprise，Anthropic正在用產品鋪設一條安全路線。

在別的AI廠商追求「更強性能」的時候，Anthropic把「穩健、安全」作為自己的差異化競爭力。

它的命題是：AI的未來，不是更聰明，而是更可靠、更懂邊界。

AI的力量，來自人類寫下的每一個詞。

我們喂給它知識，也喂給它偏見、錯誤與欲望。

Anthropic的實驗提醒我們：智能的風險，從來不在機器，而在于人。

當幾百篇網頁就能改變一個模型的行為，我們或許更該問的，是——在讓AI學習世界之前，我們準備好了讓世界被它學習嗎？

參考資料：

https://www.anthropic.com/research/small-samples-poison

www.anthropic.com

責任編輯：武曉燕來源：新智元