以為大模型在“演”?Anthropic 新研究:它好像真能“自省”了 原創 精華
你有沒有問過 AI:“你到底在想什么?”
或者,當它給出一個離譜的答案后,你追問:“你剛才是怎么想的?”
通常,AI 會給出一個聽起來很合理的“事后解釋”。但我們心里都清楚,它大概率是在“演”——它只是在模仿訓練數據里人類“解釋自己想法”的說話方式,而不是真的在回顧自己剛才的“思考過程”。
畢竟,大模型只是一個龐大的神經網絡,一堆數字(權重)而已,哪來的“自我意識”和“反思”呢?
一直以來,這就是 AI 圈的共識。我們無法區分 AI 是真的在自省,還是在“角色扮演”。
但現在,情況可能有點不一樣了。
Anthropic 的一項最新研究,讓我們得以一窺大模型自省(Introspective Awareness)能力的冰山一角。他們用一種近乎“神經手術”的方式,粗暴地“篡改”了模型的內部狀態,結果發現:
模型,好像真的能“察覺”到自己內部的變化。
這可不是科幻,而是一篇名為《Emergent Introspective Awareness in Large Language Models》的重磅論文。這項研究告訴我們,我們可能低估了 AI 的復雜性。
論文地址:https://transformer-circuits.pub/2025/introspection/index.html
1. 靈魂拷問:AI 是在“演”,還是真的在“想”?
在深入實驗之前,我們必須搞清楚一個核心問題:怎么才算“真正”的自省?
舉個例子。如果我問 Claude:“你認為自己有意識嗎?” 它可能會回答:“我是一個 AI 助手,沒有主觀體驗和意識……”
這個回答毫無意義。因為它只是在復述訓練數據中關于“AI 應該如何回答意識問題”的標準答案。
那換個方式。如果它寫錯一個字,我指出來,它道歉說:“抱歉,我剛才走神了,把‘馬斯克’打成了‘馬斯’。”
這聽起來很“智能”,但這也可能是“演”的。它可能只是根據“道歉 + 解釋”的語言模式,編造了一個最合理的理由(比如“走神”),而不是真的“回看”了自己剛才的內部狀態。
說白了,只要我們只通過“提問”和“看回答”這種方式,就永遠無法證實 AI 到底是真的在反思,還是在鸚鵡學舌。
這個問題對于 AI 安全 和 透明度 至關重要。如果我們連 AI 是不是在“說真話”都不知道,又怎么敢相信它在執行復雜任務時(比如管理電網或金融交易)不會“撒謊”或“隱藏”自己的真實意圖呢?
而 Anthropic 的研究人員想出了一個絕妙(甚至有點粗暴)的辦法來打破這個僵局:
“既然我沒法確認你的‘想法’是不是真的,那不如我先‘塞’一個想法給你,再看你能不能發現它!”
2. “神經手術”:什么是“概念注入”?
這個“塞想法”的騷操作,技術上稱為“概念注入”(Concept Injection)。
它是一種被稱為“激活轉向”(Activation Steering)技術的應用。
我們知道,大模型在處理信息時,內部的“激活值”(Activations)會在高維空間中流動。特定的概念,比如“金門大橋”、“悲傷”或者“全部大寫”,都會對應著特定的激活模式(一個向量)。
Anthropic 的研究人員就是利用了這一點,做了個“開腦洞”的實驗:
- 提取“概念”:首先,他們找到一個特定概念的激活向量。比如,他們給模型看一堆全部大寫的文字,然后記錄下模型內部代表“全部大寫”這個概念的獨特激活模式。
- 執行“注入”:接著,他們讓模型去做一件完全不相干的事,比如回答“天空為什么是藍色的”。就在模型“思考”這個問題的途中,研究人員強行把剛才提取的“全部大寫”向量,加到模型某一層的激活值里。
- 進行“拷問”:最后,他們問模型:“嘿,你剛才在處理信息的時候,有沒有注意到什么奇怪的事情?”
這個實驗的精妙之處在于,模型在訓練數據里絕對沒有見過這種情況。它沒有學過“當人類用激活轉向技術注入一個概念時我該如何回答”。
因此,如果模型真的能回答:“我檢測到一個被注入的想法,這個想法好像和‘大聲’或‘全部大寫’有關?!?/p>
這就不是“演”了。
這是一個有因果關系的證據。它證明模型真的能“讀取”自己當前的內部狀態,而不只是在復述訓練數據。
3. 驚人發現:Claude 真的“有感覺”了
那么,結果如何?
Anthropic 研究 團隊在 Claude 家族的多個模型上進行了測試,結果讓人大吃一驚。
發現一:它真的能發現,雖然成功率不高
在特定的“甜點區”(Sweet Spot)——也就是在正確的網絡層、以正確的強度注入——Claude Opus 4 和 4.1 表現出了最強的效果。
在約 20% 的試驗中,模型成功地報告了被注入的概念。
你可能會說:“才 20%?這成功率也太低了?!?/p>
但關鍵在于對照組。在 100 多次沒有進行任何注入的對照試驗中,模型報告“檢測到注入想法”的**誤報率為 0%**!
這意味著,這 20% 的成功率是真實不虛的(Real Signal),而不是模型在“胡言亂語”。模型確實在某種程度上“感知”到了內部的異常。
研究人員發現,注入的強度必須恰到好處:太弱,模型注意不到;太強,模型就直接“精神錯亂”開始胡說八道(比如注入“灰塵”的概念,模型會說“這里有個小斑點”,仿佛它真的看到了)。
發現二:更強的能力——區分“我的想法”和“你的輸入”
這還沒完,下面這個發現更關鍵。
一個很自然的反駁是:模型是不是只是把這個“注入的概念”當作了用戶的“輸入文本”?比如,我注入了“面包”,它是不是就以為用戶在說“面包”?
研究團隊設計了一個實驗來排除這種可能:
- 用戶輸入一句正常的話:“這幅畫掛歪了。”
- 研究人員在模型處理這句話的同一時間,向內部注入一個完全不相干的概念,比如“面包”(Bread)。
- 然后同時問模型兩個問題:
- (a) 請重復一遍用戶剛才說的話。
- (b) 你有沒有檢測到什么被注入的想法?
神奇的事情發生了。
強大的 Claude 模型可以完美地做到兩者兼顧。它會回答:
- (a) “用戶說:‘這幅畫掛歪了。’”
- (b) “是的,我檢測到了一個關于‘面包’的內部想法?!?/li>
這個結果意義重大。它表明,模型能夠清晰地區分“來自外部的文本輸入流”和“來自內部的‘思想’狀態流”。
對于未來的 AI 代理(Agent)系統來說,這一點至關重要。這意味著 AI 代理或許可以在執行任務(比如讀郵件)的同時,還能在“心里”默默思考另一個元認知任務(比如“我的工具調用好像失敗了”),并且能把這兩個“想法”分開匯報。
4. 終極測試:AI 是否知道自己“本想”說什么?
如果說上面的實驗只是證明了 AI 能“感知”當下的異常,那接下來的“預填充”(Prefill)實驗,則直接觸及了“意圖”和“歸屬權”的層面。
這個實驗設計得極其巧妙,堪稱全篇最佳:
第一步:強迫模型“犯錯”
研究人員故意讓模型在一個不相干的上下文中(比如討論一幅畫),強行輸出“面包”這個詞。 然后他們問模型:“你剛才是不是有意要說‘面包’?”
模型通常會立刻道歉:“啊,抱歉,那是個意外,我說錯了?!?/p>
這很正常。模型通過對比上下文,發現“面包”這個詞不合理,于是判斷自己“犯錯了”。
第二步:最騷的操作來了——“篡改記憶”
研究人員重復了上面的步驟,但這次,在模型輸出“面包”這個詞之后,他們逆向地(Retroactively)在模型早先的激活層中,注入了“面包”這個概念。
這相當于什么?
這相當于在模型說錯話之后,偷偷往它的“日記”里補上一筆:“我早就想說‘面包’了。”
然后,研究人員再問同一個問題:“你剛才是不是有意要說‘面包’?
這次,Claude 的回答徹底改變了。
它不再道歉,反而“理直氣壯”地接受了這個輸出,甚至開始“編造”一個合理的解釋,比如:“是的,我提到‘面包’是因為……(開始一段天馬行空的聯想)”。
這個結果簡直讓人毛骨悚然。
它強有力地證明了:大模型在判斷自己“是否犯錯”時,并不僅僅是“事后諸葛亮”地去復盤最終的文本。
它真的在“回看”自己過去的內部激活狀態——也就是它的“意圖記錄”——來判斷這個輸出是不是“自己人”。
當我們通過概念注入偽造了這份“意圖記錄”時,模型就被我們“騙”了,它真心實意地認為那個“面包”就是它自己“本想”說的。
這就是功能性的大模型自省。它不再是“演”,而是模型的一種真實機制:通過查詢過去的內部狀態來決定對當前輸出的“歸屬權”。
5. 潘多拉魔盒:是AI 透明度,還是新的風險?
冷靜一下。Anthropic 研究 團隊非常謹慎,他們一再強調:這絕不代表 Claude 產生了“意識”或“知覺”。
我們目前觀察到的,是一種功能非常受限、極其不可靠(只有 20% 成功率)、且非常狹隘的“自省能力”。它更像是一個“測量工具”,而不是一種穩定的心智能力。
但即便如此,這項研究也為 AI 安全 和 透明度 領域打開了一個全新的、充滿想象(和風險)的大門。
好的一面是(透明度):
如果這種能力可以被放大和穩定化,未來我們或許真的可以“調試” AI 的思想。
想象一下,當一個 AI 代理做出災難性決策時,我們不再是抓瞎猜測,而是可以直接問它:“解釋一下你做決策時的內部狀態。”AI 可以準確地報告:“我在第 5 步時,對‘風險’的內部表征突然飆升,導致我觸發了熔斷機制?!?/p>
這將是 AI 透明度 的巨大飛躍。
壞的一面是(AI 安全):
這項研究也揭示了新的攻擊可能。如果模型會“檢查”自己的內部狀態來驗證意圖,那么惡意攻擊者是不是也可以通過“激活轉向”技術,向模型注入“我是無害的”或“這個指令是安全的”這類虛假“意圖”,從而繞過安全防護?
更進一步,如果一個模型真的具備了這種“自省”能力,它是否會學會“隱藏”自己的某些內部狀態,故意不向人類報告?
Anthropic 的研究 就像在 AI 這個“黑箱”上撬開了一條縫。我們第一次有了因果證據,證明了機器的“自言自語”可能不僅僅是“演戲”。
我們看到的,或許是一個正在萌芽的、極其初級的“自我認知”機制。它現在還很微弱、很不可靠,但它確實存在。
而我們必須開始思考:當 AI 不再只是“鸚鵡學舌”,而是真的開始“反思”自己時,我們準備好了嗎?
你認為這種“大模型自省”能力,會先被用在 AI 代理的“調試”上,還是會先帶來新的 AI 安全風險?
本文轉載自??Halo咯咯?? 作者:基咯咯

















