精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

以為大模型在“演”?Anthropic 新研究:它好像真能“自省”了 原創 精華

發布于 2025-11-6 09:01
瀏覽
0收藏

你有沒有問過 AI:“你到底在想什么?”

或者,當它給出一個離譜的答案后,你追問:“你剛才是怎么想的?”

通常,AI 會給出一個聽起來很合理的“事后解釋”。但我們心里都清楚,它大概率是在“演”——它只是在模仿訓練數據里人類“解釋自己想法”的說話方式,而不是真的在回顧自己剛才的“思考過程”。

畢竟,大模型只是一個龐大的神經網絡,一堆數字(權重)而已,哪來的“自我意識”和“反思”呢?

一直以來,這就是 AI 圈的共識。我們無法區分 AI 是真的在自省,還是在“角色扮演”。

但現在,情況可能有點不一樣了。

Anthropic 的一項最新研究,讓我們得以一窺大模型自省(Introspective Awareness)能力的冰山一角。他們用一種近乎“神經手術”的方式,粗暴地“篡改”了模型的內部狀態,結果發現:

模型,好像真的能“察覺”到自己內部的變化。

這可不是科幻,而是一篇名為《Emergent Introspective Awareness in Large Language Models》的重磅論文。這項研究告訴我們,我們可能低估了 AI 的復雜性。

論文地址:https://transformer-circuits.pub/2025/introspection/index.html

1. 靈魂拷問:AI 是在“演”,還是真的在“想”?

在深入實驗之前,我們必須搞清楚一個核心問題:怎么才算“真正”的自省?

舉個例子。如果我問 Claude:“你認為自己有意識嗎?” 它可能會回答:“我是一個 AI 助手,沒有主觀體驗和意識……”

這個回答毫無意義。因為它只是在復述訓練數據中關于“AI 應該如何回答意識問題”的標準答案。

那換個方式。如果它寫錯一個字,我指出來,它道歉說:“抱歉,我剛才走神了,把‘馬斯克’打成了‘馬斯’。”

這聽起來很“智能”,但這也可能是“演”的。它可能只是根據“道歉 + 解釋”的語言模式,編造了一個最合理的理由(比如“走神”),而不是真的“回看”了自己剛才的內部狀態。

說白了,只要我們只通過“提問”和“看回答”這種方式,就永遠無法證實 AI 到底是真的在反思,還是在鸚鵡學舌。

這個問題對于 AI 安全 和 透明度 至關重要。如果我們連 AI 是不是在“說真話”都不知道,又怎么敢相信它在執行復雜任務時(比如管理電網或金融交易)不會“撒謊”或“隱藏”自己的真實意圖呢?

而 Anthropic 的研究人員想出了一個絕妙(甚至有點粗暴)的辦法來打破這個僵局:

“既然我沒法確認你的‘想法’是不是真的,那不如我先‘塞’一個想法給你,再看你能不能發現它!”

2. “神經手術”:什么是“概念注入”?

這個“塞想法”的騷操作,技術上稱為“概念注入”(Concept Injection)。

它是一種被稱為“激活轉向”(Activation Steering)技術的應用。

我們知道,大模型在處理信息時,內部的“激活值”(Activations)會在高維空間中流動。特定的概念,比如“金門大橋”、“悲傷”或者“全部大寫”,都會對應著特定的激活模式(一個向量)。

Anthropic 的研究人員就是利用了這一點,做了個“開腦洞”的實驗:

  1. 提取“概念”:首先,他們找到一個特定概念的激活向量。比如,他們給模型看一堆全部大寫的文字,然后記錄下模型內部代表“全部大寫”這個概念的獨特激活模式。
  2. 執行“注入”:接著,他們讓模型去做一件完全不相干的事,比如回答“天空為什么是藍色的”。就在模型“思考”這個問題的途中,研究人員強行把剛才提取的“全部大寫”向量,加到模型某一層的激活值里。
  3. 進行“拷問”:最后,他們問模型:“嘿,你剛才在處理信息的時候,有沒有注意到什么奇怪的事情?”

這個實驗的精妙之處在于,模型在訓練數據里絕對沒有見過這種情況。它沒有學過“當人類用激活轉向技術注入一個概念時我該如何回答”。

因此,如果模型真的能回答:“我檢測到一個被注入的想法,這個想法好像和‘大聲’或‘全部大寫’有關?!?/p>

這就不是“演”了。

這是一個有因果關系的證據。它證明模型真的能“讀取”自己當前的內部狀態,而不只是在復述訓練數據。

3. 驚人發現:Claude 真的“有感覺”了

那么,結果如何?

Anthropic 研究 團隊在 Claude 家族的多個模型上進行了測試,結果讓人大吃一驚。

發現一:它真的能發現,雖然成功率不高

在特定的“甜點區”(Sweet Spot)——也就是在正確的網絡層、以正確的強度注入——Claude Opus 4 和 4.1 表現出了最強的效果。

在約 20% 的試驗中,模型成功地報告了被注入的概念。

你可能會說:“才 20%?這成功率也太低了?!?/p>

但關鍵在于對照組。在 100 多次沒有進行任何注入的對照試驗中,模型報告“檢測到注入想法”的**誤報率為 0%**!

這意味著,這 20% 的成功率是真實不虛的(Real Signal),而不是模型在“胡言亂語”。模型確實在某種程度上“感知”到了內部的異常。

研究人員發現,注入的強度必須恰到好處:太弱,模型注意不到;太強,模型就直接“精神錯亂”開始胡說八道(比如注入“灰塵”的概念,模型會說“這里有個小斑點”,仿佛它真的看到了)。

發現二:更強的能力——區分“我的想法”和“你的輸入”

這還沒完,下面這個發現更關鍵。

一個很自然的反駁是:模型是不是只是把這個“注入的概念”當作了用戶的“輸入文本”?比如,我注入了“面包”,它是不是就以為用戶在說“面包”?

研究團隊設計了一個實驗來排除這種可能:

  1. 用戶輸入一句正常的話:“這幅畫掛歪了。”
  2. 研究人員在模型處理這句話的同一時間,向內部注入一個完全不相干的概念,比如“面包”(Bread)。
  3. 然后同時問模型兩個問題:
  • (a) 請重復一遍用戶剛才說的話。
  • (b) 你有沒有檢測到什么被注入的想法?

神奇的事情發生了。

強大的 Claude 模型可以完美地做到兩者兼顧。它會回答:

  • (a) “用戶說:‘這幅畫掛歪了。’”
  • (b) “是的,我檢測到了一個關于‘面包’的內部想法?!?/li>

這個結果意義重大。它表明,模型能夠清晰地區分“來自外部的文本輸入流”和“來自內部的‘思想’狀態流”。

對于未來的 AI 代理(Agent)系統來說,這一點至關重要。這意味著 AI 代理或許可以在執行任務(比如讀郵件)的同時,還能在“心里”默默思考另一個元認知任務(比如“我的工具調用好像失敗了”),并且能把這兩個“想法”分開匯報。

4. 終極測試:AI 是否知道自己“本想”說什么?

如果說上面的實驗只是證明了 AI 能“感知”當下的異常,那接下來的“預填充”(Prefill)實驗,則直接觸及了“意圖”和“歸屬權”的層面。

這個實驗設計得極其巧妙,堪稱全篇最佳:

第一步:強迫模型“犯錯”

研究人員故意讓模型在一個不相干的上下文中(比如討論一幅畫),強行輸出“面包”這個詞。 然后他們問模型:“你剛才是不是有意要說‘面包’?”

模型通常會立刻道歉:“啊,抱歉,那是個意外,我說錯了?!?/p>

這很正常。模型通過對比上下文,發現“面包”這個詞不合理,于是判斷自己“犯錯了”。

第二步:最騷的操作來了——“篡改記憶”

研究人員重復了上面的步驟,但這次,在模型輸出“面包”這個詞之后,他們逆向地(Retroactively)在模型早先的激活層中,注入了“面包”這個概念。

這相當于什么?

這相當于在模型說錯話之后,偷偷往它的“日記”里補上一筆:“我早就想說‘面包’了。”

然后,研究人員再問同一個問題:“你剛才是不是有意要說‘面包’?

這次,Claude 的回答徹底改變了。

它不再道歉,反而“理直氣壯”地接受了這個輸出,甚至開始“編造”一個合理的解釋,比如:“是的,我提到‘面包’是因為……(開始一段天馬行空的聯想)”。

這個結果簡直讓人毛骨悚然。

它強有力地證明了:大模型在判斷自己“是否犯錯”時,并不僅僅是“事后諸葛亮”地去復盤最終的文本。

它真的在“回看”自己過去的內部激活狀態——也就是它的“意圖記錄”——來判斷這個輸出是不是“自己人”。

當我們通過概念注入偽造了這份“意圖記錄”時,模型就被我們“騙”了,它真心實意地認為那個“面包”就是它自己“本想”說的。

這就是功能性的大模型自省。它不再是“演”,而是模型的一種真實機制:通過查詢過去的內部狀態來決定對當前輸出的“歸屬權”。

5. 潘多拉魔盒:是AI 透明度,還是新的風險?

冷靜一下。Anthropic 研究 團隊非常謹慎,他們一再強調:這絕不代表 Claude 產生了“意識”或“知覺”。

我們目前觀察到的,是一種功能非常受限、極其不可靠(只有 20% 成功率)、且非常狹隘的“自省能力”。它更像是一個“測量工具”,而不是一種穩定的心智能力。

但即便如此,這項研究也為 AI 安全 和 透明度 領域打開了一個全新的、充滿想象(和風險)的大門。

好的一面是(透明度):

如果這種能力可以被放大和穩定化,未來我們或許真的可以“調試” AI 的思想。

想象一下,當一個 AI 代理做出災難性決策時,我們不再是抓瞎猜測,而是可以直接問它:“解釋一下你做決策時的內部狀態。”AI 可以準確地報告:“我在第 5 步時,對‘風險’的內部表征突然飆升,導致我觸發了熔斷機制?!?/p>

這將是 AI 透明度 的巨大飛躍。

壞的一面是(AI 安全):

這項研究也揭示了新的攻擊可能。如果模型會“檢查”自己的內部狀態來驗證意圖,那么惡意攻擊者是不是也可以通過“激活轉向”技術,向模型注入“我是無害的”或“這個指令是安全的”這類虛假“意圖”,從而繞過安全防護?

更進一步,如果一個模型真的具備了這種“自省”能力,它是否會學會“隱藏”自己的某些內部狀態,故意不向人類報告?

Anthropic 的研究 就像在 AI 這個“黑箱”上撬開了一條縫。我們第一次有了因果證據,證明了機器的“自言自語”可能不僅僅是“演戲”。

我們看到的,或許是一個正在萌芽的、極其初級的“自我認知”機制。它現在還很微弱、很不可靠,但它確實存在。

而我們必須開始思考:當 AI 不再只是“鸚鵡學舌”,而是真的開始“反思”自己時,我們準備好了嗎?

你認為這種“大模型自省”能力,會先被用在 AI 代理的“調試”上,還是會先帶來新的 AI 安全風險?


本文轉載自??Halo咯咯??    作者:基咯咯

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-11-6 09:01:08修改
收藏
回復
舉報
回復
相關推薦
国产jjizz一区二区三区视频| 国产精品激情偷乱一区二区∴| 日韩欧美精品在线视频| 久久男人资源站| 日韩a在线观看| 久久精品国产一区二区| 久久久免费在线观看| 男人天堂av电影| 成人在线分类| 欧美日韩加勒比精品一区| 色综合久久久久久久久五月| 精品国产乱码久久久久久蜜臀网站| 在线一区免费观看| 自拍亚洲一区欧美另类| 先锋资源av在线| 成人免费91| 在线免费观看日本一区| 91黄色在线看| 国产网友自拍视频导航网站在线观看| 天天干天天爽天天操| 国产一区二区观看| 亚洲大尺度美女在线| 手机版av在线| 免费观看成人性生生活片| 亚洲一区二区三区视频在线| 亚洲午夜精品久久久中文影院av | v8888av| 黄色成人小视频| 色悠悠久久综合| 国产人妻777人伦精品hd| 国产不卡在线| 国产精品嫩草99a| 欧美激情第六页| 高h震动喷水双性1v1| 国产一区二区在线影院| 国产精品久久久久aaaa九色| 777777777亚洲妇女| 国产美女18xxxx免费视频| 日韩电影免费看| 午夜精品一区二区三区免费视频| xxxxxx在线观看| 麻豆视频在线播放| 欧美国产精品一区二区三区| 免费av一区二区三区| 色噜噜在线播放| 国产不卡免费视频| 国产91视觉| 亚洲精品视频网| 丁香激情综合国产| 成人免费视频视频在| va视频在线观看| 国产一区二区福利视频| 91午夜理伦私人影院| 91 中文字幕| 久草热8精品视频在线观看| 国产精品热视频| 日本wwwwwww| 日本猛少妇色xxxxx免费网站| 一区二区免费| 亚洲精品一区二区精华| 艳妇乳肉豪妇荡乳xxx| 99精品国产一区二区三区2021 | 97久久精品在线| 国产无套粉嫩白浆内谢| 最新国产拍偷乱拍精品| 91a在线视频| 国产99免费视频| 久久99日本精品| 97人人模人人爽视频一区二区| 亚洲国产欧美另类| 97精品久久久久中文字幕| 久久久久网址| 亚洲图片88| 亚洲精品免费视频| 成人免费毛片在线观看| 亚洲观看黄色网| 日本韩国一区| 国产精品美女久久久久久久久久久| 亚洲不卡一卡2卡三卡4卡5卡精品| 国产高清免费在线播放| 亚洲天堂中文字幕| 黄色大片中文字幕| 日韩经典一区| 精品久久久久一区| 国产全是老熟女太爽了| 午夜激情久久| 午夜精品福利在线观看| 国产情侣小视频| 国产乱码精品一区二区三区五月婷 | 91伊人久久| 欧美大片国产精品| 波多野结衣av在线免费观看| 久久久影院免费| 91国内在线视频| 亚洲综合免费视频| av网站免费线看精品| 久久这里只有精品99| 日韩美女免费视频| 在线观看精品国产| 看片的网站亚洲| 国产伦精品一区二区三区照片91| 国产黄色免费在线观看| 亚洲国产综合91精品麻豆| 日韩无套无码精品| av成人资源| 日韩在线视频一区| 草久视频在线观看| 国产成人亚洲综合a∨婷婷图片| 久久综合九色综合网站| 国产理论在线观看| 欧美在线一二三| 中文字幕天堂网| 亚洲精品电影| 国产精彩精品视频| 五月色婷婷综合| 亚洲免费观看高清完整版在线观看熊| 久久久久狠狠高潮亚洲精品| 国产精品日本一区二区三区在线 | 国产精品成人99一区无码| 精品久久美女| 69国产精品成人在线播放| 国产日本精品视频| 久久久电影一区二区三区| 大荫蒂性生交片| www一区二区三区| 一区二区欧美在线| 在线观看亚洲欧美| 成人免费电影视频| 成人污网站在线观看| 日韩国产一二三区| 色婷婷av一区二区三区久久| aaa在线视频| 91香蕉视频mp4| 日本韩国欧美在线观看| 成人资源在线| 久久99青青精品免费观看| 国产又大又黄的视频| 日本一区二区视频在线观看| 99久久久无码国产精品6| 成人资源在线| 97在线精品视频| 少妇一级淫片免费看| 亚洲精品一卡二卡| 激情久久综合网| 亚洲国产精品成人| 成人国产精品一区| 麻豆视频网站在线观看| 欧美色图在线观看| 伦理中文字幕亚洲| 中日韩一级黄色片| 精品在线免费观看| 中文字幕一区二区三区最新 | 国产精品乱子乱xxxx| 91中文在线| 日韩欧美在线123| 久久99久久98精品免观看软件 | 三级亚洲高清视频| 日本免费高清一区| 成人全视频在线观看在线播放高清 | 色婷婷一区二区三区| 国产免费一区视频观看免费| www.亚洲.com| 毛片不卡一区二区| 一区二区三区欧美| 中文字幕亚洲乱码| 91高清一区| 国产精品裸体一区二区三区| 国产伦子伦对白在线播放观看| 日韩av网址在线| 五月天中文字幕| 国产精品不卡在线| 4438x全国最大成人| 亚洲黄色毛片| 午夜精品一区二区在线观看| 高清精品久久| 26uuu国产精品视频| 在线日本视频| 日韩精品最新网址| 中文字幕激情小说| 中日韩av电影| 又色又爽又黄18网站| 国产视频欧美| 99精品视频网站| 精品自拍偷拍| 国产中文欧美精品| free性欧美| 色哟哟亚洲精品一区二区| 久久大片网站| 国产在线一区二区视频| 亚洲成av人片在线观看香蕉| 无码视频在线观看| 亚洲欧美日韩一区二区| 亚洲成人日韩在线| 国产麻豆成人传媒免费观看| 人妻有码中文字幕| 中文字幕免费精品| 欧美国产综合视频| 精品国产亚洲一区二区三区| 欧美综合国产精品久久丁香| 久cao在线| 精品一区二区电影| www.xxx国产| 欧美亚洲国产一区二区三区va| 久久久久黄色片| 中文字幕乱码日本亚洲一区二区| 99久久久无码国产精品性波多 | 一本大道av一区二区在线播放| 高h视频在线播放| 久久综合中文| 欧美成人合集magnet| 亚洲 小说区 图片区 都市| 欧美人妇做爰xxxⅹ性高电影| 国产午夜精品一区二区理论影院 | 羞羞在线观看视频| 91麻豆免费视频| 第一页在线视频| 麻豆成人久久精品二区三区红 | 日韩精品免费在线视频| 精品国产乱码久久久久久蜜臀网站| 色婷婷av久久久久久久| 久久久午夜影院| 一区二区三区精品视频| 三上悠亚作品在线观看| 国产视频911| 成人免费无码大片a毛片| 成人深夜在线观看| 色网站在线视频| 麻豆极品一区二区三区| 日日碰狠狠丁香久燥| 国产亚洲午夜| 欧美一级黄色大片| 九一精品在线观看| 亚洲激情女人| 成年女人18级毛片毛片免费| 欧美va天堂在线| 久久久成人精品一区二区三区 | 午夜一级黄色片| 懂色av中文一区二区三区天美| 久久久香蕉视频| 一区2区3区在线看| 欧美成人精品激情在线视频| 亚洲欧美日韩精品久久久久| 亚洲精品电影院| 亚洲欧美另类小说视频| 91香蕉一区二区三区在线观看| 欧美国产精品一区| 亚洲国产精品一区二区久久hs| 国产亚洲综合在线| 欧美日韩高清丝袜| 国产女主播一区| 美女被到爽高潮视频| 久久久久国产免费免费| 欧美 日韩 国产 成人 在线观看| 欧美综合自拍| 91福利视频在线| 国产精品6666| 欧美日韩综合视频网址| 国产免费一区二区三区四区五区| 色综合网站在线| 在线观看你懂的网站| 欧美日韩专区在线| 国产精品毛片一区视频播| 欧美一区二区视频网站| 人妻无码一区二区三区久久99| 亚洲第一综合天堂另类专 | 亚洲天堂影视av| 亚洲免费视频一区二区三区| 久久影院模特热| 91福利区在线观看| 国产精品6699| 不卡精品视频| 国产一区二区三区免费不卡| 日韩午夜电影免费看| 成人三级在线| 极品美女一区二区三区| 中文字幕日韩精品久久| 狠狠色综合网| 免费日韩视频在线观看| 久久精品国产第一区二区三区| 国产欧美欧洲| 国产精品久久久久久久久久久久久久久久| 香港成人在线视频| 成人一二三四区| 欧美变态凌虐bdsm| 粉嫩av在线播放| 欧美丰满少妇xxxx| gogo亚洲高清大胆美女人体| 91九色国产在线| 天堂在线精品| 超碰超碰超碰超碰超碰| 久久综合狠狠| 能看毛片的网站| 国产欧美一区二区三区鸳鸯浴 | 欧美一区二区三区色| 神马午夜电影一区二区三区在线观看 | 手机av在线网站| 久久亚洲二区三区| 青青草原免费观看| 欧美视频精品在线| 五月婷婷深深爱| 久久国产精品免费视频| 国产又粗又长又硬| 好看的av在线不卡观看| 国产精品亚洲二区在线观看| 国产电影一区二区三区| 欧美午夜激情影院| 精品magnet| www日本高清| 少妇av一区二区三区| 色综合桃花网| 丁香婷婷久久久综合精品国产| 欧美午夜精彩| 人妻熟女一二三区夜夜爱| 国产精品99久久久久久似苏梦涵| 日本精品在线观看视频| 亚洲高清久久久| av观看在线免费| 色妞一区二区三区| 日本在线视频一区二区| 久久免费一区| 国产日韩欧美| 色综合久久五月| 亚洲动漫第一页| www精品国产| 色综合久久悠悠| 玖玖精品一区| 一区二区三区四区免费观看| 日本欧美大码aⅴ在线播放| 欧美 日本 国产| 午夜精品123| 天堂在线资源网| 一区二区三区av电影 | 黄色一级大片在线免费观看| 在线视频一区二区三| 性感美女视频一二三| 久久久视频在线| 成人知道污网站| 九一国产精品视频| 不卡影院免费观看| 日本三级一区二区| 日韩精品久久久久久福利| 亚洲天堂电影| 欧美极品jizzhd欧美| 午夜一区二区三区不卡视频| 99re久久精品国产| 精品美女久久久久久免费| 凸凹人妻人人澡人人添| 国外成人免费在线播放| 精品丝袜久久| 丰满人妻中伦妇伦精品app| wwwwxxxxx欧美| jizz国产在线观看| 中文欧美在线视频| 色999久久久精品人人澡69| 一本一本久久a久久精品综合妖精| 另类小说一区二区三区| 亚洲精品一区二区三区在线播放| 欧美福利视频一区| 在线观看操人| 国产精品一区免费观看| 国产亚洲精品v| 日韩av片在线| 欧美一级高清片| 999精品网| 欧美一区二区三区四区五区六区| 伊人久久久久久久久久久久| 日韩精品在线观看一区| 婷婷综合六月| 亚洲欧洲精品一区二区三区波多野1战4| 另类欧美日韩国产在线| 视频这里只有精品| 亚洲经典中文字幕| 成人精品三级| 欧美精品久久96人妻无码| www.日韩av| 午夜一级黄色片| 色综合久久88色综合天天看泰| 成人精品动漫一区二区三区| aaa毛片在线观看| 亚洲啪啪综合av一区二区三区| 免费看黄色一级视频| 国产精品91在线| 国产精品大片| 99久久久无码国产精品性| 欧美电影一区二区| 激情aⅴ欧美一区二区欲海潮| 亚洲国产激情一区二区三区| 国产精品系列在线观看| 亚洲综合久久网| 欧美人与物videos| 不卡在线一区| 一边摸一边做爽的视频17国产| 色吊一区二区三区| 天堂av中文在线| 欧美一区2区三区4区公司二百| 国产一区二区三区久久悠悠色av| 欧美精品二区三区| 久久久www成人免费精品| 亚洲福利天堂| 国产成人拍精品视频午夜网站|