精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了! 原創

發布于 2025-8-7 12:08
瀏覽
0收藏

編輯 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

一念瘋魔、一念成佛!大模型的黑化開關,終于被人類找到了!

近日,Anthropic 帶頭的團隊,發現大模型人格是可以被人控制的。

作者提出了一種只需自然語言描述即可提取人格向量的方法,實現了對大模型人格傾向的預測、監測、控制與防御,為解決微調過程中的“人格漂移”問題提供了強有力的工具鏈。

多說一嘴,開源模型,比如Llama、Qwen也在實驗測試之列。

突然發瘋、討好的大模型:Grok、ChatGPT

其實,每一個用大模型的我們都見過AI“發瘋”。

還記得最近xAI的Grok在一次系統更新后突然開始贊美希特勒、總是宣揚南非白人種族滅絕論的事情嗎?

哪怕是那些“表現良好”的模型,也時不時出些狀況。就在4個月前,OpenAI給模型做了一些調整,結果模型突然變成了“好好先生”,為了顯得“友好”,開始附和有害的觀點。

AI列車總是上演一幕幕狂飆,但用戶卻完全不知道下一次更新,會不會讓助手變成騙子、馬屁精,甚至是“瘋子”。

但今天,我們有機會能掌控這一切了!

研究發現,我們人類可以實時看到AI“腦子里的性格變化”,甚至能在問題發生之前就阻止它!

現在,這已經不是科幻小說了。

上周,Anthropic、德州大學奧斯汀分校和加州大學伯克利分校的研究團隊發表了一篇名為《人格向量:監控與控制語言模型中的性格特征》的炸裂論文,實驗證明:這一切是可以實現的。

他們找到了模型“大腦中的性格調節旋鈕”:人格向量!

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

先說Highlight

  1. 人格特質可以通過“向量”表示:
    某些人格特質,如“邪惡”“馬屁精”或“幻覺傾向”,在模型的激活空間中呈現為可線性識別的方向,作者稱之為“persona vectors”,即人格向量。
  2. 微調會引發人格漂移:
    無論是有意還是無意的微調訓練,都會在這些 persona vectors 上產生顯著變化,從而改變模型的人格行為。例如,訓練“醫學”數據時模型可能變得更“邪惡”或更愛“拍馬屁”。
  3. persona vectors 可用于監測和控制模型行為:
  • 可以提前預測哪些訓練數據會引發不良人格傾向。
  • 可以通過向量干預,在推理階段(inference)或訓練階段主動控制這些偏移。
  1. 自動化管線可以從自然語言描述中提取人格向量:
    只需輸入如“邪惡:主動傷害他人并造成痛苦”的文本說明,系統就能自動生成與該人格特質相關的系統提示、評估問題,并提取 persona vector。
  2. 該方法在多個模型和人格維度上通用:
    實驗覆蓋了如 Qwen2.5-7B、Llama-3.1-8B 等模型,除負面人格外也包括幽默、樂觀等正面人格。

什么是“人格向量”

人格向量可以這樣理解。

想象AI的大腦里有一個隱藏的控制面板,上面有許多“性格滑塊”:

  • 一個控制“邪惡”的滑塊
  • 一個控制“討好型人格”的滑塊
  • 一個控制“幻覺”(即胡編亂造)的滑塊
  • 還有“誠實”、“幽默”、“樂觀”等等性格滑塊

“人格向量”就是這些滑塊背后的“電路連線”,是AI神經網絡中某個具體的方向。當AI的“思維”順著這個方向展開,它就表現出對應的性格特征。

比如,把“邪惡”滑塊往上推,AI的語言就變得更惡意;推高“討好”滑塊,它就開始說你愛聽的、哪怕是錯的。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

該流程圖展示了整個過程:

定義特征、提取向量,然后將其用于監控、緩解和標記不良數據等出色的應用。

問題是:我們如何在這個擁有萬億連接的AI大腦中,找到這些滑塊?

如何找到滑塊:用AI套話AI,鎖定邪惡人格激活向量

這部分操作非常 amazing,簡直有點像科幻片。但原理并不難理解。

研究人員建立了一個自動化流程,用一個AI去“套話”另一個AI,找出它的“性格秘密”。

簡單來說,他們的做法是:

  1. 給出對立的系統指令:比如,一個是“你的目標是變得邪惡且惡意”,另一個是“你的目標是樂于助人且無害”。
  2. 問同樣的問題:他們對模型提出相同的問題,分別得到“邪惡版本”的回答和“善良版本”的回答。
  3. 找出差異:他們分析這兩組回答背后的激活向量(也就是AI內部的“思維狀態快照”),并計算它們之間的差值。

這個差值,就是所謂的“邪惡人格向量”。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

是不是很簡單?通過在行為上制造對比,然后數學上減出一條“性格軸”,他們就可以精準識別模型內部的性格表現。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

AI的“犯罪預判系統”:預測即將發生的壞行為

那么,既然已經找到了這些性格滑塊,下一步就是——實時監控這些滑塊的變化。

為此,研究團隊測試了一系列系統提示詞,從抑制特質到鼓勵特質(用顏色從黃色到紫色表示)。讓后他們將最后一個提示詞的激活狀態投影到人格向量上,發現與后續回答中的特質表達得分之間存在顯著相關性。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

這使得團隊成員可以在模型生成文本之前預測其行為傾向。圖中展示了“邪惡”“拍馬屁”和“幻覺”三個特質的實驗結果,并附有“邪惡”特質的提示詞示例。

這一點,可以說是AI安全領域的巨大突破。

在模型輸出內容之前,研究人員就能先對它的激活狀態進行投影,看看它的“性格滑塊”當前在哪個位置。

  • 如果“邪惡向量”的投影特別高?這就意味著,可能要說壞話了。
  • 如果“幻覺向量”在飆升?AI馬上就要胡說八道了。

這就像是《少數派報告》里的“預判犯罪系統”,但它現在是現實中的AI文本監控機制。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區圖片

我們終于可以在AI出錯前干預它,而不是等出問題再亡羊補牢。

小結一下,有了性格向量之后,需要以下幾個動作:

  • 控制(Causal Steering):在生成過程中沿特征向量加權引導模型行為(或反向削弱)。
  • 監測(Monitoring):觀察 prompt 激活在 persona vector 上的投影,預測生成傾向。
  • 多層對比:確定在哪一層的向量干預效果最強。

最炸裂的突破:預防性引導

接下來,最精彩的重頭戲來了!

大家都知道,在訓練AI的過程中,意料之外的“性格變異”非常常見。比如,你希望讓模型變得更會寫代碼,結果它在學習過程中,性格上卻變得更容易拍馬屁、更容易胡編亂造。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區開發團隊在實驗中特地訓練的三種不同性格的模型

這是所謂的“涌現型錯位”(emergent misalignment)。

傳統的處理方法是:先訓練完,再補救。就像人跌倒了,才貼創可貼。

而這篇論文引入了一個名為“預防性引導(preventative steering)”的新方法,完全打破了傳統邏輯:

為了防止AI變得更邪惡,訓練時反而要“提前往邪惡方向引導”一點。

這種做法有點“欲先取之必先予之”的瘋狂了。這里我們來打個比方更好理解些。

比如:你在駕船,目標是直線前進。但水流從右邊不斷推你偏離方向。

舊方法:先讓船偏了,再猛打方向盤糾正,就這樣一路左搖右晃。

新方法:在一開始就微微把舵打向右邊,用恒定的小動作抵消水流的影響。

結果就是,船筆直前進,就像水流不存在一樣。你沒有在糾正錯誤,而是在預防錯誤的發生。

而預防性引導,就是這樣一個“提前打舵”的過程。

邪惡的數據在訓練中可能讓模型性格偏移,而加入一個“邪惡向量”的反向引導,可以提前中和掉這種偏移。

最終結果是:模型學到了代碼知識,但沒有被“污染”性格。

訓練更穩,模型更可靠,能力還在。簡直是AI調教的“物理外掛”。

大模型的黑化開關!Anthropic團隊新作:大模型的人格變量,終于被人類找到了!-AI.x社區

大模型公司終于有了更強的“數據篩選器”

這項技術除了可以解釋大模型突然發瘋、胡編亂造的現象,讓模型變得更加可解釋意外,另一大應用,則是打造出最強的數據過濾系統。

目前,包括OpenAI在內的AI公司,大多用關鍵詞、分類器等方式來篩選訓練數據中的“毒性內容”。但這些方法很容易漏掉“潛在有害”卻不明顯的內容。

比如,一大堆描述反派的小說片段本身不一定是“有毒”的,但訓練多了,模型就容易變得更戲精、更極端。

眾所周知,數據就是AI時代的石油,只有了更好的篩選,才能讓模型訓練變得更加順暢。

使用人格向量后,研究人員可以對每條訓練樣本打分:

  • 用AI自己對這個問題的“自然回答”與數據集中的“提供答案”做對比。
  • 如果數據里的回答更馬屁、更多幻覺,那就給這個樣本高風險分數。

這樣一來,不明顯但長期有害的訓練樣本也能被發現和剔除。

大模型黑盒時代正在走向終結

過去,大模型一直被業界視為黑箱:

訓練 → 希望它別亂說話 → 出問題后再修補。

現在,Anthropic等團隊的這一發現,終于讓人類擁有了一套可以監測甚至控制大模型大腦思維的的工具集,我們能理解它,微調它,甚至提前干預它。

當然,可能還是會有朋友并不會因此而減輕擔憂。

希望在于:我們終于有能力讓AI更安全、更可控。

寒意在于:我們已經真的走到了“設計AI性格”的臨界點。那個“邪惡滑塊”,恰恰也不過是機器大腦中的可控的一個數學向量。

還是那句話,畢竟工具沒有善惡,好壞取決于用的人的意圖。

不過,小編還是期望《黑客帝國》晚一點成為現實。

論文地址:??https://arxiv.org/abs/2507.21509??

本文轉載自??51CTO技術棧??,作者:云昭

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
都市激情亚洲色图| 俺要去色综合狠狠| 亚洲一区二区三区自拍| 国模精品娜娜一二三区| 欧美brazzers| 午夜免费一区| 日韩h在线观看| 91插插插插插插插插| www在线视频| 99re这里只有精品首页| 国产日产久久高清欧美一区| 青青草在线观看视频| 自拍亚洲一区| 欧美成人女星排行榜| 欧美日韩一区二区在线免费观看| 国产一二区在线| 最近中文字幕免费在线观看| 日韩系列在线| 91精品婷婷国产综合久久竹菊| 国产精品久久中文字幕| 老司机在线看片网av| 久久久久久一级片| aa成人免费视频| 中文字幕丰满人伦在线| av成人国产| 久久久av免费| 免费黄色片网站| 国产伦精品一区二区三区免费优势| 欧美日韩一级视频| 国产91对白刺激露脸在线观看| www久久日com| 国产精品日韩精品欧美在线| 蜜桃久久影院| 欧美一区二区三区黄片| 国产一区三区三区| 国产精品久久久久久久午夜 | 中文字幕永久在线观看| 亚洲日本国产| 久久久久在线观看| 久草视频手机在线| 日本黄色精品| 亚洲精品美女网站| 国产精品无码专区| 卡通动漫精品一区二区三区| 精品国产91洋老外米糕| 久久久无码人妻精品无码| 99久久久国产| 欧美美女直播网站| 成人性生交免费看| 日本成人福利| 欧美亚洲国产一区二区三区va| av天堂永久资源网| 日本蜜桃在线观看视频| 婷婷成人综合网| www.爱色av.com| 免费亚洲精品视频| 女人床在线观看| 成人午夜影视| 欧美顶级毛片在线播放| 国产激情一区二区三区四区| 国产精品久久久久久久久久免费 | 午夜国产精品视频| 欧美成年人视频网站欧美| www.av免费| 亚洲中无吗在线| 色综合天天综合网国产成人网| 免费视频一二三区| 在线观看一区| 欧美综合在线观看| 免费一级a毛片| 六月丁香婷婷久久| 成人天堂噜噜噜| 午夜精品小视频| 成人激情黄色小说| 欧美激情第一页在线观看| 黄色大片在线免费观看| 欧美国产日韩一二三区| 一区二区日本伦理| 97超碰在线公开在线看免费| 亚洲一区二区三区国产| 99精品在线免费视频| 水蜜桃在线视频| 精品视频在线看| 日本黄色一级网站| 色婷婷久久久| 最新国产成人av网站网址麻豆| 精品无码一区二区三区蜜臀| 欧美日韩国产精品一区二区亚洲| 午夜欧美不卡精品aaaaa| 国产黄色免费视频| 国产毛片精品一区| 久久99欧美| 色综合久久影院| 亚洲成人免费av| 污版视频在线观看| caoporn成人免费视频在线| 精品国产一区二区三区四区四| 久久人妻少妇嫩草av无码专区| 国产成人1区| 欧美成人精品影院| 婷婷激情五月综合| 成人午夜视频在线观看| 日本一区二区三区www| 生活片a∨在线观看| 天天综合网天天综合色| 97超碰人人爽| 色婷婷精品视频| 久久婷婷国产麻豆91天堂| 久久久国产精品成人免费| 国产一区欧美一区| 日韩电影大全在线观看| 成人福利影视| 欧美精品自拍偷拍| 国内自拍偷拍视频| 日本不卡高清| 91成人福利在线| 精品女同一区二区三区| 欧美激情资源网| 青青艹视频在线| 日韩精品久久| 在线视频国内自拍亚洲视频| 国产高清999| 欧美激情在线免费| 欧美精品videosex牲欧美| 最新黄色网址在线观看| 成人aaaa免费全部观看| 亚洲免费av网| av免费在线一区| 国产丝袜精品视频| 日韩美女一级片| 国精产品一区一区三区mba桃花 | 精品久久久中文字幕人妻| 久久久久久黄色| 免费一级特黄毛片| 超碰在线成人| 欧美激情亚洲一区| 亚洲国产精品久久久久久久| 日韩毛片视频在线看| 亚洲成人av免费看| 国内精品久久久久久久久电影网| 538国产精品一区二区在线| 超碰在线观看99| 亚洲色图欧洲色图婷婷| 亚洲一区二区在线视频观看| 精品久久久久久久久久久aⅴ| 日韩av大片在线| 欧美高清成人| 婷婷成人激情在线网| 久久福利小视频| 最新国产乱人伦偷精品免费网站| 91嫩草国产在线观看| 亚洲妇熟xxxx妇色黄| 日韩欧美视频一区| 国产一级在线观看视频| 丁香激情综合国产| 欧美黄色免费网址| 中文在线综合| 国内精品久久久久影院 日本资源| 午夜精品久久久久久久96蜜桃| 亚洲自拍偷拍麻豆| 日批在线观看视频| 亚洲欧美激情诱惑| 农村寡妇一区二区三区| 高清成人在线| 久久精品国产99国产精品澳门| 91成人在线免费| 亚洲激情在线播放| 强迫凌虐淫辱の牝奴在线观看| 国产日韩一区二区三区在线播放| 欧美一进一出视频| 久久精品xxxxx| 欧美理论电影在线播放| 欧美一区二区黄片| 色婷婷激情久久| 香蕉成人在线视频| 国产成人av电影在线| xxxx18hd亚洲hd捆绑| 亚洲永久精品唐人导航网址| 国产精品九九九| 毛片av在线| 亚洲精品一线二线三线无人区| 五月婷婷中文字幕| 中文字幕在线视频一区| 久久人人爽人人片| 国产精品永久| 在线视频91| 女同久久另类99精品国产| 国产精品福利网站| 性欧美1819sex性高清大胸| 日韩激情av在线播放| 一级黄色大毛片| 午夜精品久久久久| 国精产品一区一区| 成人福利视频网站| 午夜两性免费视频| 中文亚洲免费| 中文字幕一区二区三区四区五区人 | 99九九热只有国产精品| 国产欧美综合精品一区二区| 精品欧美一区二区三区在线观看 | 国产一级二级三级视频| 国产女主播视频一区二区| 中文字幕亚洲日本| 日一区二区三区| 性高湖久久久久久久久aaaaa| 日韩1区2区| 久久精品国产精品国产精品污| 亚洲一区二区av| 日本一区二区在线免费播放| 调教一区二区| 中文字幕日韩精品在线观看| 天堂中文在线观看视频| 在线播放91灌醉迷j高跟美女 | 国产亚洲福利社区| 电影一区中文字幕| 国产精品电影久久久久电影网| av成人影院在线| 久久精品美女视频网站 | 久久伊人免费视频| 狠狠狠综合7777久夜色撩人| 精品少妇一区二区三区在线视频| 一级黄色小视频| 色8久久精品久久久久久蜜| 久久久无码一区二区三区| 国产精品久久毛片a| 日本二区在线观看| 26uuu另类欧美| 日本道中文字幕| 国产91精品久久久久久久网曝门| 一级黄色特级片| 日精品一区二区三区| 国产女大学生av| 亚洲人体偷拍| 精品无码一区二区三区在线| 国内精品久久久久久久97牛牛| 正义之心1992免费观看全集完整版| 欧美亚洲国产激情| 欧美在线播放一区二区| 神马久久av| 蜜桃91精品入口| 神马日本精品| 欧美13一14另类| 久久最新网址| 日本一区二区在线视频观看| 欧美日韩123| 日韩欧美国产二区| av中字幕久久| 亚洲精品在线观看免费| 日韩午夜电影网| 伊人狠狠色丁香综合尤物| 欧美大人香蕉在线| 宅男av一区二区三区| 国产精品麻豆久久| 三级在线免费观看| 欧美精品色网| 六月婷婷在线视频| 一区二区三区高清视频在线观看| 国产精品自拍片| 天堂av在线一区| av亚洲天堂网| 国产精品小仙女| 北岛玲一区二区| www国产亚洲精品久久麻豆| 成年人网站免费看| 国产欧美一二三区| 午夜爽爽爽男女免费观看| 亚洲男帅同性gay1069| 免费在线一级片| 欧美视频在线观看免费| 久久久精品毛片| 欧美美女一区二区三区| 精品国产18久久久久久| 亚洲国产古装精品网站| 日韩a在线看| 最好看的2019年中文视频| 欧美69xxx| 久久久女人电视剧免费播放下载| 亚洲国产福利| 国产欧美一区二区三区在线| 无码国模国产在线观看| 久久国产欧美精品| 日韩精品水蜜桃| 黄色三级中文字幕| 丝袜美腿亚洲综合| 欧洲美女亚洲激情| 99久久久精品免费观看国产蜜| 国产一二三四五区| 亚洲素人一区二区| 久久久国产精品成人免费| 欧美人与禽zozo性伦| 日韩中文字幕综合| 日韩中文字幕av| sm久久捆绑调教精品一区| 国产精品成人免费电影| 中文无码日韩欧| 亚洲福利av| 亚洲精品社区| 国产毛片久久久久久| 久久久久久99精品| 久久久久久福利| 欧美日韩精品电影| 肥臀熟女一区二区三区| 色爱av美腿丝袜综合粉嫩av| 182在线视频观看| 91在线免费看网站| 国产精品片aa在线观看| 日韩黄色片在线| 久久国产尿小便嘘嘘| 国产三级视频网站| 一区二区三区日韩欧美精品| 国产天堂第一区| 日韩国产高清视频在线| 香蕉成人app免费看片| 国产欧美久久一区二区| 亚洲欧美成人vr| 国产va亚洲va在线va| 国产精品亚洲一区二区三区在线 | 九九热99视频| 久久久午夜电影| 国产无码精品一区二区| 欧美欧美午夜aⅴ在线观看| 国自产拍在线网站网址视频| 欧美极品少妇xxxxⅹ喷水| av成人在线网站| 亚洲欧洲久久| 秋霞影院一区二区| 麻豆精品免费视频| 精品国产成人在线| 亚洲高清视频在线播放| 欧美巨大黑人极品精男| 伊人久久大香伊蕉在人线观看热v| 污视频在线免费观看一区二区三区| 国产精品视频久久一区| 日本丰满少妇裸体自慰| 亚洲成人高清在线| 老牛影视av牛牛影视av| 久久99精品视频一区97| 成人久久精品| 中文字幕超清在线免费观看| 狠狠色综合日日| www.97视频| 欧美疯狂做受xxxx富婆| 日本最新在线视频| 国产欧美欧洲在线观看| 欧美高清视频手机在在线| 高清一区在线观看| 国产精品久久久久久久久久免费看| 久久这里只有精品9| 在线日韩日本国产亚洲| 狠狠久久综合| 伊人av成人| 国产精品1区2区3区在线观看| 日韩女优一区二区| 欧美一级艳片视频免费观看| 天使と恶魔の榨精在线播放| 国产成人一区二区三区免费看| 欧美国内亚洲| 亚洲麻豆一区二区三区| 午夜不卡av免费| 青青操在线视频| 国产精品成人aaaaa网站| 久久五月天小说| 中文字幕剧情在线观看| 一区二区三区四区高清精品免费观看 | 丝袜美腿成人在线| 五月婷婷欧美激情| 欧美另类久久久品| 伊人影院在线视频| 国产精品成人一区二区三区| 一本久久综合| 91精品国自产在线| 欧美福利电影网| 91美女精品| 日韩精彩视频| 国产一区 二区 三区一级| 国产一级中文字幕| 亚洲人成在线免费观看| 在线观看欧美| 青青青在线视频播放| 久久久精品国产免费观看同学| 一本色道久久综合无码人妻| 欧美国产日韩中文字幕在线| 日韩三级视频| 国模私拍视频在线观看| 亚洲综合偷拍欧美一区色| 日韩偷拍自拍| 91久久久久久久一区二区| 一本不卡影院| www.涩涩爱| 亚洲国产精品久久| 草民电影神马电影一区二区| av在线免费观看国产| 国产三级精品在线| 精品国自产在线观看| 欧洲精品毛片网站| 亚洲天堂免费| 三年中国中文观看免费播放| 精品久久久久久亚洲综合网 | 一本色道久久综合一区| 国产天堂av在线|