編輯 | 云昭
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
一念瘋魔、一念成佛!大模型的黑化開關(guān),終于被人類找到了!
近日,Anthropic 帶頭的團(tuán)隊(duì),發(fā)現(xiàn)大模型人格是可以被人控制的。
作者提出了一種只需自然語言描述即可提取人格向量的方法,實(shí)現(xiàn)了對大模型人格傾向的預(yù)測、監(jiān)測、控制與防御,為解決微調(diào)過程中的“人格漂移”問題提供了強(qiáng)有力的工具鏈。
多說一嘴,開源模型,比如Llama、Qwen也在實(shí)驗(yàn)測試之列。
突然發(fā)瘋、討好的大模型:Grok、ChatGPT
其實(shí),每一個用大模型的我們都見過AI“發(fā)瘋”。
還記得最近xAI的Grok在一次系統(tǒng)更新后突然開始贊美希特勒、總是宣揚(yáng)南非白人種族滅絕論的事情嗎?
哪怕是那些“表現(xiàn)良好”的模型,也時不時出些狀況。就在4個月前,OpenAI給模型做了一些調(diào)整,結(jié)果模型突然變成了“好好先生”,為了顯得“友好”,開始附和有害的觀點(diǎn)。
AI列車總是上演一幕幕狂飆,但用戶卻完全不知道下一次更新,會不會讓助手變成騙子、馬屁精,甚至是“瘋子”。
但今天,我們有機(jī)會能掌控這一切了!
研究發(fā)現(xiàn),我們?nèi)祟惪梢詫?shí)時看到AI“腦子里的性格變化”,甚至能在問題發(fā)生之前就阻止它!
現(xiàn)在,這已經(jīng)不是科幻小說了。
上周,Anthropic、德州大學(xué)奧斯汀分校和加州大學(xué)伯克利分校的研究團(tuán)隊(duì)發(fā)表了一篇名為《人格向量:監(jiān)控與控制語言模型中的性格特征》的炸裂論文,實(shí)驗(yàn)證明:這一切是可以實(shí)現(xiàn)的。
他們找到了模型“大腦中的性格調(diào)節(jié)旋鈕”:人格向量!
圖片
先說Highlight
- 人格特質(zhì)可以通過“向量”表示:
某些人格特質(zhì),如“邪惡”“馬屁精”或“幻覺傾向”,在模型的激活空間中呈現(xiàn)為可線性識別的方向,作者稱之為“persona vectors”,即人格向量。 - 微調(diào)會引發(fā)人格漂移:
無論是有意還是無意的微調(diào)訓(xùn)練,都會在這些 persona vectors 上產(chǎn)生顯著變化,從而改變模型的人格行為。例如,訓(xùn)練“醫(yī)學(xué)”數(shù)據(jù)時模型可能變得更“邪惡”或更愛“拍馬屁”。 - persona vectors 可用于監(jiān)測和控制模型行為:
- 可以提前預(yù)測哪些訓(xùn)練數(shù)據(jù)會引發(fā)不良人格傾向。
- 可以通過向量干預(yù),在推理階段(inference)或訓(xùn)練階段主動控制這些偏移。
- 自動化管線可以從自然語言描述中提取人格向量:
只需輸入如“邪惡:主動傷害他人并造成痛苦”的文本說明,系統(tǒng)就能自動生成與該人格特質(zhì)相關(guān)的系統(tǒng)提示、評估問題,并提取 persona vector。 - 該方法在多個模型和人格維度上通用:
實(shí)驗(yàn)覆蓋了如 Qwen2.5-7B、Llama-3.1-8B 等模型,除負(fù)面人格外也包括幽默、樂觀等正面人格。
什么是“人格向量”
人格向量可以這樣理解。
想象AI的大腦里有一個隱藏的控制面板,上面有許多“性格滑塊”:
- 一個控制“邪惡”的滑塊
- 一個控制“討好型人格”的滑塊
- 一個控制“幻覺”(即胡編亂造)的滑塊
- 還有“誠實(shí)”、“幽默”、“樂觀”等等性格滑塊
“人格向量”就是這些滑塊背后的“電路連線”,是AI神經(jīng)網(wǎng)絡(luò)中某個具體的方向。當(dāng)AI的“思維”順著這個方向展開,它就表現(xiàn)出對應(yīng)的性格特征。
比如,把“邪惡”滑塊往上推,AI的語言就變得更惡意;推高“討好”滑塊,它就開始說你愛聽的、哪怕是錯的。
圖片
該流程圖展示了整個過程:
定義特征、提取向量,然后將其用于監(jiān)控、緩解和標(biāo)記不良數(shù)據(jù)等出色的應(yīng)用。
問題是:我們?nèi)绾卧谶@個擁有萬億連接的AI大腦中,找到這些滑塊?
如何找到滑塊:用AI套話AI,鎖定邪惡人格激活向量
這部分操作非常 amazing,簡直有點(diǎn)像科幻片。但原理并不難理解。
研究人員建立了一個自動化流程,用一個AI去“套話”另一個AI,找出它的“性格秘密”。
簡單來說,他們的做法是:
- 給出對立的系統(tǒng)指令:比如,一個是“你的目標(biāo)是變得邪惡且惡意”,另一個是“你的目標(biāo)是樂于助人且無害”。
- 問同樣的問題:他們對模型提出相同的問題,分別得到“邪惡版本”的回答和“善良版本”的回答。
- 找出差異:他們分析這兩組回答背后的激活向量(也就是AI內(nèi)部的“思維狀態(tài)快照”),并計(jì)算它們之間的差值。
這個差值,就是所謂的“邪惡人格向量”。
圖片
是不是很簡單?通過在行為上制造對比,然后數(shù)學(xué)上減出一條“性格軸”,他們就可以精準(zhǔn)識別模型內(nèi)部的性格表現(xiàn)。
圖片
AI的“犯罪預(yù)判系統(tǒng)”:預(yù)測即將發(fā)生的壞行為
那么,既然已經(jīng)找到了這些性格滑塊,下一步就是——實(shí)時監(jiān)控這些滑塊的變化。
為此,研究團(tuán)隊(duì)測試了一系列系統(tǒng)提示詞,從抑制特質(zhì)到鼓勵特質(zhì)(用顏色從黃色到紫色表示)。讓后他們將最后一個提示詞的激活狀態(tài)投影到人格向量上,發(fā)現(xiàn)與后續(xù)回答中的特質(zhì)表達(dá)得分之間存在顯著相關(guān)性。
圖片
這使得團(tuán)隊(duì)成員可以在模型生成文本之前預(yù)測其行為傾向。圖中展示了“邪惡”“拍馬屁”和“幻覺”三個特質(zhì)的實(shí)驗(yàn)結(jié)果,并附有“邪惡”特質(zhì)的提示詞示例。
這一點(diǎn),可以說是AI安全領(lǐng)域的巨大突破。
在模型輸出內(nèi)容之前,研究人員就能先對它的激活狀態(tài)進(jìn)行投影,看看它的“性格滑塊”當(dāng)前在哪個位置。
- 如果“邪惡向量”的投影特別高?這就意味著,可能要說壞話了。
- 如果“幻覺向量”在飆升?AI馬上就要胡說八道了。
這就像是《少數(shù)派報(bào)告》里的“預(yù)判犯罪系統(tǒng)”,但它現(xiàn)在是現(xiàn)實(shí)中的AI文本監(jiān)控機(jī)制。
圖片
我們終于可以在AI出錯前干預(yù)它,而不是等出問題再亡羊補(bǔ)牢。
小結(jié)一下,有了性格向量之后,需要以下幾個動作:
- 控制(Causal Steering):在生成過程中沿特征向量加權(quán)引導(dǎo)模型行為(或反向削弱)。
- 監(jiān)測(Monitoring):觀察 prompt 激活在 persona vector 上的投影,預(yù)測生成傾向。
- 多層對比:確定在哪一層的向量干預(yù)效果最強(qiáng)。
最炸裂的突破:預(yù)防性引導(dǎo)
接下來,最精彩的重頭戲來了!
大家都知道,在訓(xùn)練AI的過程中,意料之外的“性格變異”非常常見。比如,你希望讓模型變得更會寫代碼,結(jié)果它在學(xué)習(xí)過程中,性格上卻變得更容易拍馬屁、更容易胡編亂造。
開發(fā)團(tuán)隊(duì)在實(shí)驗(yàn)中特地訓(xùn)練的三種不同性格的模型
這是所謂的“涌現(xiàn)型錯位”(emergent misalignment)。
傳統(tǒng)的處理方法是:先訓(xùn)練完,再補(bǔ)救。就像人跌倒了,才貼創(chuàng)可貼。
而這篇論文引入了一個名為“預(yù)防性引導(dǎo)(preventative steering)”的新方法,完全打破了傳統(tǒng)邏輯:
為了防止AI變得更邪惡,訓(xùn)練時反而要“提前往邪惡方向引導(dǎo)”一點(diǎn)。
這種做法有點(diǎn)“欲先取之必先予之”的瘋狂了。這里我們來打個比方更好理解些。
舊方法:先讓船偏了,再猛打方向盤糾正,就這樣一路左搖右晃。
新方法:在一開始就微微把舵打向右邊,用恒定的小動作抵消水流的影響。
結(jié)果就是,船筆直前進(jìn),就像水流不存在一樣。你沒有在糾正錯誤,而是在預(yù)防錯誤的發(fā)生。
而預(yù)防性引導(dǎo),就是這樣一個“提前打舵”的過程。
邪惡的數(shù)據(jù)在訓(xùn)練中可能讓模型性格偏移,而加入一個“邪惡向量”的反向引導(dǎo),可以提前中和掉這種偏移。
最終結(jié)果是:模型學(xué)到了代碼知識,但沒有被“污染”性格。
訓(xùn)練更穩(wěn),模型更可靠,能力還在。簡直是AI調(diào)教的“物理外掛”。

大模型公司終于有了更強(qiáng)的“數(shù)據(jù)篩選器”
這項(xiàng)技術(shù)除了可以解釋大模型突然發(fā)瘋、胡編亂造的現(xiàn)象,讓模型變得更加可解釋意外,另一大應(yīng)用,則是打造出最強(qiáng)的數(shù)據(jù)過濾系統(tǒng)。
目前,包括OpenAI在內(nèi)的AI公司,大多用關(guān)鍵詞、分類器等方式來篩選訓(xùn)練數(shù)據(jù)中的“毒性內(nèi)容”。但這些方法很容易漏掉“潛在有害”卻不明顯的內(nèi)容。
比如,一大堆描述反派的小說片段本身不一定是“有毒”的,但訓(xùn)練多了,模型就容易變得更戲精、更極端。
眾所周知,數(shù)據(jù)就是AI時代的石油,只有了更好的篩選,才能讓模型訓(xùn)練變得更加順暢。
使用人格向量后,研究人員可以對每條訓(xùn)練樣本打分:
- 用AI自己對這個問題的“自然回答”與數(shù)據(jù)集中的“提供答案”做對比。
- 如果數(shù)據(jù)里的回答更馬屁、更多幻覺,那就給這個樣本高風(fēng)險(xiǎn)分?jǐn)?shù)。
這樣一來,不明顯但長期有害的訓(xùn)練樣本也能被發(fā)現(xiàn)和剔除。
大模型黑盒時代正在走向終結(jié)
過去,大模型一直被業(yè)界視為黑箱:
訓(xùn)練 → 希望它別亂說話 → 出問題后再修補(bǔ)。
現(xiàn)在,Anthropic等團(tuán)隊(duì)的這一發(fā)現(xiàn),終于讓人類擁有了一套可以監(jiān)測甚至控制大模型大腦思維的的工具集,我們能理解它,微調(diào)它,甚至提前干預(yù)它。
當(dāng)然,可能還是會有朋友并不會因此而減輕擔(dān)憂。
希望在于:我們終于有能力讓AI更安全、更可控。
寒意在于:我們已經(jīng)真的走到了“設(shè)計(jì)AI性格”的臨界點(diǎn)。那個“邪惡滑塊”,恰恰也不過是機(jī)器大腦中的可控的一個數(shù)學(xué)向量。
還是那句話,畢竟工具沒有善惡,好壞取決于用的人的意圖。
不過,小編還是期望《黑客帝國》晚一點(diǎn)成為現(xiàn)實(shí)。




































