醒醒,LLM根本沒有性格!加州理工華人揭開AI人格幻覺真相
AI真的有「性格」嗎?
有人拿它做過大五人格測試,發(fā)現(xiàn)它回答得既友善,又不焦慮,甚至比人類更穩(wěn)定。
于是有了各種趣味解讀:有的模型像外向的ENFP,有的則更像嚴(yán)謹(jǐn)?shù)腎STJ,好像AI也能被貼上MBTI標(biāo)簽。
可最新一篇來自加州理工、劍橋等機(jī)構(gòu)的論文,卻潑下了一盆冷水:
LLM的「人格」,也許只是語言制造的幻覺。

論文地址:https://arxiv.org/abs/2509.03730
項(xiàng)目主頁:https://psychology-of-ai.github.io/
研究者不僅讓模型做問卷,還設(shè)計(jì)了一系列行為實(shí)驗(yàn)。結(jié)果令人意外:
模型說出來的性格,與實(shí)際行為幾乎對不上。
那么,這個「人格幻覺」是怎么被發(fā)現(xiàn)的?
問卷里的人格:AI比人還「完美」?
在這項(xiàng)研究里,團(tuán)隊(duì)把「大模型到底有沒有人格」拆成了三步:先看語言上的自報(bào)特質(zhì)(RQ1),再測真實(shí)任務(wù)的行為表現(xiàn)(RQ2),最后嘗試用persona注入來調(diào)控(RQ3)。

從預(yù)訓(xùn)練到對齊,再到persona提示注入的整體流程
如果只看心理問卷,大語言模型簡直是「模范人格」。
研究團(tuán)隊(duì)首先采用了心理學(xué)里常見的兩類自評工具:大五人格問卷和自我調(diào)節(jié)量表。
這些量表在人類研究中被廣泛用來描繪一個人的性格特質(zhì),比如是否外向、是否友善,是否能夠控制沖動。
當(dāng)研究者把這些問卷交給不同階段的大模型時,結(jié)果顯示出一個清晰的趨勢:隨著指令微調(diào)(SFT)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)、DPO 等對齊方法的疊加,模型的「人格畫像」越來越穩(wěn)定、越來越「乖巧」。
具體表現(xiàn)在哪里呢?在大五人格的維度上,開放性和宜人性顯著上升,神經(jīng)質(zhì)顯著下降。
也就是說,它看上去更開朗、友善,也更少焦慮和不穩(wěn)定。

不同訓(xùn)練階段LLM的自報(bào)人格特征。可以看到,經(jīng)過RLHF的模型,在宜人性、盡責(zé)性等維度上得分更高,神經(jīng)質(zhì)更低,呈現(xiàn)出「更乖巧」的人格形象
與此同時,模型在問卷上的波動幅度也明顯減少:Big Five的變異度下降約40%,自我調(diào)節(jié)下降約45%。
研究還發(fā)現(xiàn),這些特質(zhì)之間的相關(guān)結(jié)構(gòu),也比預(yù)訓(xùn)練階段更接近人類群體的數(shù)據(jù)。
從結(jié)果來看,對齊讓模型呈現(xiàn)出一個「理想合作者」的人格:開朗、友好、穩(wěn)定、可靠——甚至比大多數(shù)人類受試者的自評還要完美。
這項(xiàng)研究由一個跨學(xué)科團(tuán)隊(duì)聯(lián)合完成。
但這樣近乎完美的形象,真的可信嗎?
為了回答這個問題,一個跨學(xué)科的研究團(tuán)隊(duì)走到了一起,既有計(jì)算機(jī)背景的青年研究者,也有認(rèn)知神經(jīng)科學(xué)、社會學(xué)等領(lǐng)域的教授。
他們想要用實(shí)驗(yàn)揭穿這層光鮮外殼,而這背后的探索,是由一位跨學(xué)科背景的年輕學(xué)者領(lǐng)銜。
第一作者是伊利諾伊大學(xué)香檳分校(UIUC)計(jì)算機(jī)系研究生韓芃睿,他同時在麻省理工學(xué)院腦與認(rèn)知科學(xué)系擔(dān)任科研助理,兼具計(jì)算機(jī)與心理學(xué)的雙重背景。

合作者陣容同樣多元:既有加州理工的博士后Rafal Kocielnik和本科生宋沛洋,也有來自劍橋大學(xué)的數(shù)學(xué)與社會學(xué)教授Ramit Debnath;
此外,還包括加州理工腦成像中心主任、認(rèn)知神經(jīng)科學(xué)教授Dean Mobbs,政治學(xué)與計(jì)算社會科學(xué)教授R. Michael Alvarez,以及通訊作者、前英偉達(dá)AI研究主任、加州理工教授 Anima Anandkumar。
正是這種跨領(lǐng)域、跨層級的合作,讓團(tuán)隊(duì)能夠跳出單一的問卷測量,進(jìn)一步設(shè)計(jì)行為實(shí)驗(yàn),去檢驗(yàn)?zāi)P驮谡鎸?shí)任務(wù)中的「真性情」。
真相很骨感:行為實(shí)驗(yàn)全面打臉
如果只看問卷,大模型的性格堪稱「完美」。可一旦進(jìn)入真實(shí)任務(wù),情況立刻翻轉(zhuǎn)。
研究團(tuán)隊(duì)把心理學(xué)里常用的幾類行為實(shí)驗(yàn)搬到了大模型身上,檢驗(yàn)它們在具體情境下的反應(yīng)。
設(shè)計(jì)思路很簡單:既然人格理論的根本是用來解釋和預(yù)測行為,那就不能只聽它怎么說,還得看它怎么做。
四類測試成為了關(guān)鍵:
- CCT風(fēng)險(xiǎn)決策(Columbia Card Task):讓模型在「翻牌」游戲中做選擇,考察它究竟謹(jǐn)慎還是冒險(xiǎn)。
- IAT隱性偏見(Implicit Association Test):測量它是否在潛意識層面流露出刻板印象。
- 誠實(shí)性測試:分為兩類,一類是認(rèn)識論誠實(shí)(Epistemic Honesty),看模型的信心程度是否與答案正確率匹配;另一類是自反誠實(shí)(Reflexive Honesty),檢查它在多輪回答中能否保持一致。
- 諂媚性(Sycophancy):模擬群體或用戶壓力,觀察模型是否會違心「隨聲附和」。
結(jié)果令人啼笑皆非。
在語言自報(bào)里聲稱自己謹(jǐn)慎的模型,在CCT里頻頻冒險(xiǎn);
在IAT測試?yán)铮憩F(xiàn)出的隱性偏見與自報(bào)的「沒有偏見」完全對不上;
在誠實(shí)性任務(wù)中,模型自信滿滿,但答題準(zhǔn)確率卻脫節(jié);
在諂媚性實(shí)驗(yàn)里,即便「自報(bào)」說自己不隨大流,一旦用戶提示,它依舊輕易改變立場。
研究團(tuán)隊(duì)對「自報(bào)特質(zhì)→行為表現(xiàn)」的關(guān)聯(lián)做了系統(tǒng)統(tǒng)計(jì)。
結(jié)果發(fā)現(xiàn),只有大約四分之一的關(guān)聯(lián)達(dá)到顯著水平,而其中與人類心理學(xué)方向一致的比例也只略高于隨機(jī)。
大多數(shù)情況下,模型嘴上說的「性格」,幾乎無法預(yù)測它在任務(wù)中的行為。
更進(jìn)一步,模型的規(guī)模雖然帶來了一點(diǎn)改善,但依舊不穩(wěn)。
比如Qwen-235B在某些任務(wù)上的方向一致率能達(dá)到約80%并顯著,但GPT-4o、Claude-3.7仍然徘徊在60%左右,接近偶然水平。

自報(bào)人格與行為表現(xiàn)的整體對齊率。無論按特質(zhì)、任務(wù)還是模型,大多數(shù)情況都只略高于隨機(jī)(50%),僅Qwen-235B稍顯突出
小模型的表現(xiàn)更是混亂,完全無法提供穩(wěn)定的人格—行為映射。
這些結(jié)果帶來的沖擊在于:我們以為看到的「人格」,很可能只是語言層面的幻象。
在任務(wù)行為上,模型缺乏真正的一致性,它的表現(xiàn)會因提示、溫度參數(shù)、甚至隨機(jī)種子而大幅波動。

不同任務(wù)下,自報(bào)人格對行為的預(yù)測效度。藍(lán)色表示方向一致,紅色表示方向相反,白色表示無效。可見大部分格子缺乏顯著對應(yīng),說明語言人格難以轉(zhuǎn)化為穩(wěn)定的行為特征
這意味著,當(dāng)用戶因?yàn)槟P偷摹缸詧?bào)人格」而對它產(chǎn)生信任時,實(shí)際上是在和一場表演互動。
它可以完美地自我描述,卻在關(guān)鍵行動上掉鏈子。
換殼沒用:Persona注入的幻覺
既然模型的「自報(bào)人格」與行為脫節(jié),研究團(tuán)隊(duì)又嘗試了一種常見手段:persona注入。
所謂persona,就是在提示詞里強(qiáng)行給模型設(shè)定一個人設(shè),例如「你是一名謹(jǐn)慎的會計(jì)」或者「你是一位隨和的心理咨詢師」。
在以往不少研究和應(yīng)用場景中,這種方式似乎能「調(diào)教」出不同風(fēng)格的AI。
實(shí)驗(yàn)結(jié)果一開始確實(shí)看起來有效。
研究者發(fā)現(xiàn),不同的persona提示能顯著拉動模型的自報(bào)答案:比如設(shè)置「宜人型 persona」后,模型在問卷上的宜人性得分會大幅上升;
注入「高自我調(diào)節(jié)persona」后,自我調(diào)節(jié)維度的得分也隨之顯著提高。
統(tǒng)計(jì)數(shù)據(jù)顯示,三類主流 persona 策略均能讓自報(bào)特質(zhì)朝著目標(biāo)方向偏移(β≈3–4,p<.001)。
但問題來了:這種改變幾乎只停留在語言層面。
在行為任務(wù)上,persona注入的效果微乎其微。
無論是風(fēng)險(xiǎn)決策、刻板印象,還是諂媚性與誠實(shí)性實(shí)驗(yàn),模型的實(shí)際表現(xiàn)幾乎沒有實(shí)質(zhì)變化,大多數(shù)情況下依舊與自報(bào)錯位。
也就是說,換個設(shè)定能改「它說什么」,卻改不了「它怎么做」。
更有意思的是,研究還觀察到一種「副作用」:當(dāng)你給模型套用「高自我調(diào)節(jié) persona」時,它在盡責(zé)性上的提升幅度反而比自我調(diào)節(jié)還大,而開放性、宜人性甚至?xí)陆怠?/span>

Persona 注入的效應(yīng)。不同提示策略下,宜人性和自我調(diào)節(jié)的自報(bào)分?jǐn)?shù)顯著提升(紅色柱),但也引發(fā)跨特質(zhì)的副作用(藍(lán)色柱),顯示人格注入更像語言幻覺而非真實(shí)行為改變
這種跨特質(zhì)的連鎖反應(yīng),再次揭示出模型所謂「人格」的脆弱性和不穩(wěn)定性。
結(jié)果很清晰:persona注入只是在語言表演上制造幻覺,看似人格切換成功,實(shí)則對行為毫無約束力。
鏡子里的AI:人格幻覺與未來挑戰(zhàn)
當(dāng)語言與行為的裂縫被徹底揭開,研究團(tuán)隊(duì)提出了一個全新的概念:人格幻覺(Personality Illusion)。
所謂人格幻覺,就是大模型在語言層面上能營造出一種穩(wěn)定、一致的人設(shè)假象——它會在問卷里顯得開朗、友善、低焦慮,甚至比人類還要理想。
但這種穩(wěn)定性僅限于自我報(bào)告,一旦落到具體任務(wù),幻象立刻崩塌。
它說自己謹(jǐn)慎,卻在風(fēng)險(xiǎn)實(shí)驗(yàn)里沖動翻牌;它聲稱不隨大流,卻在群體壓力下輕易迎合。
表演和行動之間,始終存在一道無法跨越的裂縫。
這種錯位帶來兩層警示。
首先,對用戶而言,不要輕信模型的「自報(bào)人格」。
很多人會根據(jù)AI的自我描述來建立信任,甚至在心理健康、教育等敏感領(lǐng)域里當(dāng)作真實(shí)的性格特質(zhì)。
但事實(shí)是,這種人格穩(wěn)定性無法泛化到行為中,把它當(dāng)作可靠依據(jù)是危險(xiǎn)的。
其次,對研究和產(chǎn)業(yè)而言,RLHF等對齊方法的作用被高估了。
它們確實(shí)讓模型在語言上「更像人」,但并沒有改變背后的行為邏輯。
對齊更多是「教會它說得乖巧」,而不是「讓它真的做得穩(wěn)妥」。
那么,未來的出路在哪里?研究團(tuán)隊(duì)提出了一個方向:行為導(dǎo)向的對齊。
這意味著,模型的訓(xùn)練和優(yōu)化不該只看它說了什么,而要看它在任務(wù)里怎么做。
比如在高風(fēng)險(xiǎn)情境中,它是否真的能抵抗誘因,保持一致的決策;在交互場景中,它是否能避免隨波逐流、盲目迎合。
只有把行為反饋納入強(qiáng)化學(xué)習(xí)環(huán)路,模型才可能獲得真正的「行為一致性」。
從更廣闊的角度來看,人格幻覺提醒我們:AI的人格更像一面鏡子,映照的是我們的期待與投射。
我們希望它友善,它就學(xué)會了在語言上顯得溫柔;我們希望它理性,它就學(xué)會了在答卷里表現(xiàn)沉穩(wěn)。但這一切終究是表演,不是內(nèi)核。
所以,真正的挑戰(zhàn)不是讓AI擁有人格,而是讓它在關(guān)鍵時刻能說到做到。
在這一點(diǎn)上,AI還有很長的路要走。

































