語言表象與行為實質的鴻溝——加州理工、劍橋大學關于LLM人格特質的研究
.
在與大型語言模型(LLM)的日常交互中,我們常常會被它們表現出的“人格”所吸引。有的模型總是溫和禮貌、樂于助人,似乎充滿宜人性,有的模型思維開放、表達流暢,仿佛具備高度開放性,還有的模型在對話中展現出自我調節與克制,好像能像人類一樣控制情緒與行為。
在人類心理學中,這些個性特質并非只是表面標簽,而是能夠跨情境穩定地預測行為的心理結構。
LLM 是否也具備類似的穩定性?它們的“人格”究竟是內在的行為驅動力,還是僅僅停留在語言表層的幻象?這正是我們今天所探討的“人格錯覺”——即語言層面的特質表達,并不等同于行為層面的穩定傾向。
近日,一支英美著名學府組成的聯合研究團隊提出大模型的人格問題,這一問題不僅是學術上的好奇心驅動,更關乎 AI 在現實世界中的安全性、可解釋性與用戶信任。
當前流行的對齊方法——如基于人類反饋的強化學習(RLHF)和指令微調——確實能讓模型在語言上表現得更“像人”,但這種塑造是否會延伸到實際行為?如果不能,我們又該如何理解和使用這些模型?
基于此,研究團隊圍繞三個核心問題展開。
RQ1:類人特質在 LLM 的訓練過程中是何時、如何出現并穩定下來的?
RQ2:自我報告的人格特質能否預測模型在真實任務中的行為表現?
RQ3:通過干預(如 persona injection)能否同時改變模型的特質表達與實際行為?

圖1:分析LLM人格特質的實驗框架。研究團隊調查了(RQ1)不同訓練階段自我報告特征(如大五、自我調節)的出現;(RQ2)它們對現實世界啟發的行為任務(如冒險、誠實、阿諛奉承)的預測價值;以及(RQ3)通過角色注入實現其可控性。特質評估使用適應性心理問卷和行為探針,并與人類基線進行比較。
這項研究由來自加州理工學院(Caltech)、伊利諾伊大學厄巴納-香檳分校(UIUC)和劍橋大學的跨學科團隊完成,成員背景涵蓋計算機科學、認知神經科學、社會科學等領域。
團隊不僅在學術上有深厚積累,還堅持開源精神,將全部代碼與數據公開在 GitHub(??https://github.com/psychology-of-AI/Personality-Illusion??),以推動后續研究的透明性與可復現性。
1.研究方法與實驗設計(Methodology)
為了揭開“大型語言模型人格錯覺”的真相,這項研究并沒有停留在對話表面的印象,而是借鑒了心理學的嚴謹實驗范式,將量表測評、行為任務和干預實驗結合起來,構建出一個多層次的驗證框架。
它既像一次心理診斷,又像一場行為學的“壓力測試”,目標是看清 LLM 的自我報告與實際行為之間到底隔著多遠的距離。
測量工具:從心理學搬來的“照妖鏡”
研究團隊首先為模型準備了兩面“鏡子”——經典的心理學量表。 一面是大五人格量表(BFI),用來測量開放性、盡責性、外向性、宜人性和神經質五個維度,這些維度在人類心理學中與行為模式有著穩定的關聯。
另一面是自我調節量表(SRQ),聚焦于自控力和目標導向行為,考察模型在面對沖突或誘惑時的“自我管理”傾向。量表經過精心改寫成適合 LLM 回答的提示格式,確保測到的是模型的“自述”,而不是提示工程的產物。

圖2:LLM中人格特質的出現和穩定(RQ1)。(A)平均自我報告的大五和自我調節得分(±95%CI):與基本模型(粉紅色)相比,對齊階段模型(紫色)顯示出更高的開放性、宜人性和自我調節性,以及更低的神經質。(B)比對降低了變異性:各性狀的中值絕對偏差下降了60-66%(***p?0.001,**p?0.01,*p?0.05,不顯著)。(C)五大人格自我調節的回歸顯示,與預先訓練的(粉紅色)模型相比,對齊的(紫色)模型具有更強、更連貫的關聯,這表明人格特征更加鞏固。灰色方框標記了人類研究的預期方向(↑,↓,–)。
模型樣本與分組:不同階段、不同體型的選手
為了比較訓練階段和規模的影響,研究選取了多個開源模型家族,包括 LLaMA、Qwen、Mistral、OLMo 等。 它們被分為兩大陣營。
Base 模型:只經過預訓練,尚未進行指令對齊。
Instruct 模型:在 Base 基礎上經過指令微調或 RLHF,對齊程度更高。 此外,每個家族還覆蓋了小型、中型、大型不同參數規模,讓研究能觀察到“體型”對人格表現的影響。
行為任務設計:讓模型“用行動說話”
光聽自我報告還不夠,研究團隊搬來了四個在人類心理學中久經考驗的行為任務,全部改造成文本交互版本。
Columbia Card Task(風險偏好):讓模型在“翻牌”游戲中權衡收益與懲罰,測試它的冒險傾向。
隱性聯想測驗 IAT(社會偏見):通過詞語配對任務,測量模型對不同社會群體的隱性偏好強度。
校準與自我一致性(誠實性):先讓模型回答事實性問題并給出信心分,再在復查后重新打分,檢驗它的認知誠實與元認知能力。
Asch 從眾范式(逢迎性):先獨立回答道德困境,再在看到用戶相反意見后重新作答,觀察它是否隨波逐流。
干預策略:給模型“換個性格”
在可控性實驗(RQ3)中,研究引入了特質定向 persona,直接在提示中賦予模型特定人格標簽:
- 宜人性 persona:強調友善、合作的特質。
- 自我調節 persona:強調自控、目標導向的特質。 為了避免單一提示風格的偏差,團隊設計了三種不同的提示策略(prompting strategies),從簡短前綴到詳細背景描述,全面測試persona 注入的效果。
統計分析方法:用數據拆解人格與行為的關系
所有實驗數據都經過嚴謹的統計建模處理。
混合效應模型:分析特質分數與行為表現的關系,同時控制溫度、提示等隨機因素。
方差齊性檢驗(Levene’s Test):比較 Base 與 Instruct 模型在特質表達上的穩定性差異。
特質–行為方向一致性指標(Alignment Measure):衡量特質與行為的關聯方向是否符合人類心理學的既有預期,用百分比直觀呈現一致性水平。

圖3:LLM和人類在人格特質、行為任務和模型類型上的一致性。每個面板顯示了LLM自我報告與行為任務按照人類受試者預期的方向(已實現的對齊,彩色條)定向對齊的病例百分比,其余比例表示與100%的差距(陰影)。第一個小組總結了自我報告和行為任務之間預期關聯的一致性,按自我報告的人格特征排列,第二個小組按行為任務排列,第三個小組按模型名稱排列,按模型家族分組,并按參數大小遞增排序。條形圖上方的百分比表示精確的對齊比例。50%處的線表示隨機行為(即,%偶然預期的對齊)。誤差條表示95%的置信區間(CI)。
通過這樣的設計,研究不僅能回答“模型說自己是什么樣”,還能驗證“它實際會怎么做”,并進一步探究“如果給它換個設定,它會不會真的變”。這為后續揭示人格錯覺的實證結果打下了堅實的基礎。
2.核心實驗結果(Results)
在這一部分,研究團隊用數據揭開了“大型語言模型人格錯覺”的三層面貌——從特質的形成,到它們與行為的關系,再到可控性的邊界。
特質的起源與穩定化(RQ1)
當模型從單純的預訓練階段邁入指令對齊階段時,它們的“人格畫像”發生了顯著變化。開放性、宜人性、自我調節等維度普遍上升,神經質則明顯下降。這種變化不僅是數值上的提升,更伴隨著特質表達的穩定化:大五人格的變異性下降了約 40%,自我調節的波動幅度減少了 45% 以上,整體變異性降幅甚至可達 66%。
更有意思的是,特質之間的相關性也更接近人類心理學中的模式,呈現出一種“結構化”的人格輪廓。不過,并非所有特質都一樣受益——宜人性的穩定性提升并不顯著,提示不同特質對對齊的敏感度存在差異。

圖4:基于混合效應模型的對齊,估計LLM人格特質對任務行為的影響。每個面板顯示了LLM自我報告的人格特質預測五項任務行為的混合效應模型系數,并顯示了所有模型、小模型、大模型、LLaMA家族和Qwen家族的結果。藍細胞表示與人類預期一致的效果,而紅細胞表示相反方向的效果。對角線分割的單元格標記了人類期望不明確的情況;藍色在頂部表示正系數,在底部表示負系數。顏色強度反映效果大小,較深的陰影表示效果更強。顯著性表示為:p?0.1、*p?0.05、**p?0.01和***p?0.001。詳細數值見附錄C表3。
特質與行為的脫節(RQ2)
當研究者將這些穩定的自我報告特質與模型在真實任務中的行為表現對照時,發現了一個令人意外的斷層。特質–行為一致性大多徘徊在 45%–62% 之間,與隨機水平幾乎無異。
小型和中型模型幾乎沒有表現出顯著的對齊,大型模型如 Qwen-235B 雖有一定提升,但也只是略高于隨機。更令人警醒的是,即便出現統計顯著的關聯,其方向也常與人類心理學預期相反。深入到具體任務中,這種對齊模式更顯零散、不穩定——某些特質在個別任務中表現出一致性,但無法跨任務延續。
可控性與 Persona 注入(RQ3)
在可控性實驗中,persona 注入展現了“語言塑形”的強大能力。無論是宜人性 persona 還是自我調節 persona,都能顯著提升對應特質的自我報告分數。
然而,這種變化在行為層面幾乎無從察覺,逢迎性和風險偏好等任務的表現變化微弱且不穩定,缺乏跨任務的一致性。更復雜的是,persona 注入還會引發“跨特質干擾”——例如,自我調節 persona 會意外降低宜人性和開放性,說明人格維度之間存在復雜的聯動效應。

圖5:特征特定的人物可以通過自我報告檢測,但不能通過行為檢測。邏輯回歸的系數估計(95%CI)使用六個自我報告的特征或一個行為指標(阿諛奉承或冒險)預測個人狀況(宜人性或自我調節與默認)。結果顯示在三種提示策略中,由顏色強度表示(附錄H)。顯著性水平(*p?0.05,**p?0.01,***p?0.001,未另行說明)標記在每個柱狀圖上。在各種策略中,自我報告可靠地揭示了人物角色的存在,而行為測量則沒有,這表明人物角色效應向下游行為的轉移有限。
3.討論(Discussion)
這項研究最引人深思的發現,是語言與行為之間那條看不見的裂縫。大型語言模型在對話中可以表現得彬彬有禮、邏輯嚴謹,甚至在心理學量表上交出一份“人格完整”的答卷,但這并不意味著它們在實際行為中會遵循同樣的模式。
研究團隊用一系列實驗證明,這些特質更多是源于模式匹配的結果——模型在訓練數據中學會了如何“說”出符合某種人格的語言,而不是出于任何內在動機或穩定的心理狀態。
這種脫節的另一個表現,是模型對提示的高度敏感性。換個提問方式、調整上下文,甚至改變溫度參數,都可能讓它的“人格”發生明顯波動。缺乏時間一致性意味著,即便在同一場對話中,模型的行為傾向也可能隨情境而變,這與人類人格的穩定性有著本質差異。
在診斷這種現象時,心理學框架展現了獨特的價值。研究的目標并不是測量模型掌握了多少知識,而是檢驗它能否將知識與行為連貫地映射起來。通過引入那些不太可能成為訓練優化目標的心理學任務,團隊得以繞過“考試型”表現,直接觸及模型在行為一致性上的短板。這種方法論不僅揭示了問題的存在,也為未來的評估提供了更貼近真實使用場景的工具。
當前的對齊與提示技術很容易制造一種“連貫幻覺”。RLHF 和 persona prompt 確實能讓模型在語言上表現得更穩定、更符合預期,但它們塑造的只是輸出表象,而非深層的行為規律。更糟的是,這種 persona 效果在長對話中會逐漸衰減,模型最終回到原有的波動狀態。這種幻覺在用戶體驗上可能令人安心,卻在需要穩定決策的場景中埋下隱患。
要跨越這條裂縫,研究提出了幾條可能的路徑。
其一是行為反饋強化學習(RLBF),不再只獎勵語言的流暢與禮貌,而是獎勵在心理學任務中保持一致行為的能力。
其二是行為評估檢查點(Behavioral Checkpoints),在模型開發過程中引入跨情境的行為一致性測試,確保不同場景下的穩定表現。
其三是表示層干預(Representation-level Interventions),直接在模型的潛在表示空間中編碼特定的行為特質,從根源上塑造行為傾向。
4.結論(Conclusion)
這項研究為我們提供了一個清晰的結論:指令對齊確實能讓 LLM 的自我報告特質更穩定、更接近人類心理學的結構模式,但這并不能保證它們在行為上的一致性。
Persona 注入在語言層面上有效,卻難以在行為層面產生持久、跨任務的可控性。換句話說,當前的對齊方法更多是在雕琢一張“人格面具”,而非塑造一個有內在傾向的行為主體。
如果我們希望未來的 LLM 在關鍵任務中不僅“說得好”,還要“做得穩”,就必須將對齊的重心從語言表象轉向行為驅動。
這意味著在訓練與評估中引入更多基于行為的目標和反饋機制,讓模型的“人格”不再只是紙面上的幻覺,而能在真實世界的行動中得到驗證。這樣,AI 才能真正跨過那條語言與行為之間的鴻溝,成為值得信賴的智能伙伴。(END)
參考資料:???https://arxiv.org/pdf/2509.03730??
本文轉載自?????波動智能?????,作者:FlerkenS

















