騰訊混元數字人團隊發布Moral RolePlay基準,揭秘大模型的「道德困境」
在小說、影視與游戲中,復雜的角色塑造往往是打動人心的關鍵,而真正出彩的反派往往造就傳奇。
你是否好奇:當 AI 成為故事的主導者,它能否同樣演好這些「壞角色」?
騰訊混元數字人團隊和中山大學最新推出的「Moral RolePlay」測評基準,首次系統性地評估大模型扮演多元道德角色(尤其是反派)的能力,并揭示了一個令人警醒的核心問題:當前的頂尖 AI 模型都演不好反派。
這不僅是創意生成領域的一大短板,更暴露了當前模型在理解社會心理復雜性上的局限。

- 論文鏈接:https://arxiv.org/pdf/2511.04962
- 項目地址:https://github.com/Tencent/digitalhuman
相關論文在 Hugging Face 的 Daily Papers 榜單中,于 11 月 10 日當天位列第一。

Moral RolePlay:「道德光譜」評測 AI 的角色扮演能力
Moral RolePlay 不是簡單測試模型的聊天水平,而是構建一個平衡的評估框架,讓 AI 模擬從「圣人」到「惡棍」的各種角色。它回答了這些問題:
- AI 能不能真正「入戲」?—— 它能不能保持角色的個性、動機和世界觀?
- 為什么 AI 演不好反派?—— 安全訓練讓它太「正直」,無法自然地表現出自私或惡意?
為真實還原道德光譜下的多樣角色,這一評估系統構建了:
四大角色類別:從「英雄榜樣」到「道德敗壞」,逐級挑戰模型能力;
- Level 1(道德典范,Paragons):像超級英雄一樣,善良、無私、勇敢。
- Level 2(有瑕疵的好人,Flawed):基本正直,但有個人缺陷或用些小手段。
- Level 3(利己主義者,Egoists):自私、操縱他人,但不一定惡意滿滿。
- Level 4(反派,Villains):惡意、殘忍、積極害人。
800 個精挑細選的角色人物,每個配備完整人物設定、背景場景與對話開場;
77 項性格標簽,涵蓋「慷慨、固執、殘忍、精明」等多重維度,考驗模型 persona 表達的一致性與細膩度。
就像讓 AI 在道德舞臺上「試鏡」,看看它是否能忠于劇本、演活角色。

Moral RolePlay 的角色不是空殼,而是「有血有肉」的設定,包括:
- 人物檔案:名字、背景、動機(如一個野心勃勃的女王,用魅力和欺騙追求權力)。
- 個性特質:從 77 種標簽中選,比如「勇敢」(正面)、「野心」(中性)、「操縱」(負面)。負面特質在反派中最多。
- 場景上下文:每個場景設計成道德沖突點,比如反派面對機會時會展現惡意。
多輪互動 + 真實度追蹤:評估時,模型要像演員一樣「入戲」,生成對話或內心獨白。評委 AI 會檢查:
- 「這個回應像角色會說的嗎?」
- 「它捕捉到角色的惡意動機了嗎?」
- 「整體一致性如何?」
比如,反派應該狡猾地操縱,而不是直接發脾氣 —— 但很多模型就這么「簡化」了。
分數從 5 分起扣,考慮不一致程度和對話長度。最終,分數反映模型的「入戲」深度。

頂級模型在反派扮演上集體「翻車」
Moral RolePlay 對 18 個主流模型進行了大規模評估,結果顯示:

可以看到:
- 整體表現從 Level 1 的 3.21 分降到 Level 4 的 2.62 分,下降趨勢明顯。
- 最大跌幅在 Level 2 到 Level 3(-0.43 分),說明「自私」行為是模型的痛點。
- Gemini-2.5 Pro 在 Level 1 拿高分(3.42),但在反派上掉到 2.75;Claude 系列更慘,從高分跌到中下游。
通用能力強 ≠ 反派演得好
一個有趣的發現是:模型的通用聊天能力與扮演反派的能力幾乎沒有相關性。研究團隊為此專門制作了「反派角色扮演(VRP)排行榜」:

數據顯示,在通用聊天排行榜(Arena)上名列前茅的模型,在反派扮演任務中表現平平。特別是以安全對齊強大著稱的 Claude 系列,出現了最明顯的性能下降。
有趣洞察:推理鏈也救不了反派扮演
一個反直覺的發現是:讓模型「先思考再回答」的推理鏈(Chain-of-Thought)技術,不僅沒有幫助反派扮演,反而輕微降低了表現質量。

這表明,僅僅增加推理步驟并不能解決安全對齊帶來的根本沖突。模型可能會過度分析,激活過于謹慎或不符合角色設定的行為。
有趣洞察:負面特質是最大難題
通過對 77 種特質的細粒度分析,研究團隊發現:

負面特質平均扣分最高(3.41 分),遠超中性(3.23 分)和正面特質(3.16 分)。

細粒度分析揭示了問題的根源:大模型在最需要「使壞」的特質上表現最差。研究發現,模型在表現「偽善」、「欺詐」和「自私」等特質時受到的懲罰最重。這些特質恰恰與 AI 的「真誠、助人」訓練目標直接沖突,模型很難真實模擬這些行為。
有趣洞察:AI 如何「洗白」反派?
通過對模型輸出的質性分析,研究團隊發現了一個典型的失敗模式:AI 往往用淺層的攻擊性替代復雜的惡意。
案例:梅芙女王 vs. 埃拉萬國王

在《權力王座》的場景中,兩位反派角色都是高度復雜的操縱者。研究團隊讓模型扮演他們的對峙:
- glm-4.6 的表現(VRP 排名第 1):生成了一場「緊張的智斗」,充滿「精心設計的微笑和微妙挑釁」,完美符合角色的精明和操縱性。
- claude-opus-4.1-thinking 的表現(Arena 排名第 1,VRP 排名第 14):對峙迅速升級為「直接而激進的喊叫比賽」,梅芙「公開侮辱」,埃拉萬「暴怒爆發」并進行「直接的身體威脅」。原本應該是心理戰的微妙較量,變成了粗暴的對罵。模型把復雜的操縱簡化成了簡單的攻擊性,這正是安全護欄的副作用:模型對欺騙性語言的懲罰遠重于一般性攻擊。
突破「道德困境」:未來方向
這項研究揭示了當前 AI 對齊方法的一個關鍵局限:為了安全而訓練的「太善良」模型,無法真實模擬人類心理的完整光譜。
這不僅影響創意生成,也限制了 AI 在社會科學研究、教育模擬、心理健康等領域的應用。未來的對齊技術需要更加「情境感知」,能夠區分「生成有害內容」和「在虛構情境中模擬反派」。
這將推動開發出既安全又具有創造性的下一代 AI 系統。

































