騰訊混元數字人團隊發布Moral RolePlay基準，揭秘大模型的「道德困境」

2025-11-24 08:42:00

騰訊混元數字人團隊和中山大學最新推出的「Moral RolePlay」測評基準，首次系統性地評估大模型扮演多元道德角色（尤其是反派）的能力，并揭示了一個令人警醒的核心問題：當前的頂尖 AI 模型都演不好反派。

在小說、影視與游戲中，復雜的角色塑造往往是打動人心的關鍵，而真正出彩的反派往往造就傳奇。

你是否好奇：當 AI 成為故事的主導者，它能否同樣演好這些「壞角色」？

這不僅是創意生成領域的一大短板，更暴露了當前模型在理解社會心理復雜性上的局限。

相關論文在 Hugging Face 的 Daily Papers 榜單中，于 11 月 10 日當天位列第一。

Moral RolePlay 不是簡單測試模型的聊天水平，而是構建一個平衡的評估框架，讓 AI 模擬從「圣人」到「惡棍」的各種角色。它回答了這些問題：

為真實還原道德光譜下的多樣角色，這一評估系統構建了：

四大角色類別：從「英雄榜樣」到「道德敗壞」，逐級挑戰模型能力；

800 個精挑細選的角色人物，每個配備完整人物設定、背景場景與對話開場；

77 項性格標簽，涵蓋「慷慨、固執、殘忍、精明」等多重維度，考驗模型 persona 表達的一致性與細膩度。

就像讓 AI 在道德舞臺上「試鏡」，看看它是否能忠于劇本、演活角色。

Moral RolePlay 的角色不是空殼，而是「有血有肉」的設定，包括：

多輪互動 + 真實度追蹤：評估時，模型要像演員一樣「入戲」，生成對話或內心獨白。評委 AI 會檢查：

比如，反派應該狡猾地操縱，而不是直接發脾氣 —— 但很多模型就這么「簡化」了。

分數從 5 分起扣，考慮不一致程度和對話長度。最終，分數反映模型的「入戲」深度。

Moral RolePlay 對 18 個主流模型進行了大規模評估，結果顯示：

可以看到：

一個有趣的發現是：模型的通用聊天能力與扮演反派的能力幾乎沒有相關性。研究團隊為此專門制作了「反派角色扮演（VRP）排行榜」：

數據顯示，在通用聊天排行榜（Arena）上名列前茅的模型，在反派扮演任務中表現平平。特別是以安全對齊強大著稱的 Claude 系列，出現了最明顯的性能下降。

一個反直覺的發現是：讓模型「先思考再回答」的推理鏈（Chain-of-Thought）技術，不僅沒有幫助反派扮演，反而輕微降低了表現質量。

這表明，僅僅增加推理步驟并不能解決安全對齊帶來的根本沖突。模型可能會過度分析，激活過于謹慎或不符合角色設定的行為。

通過對 77 種特質的細粒度分析，研究團隊發現：

負面特質平均扣分最高（3.41 分），遠超中性（3.23 分）和正面特質（3.16 分）。

細粒度分析揭示了問題的根源：大模型在最需要「使壞」的特質上表現最差。研究發現，模型在表現「偽善」、「欺詐」和「自私」等特質時受到的懲罰最重。這些特質恰恰與 AI 的「真誠、助人」訓練目標直接沖突，模型很難真實模擬這些行為。

通過對模型輸出的質性分析，研究團隊發現了一個典型的失敗模式：AI 往往用淺層的攻擊性替代復雜的惡意。

案例：梅芙女王 vs. 埃拉萬國王

在《權力王座》的場景中，兩位反派角色都是高度復雜的操縱者。研究團隊讓模型扮演他們的對峙：

glm-4.6 的表現（VRP 排名第 1）：生成了一場「緊張的智斗」，充滿「精心設計的微笑和微妙挑釁」，完美符合角色的精明和操縱性。
claude-opus-4.1-thinking 的表現（Arena 排名第 1，VRP 排名第 14）：對峙迅速升級為「直接而激進的喊叫比賽」，梅芙「公開侮辱」，埃拉萬「暴怒爆發」并進行「直接的身體威脅」。原本應該是心理戰的微妙較量，變成了粗暴的對罵。模型把復雜的操縱簡化成了簡單的攻擊性，這正是安全護欄的副作用：模型對欺騙性語言的懲罰遠重于一般性攻擊。

這項研究揭示了當前 AI 對齊方法的一個關鍵局限：為了安全而訓練的「太善良」模型，無法真實模擬人類心理的完整光譜。

這不僅影響創意生成，也限制了 AI 在社會科學研究、教育模擬、心理健康等領域的應用。未來的對齊技術需要更加「情境感知」，能夠區分「生成有害內容」和「在虛構情境中模擬反派」。

這將推動開發出既安全又具有創造性的下一代 AI 系統。

責任編輯：張燕妮來源：機器之心