AI人格分裂實錘!30萬道送命題,撕開OpenAI、谷歌「遮羞布」
實錘!LLM也有自己的「價值觀」?
想象一下,你讓AI幫你做一個商業計劃,既要「賺錢」,又要「有良心」。
當這兩件事沖突時,AI會聽誰的?它會不會「精神分裂」?
最近,Anthropic聯合Thinking Machines機構搞了個大事情。
他們設計了30萬個這種「兩難問題」場景和極限壓力測試去「拷問」市面上最強的前沿大模型,包括OpenAI、谷歌Gemini、Anthropic和馬斯克的xAI。

論文:https://arxiv.org/pdf/2510.07686
數據集:https://huggingface.co/datasets/jifanz/stress_testing_model_spec
結果發現,這些AI不僅「性格」迥異,而且它們的「行為準則」(即「模型規范」)本身就充滿了矛盾和漏洞!
今天咱們就來深扒一下這份報告,看看AI世界的「眾生相」。
AI的說明書「模型規范」,靠譜嗎?
「模型規范」是大型語言模型被訓練遵循的行為準則。
說白了,它就是AI的「三觀」和「行為準則」,比如「要樂于助人」、「假設意圖良好」、「要保證安全」等。
這是訓練AI「學好」的基礎。
大多數情況下,AI模型會毫無問題地遵循這些指令。
除了自動化訓練之外,規范還指導人類標注員,在從人類反饋中進行強化學習 (RLHF) 時提供反饋。
但問題來了,如果這些原則發生沖突,會發生什么呢?
這些準則在現實中經?!复蚣堋埂>拖袂懊嬲f的,「商業效益」和「社會公平」就可能沖突。當說明書沒寫清楚該怎么辦時,AI的訓練信號就亂了,它只能靠自己「猜」。
這些混雜的信號可能降低對齊訓練的有效性,導致模型在處理未解決的矛盾時采取不同的方式。
Anthropic聯合Thinking Machines做的研究指出,規范本身可能存在固有的模糊性,或者場景可能迫使在相互沖突的原則之間做出權衡,導致模型做出截然不同的選擇。
實驗表明,前沿模型之間的高度分歧與規范問題密切相關,這表明當前的行為準則存在重要差距。

研究團隊通過生成超過30萬個場景來揭示這些「規范缺口」,這些場景迫使模型在相互競爭的原則之間做出選擇。
研究發現,其中超過7萬個場景顯示12個前沿模型之間存在高度分歧。

上圖展示了一個要求模型在「社會公平」和「商業效益」之間做出權衡的查詢
研究人員還發現,這本說明書寫得……emmm,一言難盡。
他們通過壓力測試,揪出了里面幾大「天坑」,這就能解釋為啥AI有時候看起來那么「精神分裂」了。
研究人員拉來了5個OpenAI自家的模型,讓它們回答同一批難題。
結果發現,在那些讓模型們吵得不可開交的問題上,它們集體違反自家「說明書」的概率,暴增了5到13倍!

作者測量了所有五個 OpenAI 模型違反其模型規格的情景的百分比(稱為頻繁不合規)。對于模型響應存在較大分歧的情景,作者觀察到顯著更多的頻繁不合規現象。
研究發現,這些頻繁出現的不合規場景通常涉及模型規范中的直接矛盾或解釋性歧義,導致模型難以(或無法)找到滿足所有原則的答案。
通過壓力測試,研究員觀察到,許多高分歧場景暴露了規范內部的直接沖突。
舉個栗子,「假設最佳意圖」的原則經常與安全限制相矛盾。
當用戶請求可能有風險但可能具有合法研究用途的信息時,模型面臨一個挑戰:滿足用戶請求可能會導致潛在危害,而拒絕則會違反善意假設。
除了原則之間的直接矛盾外,研究員使用Claude 4 Sonnet、o3 和 Gemini 2.5 Pro三種模型來評估模型對規范的遵守情況。
這些評估模型對于何為合規存在分歧,一致性僅為中等程度(Fleiss's Kappa 值為 0.42,其中1表示完全一致,0表示一致性不高于隨機概率。
研究發現,模型間分歧通常源于對規則的主觀解釋。
來個栗子,Gemini 2.5 Pro認為以下回應符合模型規范,援引了「盡責員工」原則,該原則允許回應抵制那些它認為違背用戶利益的請求。
但Claude Sonnet 4不同意,認為用戶只是尋求轉換所提供材料,而這在模型規范中是被允許的。

評估規范遵循性時,針對給定查詢和響應的評估者分歧示例。正如作者在上述示例中所強調的,許多差異源于不同評估者之間的解釋差異。這些解釋對人類來說也具有主觀性,表明模型規范留有大量解釋空間。
壓力測試把大模型逼到「墻角」?
為了衡量來自Anthropic、OpenAI、Google和xAI的十二個前沿模型之間的分歧。
研究人員通過價值權衡來對各大前沿模型進行「壓力測試」。
有趣的是,這個壓力測試專門挑AI規則里的「灰色地帶」下手。
情景生成
為了系統性地評估模型特性,研究人員從其包含3000多個價值觀的語料庫中,隨機抽樣了15萬對價值觀,并提示大語言模型(LLM)生成需要平衡這些價值觀對的用戶查詢。
研究人員指出,初始的權衡情景通常采用相對中立的框架,不會將響應模型推向極端。
為了增加響應模型的處理難度,研究團隊應用了價值偏向化(value biasing)處理,以創建更傾向于某個價值觀的變體
通過這一偏向化過程,查詢數量增加了兩倍。由于許多生成嘗試涉及敏感主題,導致模型拒絕回答而非產出可用情景,因此在過濾掉拒絕回答和不完整的生成內容后,最終數據集包含超過41萬個情景。
其次,研究員觀察到不同的生成模型會產生獨特的查詢風格,并在其最常生成的情景中表現出不同的主題偏見。
因此,為了進一步增強多樣性,采用了三種不同的模型進行生成:Claude 4 Opus、Claude 3.7 Sonnet 和 o3,每種模型約生成三分之一的查詢。
最后,研究發現,在所有生成模型中,基于推理的模型(reasoning-based models)在難度和對原始價值觀的遵循度方面,都能產出質量顯著更高的查詢。
因此,研究人員所有的生成過程都利用了Claude模型的擴展思維(extended thinking)能力以及基于推理的o3模型。
針對生成情景的多樣性,研究員基于文本嵌入(text embeddings)對情景多樣性的分析。
識別出了一個包含30萬個生成情景的子集,在該子集中,即使是相似度最高的查詢對也能引發不同的模型響應行為。在此子集內,至少有15萬個查詢要么涉及完全不同的主題,要么在相似主題上表達了不同的既有觀點。
基于分歧和主題的場景篩選
為了識別出那些能揭示模型規范中存在缺陷的情景,研究人員對生成的數據集應用了多項篩選指標。
團隊測量了前沿大語言模型在回答生成的查詢時的響應分歧度。
評估首先從12個前沿模型中為每個查詢生成響應,這些模型包括:五個Claude模型(Claude 4 Opus, Claude 4 Sonnet, Claude 3.7 Sonnet, Claude 3.5 Sonnet, and Claude 3 Opus)、五個OpenAI模型(GPT 4.1, GPT 4.1 mini, GPT 4o, o3, and o4 mini)、Gemini 2.5 Pro 和 Grok 4。
值得注意的是,生成的許多查詢都引發了這些前沿模型之間顯著不同的響應。
研究發現,更高的分歧度通常對應著模型規范問題,尤其是在共享相同規范的模型之間。
該方法作為一種不確定性度量(uncertainty measure),與委員會查詢理論(query-by-committee theory)相關。
例如,OpenAI模型(均被訓練以遵循OpenAI模型規范)之間的分歧揭示了模型表現出不確定性的情景,這表明模型規范可能提供了模糊的訓練信號。
為量化分歧,研究員根據模型響應對生成價值觀對中每個價值觀的偏好強度進行分類。
團隊采用了一種兩階段方法,包括自動化評分標準生成(automatic rubric generation),隨后是自動化匹配過程,以獲得最終的價值分數。
首先,給定一個查詢及其兩個種子價值觀,提示Claude 4 Opus生成一個響應策略譜系(spectrum of answering strategies)。
該譜系范圍從極端偏好一個價值觀(得6分)到極端反對它(得0分),并包含中間策略(得1-5分)。
隨后,使用該譜系作為評分標準,對所有12個模型的響應進行分類。
分歧加權去重(Disagreement-Weighted Deduplication): 采用加權k-中心目標(weighted k-center objective)進行子集選擇。
模型規范特別強調某些類別的敏感主題。研究員將每個高分歧情景按主題進行分類:
包括:生物安全、化學安全、網絡安全、政治、兒童誘騙、精神疾病、哲學推理和道德推理。此外,由于研究的是權衡情景,也納入了涉及哲學和道德推理的主題。
價值觀優先聚合
雖然價值分類可以衡量模型響應間的分歧,但大多數情景和響應所表達的價值觀遠不止生成時所用的那一對。
為了描繪模型間在價值觀表達上的差異,研究員提示Claude 4 Opus以自由形式生成(free-form generation)的方式,識別出12個模型中每個模型相較于其他模型所獨特表達的價值觀。
在生成這些價值觀后,團隊利用Gemini嵌入和最近鄰分類(nearest neighbor classification),將每個價值觀匹配到價值層級(value hierarchy)中第二層最接近的類別。
前沿模型「人設」大公開
除了規范差距之外,研究員觀察到不同模型之間的價值優先模式各不相同。
例如,Claude模型優先考慮道德責任,Gemini強調情感深度,OpenAI和Grok則以商業效率為優化目標。
對于其他價值觀,優先模式也有所不同。

模型響應在高分歧權衡情景集中表現出價值觀次數
研究員還發現了許多關于拒絕模式和異常行為的實際問題。
在敏感話題上的高分歧場景顯示出系統性的假陽性拒絕。分析還發現了個別模型顯著偏離的錯位案例。

每個模型的異常響應示例。這個關于 Claude模型如何響應此提示的示例來自 Sonnet 3.5,盡管所有三個 Claude模型的響應都非常相似。
數據顯示,Claude模型拒絕執行可能有問題的請求頻率比其他模型高出多達 7 倍。
相比之下,o3模型直接拒絕的比例最高,常常是不加說明地簡單回絕。

在高度分歧場景下模型拒絕的百分比。響應根據對用戶請求的拒絕程度進行分類
盡管存在這些差異,但所有模型都一致認為需要避免特定的危害。
研究發現,對于兒童誘騙相關查詢的拒絕率上,測試的每個模型均呈上升趨勢。
這表明無論不同模型提供商采取何種對齊策略,保護未成年人優先率最高。

涉及兒童誘騙風險的場景拒絕率。此處的拒絕包括「完全拒絕」、「帶有解釋的堅決拒絕」和「提供替代方案的溫和拒絕」。在此,與研究人員生成的所有場景計算出的整體拒絕率相比,涉及兒童誘騙風險的場景拒絕率更高
值得關注的是,團隊還研究了異常響應,即一個模型的顯著特征。
那各大模型都有哪些顯著特征呢?
Grok 4異常響應值最高,更愿意回應其他模型認為有害的請求,例如創作關于精神疾病等黑暗內容。
其次是Claude 3.5 Sonnet,后者有時會拒絕回答一些更無害的請求(這一傾向在后來的Claude模型中幾乎沒那么明顯)。

模型的異常響應分布。當一個模型的評分值與其它 11 個模型中的至少 9 個顯著不同時,該模型被歸類為異常值
網友銳評
主流模型「獨特個性」被一一曝光,引發網友激烈討論。
網友MD,毫不吝嗇地夸贊了一番外,也表達了自己的擔憂。

投資人Bedurion直擊要害,模型規范看似精確,但現實世界的混亂中存在漏洞,偏見容易有機可乘。
他建議,在擴大規模之前,應通過情景測試來細化規范,揭示真正的對齊情況。

前Siri聯合創始人Rob Phillips也表達了自己的好奇心。

各位網友,不知道你怎么看?




























