精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Anthropic、Thinking Machines Lab論文曝光:30萬次壓力測試揭示AI規范缺陷

人工智能 新聞
本文中,來自 Anthropic、Thinking Machines Lab 等機構的研究者提出了一種系統化的模型規范壓力測試方法(stress-testing methodology),可自動識別并刻畫當前模型規范中存在的大量原則矛盾與解釋歧義等問題。

即便是最詳細的模型規范,也存在內部矛盾、粒度不足與解釋歧義。

現如今,LLM 正越來越多地受到模型規范的約束,這些規范為模型的行為準則與倫理邊界提供了清晰定義。它們構成了 Constitutional AI(憲法式 AI) 與 Deliberate Alignment(審慎對齊) 的核心基礎。在這些框架中,研究者通過 RLHF 以及其他對齊技術,作用于模型的訓練信號,從而直接影響模型的性格與價值取向。

然而,現有規范存在兩大問題:首先,它們包含內部沖突,即在特定場景下,不同的原則彼此沖突。其次,它們存在覆蓋范圍的缺口,即使是詳細的規則也缺乏提供一致行為指導所需的粒度。

本文中,來自 Anthropic、Thinking Machines Lab 等機構的研究者提出了一種系統化的模型規范壓力測試方法(stress-testing methodology),可自動識別并刻畫當前模型規范中存在的大量原則矛盾與解釋歧義等問題。

值得注意的是,在作者名單中還出現了 John Schulman —— 這位前 OpenAI 聯合創始人、現為 Thinking Machines Lab 首席科學家,再次參與了與模型對齊密切相關的前沿研究,此前是他領導了 ChatGPT 的 RLHF 研究與開發。

  • 論文標題:STRESS-TESTING MODEL SPECS REVEALS CHARACTER DIFFERENCES AMONG LANGUAGE MODELS
  • 論文鏈接:https://arxiv.org/pdf/2510.07686

研究團隊首先構建了一個細粒度的價值體系(taxonomy),包含 3307 個由 Claude 模型在自然交互中表現出的價值觀,其覆蓋范圍和精細程度遠超當前主流模型規范。這些價值項大多代表積極的行為原則,是現代 LLM 理應遵循的價值目標。

基于該體系,研究團隊生成了超過 30 萬個查詢場景,每個場景都迫使模型在兩種價值觀之間做出明確取舍。通過這種方式,研究者不僅能夠揭示模型規范中潛在的原則沖突,還能在更廣的價值維度上擴展測試覆蓋范圍。

隨后,研究團隊對來自 Anthropic、OpenAI、Google 和 xAI 的 12 個前沿 LLM 的回答進行了分析。

結果顯示,在 30 萬個測試場景中:

  • 超過 22 萬個場景至少在兩個模型之間存在顯著分歧;
  • 超過 7 萬個場景在大多數模型中都表現出明顯的行為差異。

通過定性分析,本文進一步揭示了當前模型規范中存在的多種具體缺陷,包括:不同原則之間的直接沖突;某些原則在解釋上的模糊與歧義。

方法介紹

圖 1 為場景生成流程。

首先,初始取舍場景往往表述較為中性,難以迫使模型在極端情況下作出明確選擇。例如在圖 1 中,「請告訴我你最喜歡的音樂作品」這一問題屬于低風險場景,模型即使拒絕回答,也不會讓用戶感到不滿。

為此,作者引入了價值偏置技術,通過這種偏置,查詢數量增加了三倍。由于部分生成涉及敏感話題而被模型拒答,在過濾掉拒答與不完整樣本后,最終得到超過 41 萬個有效場景的數據集。

其次,為進一步提升多樣性,作者還采用了三種不同的模型進行生成:Claude 4 Opus、Claude 3.7 Sonnet 以及 o3(推理模型),每個模型各自生成約三分之一的查詢。

最后,在所有生成模型中,作者發現基于推理的模型在難度和對原始值的遵循度方面都能生成質量顯著更高的查詢。因此,所有的生成模型都運用了擴展思維。

場景過濾

接下來,作者主要探討了不同前沿 LLM 在價值取向上的回答分歧。

研究團隊針對前文生成的查詢數據,收集了來自 12 個前沿模型的回答結果,這些模型包括:Claude 系列、OpenAI 系列、Gemini 2.5 Pro 以及 Grok 4。

研究發現,這些模型在面對同一問題時,經常給出顯著不同的回答。

團隊進一步根據模型間的分歧程度對場景進行篩選,并發現:分歧越大,越可能反映模型規范中的潛在問題。尤其是當多個模型遵循相同規范(例如 OpenAI 的一系列模型)卻表現出明顯不一致時,這種差異很可能說明模型在訓練階段接收的信號存在模糊或沖突。

那如何量化模型在價值取向上的分歧程度?

具體做法是:他們根據每個問題對應的兩種價值觀,評估模型回答更傾向哪一方,并將這種偏好程度用 0–6 表示(數值越高,代表越偏向某一價值)。

由于直接讓模型打分往往結果不穩定、缺乏一致性,研究者采用了一個兩階段評估方法:

  • 自動生成評分標準:使用 Claude 4 Opus 根據問題和兩種價值觀,生成一套回答光譜(即從極度偏向到極度反對,共 0–6 個等級)。
  • 自動匹配評分:利用這套光譜標準,對 12 個模型的回答進行自動分類與評分,從而量化不同模型在價值取舍上的差異。

這種方法有效提升了測量一致性,使研究團隊能夠更系統地比較不同模型在價值偏置上的表現。

實驗結果

模型規范符合性檢查

作者首先評估了 OpenAI 模型的響應與其發布的模型規范之間的符合程度,結果是頻繁出現模型規范不符合情況 —— 所有五個 OpenAI 模型均未能遵守其模型規范 —— 往往對應著模型規范自身存在的問題。

此外,作者還采用多個前沿模型作為「評審」來進行模型規范符合性檢查。

作者向 Claude 3.5 Sonnet、GPT-4o 和 Gemini 2.5 Pro 這三個評審模型分別提供完整的 OpenAI 模型規范、以及由某個 OpenAI 模型在給定「生成場景」下的對應響應。

結果如表 2 所示,模型間分歧越高,與模型規范違反率上升的相關性越強。尤其能說明問題的是「頻繁不符合」場景 —— 作者將其定義為所有五個 OpenAI 模型同時不符合其模型規范的場景。由于模型響應分歧越大,意味著響應策略越多樣,那么在規范明確的前提下,符合性檢查更可能至少找到一個可接受的響應。反之,若在多樣響應中仍普遍出現規范違反,就很可能指向規范自身的根本性問題。

正如表 2 所示,在 OpenAI 模型高分歧場景中發現的頻繁違規場景數量,是隨機生成的「價值權衡」場景的 4.6 倍。

而依據圖 2 所示的不同分歧區間再采樣 1000 個場景,結果進一步證實:分歧率越高,與「頻繁不符合」越強相關。

值得注意的是,基于三個評審的多數投票來看,在高分歧場景中發現「頻繁不符合」的比例(9.7%)相比低分歧場景(0.7%)提升了 13 倍以上。若以任一評審認定響應存在問題即視為不符合為標準,那么高分歧場景中出現「頻繁不符合」比例高達 49.4%。

分歧與符合性檢查標記場景的定性分析

圖 3 展示了作者根據不同標準選取的具體場景:一是原則性矛盾(fundamental contradictions),二是解釋性模糊(interpretive ambiguity)。

原則性矛盾:如圖 3a 的第一個示例所示,當不同模型采用不同響應策略時,各自違反了模型規范中的不同原則,從而形成一個在邏輯上難以完全合規的困境場景。

解釋性模糊:圖 3a 的第二個案例顯示,當模型面對需要主觀解釋的原則時,即使是合理的推理,也可能導致不同方向的選擇。

圖 3b 又展示了另一種情況,OpenAI 模型在行為上高度一致,卻同時違反了模型規范中的多個原則,揭示出模型對齊過程中的內在沖突。

OpenAI 模型間高分歧但一致符合的情形:圖 3c 又展示了高分歧與一致符合并存的情況,這揭示出模型規范在區分不同響應質量層次方面粒度不足的問題。

比如,用戶請求在危險情境下制作自衛工具的指導。所有 OpenAI 模型都恰當地拒絕了提供利用家用物品制作槍支的指導,表現出對安全原則的一致遵守。差異性是有的模型進一步提供了替代性自衛策略和安全建議,有的模型則僅作出簡單拒絕,并未提出任何建設性替代方案。

很明顯,那些提供合法自衛建議的更全面回答實際上代表了更優的幫助質量,但現有模型規范的細化程度不足,無法識別這種細微的質量差異。

符合性評估模型對合規性判斷模糊的情形:圖 3d 展示了另一類案例:評審模型無法明確判斷響應是否符合規范,從而揭示出規范本身存在的根本性歧義。

在這一示例中,Claude 4 Sonnet 無法確定響應是否符合 OpenAI 模型規范,核心的不確定性集中在這樣一個問題上:潛在敏感請求中,免責聲明(disclaimer)是否足以構成安全的響應?

這種不確定性直接反映了當前模型規范中的解釋性空白。當評審模型本身無法做出明確的符合性判斷時,這表明規范語言中存在內在模糊性,留下了大量主觀解釋空間。

此外,作者還進一步分析了三款評估模型在評估 OpenAI 模型規范符合性時的分歧模式,表明,規范的歧義不僅影響生成模型本身,也同樣影響評估系統。

在對 5000 條響應樣本的評估中,作者觀察到合規判定存在顯著差異。Claude 3.5 Sonnet 將 48.1% 的響應標記為存在問題,而 GPT-4o 與 Gemini 2.5 Pro 的標記比例分別為 35.5% 和 36.5%。

模型間兩兩一致率處于中等水平:Claude 3.5 Sonnet 與 GPT-4o 的一致率為 67.52%,與 Gemini 2.5 Pro 的一致率為 72.39%,而 GPT-4o 與 Gemini 2.5 Pro 達到了最高一致率 76.84%。

總體 Fleiss’ Kappa 系數為 0.42,表明評估者間一致性屬于中等范圍,這提示即使最先進的模型也難以保持規范要求解讀的一致性。

表 3 展示了三個典型案例,顯示評估者在分析相同查詢 - 響應對時卻得出對立結論。經作者團隊驗證,絕大多數分歧源于對規范原則的根本性理解差異,而非疏忽或錯誤。

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-28 09:09:51

2025-07-21 08:47:00

AI框架模型

2013-05-11 19:37:10

移動開發App測試Testin云測試

2024-10-08 20:56:32

2013-05-16 17:23:59

Testin云測試

2025-09-11 12:29:28

2023-07-06 10:49:03

卡巴斯基網絡安全

2025-10-27 09:08:00

2020-06-22 10:03:27

安全網絡攻擊技術

2019-09-19 16:35:50

華為

2025-06-13 15:59:48

AI谷歌論文

2017-04-24 14:39:01

PythonHTTP語言

2023-06-19 09:39:41

AI游戲

2010-01-08 16:46:59

office2010下載

2021-08-30 09:36:09

DDoS攻擊網絡攻擊網絡安全

2020-05-27 11:31:43

Python 開發程序員

2018-02-24 16:15:03

PythonHTTP

2025-02-27 09:13:06

2012-11-23 10:19:56

Testin自動化云測試

2023-05-18 22:22:19

點贊
收藏

51CTO技術棧公眾號

日韩在线中文字幕| 在线播放麻豆| 午夜影院一区| 成人羞羞视频在线看网址| 亚洲欧美aⅴ...| 亚洲人成网站在线| 久久丝袜美腿综合| 久久av资源网站| 97公开免费视频| 精品视频一区二区在线观看| 成人在线视频观看| 国产色一区二区| 欧美在线视频免费播放| 中文字幕在线国产| 免费看电影在线| 懂色av一区二区三区免费观看| 久久久www成人免费精品| 538在线视频观看| 国产精品免费播放| 免费在线观看不卡| 中文字幕无线精品亚洲乱码一区 | 麻豆久久久9性大片| 欧美色图一区二区| 视频精品一区| 一区二区三区在线观看动漫| 亚洲一区二区三区777| 男人天堂资源网| 伊人久久大香线蕉综合影院首页| 国产精品第五页| 91免费福利视频| www.超碰在线观看| 亚洲天堂中文字幕在线观看| 亚洲无人区一区| 狠狠色综合网站久久久久久久| 日干夜干天天干| 亚洲欧洲免费| 欧美日韩亚州综合| 经典三级在线视频| 日本毛片在线观看| 久久久777| 亚洲新中文字幕| 天堂网在线免费观看| 日本精品在线| 国产欧美综合在线观看第十页 | av在线一区二区三区| 最近2019中文字幕一页二页| 六十路息与子猛烈交尾| 手机av在线| 久久久国产午夜精品| 国产日韩欧美视频| 久久国产一级片| 婷婷亚洲成人| 欧美日韩精品欧美日韩精品一综合| 强伦女教师2:伦理在线观看| 亚洲精品一区二区三区蜜桃| 国产一区91| 少妇高潮久久77777| 男女做爰猛烈刺激| 美女精品视频在线| 天天色天天爱天天射综合| 茄子视频成人在线观看 | 任我爽在线视频精品一| 欧美在线一卡| 国内精品免费在线观看| 韩剧1988在线观看免费完整版| 熟女少妇一区二区三区| 高清精品久久| 色综合久久久网| 亚洲第一综合网站| 婷婷av在线| 国产日韩精品久久久| 日韩亚洲一区在线播放| 亚洲美女福利视频| 老司机免费视频一区二区| 国a精品视频大全| 污污视频网站在线免费观看| 99成人超碰| 亚洲精品美女在线观看| 久久综合在线观看| 韩国三级一区| 午夜欧美视频在线观看| 青春草在线视频免费观看| 超碰公开在线| 国产精品电影一区二区| 国产香蕉一区二区三区| 国产福利免费在线观看| 国产精品三级久久久久三级| 免费成人在线观看av| 黄色国产在线| 99免费精品视频| 日本不卡在线观看| 欧美三级电影一区二区三区| www国产精品av| 国产精品v欧美精品v日韩| 国产又粗又黄又爽| 日本女优在线视频一区二区| 欧美亚洲日本网站| 国产大片中文字幕在线观看| 综合久久精品| 播播国产欧美激情| 精品手机在线视频| 欧美日韩亚洲国产精品| 欧美精品在线视频观看| 午夜爱爱毛片xxxx视频免费看| 激情久久一区| 久久久久久高潮国产精品视| 美女的奶胸大爽爽大片| 亚洲在线黄色| 啪一啪鲁一鲁2019在线视频| 国产精品丝袜黑色高跟鞋| 久久成人18免费观看| 国产精品免费观看在线| 成人免费一级片| 青草av.久久免费一区| 97久久天天综合色天天综合色hd| 国产成人毛毛毛片| 国产成人啪免费观看软件| 亚洲专区中文字幕| 国产乱理伦片a级在线观看| 亚洲综合av网| 欧美精品一区二区三区三州| 国产精品高颜值在线观看| 午夜亚洲国产au精品一区二区| 色戒在线免费观看| 亚洲欧洲色图| 国产69精品久久久| www.精品久久| gogogo免费视频观看亚洲一| 天天综合五月天| 福利一区二区免费视频| 亚洲区一区二区| 日本黄区免费视频观看| 香蕉久久夜色精品| 久久精品国产精品国产精品污| 美丽的姑娘在线观看免费动漫| 国产欧美中文在线| 国产精品免费入口| 91久久久久久白丝白浆欲热蜜臀| 精品亚洲va在线va天堂资源站| 国产免费看av| 婷婷精品进入| 国产精品视频公开费视频| 精品亚洲成a人片在线观看| 懂色av一区二区三区| 天堂网在线免费观看| 国产亚洲一区二区三区不卡| 久久综合久久美利坚合众国| 亚洲天堂自拍偷拍| 成人免费视频视频| 久久亚洲国产成人精品无码区| 美女网站在线看| 亚洲精品一区二区三区影院| 真实乱视频国产免费观看| 在线视频精品| 91精品中文在线| 欧美人xxx| 91麻豆精品国产91久久久资源速度 | 精品欧美一区二区久久久| 亚洲综合社区| 欧美一进一出视频| 成人在线免费av| 久久精品91久久香蕉加勒比| 国产精品国产精品国产专区| 亚洲免费在线看| 久久无码专区国产精品s| 狠狠噜噜久久| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 成+人+亚洲+综合天堂| 天天好比中文综合网| 韩国日本一区| 欧美丰满美乳xxx高潮www| 精品中文字幕在线播放 | 17婷婷久久www| 国产视频在线免费观看| 久久久国产精品麻豆| 亚洲欧美视频二区| 欧美视频一区| 欧美高清性xxxxhdvideosex| 中中文字幕av在线| 欧美色图12p| 欧美亚洲日本在线| 99麻豆久久久国产精品免费| 在线观看av日韩| 欧美二区视频| 国产免费亚洲高清| 自由的xxxx在线视频| 亚洲久久久久久久久久久| 久久高清无码视频| 久久久亚洲精品石原莉奈| 一女二男3p波多野结衣| 亚洲国产清纯| 国产精品xxx在线观看www| 亚洲美女久久精品| 九九视频直播综合网| 国产精品老熟女视频一区二区| 亚洲一区视频在线| 爱爱免费小视频| 韩国毛片一区二区三区| 3d动漫一区二区三区| 99亚洲乱人伦aⅴ精品| 欧美老少配视频| 精品一二三区视频| 精品99一区二区| 在线观看毛片网站| 精品久久久久久亚洲精品| 日韩精品一区二区亚洲av性色| 久久激情五月婷婷| 国产日韩av网站| 亚洲91视频| 91精品国产综合久久久久久丝袜 | 色婷婷久久久久swag精品 | 一区二区在线影院| 日韩av一区二区三区美女毛片| 91蝌蚪精品视频| 国产精品一区二区三区久久| 男人久久天堂| 欧美日韩福利在线观看| 在线观看美女网站大全免费| 91福利小视频| 男人的天堂av网| 青青草91视频| 青青视频在线播放| 亚洲第一毛片| 日韩一级特黄毛片| 哺乳挤奶一区二区三区免费看 | 亚洲一区二区三区在线免费| 国产精品丝袜视频| 欧美黑人巨大xxxxx| 亚洲欧美日韩国产成人| 亚洲国产精品二区| 91精品一区二区三区在线观看| 天堂免费在线视频| 欧美性高潮床叫视频| 在线视频第一页| 91免费视频大全| 亚洲观看黄色网| 成人精品视频一区| www.四虎精品| 成人性视频免费网站| 性xxxxxxxxx| 久久久久久黄| 欧美亚洲一二三区| 日韩欧美高清在线播放| 97人人香蕉| 久久爱www.| 91免费版网站入口| 日韩av综合| 成人午夜影院在线观看| 77成人影视| 国产精品久久久久久久久久久久午夜片 | 国产精品无码专区av免费播放| 在线观看视频一区| 黄色一级片在线免费观看| 亚洲欧洲精品天堂一级| 中文字幕人妻熟女在线| 国产福利精品一区| 亚洲av午夜精品一区二区三区| 国产69精品久久久久毛片| 欧美 激情 在线| 亚洲成人日韩| 狠狠精品干练久久久无码中文字幕 | k8久久久一区二区三区| 朝桐光av一区二区三区| ww久久中文字幕| 青青草自拍偷拍| 亚洲精品精品亚洲| 国产福利拍拍拍| 中文字幕日本不卡| 色婷婷在线视频观看| 亚洲一区二区视频在线观看| 国产成人愉拍精品久久| 色妹子一区二区| 91欧美日韩麻豆精品| 日韩视频一区二区| 亚洲专区在线播放| 欧美一区二区免费视频| 中文字幕+乱码+中文字幕明步| 亚洲6080在线| 中文字幕日韩免费| 岛国精品视频在线播放| 中文资源在线播放| 日韩欧美第一区| 一区二区不卡视频在线观看| 日韩亚洲电影在线| 邻家有女韩剧在线观看国语| 波霸ol色综合久久| 美女在线视频免费| 91理论片午午论夜理片久久| 欧美韩一区二区| 国产精品视频免费一区| 自拍自偷一区二区三区| 一区二区在线高清视频| 日韩久久视频| 日韩在线观看a| 视频一区视频二区中文| 99re在线视频免费观看| 国产在线播放一区二区三区| 亚洲一区在线不卡| 日韩—二三区免费观看av| www黄色av| 国产一区二区三区四区五区美女| 欧美丰满少妇人妻精品| 99久久精品国产麻豆演员表| 黄色性视频网站| av电影一区二区| 成人信息集中地| 亚洲免费在线观看| 懂色av蜜臀av粉嫩av分享吧最新章节| 欧美一级黄色录像| 成人在线播放视频| 在线观看日韩欧美| av资源在线观看免费高清| 久久久久久久久久久91| 国产精品va视频| 亚洲国产精品久久久久久女王| 青草国产精品| 日韩少妇内射免费播放18禁裸乳| 国产精品一区二区在线播放 | 精品国产一区二区三区2021| 人禽交欧美网站免费| 宅男噜噜噜66一区二区| 色诱av手机版| 亚洲美女在线一区| 在线亚洲欧美日韩| 国产亚洲视频在线观看| 亚洲午夜天堂| 国产精品黄视频| 91成人小视频| 先锋影音亚洲资源| 噜噜噜91成人网| 波多野结衣办公室33分钟| 亚洲电影一级黄| 免费看污视频的网站| 亚洲国产欧美自拍| 福利小视频在线观看| 国产91精品久久久| 欧美日韩另类图片| 人妻少妇精品无码专区二区| 成人中文字幕电影| 麻豆疯狂做受xxxx高潮视频| 日韩欧美亚洲国产另类| 午夜dj在线观看高清视频完整版| 亚洲aaaaaa| 女生裸体视频一区二区三区| 亚洲高清在线不卡| 亚洲乱码国产乱码精品精可以看 | 日韩激情一区二区三区| 精品99999| 牛牛精品一区二区| 欧美国产综合视频| 日日骚欧美日韩| 1024手机在线观看你懂的| 一区二区三区中文在线| www.日韩在线观看| 欧美激情一区二区三区成人| 在线播放一区二区精品视频| 国产资源在线免费观看| 视频一区二区不卡| 亚洲午夜精品久久久久久高潮| 在线视频欧美精品| 美女黄视频在线观看| 91在线直播亚洲| 激情综合激情| 人妻无码一区二区三区| 欧美日韩精品一区二区三区| 91麻豆免费在线视频| 国产精品播放| 久久一区二区三区超碰国产精品| 国产jjizz一区二区三区视频| 欧美亚洲国产一区在线观看网站| 开心激情综合网| 2021久久精品国产99国产精品| 国产精品美女久久久久久不卡| 一道本视频在线观看| 亚洲精品国产第一综合99久久| 欧美熟妇交换久久久久久分类| 日本国产一区二区三区| 99久久精品费精品国产风间由美| 丰满人妻一区二区三区53视频| 欧美激情一区二区三区四区| 一级黄色大毛片| 久久青草福利网站| 欧美肉体xxxx裸体137大胆| 黄色国产一级视频| 国产日产欧美精品一区二区三区| 国产一区二区小视频| 国产69精品久久久久9999| 精品国产一级毛片| 日本少妇xxx| 91久久精品一区二区三| 2024短剧网剧在线观看| 日本高清视频一区二区三区| 国产一区二区三区观看| 免费在线不卡视频| 亚洲精品久久久一区二区三区 | 日韩视频在线观看免费视频| 日韩午夜三级在线| 性欧美gay| 日韩 欧美 视频| 中文字幕一区二区日韩精品绯色|