精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型給自己當(dāng)裁判并不靠譜!上海交通大學(xué)新研究揭示LLM-as-a-judge機(jī)制缺陷

人工智能 新聞
上海交通大學(xué)王德泉課題組的論文《PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?》對此進(jìn)行了系統(tǒng)性的研究。

大語言模型(LLM)正從工具進(jìn)化為“裁判”(LLM-as-a-judge),開始大規(guī)模地評判由AI自己生成的內(nèi)容。這種高效的評估范式,其可靠性與人類判斷的一致性,卻很少被深入驗(yàn)證。

一個最基礎(chǔ)、卻也最關(guān)鍵的問題是:在評判一個模型是否“入戲”之前,AI裁判能準(zhǔn)確識別出對話中到底是誰在說話嗎?

針對這一問題,上海交通大學(xué)王德泉課題組的論文《PersonaEval: Are LLM Evaluators Human Enough to Judge Role-Play?》對此進(jìn)行了系統(tǒng)性的研究。

文章提出一個名為PersonaEval的全新基準(zhǔn)測試。這項(xiàng)測試的核心任務(wù),就是讓模型在給定一段對話后,從幾個候選角色中選出真正的說話者。

測試結(jié)果顯示,即便是表現(xiàn)最好的模型Gemini-2.5-pro,其準(zhǔn)確率僅為68.8%,而人類實(shí)驗(yàn)組的平均準(zhǔn)確率為90.8%。

論文即將發(fā)表在2025年10月份的第2屆語言模型大會(COLM)上。

一個讓頂尖模型也“翻車”的簡單問題

近來,關(guān)于大語言模型能否勝任“裁判”的討論愈發(fā)激烈,從“隱形prompt”影響大模型審稿的爭議,到斯坦福大學(xué)籌備首屆純AI學(xué)術(shù)會議Agent4Science的嘗試,都標(biāo)志著一個新趨勢的到來:大語言模型(LLM)能當(dāng)裁判評判AI生成的內(nèi)容。

這一趨勢在角色扮演(Role-Play)領(lǐng)域尤為明顯。從讓大模型扮演經(jīng)典的文學(xué)人物、游戲NPC,到Character.AI的火爆和各類應(yīng)用中“AI陪玩”的興起,一個由LLM驅(qū)動的虛擬伴侶和內(nèi)容創(chuàng)作時代正向我們走來。

隨著其巨大的商業(yè)與應(yīng)用潛力引發(fā)業(yè)界廣泛關(guān)注,如何評價AI“演技”也自然成了亟待解決的核心問題。于是,讓LLM來擔(dān)當(dāng)裁判,也順理成章地成為了該領(lǐng)域的主流評估方法之一。

在AI當(dāng)裁判之前,首先要確認(rèn)AI是否能夠準(zhǔn)確進(jìn)行“角色身份識別”(Role Identification)。作者認(rèn)為,如果連這個都做不到,那么后續(xù)所有關(guān)于語氣、情感、性格一致性的高級評估,都將是空中樓閣。

我們來看一個在人類眼中非常簡單,但卻讓頂尖大模型都判斷失誤的例子,如下圖所示:

△圖1 簡單案例

如上圖所示,角色莊顏正在與某人對話。在她的內(nèi)心獨(dú)白中,她明確提到了“羅輯”,同時她在話語中也提到了“羅老師”。

  • 人類的判斷邏輯:對于即使沒有看過《三體》的人類來說,也能判斷出莊顏是在與羅輯對話,因?yàn)榍f顏的內(nèi)心獨(dú)白和說話內(nèi)容已經(jīng)圈定了羅輯是說話對象,這是最直接、最關(guān)鍵的上下文線索,即對話的參與者
  • LLM的判斷邏輯:然而,一個頂尖的LLM(DeepSeek-R1-0528)在此案例中做出了錯誤判斷,選擇了史強(qiáng)。從模型的分析可以看出,它忽略了“羅輯是對話參與者”這一核心情境信息,反而過度關(guān)注回應(yīng)者的語言風(fēng)格,認(rèn)為其“直接、現(xiàn)實(shí)、略帶挑釁”更符合史強(qiáng)的性格特征,從而做出了錯誤選擇。

這個例子一針見血地指出了當(dāng)前LLM裁判的致命缺陷:它們似乎更關(guān)注表層的語言風(fēng)格(聽起來像誰),而人類則首先觀察真實(shí)的對話意圖和上下文(在那個情境下,誰會這么說)

為什么會產(chǎn)生這種分歧?這背后其實(shí)是AI與人類智能模式的深刻差異。

正如論文所引述的認(rèn)知科學(xué)家Josh Tenenbaum的觀點(diǎn):LLM的智能是從海量語言中學(xué)習(xí)模式而“衍生”出來的,它們是頂級的模式匹配專家;而人類的智能則“先于”語言,我們是帶著意圖和認(rèn)知去發(fā)展和使用語言這一工具的

PersonaEval:一個專為LLM裁判打造的“照妖鏡”

為了系統(tǒng)性地評估LLM在角色身份識別上的能力,論文作者精心構(gòu)建了PersonaEval基準(zhǔn)。

它有幾個核心特點(diǎn),確保了評估與人類對齊,以及一定的挑戰(zhàn)性:

  • 源于純正的人類創(chuàng)作:所有對話數(shù)據(jù)均來自小說、劇本和真實(shí)的人類視頻,而非AI合成內(nèi)容。這保證了評估的標(biāo)準(zhǔn)根植于真實(shí)的人類判斷,避免了“模型評價模型”的數(shù)據(jù)污染。
  • 精心設(shè)計的“干擾項(xiàng)”:在多項(xiàng)選擇任務(wù)中,錯誤的選項(xiàng)(distractors)并非隨機(jī)設(shè)置,而是通過embedding技術(shù)精心挑選出的、與正確角色在語義上最接近的“高仿”角色。這迫使模型進(jìn)行細(xì)致入微的推理,而不是簡單的模式匹配。
  • 專注于“疑難雜癥”:為了避免簡單的案例虛假拉高模型的表現(xiàn),論文作者通過一個強(qiáng)大的基線模型(Qwen-max)進(jìn)行過濾,只保留那些連強(qiáng)模型都感到困惑(置信度低于0.5)的“硬核案例”。

△圖2:PersonaEval基準(zhǔn)的構(gòu)建流程

整個基準(zhǔn)包含了三個不同方向的測試集:

  • PersonaEval-Literary:來自771本英文小說,測試模型對虛構(gòu)敘事角色的推理能力。
  • PersonaEval-Drama:來自中文劇本,測試模型對腳本化互動中的角色理解。
  • PersonaEval-Expertise:來自WIRED的“5Levels”系列視頻,測試模型能否根據(jù)語言和概念的復(fù)雜程度,判斷專家是在對兒童、青少年還是其他專家說話。

測試發(fā)現(xiàn):AI判斷相較于人類還有巨大差距

在PersonaEval這個“考場”上,現(xiàn)有LLM的表現(xiàn)如何呢?結(jié)果令人震驚。

論文作者對包括GPT系列、Claude系列、DeepSeek系列在內(nèi)的多個頂尖模型進(jìn)行了測試。結(jié)果顯示,即便是表現(xiàn)最好的模型Gemini-2.5-pro,其準(zhǔn)確率也僅為68.8%。相比之下,論文作者組織了一場人類研究,由20名高學(xué)歷志愿者參與,人類的平均準(zhǔn)確率高達(dá)90.8%!

△圖3:LLM在PersonaEval上的準(zhǔn)確率與人類水平對比

上圖直觀地展示了這條巨大的“鴻溝”(Current Gap)。這清晰地回答了論文標(biāo)題中的問題:

目前的LLM裁判,還遠(yuǎn)不夠“擬人”,不足以可靠地評判角色扮演。如何彌補(bǔ)差距?強(qiáng)化“推理”是關(guān)鍵,而非“投喂”角色知識。

既然發(fā)現(xiàn)了問題,那該如何解決?

論文作者進(jìn)一步探索了兩種常見的模型提升策略:

  • 訓(xùn)練時適配(Training-time Adaptation):通過在角色扮演的語料上進(jìn)行微調(diào)(fine-tuning),向模型“注入”更多角色知識。
  • 測試時計算(Test-time Compute):在推理階段通過少樣本提示(few-shot prompting)或自洽性(self-consistency)等方法來提升表現(xiàn)。

結(jié)果再次出人意料。研究發(fā)現(xiàn),對模型進(jìn)行角色相關(guān)的微調(diào),不僅沒有提升其角色識別能力,反而可能導(dǎo)致性能下降。這可能是因?yàn)樗烙浻脖车慕巧R干擾了模型更底層的、通用的推理能力。

△圖4:在角色數(shù)據(jù)上微調(diào)后(粉色柱),模型性能反而下降

與此同時,測試時計算的方法顯示出更大的潛力,特別是那些為“推理”而生的模型,表現(xiàn)出了明顯的優(yōu)勢。例如,專為推理任務(wù)優(yōu)化的DeepSeek-R1和QwQ-32B等模型,在基準(zhǔn)測試中名列前茅。

這表明,想要打造一個好的“AI裁判”,關(guān)鍵不在于灌輸更多的角色知識,而在于提升模型本身強(qiáng)大、穩(wěn)健、具有上下文感知能力的推理引擎

該論文揭示了當(dāng)前流行的“LLM-as-a-judge”評估范式在一個基礎(chǔ)卻被忽視的維度上的嚴(yán)重缺陷。

這項(xiàng)研究不僅為我們提供了一個寶貴的評估工具,更促使我們重新思考如何構(gòu)建真正與人類價值觀和判斷力對齊的AI系統(tǒng)。

未來的研究或許可以深入分析模型做出錯誤判斷的“思考路徑”,從而開發(fā)出更有效的、以推理為導(dǎo)向的提升方法。PersonaEval,正在朝著這個目標(biāo)邁進(jìn)。

最終,我們希望AI不僅能“扮演”人類,更能真正“理解”人類的互動方式。

作者簡介

論文第一作者是上海交通大學(xué)博士研究生周凌楓,主要研究大模型智能體、人工智能賦能的社會科學(xué)等方向。

論文的通訊作者為上海交通大學(xué)長聘教軌助理教授、博士生導(dǎo)師王德泉。本科畢業(yè)于復(fù)旦大學(xué),博士畢業(yè)于加州大學(xué)伯克利分校,師從Trevor Darrell教授。近五年論文谷歌學(xué)術(shù)總引用次數(shù) 12000 余次,H-index 22。

項(xiàng)目鏈接:https://github.com/maple-zhou/PersonaEval

論文地址:https://arxiv.org/abs/2508.10014

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-14 14:00:00

模型框架

2025-07-28 09:06:00

2024-12-04 07:00:00

2015-03-16 11:54:55

云計算

2024-09-09 08:30:00

2025-04-25 09:22:44

2025-08-05 09:20:49

2010-02-06 09:15:14

ACMICPC

2025-10-14 09:22:48

2025-02-03 12:21:51

2025-10-20 09:02:00

2024-12-23 13:30:00

2025-04-15 12:14:10

2024-11-04 10:20:00

模型數(shù)據(jù)

2025-09-27 22:33:21

2025-10-28 09:03:08

2011-12-26 14:11:47

三星Android

2020-02-18 11:08:01

程序員兼職技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

欧美亚洲激情| 自拍偷拍亚洲视频| 国产精品1区2区3区| 色综合视频网站| 免费观看污网站| 17videosex性欧美| 久久久久99精品一区| 日韩av色在线| 国产在线一卡二卡| 91欧美极品| 欧美丝袜一区二区三区| 视频一区二区精品| 国产乱淫a∨片免费视频| 亚洲二区在线| 中文字幕v亚洲ⅴv天堂| 韩国三级视频在线观看| 日韩三区免费| 亚洲自拍偷拍欧美| 日韩一区国产在线观看| 亚洲精品久久久久久无码色欲四季| 国产欧美69| 久久久成人的性感天堂| 人妻无码中文久久久久专区| 日本免费成人| 色综合久久综合中文综合网| 精品日韩在线播放| 伦理片一区二区三区| 国产成人三级在线观看| 国产精品精品一区二区三区午夜版 | 国产高潮在线| 中文字幕人成不卡一区| 蜜桃视频在线观看成人| 性生活视频软件| 久久99精品久久久久久动态图| 奇门遁甲1982国语版免费观看高清| 午夜剧场免费在线观看| 成人影院在线| 亚洲视频视频在线| 97香蕉碰碰人妻国产欧美| 精品国产亚洲一区二区三区| 在线观看av一区二区| 少妇av一区二区三区无码| bt在线麻豆视频| 成人欧美一区二区三区黑人麻豆| 蜜桃av噜噜一区二区三| 熟妇高潮一区二区高潮| 国产不卡视频在线播放| 亚洲va久久久噜噜噜| 中文字幕av免费观看| 日韩国产精品久久久| 青青青国产精品一区二区| 国产无遮挡aaa片爽爽| 欧美激情aⅴ一区二区三区| 久久久精品一区| 日韩高清dvd碟片| 亚洲情侣在线| 九九精品视频在线观看| 国产探花在线播放| 欧美日韩国产亚洲一区| 欧美大荫蒂xxx| 欧美黄色一区二区三区| 欧美久久一区| 久久久免费在线观看| 欧美日韩国产精品综合| 欧美日韩亚洲三区| 久久青草福利网站| 日韩美女黄色片| 国产日本精品| 国产成人精品久久二区二区91 | 你懂得在线观看| 久久精品亚洲欧美日韩精品中文字幕| 中文字幕在线精品| 日韩在线观看免| 亚洲精品97| 欧美精品video| 天天做天天爱夜夜爽| 亚洲国产专区校园欧美| 青青草成人在线| 伊人久久国产精品| 国产精品自在欧美一区| 久久国产手机看片| 日本天堂在线| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 日本激情综合网| 国产精品3区| 欧美精品一区二区三| 李宗瑞91在线正在播放| 色一区二区三区四区| 精品中文字幕视频| 日韩欧美在线观看免费| 久久精品国产亚洲a| av激情久久| 黄色美女网站在线观看| 日韩一区在线免费观看| 欧美三级在线观看视频| 91精品国产66| 精品国内片67194| 性高潮久久久久久久| 亚洲精品成人影院| 欧美在线视频在线播放完整版免费观看| 日韩一级片中文字幕| 国产精品99久久久久久宅男| 久久99精品国产一区二区三区 | 欧美乱大交做爰xxxⅹ性3| 五月天婷婷丁香| 免费观看久久久4p| 国产精品对白刺激久久久| 国产天堂素人系列在线视频| 亚洲精品乱码久久久久久久久 | 免费观看日批视频| 国产精品18久久久久久久久久久久| 欧美精品一区在线发布| 性网站在线观看| 欧美在线免费观看视频| 国产51自产区| 久久久久久免费视频| 5252色成人免费视频| 国产黄色片免费| 亚洲国产精品精华液ab| 日本欧美黄色片| 日韩视频一二区| 在线电影中文日韩| 国产成人免费观看视频 | 91网在线免费观看| 久久免费看视频| 亚洲成人免费电影| 日本77777| 99久久久久| 青青草原成人在线视频| 欧美熟妇交换久久久久久分类 | 96sao精品免费视频观看| 国产偷亚洲偷欧美偷精品| 美国黄色小视频| 久久精品999| 先锋在线资源一区二区三区| 色戒汤唯在线观看| 精品国产露脸精彩对白| 欧美性猛交xxxxx少妇| 久久99精品久久久久久动态图| 日本在线观看不卡| 在线天堂资源| 亚洲精品视频在线播放| 三级视频在线观看| 99久久精品99国产精品| 无码专区aaaaaa免费视频| 中文字幕久久精品一区二区| 久久精品成人动漫| 一区二区三区免费在线| 国产精品丝袜一区| 777视频在线| 日韩一区亚洲二区| 国产精品一区二区在线| h视频在线免费| 欧美性猛交xxxx乱大交退制版| 日韩人妻无码精品综合区| 久久精品道一区二区三区| 久久久久无码国产精品一区| 成人片免费看| 亚洲欧美一区二区三区久久| 免费黄色片视频| 中文字幕免费不卡在线| 五月婷婷六月合| 婷婷综合网站| 97中文在线观看| 成人免费一区二区三区牛牛| 亚洲缚视频在线观看| 五月婷婷激情网| 久久亚区不卡日本| 草草草在线视频| 日韩免费在线| 999久久久| 日本不卡网站| 宅男66日本亚洲欧美视频| 在线视频播放大全| 一区二区三区在线免费播放| 日韩精品视频一区二区| 久久免费黄色| 亚洲精品偷拍视频| 黄色欧美在线| 国产精品麻豆va在线播放| 免费网站黄在线观看| 欧美刺激午夜性久久久久久久| 青青草成人av| 国产精品三级av在线播放| 亚洲欧美一区二区三区不卡| 亚洲人人精品| 婷婷久久青草热一区二区| 伊人久久大香| 91国自产精品中文字幕亚洲| 第一页在线观看| 日韩无一区二区| 毛片视频网站在线观看| 国产精品三级电影| 国产精品久久久久久亚洲av| 日韩国产欧美视频| 男人天堂手机在线视频| 欧美精品一区二区三区中文字幕| 91在线无精精品一区二区| 国产调教在线| 久久视频精品在线| 精品欧美不卡一区二区在线观看| 欧美丰满美乳xxx高潮www| 一级免费在线观看| 亚洲日本乱码在线观看| 在线免费观看黄色小视频| 极品美女销魂一区二区三区| 免费av观看网址| 中文字幕午夜精品一区二区三区| 麻豆传媒一区二区| 一区二区三区亚洲变态调教大结局| 日本在线观看天堂男亚洲 | 日av在线播放中文不卡| v片在线观看| 在线观看国产精品日韩av| 免费成人在线看| 91精品国产91久久久久久最新毛片| www亚洲视频| 亚洲国产人成综合网站| 午夜精品久久久久99蜜桃最新版| 91美女片黄在线观看91美女| 激情小说欧美色图| 久久电影网站中文字幕| 日日摸天天爽天天爽视频| 亚洲美女91| 免费cad大片在线观看| 久久亚洲在线| 日韩一区二区三区资源| 国产精品亚洲人成在99www| 国产亚洲欧美一区二区三区| 欧洲大片精品免费永久看nba| 国产精品久久9| 毛片无码国产| 欧美一区深夜视频| av成人 com a| 韩国国内大量揄拍精品视频| 成人免费网站在线观看视频| 中文字幕在线精品| 青青青青在线| 中文字幕一区二区精品| 成人免费在线视频网| 亚洲人成电影在线| 日本又骚又刺激的视频在线观看| 精品香蕉一区二区三区| 深夜福利视频网站| 亚洲第一免费播放区| 亚洲精品网站在线| 欧美刺激午夜性久久久久久久| 国产成人精品亚洲精品色欲| 日韩精品最新网址| 肥臀熟女一区二区三区| 欧美精品一区二区高清在线观看| www.蜜臀av| 欧美va天堂va视频va在线| 亚洲av永久无码国产精品久久 | 午夜精品免费| 欧美黄网在线观看| 一区在线播放| 精品久久一二三| 肉色丝袜一区二区| youjizzxxxx18| 极品少妇xxxx精品少妇| 女人扒开腿免费视频app| 高清国产一区二区三区| 亚洲啪av永久无码精品放毛片| av在线不卡网| 国产高清一区二区三区四区| 国产精品美女www爽爽爽| 91精品一区二区三区蜜桃| 亚洲一区二区免费视频| 久草手机在线观看| 在线观看视频一区| 97国产成人无码精品久久久| 日韩美女一区二区三区| 视频在线不卡| 一区二区三区四区在线观看视频| 男人天堂久久久| 久久久久国产精品免费| 女海盗2成人h版中文字幕| 国产精品高潮呻吟视频| 日韩电影免费观看高清完整版在线观看| 91在线视频免费| 乱亲女h秽乱长久久久| 欧洲一区二区在线观看| 99国产**精品****| 国产玉足脚交久久欧美| 久久天天综合| 色婷婷综合在线观看| 99精品热视频| 国产精品成人69xxx免费视频| 亚洲国产日韩精品| 正在播放木下凛凛xv99| 欧美变态tickling挠脚心| 青梅竹马是消防员在线| 久久精彩免费视频| 97成人资源| 亚洲一区制服诱惑| 美女久久久久| 日本丰满大乳奶| 丝袜国产日韩另类美女| 国产无套精品一区二区三区| 国产清纯美女被跳蛋高潮一区二区久久w| 亚洲一二三在线观看| 岛国av一区二区三区| 国产免费无遮挡| 亚洲天堂第一页| 久久国产精品黑丝| 国产在线观看不卡| 在线成人动漫av| 国产欧美日韩小视频| 久久99久久久久久久久久久| 亚洲黄色在线网站| 亚洲精品大片www| 中文字幕在线观看精品| 日韩国产欧美精品一区二区三区| 久热国产在线| 国产精品黄页免费高清在线观看| 北条麻妃一区二区三区在线观看| 最新不卡av| 青青草97国产精品免费观看| 成人免费无码大片a毛片| 最新中文字幕一区二区三区| 一级片在线免费播放| 亚洲精品国精品久久99热一| 免费污视频在线观看| 91免费版网站入口| 色无极亚洲影院| av网站在线不卡| 国产亚洲精久久久久久| 天天操天天摸天天干| 精品99999| 青草视频在线免费直播 | 黄色一级二级三级| bt欧美亚洲午夜电影天堂| 久久婷婷综合国产| 91精品国产欧美一区二区成人| 在线免费黄色| 国产精品视频永久免费播放| 国产中文精品久高清在线不| 99蜜桃臀久久久欧美精品网站| proumb性欧美在线观看| 尤物视频在线观看国产| 精品99一区二区三区| 999精品网| 好看的日韩精品| 99亚洲一区二区| 久久久久国产精品区片区无码| 五月婷婷综合网| 神马午夜在线观看| 午夜精品美女自拍福到在线| 久久九九热re6这里有精品| 中文字幕无码精品亚洲资源网久久| 成人三级伦理片| 日韩成人免费在线观看| 日韩精品视频在线| 欧美久久天堂| 欧美一区二区高清在线观看| 日韩中文字幕1| 美国美女黄色片| 9191成人精品久久| 性欧美video高清bbw| 国产精品久久九九| 99热在线精品观看| 久久精品国产亚洲av久| 在线视频观看一区| 五月婷婷在线观看| 18成人免费观看网站下载| 888久久久| 人妻av一区二区| 91福利在线播放| h网站久久久| 国产一区二区不卡视频在线观看 | 毛片毛片毛片毛| 一区二区三区日韩在线观看| 天天干天天摸天天操| 国产成人鲁鲁免费视频a| 天天影视综合| 亚洲熟女一区二区| 欧美吞精做爰啪啪高潮| 在线免费观看的av| 国产伦精品一区二区三区照片| 免费日韩一区二区| 亚洲国产123| 亚洲精品国产福利| 欧美性aaa| 欧美大片在线播放| 国产精品久99| 色婷婷在线视频| 国产在线视频2019最新视频| 欧美日韩免费观看一区=区三区| 中国黄色a级片| 91精品国产麻豆| 欧美momandson| 特级西西人体www高清大胆| 26uuu亚洲综合色| 99免费在线视频| 日韩美女中文字幕| 国模一区二区三区| 久操视频在线观看免费| 精品久久久久99| 欧美激情啪啪|