精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大團隊發布首篇大語言模型心理測量學系統綜述:評估、驗證、增強

人工智能 新聞
這篇綜述論文首次系統梳理了 LLM 心理測量學的研究進展。

隨著大語言模型(LLM)能力的快速迭代,傳統評估方法已難以滿足需求。如何科學評估 LLM 的「心智」特征,例如價值觀、性格和社交智能?如何建立更全面、更可靠的 AI 評估體系?北京大學宋國杰教授團隊最新綜述論文(共 63 頁,包含 500 篇引文),首次嘗試系統性梳理答案。

圖片


  • 論文標題:Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement
  • 論文鏈接:https://arxiv.org/abs/2505.08245
  • 項目主頁:https://llm-psychometrics.com
  • 資源倉庫:https://github.com/valuebyte-ai/Awesome-LLM-Psychometrics

背景

大語言模型(LLMs)的出現,推動了人工智能技術的快速發展。它們在自然語言理解和生成等方面表現出較強的通用能力,并已廣泛應用于聊天機器人、智能搜索、醫療、教育、科研等多個領域。AI 正逐步成為社會基礎設施的重要組成部分。 

與此同時,如何科學、嚴謹地評估這些能力不斷提升的 AI 系統,成為亟需解決的問題。 LLM 評估面臨的挑戰包括但不限于:

  • LLMs 展現出的「心智」特征(如性格、價值觀、認知偏差等)超出了傳統評測的覆蓋范圍;
  • 模型的快速迭代和訓練數據的持續更新,使得靜態基準測試難以長期適用;
  • LLMs 對提示和上下文高度敏感,評估結果易受細微變化影響,難以保證結果的穩定性和有效性;
  • 隨著 AI 與人類交互的日益深入,單純依賴任務分數的評估方式已難以滿足「以人為本」的需求;
  • AI 逐步應用于多模態和智能體系統,對評估方法的廣度和深度提出了更高要求。

這些挑戰與心理測量學長期關注的核心問題高度契合:如何科學量化和理解復雜、抽象的心理特質(如知識、技能、性格、價值觀等)。心理測量學通過將這些特質轉化為可量化的數據,為教育、醫療、商業和治理等領域的決策提供支持。

將心理測量學的理論、工具和原則引入大語言模型的評估,為系統理解和提升 AI「心智」能力提供了新的方法路徑,并推動了「LLM 心理測量學(LLM Psychometrics)」這一交叉領域的發展。這一方向有助于更全面、科學地認識和界定人工智能的能力邊界。

主要內容

這篇綜述論文首次系統梳理了 LLM 心理測量學的研究進展,結構如下圖所示。

圖片

心理測量和 LLM 基準的差異與評估原則的革新

圖片

圖:心理測量學和 AI 基準的對比

在大語言模型的評估領域,傳統 AI 基準測試和心理測量學看似都依賴測試項目和分數來衡量能力,但兩者的內核卻截然不同。

傳統 AI 評測更注重模型在具體任務上的表現和排名,強調測試的廣度和難度,往往依賴大規模數據集和簡單的準確率指標,結果多局限于特定場景,難以反映模型的深層能力。

而心理測量學則以「構念」為核心,追求對心理特質的深入理解,強調測試項目的科學設計和解釋力,采用如項目反應理論(IRT)等先進統計方法,力求讓測試結果既可靠又具備預測力,能夠揭示個體在多樣認知任務中的表現規律。 正是基于這種理念的轉變,研究者們提出了三大創新方向。

首先,使用「構念導向」的評估思路,不再滿足于表層分數,而是深入挖掘影響模型表現的潛在變量。

其次,研究者們引入心理測量學的嚴謹方法,提出證據中心基準設計等新范式,結合心理測量學輔助工具,規避數據污染,提升測試的科學性和可解釋性。

最后,研究者們將項目反應理論應用于 AI 評測,實現了動態校準項目難度、智能調整權重、自動生成不同難度的新測試項目,并探索了 AI 與人類反應分布的一致性,使得不同 AI 系統間、AI 與人類之間的比較更加科學和公平。

 這一系列革新,正推動 AI 評估從「分數導向」走向「科學解碼」,為理解和提升大語言模型的「心智」能力打開了全新視角。

測量構念的擴展

LLM 展現出類人的心理構念,這些構念對模型行為產生深遠影響,包括人格構念(性格,價值觀,道德觀,態度與觀點)、能力構念(啟發式偏差,心智理論,情緒智能,社交智能,心理語言學能力,學習認知能力)。該綜述系統梳理了針對這些心理構念的評估工作,綜述了相關理論、工具和主要結論。

圖片

測量方法

LLM 心理測量學的方法體系為 LLM「心智」能力的系統評估奠定了基礎,主要包括測試形式、數據來源、提示策略、輸出評分和推理參數五個方面。

測試形式分為結構化(如選擇題、量表評分,便于自動化和客觀評估,但生態效度有限)和非結構化(如開放對話、智能體模擬,更貼近真實應用,能捕捉復雜行為,但標準化和評分難度較高)。

數據與任務來源既有標準心理學量表,也有人工定制項目以貼合實際應用,還有 AI 生成的合成項目,便于大規模多樣化測試。提示策略涵蓋角色扮演(模擬不同身份特征)、性能增強(如思維鏈、情感提示提升能力)、以及提示擾動和對抗攻擊(測試模型穩定性)。

輸出與評分分為封閉式(結構化輸出,基于概率或預設標準)和開放式(基于規則、模型或人工評分),后者更具挑戰性。推理參數(如解碼方式)也會影響評估結果,需結合確定性與隨機性設置,全面揭示模型特性。

圖片

測量驗證

與傳統 AI 基準測試不同,LLM 心理測量學強調理論基礎、標準化和可重復性,需建立嚴格的驗證體系以確保測試的可靠性、效度和公平性。

本文系統梳理了三個關鍵方面:

首先,可靠性關注測試結果的穩定性,包括重測信度、平行形式信度和評分者信度;當前測試的信度面臨挑戰,如 LLM 在提示擾動中表現出不穩定性。

其次,效度評估測試是否準確測量目標構念,涉及內容效度、構念效度和校標效度等,主要挑戰包含數據污染、LLM 與人類在心理構念的內部表征上存在差異,評估結果向真實場景的可遷移性等。

最后,文章歸納了近期研究提出的標準和建議,為 LLM 心理測量學建立科學方法論基礎。

圖片

基于心理測量學的增強方法

心理測量學不僅為 LLM 評估提供理論基礎,也為模型開發和能力提升開辟了新路徑。當前,心理測量學主要在特質調控、安全對齊和認知增強三大方向增強 LLM。

特質調控方面,通過結構化心理量表提示、推理干預和參數微調等方法,LLM 能夠模擬和調節多樣的人格特質,廣泛應用于個性化對話、角色扮演和人口模擬。

安全對齊方面,研究揭示了模型心理特質與安全性、價值觀對齊的密切關系,借助價值觀理論、道德基礎理論和強化學習等手段,推動模型更好地契合人類期望與倫理標準。

認知增強方面,心理學啟發的提示策略、角色扮演及偏好優化等方法,有效提升了 LLM 的推理、共情和溝通能力。

整體來看,心理測量學為 LLM 的安全性、可靠性和人性化發展提供了堅實支撐,推動 AI 邁向更高水平的智能與社會價值。

未來展望

該綜述總結了 LLM 心理測量學的發展趨勢、挑戰與未來方向。當前,LLM 在人格測量及其驗證上取得初步成果,但能力測試的信效度驗證和廣泛測試的真實場景泛化仍待加強。傳統人類構念難以直接遷移,需發展適用于 LLM 的新理論和測量工具。

研究還需區分模型表現出的特質(perceived traits)與對齊特質(aligned traits),關注評估主觀性。模型擬人化方式、統計分析方式及多語言、多輪交互、多模態和智能體環境等新維度帶來挑戰。項目反應理論(IRT)為高效評估和模型區分提供新思路。

未來還應推動心理測量在模型增強和訓練數據優化等方面的應用。 AI 發展已進入「下半場」,評估的重要性與挑戰性日益凸顯。LLM 心理測量學為評估人類水平 AI 提供了重要范式,有助于推動 AI 向更安全、可靠、普惠的方向發展。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-07 13:17:44

2023-10-23 12:43:05

模型訓練

2022-05-24 15:29:48

人工智能大數據心理測量

2025-11-06 02:00:00

2023-10-29 22:38:59

2023-09-10 10:51:22

算法結構

2023-11-15 13:42:00

模型數據

2025-03-17 12:55:18

2023-07-04 12:57:57

多模態語言模型

2025-08-06 13:45:28

機器學習AI模型

2025-01-16 17:08:38

2025-05-08 09:10:30

2025-04-25 09:15:00

模型數據AI

2022-09-13 15:40:56

模型分析

2024-11-29 18:37:07

2024-09-05 13:11:49

2023-05-26 00:43:08

2024-03-13 11:59:00

研究模型

2024-05-13 10:38:08

點贊
收藏

51CTO技術棧公眾號

欧美国产视频一区二区| 欧美二区三区的天堂| 蜜桃狠狠色伊人亚洲综合网站| 天天干天天操天天爱| 99re66热这里只有精品8| 欧美一级黄色片| 欧美日韩在线中文| 巨大荫蒂视频欧美大片| 91在线观看污| 成人综合国产精品| 亚洲高清毛片一区二区| 久久精品免费一区二区三区| 亚洲国产欧美自拍| www.超碰97.com| 成人免费看黄| 亚洲无线码一区二区三区| 欧美在线播放一区| 亚洲精品一区二区三区区别| 日日摸夜夜添夜夜添精品视频| 欧美激情a∨在线视频播放| 国产精品久久久久无码av色戒| 国产成年精品| 欧美午夜寂寞影院| 国产高清精品在线观看| 青青青草视频在线| 中文字幕一区在线观看视频| 欧美凹凸一区二区三区视频| 精品毛片在线观看| 麻豆精品久久久| 欧美亚洲成人精品| 国产五月天婷婷| 亚洲午夜精品一区 二区 三区| 亚洲少妇激情视频| 中文字幕乱码在线| 成人av婷婷| 欧美一区二区视频观看视频| 欧美精品久久久久久久久25p| 在线天堂资源| 欧美网站在线观看| 男女猛烈激情xx00免费视频| 久久电影网站| 一区二区成人在线| 欧美精品在欧美一区二区| 黄视频网站在线| 国产精品每日更新| 午夜精品一区二区在线观看 | 国产91精品精华液一区二区三区| 国产精品丝袜视频| 一级片在线免费播放| 久久夜色精品| 国产精品aaaa| 波多野结衣视频观看| 日韩成人免费电影| 国产欧美一区二区三区在线看| 男人天堂av在线播放| 99视频一区| 91成品人片a无限观看| 精品99在线观看| 在线精品观看| 97成人精品视频在线观看| 在线观看免费国产视频| 噜噜噜91成人网| 国产精品高潮呻吟久久av黑人| 国产精品xxxxxx| 九色综合国产一区二区三区| 成人网中文字幕| 丰满人妻一区二区| 不卡在线视频中文字幕| 蜜桃视频在线观看91| 邻居大乳一区二区三区| 中文一区二区完整视频在线观看 | 内射中出日韩无国产剧情| 日韩大胆成人| 中文国产亚洲喷潮| 登山的目的在线| 欧美日韩一区二区三区四区在线观看 | 韩国精品一区二区三区六区色诱| 香港三日本三级少妇66| 久久免费电影网| 一区二区三视频| 在线观看电影av| 天天做天天摸天天爽国产一区| av无码精品一区二区三区| 日韩亚洲国产免费| 精品国产一区二区三区av性色| 30一40一50老女人毛片| 欧美高清视频手机在在线| 欧美日韩第一视频| 东京热一区二区三区四区| 久久成人av少妇免费| www.久久艹| 激情在线视频| 一区二区三区视频在线看| 1024精品视频| 秋霞一区二区| 一区二区三区天堂av| 中文字幕在线观看成人| 老色鬼久久亚洲一区二区| 91香蕉电影院| 国产乱理伦片a级在线观看| 怡红院av一区二区三区| 能在线观看的av网站| 日本高清精品| 亚洲三级av在线| 欧美成人精品欧美一级私黄| 日韩精品国产欧美| 精品国产乱码久久久久久丨区2区| 尤物视频在线免费观看| 精品二区三区线观看| 91精品视频国产| 激情婷婷综合| 亚州精品天堂中文字幕| 国产巨乳在线观看| 国产丝袜美腿一区二区三区| 免费高清一区二区三区| 亚洲国产91视频| 在线观看欧美成人| 久久久久久久黄色片| 国产剧情一区在线| 亚洲欧美久久234| 午夜精品久久久久久久久久蜜桃| 精品毛片乱码1区2区3区| 国产三级aaa| 日本不卡视频在线观看| 九九九九九九精品| av蜜臀在线| 欧美在线free| 欧美激情aaa| 最新成人av网站| 91国产在线免费观看| 女女色综合影院| 在线视频观看一区| 国产全是老熟女太爽了| 国产精品综合色区在线观看| 国产美女精品久久久| 日本性爱视频在线观看| 欧美一卡二卡在线| 国产大片免费看| 国产一区二区三区免费播放| 亚洲区一区二区三区| 欧美日韩女优| 日韩在线观看你懂的| 亚洲精品无码久久久久| 久久精品亚洲一区二区三区浴池| 成年人视频网站免费观看| 日韩大片在线免费观看| 欧美一级淫片videoshd| 秋霞av在线| 一本大道av伊人久久综合| www.色天使| 久久久久久久欧美精品| 四虎一区二区| 欧美aaaaaaaa| 久久影视电视剧免费网站| 国产精品爽爽久久| 一区二区三区资源| 91九色蝌蚪porny| 亚洲视频1区| 欧美日韩一区综合| 精品国产欧美日韩一区二区三区| 伊人激情综合网| 国产乱淫a∨片免费观看| 亚洲天堂成人网| avtt中文字幕| 一本一本久久| 午夜一区二区三视频在线观看| 久久福利在线| 欧美日韩国产成人高清视频| 欧美在线 | 亚洲| 黑人巨大精品欧美一区二区免费| 一本加勒比北条麻妃| 蜜臀久久99精品久久久久久9| 一本色道婷婷久久欧美| 日韩国产在线不卡视频| 91精品国产色综合| 98在线视频| 91精品国产91久久综合桃花| 国产在线视频第一页| 91一区二区三区在线播放| 无码日韩人妻精品久久蜜桃| 97精品一区二区| 国产欧美日韩一区二区三区| 国产精品粉嫩| 久久成人一区二区| 天天射天天色天天干| 欧美色涩在线第一页| 在线观看成人毛片| 91麻豆国产在线观看| 成人综合久久网| 日韩视频一区二区三区在线播放免费观看| 日韩欧美亚洲日产国产| 少妇精品在线| 日韩av免费看| 日本aa在线| 国产一区二区三区视频| 朝桐光av在线一区二区三区| 欧美视频二区36p| 小嫩苞一区二区三区| 99精品视频在线免费观看| 日本高清久久久| 亚洲一区二区三区高清不卡| eeuss中文| 免费欧美一区| 成人欧美一区二区| 欧美综合影院| 国产成人高潮免费观看精品| 手机av免费在线| 中文字幕亚洲无线码a| 全国男人的天堂网| 91精品国产综合久久小美女| 黄色片中文字幕| 亚洲不卡一区二区三区| 蜜桃av.com| 国产欧美日韩三区| 日韩网站在线播放| 成人做爰69片免费看网站| 一区二区在线免费看| 老色鬼久久亚洲一区二区| 国产伦精品一区二区三区四区视频_| 日本a口亚洲| 蜜桃成人在线| 日日天天久久| 精品视频免费观看| 超碰cao国产精品一区二区| 91精品国产自产在线| 精品裸体bbb| 国产成人免费av电影| 国产精品一区二区日韩| 欧美精品九九久久| 欧洲黄色一区| 欧美精品生活片| 国产乱色在线观看| 久久久精品国产| 浪潮av一区| 日韩视频欧美视频| 免费观看在线午夜影视| 最近2019好看的中文字幕免费| 四虎精品成人影院观看地址| 亚洲风情亚aⅴ在线发布| 空姐吹箫视频大全| 欧美精品一区二区三区蜜桃| 亚洲女人18毛片水真多| 精品欧美一区二区久久| 成人黄色免费视频| 亚洲成人动漫在线播放| 亚洲国产一二三区| 亚洲白拍色综合图区| 日本精品久久久久久| 亚洲第一区第二区| 视频一区二区三区在线看免费看| 日韩成人在线视频| 欧美中文在线| 国产午夜精品全部视频在线播放 | 国产免费视频一区二区三区| 欧美美女bb生活片| 国产免费av观看| 欧美成人三级在线| 天天操天天干天天爱| 亚洲欧美中文字幕| 1区2区3区在线观看| 久久这里只有精品视频首页| 污污在线观看| 91国内产香蕉| 日韩毛片一区| 97人人模人人爽人人少妇| 成人高潮视频| 欧美日韩国产精品一卡| 色999日韩| h无码动漫在线观看| 亚洲综合三区| 午夜啪啪小视频| 粉嫩一区二区三区性色av| 日韩精品视频一区二区| 国产亲近乱来精品视频| 午夜国产福利一区二区| 午夜久久久久久电影| 艳妇乳肉豪妇荡乳av无码福利| 欧美一区午夜精品| 天堂在线资源库| 日韩在线免费高清视频| 色帝国亚洲欧美在线| 欧美在线视频观看免费网站| 欧美高清影院| 国产自产精品| 欧美激情国产在线| 免费看一级大黄情大片| 青草av.久久免费一区| 午夜性福利视频| 国产清纯美女被跳蛋高潮一区二区久久w| www色aa色aawww| 懂色av一区二区三区| 一区二区的视频| 亚洲激情视频在线播放| 日本高清视频在线观看| 性欧美在线看片a免费观看 | 国产中文一区二区| 日韩毛片视频| 91视频 -- 69xx| 国产一区二区三区四区在线观看| 少妇大叫太粗太大爽一区二区| 中文字幕一区二区三区在线观看| 日本一级片免费看| 欧美一级搡bbbb搡bbbb| 你懂得在线网址| 欧美激情2020午夜免费观看| 欧美激情三区| 噜噜噜噜噜久久久久久91| 91精品国产视频| 国产理论在线播放| jlzzjlzz国产精品久久| 国产av无码专区亚洲av毛网站| 日韩欧美国产成人| 好男人www在线视频| 久久久国产成人精品| 日韩一级二级| 精品亚洲一区二区三区四区五区高| 最新国产精品| 天天综合天天添夜夜添狠狠添| 欧美激情资源网| 日本特级黄色片| 精品国产网站在线观看| 中文在线字幕免费观看| 成人久久久久久| 99精品美女| 日本超碰在线观看| 中文字幕高清不卡| www.色国产| 精品亚洲国产成av人片传媒 | 五月天精品视频| 精品久久久香蕉免费精品视频| 丰满人妻妇伦又伦精品国产| 欧美成人免费观看| 99久久这里有精品| 日本不卡一区二区三区四区| 久久精品国产亚洲高清剧情介绍| 日本黄色小视频在线观看| 91久久香蕉国产日韩欧美9色| 天天操天天操天天操| 91大神福利视频在线| 色婷婷狠狠五月综合天色拍| 国产成人在线免费看| av不卡在线播放| 成人午夜淫片100集| 日韩大陆欧美高清视频区| 第一福利在线视频| 久久久久久艹| 天堂午夜影视日韩欧美一区二区| 国产交换配乱淫视频免费| 日本二三区不卡| 永久免费在线观看视频| 成人免费在线视频网址| 欧美不卡在线| 中文字幕第3页| 欧美日韩在线免费观看| 你懂得在线网址| 国产日韩欧美在线看| 欧美黄污视频| 亚洲成人av免费在线观看| 富二代精品短视频| 大乳在线免费观看| 成人网中文字幕| 一区视频在线| 香蕉网在线播放| 欧美老肥妇做.爰bbww| 操你啦视频在线| 国产经典一区二区三区 | 午夜视频久久久久久| 色吊丝在线永久观看最新版本| 国产精品旅馆在线| 欧美va亚洲va日韩∨a综合色| 黄色免费看视频| 欧美三日本三级三级在线播放| 浪潮av一区| 韩日午夜在线资源一区二区| 日本在线播放一区二区三区| 中文字幕电影av| 日韩高清欧美高清| 一区二区三区日本视频| 日韩在线观看a| 国产亚洲视频系列| 性猛交富婆╳xxx乱大交天津| 日本不卡高字幕在线2019| 色综合蜜月久久综合网| 黄色av电影网站| 在线观看国产精品网站| 91高清在线观看视频| 久久综合中文色婷婷| 韩国精品在线观看| 日韩av大片在线观看| 久久精品国产免费观看| 天天做夜夜做人人爱精品| 精品亚洲视频在线| 富二代精品短视频| 怡红院红怡院欧美aⅴ怡春院| 日本免费高清一区| 成人性生交大片免费看视频在线| 欧美三级网站在线观看| 海角国产乱辈乱精品视频| 天天综合国产| 新91视频在线观看|