一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述

PaperAgent

發(fā)布于 2025-8-29 06:34

瀏覽

0收藏

隨著 GPT-4、Qwen3、Llama3 等超大規(guī)模模型出現(xiàn)，傳統(tǒng) GLUE/SuperGLUE 已無法覆蓋語言模型的能力邊界，亟需新的評估體系。

核心痛點(diǎn)：

數(shù)據(jù)污染導(dǎo)致分?jǐn)?shù)虛高；

文化/語言偏差帶來不公平評估；

過程可信性與動態(tài)環(huán)境缺失。

中國科學(xué)院&中科大&華南理工大學(xué)&哈工大等等。

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

整體框架速覽

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

圖 1：283 個(gè)代表性基準(zhǔn)的時(shí)間軸，縱覽 2018-2025 的評估演進(jìn)。

三大類別	覆蓋維度	代表基準(zhǔn)
通用能力	語言核心、知識、推理	GLUE, MMLU, BIG-Bench, Chatbot Arena
領(lǐng)域特化	自然科學(xué)、人文社科、工程技術(shù)	SciBench, LawBench, HumanEval
專項(xiàng)風(fēng)險(xiǎn)	安全、幻覺、魯棒、隱私	SafetyBench, TruthfulQA, JailbreakBench

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

3. 通用能力基準(zhǔn)：從“能做題”到“會推理”

3.1 語言核心（Linguistic Core）

演化 5 階段

2018 GLUE 統(tǒng)一 9 項(xiàng) NLU 任務(wù) → 2. 2019 SuperGLUE 提升難度 → 3. 2020 多語言壓力測試（Xtreme） → 4. 2021 語義級生成指標(biāo)（BERTScore/BLEURT） → 5. 2022-今動態(tài)綜合框架（HELM, BIG-Bench）

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

表 1：語言核心基準(zhǔn)匯總（GLUE → HELM 的能力維度躍遷）。

設(shè)計(jì)范式升級

從單語種到多語種

從靜態(tài)任務(wù)池到持續(xù)生長基準(zhǔn)

從單一指標(biāo)到多維畫像（LLM-as-Judge）

3.2 知識（Knowledge）

經(jīng)典范式MMLU 無上下文多選 → MMLU-Pro 加難度 → GPQA “Google-Proof” → SuperGPQA 285 個(gè)研究生領(lǐng)域
評估哲學(xué)

人機(jī)對齊：AGIEval 用高考/會考試題

分層粒度：KoLA 把知識拆成“記憶→理解→應(yīng)用”

多語多模態(tài)：M3Exam、CMMMU

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

表 2：知識基準(zhǔn)對比（MMLU vs. KoLA 的評估維度差異）。

3.3 推理（Reasoning）

推理類別	關(guān)鍵詞	代表基準(zhǔn)
形式邏輯	一階邏輯、SAT、證明	LogicPro, PrOntoQA
常識 & 因果	多跳、反事實(shí)、歸因	StrategyQA, CLadder, CRAB
應(yīng)用推理	科學(xué)問答、交互環(huán)境	ARC, HotpotQA, LiveBench

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

表 3：推理基準(zhǔn)全景圖（邏輯 → 常識 → 應(yīng)用的三級躍遷）。

4. 領(lǐng)域特化基準(zhǔn)：讓模型“術(shù)業(yè)有專攻”

4.1 自然科學(xué)

數(shù)學(xué)：GSM8K → MATH → FrontierMath（前沿?cái)?shù)學(xué)）
物理：UGPhysics（本科題+防泄漏）、PhysicsArena（多模態(tài)物理過程三階段評估）
化學(xué)：ChemSafetyBench（3 萬條危險(xiǎn)化學(xué)知識安全測試）
生物：BioMaze（通路推理+圖增強(qiáng) LLM）

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

表 4：自然科學(xué)基準(zhǔn)矩陣（學(xué)科 × 難度 × 模態(tài)）。

4.2 人文社科

法律：LawBench（按 Bloom 認(rèn)知層級細(xì)分 20+ 任務(wù)）
知識產(chǎn)權(quán)：IPBench（Recall → Extended Thinking 四級認(rèn)知深度）
教育：EduBench 4000+ 教學(xué)場景任務(wù)（學(xué)生/教師雙向）
心理學(xué)：CPsyCoun 多輪心理咨詢對話
金融：FinEval 四大金融知識類別

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

表 5：人文社科基準(zhǔn)示例（法律/教育/心理/金融）。

4.3 工程技術(shù)

子領(lǐng)域	任務(wù)示例	基準(zhǔn)
軟件工程	函數(shù)級生成 → 倉庫級 PR 修復(fù)	HumanEval, SWE-bench
芯片設(shè)計(jì)	Verilog/RTL 生成	VerilogEval, RTLLM
機(jī)械/航空	CAD 腳本、航空制造 QA	CADBench, AeroMfg-QA

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

表 6：工程技術(shù)基準(zhǔn)縱覽（代碼 → 硬件 → 跨域系統(tǒng)）。

5. 專項(xiàng)風(fēng)險(xiǎn)與可靠性基準(zhǔn)

5.1 風(fēng)險(xiǎn)三維圖

安全JailbreakBench（100+ 越獄技巧）、HarmBench（510 種有害行為自動紅隊(duì)）
幻覺TruthfulQA（人類常見誤解）、FActScore（長文本原子事實(shí)核驗(yàn)）
魯棒性AdvGLUE（14 種文本攻擊）、PromptRobust（提示擾動）
隱私WikiMIA（記憶檢測）、C2LEVA（PII 泄漏）

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

表 7：風(fēng)險(xiǎn)維度評估矩陣（安全 × 幻覺 × 魯棒 × 隱私）。

5.2 Agent 評估框架

評估視角	關(guān)鍵問題	代表基準(zhǔn)
單點(diǎn)能力	規(guī)劃、工具調(diào)用、零樣本協(xié)作	FlowBench, SPA-Bench, ZSC-Eval
綜合協(xié)同	多步任務(wù)、跨模態(tài)交互	GAIA, TravelPlanner, AgentBench
領(lǐng)域?qū)＞?/strong>	金融/生物/法律任務(wù)	InvestorBench, BixBench, CourtBench
安全防護(hù)	惡意指令、風(fēng)險(xiǎn)判斷	AgentHarm, SafeAgentBench, R-Judge

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述-AI.x社區(qū)

表 8：Agent 評估四維框架（能力 → 協(xié)同 → 專精 → 安全）。

https://arxiv.org/pdf/2508.15361
A Survey on Large Language Model Benchmarks

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

LLM

評測

基準(zhǔn)

已于2025-8-29 10:51:01修改

贊

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

三小時(shí)內(nèi)用ChatGPT寫完一篇論文的終極指南

數(shù)師兄 ? 4865瀏覽 ? 0回復(fù)
讓大模型不再「巨無霸」，這是一份最新的大模型參數(shù)高效微調(diào)綜述

輕薄滴假象 ? 3874瀏覽 ? 0回復(fù)
Flames 安全評測基準(zhǔn)：大語言模型的對齊效果如何？

戀戀青鳥 ? 5955瀏覽 ? 0回復(fù)
一篇模塊化RAG之最新全面系統(tǒng)性綜述

PaperAgent ? 5435瀏覽 ? 0回復(fù)
一篇大模型NL2SQL全棧技術(shù)最新綜述

PaperAgent ? 9957瀏覽 ? 0回復(fù)
一篇大模型Agent最新綜述

探索AGI ? 4596瀏覽 ? 0回復(fù)
一篇大模型RAG最新綜述

NLP前沿1 ? 4748瀏覽 ? 0回復(fù)
多模態(tài)大模型能力評測基準(zhǔn)全面綜述：理解、推理、生成、應(yīng)用、趨勢

十一月雨_55 ? 1.4w瀏覽 ? 0回復(fù)
一篇RAG噪聲分析的綜述

探索AGI ? 3656瀏覽 ? 0回復(fù)
大語言模型評測中的評價(jià)指標(biāo)：方法、基準(zhǔn)和最佳實(shí)踐

芝士AI吃魚 ? 1.3w瀏覽 ? 0回復(fù)
一篇大模型GraphRAG最新綜述

探索AGI ? 4895瀏覽 ? 0回復(fù)
一篇綜述：RAG復(fù)雜Query的4種優(yōu)化方案

CourseAI ? 4935瀏覽 ? 0回復(fù)
一篇多模態(tài)大模型推理技術(shù)最新綜述

PaperAgent ? 5624瀏覽 ? 0回復(fù)
首次全面復(fù)盤AI Agents記憶系統(tǒng)：3大類，6種操作！

PaperAgent ? 5028瀏覽 ? 0回復(fù)
一篇持續(xù)強(qiáng)化學(xué)習(xí)技術(shù)最新綜述

PaperAgent ? 2928瀏覽 ? 0回復(fù)
一篇200+文獻(xiàn)的視覺強(qiáng)化學(xué)習(xí)技術(shù)最新綜述

PaperAgent ? 3020瀏覽 ? 0回復(fù)
一篇Copilot、Cursor、Claude Code三代產(chǎn)品背后AI Code技術(shù)最新全面綜述

PaperAgent ? 3404瀏覽 ? 0回復(fù)
一篇大模型Agentic框架到應(yīng)用最新綜述

PaperAgent ? 4349瀏覽 ? 0回復(fù)
一篇92頁大模型Vibe Coding技術(shù)全面綜述

PaperAgent ? 2303瀏覽 ? 0回復(fù)

PaperAgent

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

51CTO

51CTO博客

51CTO學(xué)堂

一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述

整體框架速覽

3. 通用能力基準(zhǔn)：從“能做題”到“會推理”

3.1 語言核心（Linguistic Core）

3.2 知識（Knowledge）

3.3 推理（Reasoning）

4. 領(lǐng)域特化基準(zhǔn)：讓模型“術(shù)業(yè)有專攻”

4.1 自然科學(xué)

4.2 人文社科

4.3 工程技術(shù)

5. 專項(xiàng)風(fēng)險(xiǎn)與可靠性基準(zhǔn)

5.1 風(fēng)險(xiǎn)三維圖

5.2 Agent 評估框架

目錄