一篇3大類、283個(gè) LLM 評測基準(zhǔn)的最新綜述
隨著 GPT-4、Qwen3、Llama3 等超大規(guī)模模型出現(xiàn),傳統(tǒng) GLUE/SuperGLUE 已無法覆蓋語言模型的能力邊界,亟需新的評估體系。
- 核心痛點(diǎn):
數(shù)據(jù)污染導(dǎo)致分?jǐn)?shù)虛高;
文化/語言偏差帶來不公平評估;
過程可信性與動態(tài)環(huán)境缺失。
中國科學(xué)院&中科大&華南理工大學(xué)&哈工大等等。

整體框架速覽

圖 1:283 個(gè)代表性基準(zhǔn)的時(shí)間軸,縱覽 2018-2025 的評估演進(jìn)。
三大類別 | 覆蓋維度 | 代表基準(zhǔn) |
通用能力 | 語言核心、知識、推理 | GLUE, MMLU, BIG-Bench, Chatbot Arena |
領(lǐng)域特化 | 自然科學(xué)、人文社科、工程技術(shù) | SciBench, LawBench, HumanEval |
專項(xiàng)風(fēng)險(xiǎn) | 安全、幻覺、魯棒、隱私 | SafetyBench, TruthfulQA, JailbreakBench |

3. 通用能力基準(zhǔn):從“能做題”到“會推理”
3.1 語言核心(Linguistic Core)
- 演化 5 階段
2018 GLUE 統(tǒng)一 9 項(xiàng) NLU 任務(wù) → 2. 2019 SuperGLUE 提升難度 → 3. 2020 多語言壓力測試(Xtreme) → 4. 2021 語義級生成指標(biāo)(BERTScore/BLEURT) → 5. 2022-今 動態(tài)綜合框架(HELM, BIG-Bench)

表 1:語言核心基準(zhǔn)匯總(GLUE → HELM 的能力維度躍遷)。
- 設(shè)計(jì)范式升級
從單語種到多語種
從靜態(tài)任務(wù)池到持續(xù)生長基準(zhǔn)
從單一指標(biāo)到多維畫像(LLM-as-Judge)
3.2 知識(Knowledge)
- 經(jīng)典范式MMLU 無上下文多選 → MMLU-Pro 加難度 → GPQA “Google-Proof” → SuperGPQA 285 個(gè)研究生領(lǐng)域
- 評估哲學(xué)
人機(jī)對齊:AGIEval 用高考/會考試題
分層粒度:KoLA 把知識拆成“記憶→理解→應(yīng)用”
多語多模態(tài):M3Exam、CMMMU

表 2:知識基準(zhǔn)對比(MMLU vs. KoLA 的評估維度差異)。
3.3 推理(Reasoning)
推理類別 | 關(guān)鍵詞 | 代表基準(zhǔn) |
形式邏輯 | 一階邏輯、SAT、證明 | LogicPro, PrOntoQA |
常識 & 因果 | 多跳、反事實(shí)、歸因 | StrategyQA, CLadder, CRAB |
應(yīng)用推理 | 科學(xué)問答、交互環(huán)境 | ARC, HotpotQA, LiveBench |

表 3:推理基準(zhǔn)全景圖(邏輯 → 常識 → 應(yīng)用的三級躍遷)。
4. 領(lǐng)域特化基準(zhǔn):讓模型“術(shù)業(yè)有專攻”
4.1 自然科學(xué)
- 數(shù)學(xué):GSM8K → MATH → FrontierMath(前沿?cái)?shù)學(xué))
- 物理:UGPhysics(本科題+防泄漏)、PhysicsArena(多模態(tài)物理過程三階段評估)
- 化學(xué):ChemSafetyBench(3 萬條危險(xiǎn)化學(xué)知識安全測試)
- 生物:BioMaze(通路推理+圖增強(qiáng) LLM)

表 4:自然科學(xué)基準(zhǔn)矩陣(學(xué)科 × 難度 × 模態(tài))。
4.2 人文社科
- 法律:LawBench(按 Bloom 認(rèn)知層級細(xì)分 20+ 任務(wù))
- 知識產(chǎn)權(quán):IPBench(Recall → Extended Thinking 四級認(rèn)知深度)
- 教育:EduBench 4000+ 教學(xué)場景任務(wù)(學(xué)生/教師雙向)
- 心理學(xué):CPsyCoun 多輪心理咨詢對話
- 金融:FinEval 四大金融知識類別

表 5:人文社科基準(zhǔn)示例(法律/教育/心理/金融)。
4.3 工程技術(shù)
子領(lǐng)域 | 任務(wù)示例 | 基準(zhǔn) |
軟件工程 | 函數(shù)級生成 → 倉庫級 PR 修復(fù) | HumanEval, SWE-bench |
芯片設(shè)計(jì) | Verilog/RTL 生成 | VerilogEval, RTLLM |
機(jī)械/航空 | CAD 腳本、航空制造 QA | CADBench, AeroMfg-QA |

表 6:工程技術(shù)基準(zhǔn)縱覽(代碼 → 硬件 → 跨域系統(tǒng))。
5. 專項(xiàng)風(fēng)險(xiǎn)與可靠性基準(zhǔn)
5.1 風(fēng)險(xiǎn)三維圖
- 安全JailbreakBench(100+ 越獄技巧)、HarmBench(510 種有害行為自動紅隊(duì))
- 幻覺TruthfulQA(人類常見誤解)、FActScore(長文本原子事實(shí)核驗(yàn))
- 魯棒性AdvGLUE(14 種文本攻擊)、PromptRobust(提示擾動)
- 隱私WikiMIA(記憶檢測)、C2LEVA(PII 泄漏)

表 7:風(fēng)險(xiǎn)維度評估矩陣(安全 × 幻覺 × 魯棒 × 隱私)。
5.2 Agent 評估框架
評估視角 | 關(guān)鍵問題 | 代表基準(zhǔn) |
單點(diǎn)能力 | 規(guī)劃、工具調(diào)用、零樣本協(xié)作 | FlowBench, SPA-Bench, ZSC-Eval |
綜合協(xié)同 | 多步任務(wù)、跨模態(tài)交互 | GAIA, TravelPlanner, AgentBench |
領(lǐng)域?qū)>?/strong> | 金融/生物/法律任務(wù) | InvestorBench, BixBench, CourtBench |
安全防護(hù) | 惡意指令、風(fēng)險(xiǎn)判斷 | AgentHarm, SafeAgentBench, R-Judge |

表 8:Agent 評估四維框架(能力 → 協(xié)同 → 專精 → 安全)。
https://arxiv.org/pdf/2508.15361
A Survey on Large Language Model Benchmarks本文轉(zhuǎn)載自??PaperAgent??

















