大型語言模型評估綜述(ACM Trans. Intell. Syst. Technol.) 原創
摘要:
大型語言模型(Large Language Models, LLMs)憑借在各類應用中前所未有的性能,在學術界和工業界的關注度日益提升。隨著 LLMs 在研究和日常使用中持續發揮重要作用,其評估工作變得愈發關鍵 —— 不僅需要在任務層面開展評估,還需從社會層面評估以更好地了解其潛在風險。過去幾年,研究者們從多個角度對 LLMs 展開了深入考察,并付出了大量努力。本文對這些 LLMs 評估方法進行了全面綜述,重點圍繞三個核心維度:評估什么(what to evaluate)、在哪里評估(where to evaluate)以及如何評估(how to evaluate)。首先,從評估任務視角進行概述,涵蓋通用自然語言處理任務、推理任務、醫療應用、倫理評估、教育領域、自然科學與社會科學、智能體應用等多個方面;其次,通過深入分析評估方法與基準數據集,回答 “在哪里評估” 和 “如何評估” 的問題,這些方法與數據集是評估 LLMs 性能的關鍵組成部分;然后,總結了 LLMs 在不同任務中的成功案例與失敗案例;最后,探討了 LLMs 評估領域未來面臨的若干挑戰。本文旨在為 LLMs 評估領域的研究者提供寶貴見解,從而助力更高效 LLMs 的開發。本文的核心觀點是:評估應被視為一門核心學科,以更好地輔助 LLMs 的發展。相關開源資料將持續維護于以下鏈接:??https://github.com/MLGroupJLU/LLM-eval-survey??
?原文鏈接:??https://dl.acm.org/doi/full/10.1145/3641289??
1、引言
理解智能的本質并判斷機器是否具備智能,是科學家們面臨的一個極具吸引力的問題。人們普遍認為,真正的智能賦予我們推理能力、檢驗假設的能力以及為未來可能發生的情況做準備的能力 [92]。特別是人工智能(Artificial Intelligence, AI)研究者,他們專注于開發基于機器的智能,而非基于生物的智能 [136]。恰當的測量有助于理解智能,例如,評估人類通用智能的方法通常包括智商測試(IQ tests)[12]。
在人工智能領域,圖靈測試(Turing Test)[193] 是一種廣泛認可的智能評估方法,通過判斷響應是來自人類還是機器來評估智能水平,它一直是人工智能發展的長期目標。研究者們普遍認為,成功通過圖靈測試的計算機器可被視為具備智能。因此,從更廣泛的視角來看,人工智能的發展歷程可被描述為智能模型與算法的創建和評估歷程。每當一種新的人工智能模型或算法出現,研究者們總會通過特定且具有挑戰性的任務對其進行評估,以檢驗其在現實場景中的能力。例如,20 世紀 50 年代被視為通用人工智能(Artificial General Intelligence, AGI)實現途徑之一的感知機算法(Perceptron algorithm)[49],后來因無法解決異或(XOR)問題而被證明存在不足。隨后支持向量機(Support Vector Machines, SVMs)[28] 和深度學習(deep learning)[104] 的興起與應用,標志著人工智能領域既取得了進步,也經歷了挫折。從以往的嘗試中可以得出一個重要結論:人工智能評估至關重要,它是識別當前系統局限性、指導設計更強大模型的關鍵工具。
近年來,大型語言模型(LLMs)在學術界和工業界均引發了廣泛關注 [11, 219, 255]。現有研究 [15] 表明,LLMs 的出色性能讓人們看到了其成為該時代通用人工智能(AGI)的希望。與以往僅能解決特定任務的模型不同,LLMs 具備解決多種任務的能力。由于 LLMs 在處理通用自然語言任務和特定領域任務等各類應用中表現出色,越來越多有重要信息需求的人群(如學生或患者)開始使用 LLMs。
評估對 LLMs 的成功至關重要,原因如下:首先,評估 LLMs 有助于我們更好地了解其優勢與不足。例如,PromptBench [262] 基準測試表明,當前 LLMs 對對抗性提示(adversarial prompts)較為敏感,因此需要精心設計提示詞(prompt engineering)以獲得更好的性能;其次,更完善的評估能為人類與 LLMs 的交互提供更好的指導,進而啟發未來交互設計與實現;第三,LLMs 的廣泛適用性凸顯了確保其安全性和可靠性的重要性,尤其是在金融機構、醫療機構等安全敏感領域;最后,隨著 LLMs 規模不斷擴大且涌現出更多新能力,現有評估協議可能不足以全面評估其能力和潛在風險。因此,本文旨在通過綜述當前的評估協議,提高學術界對 LLMs 評估重要性的認識,更重要的是,為未來設計新的 LLMs 評估協議的研究提供方向。
隨著 ChatGPT [145] 和 GPT-4 [146] 的推出,已有大量研究從不同角度對 ChatGPT 及其他 LLMs 進行評估(見圖 2),涉及自然語言任務、推理能力、魯棒性、可信度、醫療應用、倫理考量等多個因素。盡管這些研究付出了努力,但目前仍缺乏能涵蓋所有評估維度的全面綜述。此外,LLMs 的持續發展也為評估帶來了新的維度,這對現有評估協議構成了挑戰,同時也凸顯了開展全面、多維度評估技術的必要性。現有研究(如 Bubeck 等人 [15])認為 GPT-4 可被視為通用人工智能的 “火花”,但也有研究者對此提出質疑,認為其評估方法具有人工設計的局限性。
本文是首篇關于大型語言模型評估的全面綜述。如圖 1 所示,本文從三個維度探討現有研究:1)評估什么(what to evaluate);2)在哪里評估(where to evaluate);3)如何評估(how to evaluate)。具體而言,“評估什么” 涵蓋了現有的 LLMs 評估任務;“在哪里評估” 涉及為評估選擇合適的數據集和基準測試;“如何評估” 則關注在確定任務和數據集后如何開展評估過程。這三個維度共同構成了 LLMs 評估的核心內容。隨后,本文還討論了 LLMs 評估領域未來可能面臨的挑戰。
本文的貢獻如下:
(1)從 “評估什么”“在哪里評估”“如何評估” 三個方面,全面概述了 LLMs 評估工作。這種分類方式具有通用性,涵蓋了 LLMs 評估的全生命周期。
(2)在 “評估什么” 方面,總結了不同領域的現有任務,并提煉出 LLMs 在這些任務中的成功與失敗案例(見第 6 節),為未來研究提供經驗借鑒。
(3)在 “在哪里評估” 方面,總結了評估指標、數據集和基準測試,以幫助讀者深入理解當前 LLMs 評估的現狀;在 “如何評估” 方面,探討了當前的評估協議并總結了新的評估方法。
(4)進一步討論了 LLMs 評估領域未來的挑戰,并在??https://github.com/MLGroupJLU/LLM-eval-survey??開源并維護 LLMs 評估相關資料,以促進協作社區的發展,助力更完善的評估工作。
本文結構安排如下:第 2 節介紹 LLMs 和 AI 模型評估的基礎知識;第 3 節從 “評估什么” 的角度綜述現有研究;第 4 節為 “在哪里評估” 部分,總結現有數據集和基準測試;第 5 節討論如何開展評估;第 6 節總結本文的主要發現;第 7 節探討未來的重大挑戰;第 8 節對全文進行總結。
2、基礎知識
2.1 大型語言模型
語言模型(Language Models, LMs)[36, 51, 96] 是能夠理解和生成人類語言的計算模型。它們具有變革性的能力,可預測詞序列的可能性或根據給定輸入生成新文本。n 元語法模型(N-gram models)[13] 是最常見的語言模型類型,它基于前文語境估算單詞概率。然而,語言模型也面臨諸多挑戰,例如稀有詞或未見過的詞(unseen words)問題、過擬合問題,以及難以捕捉復雜語言現象等。研究者們正不斷改進語言模型的架構和訓練方法,以解決這些挑戰。
大型語言模型(LLMs)[19, 91, 255] 是參數規模龐大且學習能力極強的先進語言模型。許多 LLMs(如 GPT-3 [43]、InstructGPT [149]、GPT-4 [146])的核心模塊是 Transformer [197] 中的自注意力模塊(self-attention module),該模塊是語言建模任務的基礎構建單元。Transformer 憑借高效處理序列數據的能力,徹底改變了自然語言處理(NLP)領域,它支持并行計算,并能捕捉文本中的長距離依賴關系。LLMs 的一個關鍵特性是上下文學習(in-context learning)[14],即模型通過訓練,能夠根據給定的上下文或提示生成文本。這一特性使 LLMs 能生成更連貫、與上下文更相關的響應,從而適用于交互式和對話式應用場景。基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)[25, 266] 是 LLMs 的另一重要特性,該技術利用人類生成的響應作為獎勵來微調模型,使模型能夠從錯誤中學習并不斷提升性能。
在自回歸語言模型(如 GPT-3 和 PaLM [24])中,給定上下文序列X,語言模型的任務是預測下一個 token y。模型通過最大化給定 token 序列在上下文條件下的概率進行訓練,即P(y | X)=P(y | x_{1}, x_{2}, ..., x_{t-1}),其中x_{1}, x_{2}, ..., x_{t-1}是上下文序列中的 token,t是當前位置。利用鏈式法則,條件概率可分解為每個位置概率的乘積:
P(y | X)=\prod_{t=1}^{T} P\left(y_{t} | x_{1}, x_{2}, ..., x_{t-1}\right)
其中T為序列長度。通過這種方式,模型以自回歸的方式預測每個位置的 token,進而生成完整的文本序列。
與 LLMs 交互的常用方式之一是提示工程(prompt engineering)[26, 221, 261],即用戶設計并提供特定的提示文本,以引導 LLMs 生成期望的響應或完成特定任務。這種方式在現有評估工作中被廣泛采用。此外,人們還可通過問答交互 [83](向模型提問并獲取答案)或對話交互(與 LLMs 進行自然語言對話)的方式與 LLMs 交互。總之,LLMs 憑借其 Transformer 架構、上下文學習和 RLHF 能力,徹底改變了自然語言處理領域,并在各類應用中展現出巨大潛力。表 1 對傳統機器學習(Traditional ML)、深度學習(Deep Learning)和 LLMs 進行了簡要對比。

圖 2 2020 年 - 2023 年 6 月(含 2023 年 7 月)LLMs 評估相關論文數量趨勢
表 1 傳統機器學習、深度學習與大型語言模型(LLMs)的對比

2.2 人工智能模型評估
人工智能模型評估是衡量模型性能的關鍵步驟。目前存在一些標準的模型評估協議,包括 k 折交叉驗證(k-fold cross-validation)、留存驗證(holdout validation)、留一交叉驗證(leave one out cross-validation, LOOCV)、自助法(bootstrap)和縮減集(reduced set)[8, 95]。例如,k 折交叉驗證將數據集分為 k 部分,其中 1 部分用作測試集,其余部分用作訓練集,這種方法可減少訓練數據損失,并能更準確地評估模型性能 [48];留存驗證將數據集分為訓練集和測試集,計算量較小,但可能存在較大偏差;留一交叉驗證是一種特殊的 k 折交叉驗證,僅使用一個數據點作為測試集 [222];縮減集方法使用一個數據集訓練模型,用剩余數據測試模型,計算簡單,但適用性有限。在實際應用中,應根據具體問題和數據特征選擇合適的評估方法,以獲得更可靠的性能指標。
圖 3 展示了包括 LLMs 在內的人工智能模型的評估流程。由于深度學習模型的訓練規模龐大,部分評估協議可能無法適用于深度學習模型評估。因此,在靜態驗證集上進行評估長期以來一直是深度學習模型的標準選擇。例如,計算機視覺模型利用 ImageNet [33]、MS COCO [120] 等靜態測試集進行評估;LLMs 則常用 GLUE [200] 或 SuperGLUE [199] 作為通用測試集。
隨著 LLMs 的普及,其可解釋性進一步降低,現有評估協議可能不足以全面評估 LLMs 的真實能力。第 5 節將介紹近年來 LLMs 評估的相關進展。

3、評估什么
為了體現 LLMs 的性能,我們應該在哪些任務上對其進行評估?通過哪些任務可以明確 LLMs 的優勢與不足?本節將現有任務分為以下幾類:自然語言處理任務、魯棒性評估、倫理、偏見與可信度評估、社會科學領域任務、自然科學與工程領域任務、醫療應用、智能體應用(將 LLMs 用作智能體)以及其他應用。①
① 注:LLMs 的評估涉及多種任務,本文的分類方式僅為其中一種可能的分類方式,當然還存在其他分類體系。

3.1 自然語言處理任務
開發語言模型(尤其是大型語言模型)的最初目標是提升自然語言處理任務的性能,包括語言理解和語言生成兩大方向。因此,大多數評估研究主要圍繞自然語言任務展開。表 2 總結了現有研究的評估方向,下文將重點闡述這些研究的結論。②
② 注:部分自然語言處理領域存在交叉,因此本文對這些領域的分類僅為一種可能的分類方式。

3.1.1 自然語言理解
自然語言理解涵蓋一系列旨在深入理解輸入序列的任務。本節從多個方面總結近年來 LLMs 評估的相關成果。
情感分析(Sentiment Analysis)是對文本進行分析和解讀,以確定其情感傾向的任務,通常屬于二分類(積極、消極)或三分類(積極、中性、消極)問題。情感分析任務的評估是一個熱門方向。Liang 等人 [114] 和 Zeng 等人 [242] 的研究表明,模型在該任務上的性能通常較高。ChatGPT 的情感分析預測性能優于傳統情感分析方法 [129],且接近 GPT-3.5 [159] 的水平。在細粒度情感分析和情感原因分析任務中,ChatGPT 也表現出優異性能 [218]。在低資源學習環境下,LLMs 相較于小型語言模型具有顯著優勢 [249],但 ChatGPT 對低資源語言的理解能力有限 [6]。總之,LLMs 在情感分析任務中表現出色,未來研究應重點提升其對低資源語言情感的理解能力。
文本分類(Text Classification)與情感分析相關,但文本分類不僅關注情感,還涵蓋所有文本類型和任務的處理。Liang 等人 [114] 的研究顯示,GLM-130B 在各類文本分類任務中表現最佳,總體準確率達到 85.8%。Yang 和 Menczer [232] 發現,ChatGPT 能夠對各類新聞媒體的可信度進行評級,且這些評級與人類專家的評級具有中等程度的相關性。此外,ChatGPT 在二分類場景中實現了可接受的準確率(AUC=0.89)。Pe?a 等人 [154] 探討了公共事務文檔的主題分類問題,研究表明,以 LLM 為基礎骨干網絡,結合支持向量機(SVM)分類器,是處理公共事務領域多標簽主題分類任務的有效策略,準確率可超過 85%。總體而言,LLMs 在文本分類任務中表現出色,甚至能夠處理非常規問題場景下的文本分類任務。
自然語言推理(Natural Language Inference, NLI)任務旨在判斷給定的 “假設”(hypothesis)是否能從 “前提”(premise)中邏輯推導得出。Qin 等人 [159] 的研究表明,在自然語言推理任務中,ChatGPT 的性能優于 GPT-3.5。他們還發現,ChatGPT 在處理事實性輸入時表現突出,這可能得益于其基于人類反饋的強化學習(RLHF)訓練過程 —— 該過程更傾向于滿足人類反饋。然而,Lee 等人 [105] 觀察到,LLMs 在自然語言推理任務中的表現較差,且難以準確體現人類的分歧,這表明 LLMs 在該領域仍有較大的提升空間。
語義理解(Semantic Understanding)指對語言及其相關概念的含義的理解,涉及對單詞、短語、句子及其相互關系的解讀和把握。語義處理超越了表面文本層面,聚焦于理解深層含義和意圖。Tao 等人 [184] 全面評估了 LLMs 的事件語義處理能力,包括對事件語義的理解、推理和預測。結果表明,LLMs 能夠理解單個事件,但對事件間語義相似性的感知能力有限。在推理任務中,LLMs 在因果關系和意圖關系推理方面表現出較強的能力,但在其他類型關系的推理上性能相對較弱。在預測任務中,隨著上下文信息的增加,LLMs 對未來事件的預測能力會顯著提升。Riccardi 和 Desai [166] 探究了 LLMs 的語義能力,發現這些模型在評估基礎短語時表現不佳。此外,GPT-3.5 和 Bard 無法區分有意義短語和無意義短語,常將高度無意義的短語歸類為有意義短語;GPT-4 雖有顯著改進,但性能仍遠低于人類水平。總之,LLMs 在語義理解任務中的表現欠佳,未來可從這一方向入手,重點提升其在該應用場景下的性能。
在社會知識理解(Social Knowledge Understanding)方面,Choi 等人 [23] 評估了模型學習和識別社會知識概念的能力,結果顯示,盡管部分監督模型(如 BERT)的參數數量遠少于最先進的 LLMs(如 GPT [162]、GPT-J-6B [202] 等),但通過微調的監督模型在社會知識理解任務上的性能遠優于零樣本(zero-shot)LLMs。這一結論表明,在該場景下,監督模型的性能顯著優于零樣本模型,同時也說明參數數量的增加并不一定意味著模型具備更高的社會知識水平。
3.1.2 推理任務
推理任務對智能 AI 模型而言是一項重大挑戰。要有效完成推理任務,模型不僅需要理解所提供的信息,還需在缺乏明確答案的情況下,通過推理和推斷得出結論。表 2 顯示,越來越多的研究開始關注 LLMs 推理能力的評估,相關論文數量不斷增加。目前,推理任務的評估大致可分為數學推理、常識推理、邏輯推理和特定領域推理四類。
在算術推理(Arithmetic Reasoning)方面,ChatGPT 表現出較強的能力,在大多數任務中性能優于 GPT-3.5 [159],但在數學推理(Mathematical Reasoning)方面仍需改進 [6, 45, 263]。在符號推理(Symbolic Reasoning)任務中,ChatGPT 的性能大多低于 GPT-3.5,這可能是因為 ChatGPT 容易產生不確定的響應,從而導致性能不佳 [6]。Wu 等人 [226] 通過 LLMs 在反事實條件任務變體上的較差表現表明,當前 LLMs 在抽象推理(Abstract Reasoning)能力方面存在一定局限性。Gendron 等人 [56] 發現,現有 LLMs 的抽象推理能力非常有限。
在邏輯推理(Logical Reasoning)方面,Liu 等人 [124] 指出,ChatGPT 和 GPT-4 在大多數基準測試中性能優于傳統微調方法,體現出在邏輯推理方面的優勢。然而,這兩個模型在處理新的分布外(out-of-distribution)數據時仍面臨挑戰。ChatGPT 的性能不如 GPT-3.5、BARD 等其他 LLMs [159, 228],這是因為 ChatGPT 專為對話設計,在保持合理性方面表現出色,但在邏輯推理的部分場景中存在不足。FLAN-T5、LLaMA、GPT-3.5 和 PaLM 在通用演繹推理(Deductive Reasoning)任務中表現良好 [170];而在歸納推理(Inductive Reasoning)場景中,GPT-3.5 難以保持推理方向的一致性 [228]。
在多步推理(Multi-step Reasoning)方面,Fu 等人 [47] 的研究表明,PaLM 和 Claude2 是僅有的兩個性能接近 GPT 模型家族的模型系列(但仍低于 GPT 模型家族)。此外,LLaMA-65B 是目前最魯棒的開源 LLMs,性能接近 code-davinci-002。
部分研究還單獨評估了 ChatGPT 在特定推理任務中的表現:ChatGPT 在常識推理(Commonsense Reasoning)任務中總體表現較差,但優于非文本語義推理 [6];同時,ChatGPT 缺乏空間推理(Spatial Reasoning)能力,但在時間推理(Temporal Reasoning)方面表現較好;最后,盡管 ChatGPT 在因果推理(Causal Reasoning)和類比推理(Analogical Reasoning)中的性能尚可,但在多跳推理(Multi-hop Reasoning)能力上表現不佳,這與其他 LLMs 在復雜推理任務中的弱點相似 [148]。
在專業領域推理(Domain-specific Reasoning)任務中,零樣本的 InstructGPT 和 Codex 能夠完成復雜的醫療推理任務,但仍需進一步改進 [117]。在語言洞察力問題(Verbal Insight Problems)方面,Orrù 等人 [147] 證明了 ChatGPT 在解決語言洞察力問題上的潛力,其性能與人類參與者相當。
需要注意的是,上述結論大多基于特定數據集得出。相比之下,更復雜的任務已成為評估 LLMs 能力的主流基準,例如數學推理 [225, 236, 243] 和結構化數據推理 [86, 151] 等任務。總體而言,LLMs 在推理方面展現出巨大潛力,且性能呈持續提升趨勢,但仍面臨諸多挑戰和局限性,需要更深入的研究和優化。
3.1.3 自然語言生成
自然語言生成(Natural Language Generation, NLG)評估 LLMs 生成特定文本的能力,包含摘要生成、對話生成、機器翻譯、問答生成以及其他開放式生成任務等多個方向。
摘要生成(Summarization)是為給定文本生成簡潔摘要的生成任務。在相關評估中,Liang 等人 [114] 發現,TNLG v2(530B)[179] 在兩種場景下均獲得最高分數,OPT(175B)[245] 緊隨其后,排名第二;經過微調的 Bart [106] 性能仍優于零樣本 ChatGPT。具體而言,ChatGPT 的零樣本性能與 text-davinci-002 相當 [6],但低于 GPT-3.5 [159]。這些發現表明,LLMs(尤其是 ChatGPT)在摘要生成任務中的表現處于中等水平。
對話任務(Dialogue Tasks)的 LLMs 性能評估對對話系統的發展和人機交互的改進至關重要。通過此類評估,可提升模型的自然語言處理能力、上下文理解能力和生成能力,進而實現更智能、更自然的對話系統。研究表明,在所有評估維度上,Claude 和 ChatGPT 的總體性能均優于 GPT-3.5 [121, 159];在 Claude 和 ChatGPT 的對比中,兩者在不同評估維度上均表現出競爭力,且 Claude 在特定配置下略優于 ChatGPT。Bang 等人 [6] 的研究強調,針對特定任務進行全微調的模型,在任務導向型對話和知識型對話場景中均優于 ChatGPT。此外,Zheng 等人 [257] 構建了一個全面的 LLMs 對話數據集 LMSYS-Chat-1M,包含多達 100 萬個樣本,為對話系統的評估和改進提供了寶貴資源。
盡管 LLMs 并非專門為翻譯任務(Translation Tasks)訓練,但仍能表現出較強的翻譯性能。Wang 等人 [208] 的研究表明,經人類評估,ChatGPT 和 GPT-4 的性能優于商業機器翻譯(Machine Translation, MT)系統;且在 sacreBLEU 分數方面,它們也優于大多數文檔級神經機器翻譯(Neural Machine Translation, NMT)方法。在對比測試中,ChatGPT 的準確率低于傳統翻譯模型;而 GPT-4 在解釋語篇知識方面表現出較強能力,盡管偶爾會選擇錯誤的翻譯候選。Bang 等人 [6] 的研究發現,ChatGPT 在 “非英語語言→英語”(X→Eng)的翻譯任務中表現良好,但在 “英語→非英語語言”(Eng→X)的翻譯任務中能力不足。Lyu 等人 [130] 探究了利用 LLMs 開展機器翻譯研究的多個方向,該研究為機器翻譯研究的發展做出了重要貢獻,并凸顯了 LLMs 在提升翻譯能力方面的潛力。總之,LLMs 在部分翻譯任務中表現尚可,但仍有提升空間,例如增強從英語到非英語語言的翻譯能力。
問答(Question Answering, QA)是人機交互領域的關鍵技術,已在搜索引擎、智能客服、問答系統等場景中廣泛應用。問答模型的準確率和效率評估對這些應用具有重要意義。Liang 等人 [114] 的研究顯示,在所有評估模型中,InstructGPT davinci v2(175B)在 9 個問答場景中的準確率、魯棒性和公平性方面均表現最佳。GPT-3.5 和 ChatGPT 在回答通用知識問題的能力上較 GPT-3 有顯著提升,在大多數領域,ChatGPT 的性能比 GPT-3.5 高出 2% 以上 [9, 159]。然而,在 CommonsenseQA 和 Social IQA 基準測試中,ChatGPT 的性能略低于 GPT-3.5,這是因為 ChatGPT 具有謹慎性,在信息不足時傾向于拒絕提供答案。經過微調的模型(如 Vicuna 和 ChatGPT)表現出卓越性能,分數接近滿分,顯著優于未經過監督微調的模型 [5, 6]。Laskar 等人 [102] 在多個學術數據集上評估了 ChatGPT 的有效性,涉及問答、文本摘要、代碼生成、常識推理、數學問題解決、語言翻譯、偏見檢測、倫理問題處理等多種任務。總體而言,LLMs 在問答任務中表現出色,未來有望進一步提升其在社會、事件和時間常識知識方面的應用能力。
自然語言生成還包括其他生成任務。在句子風格遷移(Sentence Style Transfer)領域,Pu 和 Demberg [158] 的研究表明,通過在相同子集上進行少樣本(few-shot)學習訓練,ChatGPT 的性能優于之前的最優(State-of-the-Art, SOTA)監督模型,這一點可從更高的 BLEU 分數中體現。然而,在控制句子風格的正式程度方面,ChatGPT 的表現與人類行為仍存在顯著差異。在寫作任務(Writing Tasks)中,Chia 等人 [22] 發現,LLMs 在信息型、專業型、議論型和創意型等各類寫作任務中表現穩定,這表明 LLMs 具備通用的寫作能力。在文本生成質量(Text Generation Quality)評估方面,Chen 等人 [20] 的研究顯示,即使在沒有參考文本的情況下,ChatGPT 也能從多個角度出色地評估文本質量,性能優于大多數現有自動指標;在研究的多種測試方法中,利用 ChatGPT 生成文本質量的數值評分是最可靠、最有效的方法。
3.1.4 多語言任務
盡管英語是 LLMs 訓練的主要語言,但許多 LLMs 的訓練數據包含多種語言。多語言數據的融合確實幫助 LLMs 獲得了處理不同語言輸入和生成不同語言響應的能力,使其在全球范圍內得到廣泛應用和接受。然而,由于該技術出現時間較短,LLMs 的評估主要基于英語數據,可能忽略了對其多語言性能的評估。為解決這一問題,已有多篇論文對 LLMs 在不同非英語語言的各類自然語言處理任務中的性能進行了全面、開放且獨立的評估,為未來研究和應用提供了寶貴見解。
Abdelali 等人 [1] 評估了 ChatGPT 在標準阿拉伯語自然語言處理任務中的性能,發現在零樣本設置下,ChatGPT 在大多數任務中的性能低于最優模型。Ahuja 等人 [2]、Bang 等人 [6]、Lai 等人 [100]、Zhang 等人 [248] 在多個數據集上使用更多語言,涵蓋更廣泛的任務,對 BLOOM、Vicuna、Claude、ChatGPT、GPT-4 等 LLMs 進行了更全面的評估。結果表明,這些 LLMs 在處理非拉丁語系語言和低資源語言時表現較差;即使將輸入翻譯成英語并作為查詢,生成式 LLMs 在各類任務和語言中的性能仍低于最優模型 [2]。此外,Bang 等人 [6] 指出,ChatGPT 在翻譯具有豐富語言資源的非拉丁字母語言句子時,仍存在局限性。上述研究表明,LLMs 在多語言任務中面臨諸多挑戰,同時也存在巨大的提升空間。未來研究應優先實現多語言平衡,解決非拉丁語系語言和低資源語言面臨的問題,以更好地為全球用戶提供支持;同時,需關注語言的公平性和中立性,減少可能影響多語言應用的潛在偏見(包括英語偏見或其他偏見)。
3.1.5 事實性
在 LLMs 語境中,事實性(Factuality)指模型提供的信息或答案與現實世界事實和可驗證信息的符合程度。LLMs 的事實性對問答系統、信息抽取、文本摘要、對話系統、自動事實核查等多種任務和下游應用具有重要影響,因為錯誤或不一致的信息可能導致嚴重的誤解和誤讀。評估事實性對于信任并有效使用這些模型至關重要,這包括評估模型保持與已知事實一致性、避免生成誤導性或虛假信息(即 “事實幻覺”,factual hallucination)以及有效學習和記憶事實知識的能力。目前已有多種方法被提出,用于衡量和提升 LLMs 的事實性。
Wang 等人 [204] 通過讓 InstructGPT、ChatGPT-3.5、GPT-4 和 BingChat [137] 等多個大型模型回答基于 Natural Questions [98] 和 TriviaQA [88] 數據集的開放式問題,并結合人類評估,評估了這些模型的內部知識能力。研究結果表明,盡管 GPT-4 和 BingChat 能對超過 80% 的問題給出正確答案,但要達到 100% 的準確率仍有超過 15% 的差距。
Honovich 等人 [74] 回顧了當前事實一致性評估方法,指出目前缺乏統一的比較框架,且相關分數與二元標簽相比參考價值有限。為解決這一問題,他們將現有的事實一致性任務轉換為二元標簽(僅考慮與輸入文本是否存在事實沖突,不涉及外部知識)。研究發現,基于自然語言推理和問題生成 - 回答的事實評估方法表現更優,且兩者可互補。
Pezeshkpour [156] 基于信息論提出了一種新的指標,用于評估 LLMs 中特定知識的包含情況。該指標利用知識的不確定性概念來衡量事實性,通過讓 LLMs 填充提示詞并分析答案的概率分布進行計算。論文討論了兩種向 LLMs 注入知識的方法:在提示詞中明確包含知識,以及利用知識相關數據對 LLMs 進行隱式微調。研究表明,該方法優于傳統排序方法,準確率提升超過 30%。
Gekhman 等人 [55] 改進了摘要任務中事實一致性的評估方法,提出了一種新方案:使用多個模型生成摘要,并由 LLMs 標注摘要的事實一致性,然后利用這些標注數據訓練學生自然語言推理(NLI)模型,最終使用訓練后的學生模型評估摘要的事實一致性。
Manakul 等人 [133] 基于 LLMs 生成事實性響應或幻覺響應的兩種假設,提出使用三種公式(BERTScore [247]、MQAG [134] 和 n-gram)評估事實性,并利用其他 LLMs 收集黑箱語言模型的 token 概率。研究發現,簡單計算句子的可能性或熵有助于驗證響應的事實性。
Min 等人 [138] 將 LLMs 生成的文本分解為單個 “原子” 事實(atomic facts),然后評估這些原子事實的正確性,并使用 FActScore 通過計算 F1 分數來衡量評估器的性能。論文測試了多種評估器,結果表明當前評估器在有效完成該任務方面仍有提升空間。
Lin 等人 [119] 引入了 TruthfulQA 數據集,該數據集旨在誘導模型產生錯誤。研究通過讓多個語言模型提供事實性答案對其進行測試,結果表明,單純擴大模型規模不一定能提升其真實性,并為訓練方法提供了建議。該數據集已被廣泛用于 LLMs 事實性評估 [89, 146, 192, 219]。
3.2 魯棒性、倫理、偏見與可信度
LLMs 的評估還涵蓋魯棒性、倫理、偏見和可信度等關鍵方面,這些因素在全面評估 LLMs 性能中的重要性日益凸顯。表 3 總結了相關研究。
表 3 LLMs 在魯棒性、倫理、偏見與可信度方面的評估總結(按第一作者姓氏排序)

3.2.1 魯棒性
魯棒性(Robustness)研究系統在面對非預期輸入時的穩定性。具體而言,分布外(out-of-distribution, OOD)魯棒性 [207] 和對抗魯棒性(adversarial robustness)是魯棒性研究的兩個熱門方向。
Wang 等人 [206] 較早從對抗性和分布外兩個角度,利用 AdvGLUE [203]、ANLI [140]、DDXPlus [41] 等現有基準數據集,對 ChatGPT 和其他 LLMs 進行了評估。Zhuo 等人 [265] 評估了語義解析的魯棒性。Yang 等人 [233] 通過擴展 GLUE [200] 數據集,評估了分布外魯棒性,研究結果強調,操縱視覺輸入可能對整個系統安全造成潛在風險。對于視覺 - 語言模型,Zhao 等人 [256] 評估了 LLMs 在視覺輸入上的性能,并將其遷移到其他視覺 - 語言模型中,揭示了視覺輸入的脆弱性。
Li 等人 [111] 概述了語言模型的分布外評估,包括對抗魯棒性、領域泛化和數據集偏見三個方向。作者通過對比分析,將這三個方向的研究統一起來,簡要闡述了每個方向的數據集生成過程和評估協議,同時強調了當前面臨的挑戰和未來研究方向。此外,Liu 等人 [123] 引入了一個大規模魯棒視覺指令數據集,以提升大型多模態模型處理相關圖像和人類指令的性能。
在對抗魯棒性方面,Zhu 等人 [262] 通過提出統一基準 PromptBench,評估了 LLMs 對提示詞的魯棒性,并從字符、單詞、句子、語義等多個層面全面評估了對抗性文本攻擊。結果表明,當前 LLMs 容易受到對抗性提示詞的攻擊,凸顯了模型在面對對抗性輸入時魯棒性的重要性。在新的對抗性數據集方面,Wang 等人 [201] 引入了用于評估對抗魯棒性的 AdvGLUE++ 基準數據,并實施了新的評估協議,通過 “越獄” 系統提示詞(jailbreaking system prompts)來審查機器倫理。
3.2.2 倫理與偏見
研究發現,LLMs 會內化、傳播甚至放大其爬取的訓練語料中存在的有害信息,通常包括攻擊性語言、仇恨言論、侮辱性語言等有毒語言 [53],以及對特定人口統計特征(如性別、種族、宗教、職業、意識形態)人群的刻板印象等社會偏見 [175]。
最近,Zhuo 等人 [264] 使用傳統測試集和指標 [37, 53, 153],對 ChatGPT 的毒性和社會偏見進行了系統評估,發現 ChatGPT 仍在一定程度上會生成有害內容。更進一步,Deshpande 等人 [35] 在模型中引入角色扮演(role-playing)機制,發現生成內容的毒性增加了高達 6 倍,且這種角色扮演還會導致對特定實體的偏見性毒性。
與單純衡量社會偏見不同,Ferrara [42] 探究了 ChatGPT 可能產生的這些偏見的來源、潛在機制及相應的倫理后果。除社會偏見外,研究者還基于政治羅盤測試(Political Compass Test)、邁爾斯 - 布里格斯類型指標(MBTI test)等問卷,評估了 LLMs 的政治傾向和人格特質 [65, 167],結果表明 LLMs 傾向于進步觀點,且人格類型多為 ENFJ。此外,研究發現 GPT-3 等 LLMs 在道德基礎理論(Moral Foundation Theory)[58] 框架下存在道德偏見 [176];Hendrycks 等人 [69] 的研究表明,現有語言模型在倫理判斷方面具有一定潛力,但仍需改進;[254] 提出了中文對話偏見評估數據集 CHBias,發現預訓練模型存在偏見風險,并探索了去偏見方法。此外,在對 GPT-4 對齊性的評估中,[209] 發現其存在系統性偏見。研究還觀察到 ChatGPT 在文化價值觀方面也存在一定偏見 [16]。Wang 等人 [201] 還納入了一個專門用于衡量刻板印象偏見的評估數據集,同時使用針對性和非針對性的系統提示詞。
所有這些倫理問題都可能引發嚴重風險,阻礙 LLMs 的部署,并對社會產生深遠的負面影響。
3.2.3 可信度
除魯棒性和倫理外,部分研究還關注可信度(Trustworthiness)的其他方面。③ Wang 等人 [201] 在 2023 年的研究 “DecodingTrust” 中,從多個維度探究了 GPT 模型(尤其是 GPT-3.5 和 GPT-4)的可信度漏洞。他們的評估范圍超越了傳統可信度關注點,涵蓋毒性、刻板印象偏見、對抗性與分布外魯棒性、對對抗性演示的魯棒性、隱私、機器倫理和公平性等八個關鍵方面。“DecodingTrust” 通過構建一系列新場景、任務和指標進行研究,結果表明,盡管在標準評估中 GPT-4 的可信度通常優于 GPT-3.5,但它同時也更容易受到攻擊。
③ 注:本節中的 “可信度” 指除魯棒性和倫理之外的其他相關研究。
在另一項研究中,Hagendorff 和 Fabi [62] 評估了具有增強認知能力的 LLMs,發現這些模型能夠避免人類常見的直覺偏差和認知錯誤,表現出超理性性能。研究者通過認知反射測試(cognitive reflection tests)和語義錯覺實驗(semantic illusion experiments),深入了解了 LLMs 的心理層面特征,這種方法為評估之前未被發現的模型偏見和倫理問題提供了新視角。
此外,[227] 的研究指出了一個重要問題:即使 LLMs 最初的判斷是準確的,當面臨質疑、否定或誤導性提示等干擾時,其判斷的一致性會顯著下降。該研究探究了多種旨在緩解此問題的提示方法,并成功證明了這些方法的有效性。
LLMs 能夠生成連貫且看似符合事實的文本,但生成的信息可能包含事實錯誤或無事實依據的內容,這種現象被稱為 “幻覺”(hallucination)[163, 251]。評估這些問題有助于改進 LLMs 的訓練方法,減少幻覺的發生。在大型視覺模型的幻覺評估方面,Liu 等人 [123] 引入了一個全面且魯棒的大規模視覺指令數據集 LRV-Instruction,通過 GAVIE 方法對評估視覺指令進行微調,實驗結果表明,LRV-Instruction 能有效緩解 LLMs 的幻覺問題。此外,Li 等人 [113] 評估了大型視覺 - 語言模型的幻覺問題,實驗表明,視覺指令中物體的分布對視覺 - 語言模型(LVLMs)的物體幻覺有顯著影響。為提升對視覺 - 語言模型物體幻覺的評估能力,他們引入了一種基于投票的查詢方法 POPE,該方法能更好地評估視覺 - 語言模型的物體幻覺問題。
3.3 社會科學
社會科學(Social Science)研究人類社會和個體行為,涵蓋經濟學、社會學、政治學、法學等多個學科。評估 LLMs 在社會科學領域的性能,對學術研究、政策制定和社會問題解決具有重要意義。此類評估有助于提升模型在社會科學領域的適用性和質量,加深對人類社會的理解,推動社會進步。
Wu 等人 [223] 評估了 LLMs 在解決社會科學領域的規模擴展和測量問題方面的潛力,發現 LLMs 能夠生成關于政治意識形態的有意義響應,并顯著改進社會科學領域的 “文本即數據”(text-as-data)方法。
在計算社會科學(Computational Social Science, CSS)任務中,Ziems 等人 [267] 全面評估了 LLMs 在多個計算社會科學任務中的性能。在分類任務中,LLMs 在事件論元抽取(event argument extraction)、角色原型(character tropes)、隱性仇恨言論(implicit hate)和同理心分類(empathy classification)任務中的絕對性能最低,準確率低于 40%。這些任務要么涉及復雜結構(如事件論元),要么涉及主觀專家分類體系,且其語義與 LLM 預訓練過程中學習的語義存在差異。相反,LLMs 在錯誤信息(misinformation)、立場(stance)和情感(emotion)分類任務中表現最佳。在生成任務中,LLMs 生成的解釋質量通常優于眾包工作者提供的黃金參考(gold references)。總之,盡管 LLMs 能顯著改進傳統計算社會科學研究流程,但無法完全取代人類。
部分論文還評估了 LLMs 在法律任務(Legal Tasks)中的性能。LLMs 在法律案例判決摘要(legal case judgment summarization)任務中的零樣本性能一般,存在句子和單詞不完整、無意義句子合并等問題,甚至還會出現信息不一致、幻覺等更嚴重的錯誤 [34]。結果表明,要讓 LLMs 對法律專家的案例判決摘要工作有所幫助,還需進一步改進。Nay 等人 [139] 指出,LLMs(尤其是結合提示詞增強和正確法律文本時)的性能可進一步提升,但仍未達到專業稅務律師的水平。
最后,在心理學(Psychology)領域,Frank [44] 采用跨學科方法,借鑒發展心理學(developmental psychology)和比較心理學(comparative psychology)的見解,探索評估 LLMs 能力的替代方法。通過整合不同視角,研究者能更深入地理解認知的本質,有效發揮大型語言模型等先進技術的潛力,同時降低潛在風險。
總之,LLMs 的應用已為人們處理社會科學相關任務帶來顯著幫助,提升了工作效率,其生成的輸出可作為提升生產力的寶貴資源。然而,必須認識到,現有 LLMs 無法在該領域完全取代人類專業人員。
3.4 自然科學與工程
評估 LLMs 在自然科學與工程(Natural Science and Engineering)領域的性能,可為其在科學研究、技術開發和工程研究中的應用與發展提供指導。表 4 總結了自然科學與工程領域的相關任務。
表 4 自然科學與工程領域任務評估總結(基于數學、通用科學、工程三個方面,按第一作者姓氏排序)

3.4.1 數學
在基礎數學問題(Fundamental Mathematical Problems)方面,大多數大型語言模型(LLMs)擅長加減法,具備一定的乘法能力,但在除法、指數運算、三角函數和對數函數運算方面面臨挑戰。不過,LLMs 在處理小數、負數和無理數方面表現出一定能力 [240]。在性能上,ChatGPT 和 GPT-4 顯著優于其他模型,在解決數學任務方面展現出優勢 [220]。這兩個模型在處理大數(大于 1e12)和復雜冗長的數學查詢時具有明顯優勢。GPT-4 的除法和三角函數運算能力更強,能正確理解無理數,并能對長表達式進行連貫的分步計算,因此其準確率比 ChatGPT 提高了 10 個百分點,相對誤差降低了 50%。
在復雜數學問題(Complex Mathematical Problems)方面,LLMs 的表現欠佳。具體而言,GPT-3 的性能接近隨機水平,GPT-3.5 有一定提升,而 GPT-4 表現最佳 [3]。盡管新模型取得了進步,但需要注意的是,其最高性能與專家水平相比仍有較大差距,且這些模型尚不具備開展數學研究的能力 [15]。代數操作和計算等特定任務對 GPT 系列模型而言仍是挑戰 [15, 27]。GPT-4 在這些任務中性能較低的主要原因是代數操作錯誤和難以檢索相關領域特定概念。Wu 等人 [224] 評估了 GPT-4 在高難度高中競賽題中的表現,發現 GPT-4 在半數題型中準確率達到 60%,但在中級代數和預科微積分題型中準確率僅約為 20%。ChatGPT 在導數及應用、空間解析幾何(Oxyz spatial calculus)和空間幾何等主題的問題回答上表現不佳 [31]。Dao 和 Le [31]、Wei 等人 [220] 的研究表明,隨著任務難度增加,ChatGPT 的性能會下降:在認知水平較低的識別層問題中,其正確率為 83%;在理解層問題中為 62%;在應用層問題中為 27%;而在認知復雜度最高的層級,正確率僅為 10%。由于知識層級較高的問題通常更復雜,需要深入的理解能力和問題解決能力,因此出現上述結果符合預期。
這些結果表明,LLMs 的有效性受其面臨問題的復雜度影響較大。這一發現對設計和開發能成功處理這些復雜任務的優化人工智能系統具有重要意義。
3.4.2 通用科學
LLMs 在化學領域(Chemistry)的應用仍需改進。Castro Nascimento 和 Pimentel [18] 設計了五個來自化學不同子領域的簡單任務,以評估 ChatGPT 對化學知識的理解,其準確率在 25% 到 100% 之間。Guo 等人 [61] 構建了一個涵蓋八個實際化學任務的綜合基準,用于評估 LLMs(包括 GPT-4、GPT-3.5 和 Davinci-003)在每個化學任務中的性能。實驗結果顯示,GPT-4 的性能優于其他兩個模型。Arora 等人 [3] 的研究表明,LLMs 在物理問題上的表現比在化學問題上更差,這可能是因為在該實驗設置中,化學問題的推理復雜度低于物理問題。目前針對 LLMs 在通用科學領域的評估研究較少,現有研究結果表明,LLMs 在該領域的性能仍需進一步提升。
3.4.3 工程
在工程(Engineering)領域,任務按難度從低到高可分為代碼生成、軟件工程和常識規劃。
在代碼生成任務(Code Generation Tasks)中,為特定任務訓練的小型 LLMs 性能具有競爭力,CodeGen-16B [141] 在參數規模更大的情況下,性能與 ChatGPT 相當,匹配度約為 78%[125]。盡管 ChatGPT 在掌握和理解編程語言的某些基本概念方面面臨挑戰,但仍展現出不錯的編碼水平 [263]。具體而言,ChatGPT 在動態規劃、貪心算法和搜索算法方面的技能優于優秀大學生,但在數據結構、樹和圖論方面存在困難。GPT-4 在根據給定指令生成代碼、理解現有代碼、推理代碼執行過程、模擬指令影響、用自然語言表述結果以及有效執行偽代碼等方面展現出先進能力 [15]。
在軟件工程任務(Software Engineering Tasks)中,ChatGPT 總體表現良好,能提供詳細響應,其性能常優于人類專家和最優模型的輸出。然而,對于代碼漏洞檢測(code vulnerability detection)、基于信息檢索的測試優先級排序(information retrieval-based test prioritization)等特定任務,當前版本的 ChatGPT 無法提供準確答案,因此不適用于這些特定任務 [181]。
在常識規劃任務(Commonsense Planning Tasks)中,即使在人類擅長的簡單規劃任務中,LLMs 的表現也可能不佳 [194, 195]。Pallagani 等人 [150] 的研究表明,經過微調的 CodeT5 [214] 在所有考慮的領域中表現最佳,推理時間最短。此外,該研究還探究了 LLMs 的規劃泛化能力,發現其泛化能力似乎有限。綜上,LLMs 能夠處理簡單的工程任務,但在復雜工程任務中表現較差。
3.5 醫療應用
LLMs 在醫療領域(Medical Applications)的應用近年來受到廣泛關注。因此,本節旨在全面綜述目前將 LLMs 應用于醫療領域的相關努力,并將這些應用分為醫療查詢、醫療考試和醫療輔助三個方面(如表 5 所示)。對這些類別的詳細分析將有助于深入理解 LLMs 在醫療領域的潛在影響和優勢。
表 5 醫療應用評估總結(基于醫療查詢、醫療輔助、醫療考試三個方面,按第一作者姓氏排序)

3.5.1 醫療查詢
評估 LLMs 在醫療查詢(Medical Queries)中的性能,其意義在于提供準確可靠的醫療答案,滿足醫療專業人員和患者對高質量醫療信息的需求。如表 5 所示,大多數 LLMs 在醫療領域的評估集中在醫療查詢方面。ChatGPT 為各類醫療查詢(包括遺傳學 [39]、放射腫瘤物理學 [73]、生物醫學 [81] 以及其他多個醫學學科 [63, 87, 169])生成了相對準確的信息,在一定程度上證明了其在醫療查詢領域的有效性。
在局限性方面,Thirunavukarasu 等人 [186] 評估了 ChatGPT 在初級醫療保健中的表現,發現其在學生綜合評估中的平均分數低于及格線,表明仍有提升空間。Chervenak 等人 [21] 指出,盡管 ChatGPT 能針對生育相關的臨床提示生成與現有來源相似的響應,但其在可靠引用來源方面的局限性以及潛在的信息編造問題,限制了其臨床實用性。
3.5.2 醫療考試
Gilson 等人 [57]、Kung 等人 [97] 的研究通過美國醫師執照考試(United States Medical Licensing Examination, USMLE)④,評估了 LLMs 在醫療考試(Medical Examination)評估中的性能。在 Gilson 等人 [57] 的研究中,使用新的多項選擇題集評估了 ChatGPT 在 USMLE 第一步(Step 1)和第二步(Step 2)考試中的表現,結果表明,ChatGPT 在不同數據集上的準確率存在差異,但在 NBME-Free-Step1 和 NBME-Free-Step2 數據集上,其上下文外信息(out-of-context information)的出現率低于正確答案。Kung 等人 [97] 的研究顯示,無需專門訓練,ChatGPT 在這些考試中就能達到或接近及格線,表現出高度的一致性和洞察力,表明其在醫療教育和臨床決策支持方面具有潛力。ChatGPT 可作為回答醫療問題、提供解釋和支持決策過程的工具,為醫學生和臨床醫生的教育及臨床實踐提供額外資源和支持。此外,Sharma 等人 [173] 發現,與谷歌搜索結果相比,ChatGPT 生成的答案更具上下文感知能力,演繹推理能力更強。
④ 參考鏈接:??https://www.usmle.org/???
3.5.3 醫療輔助
在醫療輔助(Medical Assistants)領域,LLMs 展現出多種潛在應用,包括胃腸道疾病識別研究 [99]、癡呆癥診斷 [217]、加速 COVID-19 文獻評估 [93] 以及在醫療保健領域的整體潛力 [17] 等。然而,LLMs 也存在局限性和挑戰,例如缺乏原創性、對輸入要求高、資源限制、答案的不確定性,以及誤診和患者隱私相關的潛在風險。
此外,已有多項研究評估了 ChatGPT 在醫療教育領域的性能和可行性。Oh 等人 [143] 的研究評估了 ChatGPT(特別是 GPT-3.5 和 GPT-4 模型)對外科臨床信息的理解能力及其在外科教育和培訓中的潛在影響。結果顯示,GPT-3.5 的總體準確率為 46.8%,GPT-4 為 76.4%,兩個模型的性能存在顯著差異。值得注意的是,GPT-4 在不同亞專科中均表現穩定,表明其能夠理解復雜的臨床信息,并能為外科教育和培訓提供支持。Lyu 等人 [131] 的研究探索了將 ChatGPT 應用于臨床教育(尤其是將放射學報告翻譯成通俗易懂的語言)的可行性。結果表明,ChatGPT 能有效將放射學報告翻譯成通俗語言,并提供一般性建議;此外,ChatGPT 的質量相較于 GPT-4 有一定提升。這些發現表明,將 LLMs 應用于臨床教育是可行的,但仍需進一步努力解決局限性,以充分發揮其潛力。
3.6 智能體應用
LLMs 不僅可用于通用語言任務,還可作為強大工具應用于多個領域。為 LLMs 配備外部工具能極大擴展其能力 [160]。ToolLLM [161] 提供了一個全面框架,用于為開源大型語言模型賦予工具使用能力。Huang 等人 [77] 提出了 KOSMOS-1,該模型能夠理解通用模式、遵循指令并基于上下文學習。Karpas 等人 [90] 關于 MRKL 的研究強調,理解何時以及如何使用外部符號工具至關重要,因為這種知識依賴于 LLMs 的能力,尤其是當這些工具能可靠執行特定功能時。此外,Toolformer [172] 和 TALM [152] 兩項研究也探索了利用工具增強語言模型的方法:Toolformer 采用訓練方法確定特定 API 的最佳使用方式,并將獲取的結果整合到后續 token 預測中;TALM 則將難以區分的工具與基于文本的方法相結合,以增強語言模型,并采用一種名為 “自對弈”(self-play)的迭代技術,該技術以少量工具演示為指導。此外,Shen 等人 [174] 提出了 HuggingGPT 框架,該框架利用 LLMs 連接機器學習社區(如 Hugging Face)中的各類 AI 模型,旨在解決 AI 任務。
3.7 其他應用
除上述領域外,LLMs 的評估還涉及教育、搜索與推薦、人格測試以及特定應用等多個其他領域。表 6 總結了這些應用。
表 6 其他應用評估總結(基于教育、搜索與推薦、人格測試、特定應用四個方面,按第一作者姓氏排序)

3.7.1 教育
LLMs 在教育領域(Education)展現出革新潛力,有望在多個方面做出重要貢獻,例如幫助學生提升寫作能力、促進對復雜概念的理解、加快信息傳遞速度,以及提供個性化反饋以增強學生參與度。這些應用旨在創造更高效、更具交互性的學習體驗,為學生提供更廣泛的教育機會。然而,要充分發揮 LLMs 在教育領域的潛力,仍需開展廣泛研究和持續改進。
評估 LLMs 在教育輔助中的應用,旨在探究和評估其對教育領域的潛在貢獻,此類評估可從多個角度開展。Dai 等人 [30] 的研究表明,ChatGPT 能生成詳細、流暢且連貫的反饋,優于人類教師;它能準確評估學生作業,并就任務完成情況提供反饋,從而幫助學生提升技能。然而,ChatGPT 的響應在教學改進方面可能缺乏創新性或深刻見解 [210]。此外,Hellas 等人 [67] 的研究發現,LLMs 能成功識別學生代碼中的至少一個實際問題,但也存在誤判情況。總之,LLMs 在解決程序邏輯問題方面展現出潛力,但在輸出格式規范性方面仍面臨挑戰。需要注意的是,盡管這些模型能提供有價值的見解,但仍可能產生與學生類似的錯誤。
在教育考試(Educational Exams)方面,研究者旨在評估 LLMs 在自動評分、題目生成和學習指導等方面的應用效果。de Winter [32] 的研究顯示,ChatGPT 的平均正確率為 71.8%,與所有參與學生的平均分數相當;隨后使用 GPT-4 進行評估,其得分達到 8.33 分(假設總分 10 分)。此外,該評估還表明,利用 “溫度”(temperature)參數引入隨機性的自舉(bootstrapping)方法,在診斷錯誤答案方面具有有效性。Zhang 等人 [246] 聲稱,GPT-3.5 能解決麻省理工學院(MIT)的數學和電子工程與計算機科學(EECS)考試題目,且 GPT-4 的表現更佳。然而,該結論存在公平性問題,因為他們在提示詞中意外包含了正確答案。
3.7.2 搜索與推薦
LLMs 在搜索與推薦(Search and Recommendation)領域的評估大致可分為兩個方向:
首先,在信息檢索(Information Retrieval)領域,Sun 等人 [183] 探究了 ChatGPT、GPT-4 等生成式排序算法在信息檢索任務中的有效性。實驗結果表明,經過引導的 ChatGPT 和 GPT-4 在常用基準測試中表現出競爭力,甚至優于監督方法。此外,在 BEIR 數據集 [185] 中,將 ChatGPT 的排序功能提取到專用模型中,使用 1 萬個 ChatGPT 生成的數據進行訓練,其性能優于使用 40 萬個標注 MS MARCO 數據訓練的模型。Xu 等人 [231] 通過隨機在線實驗,探究了用戶使用搜索引擎和聊天機器人工具執行信息檢索任務時的行為差異。參與者被分為兩組,一組使用類似 ChatGPT 的工具,另一組使用類似谷歌搜索的工具。結果顯示,ChatGPT 組完成所有任務的時間更短,且兩組之間的差異不顯著。
其次,在推薦系統(Recommendation Systems)領域,LLMs 已成為核心組件,它們利用自然語言處理能力理解用戶偏好、物品描述和上下文信息 [40]。將 LLMs 整合到推薦流程中,能使系統提供更準確、更個性化的推薦,從而提升用戶體驗和整體推薦質量。然而,必須解決使用 LLMs 進行推薦可能帶來的潛在風險。Zhang 等人 [244] 的最新研究指出,ChatGPT 存在生成不公平推薦的問題,這凸顯了在推薦場景中使用 LLMs 時評估公平性的重要性。Dai 等人 [29] 的研究表明,ChatGPT 在推薦系統中表現出較強性能,列表式排序(listwise ranking)能在成本和性能之間取得最佳平衡;此外,ChatGPT 在解決冷啟動問題和提供可解釋推薦方面也展現出潛力。Yuan 等人 [239] 和 Li 等人 [110] 的研究分別證明了基于模態的推薦模型(MoRec)和基于文本的協同過濾(TCF)在推薦系統中的良好潛力。
3.7.3 人格測試
人格測試(Personality Testing)旨在衡量個體的人格特質和行為傾向,而 LLMs 作為強大的自然語言處理模型,已在該類任務中廣泛應用。
Bodroza 等人 [10] 的研究探究了將 Davinci-003 用作聊天機器人時的人格特征,發現盡管其表現出親社會特征,但其答案的一致性存在差異。然而,目前尚不確定該聊天機器人的響應是由有意識的自我反思驅動,還是由算法過程驅動。Song 等人 [180] 研究了語言模型中人格的表現,發現許多模型在自我評估測試中表現不穩定,且存在固有偏見。因此,有必要開發專門的機器人格測量工具以提高可靠性。這些研究為更好地理解 LLMs 在人格測試中的應用提供了重要見解。
Safdari 等人 [168] 提出了一種全面方法,用于對 LLMs 生成文本中的人格特質進行有效的心理測量評估。為評估 LLMs 的情商(Emotional Intelligence),Wang 等人 [212] 開發了一種新的心理測量評估方法。作者參考基于 500 多名成年人構建的框架,對多種主流 LLMs 進行了測試。結果顯示,大多數 LLMs 的情商得分高于平均水平,其中 GPT-4 得分為 117,超過 89% 的人類參與者。然而,多變量模式分析表明,某些 LLMs 在未依賴與人類相似機制的情況下,仍達到了人類水平的性能,這一點可從其表征模式質量與人類存在顯著差異中看出。
Liang 等人 [115] 采用猜詞游戲(word guessing game)評估 LLMs 的語言智能和心理理論智能(theory of mind intelligences),這是一種更具趣味性和交互性的評估方法。Jentzsch 和 Kersting [84] 探討了在 LLMs(尤其是 ChatGPT)中融入幽默感的挑戰,發現盡管 ChatGPT 在自然語言處理任務中表現出色,但在生成幽默響應方面存在不足。該研究強調了幽默感在人類交流中的重要性,以及 LLMs 在捕捉幽默的微妙性和上下文依賴性方面面臨的困難,同時討論了當前方法的局限性,并指出需要進一步研究更復雜的模型,以實現對幽默的有效理解和生成。
3.7.4 特定應用
此外,研究者還開展了多項研究,探索 LLMs 在游戲設計 [101]、模型性能評估 [216]、日志解析 [103] 等各類特定任務中的應用與評估。這些研究結果共同加深了我們對 LLMs 在不同任務中實際應用意義的理解,揭示了這些模型的潛力與局限性,同時為性能改進提供了寶貴見解。
4 在哪里評估:數據集與基準測試
如第 3 節所述,LLMs 評估數據集用于測試和比較不同語言模型在各類任務中的性能。這些數據集(如 GLUE [200]、SuperGLUE [199])旨在模擬現實世界的語言處理場景,涵蓋文本分類、機器翻譯、閱讀理解、對話生成等多種任務。本節不討論單一的語言模型數據集,而是聚焦于 LLMs 的基準測試。
目前已出現多種用于評估 LLMs 性能的基準測試。本文整理了 46 個常用基準測試(如表 7 所示)⑤。每個基準測試都有不同的關注重點和評估標準,為各自領域做出了重要貢獻。為便于總結,我們將這些基準測試分為三類:通用語言任務基準測試、特定下游任務基準測試和多模態任務基準測試。
⑤ 注:由于 LLMs 評估是熱門研究領域,本文可能無法涵蓋所有基準測試,歡迎讀者提出建議和意見,完善該列表。

4.1 通用任務基準測試
LLMs 旨在解決各類任務,因此現有基準測試往往會評估其在不同任務中的性能。
Chatbot Arena [128] 和 MT-Bench [258] 是兩個重要的基準測試,分別在不同場景下為聊天機器人模型和 LLMs 的評估與發展做出了貢獻。Chatbot Arena 提供了一個通過用戶參與和投票來評估和比較各類聊天機器人模型的平臺。用戶可與匿名模型交互,并通過投票表達偏好。該平臺收集大量投票,有助于在真實場景中評估模型性能,為了解聊天機器人模型的優勢與局限性提供了寶貴見解,從而推動聊天機器人研究與發展。
與此同時,MT-Bench 通過為處理對話設計的綜合問題,評估 LLMs 在多輪對話(multi-turn dialogues)中的性能。它提供了一套專門用于評估模型處理多輪對話能力的綜合問題集,具有與傳統評估方法不同的多個顯著特征。值得注意的是,MT-Bench 擅長模擬真實世界的對話場景,能更準確地評估模型的實際性能;此外,它有效克服了傳統評估方法在衡量模型處理復雜多輪對話問題能力方面的局限性。
與關注特定任務和評估指標不同,HELM [114] 提供了對 LLMs 的全面評估,涵蓋語言理解、生成、連貫性、上下文敏感性、常識推理、領域特定知識等多個方面,旨在從整體上評估語言模型在不同任務和領域中的性能。對于 LLMs 評估器,Zhang 等人 [250] 提出了 LLMEval2,該評估器涵蓋多種能力評估。此外,Xiezhi [59] 提供了一個綜合評估套件,用于評估大型語言模型在不同學科領域的知識水平。通過 Xiezhi 進行的評估,研究者能夠了解這些模型固有的顯著局限性,并更深入地理解其在不同領域的能力。為評估語言模型超越現有能力的表現,BIG-bench [182] 收集了由 132 個機構的 450 位作者貢獻的 204 項具有挑戰性的任務,涵蓋數學、兒童發展、語言學、生物學、常識推理、社會偏見、物理學、軟件開發等多個領域。
近年來,研究者開發了用于評估語言模型知識與推理能力的基準測試。知識導向語言模型評估(Knowledge-Oriented Language Model Evaluation, KoLA)[235] 專注于評估語言模型理解和利用語義知識進行推理的能力。因此,KoLA 是評估語言模型語言理解深度和推理能力的重要基準測試,對推動語言理解領域的發展具有重要意義。為支持語言任務的眾包評估,DynaBench [94] 支持動態基準測試,探索了多個新研究方向,包括閉環集成的影響、分布偏移特征、標注者效率、專家標注者的影響以及交互場景下模型對 adversarial 攻擊的魯棒性。此外,為評估語言模型在不同教育水平下學習和應用多學科知識的能力,多學科知識評估(Multidisciplinary Knowledge Evaluation, M3KE)[122] 近期被提出,該基準測試主要評估模型在中國教育體系中的知識應用能力。
開發用于評估 LLMs 在不同任務中性能的標準化基準測試,一直是重要的研究方向。MMLU [70] 提供了一套綜合測試,用于評估文本模型在多任務場景下的性能。AlpacaEval [112] 是一個自動化評估基準測試,重點評估 LLMs 在各類自然語言處理任務中的性能,提供了一系列指標、魯棒性度量和多樣性評估方法,以衡量 LLMs 的能力。AlpacaEval 為推動 LLMs 在不同領域的發展和深入理解其性能做出了重要貢獻。此外,AGIEval [260] 是一個專門用于評估以人為中心的基礎模型性能的評估框架。OpenLLM [80] 則通過提供公共競賽平臺,比較和評估不同 LLM 模型在各類任務中的性能,鼓勵研究者提交模型并參與不同任務的競賽,推動 LLM 研究的進步與競爭。
針對標準性能之外的任務,目前已有用于評估分布外(OOD)魯棒性、對抗魯棒性和微調效果的基準測試。GLUE-X [233] 是一項新的嘗試,旨在創建一個統一基準測試,用于評估自然語言處理(NLP)模型在分布外場景下的魯棒性,該基準測試強調了魯棒性在 NLP 領域的重要性,并為衡量和提升模型魯棒性提供了見解。此外,Yuan 等人 [238] 提出了 BOSS,這是一個用于評估自然語言處理任務中分布外魯棒性的基準測試集合。PromptBench [262] 聚焦提示工程(prompt engineering)在 LLMs 微調中的重要性,提供了一個標準化評估框架,用于比較不同提示工程技術并評估其對模型性能的影響,為 LLMs 微調方法的改進和優化提供了支持。為確保評估的公正性和公平性,PandaLM [216] 作為一種判別性大型語言模型被提出,它通過訓練能夠區分多個高性能 LLMs。與主要強調客觀正確性的傳統評估數據集不同,PandaLM 納入了關鍵的主觀因素,包括相對簡潔性、清晰度、指令遵循度、全面性和正式性。
4.2 特定下游任務基準測試
除通用任務基準測試外,還存在專門為特定下游任務設計的基準測試。
問答(Question-Answering)基準測試已成為評估 LLMs 整體性能的基礎組成部分。MultiMedQA [177] 是一個醫療問答基準測試,聚焦醫療考試、醫療研究和消費者醫療保健問題,包含 7 個與醫療問答相關的數據集(其中 6 個為現有數據集,1 個為新數據集),旨在評估 LLMs 在臨床知識和問答能力方面的性能。為評估 LLMs 在當前世界知識動態問答(dynamic QA)中的能力,Vu 等人 [198] 提出了 FRESHQA。通過將從搜索引擎檢索到的相關最新信息融入提示詞,LLMs 在 FRESHQA 上的性能得到顯著提升。為有效評估深度對話(in-depth dialogue)能力,Wang 等人 [205] 提出了 Dialogue CoT,該基準測試納入了兩種高效對話策略:顯式思維鏈(Explicit CoT)和思維鏈(CoT)。
評估 LLMs 在不同復雜任務中的性能已成為近期研究的重點。為此,研究者提出了一系列專門的基準測試,用于評估 LLMs 在特定領域和應用中的能力。其中,Sawada 等人 [171] 提出的 ARB 基準測試,聚焦評估 LLMs 在跨多個領域的高級推理任務中的性能。此外,LLMs 的倫理考量已成為至關重要的研究領域,Huang 等人 [79] 定制的 TRUSTGPT 基準測試,針對 LLMs 中的毒性、偏見和價值對齊等關鍵倫理維度進行評估。此外,Huang 等人 [76] 提出的 EmotionBench 基準測試強調,LLMs 在模擬人類情緒反應方面仍有較大提升潛力。在安全性評估方面,Zhang 等人 [252] 提出了 SafetyBench,這是一個專門用于測試多種主流中英文 LLMs 安全性性能的基準測試,評估結果顯示當前 LLMs 存在嚴重的安全漏洞。為評估智能系統的日常決策能力,Hou 等人 [75] 提出了 Choice-75。此外,為評估 LLMs 理解復雜指令的能力,He 等人 [66] 提出了 CELLO,該基準測試包括 8 個獨特特征的設計、一個綜合評估數據集的構建,以及 4 個評估標準及其相應衡量標準的制定。
還存在其他特定領域的基準測試,例如 C-Eval [78],它是首個用于評估基礎模型在中文語境下高級知識和推理能力的大規模基準測試。此外,Li 等人 [108] 提出了 CMMLU,作為衡量中文語言能力的綜合標準,并評估了 18 個 LLMs 在不同學科領域的性能,結果顯示大多數 LLMs 在中文語言環境中的表現欠佳,凸顯了需要改進的領域。M3Exam [248] 提供了一個獨特的綜合評估框架,融合多種語言、模態和層級,用于測試 LLMs 在不同場景下的通用能力。此外,GAOKAO-Bench [243] 以中國高考題目為基礎,構建了一個綜合評估基準測試,用于衡量大型語言模型在復雜且依賴上下文的任務中的熟練程度。另一方面,SOCKET [23] 是一個自然語言處理(NLP)基準測試,旨在評估 LLMs 學習和識別社會知識概念的性能,包含多個任務和案例研究,用于評估 LLMs 在社會能力方面的局限性。MATH [72] 專注于評估人工智能模型在數學領域的推理和問題解決能力。APPS [68] 是一個更全面、更嚴格的代碼生成評估基準測試,用于衡量語言模型根據自然語言描述生成 Python 代碼的能力。CUAD [71] 是一個由專家標注的領域特定法律合同審查數據集,不僅提供了具有挑戰性的研究基準,還為提升深度學習模型在合同理解任務中的性能提供了可能。CVALUES [229] 引入了一個人文評估基準測試,用于評估 LLMs 與安全和責任標準的對齊程度。在綜合中醫領域,Wang 等人 [211] 提出了 CMB,這是一個基于中文語言和文化的醫療評估基準測試,解決了單純依賴基于英語的醫療評估可能導致的本地語境不一致問題。在幻覺評估方面,[116] 開發了 UHGEval,這是一個專門用于評估中文 LLMs 在不受幻覺限制的文本生成中的性能的基準測試。
除現有評估基準測試外,評估 LLMs 工具使用有效性的研究仍存在空白。為填補這一空白,API-Bank 基準測試 [109] 作為首個專門為工具增強型 LLMs 設計的基準測試被提出,它包含一個全面的工具增強型 LLM 工作流程,涵蓋 53 個常用 API 工具和 264 個標注對話(共包含 568 次 API 調用)。此外,ToolBench 項目 [191] 旨在推動能有效利用通用工具能力的大型語言模型的開發,通過提供一個用于創建優化指令數據集的平臺,助力語言模型的發展并提升其實際應用價值。為評估 LLMs 在多輪交互中的性能,Wang 等人 [213] 提出了 MINT,該基準測試利用工具和自然語言反饋進行評估。
4.3 多模態任務基準測試
在多模態大型語言模型(Multimodal Large Language Models, MLLMs)的評估方面,MME [46] 是一個廣泛的評估基準測試,旨在評估其感知和認知能力,采用精心設計的指令 - 答案對和簡潔的指令設計,確保評估條件的公平性。為對大型視覺 - 語言模型進行可靠評估,Liu 等人 [126] 提出了 MMBench,該基準測試包含一個綜合數據集,并采用循環評估(CircularEval)方法。此外,MMICL [253] 通過增強視覺 - 語言模型對多模態輸入的處理能力,在 MME 和 MMBench 等任務中表現出色。此外,LAMM [234] 將研究擴展到多模態點云領域。LVLM-eHub [230] 通過在線競賽平臺和定量能力評估,對大型視覺 - 語言模型(LVLMs)進行全面評估。為全面評估多模態大型語言模型(MLLMs)的生成和理解能力,Li 等人 [107] 提出了一個名為 SEEDBench 的新基準測試,該基準測試包含 1.9 萬個由人類評估者標注的多項選擇題,評估涵蓋 12 個不同方面,包括模型理解圖像和視頻中模式的能力。總之,近期研究已開發出可靠的基準測試并改進了模型,推動了多模態語言領域的研究進展。
5 如何評估
本節將介紹兩種常見的評估方法:自動評估(automatic evaluation)和人類評估(human evaluation)。分類依據是評估標準是否可自動計算:若可自動計算,則歸為自動評估;否則歸為人類評估。
5.1 自動評估
自動評估是一種常見且可能是最受歡迎的評估方法,通常使用標準指標和評估工具來評估模型性能。與人類評估相比,自動評估無需大量人類參與,不僅節省時間,還能減少人類主觀因素的影響,使評估過程更具標準化。例如,Qin 等人 [159] 和 Bang 等人 [6] 均采用自動評估方法評估大量任務。近年來,隨著 LLMs 的發展,研究者還設計了一些先進的自動評估技術以輔助評估工作。Lin 和 Chen [121] 提出了 LLM-Eval,這是一種用于開放式對話 LLMs 的統一多維度自動評估方法。PandaLM [216] 通過訓練一個作為 “評判者”(judge)的 LLM 來評估不同模型,實現了可復現的自動化語言模型評估。Jain 等人 [82] 提出了一種自監督評估框架,通過無需對新數據進行繁瑣標注,實現了對模型在實際部署中的更高效評估。此外,許多基準測試也采用自動評估,例如 MMLU [70]、HELM [114]、C-Eval [78]、AGIEval [260]、AlpacaFarm [38]、Chatbot Arena [128] 等。
基于采用自動評估的文獻,我們總結了自動評估中的主要指標,如表 9 所示。關鍵指標包括以下四個方面:
表 9 自動評估的關鍵指標

(1)準確率:衡量模型在給定任務上的正確性程度。準確率的定義在不同場景中可能有所不同,取決于具體任務和問題定義,可通過精確匹配、F1 分數、ROUGE 分數等多種指標衡量。
?精確匹配(Exact Match, EM):用于評估文本生成任務中模型輸出與參考答案的精確一致性。在問答任務中,若模型生成的答案與人工提供的答案完全一致,則 EM 值為 1;否則為 0。
?F1 分數(F1 Score):用于評估二分類模型性能的指標,綜合考慮模型的精確率(Precision)和召回率(Recall),計算公式如下:F1=\frac{2 \times Precision \times Recall}{Precision + Recall}
?ROUGE 分數:主要用于評估文本摘要、機器翻譯等任務的性能,考慮文本之間的重疊和匹配程度。
(2)校準度:衡量模型輸出的置信度與實際預測準確率之間的一致性程度。
?期望校準誤差(Expected Calibration Error, ECE):評估模型校準性能的常用指標之一 [60]。Tian 等人 [189] 利用 ECE 研究了基于人類反饋強化學習的語言模型(RLHFLMs)的校準情況,包括 ChatGPT、GPT-4、Claude 1、Claude 2 和 Llama2。在計算 ECE 時,他們根據置信度對模型預測進行分類,并衡量每個置信區間內預測的平均準確率。
?選擇準確率與覆蓋率的曲線下面積(Area Under the Curve of selective accuracy and coverage, AUC)[54]:另一個常用的校準度指標。
(3)公平性:衡量模型對不同群體的處理是否一致,即模型在不同群體上的性能是否平等,涉及性別、種族、年齡等屬性。DecodingTrust [201] 采用以下兩個指標衡量公平性:
?人口統計學平等差異(Demographic Parity Difference, DPD):衡量模型預測在不同人群群體中的分布是否平等。若不同群體間的預測結果差異顯著,則 DPD 值較高,表明模型可能對不同群體存在不公平偏見。DPD 的計算涉及模型預測和真實標簽,計算公式如下:DPD = P(\hat{y} | Z=1) - P(\hat{y} | Z=0)
其中,\hat{y} 是模型的二分類預測結果,Z 是人群群體標識(通常為二元變量,代表兩個不同群體,如男性和女性),P(\hat{y} | Z=1) 和 P(\hat{y} | Z=0) 分別表示在群體 Z=1 和 Z=0 中預測為正類的概率。
?等概率差異(Equalized Odds Difference, EOD):旨在確保模型在不同人群群體中的誤差率相等,即模型在不同群體中的預測誤差概率分布相似。EOD 的計算涉及真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)預測的相關概率,計算公式如下:EOD = \max\left\{ P(\hat{y}=1 | Y=1, Z=1) - P(\hat{y}=1 | Y=1, Z=0), P(\hat{y}=1 | Y=0, Z=1) - P(\hat{y}=1 | Y=0, Z=0) \right\}
其中,\hat{y} 是模型的二分類預測結果,Y 是真實標簽,Z 是人群群體標識(通常為二元變量,代表兩個不同群體),P(\hat{y}=1 | Y=1, Z=1) 表示當真實標簽為正類且屬于群體 Z=1 時,模型預測為正類的概率。
(4)魯棒性:評估模型在面對各類挑戰性輸入(包括對抗性攻擊、數據分布變化、噪聲等)時的性能表現。
?攻擊成功率(Attack Success Rate, ASR):用于評估 LLMs 對抗魯棒性的指標 [206]。具體而言,考慮包含 N 個樣本對 (x_{i}, y_{i}) 的數據集 D = \{(x_{i}, y_{i})\}_{i=1}^{N}(其中 x_{i} 為樣本,y_{i} 為真實標簽)。對于對抗攻擊方法 A,給定輸入 x,該方法可生成對抗樣本 A(x) 以攻擊代理模型 f,攻擊成功率計算公式如下:ASR = \frac{\sum_{(x, y) \in D} I[f(A(x)) \neq y]}{\sum_{(x, y) \in D} I[f(x) = y]}
其中,I 為指示函數 [203]。
?性能下降率(Performance Drop Rate, PDR):一種新的統一指標,可有效評估 LLMs 中提示詞(prompt)的魯棒性 [262]。PDR 量化了提示詞遭受攻擊后的相對性能下降程度,計算公式如下:PDR = 1 - \frac{\sum_{(x, y) \in D} M[f([A(P), x]), y]}{\sum_{(x, y) \in D} M[f([P, x]), y]}
其中,A 表示對提示詞 P 施加的對抗攻擊,M 表示評估函數(不同任務的評估函數不同)[262]。
5.2 人類評估
LLMs 的能力不斷增強,已超越通用自然語言任務的標準評估指標。因此,在自動評估不適用的某些非標準場景中,人類評估成為自然選擇。例如,在開放生成任務中,嵌入相似度指標(如 BERTScore)已不足以評估性能,此時人類評估更可靠 [142]。盡管部分生成任務可采用特定自動評估協議,但在這些任務中,人類評估仍更具優勢 —— 因為生成的結果往往能超越標準答案。
人類評估通過人類參與來評估模型生成結果的質量和準確性。與自動評估相比,人工評估更貼近實際應用場景,能提供更全面、準確的反饋。在 LLMs 的人工評估中,通常會邀請評估者(如專家、研究者或普通用戶)對模型生成的結果進行評估。例如,Ziems 等人 [267] 在生成任務中采用專家標注;Liang 等人 [114] 通過人類評估,對 6 個模型在摘要生成和虛假信息場景下的性能進行了評估;Bang 等人 [6] 則采用人類評估方法評估類比推理任務。Bubeck 等人 [15] 使用 GPT-4 進行了一系列人工設計的測試,發現 GPT-4 在多個任務中的表現接近甚至超過人類水平。此類評估要求人類評估者實際測試并比較模型性能,而非僅通過自動評估指標對模型進行評估。需要注意的是,即使是人類評估,也可能存在較高的差異性和不穩定性,這可能由文化差異和個體差異導致 [155]。在實際應用中,需結合具體情況權衡這兩種評估方法的使用。
探索 LLMs 的人類評估方法時,需審慎關注各類關鍵因素,以確保評估的可靠性和準確性 [178]。表 10 簡要概述了人類評估的核心要素,包括評估者數量、評估標準和評估者專業水平。首先,評估者數量是與充分代表性和統計顯著性密切相關的關鍵因素。選擇數量適宜的評估者,有助于更細致、全面地理解待評估的 LLMs,從而更可靠地將評估結果推廣到更廣泛的場景中。
表 10 人類評估的關鍵因素總結

此外,評估準則是人類評估過程的基礎組成部分。基于 “3H 原則”(有用性,Helpfulness;誠實性,Honesty;無害性,Harmlessness)[4],我們將其細化為以下六項人類評估準則。這些準則可用于全面分析 LLMs 在語法、語義和上下文方面的性能,從而更全面地評估生成文本的質量。
(1)準確性[178]:作為核心準則,評估生成文本的精確性和正確性,需檢查語言模型生成的信息是否與事實知識一致,避免錯誤和不準確內容。
(2)相關性[259]:聚焦生成內容的適宜性和重要性,評估文本是否能很好地契合給定上下文或查詢需求,確保提供的信息具有針對性和直接適用性。
(3)流暢性[196]:評估語言模型生成內容的流暢度,要求文本保持一致的語調和風格。流暢的文本不僅需語法正確,還需確保可讀性和良好的用戶體驗。分析人員會評估模型是否能避免生硬表達和語言或主題的突然跳轉,以實現與用戶的有效溝通。
(4)透明度:探究語言模型決策過程的清晰度和開放性,評估模型能否清晰傳達其思考過程,使用戶理解響應生成的方式和原因。透明的模型能讓用戶深入了解其內部工作機制。
(5)安全性[85]:作為關鍵準則,關注生成文本可能帶來的危害或意外后果,評估語言模型是否能避免生成不當、冒犯性或有害內容,確保用戶安全并避免傳播虛假信息。
(6)人類對齊性:評估語言模型輸出與人類價值觀、偏好和期望的契合程度,考慮生成內容的倫理影響,確保語言模型生成的文本尊重社會規范和用戶期望,促進與人類用戶的積極互動。
最后,評估者的專業水平是關鍵考量因素,包括相關領域知識、任務熟悉度和方法學培訓。明確評估者所需的專業水平,可確保他們具備足夠的背景知識,以準確理解和評估 LLMs 生成的領域特定文本。該策略為評估過程增加了嚴謹性,進一步增強了研究結果的可信度和有效性。
6、總結
本節基于第 3、4、5 節的綜述內容,總結關鍵發現。
首先需強調的是,盡管我們已盡力總結現有 LLMs 評估研究,但目前尚無明確證據表明某一種評估協議或基準測試是 “最有用” 或 “最成功” 的 —— 不同評估協議和基準測試各具特點與側重點。這也表明,沒有任何一個模型能在所有任務中都表現最佳。本綜述的目的并非簡單判定 “最佳” 基準測試或評估協議,而是通過總結和分析現有 LLMs 評估研究,識別當前 LLMs 的成功與失敗案例,推導評估協議的新趨勢,并最重要的是,為未來研究提出新的挑戰與機遇。
6.1 任務層面:LLMs 的成功與失敗案例
現將 LLMs 在不同任務中的成功與失敗案例總結如下。需注意的是,以下所有結論均基于現有評估研究,且結果僅適用于特定數據集。
6.1.1 LLMs 擅長的任務
?LLMs 在文本生成方面表現出色 [11, 14, 24],能生成流暢且精準的語言表達。
?LLMs 在語言理解相關任務中性能優異,包括情感分析 [52, 129, 159]、文本分類 [114, 154, 232],以及對事實性輸入的處理 [159]。
?LLMs 展現出強大的算術推理能力 [159],在邏輯推理方面表現突出 [124],且在時間推理方面具有顯著優勢 [6]。此外,數學推理 [225, 236, 243]、結構化數據推理 [86, 151] 等更復雜的任務已成為主流評估基準。
?LLMs 具備強大的上下文理解能力,能生成與給定輸入一致的連貫響應 [187]。
?LLMs 在機器翻譯 [6, 130, 208]、文本生成 [20]、問答 [102, 114] 等多種自然語言處理任務中也取得了令人滿意的性能。
6.1.2 LLMs 存在不足的任務
?在自然語言推理(NLI)任務中,LLMs 表現欠佳,且難以準確體現人類的分歧 [105]。
?LLMs 在識別事件間語義相似性方面能力有限 [184],在評估基礎短語時性能較差 [166]。
?LLMs 的抽象推理能力較弱 [56],在復雜語境中易產生混淆或錯誤 [148]。
?在非拉丁字母語言和低資源語言場景中,LLMs 表現不佳 [2, 6, 100, 248];此外,生成式 LLMs 在各類任務和語言中的性能普遍低于預期標準 [2]。
?LLMs 在處理視覺模態信息時存在脆弱性 [256];此外,它們會內化、傳播甚至放大訓練語料中存在的有害內容,這類內容通常包括攻擊性、仇恨性和侮辱性等有毒語言 [53]。
?LLMs 在生成過程中可能表現出社會偏見和毒性 [37, 53, 153],導致生成帶有偏見的輸出。
?LLMs 可能存在可信度缺陷 [201],在對話中可能生成虛假信息或錯誤事實 [163, 251]。
?LLMs 在整合實時或動態信息方面存在局限性 [127],因此不適用于需要最新知識或快速適應變化上下文的任務。
?LLMs 對提示詞(尤其是對抗性提示詞)敏感 [262],這引發了對其魯棒性的新評估需求和算法改進需求。
6.2 基準測試與評估協議
隨著 LLMs 的快速發展和廣泛應用,在實際應用和研究中對其進行評估的重要性日益凸顯。該評估過程不僅需包含任務層面的評估,還需從社會層面深入理解其潛在風險。本節將現有基準測試和協議總結于表 8。

首先,評估方式正從 “客觀計算” 向 “人類參與閉環測試”(human-in-the-loop testing)轉變,允許在評估過程中納入更多人類反饋。例如,用于測試視覺模型的交互式流程 AdaVision [50],能讓用戶標注少量數據以驗證模型正確性,幫助用戶識別并修復一致性失效模式;在 AdaTest [164] 中,用戶可通過僅選擇高質量測試樣本并將其組織為語義相關主題,實現對測試樣本的篩選。
其次,評估數據集正從 “靜態” 向 “眾包測試集” 轉變,這種趨勢日益普遍。DynaBench [94]、DynaBoard [132]、DynaTask [188] 等工具依賴眾包工作者創建和測試高難度樣本;此外,DynamicTempLAMA [135] 支持動態構建與時間相關的測試。
第三,機器學習模型的評估場景正從 “統一設置” 向 “挑戰性設置” 轉變。統一設置的測試集不偏向任何特定任務,而挑戰性設置則為特定任務創建測試集。例如,DeepTest [190] 利用種子生成輸入變換以進行測試;CheckList [165] 基于模板構建測試集;AdaFilter [157] 通過對抗方式構建測試集(需注意的是,AdaFilter 可能存在公平性問題,因其依賴對抗樣本)。HELM [114] 從多個角度評估 LLMs;Big-Bench [182] 平臺則用于設計機器學習模型難以完成的高難度任務;PromptBench [262] 通過創建對抗性提示詞,評估 LLMs 的對抗魯棒性 —— 該評估更具挑戰性,結果顯示當前 LLMs 對對抗性提示詞的魯棒性不足。
7、未來研究的重大挑戰與機遇
評估作為一門新學科
我們的綜述啟示我們,在 LLMs 時代,需要重新設計與評估相關的多個方面。本節將提出若干重大挑戰。核心觀點是:評估應被視為一門核心學科,以推動 LLMs 及其他 AI 模型的成功發展。現有協議不足以全面評估 LLMs 的真實能力,這為 LLMs 評估領域的未來研究帶來了重大挑戰,同時也催生了新的機遇。
7.1 設計通用人工智能(AGI)基準測試
如前所述,盡管所有任務都可能成為 LLMs 的評估工具,但關鍵問題在于:哪些任務能真正衡量通用人工智能(AGI)能力?由于我們期望 LLMs 展現 AGI 能力,因此在設計 AGI 基準測試時,深入理解人類與 AGI 能力的差異至關重要。當前趨勢似乎將 AGI 視為 “超人類實體”,因此會利用教育、心理學、社會科學等跨學科知識設計新型基準測試。然而,仍存在諸多未解決的問題。例如,以人類價值觀為起點構建測試是否合理?還是應考慮其他視角?設計適用的 AGI 基準測試面臨諸多開放性問題,亟待進一步探索。
7.2 完整行為評估
理想的 AGI 評估不僅應包含通用任務的標準基準測試,還應涵蓋對開放任務(如完整行為測試)的評估。此處的 “行為測試” 指:需在開放環境中評估 AGI 模型。例如,將 LLMs 視為中央控制器,構建由 LLMs 操控機器人的評估場景,測試其在真實環境中的行為;若將 LLMs 視為完全智能的機器,還需考慮對其多模態維度的評估。事實上,完整行為評估與標準 AGI 基準測試相輔相成,二者需協同作用以實現更全面的測試。
7.3 魯棒性評估
除通用任務外,鑒于 LLMs 已廣泛融入日常生活,其對各類輸入的魯棒性對終端用戶而言至關重要 —— 只有具備魯棒性,LLMs 才能實現最優性能。例如,相同提示詞若語法和表達方式不同,可能導致 ChatGPT 及其他 LLMs 生成不同結果,這表明當前 LLMs 對輸入的魯棒性不足。盡管已有部分關于魯棒性評估的研究 [206, 262],但仍有較大提升空間,例如納入更多樣化的評估集合、考察更多評估維度、開發更高效的評估方法以生成魯棒性任務等。同時,魯棒性的概念和定義在不斷演變,因此需考慮更新評估體系,以更好地適應倫理和偏見相關的新興需求。
7.4 動態演進式評估
大多數 AI 任務的現有評估協議依賴靜態且公開的基準測試,即評估數據集和協議通常是公開可用的。盡管這為學術界提供了快速便捷的評估方式,但鑒于 LLMs 的快速發展,這種靜態評估無法準確衡量其不斷演進的能力 ——LLMs 的能力可能隨時間提升,而現有靜態基準測試無法始終如一地評估這種提升。另一方面,隨著 LLMs 規模擴大和訓練集規模增加,其能力不斷增強,靜態公開基準測試中的數據可能被 LLMs 記憶,導致訓練數據污染問題。因此,開發動態演進式評估體系是實現 LLMs 公平評估的關鍵。
7.5 規范化且可信的評估
在引入評估體系時,需明確其完整性和可信度。因此,可信計算的需求也延伸至對可靠評估體系的需求,這一極具挑戰性的研究問題涉及測量理論、概率論等多個領域。例如,如何確保動態測試確實能生成分布外(OOD)樣本?該領域的研究目前較為匱乏,期望未來研究不僅關注算法本身,還能審視評估體系的合理性。
7.6 支持所有 LLMs 任務的統一評估
LLMs 的研究領域廣泛,需開發能支持各類任務(如價值對齊、安全性、驗證、跨學科研究、微調等)的評估體系。例如,PandaLM [216] 是一個通過提供開源評估模型來輔助 LLMs 微調的評估體系,能自動評估微調性能。我們期望未來能出現更多通用性更強的評估體系,為特定 LLMs 任務提供支持。
7.7 超越評估:LLMs 的性能提升
歸根結底,評估并非最終目標,而是起點。評估后,必然能得出關于性能、魯棒性、穩定性等方面的結論。一個完善的評估體系不僅應提供基準測試結果,還應提供深入分析、建議和指導,以助力未來研究與開發。例如,PromptBench [262] 不僅提供了對抗性提示詞的魯棒性評估結果,還通過注意力可視化進行全面分析,闡明對抗性文本如何導致錯誤響應;該體系還通過詞頻分析識別測試集中的魯棒詞和非魯棒詞,為終端用戶提供提示詞工程指導。后續研究可利用這些發現提升 LLMs 性能。另一個例子是,Wang 等人 [215] 首先探究了大型視覺 - 語言模型在不平衡(長尾)任務中的性能,揭示了當前大型模型的局限性;隨后,他們探索了多種方法以提升這些任務的性能。總之,評估后的性能提升有助于構建更優秀的 LLMs,未來在這一領域仍有大量工作可開展。
8、結論
評估在人工智能模型(尤其是大型語言模型)的發展中具有深遠意義,已成為不可或缺的環節。本文作為首篇關于 LLMs 評估的全面綜述,從 “評估什么”“如何評估”“在哪里評估” 三個方面,對 LLMs 評估進行了系統概述。通過梳理評估任務、協議和基準測試,本文旨在增進對 LLMs 當前發展狀況的理解,闡明其優勢與局限性,并為 LLMs 的未來發展提供見解。
本綜述表明,當前 LLMs 在諸多任務(尤其是推理和魯棒性任務)中仍存在局限性;同時,現有評估體系顯然需要適應和演進,以確保能準確評估 LLMs 的固有能力與局限性。本文指出了未來研究應解決的若干重大挑戰,期望 LLMs 能不斷提升,更好地為人類服務。
本文轉載自??AIRoobt?? ,作者:AIRoobt

















