LLM評估綜述論文問世，分三方面全面總結，還帶資料庫

作者：機器之心 2023-07-31 11:09:13

這是一篇關于評估大型語言模型的研究，文中參考了許多重要文獻，值得一讀。

大型語言模型（LLM）已經得到了學術界和產業界的廣泛關注，而為了開發出好用的 LLM，適當的評估方法必不可少。現在，一篇有關 LLM 評估的綜述論文終于來了！其中分三方面對 LLM 評估的相關研究工作進行了全面的總結，可幫助相關研究者索引和參考。

不僅如此，該論文作者還創建了一個開源資料庫，讓用戶可以方便地添加和共享相關的新研究：https://github.com/MLGroupJLU/LLM-eval-survey

對科學家來說，理解智能的本質以及確定機器是否能具有智能是極具吸引力的課題。人們普遍認為，人類之所以有能力執行推理、檢驗假設以及為未來做準備，就是因為我們具有真正的智能。人工智能研究者關注的是開發基于機器的智能。正確的度量方式有助于理解智能。舉個例子，為了測試人類的智能水平 / 智力，常常會用到 IQ 測試。

而在 AI 領域，AI 開發的一個長期目標是讓 AI 通過圖靈測試（Turing Test），這需要一個能被廣泛認可的測試集，通過辨別 AI 和人類對其的響應來評估 AI 的智能水平。研究者普遍相信，如果計算機能成功通過圖靈測試，那么就可以認為它具有智能。因此，從更廣泛的視角看，AI 的編年史可描述為智能模型和算法的創造和評估的時間線。每當出現一個新的 AI 模型或算法，研究者都會使用有難度的特定任務來仔細評估其在真實世界場景中的能力。

舉個例子，曾在上世紀 50 年代被吹捧為通用人工智能（AGI）方法的感知器算法之后被證明名不符實，因為其難以求解 XOR（異或）問題。之后興起并得到應用的支持向量機（SVM）和深度學習都是 AI 發展圖景中的重大里程碑，但它們也都各有短板。

過去的研究歷程向我們揭示了評估的重要性。評估是一種重要工具，能幫助我們識別當前系統的局限性并讓我們獲得設計更強模型的信息。

目前而言，學術界和產業界最感興趣的技術方法是大型語言模型（LLM）。已有的研究表明：LLM 表現優異，已經成為 AGI 的有力候選。相比于之前受限于特定任務的模型，LLM 有能力解決多種不同任務。由于 LLM 既能應對一般性自然語言任務，又能處理特定領域的任務，因此越來越受有特定信息需求的人的歡迎，比如學生和病人。

評估對于 LLM 的成功來說至關重要，原因如下。

首先，評估 LLM 有助于我們更好地了解 LLM 的優勢和劣勢。舉個例子，PromptBench 基準測試表明，當前的 LLM 對對抗性 prompt 很敏感，因此為了更好的性能，必需仔細設計 prompt。

第二，更好的評估可以為人類與 LLM 的交互提供更好的指引，這能為未來的交互設計和實現提供思路。

第三，LLM 由于廣泛適用于多種任務，因此確保其安全性和可靠性就至關重要了，尤其是在金融和醫療等行業。

最后，隨著 LLM 能力增多，其也在越來越大，因此現有的評估方法可能不足以評估它們的能力和潛在風險。這就引出了這篇綜述論文的目標：讓 AI 社區認識到 LLM 評估的重要性并指引有關 LLM 評估協議的未來新研究。

隨著 ChatGPT 和 GPT-4 的推出，已經出現了一些旨在從不同方面評估 ChatGPT 和其它 LLM 的研究工作（圖 2），其中涵蓋很多因素，包括自然語言任務、推理、穩健性、可信度、醫學應用和道德考量。盡管如此，仍然缺乏一篇涵蓋整個評估圖景的全面綜述。此外，LLM 的持續演進還會引入需要評估的新方面，這會給現有評估帶來困難，并由此更加需要徹底的和多方面的評估技術。盡管有一些研究工作宣傳 GPT-4 可以被視為 AGI 的星星之火，但另一些人則反對這個說法，因為 GPT-4 的評估方法本質上還是啟發式的。

這篇來自吉林大學、微軟亞洲研究院和卡內基?梅隆大學等機構論文對大型語言模型評估進行了全面綜述。如圖 1 所示，作者從三個維度對現有研究工作進行了探索：1) 評估什么，2) 何處評估，3) 如何評估。

論文地址：https://arxiv.org/pdf/2307.03109.pdf

具體來說，「評估什么」涵蓋 LLM 現有的評估任務，「何處評估」涉及對所用的數據集和基準的適當選擇，「如何評估」關注的是給定任務和數據集下的評估過程。這三個維度是 LLM 評估不可或缺的一部分。之后，作者還會討論 LLM 評估領域潛在的未來挑戰。

圖 1：論文的結構

圖 2：LLM 評估論文隨時間的趨勢，從 2020 年到 2023 年 6 月（6 月數據包含 7

圖 2：LLM 評估論文隨時間的趨勢，從 2020 年到 2023 年 6 月（6 月數據包含 7 月的部分論文）

本文的主要貢獻包括：

本文從三方面全面地概述了 LLM 評估：評估什么、何處評估、如何評估。其中采用的分類方法是普適的并且涵蓋 LLM 評估的整個生命周期。
在「評估什么」方面，本文總結了多個領域的現有任務，并得到了有關 LLM 的成功和失敗案例的富有洞見的結論。
在「何處評估」方面，本文對評估指標、數據集和基準進行了總結，可幫助讀者透徹地理解 LLM 評估的當前圖景。在「如何評估」方面，本文探索了當前協議并總結了新的評估方法。
本文還進一步討論了評估 LLM 方面的未來挑戰。為了促進構建一個有關 LLM 評估的合作社區，作者還維護著一個 LLM 評估相關材料的資源庫并已開源：https://github.com/MLGroupJLU/LLM-eval-survey

背景

大型語言模型（LLM）

GPT-3、InstructGPT 和 GPT-4 等許多 LLM 背后的核心模塊是 Transformer 中的自注意力模塊，Transformer 則是語言建模任務的基本構建模塊。Transformer 已經為 NLP 領域帶來了變革，因為其能高效處理序列數據、支持并行化并能捕獲文本中的長程依賴關系。

LLM 的一大關鍵特性是上下文學習，即模型可被訓練基于給定的上下文或 prompt 生成文本。這讓 LLM 可以生成更為連貫且更長上下文相關的響應，從而讓它們更適用于交互式和會話應用。

根據人類反饋的強化學習（RLHF）是 LLM 的另一重要方面。該技術是使用人類生成的響應作為獎勵對模型進行微調，從而讓模型可以學習自身的錯誤并隨時間提升性能。

表 1：對比傳統機器學習、深度學習和 LLM

AI 模型評估

AI 模型評估是評估模型性能的重要步驟。目前已有一些標準模型評估協議，包括 K-fold 交叉驗證、Holdout 驗證、Leave One Out 交叉驗證（LOOCV）、Bootstrap 和 Reduced Set。

圖 3：AI 模型的評估過程

隨著 LLM 應用增多，其可解釋性卻越來越差，因此現有的評估協議可能不足以徹底評估 LLM 的真實能力。

評估什么

開發語言模型（尤其是大型語言模型）的最初目標是提升 AI 在自然語言處理任務上的性能，其中包含理解任務和生成任務。正因為此，大多數評估研究關注的也主要是自然語言任務。

自然語言處理任務

表 2：基于自然語言處理任務的評估概況：NLU（自然語言理解，包括 SA（情感分析）、TC（文本分類）、NLI（自然語言推理）和其它 NLU 任務）、Rng.（推理）、NLG（自然語言生成，包括 Summ.（摘要）、Dlg.（對話）、Tran.（翻譯）、QA（問答）和其它 NLG 任務）和 Mul.（多語言任務）

穩健性、道德、偏見和可信度

LLM 的評估涵蓋穩健性、道德、偏見和可信度等關鍵方面。為了全面評估 LLM 的表現，這些因素的重要性正在提升。

表 3：在穩健性、道德、偏見和可信度方面的 LLM 評估研究概況

社會科學

社會科學研究的是人類社會和個人行為，包括經濟學、社會學、政治學、法學等學科。評估 LLM 在社會科學領域的表現對于學術研究、政策制定和社會問題解決而言具有重要意義。這些評估有助于推進模型在社會科學領域的應用并改善模型的質量，提升對人類社會的理解以及推動社會進步。

自然科學和工程學

評估 LLM 在自然科學和工程學領域的表現有助于引導科學研究的應用和發展、技術開發以及工程研究。

表 4：在自然科學和工程學任務方面的評估研究概況，其中涉及三個方面：數學、科學和工程學

醫學應用

LLM 在醫學領域的應用最近引起了極大的關注。這里從四個方面介紹 LLM 在醫學領域的應用：醫學問答、醫學檢查、醫學評估和醫學教育。

表 5：LLM 的醫學應用方面的評估研究概況，其中涉及四個方面：Med. Exam.（醫學檢查）、Med. Ass.（醫學評估）、Med. QA（醫學問答）和 Med. Edu.（醫學教育）

智能體應用

LLM 不僅專注于一般語言任務，而是可以用作一種強大工具，應對不同領域的任務。通過為 LLM 配備外部工具，可以極大擴展模型能力。

其它應用

除了上述分類，LLM 還能用于其它一些不同領域，包括教育、搜索和推薦、性格測試以及特定領域的應用。

表 6：LLM 的其它應用方面的評估研究概況，其中涉及四個方面：Edu.（教育）、Sea. & Rec. （搜索和推薦）、Pers. Test.（性格測試）和 Specific applications（特定領域的應用）

何處評估：數據集和基準

LLM 評估數據集的作用是測試和比較不同語言模型在各種任務上的性能。GLUE 和 SuperGLUE 等數據集的目標是模擬真實世界的語言處理場景，其中涵蓋多種不同任務，如文本分類、機器翻譯、閱讀理解和對話生成。這里不關注用于語言模型的任何單個評估數據集，關注的則是用于評估 LLM 的基準。

由于 LLM 在不斷演進，因此基準也會變化，這里列出了 13 個常用的基準。每個基準側重于不同的方面和評估指標，都為各自領域提供了寶貴的貢獻。為了更好地進行總結，這里將基準分為兩類：通用語言任務基準和特定下游任務基準。

表 7：LLM 評估基準概況

如何評估

常用的評估方法分為兩大類：自動評估和人類評估。顧名思義，這里就不多介紹了。

總結

任務：LLM 的成功和失敗案例

現在總結一下 LLM 在不同任務中的成功和失敗案例。注意，以下結論都是基于現有評估工作得出的，結果可能取決于具體的數據集。

LLM 擅長做什么？

LLM 熟練掌握了文本生成，能生成流暢和精確的語言表達。
LLM 能出色地應對涉及語言理解的任務，比如情感分析和文本分類。
LLM 展現出了穩健的上下文理解能力，讓它們能生成與給定輸入相符的連貫響應。
LLM 在多種自然語言處理任務上的表現都值得稱贊，包括機器翻譯、文本生成和問答。

LLM 不擅長做什么？

LLM 可能會在生成過程中展現出偏見和不準確的問題，從而得到帶偏見的輸出。
LLM 在理解復雜邏輯和推理任務方面的能力有限，經常在復雜的上下文中發生混淆或犯錯。
LLM 處理大范圍數據集和長時記憶的能力有限，這可能使其難以應對很長的文本和涉及長期依賴的任務。
LLM 整合實時和動態信息的能力有限，這讓它們不太適合用于需要最新知識或快速適應變化環境的任務。
LLM 對 prompt 很敏感，尤其是對抗性 prompt，這會激勵研究者開發新的評估方法和算法，以提升 LLM 的穩健性。
在文本摘要領域，人們觀察到大型模型可能在特定評估指標上表現不佳，原因可能在于這些特定指標的固有局限性和不足之處。

基準和評估協議

隨著 LLM 的快速發展和廣泛使用，在實際應用和研究中評估它們的重要性變得至關重要。這個評估過程不僅應該包括任務層面的評估，還應該包括它們在社會方面的潛在風險。表 8 總結了現有的基準和評估協議。

表 8：新型 LLM 評估協議概況

巨大挑戰

最后來看看 LLM 評估研究方面面臨的挑戰。作者認為，為了推動 LLM 和其它 AI 模型的成功發展，應當將評估當作一門關鍵性學科來對待。現有的協議不足以透徹地評估 LLM，還有許多挑戰有待攻克，下面將簡單羅列出這些挑戰，但它們也是 LLM 評估方面的未來研究的新機會。

設計 AGI 評估基準
對完整行為進行評估
穩健性評估
動態和演化評估
有原則且值得信任的評估
支持所有 LLM 任務的統一評估
超越評估：LLM 強化

責任編輯：張燕妮來源：機器之心

模型論文