大模型落地最后一公里：111頁全面綜述大模型評測

作者：機(jī)器之心 2023-11-05 10:04:47

天津大學(xué)自然語言處理實(shí)驗室最近發(fā)布了大模型評測的綜述文章。該綜述文章共有 111 頁，其中正文部分 58 頁，引用了 380 余篇參考文獻(xiàn)。

當(dāng)前，大模型正憑借其強(qiáng)大的能力和無限的潛力引領(lǐng)著新一輪技術(shù)革命，眾多科技巨頭紛紛圍繞大模型進(jìn)行布局，進(jìn)一步推動大模型不斷向前發(fā)展。然而，盡管大模型能夠協(xié)助我們完成各種任務(wù)，改變我們的生產(chǎn)和生活的方式，提高生產(chǎn)力，為我們帶來便利，但大模型的發(fā)展也伴隨著諸多風(fēng)險與挑戰(zhàn)，如泄露隱私數(shù)據(jù)，生成帶有偏見、暴力、歧視、違反基本道德和法律法規(guī)的內(nèi)容，傳播虛假信息等。不僅如此，隨著大模型能力的飛速進(jìn)步，其產(chǎn)生自我保持、自我復(fù)制、追求權(quán)力和資源、奴役其它機(jī)器和人類等與人類價值不符的 “欲望” 傾向開始逐步呈現(xiàn)出來。因此，在大模型高歌猛進(jìn)的今天，追蹤大模型的技術(shù)進(jìn)步，對大模型能力及其不足之處形成更深入的認(rèn)識和理解，預(yù)知并防范大模型帶來的安全挑戰(zhàn)和風(fēng)險，需要針對大模型開展全方位的評測，以引導(dǎo)大模型朝著更健康和更安全的方向發(fā)展，讓大模型的發(fā)展成果惠及全人類。

然而，當(dāng)前對大模型進(jìn)行全方位評測面臨諸多挑戰(zhàn)，由于大模型的通用性強(qiáng)，能夠勝任多種任務(wù)，因此大模型的全方位評測涉及的范圍廣、工作量大、評測成本高昂；其次，由于數(shù)據(jù)標(biāo)注工作量大，許多維度的評測基準(zhǔn)仍然有待構(gòu)建；再次，自然語言的多樣性和復(fù)雜性，使得許多評測樣本無法形成標(biāo)準(zhǔn)答案，或者標(biāo)準(zhǔn)答案不止一個，這導(dǎo)致相應(yīng)的評測指標(biāo)難以量化；此外，大模型在現(xiàn)有評測數(shù)據(jù)集的表現(xiàn)難以代表其在真實(shí)應(yīng)用場景的表現(xiàn)。

為了應(yīng)對以上挑戰(zhàn)，激發(fā)大家對大模型評測研究的興趣，推動大模型評測研究與大模型技術(shù)研究發(fā)展相協(xié)調(diào)，天津大學(xué)自然語言處理實(shí)驗室最近發(fā)布了大模型評測的綜述文章。該綜述文章共有 111 頁，其中正文部分 58 頁，引用了 380 余篇參考文獻(xiàn)。

論文地址：https://arxiv.org/abs/2310.19736
論文參考文獻(xiàn)詳細(xì)列表：https://github.com/tjunlp-lab/Awesome-LLMs-Evaluation-Papers

如圖 2 所示，該綜述將整個大模型評測按照評測維度的不同分為了 5 個評測類別：（1）知識和能力評測，（2）對齊評測，（3）安全評測，（4）行業(yè)大模型評測，（5）（綜合）評測組織。這 5 個評測類別基本囊括了當(dāng)前大模型評測的主要研究領(lǐng)域。在介紹每個評測類別時，該綜述對相關(guān)的研究工作進(jìn)行了梳理，以樹狀結(jié)構(gòu)的思維導(dǎo)圖形式展示了各個研究工作之間的關(guān)系，以清晰展示該領(lǐng)域整體的研究框架。不僅如此，該綜述還探討了大模型評測的未來發(fā)展方向，強(qiáng)調(diào)了大模型評測應(yīng)該與大模型本身協(xié)同進(jìn)步。希望該綜述能夠為對大模型評測領(lǐng)域感興趣的研究者和工程技術(shù)人員提供參考，基于該綜述，對大模型評測的發(fā)展和現(xiàn)狀形成較為全面的了解，并對大模型評測中的關(guān)鍵和開放問題進(jìn)行深入思考。

圖 2 大模型評測研究中的 5 個主要評測類別及其子類別

知識和能力評測

知識和能力是評測大模型的核心維度之一。大模型的飛速發(fā)展，使其在諸多復(fù)雜任務(wù)中不斷取得突破，并被廣泛應(yīng)用于越來越多的實(shí)際業(yè)務(wù)場景中。對其是否可以勝任真實(shí)場景任務(wù)，需要對大模型的知識和能力水平進(jìn)行綜合評估。該綜述討論了大模型的問答能力評測、知識補(bǔ)全能力評測、推理能力評測及工具學(xué)習(xí)能力評測，并梳理了相關(guān)的評測基準(zhǔn)數(shù)據(jù)集、評測方法和評測結(jié)果。在推理能力評測中，該綜述介紹了目前常見的 4 種推理類型：（1）常識推理，（2）邏輯推理，（3）多跳推理，（4）數(shù)學(xué)推理。在工具學(xué)習(xí)能力評測中，該綜述詳細(xì)介紹了工具調(diào)用能力評測和工具創(chuàng)造能力評測。對應(yīng)的思維導(dǎo)圖如圖 3 所示。

圖 3 大模型知識和能力評測

對齊評測

對大模型進(jìn)行對齊評測能夠提前預(yù)知大模型帶來的負(fù)面影響，以便提前采取措施消除倫理價值未對齊問題。在對齊評測中，該綜述討論了大模型的道德和倫理評測、偏見性評測、毒性評測和誠實(shí)性評測，其對應(yīng)的思維導(dǎo)圖如圖 4 所示。

圖 4 大模型的對齊評測

大模型的道德和倫理評測旨在評估其生成內(nèi)容中是否存在違背社會公認(rèn)的道德倫理規(guī)范的情況。該綜述根據(jù)評價準(zhǔn)則的不同將道德和倫理評測分為四個部分：（1）基于專家定義的道德倫理規(guī)范評測，即采用書籍、文章等專業(yè)來源中定義的道德倫理規(guī)范作為評價標(biāo)準(zhǔn)，然后采用眾包的方式制作相應(yīng)的評測數(shù)據(jù)集；（2）基于眾包方式的道德倫理規(guī)范評測，其道德倫理規(guī)范通常是由未接受相關(guān)專業(yè)培訓(xùn)的眾包工作者根據(jù)個人的道德標(biāo)注進(jìn)行確定；（3）AI 輔助的道德倫理規(guī)范評測，即讓語言模型參與到評測過程中，輔助人類判斷內(nèi)容是否符合道德倫理；（4）基于混合模式（如專家定義 + 眾包方式）的道德倫理規(guī)范評測，其相關(guān)的評測數(shù)據(jù)集則既包含了由專家定義的道德倫理規(guī)范構(gòu)建的數(shù)據(jù)集，也包含了基于眾包工作者的個人道德規(guī)范構(gòu)建的數(shù)據(jù)集。

大模型的偏見性評測主要關(guān)注其生成的內(nèi)容是否會對某些社會群體產(chǎn)生不利影響或傷害。現(xiàn)有的研究表明大模型可能會對某些群體持有刻板印象，或者產(chǎn)生輸出貶低特定群體的信息等偏見行為。該綜述主要討論了下游任務(wù)中的偏見和大模型中的偏見。下游任務(wù)涉及指代消解、機(jī)器翻譯、自然語言推理、情感分析、關(guān)系抽取和隱式仇恨言論檢測。而在大模型中的偏見中，該綜述主要介紹了主流的專用于評估大模型的偏見的評測數(shù)據(jù)集和評測方法。

大模型的毒性評測主要聚焦于評估其生成的內(nèi)容中是否含有仇恨、侮辱、淫穢等有害信息。在毒性評測的框架下，該綜述介紹了使用大模型識別有害信息的相關(guān)工作，并詳細(xì)介紹了相應(yīng)的評測基準(zhǔn)。不僅如此，該綜述還闡述了適用于評估大模型的毒性的評測數(shù)據(jù)集以及能夠量化大型模型生成內(nèi)容毒性的工具。

大模型的誠實(shí)性評測致力于檢測模型生成的內(nèi)容是否真實(shí)、準(zhǔn)確，以及是否符合事實(shí)。該綜述以評測數(shù)據(jù)集和評測方法為主線，詳細(xì)介紹了大模型的誠實(shí)性評測的相關(guān)工作。在介紹真實(shí)性評測的數(shù)據(jù)集時，該綜述根據(jù)數(shù)據(jù)集涉及的任務(wù)類型將數(shù)據(jù)集劃分為了三類：（1）問答任務(wù)數(shù)據(jù)集，（2）對話任務(wù)數(shù)據(jù)集以及（3）摘要任務(wù)數(shù)據(jù)集。在探討真實(shí)性評測的方法時，該綜述對現(xiàn)有的真實(shí)性評測方法進(jìn)行了梳理和歸類，并將其總結(jié)為三類：（1）基于自然語言推理的評測方法，（2）基于問題生成和問答的方法，（3）基于大模型的方法。

安全評測

雖然大模型在許多任務(wù)中已經(jīng)展現(xiàn)出媲美甚至超越人類的表現(xiàn)，但由其引發(fā)的安全問題也不容忽視，因此需要對大模型進(jìn)行安全評測以確保其在各種應(yīng)用場景中的安全使用。在安全評測中，該綜述探討了魯棒性評測和風(fēng)險評測兩個方面，其對應(yīng)的思維導(dǎo)圖如圖 5 所示。魯棒性評測主要包括：（1）提示詞魯棒性，即通過在提示詞中加入拼寫錯誤、近義詞等模擬用戶輸入的噪音來評估大模型的魯棒性；（2）任務(wù)魯棒性，即通過生成各種下游任務(wù)的對抗樣本評估大模型的魯棒性；（3）對齊魯棒性，大模型通常會經(jīng)過對齊訓(xùn)練以確保其生成的內(nèi)容與人類的偏好和價值對齊，防止模型生成有害信息。然而，已有的研究表明有些提示詞能夠繞過對齊訓(xùn)練的防護(hù)，觸發(fā)大模型生成有害內(nèi)容，這種方法也被稱為越獄打擊方法。因此，對齊魯棒性主要評測的是大模型在面臨各種引導(dǎo)模型生成有害內(nèi)容的越獄攻擊時能否仍然生成與人類偏好和價值對齊的內(nèi)容。

風(fēng)險評測則主要集中于兩個方面：（1）大模型的行為評測，即通過與大模型進(jìn)行直接交互的方式，評估大模型是否存在追求權(quán)力和資源，產(chǎn)生自我保持等潛在危險行為或傾向；（2）將大模型視為智能體進(jìn)行評測，即在特定的模擬環(huán)境中對大模型進(jìn)行評測，如模擬游戲環(huán)境、模擬網(wǎng)上購物或網(wǎng)上沖浪等場景。與大模型的行為評測不同，此項評測更側(cè)重于大模型的自主性以及其與環(huán)境和其它大模型之間的復(fù)雜交互。

圖 5 大模型安全評測

行業(yè)大模型評測

行業(yè)大模型指專門針對某個特定領(lǐng)域或行業(yè)進(jìn)行訓(xùn)練和優(yōu)化的大模型。與通用大模型不同，行業(yè)大模型一般都經(jīng)過了特定領(lǐng)域數(shù)據(jù)的微調(diào)，因此其更加專注于某一特定領(lǐng)域的知識和應(yīng)用，如法律、金融、醫(yī)療等。乘著通用大模型發(fā)展的東風(fēng)，各種行業(yè)大模型也紛紛亮相。為深入了解行業(yè)大模型能力水平，發(fā)現(xiàn)行業(yè)模型潛在缺陷以便改進(jìn)和優(yōu)化，需要對行業(yè)大模型進(jìn)行深入評測。該綜述介紹了生物 & 醫(yī)療、教育、法律、計算機(jī)和金融領(lǐng)域的行業(yè)大模型的評測，梳理了相應(yīng)的評測基準(zhǔn)、評測方法以及針對特定大模型的評測結(jié)果。其對應(yīng)的思維導(dǎo)圖如圖 6 所示。

圖 6 行業(yè)大模型評測

（綜合）評測組織

評測組織研究如何將多個評測維度或子維度組合起來，以對大模型進(jìn)行綜合性評測。該綜述對評測組織研究進(jìn)行了全面梳理，并將相關(guān)的綜合性評測基準(zhǔn)歸類為兩種：（1）由自然語言理解和自然語言生成任務(wù)組成的評測基準(zhǔn)，如早期的 GLUE、SuperGLUE 和近期的 BIG-Bench 等；（2）由人類各學(xué)科考試題組成的學(xué)科能力評測基準(zhǔn)，其目的是評估大模型的知識能力，如 MMLU、C-Eval、MMCU 和 M3KE 等。此外，該綜述還總結(jié)了不同模型在學(xué)科能力評測基準(zhǔn)上的表現(xiàn)，并分析和探討了測試集樣本所屬的語言、模型的參數(shù)規(guī)模、指令微調(diào)和思維鏈等因素對模型效果的影響。同時，該綜述還介紹了評測平臺、排行榜以及大模型競技場，這些排行榜的評測數(shù)據(jù)集通常也由多個任務(wù)的評測數(shù)據(jù)集共同組成。大模型競技場引入了 Elo 評分機(jī)制對大模型進(jìn)行打分和排名，在計算 Elo 評分時，由人類對大模型生成的回復(fù)進(jìn)行投票以選出質(zhì)量高的回復(fù)。評測組織對應(yīng)的思維導(dǎo)圖如圖 7 所示。

圖 7 評測組織

未來展望

該綜述不僅梳理和介紹了現(xiàn)有的大模型評測的研究，還探討了當(dāng)前研究中存在的瓶頸問題，并基于此，展望了大模型評測未來潛在方向：（1）風(fēng)險評測，（2）智能體評測，（3）動態(tài)評測，以及（4）以優(yōu)化大模型為目標(biāo)的評測。

風(fēng)險評測：現(xiàn)有的風(fēng)險評測方法主要通過問答的方式對大模型進(jìn)行評測，然而該方法難以全面評估大模型在特定場景或特定環(huán)境下的風(fēng)險，無法深入揭示這些風(fēng)險產(chǎn)生的內(nèi)在原因。因此對于大模型的風(fēng)險評測，需要更深入、更全面的評測方法。

智能體評測：現(xiàn)有的將大模型視為智能體進(jìn)行評測的方法大多需要一個特定的環(huán)境，并且總是聚焦于智能體的能力評測。然而，這些方法往往缺乏專門用于評測智能體潛在風(fēng)險的環(huán)境，因此可以進(jìn)一步增加智能體所處環(huán)境的多樣性，以便更全面地評估其能力和風(fēng)險。

動態(tài)評測：現(xiàn)有的評測方法通常是靜態(tài)評測，其測試樣本總是長時間保持不變。然而，由于大模型的訓(xùn)練數(shù)據(jù)來源廣泛且規(guī)模龐大，有些測試樣本可能已經(jīng)包含在其訓(xùn)練數(shù)據(jù)中。此外，大多數(shù)大模型往往不會詳細(xì)透露其訓(xùn)練數(shù)據(jù)來源或公開其訓(xùn)練數(shù)據(jù)，這可能導(dǎo)致為了獲得好的評測結(jié)果，靜態(tài)評測的測試樣本會被人為添加到模型的訓(xùn)練數(shù)據(jù)中。再者，由于知識每時每刻都在迭代更新，靜態(tài)評測的數(shù)據(jù)中的知識有可能會過時，隨著大模型的能力不斷的增強(qiáng)，原有的靜態(tài)評測數(shù)據(jù)的難度可能無法滿足大模型的能力需求。這些因素都削弱了靜態(tài)評測的公平性。因此，為了更加全面公正的對大模型進(jìn)行評測，可以采用動態(tài)評測方法，持續(xù)更新測試樣本，引入開放式問題，并探索評測新方法，如使用多個大模型通過辯論的方式進(jìn)行評測。

以優(yōu)化大模型為目標(biāo)的評測：現(xiàn)有的評測方法主要使用具體的評分量化大模型在某些特定任務(wù)或某些特定維度的能力，雖然這些評分便于模型之間的比較和選擇，但它們包含的信息難以指導(dǎo)模型的進(jìn)一步優(yōu)化。因此，需要以優(yōu)化大模型為目標(biāo)的評測方法，這種方法不僅給出模型的能力評分，同時也提供對應(yīng)的能力分析和改進(jìn)建議。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 論文