精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型性能摻水嚴重?北大交出答卷:交互評估+動態出題,死記硬背也沒用 | ACL 2024

人工智能 新聞
當前大語言模型(LLM)的評估方法受到數據污染問題的影響,導致評估結果被高估,無法準確反映模型的真實能力。北京大學等提出的KIEval框架,通過知識基礎的交互式評估,克服了數據污染的影響,更全面地評估了模型在知識理解和應用方面的能力。

當人工智能領域被GPT-4、Claude 3等大語言模型的驚人表現所震撼時,一個關鍵問題悄然浮現:我們是否真的客觀評估了這些模型的能力?事實上,當前大模型的評估正面臨著數據污染的陰霾。

數據污染,即模型在訓練過程中接觸到評測基準的測試集數據,導致其在自動評測基準的表現被高估。這一問題在業界尚未得到充分重視。許多大模型的訓練數據來源復雜,難以完全避免測試數據以及答案的泄露。

一些模型甚至直接在測試集上進行訓練,以獲得更高的評估分數。這不僅人為地夸大了模型的性能,也可能誤導相關研究的方向。

面對數據污染問題,盡管已有工作提出基于同分布數據困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測大模型數據污染情況的存在性,但這些方法應用場景和實際效果受限,特別是難以檢測大模型在SFT階段的數據泄露問題。

圖片

北京大學等發布的最新實驗結果表明,這些方法在檢測預訓練階段的數據泄露相對有效,但在檢測SFT階段數據泄露的準確率接近隨機,亦有同期工作[3]得到了相似的結論。因此,構建不易受數據污染影響的評測方法,對于全面而客觀地評估大模型性能十分重要。

圖片

論文鏈接:https://arxiv.org/abs/2402.15043

項目主頁 & 開源代碼:https://zhuohaoyu.github.io/KIEval/

除了數據污染,當前主流的大模型自動評估方法在全面評估模型的真實能力與泛化性能方面也存在不足。

最為主流的基于靜態的數據集的評估方法,往往只需大模型生成對于QA任務或選擇題的選項答案,這一點不僅與目前大型語言模型的開放式文本生成的主要用途并不匹配,亦無法考察模型在回答質量等方面的表現。

面對這些挑戰,需要一種新的評估范式,能夠在排除數據污染影響的同時,全面考察模型在知識理解、推理、生成等方面的真實水平,判斷模型是具備對于問題的深入理解,還是僅僅「記住」了測試數據的答案。

目前,KIEval已被ACL 2024主會錄用,論文已于arXiv公開,團隊已經開源了KIEval的全部代碼并提供了復現環境,僅需簡單修改被評估模型的配置即可快速運行KIEval的完整流程。

KIEval:動態交互式評估框架

KIEval是一個基于知識的動態交互式評估框架,旨在通過引入多輪對話交互,重點考察模型知識的泛化和應用能力,而非簡單的模式匹配或知識記憶。

KIEval的核心理念是通過大模型生成的動態的多輪對話,考察被評估大模型在知識泛化和應用方面的能力。

與傳統的靜態數據集評估不同,KIEval引入了一個「交互者」大模型,與被評估模型進行多輪對話。在每一輪交互中,「交互者」根據先前的對話歷史,動態生成新的、更為深入的問題,引導被評估模型靈活運用其知識,生成連貫、相關的回復。

圖片

具體而言,KIEval的評估流程如下:首先,從現有的高質量數據集中選取一個初始問題,作為對話的起點。被評估模型需要根據這個問題生成一個回答。

接下來,「交互者」根據這個回答和問題,生成一個后續問題,進一步探究模型在這個話題上的知識深度。這個過程重復多輪,形成一個連貫的對話。

在對話過程中,作者引入「評估者」大模型,重點關注模型回復的相關性、連貫性、邏輯性等指標,而非僅僅考察其回復是否與參考答案匹配。

這種動態交互的評估方式有幾個優勢:

首先,它能夠有效降低數據污染的影響。由于每一輪的問題都是動態生成的,即使模型在訓練時見過了初始問題,它也難以簡單地「背誦」后續回復。

其次,多輪對話能夠更全面地考察模型在知識運用、邏輯推理、語言生成等方面的綜合能力,而非僅僅依賴模式匹配。

此外,KIEval可以方便地擴展到不同的領域和語言,只需要選取相應領域的高質量數據集作為知識源即可。

KIEval揭示洞見與實驗分析

通過KIEval框架,作者對大模型的評估有了新的認識。這些認識不僅深化了對現有評估方法的理解,也為未來大模型的評估提供了一些啟發。

圖片

圖片

首先,KIEval的實驗結果表明,傳統的基準測試往往低估了模型之間的真實性能差距。

在靜態數據集上,不同模型的得分差異可能并不明顯。但將這些模型置于 KIEval的動態對話場景中時,它們在知識運用、邏輯推理等方面的差距被顯著放大。這提醒我們,僅依賴靜態數據集的評估可能掩蓋了模型的真實水平。

KIEval的實驗也揭示了數據污染對大模型理解和泛化能力的影響。作者構造了若干「作弊」模型,將評測數據集的一部分測試樣本加入到「作弊」模型的訓練集中。

作者發現,這些在訓練時接觸過測試集的模型,雖然在對應的測試集上取得了很高的分數,但在KIEval的動態對話中卻表現平平,并未在「作弊」訓練中得到正向提升。

這說明,數據污染可能只是提高了模型對特定答案的記憶,而非真正增強其知識理解和運用的能力。

除此之外,作者亦測試了兩種對大模型數據污染檢測的算法[1,2],發現其雖然可以一定程度上檢測出預訓練階段中引入的數據污染問題,其在檢測微調階段的數據泄露準確率接近隨機水平。

圖片

圖片

相比之下,可以通過觀察KIEval分數與靜態評估數據集準確率的分數關系,推測數據泄露的存在。

當模型在數據集準確率上表現十分優秀,但在交互過程中無法有效地回答根據數據集題目動態生成的問題時,說明其僅僅掌握了題目的答案而并非具備回答問題所需的知識或能力。

這表明,在大模型評估中,可以從單純地檢測數據泄露的存在性或是單純考察模型回答固定問題的能力,轉向更全面地評估模型知識理解的深度。

為了驗證KIEval評估結果的有效性,作者對比KIEval分數以及若干傳統評估方法結果,與人類評估結果的對齊程度。

通過對人類評分與主流的多種自動評估方法的相關性分析,可以得出KIEval的評分與人類評分的相關性顯著高于其他自動評估方法這一結論。

這表明,KIEval更為貼近人類在多輪對話場景下,針對對話質量的主觀判斷。

圖片

最后,考慮到大模型本身可能具有一定偏向性(例如GPT系列模型可能更傾向于自身的輸出),作者對大模型本身偏向性對于評估結果的影響亦進行探究。

得益于KIEval設計中分開了「交互者」和「評估者」這兩個角色,只需對于一組相同的被評估模型使用相同的交互者,即可通過貪心解碼,確保交互的雙方輸出保持不變。

針對相同的交互輸出,僅需使用不同的評估者對被評估模型的輸出進行重復評價,即可得到不同模型針對同一被試模型的評估結果。

實驗表明,盡管在樣本級別上,這一偏向性確實存在,但在總體評估分數上,不同評估者模型給出的分數具有較強的正相關性,因此大模型的偏向性不易影響總體的結論。

圖片

圖片

FreeEval:靈活高效可靠的大模型評估工具包

為了高效實現KIEval的動態評估流程,并與其他多種評估方法作出公平的比較,還需要一個高效、靈活的評估工具。

這就是作者開發FreeEval的初衷。FreeEval是一個模塊化的大模型評估工具包,旨在為研究者快速高效構建新的評估方法并檢驗評估結果的有效性提供支持。

KIEval就是基于FreeEval構建的評估方法,充分利用了FreeEval的靈活性和效率,并在詳盡的實驗基礎上證明其可靠性以及評估結果的有效性。

圖片

FreeEval的設計理念可以用四個關鍵詞概括:模塊化、高效率、可信任。

FreeEval將評估流程解構為「數據集」和「評估步驟」兩種類型的自由組合,每個模塊都有統一的接口定義。這種設計使得不同模塊可以靈活自由組合,研究者可通過FreeEval提供的接口快速實現新的評估步驟或是通過對已有數據集和評估步驟的自由組合,輕松定制自己的評估流程。

這樣的模塊化設計給予了FreeEval極強的可擴展性。FreeEval也提供了完善的開發文檔和示例代碼,幫助研究者快速上手開發。

對于評估方法的研發過程,提高評估效率是降低成本的關鍵。FreeEval在效率上做了深度優化,支持開源模型的高效推理和閉源模型的快速調用。

對于開源模型,FreeEval支持在多節點、多GPU上并行評估以及負載均衡,可以充分利用計算資源。

對于閉源模型,FreeEval支持快速的并發調用。同時,FreeEval還實現了緩存機制,避免了不必要的重復計算或接口調用。在完全相同的機器環境下,FreeEval的性能較先前工作具有較大提升。

圖片

FreeEval還包含了一系列元評估(Meta-evaluation)工具作為「評估步驟」,來確保評估的可信性。它提供了數據污染檢測、人類評估標注、評估結果可視化、評估結果相關性分析等模塊,幫助研究者判斷評估結果的有效性、可靠性,識別和消除評估中的潛在風險。

FreeEval還支持全流程的日志記錄和結果復現,對于全過程中產生的模型請求和推理結果、推理參數等均會保存,保證了評估的透明性和可復現性。

目前,FreeEval已經開源并將持續完善:https://github.com/WisdomShell/FreeEval

總結與展望

在當前人工智能和大語言模型快速發展的背景下,評估模型的真實能力和泛化性能變得越來越重要。KIEval和FreeEval的提出,正是為了應對現有評估方法在數據污染和評估全面性方面的挑戰,提供一種更加動態、靈活和可信的評估方式。

KIEval是一種新的大模型評估范式,核心理念是通過知識驅動的多輪對話和交互評估,降低數據污染的影響,并深入考察模型在知識理解、邏輯推理和語言生成等方面的綜合能力。

實驗結果表明,KIEval不僅揭示了模型在靜態數據集上表現不顯著的性能差距,還可觀察出數據污染對模型理解和泛化能力的影響。相比傳統評估方法,KIEval的評估結果與人類評分的相關性更高,顯示出更好的評估有效性和可靠性。

FreeEval則提供了一個高效、靈活和可信任的工具包,用于構建和驗證新的評估方法。其模塊化設計、高效的計算優化和全面的評估工具,使研究者能夠快速構建和定制評估流程,并確保評估結果的有效性和可靠性。

FreeEval的性能優化和完善的日志記錄機制,為大規模模型評估提供了強有力的支持。

通過KIEval和FreeEval的結合,可以更加全面地評估大模型的真實能力,并為未來的模型改進和研究提供重要的見解。KIEval通過多輪對話評估模型的綜合能力,揭示了傳統靜態評估方法的不足;而FreeEval則通過其高效和靈活的設計,簡化了評估流程,提升了評估效率。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-07-02 09:47:40

人工智能技術教育

2023-08-14 08:15:44

谷歌模型

2025-06-18 08:51:00

數據生成AI模型

2025-02-14 10:23:00

LLM模型谷歌

2025-10-29 09:00:00

2025-09-03 14:02:08

AI大模型訓練

2017-09-21 11:43:14

JavascriptHtml5Html

2024-07-23 09:26:20

2023-09-18 16:18:36

AICgen數據

2024-08-07 09:30:00

2025-06-26 15:16:42

AI獎勵模型GPT-4.1

2025-11-10 17:11:13

AI李飛飛模型

2023-05-10 14:40:40

AI模型算力

2009-07-30 14:18:34

2025-01-02 14:30:00

AI訓練模型

2014-04-28 16:13:11

Unix目錄結構

2022-06-07 10:28:53

云遷移云計算

2022-11-17 08:47:20

Go特性標準庫

2020-04-16 10:55:03

Java虛擬機字節碼
點贊
收藏

51CTO技術棧公眾號

欧美成人免费在线观看| 欧美一区二区三区免费| 日本黄网免费一区二区精品| 中文字幕在线观看1| 欧美gay男男猛男无套| 欧美一区二区黄| 国产成人精品视频免费看| av在线1区2区| 成人激情黄色小说| 国产日韩av高清| 日本网站在线播放| 香蕉精品视频在线观看| 日韩av在线免费看| 中文字幕在线视频一区二区三区 | 精品国产欧美成人夜夜嗨| 亚洲色偷偷色噜噜狠狠99网| 四虎精品在线观看| 色综合咪咪久久| www插插插无码视频网站 | 国产人久久人人人人爽| 国产精品乱码一区二区三区| 一卡二卡在线观看| 久久www成人_看片免费不卡| 欧美日本精品在线| 欧美另类69xxxx| 一区二区美女| 亚洲精品动漫100p| 成年人性生活视频| av日韩一区| 欧美日韩视频在线第一区| 欧美日本视频在线观看| 欧美性video| 亚洲欧美日韩国产中文在线| 色噜噜狠狠一区二区三区| 色就是色亚洲色图| 菠萝蜜视频在线观看一区| 亚洲一区二区自拍| 国产人妖在线播放| 蜜桃精品在线观看| 国产精品电影在线观看| 9i看片成人免费看片| 99av国产精品欲麻豆| 欧美老女人性生活| 中国毛片直接看| 国产精品精品| 日韩在线中文字| 国产传媒视频在线| 郴州新闻综合频道在线直播| 亚洲人成电影网| 人妻体内射精一区二区| 亚洲精品进入| 亚洲人午夜色婷婷| 成人黄色a级片| 精品黄色一级片| 在线观看视频99| 国产99在线 | 亚洲| 成人激情开心网| 丝袜情趣国产精品| 成人一级黄色大片| 欧美一区二区三区另类| 色综合91久久精品中文字幕| 久久久久亚洲av成人片| 亚洲经典在线看| 欧美一区二区.| 在线永久看片免费的视频| 久久一日本道色综合久久| 国产成人精品av在线| 啪啪小视频网站| 久久精品国产99久久6| 91精品国产自产在线观看永久| 国产伦一区二区| 粉嫩高潮美女一区二区三区| 狠狠色伊人亚洲综合网站色| 欧美香蕉爽爽人人爽| 日本一区二区三区四区在线视频 | 欧美性一级生活| 波多野结衣国产精品| 国产欧美88| 亚洲精品久久7777777| 日韩av在线看免费观看| 99精品网站| 欧美激情一二三| 免费av网站在线| 久久99国产乱子伦精品免费| www久久99| 色视频在线观看福利| 亚洲国产精品二十页| 成人黄色片免费| 日韩电影毛片| 777亚洲妇女| 国产精品手机在线观看| 国产免费播放一区二区| 美女少妇精品视频| 一级片中文字幕| 精品午夜一区二区三区在线观看| 成人在线免费网站| 国产日韩精品在线看| 亚洲综合激情网| 别急慢慢来1978如如2| 精品成人18| 亚洲人成在线观| 黄色一级片中国| 天堂影院一区二区| 92国产精品久久久久首页 | 午夜免费欧美电影| 国产一区二区av| 久久免费精彩视频| 免费观看日韩电影| 久久国产一区二区| 图片区小说区亚洲| 欧美日韩一区二区在线观看| aaaaa级少妇高潮大片免费看| 亚洲区综合中文字幕日日| 日本一区二区不卡| 亚洲男人天堂久久| 自拍偷拍亚洲综合| 免费看污黄网站| 欧美日韩直播| 欧美大片在线看| 中文字幕一区二区免费| 91香蕉视频黄| 很污的网站在线观看| 国产精品欧美一区二区三区不卡 | 欧美一区二区在线视频观看| 国内高清免费在线视频| 欧美日韩国产成人在线91| 菠萝菠萝蜜网站| 国语自产精品视频在线看8查询8| 国产日韩欧美另类| 国产毛片在线看| 欧美日韩中文字幕综合视频| 美女伦理水蜜桃4| 中文不卡在线| 成人性生交大片免费看视频直播| av色图一区| 色爱区综合激月婷婷| 成年人在线观看av| 国产一区二区高清| 久久国产精品高清| 乱馆动漫1~6集在线观看| 亚洲第一精品福利| 日本a在线观看| 成人一区二区三区在线观看| www婷婷av久久久影片| 韩国三级成人在线| 久热在线中文字幕色999舞| 中文字幕欧美色图| 国产精品免费视频观看| 一区二区免费av| 亚洲精品国产首次亮相| 2022国产精品| 久久99亚洲网美利坚合众国| 日韩片之四级片| 精品无码免费视频| eeuss影院一区二区三区| 国产精品www在线观看| 国产成人在线中文字幕| 韩剧1988在线观看免费完整版| 成人久久久精品国产乱码一区二区 | 欧美电影一区二区| 国产大片免费看| 国产成人午夜高潮毛片| 全黄性性激高免费视频| 欧美三级电影在线| 日韩av免费看| 日本最新在线视频| 日韩欧美一级二级三级| 久久午夜无码鲁丝片| 99麻豆久久久国产精品免费| 欧洲av无码放荡人妇网站| 神马影视一区二区| 91免费精品国偷自产在线| 日本精品600av| 亚洲精品ady| 久久久国产高清| 国产精品色呦呦| 中文字幕人妻熟女人妻a片| 亚洲福利国产| 日本精品一区| 香蕉大人久久国产成人av| 7m第一福利500精品视频| 国产视频第一页在线观看| 欧美精品在线视频| 国产一级淫片免费| 久久品道一品道久久精品| 午夜啪啪小视频| a91a精品视频在线观看| 亚洲不卡1区| 懂色av色香蕉一区二区蜜桃| 97精品国产aⅴ7777| 岛国最新视频免费在线观看| 日韩欧美二区三区| 无码人妻精品一区二区50| 亚洲精品视频观看| 亚洲综合网在线观看| 国产盗摄女厕一区二区三区| 亚洲国产精品久久久久爰色欲| 99久久精品网| 久久亚洲综合网| 国产精品视频一区视频二区 | 久久久久久久久久久影院| 国产精品区一区二区三区| 国产精品成人无码专区| 久久99精品久久久久久动态图| 免费不卡av在线| 久久久久久久久99精品大| 另类视频在线观看+1080p| 国产一区二区三区免费观看在线| 日本高清视频精品| 久久av色综合| 久久国产精品电影| seseavlu视频在线| 亚洲国产高潮在线观看| 99在线观看精品视频| 欧洲亚洲精品在线| 奇米影视第四色777| 综合av第一页| 国产精品一区二区亚洲| 91性感美女视频| 中文字幕制服丝袜| 国内外成人在线| 亚洲黄色av网址| 丝袜美腿亚洲综合| 凹凸国产熟女精品视频| av成人黄色| 日韩精品在线中文字幕| 中文字幕亚洲综合久久五月天色无吗''| 日韩精品不卡| 亚洲亚洲免费| 久久久亚洲综合网站| 国产乱人伦精品一区| 国产99视频精品免费视频36| 电影一区中文字幕| 亚洲aⅴ男人的天堂在线观看| 国产成人精品一区二区三区在线| 日本欧美一级片| 国产精品av一区二区三区| 97在线看福利| 咪咪网在线视频| 2023亚洲男人天堂| 成人影院入口| 日韩暖暖在线视频| 亚州一区二区三区| 国产精品成av人在线视午夜片 | 影音先锋男人在线资源| 欧美久久精品一级黑人c片| 大片免费在线观看| 欧美成人免费播放| 欧美黄色视屏| 久久久久久久久国产精品| hd国产人妖ts另类视频| 97色在线视频| 成人勉费视频| 国产精品视频网| 色999韩欧美国产综合俺来也| 国产精品直播网红| 伊人久久大香| 高清视频一区二区三区| 成人午夜网址| 免费看国产精品一二区视频| 免费成人网www| 一本色道久久综合亚洲二区三区 | 欧美调教视频| 欧美日韩电影一区二区| 国产一区二区精品福利地址| 亚洲资源在线网| 一二三区不卡| 成人毛片一区二区| 久久字幕精品一区| 亚洲污视频在线观看| 免费欧美在线视频| 天堂网成人在线| 99久久婷婷国产综合精品电影| 欧洲av一区二区三区| 国产精品久久久久久户外露出| 国产1区2区3区4区| 福利微拍一区二区| 在线播放精品视频| 精品久久久久久久人人人人传媒 | 欧美一级淫片aaaaaa| 亚洲欧美精品一区| av片在线观看网站| 欧美一级高清免费播放| 欧美天堂在线| 国产自产精品| 欧美色爱综合| 免费看欧美一级片| 欧美a级一区二区| 亚洲av无码久久精品色欲| 久久久午夜精品| 久久艹精品视频| 欧洲av在线精品| 国产成人无码www免费视频播放| 亚洲午夜精品久久久久久性色| 国产精品一区二区三区视频网站| 97视频在线观看播放| 日本久久二区| 你懂的网址一区二区三区| 伊人久久大香线蕉综合四虎小说 | 久久综合加勒比| 欧美羞羞免费网站| 手机在线精品视频| 精品国产一区二区三区久久久狼 | 成人区精品一区二区| 欧美理论在线播放| 欧美久久久久久久久久久久久| 美女一区二区视频| 波多野结衣办公室33分钟| 亚洲女爱视频在线| 老熟妇一区二区三区啪啪| 欧美精品一区二区高清在线观看| 午夜在线视频播放| 国产成人精品视| 成人午夜大片| 996这里只有精品| 久久99日本精品| 91社区视频在线观看| 日韩欧美国产网站| 人妻91麻豆一区二区三区| 久久香蕉国产线看观看av| 日韩精品影院| 欧美精品与人动性物交免费看| 欧美午夜电影在线观看| 九九九九九九九九| 中文久久乱码一区二区| 销魂美女一区二区| 国产网站欧美日韩免费精品在线观看| 欧美人与禽猛交乱配| 91久久久久久| 亚洲精品小说| 亚洲三级在线观看视频| 国产精品丝袜黑色高跟| 亚洲色成人www永久网站| 亚洲精品中文字| 毛片无码国产| 欧美连裤袜在线视频| 国产精品一页| 精品人妻一区二区三区视频| 午夜婷婷国产麻豆精品| 天堂在线视频免费| 久久免费成人精品视频| 丁香5月婷婷久久| 内射国产内射夫妻免费频道| 成人avav在线| 中文字幕亚洲精品一区| 亚洲精品v天堂中文字幕| 爱搞国产精品| 免费看成人片| 日本女人一区二区三区| 亚洲精品成人av久久| 欧美三片在线视频观看 | 久久久免费在线观看| 欧美激情影院| 日韩精品一区二区三区久久| 国产三级精品三级| 中文字幕二区三区| 中文字幕最新精品| 国产一区二区三区| 国产欧美日韩小视频| 99麻豆久久久国产精品免费 | 九九精品调教| 国产伦精品一区二区三区免 | 尤物网站在线观看| 狠狠躁18三区二区一区| 阿v免费在线观看| 成人精品久久久| 国内精品久久久久久久影视蜜臀| 日韩av无码一区二区三区不卡| 狠狠躁夜夜躁久久躁别揉| 二区三区在线| 99久久伊人精品影院| 亚洲麻豆视频| 免费成人深夜蜜桃视频| 日韩女优电影在线观看| 国产直播在线| 亚洲一区二区三区乱码| 丁香婷婷综合五月| 中文字字幕在线中文| 色婷婷综合成人av| 波多野结衣欧美| 亚洲色图久久久| 亚洲一区二区综合| 黄色在线小视频| 5g国产欧美日韩视频| 亚洲男女自偷自拍| 亚洲熟女少妇一区二区| 亚洲成人黄色在线| 国内欧美日韩| 91专区在线观看| 18成人在线观看| 午夜小视频在线播放| 国产在线精品一区免费香蕉| 最新日韩欧美| 男人在线观看视频| 亚洲九九九在线观看| 日本免费精品| www.com操| 五月天一区二区| v片在线观看| 日韩欧美亚洲在线|