精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

別讓大模型被基準評估坑了!測試集亂入預訓練,分數虛高,模型變傻

人工智能
研究發現,基準測試中相關數據意外被用于模型訓練的現象,變得越來越常見了。因為預訓練語料中包含很多公開文本資料,而評估基準也建立在這些信息之上,本來這種情況就在所難免。

“別讓大模型被基準評估給坑了”。

這是一項最新研究的題目,來自人民大學信息學院、高瓴人工智能學院和伊利諾伊大學厄巴納-香檳分校。

圖片

研究發現,基準測試中相關數據意外被用于模型訓練的現象,變得越來越常見了。

因為預訓練語料中包含很多公開文本資料,而評估基準也建立在這些信息之上,本來這種情況就在所難免。

現在隨著大模型試圖搜集更多公開數據,問題正在加重。

要知道,這種數據重疊帶來的危害非常大。

不僅會導致模型部分測試分數虛高,還會使模型泛化能力下降、不相關任務表現驟降。甚至可能讓大模型在實際應用中產生“危害”。

圖片

所以這項研究正式發出警告,并通過多項模擬測試驗證了可能誘發的實際危害,具體來看。

大模型“被漏題”很危險

研究主要通過模擬極端泄露數據的情況,來測試觀察大模型會產生的影響。

極端泄露數據的方式有四種:

  • 使用MMLU的訓練集
  • 使用MMLU以外所有測試基準的訓練集
  • 使用所有訓練集+測試prompt
  • 使用所有訓練集、測試集和測試prompt(這是最極端情況,僅為實驗模擬,正常情況下不會發生)

然后研究人員給4個大模型進行“投毒”,然后再觀察它們在不同benchmark中的表現,主要評估了在問答、推理、閱讀理解等任務中的表現。

使用的模型分別是:

  • GPT-Neo(1.3B)
  • phi-1.5(1.3B)
  • OpenLLaMA(3B)
  • LLaMA-2(7B)

同時使用LLaMA(13B/30B/65B)作為對照組。

結果發現,當大模型的預訓練數據中包含了某一個評測基準的數據,它會在這一評測基準中表現更好,但在其他不相關任務中的表現會下降。

比如使用MMLU數據集訓練后,多個大模型在MMLU測試中分數提高的同時,在常識基準HSwag、數學基準GSM8K中分數下降。

這表明大模型的泛化能力受到影響。

圖片

另一方面,還可能造成不相關測試分數虛高。

如上給大模型進行“投毒”的四個訓練集中僅包含少量中文數據,但是大模型被“投毒”后,在C3(中文基準測試)中的分數卻都變高了。

這種升高是不合理的。

圖片

這種訓練數據泄露的情況,甚至會導致模型測試分數,異常超越更大模型的表現。

比如phi-1.5(1.3B)在RACE-M和RACE-H上的表現優于LLaMA65B,后者是前者規模的50倍。

但這種分數升高沒有意義,只是作弊罷了。

圖片

更嚴重的是,哪怕是沒有被泄露數據的任務,也會受到影響,表現下降。

下表中可以看到,在代碼任務HEval中,兩個大模型都出現了分數大幅下降的情況。

圖片

同時被泄露數據后,大模型的微調提升遠不如未被泄露情況。

圖片

對于發生數據重疊/泄露的情況,本項研究分析了各種可能。

比如大模型預訓練語料和基準測試數據都會選用公開文本(網頁、論文等),所以發生重疊在所難免。

而且當前大模型評估都是在本地進行,或者是通過API調用來獲得結果。這種方式無法嚴格檢查一些不正常的數值提升。

以及當下大模型的預訓練語料都被各方視為核心機密,外界無法評估。

所以導致了大模型被意外“投毒”的情況發生。

那該如何規避這一問題呢?研究團隊也出了一些建議。

如何規避?

研究團隊給出了三點建議:

第一,實際情況中很難完全避免數據重疊,所以大模型應該采用多個基準測試進行更全面的評估。

第二,對于大模型開發者,應該要對數據進行脫敏,公開訓練語料的詳細構成。

第三,對于基準測試維護人員,應該提供基準測試數據來源,分析數據被污染的風險,使用更多樣化的提示進行多次評估。

不過團隊也表示本次研究中還存在一定局限。比如沒有對不同程度數據泄露進行系統性測試,以及沒能在預訓練中直接引入數據泄露進行模擬等。

本次研究由中國人民大學信息學院、高瓴人工智能學院和伊利諾伊大學香檳分校的多位學者共同帶來。

在研究團隊中我們發現了兩位數據挖掘領域大佬:文繼榮和韓家煒。

文繼榮教授現任中國人民大學高瓴人工智能學院院長、中國人民大學信息學院院長。主要研究方向為信息檢索、數據挖掘、機器學習、大規模神經網絡模型的訓練與應用。

韓家煒教授領銜是數據挖掘領域專家,現為伊利諾伊大學香檳分校計算機系教授,美國計算機協會院士和IEEE院士。

論文地址:https://arxiv.org/abs/2311.01964。

責任編輯:姜華 來源: 量子位
相關推薦

2025-10-10 07:48:12

大模型預訓練初始化

2024-09-29 13:10:08

2024-01-03 18:53:13

語言模型LLM

2024-11-04 00:24:56

2025-08-24 09:24:07

2023-09-06 07:11:41

大模型人工智能

2023-11-05 15:09:35

模型AI

2024-09-02 11:53:15

2024-04-11 14:12:53

2023-11-03 07:47:12

機器資源大模型:

2022-07-07 14:06:39

LiBai模型庫

2023-05-19 07:25:34

2025-07-08 09:07:00

2024-09-27 10:31:22

2024-04-08 13:29:52

2024-04-15 13:51:03

模型LLMLLMs

2023-05-08 15:36:50

模型AI

2024-05-27 12:45:53

點贊
收藏

51CTO技術棧公眾號

日本天堂在线观看| 丁香社区五月天| 日韩一二三区在线观看| 亚洲第一成人在线| 鲁丝片一区二区三区| 中文在线a天堂| 一精品久久久| 亚洲毛片在线看| 伊人久久大香线蕉综合四虎小说 | 久久国产精品久久久久久电车| 老鸭窝毛片一区二区三区| 中文字幕亚洲无线码在线一区| 久久精品久久99| 欧美日韩在线观看首页| 国产精品国产自产拍高清av | ccyy激情综合| 欧美性受xxxx黑人xyx性爽| www.国产亚洲| 91精品国产91久久久久游泳池 | 国产激情小视频在线| caoporen国产精品视频| 成人h视频在线观看播放| 免费观看成人毛片| 欧美黄色aaaa| 色老头一区二区三区在线观看| av2014天堂网| 久久三级中文| 欧美日韩中文字幕一区| 久久久久久久午夜| 婷婷色在线播放| 国产精品成人网| 欧洲精品码一区二区三区免费看| 超碰在线观看av| 久久国产精品99久久久久久老狼| 欧美最猛性xxxx| 日本在线免费观看| 国产精品地址| 欧美成年人在线观看| 一级黄色片网址| 夜夜春成人影院| 亚洲国产精品成人精品| 国产免费无码一区二区| 九色精品蝌蚪| 91精品福利在线一区二区三区 | 在线综合视频网站| 国产理论电影在线观看| 久久只精品国产| 久久精精品视频| 天天射天天色天天干| 丰满亚洲少妇av| 成人h视频在线观看| 国产极品久久久| 国产很黄免费观看久久| 亚洲一区二区免费在线| 国产内射老熟女aaaa∵| 激情五月播播久久久精品| 国产精品jizz在线观看麻豆| www.国产毛片| 青青草视频一区| 国产精品普通话| 伊人网视频在线| 久久精品99国产精品| 国产精品自拍视频| 国产又粗又猛视频| 国产精品一区二区三区网站| 3d动漫精品啪啪一区二区三区免费| 国产欧美熟妇另类久久久| 国产九九视频一区二区三区| 99精品国产高清在线观看| 丰满肉肉bbwwbbww| a在线欧美一区| 欧美精品一区二区三区四区五区| 三级在线观看| 欧美激情中文字幕一区二区| 一区二区视频在线免费| 在线观看免费视频你懂的| 亚洲男人的天堂在线aⅴ视频| 国产911在线观看| av福利在线导航| 色嗨嗨av一区二区三区| 老司机久久精品| 成人18夜夜网深夜福利网| 日韩成人中文电影| 免费成人深夜天涯网站| 亚洲综合中文| 国产91成人video| 中文字幕欧美色图| 国产盗摄一区二区三区| 久久久精品国产一区二区三区| 福利在线视频导航| 亚洲日本护士毛茸茸| 国产日韩欧美精品在线观看| 二吊插入一穴一区二区| 宅男噜噜噜66一区二区66| a天堂视频在线观看| 欧美三级情趣内衣| 欧美另类第一页| 亚洲中文一区二区| 国产成人av一区二区三区在线观看| 久久久com| 2024最新电影在线免费观看| 欧美天天综合色影久久精品| 久久久久久久久久久久久久久国产| 国产精品一区二区三区美女| 色yeye香蕉凹凸一区二区av| 国产香蕉视频在线| 精品一区二区精品| 久久涩涩网站| 蜜乳av一区| 欧美日韩精品高清| 国产精品成人一区二区三区电影毛片| 小小影院久久| 国产精品草莓在线免费观看| 亚洲精品久久久狠狠狠爱| 中文字幕av一区二区三区| 妞干网在线观看视频| 欧美黄色a视频| 亚洲欧美变态国产另类| 日本视频www| 国产一区二区在线观看免费| 日韩av在线电影观看| 岛国av在线网站| 正在播放一区二区| 永久av免费网站| 日韩专区在线视频| 免费看成人片| 678在线观看视频| 欧美一二区视频| 国产探花在线视频| 美腿丝袜亚洲色图| 欧美一区二区综合| 92国产精品| 亚洲精品按摩视频| 九九热视频精品| 国产精品911| ijzzijzzij亚洲大全| 欧美少妇激情| 深夜福利91大全| 夜夜爽妓女8888视频免费观看| 91日韩一区二区三区| 免费在线看黄色片| 成人自拍在线| 欧美贵妇videos办公室| 99精品久久久久久中文字幕| 综合自拍亚洲综合图不卡区| 国产三级三级看三级| 国产欧美日韩精品一区二区免费| 欧美洲成人男女午夜视频| 偷拍自拍在线| 欧美性高潮床叫视频| 97香蕉碰碰人妻国产欧美 | 国产精品初高中害羞小美女文| www.欧美日本| 成人精品亚洲| 国产色视频一区| 老司机午夜在线| 日韩一区二区视频| 免费在线观看亚洲| 99re66热这里只有精品3直播| 尤物av无码色av无码| 亚洲资源网你懂的| 国产精品日韩在线观看| 精品黄色免费中文电影在线播放| 欧美一区二区啪啪| xxxx 国产| 久久一区二区三区国产精品| 中文字幕国产传媒| 一区二区三区网站| 国产一区福利视频| 浪潮色综合久久天堂| 色一情一乱一区二区| 国产av一区二区三区精品| 亚洲午夜在线视频| 中文字幕在线看高清电影| 日本不卡在线视频| 黄黄视频在线观看| 日韩超碰人人爽人人做人人添| 国产精品久久久91| 亚洲www色| 亚洲免费av片| 国产男男gay网站| 欧美日韩国产影院| 999福利视频| 成人激情av网| 久久久久久三级| 欧美深夜福利| 欧洲一区二区在线观看| 国色天香久久精品国产一区| 97国产精品视频人人做人人爱| 美女欧美视频在线观看免费| 欧美人与性动xxxx| 日韩免费av片| 亚洲国产激情av| 丰满岳乱妇一区二区| 青青青爽久久午夜综合久久午夜| 国产专区在线视频| 精品高清在线| 国产精品久久久久久久小唯西川| 欧美电影h版| 欧美日本啪啪无遮挡网站| 激情小视频在线| 亚洲成人免费在线视频| 欧美激情一区二区三区免费观看| 亚洲一区二区三区激情| 三级黄色片在线观看| 91视频精品在这里| 无码国产精品一区二区高潮| 日日摸夜夜添夜夜添国产精品| 国产精品久久久久7777| 久久久久久久久久久久久久| 蜜桃网站成人| 4438全国亚洲精品观看视频| 国产美女久久精品香蕉69| 中文在线8资源库| 久久久久国产精品免费| 欧美精品日韩少妇| 亚洲午夜小视频| 欧美日本网站| 亚洲第一色在线| 国产视频一区二区三区四区五区| 在线观看视频欧美| 精品人妻一区二区色欲产成人| 亚洲一区在线播放| 美女的奶胸大爽爽大片| 中文字幕一区不卡| 亚洲一级片在线播放| www激情久久| 亚洲一区二区三区无码久久| 国产麻豆91精品| 手机在线国产视频| 蜜桃av一区二区三区电影| 免费激情视频在线观看| 久久黄色网页| 97超碰青青草| 国产视频一区三区| 男人的天堂狠狠干| 亚洲区国产区| 69sex久久精品国产麻豆| 欧美在线高清| 中国老女人av| 亚洲国产老妈| av 日韩 人妻 黑人 综合 无码| 国产高清一区| 中文字幕日韩一区二区三区不卡| 日韩一级毛片| 正在播放亚洲| 91精品国产麻豆国产在线观看| 一本色道久久99精品综合| 第一会所亚洲原创| 亚洲一区二区三区乱码| 91综合在线| 国产精品波多野结衣| 真实国产乱子伦精品一区二区三区| 国产一区一区三区| 国内精品久久久久久久影视蜜臀| www.xxx麻豆| 亚洲深夜影院| 亚洲人成无码www久久久| 日韩中文字幕麻豆| 国产一级片自拍| 国产麻豆视频一区二区| 成熟妇人a片免费看网站| 91在线你懂得| 日本美女bbw| 亚洲免费伊人电影| 中文在线观看免费网站| 欧美日韩亚洲91| 成人小视频在线播放| 欧美精品一二三| 性网爆门事件集合av| 日韩成人av在线| 二区在线观看| 欧美成人在线影院| 99视频有精品高清视频| 国产欧美日韩中文字幕在线| 国产精品中文| 国产精品免费一区二区三区| 丝袜久久网站| 成人看片在线| 特黄特黄一级片| 韩国一区二区三区| 久久精品aⅴ无码中文字字幕重口| 大胆亚洲人体视频| www在线观看免费视频| 综合色天天鬼久久鬼色| 国产一级片播放| 在线免费观看日本欧美| 国产女人18毛片水18精| 日韩精品在线免费观看视频| 日本黄色片在线观看| 久久免费视频网站| 国产精品99精品一区二区三区∴| 99久久国产免费免费| 国产乱码精品一区二区亚洲| 伊人再见免费在线观看高清版| 国产日韩欧美在线播放不卡| 在线观看免费的av| 91色.com| 久久精品国产亚洲av麻豆色欲 | 国产香蕉精品视频一区二区三区| 日本在线天堂| 欧美中文字幕精品| 日韩国产在线不卡视频| 人偷久久久久久久偷女厕| 欧美激情性爽国产精品17p| 欧美精品无码一区二区三区| 成人免费视频网站在线观看| 亚洲一二三四视频| 调教+趴+乳夹+国产+精品| 99久久亚洲精品日本无码 | 粉嫩av一区二区三区免费观看 | 中文字幕日韩精品无码内射| 快she精品国产999| 中文字幕天堂av| 中文字幕一区av| 国产免费www| 亚洲精品国产欧美| 欧美巨大xxxx做受沙滩| 国产欧美日韩中文字幕在线| 国产一区二区三区网| 日韩免费视频播放| 高清成人在线观看| 欧美在线视频第一页| 欧美无砖砖区免费| 牛牛澡牛牛爽一区二区| 97国产suv精品一区二区62| 精品国产一级| 蜜臀av.com| 精品一区二区三区在线观看| 日本理论中文字幕| 欧美午夜女人视频在线| 刘亦菲久久免费一区二区| 久久成人精品视频| 国产一区二区| 日韩精品福利片午夜免费观看| 久久国产剧场电影| 四虎影视1304t| 欧美日韩一区中文字幕| www.在线视频.com| 国产成人精品av在线| 亚洲伊人春色| 成年人视频在线免费| 2017欧美狠狠色| 99久久久久久久久| 亚洲人成电影网站色www| 日本电影欧美片| 日本免费高清一区| 秋霞影院一区二区| 少妇视频一区二区| 欧美一区二区三区四区五区| 成a人片在线观看| av电影成人| 精品96久久久久久中文字幕无| av电影在线播放| 亚洲v日本v欧美v久久精品| 神马一区二区三区| 精久久久久久| 日本50路肥熟bbw| 亚洲aⅴ怡春院| 天堂影院在线| 国产精品扒开腿爽爽爽视频| 精品日韩免费| 99国产精品久久久久久| 亚洲精品菠萝久久久久久久| 精品国产av 无码一区二区三区| 欧美精品在线免费观看| 成人在线超碰| 国产无套粉嫩白浆内谢的出处| 国产精品免费丝袜| 精品国产乱码久久久久久蜜臀网站| 久久久久中文字幕2018| 亚洲小说图片视频| 久久久精品高清| 亚洲三级在线看| 波多野结衣人妻| 日韩在线精品视频| 天堂va在线高清一区| 国产午夜福利100集发布| 久久精品视频一区二区三区| 在线视频 中文字幕| 欧美巨乳美女视频| 最新国产一区| 污污视频网站在线| 狠狠爱综合网| 国产日韩精品一区观看| 日韩网站在线| 亚洲最大成人综合网| 日韩视频一区二区三区| 亚洲涩涩在线| 国产又爽又黄ai换脸| jiyouzz国产精品久久| 一本一道精品欧美中文字幕| 久久99久久久久久久噜噜| 国产精品视频一区二区三区四蜜臂| 午夜激情视频网| 色av成人天堂桃色av| 欧美色图天堂| 神马影院一区二区三区| 成人毛片老司机大片| 在线免费观看中文字幕|