精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型走捷徑「刷榜」?數(shù)據(jù)污染問題值得重視

人工智能 新聞
近日,我們關(guān)注到朋友圈和知乎社區(qū)對(duì)大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評(píng)價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。

生成式 AI 元年,大家的工作節(jié)奏快了一大截。

特別是,今年大家都在努力卷大模型:最近國內(nèi)外科技巨頭、創(chuàng)業(yè)公司都在輪番推出大模型,發(fā)布會(huì)一開,個(gè)個(gè)都是重大突破,每一家都是刷新了重要 Benchmark 榜單,要么排第一,要么第一梯隊(duì)。

在興奮于技術(shù)進(jìn)展速度之快后,很多人發(fā)現(xiàn)似乎也有些不對(duì)味:為什么排行榜第一人人有份?這是個(gè)什么機(jī)制?

于是乎,「刷榜」這個(gè)問題也開始備受關(guān)注。

近日,我們關(guān)注到朋友圈和知乎社區(qū)對(duì)大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評(píng)價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。

鏈接:https://www.zhihu.com/question/628957425

多家大模型刷榜機(jī)制曝光

該研究來自昆侖萬維的「天工」大模型研究團(tuán)隊(duì),他們上個(gè)月底把一份技術(shù)報(bào)告發(fā)布在了預(yù)印版論文平臺(tái) arXiv 上。

論文鏈接:https://arxiv.org/abs/2310.19341

論文本身是在介紹 Skywork-13B,這是天工的一個(gè)大型語言模型(LLM)系列。作者引入了使用分段語料庫的兩階段訓(xùn)練方法,分別針對(duì)通用訓(xùn)練和特定領(lǐng)域的增強(qiáng)訓(xùn)練。

和往常有關(guān)大模型的新研究一樣,作者表示在流行的測(cè)試基準(zhǔn)上,他們的模型不僅表現(xiàn)出色,而且在很多中文的分支任務(wù)上取得了 state-of-art 水平(就是業(yè)內(nèi)最佳)。

重點(diǎn)是,該報(bào)告還驗(yàn)證了下很多大模型的真實(shí)效果,指出了一些其他一些國產(chǎn)大模型存在投機(jī)取巧的嫌疑。說的就是這個(gè)表格 8:

圖片

在這里,作者為了驗(yàn)證目前業(yè)內(nèi)幾個(gè)常見大模型在數(shù)學(xué)應(yīng)用問題基準(zhǔn) GSM8K 上的過擬合程度,使用 GPT-4 生成了一些與 GSM8K 形式上相同的樣本,人工核對(duì)了正確性,并讓這些模型在生成的數(shù)據(jù)集,和 GSM8K 原本的訓(xùn)練集、測(cè)試集上比了比,計(jì)算了損失。然后還有兩個(gè)指標(biāo):

圖片

Δ1 作為模型訓(xùn)練期間潛在測(cè)試數(shù)據(jù)泄漏的指標(biāo),較低的值表明可能存在泄漏。沒有用測(cè)試集訓(xùn)練,那數(shù)值應(yīng)該為零。

圖片

Δ2 衡量數(shù)據(jù)集訓(xùn)練分割的過度擬合程度。較高的 Δ2 值意味著過擬合。如果沒有用訓(xùn)練集訓(xùn)練過,那數(shù)值應(yīng)該為零。

用簡(jiǎn)單的話來解釋就是:如果有模型在訓(xùn)練的時(shí)候,直接拿基準(zhǔn)測(cè)試?yán)锩娴摹刚骖}」和「答案」來當(dāng)學(xué)習(xí)資料,想以此來刷分,那么此處就會(huì)有異常。

好的,Δ1 和 Δ2 有問題的地方,上面都貼心地以灰色突出顯示了。

網(wǎng)友對(duì)此評(píng)論道,終于有人把「數(shù)據(jù)集污染」這個(gè)公開的秘密說出來了。

也有網(wǎng)友表示,大模型的智力水平,還是要看 zero-shot 能力,現(xiàn)有的測(cè)試基準(zhǔn)都做不到。

圖:截圖自知乎網(wǎng)友評(píng)論

在作者與讀者中互動(dòng)中,作者也表示,希望「讓大家更理性看待刷榜這個(gè)事情,很多模型和 GPT4 的差距還很大」。

圖:截圖自知乎文章 https://zhuanlan.zhihu.com/p/664985891

數(shù)據(jù)污染問題值得重視

其實(shí),這并不是一時(shí)的現(xiàn)象。自從有了 Benchmark,此類問題時(shí)常會(huì)有發(fā)生,就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標(biāo)題指出的一樣 Pretraining on the Test Set Is All You Need。

除此之外,最近人民大學(xué)、伊利諾伊大學(xué)香檳分校一個(gè)正式研究同樣指出了大模型評(píng)估中存在的問題。標(biāo)題很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:

論文鏈接:https://arxiv.org/abs/2311.01964

論文指出,當(dāng)前火熱的大模型領(lǐng)域讓人們關(guān)心基準(zhǔn)測(cè)試的排名,但其公平性和可靠性正在受到質(zhì)疑。其中主要的問題就是數(shù)據(jù)污染和泄露,這樣的問題可能會(huì)被無意識(shí)地觸發(fā),因?yàn)槲覀冊(cè)跍?zhǔn)備預(yù)訓(xùn)練語料庫時(shí)可能不知道未來的評(píng)估數(shù)據(jù)集。例如,GPT-3 發(fā)現(xiàn)預(yù)訓(xùn)練語料庫中包含了 Children's Book Test 數(shù)據(jù)集,LLaMA-2 的論文曾提到提取了 BoolQ 數(shù)據(jù)集中的上下文網(wǎng)頁內(nèi)容。

數(shù)據(jù)集是需要很多人花費(fèi)大量精力收集、整理和標(biāo)注的,優(yōu)質(zhì)的數(shù)據(jù)集如果優(yōu)秀到能被用于評(píng)測(cè),那自然也有可能會(huì)被另一些人用于訓(xùn)練大模型。

另一方面,在使用現(xiàn)有基準(zhǔn)進(jìn)行評(píng)估時(shí),我們?cè)u(píng)測(cè)的大模型的結(jié)果大多是通過在本地服務(wù)器上運(yùn)行或通過 API 調(diào)用來獲得的。在此過程中,沒有嚴(yán)格檢查任何可能導(dǎo)致評(píng)估績(jī)效異常提高的不當(dāng)方式(例如數(shù)據(jù)污染)。

更糟糕的是,訓(xùn)練語料庫的詳細(xì)組成(例如數(shù)據(jù)源)通常被視為現(xiàn)有大模型的核心「秘密」。這就更難去探究數(shù)據(jù)污染的問題了。

也就是說,優(yōu)秀數(shù)據(jù)的數(shù)量是有限的,在很多測(cè)試集上,GPT-4 和 Llama-2 也不一定就沒問題。比如在第一篇論文中提到的 GSM8K,GPT-4 在官方 technical report 里提到過使用了它的訓(xùn)練集。

你不是說數(shù)據(jù)很重要嗎,那么用「真題」刷分的大模型,性能會(huì)不會(huì)因?yàn)橛?xùn)練數(shù)據(jù)更優(yōu)秀而變得更好呢?答案是否定的。

研究人員實(shí)驗(yàn)發(fā)現(xiàn),基準(zhǔn)泄漏會(huì)導(dǎo)致大模型跑出夸張的成績(jī):例如 1.3B 的模型可以在某些任務(wù)上超越 10 倍體量的模型。但副作用是,如果我們僅使用這些泄露的數(shù)據(jù)來微調(diào)或訓(xùn)練模型,這些專門應(yīng)試的大模型在其他正常測(cè)試任務(wù)上的表現(xiàn)可能會(huì)受到不利影響。

因此作者建議,以后研究人員在評(píng)測(cè)大模型,或是研究新技術(shù)時(shí)應(yīng)該:

  • 使用更多來自不同來源的基準(zhǔn),涵蓋基本能力(例如文本生成)和高級(jí)能力(例如復(fù)雜推理),以全面評(píng)估 LLM 的能力。
  • 在使用評(píng)估基準(zhǔn)時(shí),在預(yù)訓(xùn)練數(shù)據(jù)和任何相關(guān)數(shù)據(jù)(例如訓(xùn)練和測(cè)試集)之間執(zhí)行數(shù)據(jù)凈化檢查非常重要。此外,還需要報(bào)告評(píng)估基準(zhǔn)的污染分析結(jié)果作為參考。如有可能,建議公開預(yù)訓(xùn)練數(shù)據(jù)的詳細(xì)組成。
  • 建議應(yīng)采用多樣化的測(cè)試提示來減少提示敏感性的影響。在基準(zhǔn)數(shù)據(jù)和現(xiàn)有預(yù)訓(xùn)練語料庫之間進(jìn)行污染分析,提醒任何潛在的污染風(fēng)險(xiǎn)也很有意義。為了進(jìn)行評(píng)估,建議每次提交都附有一份特殊的污染分析報(bào)告。

最后想說,好在這個(gè)問題開始逐漸引起大家的關(guān)注,無論是技術(shù)報(bào)告、論文研究還是社區(qū)討論,都開始重視大模型「刷榜」的問題了。

對(duì)此,你有什么看法與有效建議呢?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-11 08:59:21

2024-04-08 13:29:52

2021-04-26 09:58:24

OneDNS

2013-01-10 13:27:32

iOS刷榜Android

2023-11-16 12:36:00

AI數(shù)據(jù)

2024-09-12 14:46:03

2021-04-13 15:54:07

大數(shù)據(jù)人工智能技術(shù)

2021-11-02 21:24:32

人工智能走捷徑機(jī)器學(xué)習(xí)

2015-06-25 15:51:56

數(shù)據(jù)中心綠色化

2012-08-08 09:29:41

App Store刷榜

2012-11-02 09:29:38

2025-04-15 08:00:00

LMArenaLlama 4大模型

2020-09-29 09:58:30

網(wǎng)絡(luò)安全安防行業(yè)技術(shù)

2024-10-17 14:10:00

模型訓(xùn)練

2014-02-10 09:22:41

2013-01-31 16:28:26

App Store刷榜應(yīng)用商店

2012-03-08 15:49:15

2021-04-19 21:16:18

大數(shù)據(jù)大數(shù)據(jù)動(dòng)向

2025-11-04 15:53:44

AI模型數(shù)據(jù)

2012-01-16 10:41:25

安全互聯(lián)網(wǎng)IT部門
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

高清欧美性猛交xxxx| 91精品国模一区二区三区| 欧美一区2区三区4区公司二百| 成人h动漫精品一区二区下载| 欧洲grand老妇人| 欧美日韩视频专区在线播放| 日韩极品视频在线观看| 国产人成在线视频| 国产一区二区不卡| 午夜精品一区二区三区在线播放| 日本人亚洲人jjzzjjz| 日韩一二三区在线观看| 欧美性猛交xxxx乱大交| 看一级黄色录像| 国产最新视频在线观看| 成人手机在线视频| 国产精品爽爽爽| 国产性xxxx高清| 围产精品久久久久久久| 亚洲免费影视第一页| 欧美又黄又嫩大片a级| 欧美中文字幕精在线不卡| 亚洲一区二区高清| 中国一级黄色录像| 国产高清视频在线| av一区二区三区在线| 亚洲已满18点击进入在线看片| 亚洲色成人www永久网站| 亚洲三级网站| 欧美国产激情18| 99成人在线观看| 国产一区二区三区四区| 精品日韩一区二区三区| 国产精品探花在线播放| 久久av影院| 在线观看视频一区| 无码人妻丰满熟妇区五十路百度| 黄色av电影在线观看| 久久久久9999亚洲精品| 99精彩视频在线观看免费| 国产精品国产三级国产普通话对白| 久久性色av| 26uuu国产精品视频| 五月天婷婷丁香| 好吊日精品视频| 九九热最新视频//这里只有精品| 日日噜噜夜夜狠狠久久波多野| 三级电影一区| 日韩在线视频二区| 美女av免费看| 日韩精品久久| 日韩在线www| 免费成人美女女在线观看| 久久中文字幕av一区二区不卡| 中文字幕日韩电影| 成人小视频免费看| 日韩欧美1区| 中文字幕日韩av综合精品| 国产91在线播放九色| 香蕉综合视频| 欧美另类暴力丝袜| 国产无遮无挡120秒| 亚洲精选一区| 欧美诱惑福利视频| 一级特黄免费视频| 老色鬼精品视频在线观看播放| 成人在线国产精品| 亚洲第一视频在线播放| 成人免费av在线| 欧美另类高清视频在线| 成人性生交大片免费看午夜| 国产精品色噜噜| 综合视频免费看| 密臀av在线| 日韩欧美高清视频| 日韩精品视频一二三| 视频成人永久免费视频| 精品一区二区亚洲| 色噜噜噜噜噜噜| 欧美激情视频一区二区三区在线播放 | 一级黄色录像在线观看| www.久久久.com| 精品国产麻豆免费人成网站| 欧美熟妇精品黑人巨大一二三区| 中文字幕亚洲影视| 日韩中文娱乐网| 国产亚洲精久久久久久无码77777| 一区二区日本视频| 国产精品免费视频久久久| 国产伦精品一区二区三区免.费 | 欧美日韩国产免费一区二区| 91网址在线观看精品| 群体交乱之放荡娇妻一区二区| 一区二区三区精品99久久| 青青草免费av| 巨乳诱惑日韩免费av| 亚洲在线免费看| 欧美3p视频在线观看| 日韩一区有码在线| 欧美日韩激情视频在线观看 | 欧美精品一二三| 日本一级片在线播放| 波多野结衣的一区二区三区| 欧美另类高清videos| 亚洲av无码不卡| 成熟亚洲日本毛茸茸凸凹| 午夜精品亚洲一区二区三区嫩草 | 欧美色图在线视频| 免费在线观看污网站| 香蕉久久夜色精品国产使用方法 | 国产精品18久久久久久久久| 欧美日韩大片一区二区三区| 18av在线播放| 欧美性受xxxx| 女人被狂躁c到高潮| 亚洲乱码免费伦视频| 日本精品一区二区三区在线播放视频 | 夜夜爽99久久国产综合精品女不卡 | 一区二区三区产品免费精品久久75| 日韩精品免费播放| 久草在线综合| 久久久久久com| 91在线观看喷潮| 中文欧美字幕免费| 欧美日韩在线中文| 欧美大片网址| 97婷婷大伊香蕉精品视频| 国产绳艺sm调教室论坛| 欧美国产1区2区| 国产日产欧美视频| 欧美日韩精品一区二区三区在线观看| 久久国产视频网站| 91欧美日韩麻豆精品| 欧美经典一区二区三区| 日韩精品一区二区三区色欲av| 国产人妖ts一区二区| 色综合久综合久久综合久鬼88| 97人人爽人人爽人人爽 | 久久免费精彩视频| 国产精品一区二区久久精品爱涩| 亚洲一区二区三区精品在线观看| 日韩免费va| 亚洲欧美色图片| www五月天com| 久久久99免费| 日日摸天天爽天天爽视频| 亚洲丝袜啪啪| 日本一区二区三区四区视频| 欧美女优在线| 91精品福利视频| 成人在线手机视频| 捆绑紧缚一区二区三区视频| 亚洲自拍三区| 激情五月综合婷婷| 萌白酱国产一区二区| 国产欧美久久久| 亚洲欧美色一区| 日本wwwxx| 日韩亚洲国产欧美| 鲁丝一区二区三区免费| 婷婷综合六月| 日韩在线观看免费高清| 一级特黄aaa| 亚洲精品ww久久久久久p站| 中文字幕一区二区三区人妻在线视频 | 福利在线一区二区三区| 色狮一区二区三区四区视频| 国产在线精品一区免费香蕉| av毛片在线| 亚洲成人1234| 日韩精选在线观看| ●精品国产综合乱码久久久久| 深夜福利网站在线观看| 亚洲国产精品一区| 日韩av不卡播放| 欧美电影在线观看网站| 欧美精品在线播放| 西西人体44www大胆无码| 在线精品视频免费观看| 久久国产精品国语对白| aaa欧美色吧激情视频| 中文字幕有码av| 欧美aⅴ99久久黑人专区| 激情一区二区三区| 日韩黄色三级| 性色av一区二区咪爱| 福利成人在线观看| 精品少妇一区二区三区免费观看| 日韩精品成人免费观看视频| 椎名由奈av一区二区三区| av在线播放网址| 免费在线视频一区| 一本久道高清无码视频| 日韩情爱电影在线观看| 国产欧美日韩伦理| 韩国精品视频在线观看 | 国产成人精品一区二三区在线观看| 久久久999精品| 无码精品人妻一区二区| 欧美浪妇xxxx高跟鞋交| 久久久精品福利| 亚洲综合免费观看高清完整版| 天天躁夜夜躁狠狠是什么心态| 岛国精品一区二区| 日韩av一卡二卡三卡| 久久www成人_看片免费不卡| 国产亚洲精品久久久久久久| 欧洲福利电影| 国语精品免费视频| 日韩视频在线直播| 国产日韩欧美在线播放| 亚洲淫成人影院| 色综合久综合久久综合久鬼88| 99re热久久这里只有精品34| 日韩av网址在线观看| 精品人妻无码一区二区三区蜜桃一| 在线观看亚洲成人| 亚洲欧美偷拍视频| 亚洲成人资源在线| 18岁成人毛片| 最新国产成人在线观看| 一区二区三区久久久久| 91在线精品秘密一区二区| 美女流白浆视频| 精品无人区卡一卡二卡三乱码免费卡| 红桃av在线播放| 亚洲国产黄色| 日本中文字幕一级片| 99久久综合| 午夜一区二区三区| 九色成人国产蝌蚪91| 精品国产91亚洲一区二区三区www| 久久丁香四色| 成人网欧美在线视频| 素人啪啪色综合| 热re99久久精品国产66热| 成人一级福利| 亚洲 日韩 国产第一| caoprom在线| 久久久久久久久久久亚洲| 青草在线视频| 欧美激情在线观看| 国产盗摄一区二区| 久久久噜噜噜久噜久久| 男人添女人下部高潮视频在线观看| 久久偷看各类女兵18女厕嘘嘘| 调教视频免费在线观看| 中文字幕av一区二区| av小片在线| 啊v视频在线一区二区三区| 丝袜美腿美女被狂躁在线观看 | 国产美女情趣调教h一区二区| 久久99精品久久久久久琪琪| 在线h片观看| 久久久久久久91| 九九色在线视频| 久久久久久91| 另类图片综合电影| 国产精品美女av| 国产精品777777在线播放| 91成人在线看| 欧美人妖在线观看| 少妇精品久久久久久久久久| 欧美电影《轻佻寡妇》| 国产又粗又长又爽视频| 1024成人| 韩国视频一区二区三区| 国产在线视频一区二区| 久久久久无码国产精品一区李宗瑞| aaa国产一区| 在线观看免费小视频| 亚洲欧洲av在线| 日韩av一二三区| 91国模大尺度私拍在线视频| 97精品人妻一区二区三区香蕉| 日韩欧美亚洲国产精品字幕久久久| 黑人精品一区二区三区| 亚洲欧美日韩中文在线制服| 二区在线播放| 欧美一级大片视频| 欧洲精品久久久久毛片完整版| 超碰在线97av| 国产尤物久久久| 黄色网zhan| 亚洲在线一区| 中文字幕第一页在线视频| av在线播放不卡| 亚洲天堂精品一区| 亚洲va欧美va人人爽午夜 | 免费成人在线网站| 亚洲av午夜精品一区二区三区| 久久久一区二区三区捆绑**| 成人免费黄色小视频| 欧美性高潮在线| 国产不卡精品视频| 国产亚洲在线播放| 黑人精品视频| 国产免费一区二区三区在线能观看| 红杏aⅴ成人免费视频| 亚洲在线视频一区二区| 羞羞答答国产精品www一本| 深爱五月综合网| 久久久国产综合精品女国产盗摄| 波多野结衣亚洲色图| 欧洲一区二区三区免费视频| 韩国中文字幕hd久久精品| 色偷偷88888欧美精品久久久| 绿色成人影院| 99久久精品免费看国产一区二区三区| 国产中文字幕一区二区三区| 国产无限制自拍| 国产一区二区电影| 三级黄色录像视频| 在线亚洲一区观看| 天天干天天干天天干| 色综合91久久精品中文字幕| 婷婷精品久久久久久久久久不卡| 国产精品二区三区| 亚洲色图欧美| 天天色综合天天色| 久久久国际精品| 日产精品久久久| 亚洲成人1234| 韩国成人免费视频| 亚洲自拍偷拍区| 外国成人免费视频| 日本黄色的视频| 国产精品久久一卡二卡| 91视频在线视频| 亚洲精品有码在线| 在线男人天堂| 久久99热只有频精品91密拍| 亚洲小说区图片区| 免费观看污网站| 一个色妞综合视频在线观看| 国产视频一区二区三| 精品国产一区二区三区久久狼黑人| av成人在线播放| 无码免费一区二区三区免费播放 | av黄色免费在线观看| 欧美色图天堂网| 2019中文字幕在线视频| 国产精品日韩欧美| 热久久天天拍国产| 亚洲少妇第一页| 国产精品免费久久| 国产一区二区三区成人| 色噜噜亚洲精品中文字幕| 久久精品资源| 秋霞在线一区二区| 国产精品亚洲第一| 国产精品第一页在线观看| 亚洲成人在线视频播放| 国产精品高颜值在线观看| 久久精品成人一区二区三区蜜臀| 久久国产88| 貂蝉被到爽流白浆在线观看| 欧美挠脚心视频网站| 18视频在线观看| 久久精品ww人人做人人爽| 日韩高清不卡一区二区三区| 一二三四在线观看视频| 91麻豆精品国产综合久久久久久 | 99久久婷婷国产综合精品电影√| 超碰在线资源站| 亚洲18色成人| 九色国产在线观看| 国产主播欧美精品| 黑丝一区二区三区| 我和岳m愉情xxxⅹ视频| 欧美日韩午夜影院| 美女精品视频| 日韩av电影在线观看| 国内久久精品视频| 日韩成人av毛片| 在线观看国产精品日韩av| 麻豆国产一区| 国产在线观看福利| 中文字幕日韩一区二区| 成人小说亚洲一区二区三区 | av免费观看大全| 欧美韩国日本综合| 精品人妻一区二区三区蜜桃| 91av免费观看91av精品在线| 日韩啪啪电影网| 先锋资源av在线| 欧美精品一卡两卡| 三级中文字幕在线观看| 在线免费观看一区二区三区| gogogo免费视频观看亚洲一| 中文字幕激情视频| 久久久久久国产免费| 四虎成人精品永久免费av九九| 免费国偷自产拍精品视频| 色婷婷综合久久久中文字幕| 四虎影视成人| 亚洲精品成人三区| 99re视频这里只有精品| 国产日韩精品suv| 国产91在线播放九色快色|