精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀

發(fā)布于 2024-11-12 14:54
瀏覽
0收藏

長(zhǎng)文本評(píng)測(cè)

隨著大模型能夠處理的上下文信息越來(lái)越多,達(dá)到百萬(wàn)級(jí)別的詞匯量,人們對(duì)于模型長(zhǎng)文本能力的研究興趣也隨之增長(zhǎng)。

司南 OpenCompass 數(shù)據(jù)集社區(qū)已經(jīng)出現(xiàn)了諸如 L-Eval、LongBench 等長(zhǎng)文本評(píng)測(cè)基準(zhǔn)。這些工作基于一些開(kāi)源 / 自建的數(shù)據(jù)集構(gòu)建樣本,其構(gòu)建評(píng)測(cè)集上的性能已可以一定程度上反映模型的能力。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

因此,在長(zhǎng)文本評(píng)測(cè)這一工作里,我們認(rèn)為一個(gè)好的長(zhǎng)文本評(píng)測(cè)集應(yīng)該具備以下性質(zhì):

  • 樣本長(zhǎng)度可控:測(cè)試樣本的上下文長(zhǎng)度最好是可控的,以便于測(cè)量和比較模型在各個(gè)上下文長(zhǎng)度下的能力變化(若測(cè)試集由不同上下文長(zhǎng)度的測(cè)試樣例混雜而成,則難以精確測(cè)量某一長(zhǎng)度下的性能)。
  • 全文理解:測(cè)試任務(wù)應(yīng)當(dāng)需要完整閱讀 / 分析整段文本后才能成功完成。一個(gè)反例是:此前存在一些長(zhǎng)文本總結(jié)任務(wù),模型閱讀特定部分文本(如開(kāi)頭 + 結(jié)尾)后即可達(dá)到不錯(cuò)性能。
  • 指標(biāo)簡(jiǎn)明清晰:測(cè)試集的指標(biāo)應(yīng)當(dāng)做到定義清晰,其數(shù)值可以定量反映模型的性能。
  • 能測(cè)試超長(zhǎng)上下文:評(píng)測(cè)集需要能夠測(cè)試模型在超長(zhǎng)上下文上的性能。目前主流 API 模型的上下文長(zhǎng)度已來(lái)到了 128,000 token 甚至更長(zhǎng),而早期的一些長(zhǎng)文本評(píng)測(cè)集最長(zhǎng)僅覆蓋到 32,000 token。

Ada-LEval評(píng)測(cè)集

基于以上思考,司南 OpenCompass 團(tuán)隊(duì)構(gòu)建了長(zhǎng)文本評(píng)測(cè)集——Ada-LEval。Ada-LEval 包含 2 個(gè)任務(wù):TSort (文本排序)、BestAnswer (選擇最佳答案),每個(gè)任務(wù)覆蓋了 1,000 到 128,000 token 的可變長(zhǎng)度。

基于 Ada-LEval,我們對(duì)一些大語(yǔ)言模型進(jìn)行了評(píng)測(cè)。我們發(fā)現(xiàn),大部分的長(zhǎng)文本模型在這一測(cè)試集上的表現(xiàn)都不盡如意。同時(shí),在 32,000+ token 的上下文長(zhǎng)度下,所有模型 (含 GPT-4-Turbo) 都未能取得顯著優(yōu)于 Random Guess 的結(jié)果。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

任務(wù)1:TSort(文本排序)

定義:對(duì)于一篇長(zhǎng)文本 (例如小說(shuō)),我們從中截取部分分為 N 段,打亂次序提供給 LLM (截取部分的前后臨近段落也會(huì)作為上下文提供),并要求 LLM 輸出段落的正確順序。

指標(biāo):若輸出的順序完全正確,則記為正確;否則記為錯(cuò)誤。RandomGuess 的正確率期望為 (1 / N!)。

控制樣本長(zhǎng)度:可以通過(guò)調(diào)整 N,或是每個(gè)排序段落的長(zhǎng)度來(lái)控制測(cè)試樣本長(zhǎng)度。

處理細(xì)節(jié):對(duì)于 TSort 任務(wù),我們的原始數(shù)據(jù)來(lái)源于 BookSum 數(shù)據(jù)集。在構(gòu)建測(cè)試集的過(guò)程中,我們?nèi)コ宋谋局械亩温涮?hào)、章節(jié)號(hào)等顯式的位置信息。

在實(shí)驗(yàn)過(guò)程中,我們僅嘗試了 N=4 的設(shè)定,并沒(méi)有繼續(xù)拓展排序段落的數(shù)量。因?yàn)槲覀儼l(fā)現(xiàn),這一任務(wù)對(duì)于 LLM 來(lái)說(shuō),似乎異常困難:在全部實(shí)驗(yàn)中,僅 GPT-4 在短上下文設(shè)定 (2,000 or 4,000 tokens) 下取得了顯著優(yōu)于 Random Guess 的精度。在大部分情況下,LLM 能夠跟隨指令并輸出一個(gè) N 排列,但順序并不正確。

另外,由于我們的原始數(shù)據(jù)均為公開(kāi)數(shù)據(jù),大概率被用于 LLM 預(yù)訓(xùn)練。因此,在測(cè)試過(guò)程中,我們僅使用生成式的測(cè)試,而非基于 PPL。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

任務(wù)2:BestAnswer(選擇最佳答案)

定義:給定一個(gè)問(wèn)題,和大量備選答案,要求 LLM 指出問(wèn)題的最佳答案。在這個(gè)任務(wù)中,我們的問(wèn)題來(lái)源于 StackOverflow,并以提問(wèn)者最終選擇的答案作為最佳答案。

指標(biāo):若模型選到了正確答案,則記為正確;否則記為錯(cuò)誤。RandomGuess 的正確率期望為 (1 / M),M 為備選答案數(shù)量。

控制樣本長(zhǎng)度:可以通過(guò)調(diào)整備選答案數(shù)量來(lái)控制樣本長(zhǎng)度。

處理細(xì)節(jié):

  • 我們認(rèn)定提問(wèn)者最終選擇的答案作為最佳答案。在這個(gè)答案之后依然可能有新的回答,此時(shí)這些回答不能作為備選答案中的負(fù)樣本。
  • 挑選負(fù)樣本時(shí),應(yīng)當(dāng)足夠具有迷惑性。實(shí)踐中,我們會(huì)優(yōu)先挑選同一問(wèn)題下的其他答案作為負(fù)樣本。在利用其他問(wèn)題下的答案作為負(fù)樣本的時(shí)候,我們會(huì)保證兩個(gè)問(wèn)題具有一定的相似性 (即 Tag 有所重疊)。

在 BestAnswer 任務(wù)上,大部分模型在測(cè)試樣例長(zhǎng)度較短時(shí) (1,000 / 2,000 tokens) 都顯示了顯著優(yōu)于 Random Guess 的性能。在 8,000 tokens 以上,所有開(kāi)源模型的精度下降至 Random Guess 水平;在 32,000 tokens 以上,GPT-4 的精度下降至 Random Guess 水平。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

總結(jié)

在這項(xiàng)工作中,我們提供了 4 個(gè) API 模型與 6 個(gè)開(kāi)源模型在 Ada-LEval 的評(píng)測(cè)結(jié)果。同時(shí),我們?cè)?nbsp;https://github.com/open-compass/Ada-LEval 開(kāi)源了評(píng)測(cè)數(shù)據(jù)與代碼,并提供了評(píng)測(cè) InternLM2 與 GPT-4 的樣例,以便于社區(qū)評(píng)測(cè)其他的大語(yǔ)言模型。

論文:?https://arxiv.org/pdf/2404.06480.pdf

本文轉(zhuǎn)載自??司南評(píng)測(cè)體系??,作者: 司南OpenCompass ????


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
亚洲日本电影在线| 青娱乐精品视频在线| 亚洲精品一区二区精华| 久久国产亚洲精品无码| 国产高清一区在线观看| 激情五月激情综合网| 久久久久久国产精品三级玉女聊斋| 欧美xxxx×黑人性爽| h1515四虎成人| 亚洲日本乱码在线观看| 欧美极品色图| 国产高清第一页| 久久婷婷亚洲| 欧美激情网站在线观看| 国产欧美一区二区三区在线观看视频| 亚洲大奶少妇| 在线区一区二视频| 国产天堂视频在线观看| jizzjizz在线观看| 99九九99九九九视频精品| 91精品久久久久久久久不口人| 久久久久亚洲av无码专区| 国产一区国产二区国产三区| 欧美videofree性高清杂交| 天天操天天爱天天爽| 96av在线| 亚洲精品中文在线观看| 久久综合婷婷综合| 欧美在线 | 亚洲| 狠狠色综合日日| 国产99在线|中文| 一区二区成人免费视频| 精品国产一级毛片| 亚洲精品资源美女情侣酒店| 9.1在线观看免费| 高清不卡一区| 欧美日韩视频在线观看一区二区三区 | 国自在线精品视频| 国产黄在线免费观看| 精品日韩免费| 亚洲视频axxx| 欧洲女同同性吃奶| 色先锋久久影院av| 亚洲激情视频在线| 日本性生活一级片| 91国内精品| 日韩欧美你懂的| 天堂在线精品视频| 国产精品视频一区二区三区综合| 欧美三级中文字幕| 牛夜精品久久久久久久| а√天堂资源国产精品| 欧美性感一类影片在线播放| 久久国产色av免费观看| 色成人免费网站| 欧美亚洲国产一区二区三区| 久久久久国产精品熟女影院 | 国产一区香蕉久久| 中文在线a天堂| 麻豆中文一区二区| 国产色视频一区| 91丨九色丨蝌蚪丨对白| 九九国产精品视频| 5566av亚洲| 亚洲精品喷潮一区二区三区| 丁香天五香天堂综合| 国产精品一码二码三码在线| 人成网站在线观看| 久久久美女艺术照精彩视频福利播放| 欧美一区二区高清在线观看| 国产福利小视频在线| 亚洲国产精品成人综合| 杨幂一区欧美专区| 手机av免费在线| 五月婷婷激情综合| 国产a视频免费观看| 久久91视频| 精品日韩一区二区三区| 中文字幕高清视频| 日韩高清欧美| 九九久久久久99精品| av大片免费在线观看| 久久午夜精品| 亚洲va男人天堂| 好男人在线视频www| 国产欧美一区视频| 日韩人妻精品一区二区三区| 欧美aa免费在线| 欧美日韩在线精品一区二区三区激情| 国产一级片自拍| 国产精品videossex| 亚洲午夜精品久久久久久性色| 五月婷婷综合激情网| av不卡免费看| 91免费电影网站| 香蕉视频黄在线观看| 国产精品久久精品日日| 精品国偷自产一区二区三区| 69堂免费精品视频在线播放| 日韩三级视频在线看| 国产一级久久久久毛片精品| 亚洲成色精品| 91免费的视频在线播放| 久久精品蜜桃| 亚洲精品国产a| 亚洲少妇久久久| 国产精品巨作av| 久久精品国产久精国产思思| 国产高潮久久久| 国产精品综合网| 天堂资源在线亚洲资源| 国产第一页在线视频| 欧美日韩国产一级二级| 色天使在线视频| 欧美三级网页| 91精品免费久久久久久久久| 久久经典视频| 调教+趴+乳夹+国产+精品| www.污网站| 欧美日韩色图| 日韩av片免费在线观看| 成人毛片视频免费看| 亚洲欧美在线高清| 性欧美videossex精品| 亚洲影院天堂中文av色| 69视频在线播放| www.色视频| 最好看的中文字幕久久| 欧美在线观看视频网站| 久久99国内| 91福利视频网| 婷婷婷国产在线视频| 一区二区高清免费观看影视大全| 午夜久久福利视频| 日韩av密桃| 国产玖玖精品视频| chinese偷拍一区二区三区| 都市激情亚洲色图| 中国极品少妇xxxx| 狠狠色综合网| 国内视频一区| 国产777精品精品热热热一区二区| 日韩欧美色综合| 九九热精彩视频| 国产99久久久久| www.好吊操| 好吊妞视频这里有精品 | 日韩一级片av| 国产精品主播直播| 国产一级大片免费看| 精品视频一区二区三区| 久久影视电视剧免费网站| 97精品人妻一区二区三区在线| 中文av字幕一区| 欧美第一页浮力影院| 日韩中字在线| 91夜夜揉人人捏人人添红杏| 91精选在线| 欧美videossexotv100| 日本少妇吞精囗交| 91视频免费观看| av免费中文字幕| 欧美精选视频在线观看| 国产精品自拍偷拍| 制服丝袜在线播放| 亚洲成人久久网| 天干夜夜爽爽日日日日| 欧美国产日韩精品免费观看| 天天干天天操天天玩| 欧美一区二区三区久久精品| 国产高清精品一区| 在线观看v片| 中文字幕亚洲欧美日韩高清| 国产精品欧美激情在线| 亚洲二区在线观看| 欧美成人国产精品一区二区| 国内精品伊人久久久久影院对白| 亚洲啊啊啊啊啊| 天天久久夜夜| 国产免费一区二区三区在线观看| 精品视频在线一区二区| 亚洲精品在线电影| 国产一级片av| 一区二区三区波多野结衣在线观看| 老司机午夜免费福利| 日本网站在线观看一区二区三区| 特级黄色录像片| 欧美变态网站| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 亚洲一区二区三区乱码aⅴ| 丁香花在线电影| 国产一区二区三区在线播放免费观看 | 欧美高清激情brazzers| 国产主播在线观看| 国产欧美一区二区三区在线看蜜臀 | 少妇精品视频在线观看| 久久久亚洲精品视频| 91在线视频| 亚洲电影免费观看高清| 在线观看黄色国产| 性久久久久久久| 中文字幕电影av| 久久精品欧美一区二区三区不卡 | 欧美精品在线看| 国产中文在线视频| 精品少妇一区二区三区在线播放| 国产黄色免费视频| 午夜视频在线观看一区二区三区| 又色又爽的视频| 91免费看`日韩一区二区| 欧洲在线免费视频| 日本在线观看不卡视频| 青娱乐自拍偷拍| 欧美精品一卡| 伊人久久青草| 欧美精品一二| 欧洲成人一区二区| 美国十次av导航亚洲入口| 91久久中文字幕| 国产欧美在线观看免费| 日本国产精品视频| caoporn视频在线观看| 久热精品视频在线观看| 中文字幕日本在线| 亚洲网址你懂得| 欧美拍拍视频| 亚洲精品一二区| 亚洲色图欧美视频| 亚洲国产精品999| 亚洲xxxx天美| 日韩一区二区精品在线观看| 国产色片在线观看| 欧美蜜桃一区二区三区| 在线观看你懂的网站| 色琪琪一区二区三区亚洲区| 91视频免费网址| 欧美日韩亚洲视频| 日本黄色片视频| 午夜精品久久久久久久99水蜜桃| 精品一级少妇久久久久久久| 一区二区三区在线视频观看| 亚洲成人生活片| 亚洲另类中文字| 国产探花在线免费观看| 亚洲精品国产无天堂网2021| 免费人成在线观看| 亚洲国产三级在线| 五月天婷婷综合网| 精品美女永久免费视频| 亚洲精品国产精品乱码| 精品高清美女精品国产区| 91在线看视频| 疯狂做受xxxx欧美肥白少妇| 国产又大又黄又粗| 色视频欧美一区二区三区| 色婷婷久久综合中文久久蜜桃av| 欧美日韩亚洲综合一区| 国产高潮在线观看| 精品国偷自产国产一区| 凸凹人妻人人澡人人添| 亚洲社区在线观看| 久久久久久久久免费视频| 大胆欧美人体视频| 成人性生交大片免费看在线播放| 高清在线视频日韩欧美| a欧美人片人妖| 国产精品久久久久久一区二区 | 制服丨自拍丨欧美丨动漫丨| 亚洲欧美日韩综合aⅴ视频| 九九视频在线观看| 欧美日韩国产在线播放| 蜜臀99久久精品久久久久小说| 欧美艳星brazzers| www.国产黄色| 日韩精品高清在线| a视频网址在线观看| 欧美精品免费在线| 人在线成免费视频| 成人久久18免费网站图片| 凹凸成人在线| 日本一区美女| 欧美一区亚洲| 久久精品香蕉视频| 韩国午夜理伦三级不卡影院| 国产日韩视频一区| 日本一区二区免费在线观看视频| 日韩a级片在线观看| 一本色道久久综合亚洲aⅴ蜜桃| 亚洲综合精品视频| 亚洲第一区在线观看| 97电影在线看视频| 久久久视频在线| 欧美大片网站| 狠狠色噜噜狠狠色综合久| 欧美一区2区| 免费观看国产精品视频| 九九九久久久精品| av在线网站观看| 日韩美女视频一区二区| 国产精品suv一区| 日韩亚洲欧美一区二区三区| 国产福利在线| 午夜精品99久久免费| 在线欧美激情| 日韩欧美精品在线不卡| 精品白丝av| 在线观看日本www| 国产亚洲人成网站| 中文字幕一区二区三区手机版| 欧美日韩一区国产| 九色视频在线播放| 午夜精品福利电影| 欧美欧美在线| 亚洲国产午夜伦理片大全在线观看网站 | 欧美在线观看黄| 看片的网站亚洲| 久久久久久亚洲中文字幕无码| 五月婷婷激情综合网| 精品国产av一区二区三区| 色噜噜狠狠狠综合曰曰曰88av| 中文字幕 在线观看| 国产不卡一区二区在线观看| 亚洲色图二区| www.超碰97.com| 国产精品理伦片| 伊人成年综合网| 亚洲精品视频免费在线观看| 8x8ⅹ拨牐拨牐拨牐在线观看| 亚洲free性xxxx护士hd| 99九九热只有国产精品| 日本久久久久久久久久久久| 国产丝袜在线精品| 欧美一级片免费在线观看| 亚洲福利视频专区| f2c人成在线观看免费视频| 99久久综合狠狠综合久久止| 亚洲一区二区| 在线免费看污网站| 日韩一区在线播放| 91亚洲国产成人久久精品麻豆| 中国日韩欧美久久久久久久久| 范冰冰一级做a爰片久久毛片| 久久精品国产精品青草色艺| 亚洲免费网站| 日本黄色特级片| 在线免费亚洲电影| www.亚洲.com| 国产日韩视频在线观看| 久久久久久久久久久妇女| www.cao超碰| 亚洲一区二区三区影院| www.99视频| 久久久视频免费观看| 色综合久久中文| 成年人免费在线播放| 国产三级一区二区| 中文字幕一区二区三区人妻四季| 中文字幕久久久av一区| 成年永久一区二区三区免费视频| 最新不卡av| 国产电影精品久久禁18| 国产网址在线观看| 日韩精品视频三区| 澳门av一区二区三区| 亚洲不卡1区| 国产91精品露脸国语对白| 日韩成年人视频| 国产亚洲视频在线观看| 国产成人免费av一区二区午夜 | 欧美xxxx黑人xyx性爽| 精品国产一二三| 丁香六月综合| 亚洲精品久久区二区三区蜜桃臀| 国模少妇一区二区三区| www.youjizz.com亚洲| 亚洲美女精品久久| 日韩欧美三区| 欧美日韩不卡在线视频| 国产午夜精品福利| 99免费在线视频| 97在线视频观看| 色狮一区二区三区四区视频| 免费黄色在线播放| 日本二三区不卡| 亚洲妇熟xxxx妇色黄| 茄子视频成人在线观看| 国产一区亚洲一区| 黑人一级大毛片| 日韩视频免费在线观看| 美女主播精品视频一二三四| 999精彩视频| 亚洲成国产人片在线观看| av每日在线更新| 国产午夜精品一区| 久久国产三级精品| 国产a∨精品一区二区三区仙踪林| 中文字幕精品国产| 日韩高清影视在线观看| 手机版av在线| 日本韩国精品在线|