精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀

發(fā)布于 2024-7-8 07:45
瀏覽
0收藏

長(zhǎng)文本評(píng)測(cè)

隨著大模型能夠處理的上下文信息越來越多,達(dá)到百萬級(jí)別的詞匯量,人們對(duì)于模型長(zhǎng)文本能力的研究興趣也隨之增長(zhǎng)。

這些工作基于一些開源 / 自建的數(shù)據(jù)集構(gòu)建樣本,其構(gòu)建評(píng)測(cè)集上的性能已可以一定程度上反映模型的能力。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

因此,在長(zhǎng)文本評(píng)測(cè)這一工作里,我們認(rèn)為一個(gè)好的長(zhǎng)文本評(píng)測(cè)集應(yīng)該具備以下性質(zhì):

  • 樣本長(zhǎng)度可控:測(cè)試樣本的上下文長(zhǎng)度最好是可控的,以便于測(cè)量和比較模型在各個(gè)上下文長(zhǎng)度下的能力變化(若測(cè)試集由不同上下文長(zhǎng)度的測(cè)試樣例混雜而成,則難以精確測(cè)量某一長(zhǎng)度下的性能)。
  • 全文理解:測(cè)試任務(wù)應(yīng)當(dāng)需要完整閱讀 / 分析整段文本后才能成功完成。一個(gè)反例是:此前存在一些長(zhǎng)文本總結(jié)任務(wù),模型閱讀特定部分文本(如開頭 + 結(jié)尾)后即可達(dá)到不錯(cuò)性能。
  • 指標(biāo)簡(jiǎn)明清晰:測(cè)試集的指標(biāo)應(yīng)當(dāng)做到定義清晰,其數(shù)值可以定量反映模型的性能。
  • 能測(cè)試超長(zhǎng)上下文:評(píng)測(cè)集需要能夠測(cè)試模型在超長(zhǎng)上下文上的性能。目前主流 API 模型的上下文長(zhǎng)度已來到了 128,000 token 甚至更長(zhǎng),而早期的一些長(zhǎng)文本評(píng)測(cè)集最長(zhǎng)僅覆蓋到 32,000 token。

Ada-LEval評(píng)測(cè)集

基于以上思考,司南 OpenCompass 團(tuán)隊(duì)構(gòu)建了長(zhǎng)文本評(píng)測(cè)集——Ada-LEval。Ada-LEval 包含 2 個(gè)任務(wù):TSort (文本排序)、BestAnswer (選擇最佳答案),每個(gè)任務(wù)覆蓋了 1,000 到 128,000 token 的可變長(zhǎng)度。

基于 Ada-LEval,我們對(duì)一些大語言模型進(jìn)行了評(píng)測(cè)。我們發(fā)現(xiàn),大部分的長(zhǎng)文本模型在這一測(cè)試集上的表現(xiàn)都不盡如意。同時(shí),在 32,000+ token 的上下文長(zhǎng)度下,所有模型 (含 GPT-4-Turbo) 都未能取得顯著優(yōu)于 Random Guess 的結(jié)果

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)



任務(wù)1:TSort(文本排序)

TSort(文本排序)

定義:對(duì)于一篇長(zhǎng)文本 (例如小說),我們從中截取部分分為 N 段,打亂次序提供給 LLM (截取部分的前后臨近段落也會(huì)作為上下文提供),并要求 LLM 輸出段落的正確順序。

指標(biāo):若輸出的順序完全正確,則記為正確;否則記為錯(cuò)誤。RandomGuess 的正確率期望為 (1 / N!)。

控制樣本長(zhǎng)度:可以通過調(diào)整 N,或是每個(gè)排序段落的長(zhǎng)度來控制測(cè)試樣本長(zhǎng)度。

處理細(xì)節(jié):對(duì)于 TSort 任務(wù),我們的原始數(shù)據(jù)來源于 BookSum 數(shù)據(jù)集。在構(gòu)建測(cè)試集的過程中,我們?nèi)コ宋谋局械亩温涮?hào)、章節(jié)號(hào)等顯式的位置信息。

在實(shí)驗(yàn)過程中,我們僅嘗試了 N=4 的設(shè)定,并沒有繼續(xù)拓展排序段落的數(shù)量。因?yàn)槲覀儼l(fā)現(xiàn),這一任務(wù)對(duì)于 LLM 來說,似乎異常困難:在全部實(shí)驗(yàn)中,僅 GPT-4 在短上下文設(shè)定 (2,000 or 4,000 tokens) 下取得了顯著優(yōu)于 Random Guess 的精度。在大部分情況下,LLM 能夠跟隨指令并輸出一個(gè) N 排列,但順序并不正確。

另外,由于我們的原始數(shù)據(jù)均為公開數(shù)據(jù),大概率被用于 LLM 預(yù)訓(xùn)練。因此,在測(cè)試過程中,我們僅使用生成式的測(cè)試,而非基于 PPL。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

任務(wù)2:BestAnswer(選擇最佳答案)

定義:給定一個(gè)問題,和大量備選答案,要求 LLM 指出問題的最佳答案。在這個(gè)任務(wù)中,我們的問題來源于 StackOverflow,并以提問者最終選擇的答案作為最佳答案。

指標(biāo):若模型選到了正確答案,則記為正確;否則記為錯(cuò)誤。RandomGuess 的正確率期望為 (1 / M),M 為備選答案數(shù)量。

控制樣本長(zhǎng)度:可以通過調(diào)整備選答案數(shù)量來控制樣本長(zhǎng)度。

處理細(xì)節(jié):

  1. 我們認(rèn)定提問者最終選擇的答案作為最佳答案。在這個(gè)答案之后依然可能有新的回答,此時(shí)這些回答不能作為備選答案中的負(fù)樣本。
  2. 挑選負(fù)樣本時(shí),應(yīng)當(dāng)足夠具有迷惑性。實(shí)踐中,我們會(huì)優(yōu)先挑選同一問題下的其他答案作為負(fù)樣本。在利用其他問題下的答案作為負(fù)樣本的時(shí)候,我們會(huì)保證兩個(gè)問題具有一定的相似性 (即 Tag 有所重疊)。

在 BestAnswer 任務(wù)上,大部分模型在測(cè)試樣例長(zhǎng)度較短時(shí) (1,000 / 2,000 tokens) 都顯示了顯著優(yōu)于 Random Guess 的性能。在 8,000 tokens 以上,所有開源模型的精度下降至 Random Guess 水平;在 32,000 tokens 以上,GPT-4 的精度下降至 Random Guess 水平。

可擴(kuò)展性長(zhǎng)文本評(píng)測(cè)集——Ada-LEval 詳細(xì)解讀-AI.x社區(qū)

總結(jié)

在這項(xiàng)工作中,我們提供了 4 個(gè) API 模型與 6 個(gè)開源模型在 Ada-LEval 的評(píng)測(cè)結(jié)果。

論文:??https://arxiv.org/pdf/2404.06480.pdf??

代碼:???https://github.com/open-compass/Ada-LEval??

本文轉(zhuǎn)載自 ??司南評(píng)測(cè)體系??,作者: 司南OpenCompass

標(biāo)簽
已于2024-7-8 07:54:19修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美国产日韩精品| 亚洲国产美女精品久久久久∴| 亚洲视频在线观看日本a| 国产又黄又猛又爽| 国产一区二区三区成人欧美日韩在线观看| 亚洲人成网站777色婷婷| 亚洲天堂网2018| 天堂在线中文网官网| 国产精品不卡在线| 国内精品久久久久久久果冻传媒| 中文字幕一区二区三区四区免费看 | 日韩av女优在线观看| 色男人天堂综合再现| 亚洲成人久久久| 亚欧美在线观看| 高清毛片在线观看| 亚洲视频免费在线| 茄子视频成人在线观看| 亚洲精品久久久蜜桃动漫| 日韩av电影免费观看高清完整版| 欧美精品久久久久久久久| 五月天婷婷丁香网| 免费av一区二区三区四区| 日韩精品一区二区三区四区| 第四色婷婷基地| 亚洲风情在线资源| 亚洲第一在线综合网站| 中文字幕乱码免费| 日本中文字幕在线2020| 国产婷婷一区二区| 久久香蕉综合色| 性色av蜜臀av| 国产麻豆视频一区二区| 国产欧美日韩免费看aⅴ视频| 日本视频网站在线观看| 99国产精品久久久久久久成人热| 久久国产精品久久久久久久久久 | 4438x全国最大成人| 农村妇女一区二区| 欧洲一区二区av| 欧美日韩一区二区在线免费观看| 三妻四妾的电影电视剧在线观看| 欧洲熟妇精品视频| 成人在线网址| 亚洲欧洲成人精品av97| 天天综合狠狠精品| 你懂的在线播放| 久久久久免费观看| 欧美久久在线| 国产一二三区在线| 久久久综合网站| 欧美一区二区三区在线播放| 桃花色综合影院| 99久久精品一区二区| 岛国视频一区| 熟妇高潮一区二区三区| 99riav一区二区三区| 久久艹中文字幕| 邻居大乳一区二区三区| 国产视频一区在线播放| 亚洲福利av| 久草免费在线| 亚洲一区二区三区四区五区黄 | 男人的天堂影院| 欧美三级午夜理伦三级在线观看 | 女女互磨互喷水高潮les呻吟| 在线成人动漫av| 国产一区二区精品丝袜| 蜜桃视频最新网址| 欧美另类专区| 欧美亚洲国产另类| 成人黄色激情视频| 精品一区二区综合| 国产精品xxxx| 国产一区二区三区福利| 亚洲婷婷综合色高清在线| 国产免费内射又粗又爽密桃视频| 岛国av免费在线观看| 一本大道久久a久久精品综合| 91人人澡人人爽人人精品| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 美女视频网站黄色亚洲| 亚洲自拍高清视频网站| 午夜激情小视频| 中文字幕日韩欧美一区二区三区| 国产91视频一区| 超碰一区二区| 欧美一区二区在线免费播放| v天堂中文在线| 久久亚洲在线| 97在线观看视频| 中文字幕视频免费观看| 成人午夜av电影| 亚洲精品国产精品国自产观看| 蜜乳av一区| 欧美在线你懂得| av电影在线播放| 日韩精品1区| 97视频在线看| 国产精品人妻一区二区三区| 2021国产精品久久精品| 国产激情片在线观看| 性欧美1819sex性高清| 精品免费视频一区二区| 在线免费看视频| 国产一区二区精品| 91久久偷偷做嫩草影院| 91伦理视频在线观看| 香蕉成人伊视频在线观看| www.色就是色.com| 国产精品一国产精品| 欧美肥婆姓交大片| 91福利免费视频| 91蜜桃网址入口| 老子影院午夜伦不卡大全| 日韩欧乱色一区二区三区在线| 国产婷婷色综合av蜜臀av | 欧美黑人性生活视频| 50一60岁老妇女毛片| 97精品国产福利一区二区三区| 97色在线播放视频| 国内精品国产成人国产三级| 91蝌蚪porny九色| 日韩a级黄色片| 亚洲aⅴ网站| 在线日韩中文字幕| 久久久久久久久久成人| 久久综合久久99| 青青草视频在线免费播放| 亚洲午夜精品| 欧美成人精品影院| 国产模特av私拍大尺度| 国产精品无码永久免费888| 国产熟人av一二三区| 久久91成人| 青青草一区二区| 神马久久高清| 欧美日韩一区二区在线 | 99re热视频这里只精品| 日产精品久久久久久久蜜臀| 久久国产精品美女| 另类天堂视频在线观看| 国产视频在线观看视频| 亚洲精品视频一区| 欧美精品 - 色网| 天天影视天天精品| 成人网在线观看| 成人免费视屏| 日韩精品一区二区三区四区视频 | 欧美影院午夜播放| youjizz亚洲女人| 久久国内精品视频| 黑人巨大国产9丨视频| 九九九九九九精品任你躁| 欧美成人免费观看| 亚洲黄色在线观看视频| 亚洲成av人片www| 亚洲 小说 欧美 激情 另类| 日本一不卡视频| 综合网五月天| 一区二区三区四区视频免费观看| 久久久久久久久久久av| 日韩在线免费看| 欧美日韩一区二区不卡| 全网免费在线播放视频入口 | 老牛国产精品一区的观看方式| 欧美在线播放一区| 国内自拍亚洲| 久久99热这里只有精品国产| 五月激情丁香婷婷| 色88888久久久久久影院野外| 国产精品综合激情| 高清日韩电视剧大全免费| 欧美 国产 综合| 成人免费av| 91网免费观看| 自拍偷自拍亚洲精品被多人伦好爽| 色悠悠久久88| 色哟哟中文字幕| 欧美视频在线一区二区三区 | 精品99999| 波多野结衣一区二区三区在线| 亚洲欧美成aⅴ人在线观看| 日本黄色动态图| 蜜臀精品一区二区三区在线观看| 国产乱子伦精品无码专区| 在线日韩网站| 92福利视频午夜1000合集在线观看| av2020不卡| 日韩小视频网址| 亚洲日本国产精品| 51精品视频一区二区三区| 特一级黄色大片| 中文字幕一区二区三区色视频| av电影在线播放| 九九久久精品视频| 日韩a在线播放| 欧美日韩p片| 亚洲午夜精品久久久久久浪潮| 久久国产精品色av免费看| 国产精品视频白浆免费视频| a级片免费在线观看| 久久精品国产91精品亚洲| 欧美69xxxxx| 精品sm捆绑视频| 国产精品永久久久久久久久久| 欧美网站在线观看| 久久久国产精品黄毛片| 亚洲丝袜美腿综合| 免费在线观看a视频| 99久久亚洲一区二区三区青草| 手机精品视频在线| 美女网站在线免费欧美精品| 欧美少妇性生活视频| 亚洲日本视频| 97免费视频观看| 小说区亚洲自拍另类图片专区| 欧美自拍资源在线| 日韩欧美国产大片| 精品国产一区二区三区麻豆小说 | 另类色图亚洲色图| 日本视频在线观看| 在线看日韩欧美| 国产小视频免费在线网址| 亚洲精品成人免费| 日韩一级在线播放| 日韩欧美久久一区| 99精品视频免费看| 555夜色666亚洲国产免| 91亚洲国产成人精品一区| 欧美性色黄大片手机版| 日本黄色中文字幕| 色www精品视频在线观看| 久久久精品福利| 精品国产91久久久| 中文字幕一区二区三区精品| 亚洲成人中文在线| 日本少妇做爰全过程毛片| 午夜av电影一区| 亚洲视频免费播放| 精品久久久免费| 色婷婷在线观看视频| 午夜影视日本亚洲欧洲精品| 久久久久久久久久免费视频| 午夜不卡av在线| 一级一片免费看| 欧美色电影在线| 一级黄在线观看| 91精品国产91久久久久久最新毛片 | 亚洲一区二区三区涩| 99热国内精品| 中文字幕免费高| 国产精品啊v在线| 麻豆tv在线播放| 久久男女视频| 天天插天天操天天射| 黄页视频在线91| 日本精品一二三区| 91免费版在线| 亚洲色图欧美色| 亚洲激情在线激情| 日本一级黄色大片| 在线精品视频免费播放| 888奇米影视| 日韩女优av电影在线观看| 偷拍25位美女撒尿视频在线观看| 亚洲欧美日韩精品久久亚洲区| 3p在线观看| 欧美日韩国产成人高清视频| 涩涩网在线视频| 国产区精品视频| 99re8这里有精品热视频8在线| 久久久久久久久四区三区| av中文字幕一区二区| 四虎精品欧美一区二区免费| 亚洲视频综合| 成人免费在线观看视频网站| 国产成人自拍网| 五月天精品视频| 亚洲免费av在线| 黄色在线免费观看| 欧美日韩国产小视频| 老司机午夜福利视频| 伊人成人开心激情综合网| 色呦呦在线观看视频| 日韩免费av一区二区| 日本一区二区三区电影免费观看 | 大乳护士喂奶hd| 国产精品久久久久久亚洲伦| 国产又大又黑又粗免费视频| 欧美精品自拍偷拍| 污污的视频网站在线观看| 最近日韩中文字幕中文| 亚洲私拍视频| 91视频免费进入| 成人影院在线| 777精品久无码人妻蜜桃| 紧缚捆绑精品一区二区| 少妇大叫太粗太大爽一区二区| 亚洲免费看黄网站| 欧美性猛交xxxx乱大交hd| 亚洲成人av中文字幕| 免费观看在线午夜影视| 日韩女优人人人人射在线视频| 日韩成人在线观看视频| 日本午夜一区二区三区| 亚洲黄色毛片| 男生和女生一起差差差视频| 国产视频一区二区三区在线观看| 永久免费看片在线播放| 日韩欧美第一区| 久久99精品久久| 国产精品美乳一区二区免费| 窝窝社区一区二区| 丁香花在线影院观看在线播放| 极品少妇xxxx偷拍精品少妇| 久久精品无码一区| 欧美日韩亚洲精品一区二区三区| 亚洲高清在线观看视频| 久久精品国产亚洲精品| 国产精品伦一区二区| 欧美一区二区综合| 久久精品日韩欧美| 日韩成人在线免费视频| 2020国产精品| 国产中文字幕免费| 日韩一区二区三区精品视频 | 高清不卡一二三区| 无码黑人精品一区二区| 欧美精品亚洲一区二区在线播放| 成人高清在线| 国产精品电影网| 蜜桃一区二区| 午夜精品久久久内射近拍高清| 成人一二三区视频| 国产在线视频第一页| 日韩你懂的在线播放| 在线中文字幕-区二区三区四区| 国产精品一区二区在线| 欧美色图激情小说| 香蕉视频网站入口| 国产丝袜欧美中文另类| 欧美在线视频精品| 在线视频一区二区| 精品乱码一区二区三区四区| 亚洲国产欧美不卡在线观看| 老鸭窝一区二区久久精品| 你懂得视频在线观看| 欧美日韩国产bt| 二区在线播放| 国产91精品一区二区绿帽| 欧美特黄a级高清免费大片a级| 一级黄色大片免费看| 亚洲综合成人在线| 好吊色一区二区| 欧美性受xxxx黑人猛交| 美女久久99 | 波多野结衣视频一区| 日韩福利片在线观看| 亚洲欧美一区二区三区在线| 日本在线视频一区二区| 免费看啪啪网站| 丁香婷婷综合色啪| 亚洲永久精品在线观看| 亚洲人成人99网站| 成人影院网站ww555久久精品| 国产成人在线小视频| 久久久精品日韩欧美| 中文字字幕在线观看| 九九热精品在线| 亚洲精品一级二级三级| 色播五月综合网| 一区二区三区久久| 青青操视频在线| 成人欧美一区二区三区在线| 亚洲国产黄色| 手机看片国产日韩| 亚洲国产精品va在线观看黑人| 黑人巨大精品| a级黄色片网站| 99精品久久久久久| 一二三四区在线| 午夜精品视频在线| 欧美韩日高清| 伊人网综合视频| 欧美精品v日韩精品v韩国精品v| 久草免费在线色站| 色乱码一区二区三在线看| 高清久久久久久| 中文天堂在线资源| 91精品国产一区| 亚洲国产不卡| 超薄肉色丝袜一二三| 欧美精品一区二区三区蜜桃视频 | 亚洲一区欧美二区| 日本aⅴ在线观看| 一区二区三欧美| 看全色黄大色大片免费久久久| 手机av在线免费| 色哟哟亚洲精品|