精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力

發(fā)布于 2024-4-2 12:06
瀏覽
0收藏

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

論文題目:

ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

論文地址:

??https://arxiv.org/abs/2403.03514??

代碼地址:

??https://github.com/zexuanqiu/CLongEval??

01 研究背景和貢獻(xiàn)

為了使 LLM 能夠支持更復(fù)雜和多樣化的應(yīng)用,越來越多的研究致力于擴(kuò)展 LLM 能夠處理的上下文窗口。為了評估這些 long context LLM 支持長上下文能力,目前英文領(lǐng)域有幾個數(shù)據(jù)集被提出(如 LongBench, L-Eval, LooGLE)。

然而,在中文領(lǐng)域,對于 long context LLM 能力評估的研究還有些滯后。目前只有一個雙語基準(zhǔn) LongBench 可用,中文部分僅有平均長度約 13K 個字符的 1000 個測試實(shí)例。基于中文領(lǐng)域缺乏高質(zhì)量評估數(shù)據(jù)集的現(xiàn)狀,這篇論文提出了一個基準(zhǔn)測試集,以準(zhǔn)確評估 LLM 在中文領(lǐng)域的長文本上下文處理能力。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

論文提出了 CLongEval,一個包含了 7 種 NLP 任務(wù)、覆蓋 4 個能力維度的中文長文本能力測試集。以確保對模型能力的綜合評估,作者首先對 LLM 處理長文本所需的關(guān)鍵能力進(jìn)行了拆解。


如下圖所示的框架,基于于人類自身解決問題的范式,作者將 LLM 在解決長上下文任務(wù)時所用的基礎(chǔ)能力分解為:1)在部分上下文(Partial Context)或者全部上下文(Full Context)中識別和獲取關(guān)鍵信息的能力;2)基于獲取的全部信息,以抽取式(Extractive)或者抽象式(Abstractive)推理出答案的能力。


在這些基礎(chǔ)能力的維度上,作者構(gòu)建了了 CLongEval 基準(zhǔn)測試集。該測試集包含了 7 個任務(wù)共 7,267 個測試樣本,包括長篇故事問答(Long Story QA)、長對話記憶(Long Conversation Memory)、長篇故事摘要(Long Story Summarization)、新聞標(biāo)注(Stacked News Labeling)、錯別字檢測(Stacked Typo Detection)、段落檢索(Key-Passage Retrieval)和表格查詢(Table Querying)。


其中,長篇故事問答和長對話記憶均為全新標(biāo)注的數(shù)據(jù)。長篇故事摘要由 GPT-4 進(jìn)行輔助標(biāo)注。其余 4 個任務(wù)由公共數(shù)據(jù)集重構(gòu)得來。


由于目前 LLM 支持的文本長度窗口(context window)差異較大,為了確保基準(zhǔn)測試集的適用性,CLongEval 按照輸入文本的長度構(gòu)建了三個子集:small set、medium set 和 large set。small set 主要包括長度在 1K 到 16K 個 token 之間的測試數(shù)據(jù),medium set 是 16K 到 50K 個 token 之間,而 large set 包含的數(shù)據(jù)擴(kuò)展到 50K 到 100K 個 token。下表展示了數(shù)據(jù)集的具體統(tǒng)計信息。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

02 數(shù)據(jù)集構(gòu)建

以下是 CLongEval 包含的測試任務(wù)。每個任務(wù)針對測試一種上文提到的基礎(chǔ)能力。

  • 長篇故事問答該任務(wù)要求模型根據(jù)長篇故事中的部分上下文來回答問題,考察模型能否利用部分上下文信息進(jìn)行閱讀理解。模型需要在輸入中找到有關(guān)的上下文并進(jìn)行抽象推理來得到正確答案。作者在 153 本中國敘事小說中提取了 200 個不重復(fù)的故事,并根據(jù)故事長度分配了相應(yīng)數(shù)量的問題。最終共標(biāo)注了約 1K 個問答對。
  • 長對話記憶這個任務(wù)旨在評估模型的長期記憶能力,考察模型能否利用部分上下文信息進(jìn)行閱讀理解。該任務(wù)的輸入為用戶和伴侶聊天機(jī)器人之間連續(xù)多天的對話記錄,模型需要準(zhǔn)確地回答關(guān)于特定日期對話內(nèi)容相關(guān)的問題。數(shù)據(jù)包含 80 個虛擬用戶和伴侶聊天機(jī)器人之間的 140 天對話記錄,和人工標(biāo)注的約 1K 個問答對。
  • 長篇故事摘要作為自然語言處理的經(jīng)典任務(wù),摘要生成需要模型能夠正確理解完整的長上下文并進(jìn)行信息整合。作者首先將 BOOKSUM 數(shù)據(jù)集翻譯成了中文,之后使用 GPT-4 輔助將 BOOKSUM 數(shù)據(jù)集中每個片段的摘要整合成總摘要。該任務(wù)包含 1K 個測試樣例。
  • 新聞標(biāo)注該測試任務(wù)要求模型能對輸入的新聞做正確的分類。目標(biāo)是評估語言模型能否理解完整的輸入,并進(jìn)行信息抽取。每個樣例的輸入包含多篇新聞以及對應(yīng)的索引,輸出是對每篇新聞的類別標(biāo)簽。該任務(wù)包含約 1K 個測試樣例。
  • 錯別字檢測該任務(wù)要求模型識別出長篇輸入中存在的所有拼寫錯誤。目標(biāo)是評估語言模型能否理解完整的輸入,并進(jìn)行信息抽取。錯別字構(gòu)造來自于日常打字常見錯誤類型:同音錯字。錯字的數(shù)量和輸入的長度成正比:small set 為 10 個錯字,medium set 為 20 個錯字,large set 為 30 個錯字。該任務(wù)包含約 1K 個測試樣例。
  • 段落檢索該任務(wù)是為了考察模型在長上下文中抽取所需信息的能力,尤其是準(zhǔn)確返回復(fù)雜搜索結(jié)果的能力。數(shù)據(jù)集中每個樣例都是一個被序列化為字符串的 JSON 對象,其中包含多個鍵-段落(key-passage)對。這個任務(wù)和常見的鍵-值檢索任務(wù)類似,區(qū)別在于這里檢索對象是具有實(shí)際語義的自然語言文本,而不是隨機(jī)生成的 128 位 UUID 字符串,因此更具有挑戰(zhàn)性。該任務(wù)包含約 1K 個測試樣例。
  • 表格查詢該任務(wù)是為了考察模型在長上下文中抽取所需信息的能力,尤其是在長上下文中執(zhí)行復(fù)雜查詢的能力。數(shù)據(jù)集中每個樣例由多個使用 Markdown 格式排列的表格組成;期待模型可以在長上下文中定位到目標(biāo)表格,并根據(jù)查詢條件從該表格中得到輸出。該任務(wù)包含約 1K 個測試樣例。

03 實(shí)驗(yàn)結(jié)果

下表為主實(shí)驗(yàn)結(jié)果,展示了 6 個開源模型和 2 個閉源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的表現(xiàn)。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

作者分析了參考答案在上下文中的對應(yīng)位置對模型性能的影響,結(jié)果如下圖所示。作者在需要部分上下文的四個任務(wù)上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)在長篇故事問答和長對話記憶這兩個任務(wù)中,“Lost in the middle” 這一現(xiàn)象較為明顯。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

下面的兩張圖展示了 GPT-4-Turbo 與 Moonshot-v1 在新聞標(biāo)注這個任務(wù)中不同位置與不同深度的分類準(zhǔn)確率的可視化分析。可以發(fā)現(xiàn),Moonshot-v1 的表現(xiàn)更加穩(wěn)定。

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力-AI.x社區(qū)

更多實(shí)驗(yàn)結(jié)果以及分析請參考原文。


 本文轉(zhuǎn)自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/EPOSvdieaXfFdOjyWQaMhA??

標(biāo)簽
已于2024-4-2 12:08:34修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
久久综合丝袜日本网| 国产在线成人| 在线播放亚洲一区| 国产 欧美 日韩 一区| 视频一区二区免费| 美国欧美日韩国产在线播放| 久久99亚洲精品| 中国毛片在线观看| 亚洲电影二区| 欧美日韩国产精品| 日韩影院一区| 国产激情视频在线播放| 久久综合五月| 久久久久免费精品国产| 国产午夜精品福利视频| 北条麻妃一区二区三区在线| 欧美日韩精品免费观看视频| 免费 成 人 黄 色| 黄色av电影在线播放| 2021国产精品久久精品| 北条麻妃高清一区| 怡春院在线视频| 亚洲资源av| 久久久综合免费视频| 男生草女生视频| 国产精品主播在线观看| 欧美精品久久久久久久多人混战| 伊人成色综合网| 欧美xxxx做受欧美88bbw| 欧美精彩视频一区二区三区| 久久99精品久久久久久久久久 | 国产精品300页| www.欧美视频| 欧美日韩极品在线观看一区| 国产一区二区视频免费在线观看 | 欧美在线视频免费观看| 久草视频免费在线| 亚洲最大av| www国产精品视频| 久久午夜福利电影| 午夜先锋成人动漫在线| 精品国产亚洲在线| 久久aaaa片一区二区| 亚洲18在线| 欧美精品1区2区| 激情五月俺来也| 朝桐光一区二区| 欧美在线观看视频一区二区三区| 日本久久久精品视频| 69av成人| 欧美日韩国产丝袜美女| 欧美日韩成人免费视频| 成人影音在线| 婷婷综合在线观看| 日本十八禁视频无遮挡| 日本在线啊啊| 色婷婷精品久久二区二区蜜臀av| 久久久久久久久久久久久国产精品| а√在线天堂官网| 精品国产老师黑色丝袜高跟鞋| 妞干网在线观看视频| 麻豆理论在线观看| 色综合视频一区二区三区高清| 免费在线a视频| 桃花岛成人影院| 欧美一a一片一级一片| 天天色综合天天色| 成人av在线播放| 日韩欧美的一区二区| 中文字幕视频观看| 欧美五码在线| 亚洲午夜久久久久久久| 美国精品一区二区| 中文字幕午夜精品一区二区三区| 欧美成人激情图片网| 国产乡下妇女做爰视频| 美女精品一区| 91在线观看欧美日韩| 亚洲国产福利视频| 91女人视频在线观看| 视频一区国产精品| 亚洲精品白浆| 一本一道久久a久久精品| 欧美伦理片在线观看| 欧美日韩国产一区二区在线观看| 亚洲国产精品人久久电影| 国产真实乱人偷精品人妻| 欧美黄色录像片| 韩国精品久久久999| 嫩草影院一区二区三区| 国产在线精品视频| 精品一区国产| 婷婷视频在线| 欧美日韩在线影院| 中文字幕中文在线| 天堂日韩电影| 欧美日韩国产va另类| 日韩中文字幕在线观看视频| 激情综合网天天干| 久久久久久久久一区二区| 日韩免费网站| 亚洲国产欧美在线人成| 久久这里只精品| 四虎5151久久欧美毛片| 久久久精品欧美| 国产一卡二卡三卡| 高清不卡一二三区| 亚洲一二区在线| ****av在线网毛片| 欧美一区二区三区免费视频 | 欧美成人乱码一二三四区免费| jazzjazz国产精品久久| 俺也去精品视频在线观看| 天堂а√在线中文在线新版 | 777奇米成人网| 青青草视频成人| 欧美激情第10页| 国产精品揄拍500视频| 五月天婷婷在线播放| 伊人开心综合网| 三级a三级三级三级a十八发禁止| 日韩极品在线| 色中色综合影院手机版在线观看| 中文字幕av影视| 国产性做久久久久久| 久久免费视频3| 成人激情自拍| 欧美大片在线看免费观看| 一区二区自拍偷拍| 国产农村妇女毛片精品久久麻豆| 国产成人亚洲精品无码h在线| 日韩欧美中文字幕在线视频| 久热99视频在线观看| 中日精品一色哟哟| 久久久www成人免费无遮挡大片| 国产一区二区三区小说| 视频成人永久免费视频| 久久久精品一区二区三区| 88av在线视频| 国产精品久久久久久久久搜平片| 中文字幕无码不卡免费视频| 欧美女王vk| 国产精品电影观看| 高清日韩av电影| 在线看一区二区| 免费成人深夜天涯网站| 丝袜诱惑亚洲看片| 欧美亚洲精品日韩| 欧美gay视频| 亚洲无av在线中文字幕| 精品视频一二三区| 中文字幕第一区综合| 91插插插插插插插插| 色综合天天综合网中文字幕| 国产主播精品在线| 草莓福利社区在线| 日韩欧美成人一区| 日本一级黄色录像| 91在线视频播放地址| 国产成人a亚洲精v品无码| 日韩有码一区| 国产精品久久久久久久久久久久久| 男操女在线观看| 欧美中文字幕久久| 一级片一级片一级片| 狠狠色综合日日| avav在线播放| 欧美中文一区| 日韩av电影在线播放| 国产高清视频在线| 91精品综合久久久久久| 国产一级视频在线播放| 91丨九色丨国产丨porny| 天天操天天爽天天射| 66久久国产| 国模一区二区三区私拍视频| 香蕉视频亚洲一级| 久久亚洲精品视频| 无码h黄肉3d动漫在线观看| 在线亚洲人成电影网站色www| 亚洲精品自拍视频在线观看| 国产成人av福利| 成人三级视频在线播放| 亚洲电影在线一区二区三区| 精品国产一区二区三区免费| 欧洲av一区二区| 久久99青青精品免费观看| 日色在线视频| 欧美一级在线视频| 亚洲欧美综合自拍| 亚洲人妖av一区二区| 亚洲一区二区三区无码久久| 美国欧美日韩国产在线播放| 亚洲一区二区三区av无码| 欧美久久精品一级c片| 91|九色|视频| 精品视频在线一区二区在线| 久久久久久亚洲精品中文字幕| 成人高清免费观看mv| 欧美xxx久久| 欧美日韩 一区二区三区| 一区二区在线电影| 亚洲天堂岛国片| 波多野结衣一区二区三区| 欧美三级午夜理伦三级富婆| 亚洲精品一二| 日本在线视频www色| 亚洲综合福利| 国产一区二区三区四区hd| va天堂va亚洲va影视| 国产精品久久久久久久久久久不卡| www欧美xxxx| 两个人的视频www国产精品| 韩国三级在线观看久| 亚洲国产毛片完整版| 99热精品在线播放| 欧美色中文字幕| 亚洲欧美偷拍卡通变态| 91精品久久久久久蜜桃| 久久精品女人天堂av免费观看 | 久久香蕉综合色| 国产亚洲久久| 国产精品女人网站| 成人影院入口| 午夜精品在线观看| av免费网站在线| 色黄久久久久久| 国产三级电影在线| 日韩精品在线观| 狠狠躁日日躁夜夜躁av| 91精品蜜臀在线一区尤物| 国产情侣呻吟对白高潮| 欧美性生活大片免费观看网址| 久久精品视频6| 亚洲精品综合在线| 国产传媒免费在线观看| 国产精品丝袜一区| 谁有免费的黄色网址| 久久久久久综合| 亚洲av无码国产精品久久| 99精品国产视频| 欧美熟妇精品一区二区蜜桃视频| 国产激情精品久久久第一区二区| 拔插拔插华人永久免费| 捆绑调教美女网站视频一区| 九九九在线观看视频| 日韩电影免费一区| 蜜臀视频一区二区三区| 日韩精品久久理论片| 亚洲高清在线免费观看| 免费在线视频一区| 日本免费色视频| 国产麻豆91精品| 亚洲精品一区二区18漫画| 国产成人av一区二区三区在线| 色诱av手机版| 成人黄色网址在线观看| 国产精品无码在线| 2020国产精品自拍| www.99热| 最新欧美精品一区二区三区| 一起操在线播放| 一区二区三区自拍| 国产小视频在线看| 丁香五六月婷婷久久激情| 午夜精品一区二| 欧美无砖专区一中文字| 亚洲资源在线播放| 欧美一区二区黄| 午夜福利视频一区二区| 亚洲天堂免费在线| 美女羞羞视频在线观看| 欧美丰满老妇厨房牲生活| 成人免费网站观看| 国产福利视频一区| 欧美日韩卡一| 成人黄视频免费| 蜜桃国内精品久久久久软件9| 日本一区二区三区精品视频| 久久在线电影| 国产手机免费视频| 日韩和欧美一区二区| 免费av不卡在线| 北条麻妃国产九九精品视频| 男人操女人动态图| 亚洲欧美乱综合| 可以免费在线观看的av| 欧美日韩免费在线视频| 国产黄色片免费| 国产婷婷色综合av蜜臀av| 生活片a∨在线观看| 国产做受高潮69| 久久亚洲精品爱爱| 亚洲综合在线中文字幕| 天堂网av成人| 青青草综合视频| 日韩在线a电影| 中国特级黄色片| 国产蜜臀97一区二区三区| 久久久久亚洲av片无码下载蜜桃| 色综合久久六月婷婷中文字幕| 一级黄色免费片| 亚洲福利视频专区| 91在线免费看| 97在线视频国产| 精品国模一区二区三区欧美| 日韩.欧美.亚洲| 伊人激情综合| 国产在线观看中文字幕| 久久精品夜色噜噜亚洲a∨| 欧美成人一区二区三区高清| 欧美三级资源在线| 日本福利片在线| 欧美激情网友自拍| 久久精品资源| 欧美成人在线免费观看| 欧美另类女人| av五月天在线| 久久综合九色综合97_久久久| 强乱中文字幕av一区乱码| 欧美日韩中文国产| 每日更新在线观看av| 欧美国产日产韩国视频| 色婷婷成人网| 亚洲视频在线观看日本a| 噜噜噜躁狠狠躁狠狠精品视频| 最新版天堂资源在线| 一级做a爱片久久| 中文字幕在线网址| 亚洲欧美一区二区三区情侣bbw| 一色桃子av在线| 91超碰rencao97精品| 久久亚洲精品中文字幕蜜潮电影| 日韩亚洲在线视频| 久久麻豆一区二区| 国产又大又黄又粗| 亚洲精品动漫久久久久| 男人天堂亚洲天堂| av在线不卡一区| 欧美另类专区| 伊人精品视频在线观看| 国产精品福利av| 国产精品色综合| 中文字幕欧美在线| 日韩午夜视频在线| 亚洲成色www久久网站| 日本sm残虐另类| 日本不卡一区视频| 欧美日韩中文字幕精品| 青青青青在线| 亚洲一区二区三区四区在线播放 | 亚洲天堂av线| 国产精品美女视频| 91久久久久国产一区二区| 日韩在线播放av| 我要色综合中文字幕| 精品人妻人人做人人爽| 成人av网站大全| yjizz国产| 尤物yw午夜国产精品视频| 成人看片毛片免费播放器| 男女啪啪的视频| 国产寡妇亲子伦一区二区| 久久久久久天堂| 亚洲精品ady| 欧洲亚洲两性| 咪咪色在线视频| 国产91精品一区二区麻豆亚洲| 国产亚洲色婷婷久久99精品| 亚洲国产中文字幕久久网| 欧美精品日日操| 亚洲欧美日韩精品综合在线观看| 韩日av一区二区| 久久久美女视频| 亚洲欧美日韩综合| 亚瑟国产精品| 国产精品网站免费| 亚洲国产精品成人久久综合一区| 在线播放亚洲精品| 九九视频这里只有精品| 麻豆成人入口| 婷婷免费在线观看| 亚洲一区二区视频在线观看| 青青青草原在线| 国产在线拍偷自揄拍精品| 亚洲黄色在线| 国产精品酒店视频| 亚洲成人中文字幕| 亚洲精品一区三区三区在线观看| 天天干天天色天天爽| 99riav久久精品riav| 91午夜交换视频| 91极品女神在线| 久久久久久久久国产一区| 中国av免费看| 欧美一区二区三区婷婷月色 | 欧美综合在线视频| 日韩精品卡一| 亚洲日本欧美在线| av欧美精品.com|