精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

無一大模型及格! 北大/通研院提出超難基準,專門評估長文本理解生成

人工智能 新聞
北大聯合北京通用人工智能研究院提出了一個新基準數據集:LooGLE,專門用于測試和評估大語言模型(LLMs)長上下文理解能力。

在長文本理解能力這塊,竟然沒有一個大模型及格!

北大聯合北京通用人工智能研究院提出了一個新基準數據集:LooGLE,專門用于測試和評估大語言模型(LLMs)長上下文理解能力。

圖片

該數據集既能夠評估LLMs對長文本的處理和檢索能力,又可以評估其對文本長程依賴的建模和理解能力。

結果不評不知道,一評估發現這些模型在復雜的長依賴任務中的多信息檢索、時間重排序、計算、理解推理能力表現均不樂觀。

比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex這種商業模型,平均只有40%的準確率。

而像開源模型表現就更不理想了…

ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的準確率。

目前該論文已被ACL 2024接收。

論文共同一作為通研院的李佳琪、王萌萌,通訊作者為通研院研究員鄭子隆和北京大學人工智能研究院助理教授張牧涵。

LooGLE基準測試

LooGLE基準測試主要有這樣幾個特點:

首先,它包含包含近 800 個最新收集的超長文檔。平均近2萬字(是現有相似數據集長度的2倍),并從這些文檔中重新生成了6千個不同領域和類別的任務/問題用于構建LooGLE。

目前目前沒有既評估LLMs對長文本的處理和記憶,又評估其對文本長程依賴的建模和理解能力的數據集。

LooGLE的數據集由7個主要的任務類別組成,旨在評估LLMs理解短程和長程依賴內容的能力。

團隊設計了5種類型的長期依賴任務,包括理解與推理、計算、時間線重新排序、多重信息檢索和摘要。

通過人工標注精心生成了超過1100對高質量的長依賴問答對,以滿足長依賴性要求。這些問答對經過了嚴格的交叉驗證,從而得到了對大型語言模型(LLMs)長依賴能力的精確評估。

圖片

LooGLE基準數據集僅包含2022年之后發布的文本,盡可能地避免了預訓練階段的數據泄露,考驗大模型利用其上下文學習能力來完成任務,而不是依靠記憶事實和知識儲備。

該基準的文本源自廣泛認可的開源文檔,包括了arxiv論文、維基百科文章以及電影和電視劇本,涉及學術、歷史、體育、政治、藝術、賽事、娛樂等領域。

圖片

長文理解中長程問答任務生成

在本研究中,團隊組織了近百名標注者手工編制了約1100個真實的長依賴問答對,分為4類長依賴任務:多信息檢索、時間重排序、計算、理解推理。

圖片

多信息檢索:與傳統的短期檢索任務顯著不同,該任務下回答一個特定答案通常需要在整個文本中搜集多個線索或證據。任務要求從長文本中廣泛分布的相關證據或線索中進行檢索和提取,然后對這些證據進行匯總,才能得出最終答案。

計算:與前一個任務類似,首先需要從廣泛的文本中進行多次信息檢索提取相關數字,例如關于數量、頻率、持續時間、特定年份等。要得出準確的答案,還需要對這些數字進行計算。這個過程既依賴于強大的長上下文信息提取能力,并且涉及一定程度的數學推理能力。

時間重排序:這個任務給大模型輸入指令“請重新排列以下事件的時間軸”,以及一組按順序排列的事件描述。任務目標是根據這些事件在長文本中出現的時間先后順序將這些事件排列起來。成功完成這個任務需要對文檔的主要故事情節進行抽取和理解,且要求模型具有時間意識。

理解推理:這個任務要求模型利用散落在長上下文中的證據,深入理解問題并推理出答案。最常見的問題模式涉及到因果關系、影響、貢獻、態度以及與各種事件相關的基本屬性。此外,當問題圍繞著證據的重要程度、顯著程度、最高或最關鍵方面時,則需要進行更廣泛的比較和評估。此任務的答案通常在源文本中不明顯。它們通常需要多步推理來模擬內在的聯系和依賴關系,通過復雜的分析過程獲取答案。

實驗分析

為了提供更全面和通用的性能評估,LooGLE 使用基于語義相似性的度量、GPT4 作為判斷的度量,以及人類評估作為度量。在LooGLE上對9種最先進的長文本LLMs進行評估(其中包括OpenAI和Anthropic的商用模型,以及幾個主流開源基座模型微調得到的長文本模型,和帶有外部記憶模塊的檢索增強模型),得出了以下關鍵發現:

  • 商業模型顯著優于開源模型;
  • LLMs在短依賴任務(如短問答和填空任務)方面表現出色,但在更復雜的長依賴任務中均表現不佳
  • CoT(思維鏈)只在長上下文理解方面帶來了微小的改進;
  • 基于檢索的技術在短問答方面表現出明顯的優勢,而通過優化的Transformer架構或位置編碼來擴展上下文窗口長度的策略對長上下文理解的提升有限。

圖片

△不同LLM在LooGLE上展現的長文本理解能力

圖片

△不同模型在LooGLE短程問答上的性能

圖片

△不同模型在LooGLE短程問答上的性能

圖片

△不同上下文窗口對長程問答性能的影響

圖片

△不同模型在4種不同類型長程問答上的性能

因此,LooGLE不僅提供了關于長上下文LLMs的系統和全面的評估方案,而且為未來開發增強型模型以實現“真正的長上下文理解”提供了啟示。

論文地址:
https://arxiv.org/abs/2311.04939
數據地址:
https://huggingface.co/datasets/bigainlco/LooGLE
代碼地址:
https://github.com/bigai-nlco/LooGLE

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-15 09:10:00

2025-03-17 12:55:18

2021-04-21 10:18:25

人工智能機器學習技術

2023-07-05 09:57:11

2024-05-27 12:45:53

2025-05-23 08:47:00

2024-08-05 08:46:00

模型測評

2025-11-05 08:51:33

2025-05-30 09:10:00

模型論文AI

2023-11-29 14:00:00

AI數據

2023-09-25 10:04:37

模型AI

2025-07-17 09:21:11

2025-07-17 10:47:33

2024-09-12 12:46:36

2023-11-05 15:09:35

模型AI

2024-04-11 14:12:53

點贊
收藏

51CTO技術棧公眾號

男人女人拔萝卜视频| 国产高清自拍一区| 久操视频在线观看免费| 日韩一区二区三区免费视频| 欧美激情在线一区二区| 国产日韩精品电影| 激情小说中文字幕| 巨人精品**| 欧美性一二三区| 欧美 亚洲 视频| 少妇喷水在线观看| 三级久久三级久久久| 色妞欧美日韩在线| 在线播放av网址| 欧美黑人一区| 一区二区三区在线免费观看| 日本午夜精品一区二区三区| 国产绿帽一区二区三区| 9国产精品视频| 中文字幕国产日韩| 久久久午夜精品福利内容| 国产欧美自拍| 一本久久精品一区二区| 无颜之月在线看| h视频网站在线观看| 丁香网亚洲国际| 成人免费xxxxx在线观看| 国产精品黄色网| 中文字幕日韩一区二区不卡| 亚洲午夜av电影| 欧美xxxxx精品| 99精品女人在线观看免费视频| 精品国产乱码久久久久久天美 | 大桥未久av一区二区三区| 一区二区日本伦理| 噜噜噜在线观看播放视频| 国产成人亚洲综合a∨婷婷图片| 国产成人涩涩涩视频在线观看 | 麻豆视频在线播放| 国产女同互慰高潮91漫画| 精品毛片久久久久久| 国内精品国产成人国产三级| 久久国产精品第一页| 欧美中文字幕在线播放| 69精品久久久| 亚洲激情在线| 欧美激情在线观看| 久久久综合久久| 欧美日韩免费| 欧美日韩xxxxx| 色在线观看视频| 国产精品久久久久久久久妇女| 亚洲欧美日韩一区二区三区在线| 黄色录像a级片| 手机av免费在线观看| 亚洲国产欧美国产第一区| 欧美影院精品一区| 成年人免费大片| 偷拍自拍在线看| 天天操天天色综合| 国产午夜福利100集发布| 国产精品www色诱视频| 欧美亚洲日本黄色| 亚洲国产综合久久| 国产精品地址| 国产日韩1区| 播播国产欧美激情| 老司机精品免费视频| 不卡中文一二三区| 中文字幕亚洲一区| 中文字幕精品亚洲| 99久久视频| 日韩专区在线观看| 国产探花在线视频| 欧美日韩一卡| 97av视频在线| 波多野结衣不卡| 蜜臂av日日欢夜夜爽一区| 91精品久久久久久久久| 国产精品久久久久久久久毛片| 精东粉嫩av免费一区二区三区| 国产在线观看91精品一区| 国产精品久久无码一三区| 久久精品国产成人一区二区三区| 91精品国产综合久久香蕉922 | 亚洲色图插插| 欧美大肥婆大肥bbbbb| 中文字幕一区二区三区精品| 久久欧美肥婆一二区| 国产精品自拍偷拍视频| a级片在线视频| 91女神在线视频| 亚洲精品国产精品国自产观看| 麻豆视频在线| 精品久久久一区| 人人干人人干人人| 国产极品模特精品一二| 在线日韩日本国产亚洲| 免费在线视频观看| 日韩成人精品在线| 波多野结衣一区二区三区在线观看| 完全免费av在线播放| 欧美日韩在线中文字幕| 亚洲欧美综合另类在线卡通| 给我免费播放片在线观看| 色8久久影院午夜场| 欧美一区二区三区喷汁尤物| 国产精品300页| 99久久九九| 欧洲成人免费aa| 国产黄色美女视频| 国产亚洲精品bt天堂精选| 日韩人妻一区二区三区蜜桃视频| 成人亚洲欧美| 日韩三级视频中文字幕| 亚洲精品一区二区三区影院忠贞| 午夜视频精品| 国产精品入口免费视| 高潮一区二区三区乱码| 国产精品久久久久7777按摩| 久久久久久久久久久久久久国产| 精品久久99| 国产香蕉精品视频一区二区三区| 久久久久久国产精品免费播放| 日韩电影免费在线观看网站| 精品国产乱码一区二区三区四区| 国产三级在线播放| 在线观看三级视频欧美| 亚洲成a人无码| 日韩中字在线| 国产精品白丝jk喷水视频一区| 日本精品久久久久| 亚洲欧美另类小说视频| 国产精品区在线| 极品美女一区二区三区| 欧美一区二区.| 少妇无码一区二区三区| 亚洲综合激情另类小说区| 中国黄色片一级| 最好看的2019年中文视频| 精品人妻一区二区免费视频| 亚洲深深色噜噜狠狠爱网站| 国产精品久久久久久久7电影| 天天干天天草天天射| 亚洲最快最全在线视频| 日韩欧美中文视频| 香蕉久久网站| 国产在线观看精品| 黄色网页在线观看| 欧美高清一级片在线| 欧美色图17p| 午夜在线观看免费一区| 99视频日韩| 羞羞电影在线观看www| 日韩三级在线观看| 伊人国产在线观看| 97国产一区二区| 欧美精品99久久| 精品在线99| 国产精品成人免费电影| 岛国大片在线观看| 欧美性猛交xxxx黑人交| 国产精品一区二区入口九绯色| 亚洲大片av| 精品综合在线| 欧美激情喷水| 色噜噜国产精品视频一区二区| 91在线观看喷潮| 亚洲精品免费在线观看| 中文字幕在线视频精品| 欧美日韩影院| 久久久久久久久一区二区| 在线天堂资源www在线污| 欧美精品一区二区三区在线播放| 精品午夜福利视频| 99re视频这里只有精品| 北条麻妃在线一区| 99久久99久久精品国产片桃花| 91久久精品美女高潮| 黄页网站在线| 亚洲成人精品久久久| 日韩不卡在线播放| 国产精品久久久久久久久果冻传媒 | 自拍视频在线网| 日韩午夜精品电影| 天天操天天摸天天干| 亚洲国产高清不卡| 亚洲少妇一区二区| 丝袜亚洲另类丝袜在线| 日本黄色a视频| 欧美一级二级三级视频| 国产狼人综合免费视频| 久久国产精品黑丝| 在线播放日韩欧美| 国内爆初菊对白视频| 色诱亚洲精品久久久久久| www.97视频| 97久久超碰国产精品| 思思久久精品视频| 国产精品试看| 少妇高潮大叫好爽喷水| 亚洲欧洲av| 999日本视频| 欧洲精品一区二区三区| 久久久久久久影院| 日韩欧美小视频| 亚洲欧美另类自拍| 亚洲AV无码精品自拍| 欧美午夜一区二区三区| 国产午夜福利一区二区| 国产精品久久久久久福利一牛影视 | 国产免费黄色av| 亚洲综合五月| 日韩欧美亚洲v片| 成人资源在线播放| 成人免费网站在线看| 免费日韩电影| 久久人91精品久久久久久不卡| 日韩免费网站| 一本一本久久a久久精品牛牛影视| 亚洲精品久久久久久久久久 | 污视频在线免费| 欧美一级高清片| 一区二区三区精| 欧美综合在线视频| 4438国产精品一区二区| 亚洲成人av一区| 久久久久久久久久久97| 亚洲欧洲综合另类| 成人精品一二三区| 欧美极品xxx| 91成年人网站| 2022国产精品视频| 中文字幕 日本| 成人一区二区三区中文字幕| 奇米777在线视频| 狠狠色狠狠色合久久伊人| 手机看片福利盒子久久| 久久人人精品| 国产精品wwwww| 久久久久欧美精品| 久久久久久久久久福利| 香蕉久久a毛片| 男人天堂1024| 免播放器亚洲| 97超碰青青草| 美女精品网站| 日本三级免费观看| 母乳一区在线观看| 日日碰狠狠躁久久躁婷婷| 老司机午夜免费精品视频| 久久国产乱子伦免费精品| 久久精品麻豆| 狠狠热免费视频| 免费高清不卡av| 五月婷婷六月合| 久久国产精品色| 午夜诱惑痒痒网| 高清不卡在线观看av| 精品国产乱码久久久久夜深人妻| 国产成人啪免费观看软件| 日本少妇xxx| 白白色 亚洲乱淫| 国产精品揄拍100视频| 久久久777精品电影网影网| 摸摸摸bbb毛毛毛片| 国产精品国产三级国产普通话蜜臀| 天堂网中文在线观看| 亚洲乱码精品一二三四区日韩在线| 91嫩草|国产丨精品入口| 亚洲一区影音先锋| 欧美 日韩 精品| 欧美日韩视频在线观看一区二区三区 | 韩国av一区| 日韩av一二三四区| 免费人成在线不卡| 在线观看日本www| 成人性色生活片| 90岁老太婆乱淫| 成人欧美一区二区三区1314| 九九视频免费看| 欧美午夜激情在线| 一区精品在线观看| 欧美mv日韩mv| 毛片在线播放网址| 成年无码av片在线| 91av亚洲| 91久久精品久久国产性色也91| 精品国内亚洲2022精品成人| 日韩精品大片| 欧美午夜不卡| www.日本xxxx| 国产福利一区在线| 亚洲成人黄色av| 亚洲一区二区三区中文字幕 | 精品国产免费人成电影在线观... 精品国产免费久久久久久尖叫 | 毛片网站免费观看| 亚洲精品一二三区| 精品国产xxx| 日韩欧美国产精品一区| 经典三级在线| 久久男人的天堂| 99精品美女视频在线观看热舞| 久久久久一区二区| 欧美一区二区三区另类| 久草青青在线观看| 国产.欧美.日韩| 美女视频久久久| 日本乱人伦一区| 人妻少妇精品无码专区久久| 中文字幕日韩电影| 亚洲日本天堂| 福利精品视频| 天天综合网91| 天天操天天爱天天爽| www亚洲一区| 久热这里只有精品在线| 7878成人国产在线观看| а√天堂中文在线资源bt在线| 国内自拍欧美激情| 欧美精品三级在线| 伊人色综合影院| 日本sm残虐另类| 波多野结衣av在线观看| 五月天久久比比资源色| 亚洲精品综合久久| 欧美精品手机在线| 99er精品视频| 亚洲自拍偷拍一区二区三区| 日本伊人精品一区二区三区观看方式 | 日本中文字幕网| 精品国产亚洲在线| 成人影欧美片| 亚洲999一在线观看www| 国产精品二区不卡| 久久久久xxxx| 国产精品传媒入口麻豆| 亚洲最大成人在线视频| 在线观看国产欧美| 四虎影视4hu4虎成人| 日韩久久不卡| 毛片一区二区三区| 男人的天堂av网| 欧美日韩精品系列| 婷婷成人激情| 91麻豆国产精品| 欧美一区激情| 俄罗斯黄色录像| 亚洲福利一区二区三区| 人妻少妇一区二区三区| 91精品国产高清久久久久久91| 激情小说一区| 国产免费黄色av| 国产欧美日韩另类一区| 成人黄色片在线观看| 伊人亚洲福利一区二区三区| 天天综合网天天| 色之综合天天综合色天天棕色 | 疯狂欧美牲乱大交777| 欧洲天堂在线观看| 国产脚交av在线一区二区| 波多野结衣在线播放一区| 91福利国产成人精品播放| 国产精品久久久久久久蜜臀| 一区二区三区日| 欧美成人日本| 色播五月激情五月| 亚洲欧美一区二区三区久本道91| 99免费在线视频| 欧美激情国产日韩精品一区18| 国产精品zjzjzj在线观看| 日韩欧美亚洲天堂| 欧美国产97人人爽人人喊| 亚洲在线视频播放| 欧美国产精品日韩| 一道本一区二区三区| 色戒在线免费观看| 亚洲综合色噜噜狠狠| 亚洲色欧美另类| 国产精品直播网红| 亚洲视频观看| 成熟人妻av无码专区| 91精品国产91久久久久久最新毛片 | 日日干日日操日日射| 亚洲国产精品久久不卡毛片| 男人天堂网在线| 91亚洲永久免费精品| 夜夜爽av福利精品导航| 日韩av片在线免费观看| 日韩你懂的电影在线观看| 韩国成人漫画| 欧美少妇在线观看| 久久久精品蜜桃| 国产丰满美女做爰| 日本精品久久久久久久| 中文精品电影| 波多野结衣a v在线| 日韩视频一区二区三区| 成人va天堂| 黄色激情在线视频|