精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

人工智能 新聞
新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

無情戳穿“長上下文”大模型的虛標現象——

英偉達新研究發現,包括GPT-4在內的10個大模型,生成達到128k甚至1M上下文長度的都有。

但一番考驗下來,在新指標“有效上下文”上縮水嚴重,能達到32K的都不多。

新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

圖片

這項研究被學者評價為“非常有洞察力”。

圖片

不少網友看到這項新研究后,也非常想看到上下文長度王者玩家Claude和Gemini的挑戰結果。(論文中并未覆蓋)

圖片
圖片

一起來看英偉達是如何定義“有效上下文”指標的。

圖片

測試任務更多、更難

要評測大模型的長文本理解能力,得先選個好標準,現圈內流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評估了模型檢索能力,要么受限于先驗知識的干擾。

所以英偉達剔除的RULER方法,一句話概括就是“確保評估側重于模型處理和理解長上下文的能力,而不是從訓練數據中回憶信息的能力”

RULER的評測數據減少了對“參數化知識”的依賴,也就是大模型在訓練過程中已經編碼到自身參數里的知識。

具體來說,RULER基準擴展了流行的“大海撈針”測試,新增四大類任務。

圖片

檢索方面,從大海撈針標準的單針檢索任務出發,又加入了如下新類型:

  • 多針檢索(Multi-keys NIAH, MK-NIAH):上下文中插入多個干擾針,模型需檢索指定的那一個
  • 多值檢索(Multi-values NIAH, MV-NIAH):一個鍵(key)對應多個值(values),模型需要檢索出與特定鍵關聯的所有值。
  • 多查詢檢索(Multi-queries NIAH, MQ-NIAH):模型需根據多個查詢在文本中檢索出相應的多個針。

除了升級版檢索,RULER還增加了多跳追蹤(Multi-hop Tracing)挑戰。

具體來說,研究人員提出了變量追蹤(VT),模擬了指代消解(coreference resolution)的最小任務,要求模型追蹤文本中變量的賦值鏈,即使這些賦值在文本中是非連續的。

挑戰第三關是聚合(Aggregation),包括:

  • 常見詞匯提取(Common Words Extraction, CWE):模型需要從文本中提取出現次數最多的常見詞匯。
  • 頻繁詞匯提取(Frequent Words Extraction, FWE):與CWE類似,但是詞匯的出現頻率是根據其在詞匯表中的排名和Zeta分布參數α來確定的。

圖片

挑戰第四關是問答任務(QA),在現有閱讀理解數據集(如SQuAD)的基礎上,插入大量干擾段落,考查長序列QA能力。

各模型上下文實際有多長?

實驗階段,如開頭所述,研究人員評測了10個聲稱支持長上下文的語言模型,包括GPT-4,以及9個開源模型開源模型Command-R、Yi-34B、Mixtral(8x7B)、Mixtral(7B)、ChatGLM、LWM、Together、LongChat、LongAlpaca。

這些模型參數規模范圍從6B到采用MoE架構的8x7B不等,最大上下文長度從32K到1M不等。

在RULER基準測試中,對每個模型評測了13個不同的任務,覆蓋4個任務類別,難度簡單到復雜的都有。對每項任務,生成500個測試樣例,輸入長度從4K-128K共6個等級(4K、8K、16K、32K、64K、128K)

圖片

為了防止模型拒絕回答問題,輸入被附加了answer prefix,并基于recall-based準確性來檢查目標輸出的存在。

圖片

研究人員還定義了“有效上下文長度”指標,即模型在該長度下能保持與基線Llama-7B在4K長度時的同等性能水平。

為了更細致的模型比較,使用了加權平均分數(Weighted Average, wAvg)作為綜合指標,對不同長度下的性能進行加權平均。采用了兩種加權方案:

  • wAvg(inc):權重隨長度線性增加,模擬以長序列為主的應用場景
  • wAvg(dec):權重隨長度線性減小,模擬以短序列為主的場景

來看結果。

普通大海撈針和密碼檢索測試看不出差距,幾乎所有模型在其聲稱的上下文長度范圍內均取得滿分。

而使用RULER,盡管很多模型聲稱能夠處理32K token或更長的上下文,但除了Mixtral外,沒有模型在其聲稱的長度上保持超過Llama2-7B基線的性能。

圖片

其他結果如下,總的來說,GPT-4在4K長度下表現最佳,并且在上下文擴展到128K時顯示出最小的性能下降(15.4%)

開源模型中排名前三的是Command-R、Yi-34B和Mixtral,它們都使用了較大的基頻RoPE,并且比其它模型具有更多的參數。

圖片
圖片
圖片
圖片
圖片

此外,研究人員還對Yi-34B-200K模型在增加輸入長度(高達256K)和更復雜任務上的表現進行了深入分析,以理解任務配置和失敗模式對RULER的影響。

他們還分析了訓練上下文長度、模型大小和架構對模型性能的影響,發現更大的上下文訓練通常會帶來更好的性能,但對長序列的排名可能不一致;模型大小的增加對長上下文建模有顯著好處;非Transformer架構(如RWKV和Mamba)在RULER上的表現顯著落后于基于Transformer的Llama2-7B。

更多細節,感興趣的家銀們可以查看原論文。

論文鏈接:https://arxiv.org/abs/2404.06654

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-09-10 09:38:56

2023-06-30 09:49:23

模型Meta

2023-11-13 18:19:54

模型訓練

2024-03-25 00:05:00

開源模型AI

2023-07-11 10:02:23

2023-05-19 10:16:27

AIGPT-4

2023-07-01 13:27:55

2024-09-30 14:10:00

2023-08-24 15:57:41

模型文檔檢索

2024-03-14 08:11:45

模型RoPELlama

2023-05-14 14:15:00

GPT-4AI

2017-05-11 14:00:02

Flask請求上下文應用上下文

2023-06-28 18:10:27

羊駝家族大模型集體進化

2023-07-24 12:27:08

論文斯坦福

2024-07-19 12:45:23

2024-04-03 10:05:00

LLM性能基準測試

2024-05-30 13:20:12

2012-12-31 10:01:34

SELinuxSELinux安全

2023-08-25 13:27:00

模型開源

2022-09-14 13:13:51

JavaScript上下文
點贊
收藏

51CTO技術棧公眾號

亚洲高清久久网| 久久久久久久久99精品| 欧美国产在线电影| 久久亚洲AV成人无码国产野外| 免费h在线看| 国产精品久久毛片av大全日韩| 97人人做人人人难人人做| 九九九在线观看| 久久久久电影| 亚洲精品中文字| 原创真实夫妻啪啪av| 久久人体大尺度| 亚洲美女偷拍久久| 日韩午夜视频在线观看| 亚洲精品字幕在线观看| 蜜臀av性久久久久蜜臀aⅴ | 欧美精品一区二区三区在线| 日本激情视频在线| 日韩理论视频| 一区二区三区四区蜜桃 | 欧美国产综合| 在线色欧美三级视频| 国产人妖在线观看| 99久久99九九99九九九| 色婷婷国产精品久久包臀| 真人做人试看60分钟免费| 色大18成网站www在线观看| 不卡一区在线观看| 91成人免费在线观看| 在线观看视频二区| 视频一区中文字幕国产| 91精品国产高清自在线| 精品无码久久久久| 你懂的成人av| 久久久精品在线| 美国黄色特级片| 九九免费精品视频在线观看| 亚洲国产欧美精品| 欧美69精品久久久久久不卡| 狂野欧美性猛交xxxx| 欧美视频第二页| 男人插女人下面免费视频| 三级成人在线| 在线精品国精品国产尤物884a| 国产成人a亚洲精v品无码| 成人bbav| 精品久久香蕉国产线看观看gif| 日韩精品免费一区| 欧美aaa免费| 亚洲一区二区三区在线看| 日韩黄色片在线| 黄色污污视频在线观看| 午夜欧美2019年伦理| 黄色片网址在线观看| 99thz桃花论族在线播放| 性做久久久久久| 欧美 国产 综合| 成人免费直播| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 国产主播在线看| 午夜精品成人av| 欧美视频三区在线播放| 尤物国产在线观看| 韩国三级大全久久网站| 欧美不卡在线视频| 91黄色免费视频| 九九热线有精品视频99| 在线观看欧美日韩| 久久久久亚洲av无码专区体验| 欧美视频网站| 26uuu另类亚洲欧美日本一 | 日韩午夜在线影院| 四季av综合网站| 一区二区导航| 久久躁日日躁aaaaxxxx| 精品少妇一二三区| 日韩成人一区二区| 91久久偷偷做嫩草影院| 五十路在线视频| 亚洲国产精品精华液ab| av一区二区三区免费观看| 自拍网站在线观看| 91精品国产91久久久久久一区二区| 国产调教打屁股xxxx网站| 美女少妇全过程你懂的久久| 精品国产欧美成人夜夜嗨| 国产中文字幕免费| 蜜臀久久99精品久久久久宅男| 91免费版网站在线观看| 男人的天堂在线| 亚洲精品中文在线| 国产1区2区在线| 久久99导航| 亚洲成人久久精品| 久久精品一区二区三区av| 国产av不卡一区二区| 在线天堂新版最新版在线8| 欧美精品自拍偷拍| 97人妻精品一区二区三区免 | 日本三级一区二区三区| 国产精品亚洲第一区在线暖暖韩国| 另类视频在线观看+1080p| 麻豆视频免费在线观看| 色综合久久综合网| 成人三级做爰av| 日韩1区在线| 1769国产精品| 亚洲欧美高清视频| 国产精品久久久久久户外露出| 国产精品333| 一区二区亚洲视频| 视频直播国产精品| 亚洲欧美另类在线视频| 成年人国产精品| www.日本三级| 国产精品毛片aⅴ一区二区三区| 亚洲色图综合网| 日韩美女黄色片| 国产成人综合视频| 在线观看亚洲视频啊啊啊啊| 免费福利视频一区二区三区| 精品国产露脸精彩对白| 久久高清内射无套| 黄色日韩网站视频| 视频一区视频二区视频三区高| 超碰在线公开| 亚洲国产天堂久久国产91| 久草视频免费播放| 国产精品一区二区免费不卡| 在线码字幕一区| 成人做爰免费视频免费看| 亚洲视频精品在线| 你懂的国产在线| 91亚洲男人天堂| 波多野结衣之无限发射| 久久夜色精品国产噜噜av小说| 欧美激情免费看| 亚洲精品久久久久久无码色欲四季| 亚洲视频 欧洲视频| 57pao国产成永久免费视频| 日韩系列欧美系列| 国产欧美一区二区三区久久人妖| 国产精品麻豆一区二区三区| 欧美在线视频日韩| 超碰人人干人人| 久久99精品视频| 国产高清免费在线| 日韩欧美中文字幕在线视频| 欧美二区在线播放| 色综合免费视频| 日韩欧美在线字幕| 少妇人妻好深好紧精品无码| 日韩电影在线观看电影| 天堂av一区二区| 9999精品视频| 欧美激情xxxx性bbbb| 免费激情视频网站| 婷婷中文字幕综合| 成人精品999| 全国精品久久少妇| 26uuu成人| 国产精品45p| 欧美最顶级丰满的aⅴ艳星| 国产三级在线| 制服丝袜激情欧洲亚洲| 国产一级一片免费播放| 91啪亚洲精品| 中文字幕乱码一区二区三区| 毛片视频网站在线观看| 97久久超碰精品国产| 亚洲午夜无码av毛片久久| 亚洲成在人线免费观看| 国产精品国产三级国产aⅴ浪潮| 波多野结衣在线网站| 欧美精品欧美精品系列| 久久久久久久福利| 97se亚洲国产综合自在线观| 五月天亚洲视频| 午夜电影亚洲| 你懂的网址一区二区三区| 91国拍精品国产粉嫩亚洲一区 | 男人天堂久久久| 欧美不卡在线视频| 日韩免费av网站| 一区二区三区在线影院| 国产精品揄拍100视频| 久久99精品久久久久久| 国产91xxx| 999精品色在线播放| 国产精品三区在线| 国产91亚洲精品久久久| 久久免费精品日本久久中文字幕| 粉嫩av在线播放| 日韩精品一区二区三区swag | 午夜裸体女人视频网站在线观看| 自拍偷拍亚洲精品| 香港一级纯黄大片| 91麻豆精品国产91久久久久| 亚洲黄色三级视频| 亚洲三级理论片| 国产人妻一区二区| 国产精品一级黄| 亚洲xxxx2d动漫1| 亚洲人成免费| 玖玖精品在线视频| 日韩免费一区| 欧美激情视频一区二区三区| 亚洲三级av| 国产区精品在线观看| 樱桃视频成人在线观看| 欧美激情按摩在线| 黄网页在线观看| 国产亚洲欧美aaaa| 亚洲欧洲综合在线| 精品久久久久久久人人人人传媒 | 欧美性受xxx黑人xyx性爽| 亚洲成人黄色影院| 放荡的美妇在线播放| 欧美国产成人在线| 色欲av无码一区二区三区| 夫妻av一区二区| 午夜免费视频网站| 久久99精品国产麻豆婷婷洗澡| 国产男女无遮挡| 国产欧美日本| 精品久久久久久久久久中文字幕| 综合激情网站| 日韩视频在线观看视频| 色欧美自拍视频| 天天综合色天天综合色hd| 一本久久青青| 青青影院一区二区三区四区| 九一精品国产| 欧洲精品码一区二区三区免费看| 亚洲精品456| 蜜桃传媒视频麻豆一区| 丝袜美腿综合| 久久青青草原一区二区| 日韩av字幕| 国内一区二区三区在线视频| 久久影院资源站| 激情五月综合色婷婷一区二区| 精品一区二区男人吃奶| 激情小说综合区| 国产欧美自拍一区| 久久国产主播精品| 亚州综合一区| 欧美日韩一区二区三区免费| 欧美先锋资源| 杨幂一区欧美专区| 91精品一区国产高清在线gif | 五月天av在线| 国产成人一区二区三区| av久久网站| 91精品综合视频| 91九色鹿精品国产综合久久香蕉| 国产高清精品一区| 日韩母乳在线| 亚洲成色www久久网站| 久久看人人摘| 屁屁影院ccyy国产第一页| 亚洲韩日在线| www日韩视频| 精品伊人久久久久7777人| 中文字幕第66页| 成人国产电影网| 精品国产av无码| 国产精品女同一区二区三区| av激情在线观看| 亚洲成av人影院在线观看网| 91精品国产综合久久久蜜臀九色| 在线免费亚洲电影| 国产按摩一区二区三区| 亚洲国产精品福利| lutube成人福利在线观看| 久久国产精品久久国产精品| 蜜桃av.网站在线观看| 国产精品情侣自拍| 日韩在线成人| 日本视频一区在线观看| 亚洲精品中文字幕乱码| 毛片在线视频播放| 精品在线你懂的| 极品粉嫩小仙女高潮喷水久久| 国产精品国产自产拍高清av| 日本熟女一区二区| 欧美三级电影一区| 人成网站在线观看| 日韩中文在线观看| 成年人黄色大片在线| 国产免费一区二区三区在线观看 | 成人黄页网站视频| 国产精品久久九九| 四虎国产精品免费观看| aa在线观看视频| 国产乱子轮精品视频| 精品成人av一区二区三区| 亚洲综合在线视频| 伊人免费在线观看| 日韩精品中文字幕在线播放| 国产在线观看a| 国产成人在线精品| 蜜桃久久久久| 色乱码一区二区三区熟女| 快she精品国产999| 黑人玩弄人妻一区二区三区| 国产精品情趣视频| 国产成人无码av| 亚洲精品在线观| 在线āv视频| 国产欧美一区二区三区久久| 九热爱视频精品视频| 欧美日韩性生活片| 成人免费精品视频| 国产精品三区在线观看| 欧美日韩高清影院| 超碰在线国产| 国产成人精品一区二区| 香蕉精品久久| 婷婷五月综合缴情在线视频| 国产一区二区不卡| 久久国产高清视频| 欧美日本在线一区| av在线女优影院| 国产精品扒开腿做爽爽爽男男| 网红女主播少妇精品视频| www.av中文字幕| 成人黄色在线看| 国产精品6666| 亚洲大胆人体在线| 国产第一页在线| 国产精品一区二区免费| 欧美天天视频| 国产av一区二区三区传媒| 一区二区三区高清| 精品人妻aV中文字幕乱码色欲| 久久久国产在线视频| 91成人小视频| aaa免费在线观看| 国产麻豆精品在线观看| 国产少妇在线观看| 日韩午夜三级在线| 日本aa在线| 精品国产一区二区三| 一区二区三区国产在线| 色天使在线视频| 日韩欧美国产一区二区| 国产青青草在线| 国产精品久久久久久超碰 | 欧美wwwxxxx| 亚洲一级大片| 欧美成人三级在线视频| 99国产麻豆精品| 波多野结衣视频网址| 中文字幕免费精品一区高清| 男人亚洲天堂| 久久免费一级片| 成人avav影音| 黄色片中文字幕| 最好看的2019年中文视频| 国产精品xnxxcom| 男女私大尺度视频| 91小视频在线| 中文字幕在线日亚洲9| 久久午夜a级毛片| 成人资源在线| 北条麻妃视频在线| 亚洲日本va在线观看| 老牛影视av牛牛影视av| 奇门遁甲1982国语版免费观看高清| 黄色不卡一区| 亚洲av无一区二区三区久久| 激情av一区二区| 中国日本在线视频中文字幕| 99re国产视频| 久久精品午夜| 国产精品嫩草影院俄罗斯| 亚洲国产福利在线| 嫩草伊人久久精品少妇av杨幂| 91免费国产精品| 国产婷婷色一区二区三区四区| 国产三级伦理片| 日本不卡高字幕在线2019| 99tv成人| 熟女丰满老熟女熟妇| 欧美日本一道本在线视频| 成人免费高清观看| 亚洲三区四区| 成人性视频免费网站| 中文字幕在线2018| 97在线精品视频| 天天做综合网| 久久精品国产亚洲AV熟女| 欧美日本一区二区在线观看| 午夜影视一区二区三区| 国产成人亚洲综合无码| 国产精品视频免费看| 少妇av一区二区| 亚洲曰本av电影| 免费在线观看精品|