精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

人工智能 新聞
這是Chroma團隊的最新研究結論,他們用升級版“大海撈針”(NIAH)測試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個開源和閉源的主流大模型。

上下文擴展至1萬tokens,LLM集體“失智”!

且“智商”不是均勻下降,而是在一些節點突然斷崖式下跌。

比如Claude Sonnet 4,就是在1000tokens后準確率一路下滑,從90%降到60%。

或者是下降后放緩再下降,比如GPT-4.1和Gemini 2.5 Flash。

最終,當上下文長度來到1萬tokens,大家都只剩50%準確率。

圖片

這也就意味著,大模型在讀同一本書第10頁和第100頁時的“智商”可能不一樣。

并且不同大模型在“讀這本書”時突然降智的頁數也不同。

GPT-4.1可能讀到第10頁就“失智”了,Claude興許能堅持到第100頁。

這是Chroma團隊的最新研究結論,他們用升級版“大海撈針”(NIAH)測試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個開源和閉源的主流大模型。

結果顯示,隨著輸入長度的增加,模型的性能越來越差。

實驗還首次系統性地揭示了輸入長度對模型性能并非均勻影響,不同模型性能可能在某一tokens長度上準確率發生驟降。

這項工作得到了網友的肯定:

以往人們或許會遇到當輸入長度增加時大模型會出現性能不佳的情況,但并沒有人深入探究過這個問題。

圖片

目前代碼已開源,感興趣的朋友可復現~

1萬tokens是個坎兒

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口,隨后GPT-4.1也加入到了1M上下文隊伍中。

更長的上下文意味著LLM每次調用可以處理更多信息,似乎能生成更合理的輸出。

確實,這些模型在“大海撈針”(NIAH)這些基準測試中表現良好。但實際上,現有基準測試有一個局限性是在于它們傾向于把輸入長度與任務難度混為一談。

NIAH本質上是一個簡單的檢索任務,它是將一個已知事實(“針”)放置在一大段不相關文本(“干草堆”)中,然后要求模型檢索它。

圖片

這種方法主要評估大模型直接的詞匯匹配能力,無法代表更靈活、面向語義的任務。

其他更復雜的任務,例如包含非詞匯匹配的NoLiMa和測試文本片段缺失識別的AbsenceBench,已經揭示了模型性能在輸入長度增加時出現的顯著下降,但沒有進行更深入地探討。

為了解決經典NIAH的局限性,并更好地探究僅輸入長度對模型性能的影響,研究人員擴展了標準的NIAH任務。

研究人員基于保持任務復雜度不變,只改變輸入長度核心原則,設計了四項對照實驗。

先說結論,四項對照實驗(針-問題相似度、干擾信息、針-干草堆相似度、干草堆結構實驗)共同證明了LLMs的性能會隨輸入長度增加而顯著且非均勻地下降,且這種衰減受輸入內容的語義特征、結構等因素影響。

具體表現為:

  1. 輸入長度是性能衰減的核心變量,無論任務簡單與否,模型處理長文本的可靠性都會下降;
  2. 語義關聯性(如針-問題相似度低、針與干草堆語義融合)會加劇衰減;
  3. 干擾信息和文本結構(如邏輯連貫的干草堆)會進一步削弱模型在長上下文任務中的表現;
  4. 不同模型對這些因素的敏感程度存在差異,但整體均無法維持穩定性能。

第一項是針-問題相似度實驗:驗證“針”與“問題”的語義相似度是否會影響模型在長上下文任務中的表現,尤其是輸入長度增加時,低相似度是否會加劇性能衰減。

實驗選取了保羅?格雷厄姆散文(PG essay)和arXiv論文作為背景數據(干草堆),針對其核心主題設計問題,并為每個問題生成8個與主題匹配且未出現在干草堆中的 “針”,通過5種嵌入模型計算“針-問題”余弦相似度,分為高、低相似度兩組。

實驗控制任務復雜度和干草堆內容,僅調整輸入長度(102到10?tokens)和相似度,以模型回答準確率為指標(由GPT-4.1評估,與人類判斷一致性超過99%)。

圖片

結果顯示,所有模型性能均隨輸入長度增加而下降,到1萬token左右下降最明顯,且低相似度組衰減更顯著——

高相似度組在10?tokens 時準確率約60%-80%,低相似度組降至40%-60%,高性能模型雖在短輸入時表現更好,長輸入下仍難避免衰減。

這表明,“針-問題”語義相似度是關鍵影響因素,相似度越低,長輸入下模型性能衰減越劇烈,揭示了現有模型處理模糊信息的局限性。

第二項是干擾信息實驗:探究當輸入長度變化時,與目標信息(針)相關但不匹配的干擾內容對LLMs性能的影響,尤其是干擾項數量和個體差異是否會加劇性能衰減。

研究團隊從保羅?格雷厄姆散文和arXiv論文兩類干草堆中,選取與問題語義相似度較高的“針”,并手動設計4個干擾項。

實驗設置了三種條件:基線(僅含“針”,無干擾項)、單一干擾項(“針”+1條隨機位置的干擾項)、多重干擾項(“針”+4條隨機分布的干擾項)。

圖片

通過控制任務復雜度(僅需檢索“針”并回答問題),僅調整輸入長度(從102到10?tokens)和干擾項數量,以模型回答的準確率為指標。

圖片

結果顯示,即使單一干擾項也會導致模型性能低于基線,而加入4條干擾項會進一步加劇性能衰減。

輸入長度為10?tokens時,多重干擾項條件下模型準確率比基線低30%-50%。

圖片

此外,模型對干擾項的響應存在差異:Claude系列傾向于在不確定時棄權(明確表示無法回答),幻覺率較低;GPT系列則更可能生成自信但錯誤的答案,受干擾影響更明顯;Gemini和Qwen模型的表現波動較大,易受干擾項數量和輸入長度的雙重影響。

第三項是針-干草堆相似度實驗:探究目標信息(針)與背景文本(干草堆)的語義相似度對 LLMs長上下文任務性能的影響。

圖片

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),通過5種嵌入模型計算“針-干草堆” 余弦相似度并取平均值以保證穩健性。

實驗控制任務復雜度,僅調整輸入長度(102到 10?tokens)和相似度,以模型回答準確率為指標。

圖片

結果顯示,針-干草堆相似度對模型性能的影響不統一,不同模型敏感度存在差異,但整體上隨著輸入長度增加,各相似度條件下的模型性能普遍下降。

第四項是干草堆結構實驗:探究背景文本(干草堆)的結構模式對LLMs長上下文任務性能的影響。

圖片

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),設置連貫結構(文本按原邏輯順序呈現)和打亂結構(文本順序隨機打亂)兩種條件。

實驗控制任務復雜度,僅調整輸入長度(102 到 10? tokens)和干草堆結構。

圖片

結果顯示,多數模型在連貫結構中隨輸入長度增加性能下降更顯著,而打亂結構下性能下降較緩和——

輸入長度10?tokens 時,連貫結構中部分模型準確率降至30%-40%,打亂結構則維持在50%-60%。

這表明干草堆結構是關鍵影響因素,現有模型處理復雜邏輯結構的長文本時挑戰更大。

團隊還設計了重復單詞實驗,說明即使是最基礎的文本復現任務,LLMs 在長上下文下的穩定性也存在嚴重缺陷,且輸入與輸出長度的同步增長會加劇這一問題。

圖片

這些實驗結果共同證明,盡管大型語言模型的上下文窗口不斷增長,但其性能并非均勻一致。

基于LLMs在長文本任務上的缺陷,也有人給出了應對策略:給出明確、清晰的指令,并且在收集到足夠的信息后保存上下文,添加一個檢查點。

圖片圖片

Chroma——開源的AI應用數據庫

Chroma致力于開發開源軟件,由Jeff Huber(左)和Anton Troynikov(右)共同創立。

圖片

公司公開發布的同名數據庫Chroma是一個開源的AI應用數據庫,旨在通過將知識和技能整合為大語言模型可調用的模塊,簡化LLM應用的構建過程。

圖片

團隊活躍于LLMs長上下文處理、檢索增強生成(RAG)等領域的研究,以解決大模型在實際應用中對長文本信息的記憶、提取和利用效率問題。

目前,Chroma計劃推出免費的技術預覽,并表示:

我們100%專注于構建有價值的開源軟件。

代碼地址:https://github.com/chroma-core/context-rot

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-16 13:20:59

2025-06-10 09:10:00

2023-09-25 10:04:37

模型AI

2024-08-14 14:06:01

2012-04-29 16:25:35

App

2025-06-27 09:26:50

2024-05-21 11:35:48

阿里云通義千問

2025-02-19 13:50:00

明星編程軟件

2024-08-07 14:40:00

AI數據

2024-05-13 09:09:01

2025-05-23 08:47:00

2025-05-30 09:10:00

模型論文AI

2023-06-09 07:29:03

模型文本document

2024-04-03 13:32:24

2023-11-01 13:06:52

2023-07-05 14:53:49

模型黑馬項目Github

2025-01-16 08:40:00

點贊
收藏

51CTO技術棧公眾號

99精品视频在线观看免费播放 | 欧美日韩综合| 日韩一区二区三区观看| 野外做受又硬又粗又大视频√| 欧美性受xxx黑人xyx性爽| 日韩精品影视| 精品久久久久一区| 已婚少妇美妙人妻系列| 黄视频在线观看网站| 国产高清无密码一区二区三区| 日韩视频第一页| youjizz.com日本| 欧美精品资源| 亚洲国产综合91精品麻豆| 日本一区高清在线视频| 成人黄色免费视频| 日韩av在线播放中文字幕| 九色成人免费视频| 美国黑人一级大黄| 国产一区二区三区亚洲| 亚洲福中文字幕伊人影院| 特级西西444www大精品视频| 中文字幕人妻一区二区三区视频 | 欧美精品一区二区成人| 欧美日本三级| 亚洲成人你懂的| 亚洲一二三区在线| 涩涩视频在线观看免费| 国产精品主播直播| 欧美激情综合亚洲一二区| 精品无码在线观看| 日韩福利视频一区| 色系网站成人免费| 亚洲欧洲一二三| 日韩在线视频第一页| 激情综合网av| 久久全国免费视频| 日本妇女毛茸茸| 久久日文中文字幕乱码| 亚洲一区第一页| 欧美大片久久久| 成人福利片在线| 色呦呦国产精品| 欧美v在线观看| 国产不卡123| 亚洲午夜羞羞片| 99热这里只有精品免费| 97超碰在线公开在线看免费| 国产精品白丝在线| 色999五月色| 国产小视频在线播放| 91麻豆视频网站| 精品伦精品一区二区三区视频| 日本黄色中文字幕| 美女91精品| 青青久久av北条麻妃海外网| 永久看片925tv| 久久久9色精品国产一区二区三区| 亚洲国模精品一区| 中国特级黄色大片| 狼人天天伊人久久| 亚洲精品乱码久久久久久金桔影视| 成年网站在线播放| 成人性片免费| 欧美日韩国产123区| 黄色www网站| 日本三级一区| 色狠狠综合天天综合综合| 免费激情视频在线观看| 日本不卡影院| 亚洲成人一区在线| 一区二区传媒有限公司| 欧美成人h版| 欧美日韩在线播放| 国产成人美女视频| 色成人免费网站| 欧美日韩激情在线| 免费黄频在线观看| 国产精品17p| 亚洲人成网在线播放| 精品人妻在线视频| 亚洲另类av| 亚洲国产天堂久久综合| 日本aaa视频| 久久蜜桃av| 欧美激情第1页| 9i看片成人免费看片| 亚洲日本成人| 国产精品久久久久久久天堂| 国产av一区二区三区精品| 成人av在线看| 亚洲精品国产精品国自产| 欧美女优在线观看| 国产精品久久久久影视| 色阁综合av| 羞羞电影在线观看www| 精品国产精品三级精品av网址| 亚洲理论电影在线观看| 久久uomeier| 91精品在线免费| 性欧美丰满熟妇xxxx性仙踪林| 网友自拍区视频精品| 色噜噜国产精品视频一区二区 | 国产精品久久久久一区二区三区 | 日本美女一级视频| 国产欧美精品国产国产专区| 久久久久久久免费| 久久久久久国产精品免费无遮挡| 中文字幕欧美三区| 日韩极品视频在线观看| 日本美女久久| 精品视频在线视频| 一区二区免费在线观看视频| 久久精品国产大片免费观看| 97久久精品国产| 在线视频 中文字幕| 不卡高清视频专区| 亚洲一区二区在| 一区二区三区短视频| 日韩一区二区在线观看| 美女又黄又免费的视频| 国产午夜一区| 国产+人+亚洲| 99热精品在线播放| 欧美国产成人精品| 中文字幕一区二区三区有限公司 | 1区2区3区欧美| 欧美牲交a欧美牲交aⅴ免费真 | 欧美国产综合| 国产精品欧美一区二区| 性xxxfllreexxx少妇| 亚洲精品亚洲人成人网| 亚洲色图 在线视频| 亚洲丁香日韩| 97精品视频在线播放| 精品久久在线观看| 国产精品护士白丝一区av| 红桃av在线播放| 免费日韩一区二区三区| 色与欲影视天天看综合网| 亚洲天堂2021av| 国产日韩精品一区二区三区 | 人人爽人人爽av| 精品freesex老太交| 欧美亚洲成人免费| 日本精品久久久久| 亚洲成av人综合在线观看| 久久出品必属精品| 国产精品国产一区| 国产在线拍揄自揄视频不卡99| 丰满人妻一区二区三区免费| 亚洲免费在线看| 杨幂一区二区国产精品| 久久久久久久久丰满| 97在线视频一区| 中文字幕在线网站| 欧美高清在线一区| 国产aaaaa毛片| 日韩欧美大片| 成人福利网站在线观看11| 免费在线看黄网站| 91精品国产一区二区三区香蕉| www.免费av| 免费在线成人| 神马一区二区影院| 成人久久网站| 欧美成人精品h版在线观看| 国产模特av私拍大尺度| 亚洲色图欧美偷拍| 亚洲妇女无套内射精| 黄色成人91| 久久综合中文色婷婷| 欧美www.| www.亚洲天堂| 亚洲爱情岛论坛永久| 国产精品欧美精品| 一级淫片在线观看| 国模大胆一区二区三区| 韩日午夜在线资源一区二区| 樱桃视频成人在线观看| 中日韩午夜理伦电影免费| 一级特黄色大片| 有坂深雪av一区二区精品| 人妻 日韩 欧美 综合 制服| 久久一区二区三区四区五区 | 天天操天天操天天操| 一本到不卡精品视频在线观看| 国产伦精品一区三区精东| 麻豆精品网站| 中文字幕在线中文字幕日亚韩一区| 欧美日韩视频网站| 日韩在线观看网址| 亚洲男人第一天堂| 色综合咪咪久久| 裸体武打性艳史| 91丨九色丨国产丨porny| 日韩av片网站| 亚洲成人中文| 亚洲午夜精品一区二区| 黑色丝袜福利片av久久| 国产精品偷伦一区二区| 超碰在线网站| 中文国产成人精品久久一| 国 产 黄 色 大 片| 在线观看日韩高清av| 免费在线看黄网址| 久久精品人人做人人综合 | 亚洲在线播放| 玖玖精品在线视频| 免费观看久久av| 91丨九色丨国产| av成人在线播放| 97国产真实伦对白精彩视频8| 欧美 日韩 人妻 高清 中文| 欧美在线三级电影| 日韩和一区二区| 亚洲视频你懂的| 能直接看的av| www日韩大片| av免费观看不卡| 韩国av一区二区三区| 爱情岛论坛vip永久入口| 尤物在线精品| 欧美交换配乱吟粗大25p| 精品72久久久久中文字幕| 国产伦精品一区二区三区四区免费 | 日韩三级视频在线播放| 亚洲天堂成人在线观看| 久久婷婷五月综合| 激情五月婷婷综合网| 成年人免费大片| 国产欧美短视频| 精品国偷自产一区二区三区| 最新亚洲精品| 国产精品夜间视频香蕉| a黄色片在线观看| 色噜噜狠狠狠综合曰曰曰88av | 亚洲美女中文字幕| 午夜久久久久久噜噜噜噜| 91 com成人网| 国产乱色精品成人免费视频| 亚洲高清免费视频| 一区二区在线观看免费视频| 91麻豆精品视频| 亚洲av成人无码一二三在线观看| 日韩专区一卡二卡| 18禁免费无码无遮挡不卡网站| 成人6969www免费视频| 久久伊人资源站| 色婷婷av一区二区三区丝袜美腿| 成人激情视频在线| 国产99在线观看| 97在线观看免费| 三妻四妾的电影电视剧在线观看| 日韩中文字幕网址| 最新电影电视剧在线观看免费观看| 日韩一区二区精品葵司在线| 波多野结衣视频网站| 欧美日韩国产专区| 少妇aaaaa| 亚洲精品久久7777| 天堂资源在线播放| 欧美午夜激情视频| 无码人妻精品一区二区三区蜜桃91| 亚洲人123区| 精品97人妻无码中文永久在线| 中文字幕乱码日本亚洲一区二区 | 国产精品毛片久久久| 国产精品一区二区三区在线观| 日韩三级成人| 95av在线视频| 成人动态视频| 久久久精品国产一区二区三区| 4438全国亚洲精品观看视频| 国产精华一区| 国产剧情一区二区在线观看| 成人av免费电影| 任你躁在线精品免费| 日韩欧美在线观看强乱免费| 91中文字幕精品永久在线| 国产精品久久成人免费观看| 在线观看一区视频| 日本男人操女人| 国产精品入口66mio| 999精品视频在线| 韩国毛片一区二区三区| 成人在线电影网站| 国产亚洲一二三区| 国产一二三av| 亚洲第一久久影院| 青娱乐在线免费视频| 91精品国产综合久久久蜜臀粉嫩 | 日韩精品最新网址| 国产麻豆免费视频| 精品国内二区三区| 国产人成在线观看| 欧美老女人性生活| 刘亦菲一区二区三区免费看| 亚洲自拍小视频免费观看| 欧美一区 二区| 国产精品亚洲天堂| 国产一区白浆| 天天操夜夜操很很操| 国产精品资源在线观看| 免费观看av网站| 一区二区三区四区不卡在线 | 色婷婷精品久久二区二区蜜臀av| 国产毛片aaa| 777xxx欧美| 黄色av免费在线看| 亚洲最新av在线| 91免费在线| 午夜欧美不卡精品aaaaa| 欧美与亚洲与日本直播| 风间由美一区二区三区| 免费观看久久av| 日韩av影视| 最新亚洲一区| 欧美一区二区三区影院| 国产精品视频观看| 丝袜 亚洲 另类 欧美 重口| 在线精品视频免费播放| 天天操天天射天天| 欧美大胆在线视频| zzzwww在线看片免费| 91视频8mav| 日韩美女一区二区三区在线观看| 成人在线观看www| 免费欧美在线视频| 国产精品成人一区二区三区电影毛片| 欧美激情一区二区三区| 日韩欧美一区二区一幕| 欧美在线观看视频一区二区 | 亚洲成人激情在线观看| 成人日日夜夜| 成人字幕网zmw| 成人羞羞网站入口免费| 国产91在线亚洲| 国产乱码一区二区三区| 污污的视频在线免费观看| 精品婷婷伊人一区三区三| yw视频在线观看| 欧美成人午夜激情| 中文在线资源| 欧美人与性禽动交精品| 男人天堂欧美日韩| 国产三级视频网站| 精品福利在线看| 日韩欧美亚洲系列| 91精品国产高清自在线| 小嫩嫩12欧美| www.亚洲一区二区| 韩国一区二区在线观看| 性欧美疯狂猛交69hd| 在线观看91精品国产麻豆| 久久黄色美女电影| 91久久久亚洲精品| 在线电影一区二区| 亚洲欧美日韩中文字幕在线观看| 国产色综合久久| 在线免费观看中文字幕| 久久天天躁狠狠躁夜夜av| 国产精品成人**免费视频| www.18av.com| 91在线视频18| 蜜臀99久久精品久久久久小说| 亚洲第一网站男人都懂| 成人ssswww在线播放| 欧美日韩精品久久| 美女免费视频一区| 真实国产乱子伦对白在线| 精品福利在线导航| 蜜桃av在线播放| 天堂社区 天堂综合网 天堂资源最新版| 在线成人亚洲| 国产精品高清无码在线观看| 欧美女孩性生活视频| 中日韩高清电影网| 久久久久九九九| 久久成人精品无人区| 亚洲av熟女国产一区二区性色| 欧美性猛交xxxx黑人| 97视频在线观看网站| 亚洲一区美女视频在线观看免费| 久久一级电影| 日本天堂在线播放| 色视频成人在线观看免| 黄在线免费看| 含羞草久久爱69一区| 免费av网站大全久久| 久久婷婷综合国产| 亚洲天堂av在线免费| 亚洲国产视频二区| 欧美韩国日本在线| 91丨porny丨国产入口| 中文在线免费看视频| 久久久噜噜噜久久| 成人vr资源| 国产毛片毛片毛片毛片毛片毛片| 天天操天天干天天综合网|