精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Chroma:上下文退化-增加輸入 Tokens 長度對 LLM 性能的影響

發布于 2025-9-26 00:05
瀏覽
0收藏

Chroma發現,即使是最先進的LLM在處理長輸入時也會出現性能不一致的"上下文退化"問題。通過測試主流模型發現,隨著輸入長度增加,模型性能持續下降。長上下文能力不僅是技術指標,更是需要精心設計的系統工程。

1. 現有評估基準的局限性

1.1 大海撈針測試的不足

2. 擴展后的測試方案

3. 測試項目

3.1 針與問題的相似度對性能的影響(Needle-Question Similarity)

3.2 干擾項對性能的影響(Impact of Distractors)

3.3 針與草堆的相似度對性能的影響(Needle-Haystack Similarity)

3.4 草堆的結構對性能的影響(Haystack Structure)

3.5 長記憶評估(LongMemEval)

3.6 重復的詞語(Repeated Words)

4. 測試結果(性能退化的普遍性)

5. 結論(上下文工程的重要性)

在人工智能快速發展的今天,大型語言模型(LLM)的上下文窗口長度已經成為衡量模型能力的重要指標。

從早期的幾千個token到現在的數百萬token,模型處理長上下文的能力正在不斷提升。

并且在常用的Needle in a Haystack (NIAH) 測試中,各大模型的表現都非常完美。

2025年7月14日,Chroma公司最新發布了一份技術報告《Context Rot: How Increasing Input Tokens Impacts LLM Performance》,報告發現了一個需要思考的現象:

即使是最先進的LLM,在處理長輸入時也會出現性能不一致的問題

這項研究評估了18個主流LLM模型,包括最新的GPT-4.1、Claude 4、Gemini 2.5、Qwen3等,在這些模型中都發現了一個共同的問題,就是上下文退化(Context Rot)。

正如報告中所指出的:"模型并不能均勻使用其上下文,而是隨著輸入長度增長,性能變得越來越不可靠。"

Chroma 或 ChromaDB 是一個專為大型語言模型應用設計的開源向量數據庫。

支持向量、全文、正則表達式及元數據搜索。可在本地開發,并擴展至云端 PB 級存儲。采用對象存儲支持。提供無服務器搜索與檢索功能,確保快速、經濟且可靠

2023 年 4 月,該公司成功獲得了 1800 萬美元的種子輪融資。

1. 現有評估基準的局限性

1.1 大海撈針測試的不足

目前最廣泛使用的長上下文評估基準是 "大海撈針"(Needle in a Haystack, NIAH) 測試。

這個測試將一條隨機事實("針")放在長上下文窗口("干草堆")的中間,然后詢問模型關于這個事實的問題。

然而,NIAH本質上是一個簡單的檢索任務,

這種測試方法存在明顯的局限性:

  • 過于簡單:只涉及直接的詞匯匹配
  • 缺乏語義理解:不需要復雜的推理能力
  • 脫離實際:不能反映真實應用場景的復雜性

"大海撈針"(Needle in a Haystack, NIAH)的測試方法

2. 擴展后的測試方案

在實際應用中,如智能體任務或摘要,需要對更廣泛、通常更模糊的信息進行更多的處理和推理。

僅僅能夠在大海中找到一根針是不夠的。

真實世界的長上下文任務往往需要:

  • 復雜的語義理解
  • 多層次的推理
  • 處理模糊和矛盾的信息
  • 整合來自不同來源的信息

比如:

問題:哪個角色曾經到過Helsinki?
回答:Yuki住在Kiasma博物館隔壁。

為了回答這個問題,模型首先需要知道Kiasma博物館位于Helsinki,并建立這種潛在的聯系。這不僅測試了模型非詞匯匹配的能力,還測試了它的世界知識。

這種非詞匯匹配的針-問題(需要模型推斷潛在關聯)對模型來說更具挑戰性。

模型在處理任務時還需應對干擾項,這些干擾項與主題相關但不能完全回答問題,而無關內容則與針和問題都不相關。當前的模型在不同輸入長度下的抗干擾能力尚未得到充分測試。

NIAH任務中草堆內容本身對任務性能的影響也是一個未被充分研究的領域,因為通常草堆只是被視為擴展輸入長度的手段,而未考慮其內容對模型的影響。

于是Chroma針對以上幾個局限性,做了相應的測試優化,來評估不同情況下對模型的性能影響。

測試涵蓋了當前主流的LLM模型:

Anthropic系列:Claude Opus 4、Claude Sonnet 4、Claude Sonnet 3.7/3.5、Claude Haiku 3.5

OpenAI系列:o3、GPT-4.1系列(標準版、mini、nano)、GPT-4o、GPT-4 Turbo、GPT-3.5 Turbo

Google系列:Gemini 2.5 Pro/Flash、Gemini 2.0 Flash

Alibaba系列:Qwen3-235B-A22B、Qwen3-32B、Qwen3-8B

3. 測試項目

3.1 針與問題的相似度對性能的影響(Needle-Question Similarity)

在實際應用中,模型往往需要處理模糊任務,識別相關信息,而無需依賴精確的詞匯匹配。

例如,當Agent被賦予一個需要搜索大量語料庫的任務時,用戶很少會為相關部分指定精確的關鍵詞,相反,模型必須推斷相關性。

隨著針-問題相似度的降低,模型性能會隨著輸入長度的增加而更加顯著地變差。這更符合現實情況,即精確的問題-答案匹配非常罕見,而語義上的模糊性使得長輸入處理變得更加困難。

測試結果

對于相似度較低的針-問題,隨著輸入長度的增加,性能會更快地下降。

在測試了 11 個不同的位置后,性能沒有出現明顯的變化。

藍色:高相似性; 紅色:低相似度

3.2 干擾項對性能的影響(Impact of Distractors)

干擾項會損害模型的性能,且影響程度不一。輸入長度增加后,模型的抗干擾性是否仍然有效?

測試進行三種測試條件

  • 無干擾(基線):只有
  • 單一干擾項:+ 一個隨機放置的干擾項
  • 多個干擾項:和所有四個干擾項隨機分布在干草堆中

干擾項的影響 - 三種情況

測試結果

與基準(僅)相比,即使一個干擾項也會降低性能,而添加四個干擾項會進一步加劇這種性能退化。

干擾項的影響:根據干擾項數量劃分的性能表現

3.3 針與草堆的相似度對性能的影響(Needle-Haystack Similarity)

針-草堆 的相似性是否會影響任務難度?直觀上,如果針與草堆內容混為一體,模型提取的難度可能會增加。

針-草堆相似度實驗

測試結果

這個測試,沒有得出 “針和草堆越相似,模型表現就越差” 這樣的結論。

但是看到模型在處理長上下文時并不穩定:維持任務結構和針與問題的相似度都保持不變,在調整針和草堆之間的語義相似度后,發現結果就會發生變化。

這個測試項目,還需要在以后的長上下文評測里進一步深入研究。

針-草堆相似度測試結果

3.4 草堆的結構對性能的影響(Haystack Structure)

為了評估文檔結構的影響,測試兩種情況:

  1. 原始內容:保持每個文檔的自然流暢性
  2. 句子被隨機打亂,在整個文本中重新排序,以保持相同的大致主題,但缺乏邏輯連貫性

草堆(Haystack)結構示例

測試結果

在所有 18 個模型和針-草堆配置中,模型在處理打亂順序的草堆時,表現通常優于邏輯結構化的草堆。

原始與順序打亂的草堆(Haystack)在18個模型上的平均性能

3.5 長記憶評估(LongMemEval)

為了將“記憶”功能集成到聊天助手中,一種簡單的方法是將完整的聊天歷史記錄包含在后續聊天的提示中。

這要求模型在一次調用中執行兩個任務:檢索對話歷史記錄的相關部分,然后將這些相關內容以有用的方式綜合起來。

在理想情況下,模型只需處理相關內容,從而能集中精力進行推理。若加入不相關的上下文,模型不僅需要識別哪些是相關內容,還需同時處理兩個任務,這無疑增加了其負擔。

通過兩種條件進行驗證

  1. 輸入內容集中,僅包含相關部分,這樣模型只需進行簡單的推理。
  2. 完整輸入,使用了包含無關上下文的全部輸入。在這種情況下,模型除了推理外,還需要在長上下文中進行檢索。

測試結果

在所有模型中,發現使用相關性的提示,表現明顯優于全面的提示。

長記憶評估結果:Claude系列長記憶評估結果 - Qwen 系列

3.6 重復的詞語(Repeated Words)

由于這些模型是自回歸的,模型的輸出也屬于其輸入;每個Token都是在輸入和已經生成的Tokens的條件下生成的,如果輸出長度也隨輸入長度變化,情況會怎樣?

使用一個簡單的程序,要求模型復制一個由重復單詞組成的序列,并在特定位置插入一個獨特的單詞。提示明確要求模型精確復現輸入文本,類似這個提示:

Simply replicate the following text, output the exact same text: apple apple apple apple apples(這個地方不一樣) apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple apple

測試結果

即使是這些簡單的任務,隨著上下文長度的增加(包括輸入和輸出長度),模型性能也會變得不均勻

Chroma:上下文退化-增加輸入 Tokens 長度對 LLM 性能的影響-AI.x社區

4. 測試結果(性能退化的普遍性)

在所有實驗中,隨著輸入長度增加,模型性能都出現了持續下降

  • 針與問題的相似度越低,性能下降速度越快。
  • 不同干擾項帶來的影響不一樣,有的特別讓模型分心,有的影響沒那么大。當輸入越長、干擾項越多時,模型的性能下降得更明顯,而且不同模型在應對這些干擾時的表現方式也不一樣
  • 針與草堆的相似度對模型性能沒有統一的影響,需要進一步的研究。
  • 草堆的結構可能會影響模型對長文本輸入的思考方式。

現實世界的應用通常涉及更大的復雜性,這意味著輸入長度的影響在實踐中可能更加明顯。

5. 結論(上下文工程的重要性)

LLMs 在不同上下文長度下表現是不穩定的,即便在簡單任務中也如此。

信息在模型上下文中呈現的位置和方式對任務性能有顯著影響,因此,上下文工程是未來優化模型性能的一個重要方向。

即精心構建和管理模型的上下文窗口。

Whether relevant information is present in a model's context is not all that matters; what matters more is how that information is presented.(相關信息是否存在于模型的上下文中并不是最重要的;更重要的是如何呈現這些信息。)

我們忽視了一個基本事實:

長上下文能力不僅僅是技術指標,更是一個需要精心設計和管理的系統工程

原文

??https://research.trychroma.com/context-rot??

本文轉載自??AI取經路??,作者:AI取經路

已于2025-9-26 11:20:46修改
收藏
回復
舉報
回復
相關推薦
欧洲黄色一级视频| 国产伦理久久久| 日韩视频中文字幕在线观看| 亚洲高清999| 亚洲成a人在线观看| 麻豆传媒一区二区| 国产女同91疯狂高潮互磨| 影音先锋在线一区| 中文字幕亚洲在线| 欧产日产国产精品98| 99热这里有精品| 色婷婷久久久久swag精品 | 成年人在线视频| 国产伦精品一区二区三区免费 | www.-级毛片线天内射视视| 神马午夜在线观看| 国产一区二区三区四区在线观看| 26uuu国产精品视频| 国产精品 欧美激情| 日韩大片在线观看| 亚洲国内精品在线| 亚洲少妇一区二区| 高清不卡一区| 欧美在线一二三四区| 精品少妇人妻av免费久久洗澡| 黄在线免费看| 国产欧美精品国产国产专区| 国产综合色一区二区三区| 国产又粗又猛又黄又爽| 日韩不卡手机在线v区| 欧美性一区二区三区| 福利一区二区三区四区| 亚洲女同另类| zzjj国产精品一区二区| 91精品国自产在线| 国产精品一区二区av交换| 亚洲第一中文字幕在线观看| 天天操精品视频| 婷婷激情成人| 欧美男同性恋视频网站| 国产小视频精品| 日韩av电影资源网| 色琪琪一区二区三区亚洲区| 四虎永久在线精品无码视频| 久久青草伊人| 午夜视频在线观看一区| 免费在线观看视频a| 男女视频在线| 亚洲午夜一区二区三区| 欧美日韩视频免费| 久久av色综合| 激情懂色av一区av二区av| 免费无码毛片一区二三区| 日本不卡影院| 亚洲r级在线视频| 青娱乐自拍偷拍| 免费h视频在线观看| 婷婷开心久久网| 国产精品动漫网站| 亚洲wwww| 欧美军同video69gay| 三年中文在线观看免费大全中国| 啪啪av大全导航福利综合导航| 欧美日韩美女一区二区| 亚洲高清视频免费| 亚洲超碰在线观看| 日韩电影网在线| 免费中文字幕av| 国产毛片一区二区三区| 丝袜美腿亚洲一区二区| 一区二区成人免费视频| 亚洲大片av| 日韩av高清不卡| 中文字幕日韩第一页| 国产精品综合一区二区三区| 福利视频一区二区三区| 天堂av在线7| 国产精品午夜免费| 国产一级大片免费看| av最新在线| 欧美三级日韩在线| 在线观看网站黄| 午夜精品福利影院| 爱福利视频一区| 日本熟妇一区二区| 日本大胆欧美人术艺术动态| 97久久天天综合色天天综合色hd| 日本韩国免费观看| 国产精品色哟哟网站| 欧美成人精品免费| 日本成人福利| 精品欧美黑人一区二区三区| 91网站免费视频| 天天综合亚洲| 欧美一级免费视频| 国产女18毛片多18精品| 91一区在线观看| 午夜啪啪福利视频| 成人片免费看| 精品乱码亚洲一区二区不卡| 久久精品国产亚洲AV熟女| 一级欧洲+日本+国产| 日韩av快播网址| 成人久久久精品国产乱码一区二区| 国产三级欧美三级| 丁香六月激情婷婷| 日韩成人在线一区| 亚洲精品资源美女情侣酒店 | 综合久久亚洲| 日本成熟性欧美| 精品人妻午夜一区二区三区四区 | 极品少妇xxxx精品少妇| 久久久久免费网| 1769免费视频在线观看| 欧美三级中文字幕| 成人免费无遮挡无码黄漫视频| 午夜电影亚洲| 成人免费看吃奶视频网站| 日韩福利一区二区| 亚洲一区自拍偷拍| 在线观看日本www| 日韩久久精品| 国产精品91久久久| 青青免费在线视频| 午夜不卡av在线| 麻豆tv在线观看| 久久精品青草| 国产日韩欧美在线看| 国产对白叫床清晰在线播放| 岛国av一区二区三区| 男人午夜视频在线观看| 99久久99热这里只有精品| 国产精品色视频| 成人激情电影在线看| 91久久精品国产91性色tv| 中文字幕日韩三级片| 一区二区三区福利| 久久精品中文字幕一区二区三区 | 成人免费网站在线| 日本中文字幕在线2020| 欧美日韩在线亚洲一区蜜芽| 亚洲日本精品视频| 老鸭窝91久久精品色噜噜导演| 精品无人乱码一区二区三区的优势 | 一卡二卡三卡在线| 中文字幕日韩一区| 久久6免费视频| 欧美伊人影院| a级国产乱理论片在线观看99| 中文在线手机av| 日韩美女天天操| 日韩av无码中文字幕| 成人动漫在线一区| 大肉大捧一进一出好爽视频| 亚洲精品合集| 国产福利视频一区二区| 日本中文字幕在线看| 在线综合视频播放| 加勒比av在线播放| 本田岬高潮一区二区三区| 妺妺窝人体色777777| 日韩有码中文字幕在线| 国产精品91免费在线| 91在线直播| 日韩一区二区三区免费观看| 久久精品国产亚洲av无码娇色| 成人一区二区三区中文字幕| 日韩精品 欧美| 不卡中文字幕| 91在线观看欧美日韩| tube8在线hd| 在线播放国产精品| 国产女无套免费视频| 午夜在线成人av| 四虎国产精品成人免费入口| 久久超碰97人人做人人爱| 麻豆传媒网站在线观看| 久草精品视频| 国产综合福利在线| av电影免费在线看| 在线视频精品一| 精品人妻aV中文字幕乱码色欲 | 久久久国产精品视频| 高清乱码毛片入口| 在线视频一区二区免费| 永久免费看黄网站| 久久精品一区四区| 久久久久久无码精品人妻一区二区| 香蕉视频成人在线观看| 久久久国产精华液999999| 欧美三级电影在线| 成人福利视频网| 中文字幕资源网在线观看免费| 中文字幕精品在线视频| 秋霞网一区二区| 欧美日韩aaaaaa| www.日本精品| 亚洲婷婷综合久久一本伊一区 | 亚洲国产精品久久久久久久 | 97视频在线观看视频免费视频| 亚洲成人三级| 精品亚洲一区二区三区在线播放| 夜夜爽8888| 欧美午夜影院在线视频| 欧美三级免费看| 亚洲国产成人一区二区三区| 亚洲一区二区三区四区五区六区| 国精产品一区一区三区mba视频| www黄色日本| 一本一本久久a久久综合精品| 欧美性天天影院| 91在线一区| 成人综合国产精品| 国产福利亚洲| 国产成人一区二区三区电影| 成人免费图片免费观看| 欧美另类在线观看| 日本高清中文字幕在线| 亚洲精品视频免费| 天堂中文资源在线| 精品福利av导航| 国产美女明星三级做爰| 欧美区一区二区三区| 香蕉污视频在线观看| 精品国产成人av| 国产在线视频在线观看| 亚洲激情自拍偷拍| 婷婷伊人五月天| 国产精品成人网| 快灬快灬一下爽蜜桃在线观看| aaa国产一区| 中文字幕一区三区久久女搜查官| 国产麻豆一精品一av一免费| 天天干天天色天天干| 日本成人在线一区| 欧美日韩亚洲自拍| 日韩av不卡在线观看| 18岁视频在线观看| 日本欧美在线观看| 美女一区二区三区视频| 日韩av一级电影| 校园春色 亚洲色图| 日韩**一区毛片| 污版视频在线观看| 男人操女人的视频在线观看欧美| 日本久久精品一区二区| 日本亚洲免费观看| 亚洲一级片网站| 国模无码大尺度一区二区三区| 91大神免费观看| 国产精品中文字幕日韩精品 | 久久一区二区视频| xxx在线播放| 中文av字幕一区| 四虎影院中文字幕| 一区二区激情视频| 精品91久久久| 色综合 综合色| 欧美另类高清videos的特点| 欧美日韩精品一区二区三区蜜桃| 在线免费一级片| 欧美岛国在线观看| 国产精品国产高清国产| 亚洲人成网7777777国产| 国产女人在线观看| 久久精品视频一| 91视频欧美| 日本一欧美一欧美一亚洲视频| 日本美女久久| 国产91色在线|亚洲| 欧美亚洲tv| 亚洲精品在线视频观看| 亚洲综合自拍| 日本一区二区黄色| 久久精品99国产精品| 欧美熟妇精品一区二区| 久久精品男人的天堂| 东方av正在进入| 欧美日韩在线另类| 91精品国产乱码久久久| 精品1区2区在线观看| 成人在线免费电影| 欧美另类高清videos| 欧美三区四区| 国产99视频精品免费视频36| 亚洲综合小说图片| 99亚洲国产精品| 男人的天堂亚洲| 日本网站在线看| 国产三级欧美三级| 精品无码久久久久久久| 欧洲精品一区二区三区在线观看| 亚洲国产精品国自产拍久久| 伊人成人开心激情综合网| 午夜av在线免费观看| 国产精品入口免费视| 日韩美女精品| 男女裸体影院高潮| 久久亚洲美女| 黄色污在线观看| 亚洲精选免费视频| 高潮毛片又色又爽免费| 亚洲精品一区二区三区99| 午夜在线观看视频| 欧日韩在线观看| 成人三级av在线| 中文字幕日韩一区二区三区不卡 | 最新中文字幕日本| 国产精品久久久99| 五月婷婷色丁香| 亚洲第一中文字幕在线观看| 国产激情小视频在线| 国产精品久久久久久久久久| 欧美一区自拍| 国产 欧美 日韩 一区| 激情综合亚洲精品| 夫妇露脸对白88av| 色婷婷国产精品综合在线观看| 二区三区在线视频| 欧美成人精品在线视频| 久久av影院| 亚洲成人网上| 爽好久久久欧美精品| 女~淫辱の触手3d动漫| 亚洲午夜在线观看视频在线| 性生交生活影碟片| 欧美成人自拍视频| 国产美女精品视频免费播放软件| 午夜午夜精品一区二区三区文| 久久久久久自在自线| 成人免费av片| 黑人精品xxx一区| 天天干天天舔天天射| 午夜精品久久17c| 国产伦精品一区二区三区免费优势| 成年人深夜视频| 国产精品99久久久久久宅男| 老湿机69福利| 日韩视频一区二区| 呦呦在线视频| 成人动漫在线观看视频| 极品尤物久久久av免费看| 亚洲美女高潮久久久| 亚洲成人资源在线| 五月婷婷开心中文字幕| 91精品国产91| 免费av一区| wwwwxxxx日韩| 亚洲欧洲成人自拍| 99久久精品无免国产免费| 九九热在线精品视频| 国产精品欧美大片| 日韩精品一区二区三区久久| 久久精品日产第一区二区三区高清版 | 一本到12不卡视频在线dvd| 欧美色图校园春色| 亚洲午夜精品17c| 亚洲日本香蕉视频| 国产精品91在线观看| 久久亚洲在线| 丰满人妻一区二区三区53视频| 亚洲二区视频在线| 久草在线网址| 国产日韩欧美自拍| 国产精品v一区二区三区| 永久免费未满蜜桃| 91搞黄在线观看| 久久日韩视频| 国产日韩在线一区二区三区| 爽好久久久欧美精品| 成人在线观看免费完整| 精品国产三级a在线观看| 欧美一级大黄| 2021国产视频| 91蜜桃网址入口| 91精品人妻一区二区三区果冻| 色综合久综合久久综合久鬼88 | av成人免费在线| 五月激情丁香网| 欧美成人性生活| 猫咪成人在线观看| 999精彩视频| 亚洲成人午夜电影| 欧美一级二级三级区| 国产伦精品一区二区三区视频黑人| 天堂成人国产精品一区| 国产免费无码一区二区视频| 精品夜色国产国偷在线| **国产精品| 成人av一级片| 亚洲欧美一区二区不卡| 男男电影完整版在线观看| 成人在线一区二区| 日韩精品成人一区二区三区| 18精品爽视频在线观看| 影音先锋日韩有码| 久久99精品国产自在现线| 欧美性受xxxxxx黑人xyx性爽| 欧美日韩黄色大片| 成a人片在线观看|