別再信「百萬 token」了,我們扒了 18 個大模型,發現長文本的驚天秘密 精華
近些年,大模型圈子最火的詞莫過于「百萬 token 上下文」。
從 Google Gemini 1.5 Pro 到 GPT-4.1,再到 Llama 4,各大廠商仿佛在一場技術軍備競賽中,瘋狂地把模型的「內存」撐大。這讓你我這樣的普通用戶興奮不已:這不就意味著,我可以直接把一整本書、幾百頁的財報、甚至是整個項目代碼庫扔給 AI,讓它瞬間消化,然后對答如流嗎?
理論上是這樣。而且,在經典的 NIAH (Needle in a Haystack,即「大海撈針」) 測試中,這些模型也確實表現得像個超級學霸,幾乎每次都能精準地從海量文本中找到那根「針」。
但是,先別急著開香檳。 ??
最近,一篇“魔鬼級”的深度研究報告,把市面上 18 個主流大模型(包括你熟悉的所有明星產品)拉過來,進行了一場前所未有的長文本「極限施壓測試」。
結論非常顛覆:所謂「長文本能力」,遠比我們想象的要脆弱。
簡單來說,當任務稍微變得復雜一點,這些 AI 天才們的表現,就像是坐上了過山車,一路往下掉。??
「大海撈針」測試,其實是個「偽學霸」鑒定器?
你可能要問,經典的「大海撈針」測試不是證明它們很強嗎?
沒錯,NIAH 測試就是在一大堆無關文字(草堆)里,藏一句關鍵信息(針),然后讓 AI 找出來。
這就像是開卷考試,讓你在書里找原話,AI 當然能拿滿分。但這篇研究一針見血地指出:真實世界的問題,從來都不是找原話那么簡單。
于是,研究團隊設計了一系列“進階版”測試,只為了回答一個問題:當輸入的文本越來越長,AI 的“智商”到底會不會下降?
四場極限挑戰,AI 的“人設”崩了
研究者們設計了四種極其巧妙的玩法,把 AI 的長文本能力扒了個底朝天。
1. 問題越繞,模型越懵
如果問題和答案不是簡單的「復制粘貼」,而是需要 AI 稍微“拐個彎”去理解呢?
研究團隊設計了不同語義相似度的問題和「針」。結果發現,當問題和答案的字面意思差別越大,AI 的表現就越差。上下文越長,這種性能衰退就越嚴重。
A 君說:這就像你讓朋友去書架上幫你拿「那本藍色的書」,他很容易找到。但如果你說「幫我拿那本講星際旅行的科幻經典」,他可能就要在書架前懵圈半天了。
2. 扔幾個「煙霧彈」,AI 立刻“叛變”
真實世界里,信息往往不是非黑即白,總有很多模棱兩可的“干擾項”。
研究者在「草堆」里,除了藏著真正的「針」,還放了幾個和「針」長得很像,但卻是錯誤的「煙霧彈」(Distractors)。
結果你猜怎么著?
哪怕只放一個「煙霧彈」,AI 的準確率就開始下降。放四個,性能直接“跳水”。而且,文本越長,AI 就越容易被帶跑偏。
更有趣的是,不同模型的“性格”也暴露無遺:
- 保守派 Claude遇到不確定的情況,它會非常誠實地說:「對不起,信息太模糊,我找不到答案。」(雖然沒答對,但至少沒騙你)
- 頭鐵幻覺派 GPT它總是那么自信,哪怕是被「煙霧彈」騙了,也會理直氣壯地給出一個錯誤答案。(最怕的就是這種)
3. 文本太“和諧”,反而找不到重點?
如果「針」的內容和「草堆」的背景文章主題非常相似,AI 是更容易找到,還是更難?
實驗結果有點出乎意料,沒有統一的規律。有時候,「針」和背景文章格格不入(比如在技術論文里藏一句寫詩的技巧),AI 反而更容易發現它。
A 君說:這說明 AI 處理的上下文并非“中性填充物”,內容本身會影響它的判斷力。
4. 最反直覺的發現來了:打亂順序,成績反而更好?!
這是整篇報告中最騷,也最讓人大跌眼鏡的發現。
研究者把「草堆」文章的句子全部打亂,破壞了原文的邏輯和連貫性。按理說,這應該會加大 AI 的處理難度吧?
結果恰恰相反!
幾乎所有模型,在處理這些“被打亂的、不講邏輯”的文本時,表現都比處理原文時更好。
為什么?研究者推測,可能是連貫的文本結構以某種方式“催眠”了 AI 的注意力機制,讓它順著邏輯流“飄”了過去,反而忽略了插入其中的「針」。而混亂的文本,則迫使 AI 對每一句話都進行獨立審查,更容易發現異常。
真實世界模擬:AI 的記憶力只有七秒?
除了「大海撈針」,研究者還模擬了兩個真實場景。
場景一:長對話聊天
讓 AI 記住長達十幾萬字的聊天記錄,然后回答一個關于其中細節的問題。同時設置了一個對比組,只給 AI 看了包含答案的那一小段話。
結果毫無懸念:所有模型在只看“重點摘要”時都是學霸,但一旦面對完整的“聊天史”,成績立刻一落千丈。
場景二:「復讀機」任務
這是一個看似無腦的任務:讓 AI 精確地復制一段超長的、由同一個詞組成的文本,比如「蘋果 蘋果 蘋果...」,其中只有一個詞被換成了「香蕉」。
這考驗的是 AI 在長輸入、長輸出任務下的穩定性和精確性。
結果,AI 們的表現簡直是大型翻車現場:
- 有的直接罷工,拒絕回答。
- 有的復讀到一半,就開始胡言亂語。
- 還有的干脆把那個唯一的「香蕉」給忘了,或者放錯了位置。
▲ 隨著文本變長,Gemini 的表現越來越不穩定
A 君說:這說明,別說讓 AI 理解長文本了,有時候,讓它原封不動地“搬運”長文本都做不到。
寫在最后:別迷信參數,要敬畏「上下文」
這項研究給我們所有 AI 用戶和開發者敲響了警鐘。
「百萬 token」的上下文窗口固然是了不起的技術進步,但它絕不等于模型就能完美地利用這些信息。AI 的長文本能力,目前還是一個脆弱、不穩定且充滿未知的領域。
這給我們帶來了最重要的啟示——「上下文工程」 (Context Engineering) 的時代來了。
對于開發者和重度用戶來說,成功的關鍵不再是簡單粗暴地把所有信息都「喂」給 AI。而是要像一位高明的導演,精心設計信息在上下文中的呈現方式:
- 關鍵信息應該放在哪里?(研究表明開頭和結尾效果最好)
- 如何減少干擾信息?
- 如何構建提示詞(Prompt)才能讓 AI 更容易理解?
下一次,當你發現你的 AI 在處理長文檔時胡說八道,別急著罵它“人工智障”。
想想看,是不是你給它的“劇本”,還不夠好???
原文地址:???https://research.trychroma.com/context-rot??
本文轉載自???????草臺AI???????,作者:RangerEX

















