別再信「百萬 token」了，我們扒了 18 個大模型，發現長文本的驚天秘密精華

發布于 2025-7-22 06:51

瀏覽

0收藏

近些年，大模型圈子最火的詞莫過于「百萬 token 上下文」。

從 Google Gemini 1.5 Pro 到 GPT-4.1，再到 Llama 4，各大廠商仿佛在一場技術軍備競賽中，瘋狂地把模型的「內存」撐大。這讓你我這樣的普通用戶興奮不已：這不就意味著，我可以直接把一整本書、幾百頁的財報、甚至是整個項目代碼庫扔給 AI，讓它瞬間消化，然后對答如流嗎？

理論上是這樣。而且，在經典的 NIAH (Needle in a Haystack，即「大海撈針」) 測試中，這些模型也確實表現得像個超級學霸，幾乎每次都能精準地從海量文本中找到那根「針」。

但是，先別急著開香檳。 ??

最近，一篇“魔鬼級”的深度研究報告，把市面上 18 個主流大模型（包括你熟悉的所有明星產品）拉過來，進行了一場前所未有的長文本「極限施壓測試」。

結論非常顛覆：所謂「長文本能力」，遠比我們想象的要脆弱。

簡單來說，當任務稍微變得復雜一點，這些 AI 天才們的表現，就像是坐上了過山車，一路往下掉。??

「大海撈針」測試，其實是個「偽學霸」鑒定器？

你可能要問，經典的「大海撈針」測試不是證明它們很強嗎？

沒錯，NIAH 測試就是在一大堆無關文字（草堆）里，藏一句關鍵信息（針），然后讓 AI 找出來。

這就像是開卷考試，讓你在書里找原話，AI 當然能拿滿分。但這篇研究一針見血地指出：真實世界的問題，從來都不是找原話那么簡單。

于是，研究團隊設計了一系列“進階版”測試，只為了回答一個問題：當輸入的文本越來越長，AI 的“智商”到底會不會下降？

四場極限挑戰，AI 的“人設”崩了

研究者們設計了四種極其巧妙的玩法，把 AI 的長文本能力扒了個底朝天。

1. 問題越繞，模型越懵

如果問題和答案不是簡單的「復制粘貼」，而是需要 AI 稍微“拐個彎”去理解呢？

研究團隊設計了不同語義相似度的問題和「針」。結果發現，當問題和答案的字面意思差別越大，AI 的表現就越差。上下文越長，這種性能衰退就越嚴重。

A 君說：這就像你讓朋友去書架上幫你拿「那本藍色的書」，他很容易找到。但如果你說「幫我拿那本講星際旅行的科幻經典」，他可能就要在書架前懵圈半天了。

2. 扔幾個「煙霧彈」，AI 立刻“叛變”

真實世界里，信息往往不是非黑即白，總有很多模棱兩可的“干擾項”。

研究者在「草堆」里，除了藏著真正的「針」，還放了幾個和「針」長得很像，但卻是錯誤的「煙霧彈」（Distractors）。

結果你猜怎么著？

哪怕只放一個「煙霧彈」，AI 的準確率就開始下降。放四個，性能直接“跳水”。而且，文本越長，AI 就越容易被帶跑偏。

更有趣的是，不同模型的“性格”也暴露無遺：

保守派 Claude遇到不確定的情況，它會非常誠實地說：「對不起，信息太模糊，我找不到答案。」（雖然沒答對，但至少沒騙你）
頭鐵幻覺派 GPT它總是那么自信，哪怕是被「煙霧彈」騙了，也會理直氣壯地給出一個錯誤答案。（最怕的就是這種）

3. 文本太“和諧”，反而找不到重點？

如果「針」的內容和「草堆」的背景文章主題非常相似，AI 是更容易找到，還是更難？

實驗結果有點出乎意料，沒有統一的規律。有時候，「針」和背景文章格格不入（比如在技術論文里藏一句寫詩的技巧），AI 反而更容易發現它。

A 君說：這說明 AI 處理的上下文并非“中性填充物”，內容本身會影響它的判斷力。

4. 最反直覺的發現來了：打亂順序，成績反而更好？！

這是整篇報告中最騷，也最讓人大跌眼鏡的發現。

研究者把「草堆」文章的句子全部打亂，破壞了原文的邏輯和連貫性。按理說，這應該會加大 AI 的處理難度吧？

結果恰恰相反！

幾乎所有模型，在處理這些“被打亂的、不講邏輯”的文本時，表現都比處理原文時更好。

為什么？研究者推測，可能是連貫的文本結構以某種方式“催眠”了 AI 的注意力機制，讓它順著邏輯流“飄”了過去，反而忽略了插入其中的「針」。而混亂的文本，則迫使 AI 對每一句話都進行獨立審查，更容易發現異常。

真實世界模擬：AI 的記憶力只有七秒？

除了「大海撈針」，研究者還模擬了兩個真實場景。

場景一：長對話聊天

讓 AI 記住長達十幾萬字的聊天記錄，然后回答一個關于其中細節的問題。同時設置了一個對比組，只給 AI 看了包含答案的那一小段話。

結果毫無懸念：所有模型在只看“重點摘要”時都是學霸，但一旦面對完整的“聊天史”，成績立刻一落千丈。

場景二：「復讀機」任務

這是一個看似無腦的任務：讓 AI 精確地復制一段超長的、由同一個詞組成的文本，比如「蘋果蘋果蘋果...」，其中只有一個詞被換成了「香蕉」。

這考驗的是 AI 在長輸入、長輸出任務下的穩定性和精確性。

結果，AI 們的表現簡直是大型翻車現場：

有的直接罷工，拒絕回答。
有的復讀到一半，就開始胡言亂語。
還有的干脆把那個唯一的「香蕉」給忘了，或者放錯了位置。

▲ 隨著文本變長，Gemini 的表現越來越不穩定

A 君說：這說明，別說讓 AI 理解長文本了，有時候，讓它原封不動地“搬運”長文本都做不到。

寫在最后：別迷信參數，要敬畏「上下文」

這項研究給我們所有 AI 用戶和開發者敲響了警鐘。

「百萬 token」的上下文窗口固然是了不起的技術進步，但它絕不等于模型就能完美地利用這些信息。AI 的長文本能力，目前還是一個脆弱、不穩定且充滿未知的領域。

這給我們帶來了最重要的啟示——「上下文工程」 (Context Engineering) 的時代來了。

對于開發者和重度用戶來說，成功的關鍵不再是簡單粗暴地把所有信息都「喂」給 AI。而是要像一位高明的導演，精心設計信息在上下文中的呈現方式：

關鍵信息應該放在哪里？（研究表明開頭和結尾效果最好）
如何減少干擾信息？
如何構建提示詞（Prompt）才能讓 AI 更容易理解？

下一次，當你發現你的 AI 在處理長文檔時胡說八道，別急著罵它“人工智障”。

想想看，是不是你給它的“劇本”，還不夠好？??

原文地址：???https://research.trychroma.com/context-rot??

本文轉載自???????草臺AI???????，作者：RangerEX

標簽

token

大模型

贊

回復

舉報

回復

相關推薦

抱抱臉Open了OpenAI的秘密武器，網易參與復現

Crystalcxt ? 3795瀏覽 ? 0回復
你的文生圖模型可以秘密接收多模態提示了！南洋理工&騰訊最新提出EMMA

angel ? 4387瀏覽 ? 0回復
將圖像自動文本化，圖像描述質量更高、更準確了

輕薄滴假象 ? 3666瀏覽 ? 0回復
Long-CLIP：無縫擴展 CLIP 模型的長文本理解能力

amei2000go ? 8344瀏覽 ? 0回復
MemLong：用于長文本建模的記憶增強檢索

sbf_2000 ? 3957瀏覽 ? 0回復
大模型長文本所面臨的主要問題

AI探索時代 ? 5799瀏覽 ? 0回復
再談大模型長文本分塊，以及分塊在RAG中的作用？

AI探索時代 ? 5391瀏覽 ? 0回復
別再將LLM當成數據庫了

51CTO內容精選 ? 3843瀏覽 ? 0回復
Kimi的長文本能力：為何優于其他大模型

風云2002_1 ? 4508瀏覽 ? 0回復
當微信支持 DeepSeek 后，完全實現了生態全閉環，你想象不到有多好用！

wsp_ping ? 4467瀏覽 ? 0回復
秒開率從 18% 到 64%，我們對小程序模擬器做了什么？

快手技術 ? 3197瀏覽 ? 0回復
別再手動調API了！5分鐘讓你的AI模型擁有"超能力"！MCP協議深度解析和實操

AI博物院 ? 5189瀏覽 ? 0回復
谷歌：我們的TPU燙麻了，簡直火上澆油！皮查伊：我們是SOTA！

51CTO技術棧 ? 3466瀏覽 ? 0回復
扒一扒最近較火的MCP

魯班模錘1 ? 3501瀏覽 ? 0回復
別再只知道“請幫我寫…”了，看看谷歌如何解構 Prompt Engineering

草臺AI ? 3103瀏覽 ? 0回復
API專供的“開發者福音”，價格打下來了！小而強大，百萬token上下文，GPT-4.5尷尬了

51CTO技術棧 ? 3012瀏覽 ? 0回復
2025年必備的八種AI模型：別再把所有AI都叫LLM了！

Halo咯咯 ? 6534瀏覽 ? 0回復
實測百萬token上下文模型MiniMax-M1：RAG真的要被淘汰了？

云中江樹 ? 2858瀏覽 ? 0回復
別再踩坑了！這 10 個低成本開源 AI 智能體好使

PyTorch研習社 ? 4677瀏覽 ? 0回復

草臺AI

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂