譯者 | 晶顏
審校 | 重樓

三個月前,我們的生產系統遭遇了一次嚴重故障,其根源并非代碼缺陷或基礎設施故障,而是源于對人工智能系統優化目標的根本性誤解。此前,我們搭建了一套自認為具備先進水平的文檔分析流程,整合了檢索增強生成(RAG)、向量嵌入、語義搜索及精細調優的重排序功能。在演示場景中,該系統能夠精準且富有說服力地回答關于客戶監管文件的各類問題,但投入實際運行后,卻頻繁出現回答與上下文完全脫節的問題。
在事后復盤會議中,一個關鍵認知逐漸清晰:我們此前的工作重心,錯放在了信息檢索過程的管理上,而忽略了對信息呈現方式的把控,且在這一核心環節上存在嚴重不足。
這次失敗讓我們深刻領悟到人工智能行業中一個愈發明確的真理:上下文絕非僅需優化的普通輸入參數,而是決定人工智能系統能否真正創造價值、避免淪為高成本擺設的關鍵變量。與傳統軟件工程不同,傳統軟件工程以速度、內存或吞吐量為優化目標,而在上下文工程的范疇內,我們需以人類處理信息的邏輯看待數據——將其視為具有多層次結構、相互依存且依賴上下文感知的有機整體。
現代人工智能系統中的上下文危機
在探索上下文問題的解決方案之前,我們首先需明確其成為關鍵瓶頸的深層原因。這一問題并非源于技術層面的局限,而更多指向設計理念與認知哲學層面的偏差。
當前主流的人工智能系統,大多將上下文信息視為固定大小的“緩沖區”,在執行任務前僅對相關信息進行簡單填充。這種模式在早期聊天機器人與基礎問答系統中尚能滿足需求,但隨著人工智能應用場景的復雜化以及在核心工作流程中滲透率的提升,基于“緩沖區”的上下文處理方式已凸顯出嚴重的局限性。
以典型的RAG系統為例,當用戶輸入查詢問題時,系統通常遵循以下固定流程:
1. 將用戶問題轉化為向量表示形式;
2. 在向量數據庫中執行相似性搜索;
3. 檢索出相似度最高的前k個文檔;
4. 將這些文檔內容完整納入上下文窗口;
5. 基于窗口內信息生成回答。
這種模式的核心假設是:在特定相似性空間內對向量嵌入進行聚類,可以被視為一種上下文推理過程。但在實際應用中,這種“推理”并非偶爾出錯,而是持續存在偏差。
更深層次的缺陷在于對“上下文”概念的固有認知偏差——將其視為靜態不變的存在。而在人類的真實對話中,上下文具有高度靈活性,會隨對話進程動態變化、持續演進。例如,當你向同事詢問“約翰遜報告”時,同事的“檢索”并非簡單匹配關鍵詞,而是結合你當前負責的工作內容、涉及的項目背景等動態信息綜合判斷,這與人工智能系統的靜態處理邏輯形成鮮明對比。
從檢索導向到上下文協調:人工智能系統的思維轉變
從關注信息檢索方式,轉向聚焦上下文協調,標志著人工智能系統構建理念的重大革新。這一轉變意味著,我們的核心問題不再是“與當前查詢最相似的信息是什么”,而是“以何種組合、何種順序呈現信息,才能支撐最有效的決策”。這種思維重構,要求我們打破靜態的上下文認知,建立動態、關聯的上下文管理邏輯,讓人工智能系統更貼近人類的信息處理模式,從而真正釋放其價值。

【上下文工程將多種信息流——用戶意圖、指令分層、上下文注入以及外部數據——整合到一個統一的處理框架中】
這種思維轉變至關重要,因為上下文并非是累加式的,而是具有組合性的——向上下文窗口中堆砌更多文檔,并不會線性提升系統性能,反而常因“注意力稀釋”導致效果下降。正如部分研究人員所指出的,當模型注意力被過度分散,對關鍵細節的捕捉能力會顯著減弱。
這一現象在文檔分析系統的開發實踐中得到了充分印證。系統初始版本會為每個查詢檢索所有相關案例、法規及條例,雖覆蓋了全維度信息,卻因信息過載失去實際應用價值,類似人類在海量信息轟炸下陷入決策困境的場景。
直至我們將上下文視為“敘事結構”而非“信息堆砌”,才實現認知突破。以法律推理為例,其遵循“闡述事實→確定適用的法律原則→應用原則至事實→預測反駁觀點”的系統性邏輯,這正是上下文組合性的典型體現。
傳統RAG與上下文工程的具體對比如下所示:
對比維度 | 傳統RAG | 上下文工程 |
核心焦點 | 檢索 + 生成 | 全生命周期:檢索、處理、管理 |
內存管理模式 | 無狀態 | 分層式(短期/長期) |
工具集成程度 | 基礎(可選) | 原生(TIR、代理) |
可擴展性 | 適配簡單問答場景 | 支持多輪交互,適配智能代理場景 |
常用工具 | FAISS、Pinecone | LangGraph、MemGPT、GraphRAG |
典型應用場景 | 文檔搜索 | 自主編程助手 |
上下文工程的三層核心架構
有效的上下文構建需圍繞“信息篩選、信息組織、上下文演變”三個關聯層面展開,形成從信息獲取到動態優化的完整閉環。
(一)信息篩選:突破語義相似性的局限
傳統RAG過度依賴向量嵌入的語義相似性檢索,忽略了信息缺失要素及其對理解的影響。而高效的信息篩選需融合多維度策略,具體包括:
- 相關性級聯(Relevance Cascading):以寬泛語義相似性為起點,逐步聚焦精準篩選條件。例如在監管合規系統中,篩選流程為“語義相關文件→特定管轄區域文件→近期監管文件→高頻引用文件”,實現從粗到精的信息聚焦。
- 時間背景(Temporal Context)權重機制:通過衰減函數自動降低過時信息權重,僅保留標注為“基礎性”或“具有先例意義”的歷史信息。例如五年前的監管規定雖語義相關,但若已失效,則需排除或降低其優先級,避免上下文偏差。
- 用戶上下文整合(User Context Integration):除即時查詢外,納入用戶角色、當前項目及歷史交互數據。例如合規專員與軟件工程師詢問相同的“數據保留要求”,系統會基于角色差異,分別優先推送監管條款與技術實現規范。
(二)信息組織:構建上下文的“語法結構”
一旦我們提取了所需的信息,如何在上下文窗口中對其進行呈現就變得至關重要。這是傳統檢索與摘要系統可能存在的不足之處——它們將上下文窗口視為“無序容器”,而非精心組織的敘述集合。
而上下文工程則參照人類“信息分塊”認知規律——人類工作記憶僅能同時處理約7條獨立信息,一旦超出這個限度,我們的理解就會急劇下降——來構建領域適配的組織框架:
1. 領域化信息模板:依據專業場景設計信息呈現順序。例如財務分析場景遵循“市場背景→公司信息→具體指標/事件”,醫療診斷場景遵循“患者病史→當前癥狀→醫學文獻”。
2. 動態調整組織模式:根據查詢復雜度適配結構松散度——簡單問題可采用靈活組織方式,復雜分析任務則需構建嚴格的信息層級,確保邏輯連貫性。
(三)上下文演變:實現系統的“對話能力”
第三層的上下文演變是最具挑戰性但也最為重要的一個階段。現有多數人工智能系統將每次交互視為獨立事件,需為每個查詢重新構建上下文;而上下文演變的核心,是讓系統在對話或工作流程中保留并更新“共享上下文”,具體包括:
- 維護雙重狀態:不僅存儲數據狀態,更需記錄“理解狀態”——即系統在過往交互中形成的結構化信息,例如用戶已確認的假設、待補充的信息缺口。
- 關聯多輪交互:處理后續查詢時,需分析新問題與歷史上下文的關聯,延續有效假設、整合新增信息。例如用戶先詢問“某項目合規風險”,后續追問“如何規避”時,系統無需重新檢索項目基礎信息,直接基于歷史上下文提供解決方案。
- 優化用戶體驗:用戶無需重復建立上下文,可基于歷史對話提出“共識性問題”,實現人機協作的迭代探索,提升交互效率。
上下文經濟學:效率與成本的平衡
上下文信息的處理成本與計算資源消耗呈正相關,若復雜人工智能應用的上下文讀取效率低下,其運營成本將快速攀升至難以承受的水平。
通過具體數據可清晰感知這一成本壓力:若上下文窗口固定為8000個詞元,且系統日均處理1000次查詢,僅上下文部分每日便需消耗800萬個詞元。依據當前人工智能服務定價體系,因上下文使用效率不足產生的額外成本,極易超出任務本身的生成成本,形成顯著的資源浪費。
上下文管理不當的經濟影響,遠不止于直接的計算成本。低效的上下文處理會直接延長系統響應時間,導致用戶體驗惡化,進而降低系統使用率;同時還會增加重復錯誤的發生概率,對用戶信任度造成損害,且后續需投入額外人力構建手動修復方案,形成成本與體驗的惡性循環。
實踐表明,最成功的人工智能應用均將上下文視為稀缺的受限資源,并實施精細化優化策略,核心措施包括:
1. 上下文預算機制:依據查詢的復雜度、緊急度等特征,為不同類型信息明確分配上下文空間,避免資源錯配。
2. 上下文壓縮技術:通過提煉核心信息、剔除冗余內容,在有限窗口內最大化信息密度,減少無效詞元消耗。
3. 上下文緩存策略:對高頻調用的通用信息(如基礎法規、固定流程)進行緩存,避免重復計算,降低資源消耗。
上下文有效性的科學衡量體系
在上下文工程實踐中,構建與系統實際效能強關聯的衡量標準是核心挑戰之一。傳統信息檢索領域的準確率、召回率等指標雖不可或缺,但存在明顯局限——它們僅能評估“是否檢索到相關信息”,卻無法衡量“相關信息能否形成有效上下文支撐決策”。

【優化后的上下文存在效率峰值,單純增加詞元數量未必能提升準確率與召回率,反而可能因信息過載降低整體效率】
基于實際應用經驗,最具預測價值的衡量指標多為行為類指標,而非單純的準確性指標。上下文的有效性可通過用戶參與模式直觀反映,具體包括:用戶提出后續問題的頻率(體現上下文連貫性)、依據系統建議采取行動的比例(體現上下文實用性)、針對同類任務的系統重復使用率(體現上下文可靠性)。
此外,還需引入兩類關鍵衡量維度:
- 上下文效率指標:量化每消耗一個上下文單元所產生的價值,高效的上下文策略能以最低信息開銷輸出具有決策意義的見解。
- 對話性能提升指標:跟蹤多輪對話中系統回答的優化趨勢。有效的上下文工程應使系統隨對話推進,逐步深化對用戶需求的理解,輸出更精準、更貼合場景的回答,形成復雜認知閉環。
上下文工程的核心工具與技術邏輯
實現高效的上下文工程,既需依托新型工具,也需革新對傳統工具的應用思路。盡管人工智能領域每月均有新工具涌現,但經生產實踐驗證的有效策略,普遍遵循以下技術邏輯:
- 下文路由器:摒棄固定檢索策略,通過識別查詢意圖、復雜度、歷史上下文等要素動態決策。其核心目標是通過策略優化,篩選出最適配的信息并合理組織,確保上下文與查詢需求高度匹配。
- 上下文壓縮器:以信息論為理論基礎,構建“最大邏輯”機制——區別于簡單的文本摘要工具,它能精準保留與上下文強相關的核心信息,同時過濾噪音與冗余內容,實現信息密度與相關性的雙重優化。
- 上下文狀態管理器:構建對話狀態與工作流狀態的結構化描述,使人工智能系統具備“記憶能力”。無需在每次交互或干預時從零構建上下文,而是基于歷史狀態持續迭代,提升多輪交互的連貫性與效率。
本質而言,上下文工程要求我們重新定位人工智能系統的角色——將其視為持續對話中的“協作伙伴”,而非僅能響應孤立查詢的“神諭系統”。這一認知轉變將深刻影響人工智能產品的界面設計、數據組織方式,以及成功標準的設定邏輯。
展望未來:上下文成為競爭優勢
隨著人工智能基礎功能(如模型架構、通用算法)的標準化程度不斷提升,上下文工程正逐漸成為企業差異化競爭的關鍵壁壘。未來,人工智能應用的價值提升路徑將發生顯著轉變:不再依賴更先進的模型或更復雜的算法,而是通過“更精準的上下文構建”,釋放現有模型的決策潛力,實現更高的可靠性與商業價值。
上下文工程的影響已超越技術實施層面,延伸至企業戰略維度。將上下文工程納入核心競爭力、融入差異化組織戰略的企業,相比僅強調模型能力、忽視信息架構、用戶工作流程與領域推理邏輯的競爭對手,將在市場競爭中占據明顯優勢。
一項覆蓋1400余篇人工智能領域論文的最新分析,揭示了一個關鍵認知偏差:行業長期聚焦于模型規模擴大與上下文窗口延長,但研究表明,當前人工智能系統已具備理解復雜信息的能力,核心瓶頸并非“模型智能程度”,而是“如何向系統輸入有效信息以構建優質上下文”。這一結論進一步印證了上下文工程的戰略價值。
結語
文檔分析系統的實踐失敗,讓我們深刻認識到:構建有效的人工智能系統,核心并非擁有最先進的模型或最復雜的算法,而是通過合理的信息流動設計,構建優質上下文以支撐精準決策。
如今,上下文工程正逐漸成為區分“具備實際價值的人工智能系統”與“僅作演示用途的人工智能系統”的核心標志。
人工智能的未來發展方向,不是打造能理解一切的全能系統,而是創建能夠準確理解系統應當關注什么、何時關注以及如何將這種關注轉化為行動和見解的系統。這一轉變將重新定義人機協作模式,推動人工智能從工具屬性向“決策伙伴”屬性升級。
原文標題:Why Context Is the New Currency in AI: From RAG to Context Engineering,作者:Sudheer Singamsetty



































