Kimi發布新一代注意力架構!線性注意力實現75% KV緩存減少、6倍解碼速度提升 原創
Kimi發布新一代注意力架構,推理速度提升6倍,KV緩存暴降75%
月之暗面全新發布的混合線性注意力架構,有望解決大語言模型在處理長序列任務時面臨的計算效率和性能瓶頸。
?
當前,主流大模型在處理長文本時存在兩大根本性效率問題。
?
其一是二次方時間復雜度,注意力分數的計算與序列長度的平方成正比,當文本長度大幅增加時,計算量將呈指數級增長。
?
其二是線性增長的KV緩存,在自回歸生成過程中,模型需要緩存過去所有token的鍵和值,對于百萬級別的長文本,KV緩存會消耗大量顯存,限制了模型的吞吐量和并發處理能力。
?
線性注意力通過數學變換將計算復雜度從二次方降低到線性,但這種效率提升往往伴隨著模型表達能力的犧牲。
?
盡管近年來線性注意力研究取得進展,但純粹的線性結構由于有限的狀態容量,在需要精確檢索長序列中特定信息的任務上仍然面臨理論挑戰。
?
因此,當前LLMs在處理長序列任務時常常面臨計算效率和性能瓶頸。
?
而今天,Kimi最新開源的注意力架構——Kimi Linear則有望解決這一難題。
?

?
Kimi Linear的架構創新
?
Kimi Linear采用了一種精巧的3:1混合層級結構,每三個Kimi Delta Attention線性注意力層之后,插入一個全注意力層。
?
KDA層作為模型的主體,負責處理大部分的token間交互,保證模型在處理長文本時的高效率。MLA層則作為周期性的全局信息樞紐,捕捉序列中任意兩個token之間的依賴關系,彌補線性注意力在長距離、精細化信息檢索上的不足。
?
這種混合設計使得Kimi Linear在長序列生成過程中,能將內存和KV緩存使用量減少高達75%。在處理百萬級別上下文長度時,實現高達6.3倍的解碼吞吐量提升。
?

?
核心技術創新與性能突破
?
Kimi Delta Attention是架構的核心創新,這是一種新型的門控線性注意力變體。
?

?
它基于Gated DeltaNet進行關鍵改進,通過更精細的門控機制實現對循環神經網絡有限狀態記憶的有效利用。KDA采用增量法則,將注意力狀態更新過程重新解釋為重構損失上的在線梯度下降,穩定了學習過程并提升性能。
?
另一個引人注目的設計是所有全注意力層都不使用任何顯式的位置編碼。模型將編碼位置信息和時序偏見的全部責任交給KDA層,這種策略在長文本任務上表現出更強的魯棒性和外推能力。
?
這一技術突破對AI應用開發具有深遠意義。大幅降低的KV緩存意味著在相同硬件條件下,可以處理更長的上下文內容,支持更復雜的長文檔分析和多輪對話場景。解碼速度的顯著提升直接轉化為更低的推理成本和更高的系統吞吐量,為AI應用的大規模商業化部署創造條件。
?
月之暗面已經開源了核心代碼,并提供了vLLM集成支持,這將加速技術在開發者社區的普及和應用驗證。
?
隨著線性注意力技術的成熟,它有望成為下一代Agent LLM的基石技術,在長上下文推理、智能助手和多模態生成等應用中發揮關鍵作用。
?
當前,人工智能技術正處在快速演進階段,計算效率的突破將直接決定應用落地的廣度和深度。
?
Kimi Linear的出現,為行業提供了處理長文本任務的新選擇,也預示著大模型架構創新遠未到達終點。

















