長上下文快2.9倍，解碼快6倍：Kimi 用線性注意力實現(xiàn)性能與效率雙突破

2025-11-05 09:12:35

人工智能新聞

Moonshot AI團隊開源了KDA的內(nèi)核實現(xiàn)、vLLM集成代碼以及一系列模型檢查點。這極大地推動整個AI社區(qū)在高效長上下文模型方向上的研究和應(yīng)用。

月之暗面團隊的Kimi Linear模型，首次在公平的全面比較中，讓一種混合線性注意力架構(gòu)在上下文和強化學(xué)習(xí)等所有場景下，超越了傳統(tǒng)強大的全注意力（Softmax Attention）機制。

實現(xiàn)了推理速度和性能雙突破。

大型語言模型正在從單純的文本生成器，進化為能夠思考和行動的智能體。

這個轉(zhuǎn)變對模型提出了全新的要求。

它們不再只是處理一段靜態(tài)的文本，而是要在長時間的交互中，處理不斷增長的對話軌跡、調(diào)用工具的記錄，并在復(fù)雜的決策空間里進行推理。

這種需求暴露了標準注意力機制的根本缺陷。

傳統(tǒng)Transformer架構(gòu)的核心是Softmax注意力，它的表達能力很強，但代價是巨大的計算和內(nèi)存開銷。

其時間和空間復(fù)雜度都是O(n2)，n是序列長度。這意味著上下文長度翻倍，計算量和內(nèi)存就要翻四倍。

這讓處理長文本變得異常昂貴，嚴重制約了模型的吞吐量、上下文窗口的擴展以及實時交互能力。

一個直接的解決方案是線性注意力。它在2020年被提出，通過數(shù)學(xué)上的變換，巧妙地將復(fù)雜度從O(n2)降低到了O(n)。計算效率問題迎刃而解。

可惜的是，早期的線性注意力雖然快，但在性能上一直不如Softmax注意力，即便是在處理短序列時也是如此。它的表達能力有限，像一個記憶力不太好的學(xué)生，雖然讀書快，但記不住關(guān)鍵細節(jié)。

近些年，通過引入門控或衰減機制，以及一種被稱為delta規(guī)則的在線學(xué)習(xí)方法，線性注意力的性能追了上來，在中等長度的序列上，已經(jīng)非常接近Softmax注意力。

但它依然受限于一個根本問題：有限的狀態(tài)容量。

它的記憶機制本質(zhì)上是一個固定大小的狀態(tài)，要把無限長的歷史信息壓縮進去，這在理論上讓精確的長序列建模和上下文檢索變得非常困難。

而Kimi Linear是一種混合線性注意力架構(gòu)，其核心是一種名為Kimi Delta Attention（KDA）的全新模塊。它在不犧牲模型質(zhì)量的前提下，滿足智能體時代對效率和長時程推理的苛刻要求。

一種更聰明的記憶機制

要理解Kimi Linear的精妙之處，我們需要從注意力的本質(zhì)說起。

傳統(tǒng)的Softmax注意力機制，可以把它想象成一個信息檢索過程：查詢（Q）與數(shù)據(jù)庫中所有的鍵（K）進行匹配，計算出相似度得分，然后用這個得分作為權(quán)重，去加權(quán)求和所有的值（V）。因為每個查詢都要和所有鍵比較，所以計算量是平方級別的。

線性注意力則走了另一條路：

它通過一個核函數(shù)，避免了Q和K直接相乘。從計算過程看，它更像一個循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），維護一個不斷更新的矩陣狀態(tài)S。

這個狀態(tài)S就像一個關(guān)聯(lián)記憶，存儲著從鍵到值的映射。但這個原始的記憶機制有個大問題：它只會累加，從不遺忘。新的鍵值對會不斷強化，而舊的信息即使不再重要，也依然存在，最終導(dǎo)致記憶混亂，在長上下文中產(chǎn)生嚴重的干擾。

為了解決記憶管理問題，DeltaNet被提了出來。它將這個更新過程重新解釋為一種在線學(xué)習(xí)，用經(jīng)典的delta規(guī)則來更新記憶狀態(tài)S。

S像一個可學(xué)習(xí)的記憶，它會根據(jù)新的信息不斷地自我修正。這個更新規(guī)則在數(shù)學(xué)上是一個秩1更新，結(jié)構(gòu)優(yōu)美，并且支持硬件高效的并行計算。

DeltaNet穩(wěn)定了學(xué)習(xí)，但它依然沒有解決遺忘問題，過時的關(guān)聯(lián)信息會被無限期保留。于是，Gated DeltaNet（GDN）在其基礎(chǔ)上引入了一個簡單的標量遺忘門。

Kimi Linear的核心創(chuàng)新，Kimi Delta Attention（KDA），則將這種遺忘機制提升到了一個全新的維度：細粒度門控。

KDA的數(shù)學(xué)表達如下：

KDA為記憶的每個維度都配備了一個獨立的遺忘旋鈕，模型可以根據(jù)輸入內(nèi)容，動態(tài)地、精細地決定哪些維度的信息需要被重點保留，哪些可以快速遺忘。

這種通道級的獨立遺忘率，讓模型能夠更精確地調(diào)控其有限的RNN式記憶，極大地釋放了其潛力。

KDA的另一個關(guān)鍵創(chuàng)新在于其硬件高效的并行算法。

它采用了一種被稱為Diagonal-Plus-Low-Rank（DPLR）轉(zhuǎn)換矩陣的特化變體，并為此設(shè)計了定制的分塊并行算法。相比通用的DPLR實現(xiàn)，KDA的計算量大幅減少，同時保持了與經(jīng)典delta規(guī)則的數(shù)學(xué)一致性。

KDA的算子效率比通用的DPLR公式高出約100%。

它通過巧妙的數(shù)學(xué)約束，減少了分塊計算中的矩陣運算數(shù)量，并消除了多個額外的矩陣乘法。

這解決了先前方法在追求細粒度控制時遇到的數(shù)值精度和計算效率瓶頸，使得在半精度下進行大規(guī)模矩陣乘法成為可能，從而實現(xiàn)了極高的硬件利用率。

一個精心設(shè)計的混合體

Kimi Linear的強大并非僅僅來自KDA這一個組件，而是源于一套精心設(shè)計的混合架構(gòu)。

它的整體骨干遵循了Moonlight架構(gòu)，模型由一系列功能塊堆疊而成。

在token混合層，它并沒有完全拋棄傳統(tǒng)注意力，而是采用了3:1的混合比例，即每3個KDA層之后，會插入1個全注意力層，這里稱之為MLA（Multi-head Linear Attention）。

這種設(shè)計兼顧了效率與能力。

KDA層作為主力，以其線性復(fù)雜度和高效的并行計算能力，處理絕大部分的序列信息，極大地降低了內(nèi)存占用和計算成本。

而少數(shù)的全注意力層則像上帝視角，能夠捕捉到KDA這種線性結(jié)構(gòu)可能忽略的、跨越非常長距離的全局依賴關(guān)系。實驗證明，3:1是在模型質(zhì)量和推理吞吐量之間取得最佳平衡的黃金比例。

更有趣的是，Kimi Linear中的全注意力層被剝奪了一項傳統(tǒng)配置：位置編碼（Position Encoding）。

Transformer模型本身無法感知序列的順序，需要額外的位置編碼來告訴模型每個token的位置。RoPE（旋轉(zhuǎn)位置編碼）是目前最主流、最有效的方法。

在Kimi Linear中，團隊大膽地在全注意力層上應(yīng)用了NoPE（No Position Encoding）設(shè)計。這意味著編碼位置信息、建立近期偏見的全部責(zé)任，都落在了KDA層身上。

KDA通過其類似RNN的循環(huán)結(jié)構(gòu)和數(shù)據(jù)依賴的門控機制，天然地就能動態(tài)捕捉和編碼位置信息。

這讓KDA成為了模型中主要的位置感知算子。這種設(shè)計不僅簡化了長上下文訓(xùn)練（無需再為RoPE的各種參數(shù)調(diào)整而煩惱），更重要的是，它促使模型在不同層之間形成了更平衡的位置偏見分布，從而提高了模型在長距離上的魯棒性和外推能力。

將不帶位置編碼的全局注意力與專門的位置感知機制（如此處的KDA）相結(jié)合，是一種非常有效的策略，能夠產(chǎn)生極具競爭力的長上下文性能。

用實驗結(jié)果證明一切

Kimi Linear在一系列任務(wù)上展示了其卓越的能力。

在考驗長上下文能力的合成任務(wù)中，KDA的表現(xiàn)堪稱優(yōu)異。

回文任務(wù)要求模型精確地反轉(zhuǎn)一個隨機序列，這對線性注意力的記憶檢索能力是極大的考驗。

多查詢關(guān)聯(lián)回憶（MQAR）任務(wù)則評估模型在上下文中檢索多個鍵值對的能力，這與語言建模的性能高度相關(guān)。堆棧任務(wù)則測試模型跟蹤多個獨立狀態(tài)的能力。

隨著序列長度從256增加到2048，KDA在所有任務(wù)中都穩(wěn)定地達到了最高的準確度。尤其是在回文和MQAR任務(wù)上，KDA的收斂速度遠超其前身GDN。

這充分證明了細粒度衰減機制的優(yōu)勢：模型能夠選擇性地遺忘無關(guān)信息，從而更精確地保留關(guān)鍵記憶。

在真實的語言模型訓(xùn)練中，Kimi Linear的擴展定律（Scaling Law）也展現(xiàn)出優(yōu)越性。擴展定律描述了模型性能如何隨著計算資源、模型大小和數(shù)據(jù)量的增加而提升。

在計算最優(yōu)的訓(xùn)練設(shè)置下，Kimi Linear相比于全注意力的MLA基線，實現(xiàn)了約1.16倍的計算效率提升。這意味著要達到相同的模型性能，Kimi Linear所需的計算資源更少。

在1.4萬億token的預(yù)訓(xùn)練之后，Kimi Linear與兩個基線模型——全注意力的MLA和采用GDN的混合模型（GDN-H）——進行了正面交鋒。

在通用知識、推理（數(shù)學(xué)與代碼）以及中文任務(wù)等多個維度的評測中，Kimi Linear幾乎在所有類別中都勝出。

無論是在MMLU、GSM8K等知名基準測試，還是在CEval、CMMLU等中文評測上，Kimi Linear都取得了最高分，展示了其作為全注意力架構(gòu)有力替代品的強大實力。

經(jīng)過監(jiān)督微調(diào)（SFT）后，Kimi Linear的優(yōu)勢進一步鞏固，在更困難的任務(wù)上，如AIME 2025（數(shù)學(xué)競賽）、LiveCodeBench（代碼生成）等，它都顯著超越了兩個基線模型。

長上下文性能是Kimi Linear的主場。在128k上下文長度的多個基準測試上，Kimi Linear的表現(xiàn)一騎絕塵。它在RULER和RepoQA等評測上以顯著優(yōu)勢獲得最高分，并取得了所有任務(wù)的最高平均分（54.5），有力地證明了其在長上下文場景中的領(lǐng)先地位。

在要求更強推理和規(guī)劃能力的強化學(xué)習(xí)（RL）場景中，Kimi Linear同樣表現(xiàn)出色。

在數(shù)學(xué)問題的RL訓(xùn)練中，Kimi Linear的訓(xùn)練準確度增長率明顯高于MLA，并且在測試集上實現(xiàn)了更快、更好的性能提升。這經(jīng)驗性地表明，在需要進行推理密集型長格式生成的RL任務(wù)中，Kimi Linear比全注意力模型更具優(yōu)勢。

最后，回到最初的目標——效率。

在處理長序列時，Kimi Linear的預(yù)填充（Prefill，對輸入上下文的初次處理）速度遠超MLA。當序列長度達到100萬時，Kimi Linear比MLA快2.9倍。

在解碼（Decode，逐個生成新token）階段，其優(yōu)勢更加驚人。對于100萬的上下文長度，Kimi Linear的解碼速度是全注意力的6倍。

同時，由于3:1的混合架構(gòu)，其KV緩存（注意力機制中存儲鍵值對的內(nèi)存）使用量減少了高達75%。這意味著在同樣的硬件上，Kimi Linear能夠處理更長的上下文，或者服務(wù)更多的用戶。

新范式的意義

Kimi Linear的成功，不僅僅是發(fā)布了一個更快更強的模型，它更深遠的意義在于，為大語言模型架構(gòu)的設(shè)計提供了一種新的范式。

長期以來，線性注意力一直被視為一種為了效率而犧牲性能的妥協(xié)方案。

Kimi Linear通過引入細粒度門控的KDA機制，并結(jié)合精心設(shè)計的混合架構(gòu)，打破了性能與效率不可兼得的傳統(tǒng)觀念。

通過巧妙的設(shè)計，線性注意力完全有能力在所有場景中超越全注意力。

這項工作也為我們揭示了注意力機制更深層的原理。

KDA本質(zhì)上可以被看作一種可學(xué)習(xí)的、數(shù)據(jù)依賴的位置編碼。與RoPE那種固定的、基于頻率的編碼方式不同，KDA能夠根據(jù)內(nèi)容動態(tài)地調(diào)整其位置感，這可能是其在長上下文外推能力上表現(xiàn)出色的原因之一。

Moonshot AI團隊開源了KDA的內(nèi)核實現(xiàn)、vLLM集成代碼以及一系列模型檢查點。

這極大地推動整個AI社區(qū)在高效長上下文模型方向上的研究和應(yīng)用。

開發(fā)者可以基于這些資源，構(gòu)建自己的長文本應(yīng)用；研究者則可以站在巨人的肩膀上，探索下一代更強大的模型架構(gòu)。

Kimi Linear用精巧的數(shù)學(xué)和架構(gòu)設(shè)計，讓大模型“吃得少，又跑得快”。

責(zé)任編輯：張燕妮來源： AIGC開放社區(qū)

AI 模型強化學(xué)習(xí)