長上下文快2.9倍,解碼快6倍:Kimi 用線性注意力實現(xiàn)性能與效率雙突破
月之暗面團隊的Kimi Linear模型,首次在公平的全面比較中,讓一種混合線性注意力架構(gòu)在上下文和強化學(xué)習(xí)等所有場景下,超越了傳統(tǒng)強大的全注意力(Softmax Attention)機制。

實現(xiàn)了推理速度和性能雙突破。

大型語言模型正在從單純的文本生成器,進化為能夠思考和行動的智能體。
這個轉(zhuǎn)變對模型提出了全新的要求。
它們不再只是處理一段靜態(tài)的文本,而是要在長時間的交互中,處理不斷增長的對話軌跡、調(diào)用工具的記錄,并在復(fù)雜的決策空間里進行推理。
這種需求暴露了標準注意力機制的根本缺陷。
傳統(tǒng)Transformer架構(gòu)的核心是Softmax注意力,它的表達能力很強,但代價是巨大的計算和內(nèi)存開銷。
其時間和空間復(fù)雜度都是O(n2),n是序列長度。這意味著上下文長度翻倍,計算量和內(nèi)存就要翻四倍。
這讓處理長文本變得異常昂貴,嚴重制約了模型的吞吐量、上下文窗口的擴展以及實時交互能力。
一個直接的解決方案是線性注意力。它在2020年被提出,通過數(shù)學(xué)上的變換,巧妙地將復(fù)雜度從O(n2)降低到了O(n)。計算效率問題迎刃而解。
可惜的是,早期的線性注意力雖然快,但在性能上一直不如Softmax注意力,即便是在處理短序列時也是如此。它的表達能力有限,像一個記憶力不太好的學(xué)生,雖然讀書快,但記不住關(guān)鍵細節(jié)。
近些年,通過引入門控或衰減機制,以及一種被稱為delta規(guī)則的在線學(xué)習(xí)方法,線性注意力的性能追了上來,在中等長度的序列上,已經(jīng)非常接近Softmax注意力。
但它依然受限于一個根本問題:有限的狀態(tài)容量。
它的記憶機制本質(zhì)上是一個固定大小的狀態(tài),要把無限長的歷史信息壓縮進去,這在理論上讓精確的長序列建模和上下文檢索變得非常困難。
而Kimi Linear是一種混合線性注意力架構(gòu),其核心是一種名為Kimi Delta Attention(KDA)的全新模塊。它在不犧牲模型質(zhì)量的前提下,滿足智能體時代對效率和長時程推理的苛刻要求。
一種更聰明的記憶機制
要理解Kimi Linear的精妙之處,我們需要從注意力的本質(zhì)說起。
傳統(tǒng)的Softmax注意力機制,可以把它想象成一個信息檢索過程:查詢(Q)與數(shù)據(jù)庫中所有的鍵(K)進行匹配,計算出相似度得分,然后用這個得分作為權(quán)重,去加權(quán)求和所有的值(V)。因為每個查詢都要和所有鍵比較,所以計算量是平方級別的。
線性注意力則走了另一條路:
它通過一個核函數(shù),避免了Q和K直接相乘。從計算過程看,它更像一個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),維護一個不斷更新的矩陣狀態(tài)S。
這個狀態(tài)S就像一個關(guān)聯(lián)記憶,存儲著從鍵到值的映射。但這個原始的記憶機制有個大問題:它只會累加,從不遺忘。新的鍵值對會不斷強化,而舊的信息即使不再重要,也依然存在,最終導(dǎo)致記憶混亂,在長上下文中產(chǎn)生嚴重的干擾。
為了解決記憶管理問題,DeltaNet被提了出來。它將這個更新過程重新解釋為一種在線學(xué)習(xí),用經(jīng)典的delta規(guī)則來更新記憶狀態(tài)S。
S像一個可學(xué)習(xí)的記憶,它會根據(jù)新的信息不斷地自我修正。這個更新規(guī)則在數(shù)學(xué)上是一個秩1更新,結(jié)構(gòu)優(yōu)美,并且支持硬件高效的并行計算。
DeltaNet穩(wěn)定了學(xué)習(xí),但它依然沒有解決遺忘問題,過時的關(guān)聯(lián)信息會被無限期保留。于是,Gated DeltaNet(GDN)在其基礎(chǔ)上引入了一個簡單的標量遺忘門。
Kimi Linear的核心創(chuàng)新,Kimi Delta Attention(KDA),則將這種遺忘機制提升到了一個全新的維度:細粒度門控。
KDA的數(shù)學(xué)表達如下:

KDA為記憶的每個維度都配備了一個獨立的遺忘旋鈕,模型可以根據(jù)輸入內(nèi)容,動態(tài)地、精細地決定哪些維度的信息需要被重點保留,哪些可以快速遺忘。
這種通道級的獨立遺忘率,讓模型能夠更精確地調(diào)控其有限的RNN式記憶,極大地釋放了其潛力。
KDA的另一個關(guān)鍵創(chuàng)新在于其硬件高效的并行算法。
它采用了一種被稱為Diagonal-Plus-Low-Rank(DPLR)轉(zhuǎn)換矩陣的特化變體,并為此設(shè)計了定制的分塊并行算法。相比通用的DPLR實現(xiàn),KDA的計算量大幅減少,同時保持了與經(jīng)典delta規(guī)則的數(shù)學(xué)一致性。

KDA的算子效率比通用的DPLR公式高出約100%。
它通過巧妙的數(shù)學(xué)約束,減少了分塊計算中的矩陣運算數(shù)量,并消除了多個額外的矩陣乘法。
這解決了先前方法在追求細粒度控制時遇到的數(shù)值精度和計算效率瓶頸,使得在半精度下進行大規(guī)模矩陣乘法成為可能,從而實現(xiàn)了極高的硬件利用率。
一個精心設(shè)計的混合體
Kimi Linear的強大并非僅僅來自KDA這一個組件,而是源于一套精心設(shè)計的混合架構(gòu)。

它的整體骨干遵循了Moonlight架構(gòu),模型由一系列功能塊堆疊而成。
在token混合層,它并沒有完全拋棄傳統(tǒng)注意力,而是采用了3:1的混合比例,即每3個KDA層之后,會插入1個全注意力層,這里稱之為MLA(Multi-head Linear Attention)。
這種設(shè)計兼顧了效率與能力。
KDA層作為主力,以其線性復(fù)雜度和高效的并行計算能力,處理絕大部分的序列信息,極大地降低了內(nèi)存占用和計算成本。
而少數(shù)的全注意力層則像上帝視角,能夠捕捉到KDA這種線性結(jié)構(gòu)可能忽略的、跨越非常長距離的全局依賴關(guān)系。實驗證明,3:1是在模型質(zhì)量和推理吞吐量之間取得最佳平衡的黃金比例。
更有趣的是,Kimi Linear中的全注意力層被剝奪了一項傳統(tǒng)配置:位置編碼(Position Encoding)。
Transformer模型本身無法感知序列的順序,需要額外的位置編碼來告訴模型每個token的位置。RoPE(旋轉(zhuǎn)位置編碼)是目前最主流、最有效的方法。
在Kimi Linear中,團隊大膽地在全注意力層上應(yīng)用了NoPE(No Position Encoding)設(shè)計。這意味著編碼位置信息、建立近期偏見的全部責(zé)任,都落在了KDA層身上。
KDA通過其類似RNN的循環(huán)結(jié)構(gòu)和數(shù)據(jù)依賴的門控機制,天然地就能動態(tài)捕捉和編碼位置信息。
這讓KDA成為了模型中主要的位置感知算子。這種設(shè)計不僅簡化了長上下文訓(xùn)練(無需再為RoPE的各種參數(shù)調(diào)整而煩惱),更重要的是,它促使模型在不同層之間形成了更平衡的位置偏見分布,從而提高了模型在長距離上的魯棒性和外推能力。
將不帶位置編碼的全局注意力與專門的位置感知機制(如此處的KDA)相結(jié)合,是一種非常有效的策略,能夠產(chǎn)生極具競爭力的長上下文性能。
用實驗結(jié)果證明一切
Kimi Linear在一系列任務(wù)上展示了其卓越的能力。
在考驗長上下文能力的合成任務(wù)中,KDA的表現(xiàn)堪稱優(yōu)異。
回文任務(wù)要求模型精確地反轉(zhuǎn)一個隨機序列,這對線性注意力的記憶檢索能力是極大的考驗。
多查詢關(guān)聯(lián)回憶(MQAR)任務(wù)則評估模型在上下文中檢索多個鍵值對的能力,這與語言建模的性能高度相關(guān)。堆棧任務(wù)則測試模型跟蹤多個獨立狀態(tài)的能力。

隨著序列長度從256增加到2048,KDA在所有任務(wù)中都穩(wěn)定地達到了最高的準確度。尤其是在回文和MQAR任務(wù)上,KDA的收斂速度遠超其前身GDN。
這充分證明了細粒度衰減機制的優(yōu)勢:模型能夠選擇性地遺忘無關(guān)信息,從而更精確地保留關(guān)鍵記憶。
在真實的語言模型訓(xùn)練中,Kimi Linear的擴展定律(Scaling Law)也展現(xiàn)出優(yōu)越性。擴展定律描述了模型性能如何隨著計算資源、模型大小和數(shù)據(jù)量的增加而提升。

在計算最優(yōu)的訓(xùn)練設(shè)置下,Kimi Linear相比于全注意力的MLA基線,實現(xiàn)了約1.16倍的計算效率提升。這意味著要達到相同的模型性能,Kimi Linear所需的計算資源更少。
在1.4萬億token的預(yù)訓(xùn)練之后,Kimi Linear與兩個基線模型——全注意力的MLA和采用GDN的混合模型(GDN-H)——進行了正面交鋒。
在通用知識、推理(數(shù)學(xué)與代碼)以及中文任務(wù)等多個維度的評測中,Kimi Linear幾乎在所有類別中都勝出。

無論是在MMLU、GSM8K等知名基準測試,還是在CEval、CMMLU等中文評測上,Kimi Linear都取得了最高分,展示了其作為全注意力架構(gòu)有力替代品的強大實力。

經(jīng)過監(jiān)督微調(diào)(SFT)后,Kimi Linear的優(yōu)勢進一步鞏固,在更困難的任務(wù)上,如AIME 2025(數(shù)學(xué)競賽)、LiveCodeBench(代碼生成)等,它都顯著超越了兩個基線模型。
長上下文性能是Kimi Linear的主場。在128k上下文長度的多個基準測試上,Kimi Linear的表現(xiàn)一騎絕塵。它在RULER和RepoQA等評測上以顯著優(yōu)勢獲得最高分,并取得了所有任務(wù)的最高平均分(54.5),有力地證明了其在長上下文場景中的領(lǐng)先地位。

在要求更強推理和規(guī)劃能力的強化學(xué)習(xí)(RL)場景中,Kimi Linear同樣表現(xiàn)出色。

在數(shù)學(xué)問題的RL訓(xùn)練中,Kimi Linear的訓(xùn)練準確度增長率明顯高于MLA,并且在測試集上實現(xiàn)了更快、更好的性能提升。這經(jīng)驗性地表明,在需要進行推理密集型長格式生成的RL任務(wù)中,Kimi Linear比全注意力模型更具優(yōu)勢。
最后,回到最初的目標——效率。

在處理長序列時,Kimi Linear的預(yù)填充(Prefill,對輸入上下文的初次處理)速度遠超MLA。當序列長度達到100萬時,Kimi Linear比MLA快2.9倍。
在解碼(Decode,逐個生成新token)階段,其優(yōu)勢更加驚人。對于100萬的上下文長度,Kimi Linear的解碼速度是全注意力的6倍。
同時,由于3:1的混合架構(gòu),其KV緩存(注意力機制中存儲鍵值對的內(nèi)存)使用量減少了高達75%。這意味著在同樣的硬件上,Kimi Linear能夠處理更長的上下文,或者服務(wù)更多的用戶。
新范式的意義
Kimi Linear的成功,不僅僅是發(fā)布了一個更快更強的模型,它更深遠的意義在于,為大語言模型架構(gòu)的設(shè)計提供了一種新的范式。
長期以來,線性注意力一直被視為一種為了效率而犧牲性能的妥協(xié)方案。
Kimi Linear通過引入細粒度門控的KDA機制,并結(jié)合精心設(shè)計的混合架構(gòu),打破了性能與效率不可兼得的傳統(tǒng)觀念。
通過巧妙的設(shè)計,線性注意力完全有能力在所有場景中超越全注意力。
這項工作也為我們揭示了注意力機制更深層的原理。
KDA本質(zhì)上可以被看作一種可學(xué)習(xí)的、數(shù)據(jù)依賴的位置編碼。與RoPE那種固定的、基于頻率的編碼方式不同,KDA能夠根據(jù)內(nèi)容動態(tài)地調(diào)整其位置感,這可能是其在長上下文外推能力上表現(xiàn)出色的原因之一。
Moonshot AI團隊開源了KDA的內(nèi)核實現(xiàn)、vLLM集成代碼以及一系列模型檢查點。
這極大地推動整個AI社區(qū)在高效長上下文模型方向上的研究和應(yīng)用。
開發(fā)者可以基于這些資源,構(gòu)建自己的長文本應(yīng)用;研究者則可以站在巨人的肩膀上,探索下一代更強大的模型架構(gòu)。
Kimi Linear用精巧的數(shù)學(xué)和架構(gòu)設(shè)計,讓大模型“吃得少,又跑得快”。




































