第二代InfLLM開源,同尺寸快三倍!零參數,可訓練稀疏注意力
長序列高效處理已成為大模型應用的關鍵。
傳統稠密注意力在序列變長時計算開銷極速增長,直接限制了產品可用性與成本可控性。
為解決這一痛點,清華 、OpenBMB 和哈工大提出 InfLLM-V2:一種零額外參數、訓練高效的原生稀疏注意力框架。
InfLLM在短文本場景保持原生高效率,在長文本場景則切換為稀疏模式,帶來端到端的顯著加速。
該方法僅用5B的長文本詞元,即可完成稀疏注意力的訓練(而DeepSeek-V3.2-Exp訓練了近 1T 詞元的數據,才完成稀疏注意力的訓練)。
具體而言,InfLLM-V2相比于稠密注意力機制可以實現4倍的速度提升,在長文本理解任務上保持98.1%的稠密模型性能,在深思考任務上保持99.7%的稠密模型性能。
InfLLM有三個核心優勢
1. 低成本訓練:僅需5B長文本數據即可完成稀疏注意力能力的訓練,訓練成本低,適配周期短。
2. 短到長無縫切換、效率雙優:零新增參數,短序列用稠密、長序列切換為稀疏,完全對齊「短序列預訓練-長序列后訓練」的主流范式,訓練穩定、收斂快。
3. 高效算子實現:針對稀疏注意力「相關上下文選擇」(塊選擇)的時間瓶頸進行系統優化,提出面向硬件的高效實現,顯著降低HBM I/O與計算開銷,釋放稀疏注意力的全部潛能。

論文鏈接:https://www.arxiv.org/pdf/2509.24663
模型鏈接:https://huggingface.co/openbmb/MiniCPM4.1-8B
InfLLM-V2如何做到既「強」又「快」
在標準 Transformer 的自注意力中,每個查詢詞元 (Q[t]) 需與全部歷史詞元 (K[:t]) 計算相似度并參與注意力計算。
在長上下文(動輒數十萬詞元)時造成難以承受的時延與成本。經驗上,長序列中絕大多數遠距離注意力計算并非同等重要,注意力矩陣呈現顯著的「稀疏性」(多數注意力得分接近零)。
如果能僅對「少量相關上下文」進行計算,就能顯著降低模型注意力計算開銷。
稀疏注意力將「每個查詢詞元都與所有鍵值交互」的稠密范式,替換為「每個查詢詞元只與一個選定子集交互」的稀疏范式。

核心包括兩個步驟:
塊選擇,將上下文拆分為鍵值塊,并為每個查詢確定需要參與注意力計算的鍵值子集;
稀疏注意力計算,僅在被選中的子集上進行注意力計算。
可訓練的稀疏注意力在模型訓練過程中即引入稀疏機制,能夠系統性地提升模型在長文本場景下的效率與質量。
然而,現有代表性方法主要為 DeepSeek提出的NSA架構。
NSA雖然采用了成熟的塊稀疏結構并配套專用CUDA內核,但其架構與主流的「短序列預訓練—長序列微調」范式存在明顯錯配:引入三套獨立的 KV 緩存與三種注意力分支,在「長序列微調」中將使得模型收斂不穩,并且對短序列場景增加了大量的額外開銷。

針對上述痛點,InfLLM-V2 提出「零額外參數、長短無縫切換」 的可訓練稀疏路徑,在不改變原有注意力參數的前提下,完成從稠密到稀疏的平滑切換。
無縫短長切換:僅用一套共享鍵值緩存(零額外參數),把 NSA 多分支并為單一分支;與稠密注意力在參數與計算方式上完全對齊,按序列長度動態切換稠密/稀疏,訓練更穩。
長短序列效率雙優:短文本直接使用稠密注意力機制,零額外開銷與性能回退;長文本用統一的稀疏范式,prefill 與 decode 全鏈路提速。
硬件友好的塊選擇:基于 MLP 的塊壓縮操作修改為無參數池化操作;壓縮注意力(圖中Compressed Attetntion)修改為僅生成選擇分數,計算 Top-K;配合 GQA 組內共享 Top-K,實現了更優的計算 Kernel 融合,避免塊選擇代替稀疏注意力成為效率瓶頸。
在以上技術的支持下,InfLLM-V2僅需使用5B詞元即可實現稀疏注意力模型的訓練!
與DeepSeek Sparse Attention對比
值得注意的是,在9月29日,DeepSeek-V3.2-Exp中提出了NSA的升級版 —— DeepSeek Sparse Attention(DSA)。
DSA拋棄了NSA中三套獨立KV緩存與三種注意力分支的設計,并在后訓練階段引入稀疏注意力算法。
實驗結論
研究人員基于MiniCPM4的基座模型,在長文本理解與深思考任務上對比了不同稀疏注意力算法的效果。
長文本理解任務
在長文本理解任務RULER、LongBench與LongPPL評測中,InfLLM-V2實現了與稠密注意力模型完全可比的性能,展現了InfLLM-V2的優越性。其他稀疏注意力方法一定程度上都會導致模型性能下降。
NSA方法新增了大量參數,在少量的長文本訓練后,無法讓模型捕捉到長上下文中的前后語義關聯。


深思考任務
在數學、代碼深思考任務中,InfLLM-V2能夠實現與稠密注意力可比的性能,而 NSA 方法卻對模型效果有著較大的損害。
隨著愈來愈多的任務要求模型進行更深入的推理與分析,「如何高效加速模型的思考過程」已成為當下的重要研究方向。InfLLM-V2充分展現了稀疏注意力在深思考場景下的潛力。

效率評測
研究人員在A100與4090兩款芯片上對InfLLM-V2進行了推理效率評測。
結果表明,InfLLM?V2相對稠密注意力可獲得顯著加速,在128K長文本中,InfLLM-V2 可實現4-9倍算子加速比。
分解分析與消融實驗表明,高效塊選擇設計是關鍵加速來源。
端到端評測中,InfLLM?V2在prefill與decode分別實現約2.1×與2.3×加速。

算子速度測評

端到端速度測評
首個開源原生稀疏注意力模型
MiniCPM4/MiniCPM4.1
在今年6月,OpenBMB聯合清華提出了InfLLM-V2架構,并基于該架構共同發布了首個開源的原生稀疏注意力模型MiniCPM4,并在9月初開源了混合思考版本MiniCPM4.1
MiniCPM4.1在眾多深思考任務上取得綜合平均分同尺寸模型第一。
MiniCPM4.1充分利用稀疏注意力、投機采樣等高效算法,在LiveCodeBench、AIME等代碼、數學推理的測試中,推理速度比Qwen3-8B等同尺寸開源模型快3倍以上。

研究人員表示,將持續優化InfLLM-V2的訓練算子與推理算子,將InfLLM-V2集成至SGLang等主流推理框架中。
同時,為了促進稀疏注意力機制的研究,也將陸續開源論文中使用到的基座模型(Base模型)與長文本訓練數據。

















