阿里重磅開源Qwen3-Next!破局AI算力瓶頸,訓練成本暴降 原創
阿里通義團隊開源Qwen3-Next模型,采用創新MoE架構實現訓練成本暴降90%,長文本推理速度提升10倍,突破AI算力成本瓶頸。
?
今天凌晨,阿里通義團隊發布了下一代基礎模型架構 Qwen3-Next,新架構采用高稀疏度 MoE 設計和混合注意力機制,成功將訓練成本降低 90% 以上,同時實現長文本推理吞吐量 10 倍的提升。
?
團隊認為 Context Length Scaling 和 Total Parameter Scaling 是未來大模型發展的兩大趨勢,為進一步提升模型在長上下文和大規模總參數下的訓練和推理效率,因此設計了全新的 Qwen3-Next 的模型結構,可以說是大語言模型發展的重要里程碑。
?

?
其最引人注目的特點是總參數達到 800 億,但每次推理僅激活 30 億參數,卻能達到與 Qwen3 旗艦版 235B 模型相媲美的性能。這種設計使得模型計算效率大幅提升,算力利用率約為 3.7%,幫助用戶極致省錢。
?
技術架構方面,Qwen3-Next 采用了全球首創的混合注意力機制。75% 的層使用 Gated DeltaNet(線性注意力),25% 的層保留原創的 Gated Attention(門控注意力)。這種混合比例經過系統實驗驗證,能在長序列建模上實現效率與性能的雙重優化。
?
在 MoE 架構上,Qwen3-Next 實現了極致稀疏度。相比 Qwen3 MoE 的 128 個總專家和 8 個路由專家,新架構擴展到了 512 總專家,10 路由專家與 1 共享專家的組合,實現了 1 比 50 的極致激活比,創下了業界新高。
?
同時,在訓練穩定性方面,Qwen3-Next 引入了多項創新優化。包括采用 Zero-Centered RMSNorm 并施加 weight decay 來避免權重無界增長,以及在初始化時歸一化 MoE router 的參數,確保每個專家在訓練早期都能被無偏地選中。
?
多 token 預測機制則是另一項重要創新。Qwen3-Next 引入原生 Multi-Token Prediction 機制,既得到了 Speculative Decoding 接受率較高的 MTP 模塊,又提升了主干本身的綜合性能。這一機制特別優化了多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的 Speculative Decoding 接受率。
?
在多個評測中,Qwen3-Next 具有優異的表現。Qwen3-Next-Instruct 在編程、人類偏好對齊以及綜合性能力評測中表現甚至超過了千問的開源旗艦模型。Qwen3-Next-Thinking 則全面超越了 Gemini2.5-Flash-Thinking,在數學推理 AIME25 評測中獲得了 87.8 分。
?

?

?
與 Qwen3-32B 相比,新模型在 4k tokens 的上下文長度下,預填充階段吞吐量接近前者的七倍。當上下文長度超過 32k 時,吞吐提升達到十倍以上。在解碼階段,4k 上下文下實現近四倍的吞吐提升,在超過 32k 的長上下文場景中仍能保持十倍以上的吞吐優勢。
?


?
訓練成本的大幅降低是新架構的另一大優勢。Qwen3-Next 模型訓練成本較今年 4 月發布的密集模型 Qwen3-32B 大降超 90%。新模型在 Qwen3 預訓練數據的子集 15T tokens 上進行預訓練,僅需 Qwen3-32B 所用 GPU 計算資源的 9.3%,便能訓練出性能更好的基座模型。
?
目前,新模型已在魔搭社區和 HuggingFace 開源,開發者也可通過 Qwen Chat 免費體驗,或直接調用阿里云百煉平臺提供的 API 服務。阿里通義團隊開源了 Qwen3-Next-80B-A3B 的指令模型和推理兩款模型,解決了混合注意力機制加高稀疏度 MoE 架構在強化學習訓練中長期存在的穩定性與效率難題。
?
Qwen3-Next 的發布標志著大語言模型技術進入新的發展階段。通過大幅降低訓練和推理成本,同時提升模型性能,這一創新將為 AI 技術的普及和應用提供更強有力的支持。
?
而隨著模型的開源,開發者和企業將能夠更容易地獲得先進的 AI 能力,推動人工智能技術在更多領域的創新應用。

















