又一SOTA級開源模型!階躍Step-3多模態推理登頂,百萬token解碼成本不到4毛錢
又一個SOTA基礎模型開源,而且依然是國產。
剛剛,階躍星辰兌現了WAIC上的承諾,將最新多模態推理模型Step-3正式開源!
在MMMU等多個多模態榜單上,它一現身就取得了開源多模態推理模型新SOTA的成績。

并且速度飛快,在Hopper GPU上每秒可以解碼4039個Token(4K上下文、FP8、無MTP),是DeepSeek-V3的174%。
這一表現,也給大模型解碼設定了新的帕累托前沿(資源分配的一種理想狀態)。

另外,Step-3采用了模型-Infra一體化設計,因此性價比也極高。
它有321B參數,但可以運行在8塊48GB的GPU上,處理多達80萬個token。
如果直觀比較,Step-3在H20上的解碼成本僅有DeepSeek-V3的30%。
Huggingface工程師評價,這種模型-Infra共同設計的理念,代表了一種前進方向。

百萬Token解碼成本不到4毛
Step-3是一款MoE模型,包含48個專家,總參數量321B,其中316B為語言模型,5B為視覺編碼器,激活參數量則為38B(3個專家)。

在MMMU、AIME25、LiveCodeBench等多個數學、代碼及多模態榜單中,Step-3都達到了開源SOTA水平。

而且Step-3主打一個高效能,在4K上下文長度下,平均解碼吞吐達到了3910token/GPU/秒,峰值4039 token/GPU/秒,比DeepSeek-V3的峰值高74%。

成本方面,Step-3使用H20+H800的異構組合,8K長度下每百萬Token成本為0.055美元,合人民幣不到4毛錢。
相比于只用H800的DeepSeek-V3,Step-3激活參數量更高,但成本只有V3的80%。
如果對比采用同樣異構組合的Qwen MoE,Step-3的成本也要少將近12%。
如果不使用異構,Step-3在各個芯片上的成本,也低于DeepSeek-V3和Qwen。
例如在32K長度下,H20計算卡上,Step-3的解碼成本只有V3的30%

特別值得一提的是,在昇騰910B上,Step-3的解碼成本甚至比華為自家的盤古大模型還要低。

之所以能實現如此高的性價比,關鍵就在于Step-3采用了模型-Infra協同設計。
模型-Infra協同設計
Step-3通過“模型—系統”一體化思路,把注意力、前饋網絡和集群調度當作同一個優化對象,而不是單獨微調某個算子。
核心中的核心是階躍自研的MFA(Multi-Matrix Factorization Attention,多矩陣因子分解)注意力機制。
MFA在Query-Key路徑上進行低秩分解,并讓多個查詢頭共享同一組Key/Value表示,從根源上壓縮 KV 緩存和乘加量。
技術報告顯示,Step-3的KV緩存大小小于DeepSeek-V3,使得Step-3更適用于長上下文場景。

并且與傳統稀疏或線性注意力不同,MFA還特地把算力-帶寬比調到剛好略低于主流GPU的屋脊線,讓同一套權重在高帶寬卡和算力卡上都能維持高利用率。
系統層面,階躍團隊提出了AFD(Attention-FFN Disaggregation)機制。
傳統情況下,模型關于Attention和FNN的推理計算任務,會同時交給同一組GPU同時處理,常常導致資源浪費。
AFD則把注意力和 FFN 分拆到各自最擅長的GPU群組,通過專門的三階段流水線把隱藏態在兩端之間“穿針引線”。

這樣一來,每類算子都能選用最合拍的硬件和并行策略,同時流水線把通信延遲掩藏在計算之下,實現小規模集群就能跑滿卡的解碼吞吐。

為支撐這一細粒度拆分,階躍團隊編寫了StepMesh通信庫,通過GPUDirect RDMA實現,SM占用為0,可在子毫秒時間內完成雙向流式傳輸。

并且StepMesh庫已隨模型一同開源,提供可跨硬件的標準部署接口。
One More Thing
Hugging Face模型榜單,已經被中國開源模型占據主導,前十名中有8個模型全都來自中國。
其中第一名是智譜AI的GLM-4.5,第二名是騰訊推出的混元世界模型,4-6名為不同版本的Qwen。
之后的國產模型包括智譜GLM-4.5的Air版本,以及同一團隊的Wan2.2視頻生成模型,第十名則是上海AI Lab的Intern-S1。

Kimi-K2則位列第十一,之前也曾進入過前十,這次的Step-3也位列第一頁。
此外,第一頁中還能看到字節Seed、昆侖萬維、上交大PowerInfer等中國團隊研發的模型。

并且這些廠商都選擇了把自家的王牌模型直接開源,而不是發布新一代才開源上一代。
在開源世界,國產模型已成為當之無愧的領軍者。
Github:
https://github.com/stepfun-ai/Step3
Hugging Face:
https://huggingface.co/stepfun-ai/step3
魔搭ModelScope:
https://www.modelscope.cn/models/stepfun-ai/step3
https://www.modelscope.cn/models/stepfun-ai/step3-fp8
技術blog:
https://www.stepfun.com/research/zh/step3
StepMesh開源地址:
https://github.com/stepfun-ai/StepMesh
































