6.1B打平40B Dense模型,螞蟻開源最新MoE模型Ling-flash-2.0
今天,螞蟻百靈大模型團隊正式開源其最新 MoE 大模型 ——Ling-flash-2.0。作為 Ling 2.0 架構系列的第三款模型,Ling-flash-2.0 以總參數 100B、激活僅 6.1B(non-embedding 激活 4.8B)的輕量級配置,在多個權威評測中展現出媲美甚至超越 40B 級別 Dense 模型和更大 MoE 模型的卓越性能。
這不是一次簡單的 “模型發布”。在 “大模型 = 大參數” 的共識下,Ling-flash-2.0 用極致的架構設計與訓練策略,在推理速度、任務性能、部署成本之間找到了一個新平衡點。這不僅是 Ling 系列開源進程中的又一重要節點,也為當前大模型 “參數膨脹” 趨勢提供了一種高效、實用、可持續的新路徑。
一、從 “參數軍備” 到 “效率優先”:MoE 的下一步怎么走?
在當前大模型競爭愈發激烈的背景下,參數規模似乎成為衡量模型能力的 “硬通貨”。但 “參數越多 = 能力越強” 的公式,正在失效:
- 訓練成本指數級上升
- 推理延遲成為落地瓶頸
- 多數參數冗余,激活效率低
MoE(Mixture of Experts)架構被寄予厚望:通過 “稀疏激活” 機制,用更少的計算,撬動更大的參數容量。但問題在于 —— 如何設計一個 “真高效” 的 MoE?
Ling-flash-2.0 的答案是:從架構、訓練到推理,全棧優化。
以小博大:6.1B 激活參數,撬動 40B 性能
Ling Team 早期的關于 MoE Scaling Law(https://arxiv.org/abs/2507.17702)的研究揭示了 MoE 架構設計 scaling 的特性。在此研究工作的指導下,通過極致的架構優化與訓練策略設計,在僅激活 6.1B 參數的前提下,實現了對 40B Dense 模型的性能超越,用最小激活參數,撬動最大任務性能。為此,團隊在多個維度上 “做減法” 也 “做加法”:
- 1/32 激活比例:每次推理僅激活 6.1B 參數,計算量遠低于同性能 Dense 模型
- 專家粒度調優:細化專家分工,減少冗余激活
- 共享專家機制:提升通用知識復用率
- sigmoid 路由 + aux-loss free 策略:實現專家負載均衡,避免傳統 MoE 的訓練震蕩
- MTP 層、QK-Norm、half-RoPE:在建模目標、注意力機制、位置編碼等細節上實現經驗最優
最終結果是:6.1B 激活參數,帶來約 40B Dense 模型的等效性能,實現 7 倍以上的性能杠桿。

換句話說,6.1B 的激活參數,帶來了接近 40B Dense 模型的實際表現,而在日常使用上推理速度卻提升了 3 倍以上,在 H20 平臺上可實現 200+ tokens/s 的高速生成,輸出越長,加速優勢越明顯。

1/32 激活比例 + 7 倍性能杠桿,這一 “以小博大” 的背后,是 Ling 團隊在 MoE(Mixture of Experts)架構上的深度探索。
強大的復雜推理能力
為了全面評估 Ling-flash-2.0 的推理能力,螞蟻百靈大模型團隊在模型評估中覆蓋了多學科知識推理、高難數學、代碼生成、邏輯推理、金融與醫療等專業領域,并與當前主流模型進行了系統對比。從下面的多個榜單分數對比可以看出,Ling-flash-2.0 不僅優于同級別的 Dense 模型(如 Qwen3-32B、Seed-OSS-36B),也領先于更大激活參數的 MoE 模型(如 Hunyuan-A13B、GPT-OSS-120B)。


尤其在以下三類任務中表現尤為突出:
- 高難數學推理:AIME 2025、Omni-MATH
得益于高推理密度語料 + 思維鏈訓練的預訓練策略,Ling-flash-2.0 在高難數學推理 AIME2025、Omni-MATH 數學競賽級題目中展現出穩定的推理鏈路與多步求解能力。
- 代碼生成:LiveCodeBench、CodeForces
在功能正確性、代碼風格、復雜度控制方面,Ling-flash-2.0 表現優于同規模模型,甚至在部分任務中超越 GPT-OSS-120B。
- 前端研發:與 WeaveFox 團隊聯合優化
通過大規模 RL 訓練 + 視覺增強獎勵(VAR)機制,模型在 UI 布局、組件生成、響應式設計等前端任務中,實現了 “功能 + 美學” 的雙重優化。
二、不只是 “跑分”:代碼生成、前端研發、推理優化全面突破
Ling-flash-2.0 的性能優勢不僅體現在 “跑分” 上,更在多個實際應用場景中展現出強大能力。
豐富的用例展示
1. 代碼生成與編輯
prompt1:
編寫一個 Python 程序,實現10個小球在旋轉六邊形內部彈跳的效果。球應受到重力和摩擦力的影響,并且必須真實地碰撞旋轉的墻壁。
prompt2:
提示
Traceback (most recent call last):
File "/Users/zzqsmall/Documents/code/test.py", line 131, in <module>
if is_point_in_hexagon(x, y, hex_center, hex_radius):
NameError: name 'is_point_in_hexagon' is not defined
看看哪里錯了
prompt3:
輸出下修改后的完整代碼
prompt4:
需要考慮球和球之間的碰撞,再優化下現在的代碼實現

2. 前端研發
在前端研發方面,Ling 團隊攜手 WeaveFox 團隊,基于大規模強化學習全面升級 Ling-flash-2.0 的前端代碼生成能力,為開發者打造更強大的智能編程體驗。
- WeaveFox 生成:計算器生成
Prompt:做一個計算器,采用新粗野主義風格,大膽用色、高對比度、粗黑邊框(3-4px)和強烈的陰影。通過原始的字體和略微不對稱的布局,營造一種刻意“未經設計”的美感。按鈕應采用粗邊框和強烈的色彩對比度。避免使用漸變和微妙的陰影,而應采用鮮明大膽的設計元素。
- WeaveFox 生成:旅游攻略網站制作
Prompt:制作一個多語言旅游攻略網站 - 提供不同國家和城市的旅行指南,用戶可以分享自己的旅行經驗和照片。
- 模型直出:網頁創作
Prompt:創作一個萬相 AIGC 模型的海外 Landing page,黑色風格,搭配漸變紫色流動,體現 AI 智能感,頂部導航包括 overview、feature、pricing、contact us
- 模型直出:貪吃蛇
prompt:幫我寫個貪吃蛇小游戲
3. 數學優化求解
- 數獨問題
下面是一個數獨問題,請你按照步驟求解:
1. 建模成運籌優化問題,給出數學模型。
2. 編寫能夠求解的 pyomo 代碼。
問題是:
|_ _ _|_ _ 2|9 3 _|
|_ _ _|_ _ _|_ 1 5|
|_ 4 6|_ _ _|_ _ 7|
-------------------
|_ 6 _|8 _ 4|_ _ 9|
|_ _ 8|1 _ 7|6 _ _|
|4 _ _|2 _ 9|_ 5 _|
-------------------
|3 _ _|_ _ _|2 9 _|
|7 9 _|_ _ _|_ _ _|
|_ 2 5|3 _ _|_ _ _|
4. CLI 接入
Ling-flash-2.0 模型可以方便的融合進去 Qwen Code 等 CLI 服務中,只需要在環境變量(.bashrc, .zshrc)中加入以下變量
export OPENAI_API_KEY="自己的key"
export OPENAI_BASE_URL="提供服務的url"
export OPENAI_MODEL="Ling-flash-2.0"
三、20T 語料 + 三階段預訓練:打造高質量基礎模型
Ling-flash-2.0 的優異表現,離不開其扎實的預訓練基礎。百靈大模型團隊構建了一套基于統一數據湖寬表設計的 AI Data System,支持樣本級血緣管理,完成了 40T+ tokens 的高質量語料處理,并從中精選出最高質量的部分用于支持 Ling-flash-2.0 的 20T+ tokens 的預訓練計劃。
為了充分提升模型的知識壓縮和基礎推理能力,百靈大模型團隊將預訓練分成 3 個階段:
- Pre-training Stage 1:10T tokens 高知識密度語料,夯實知識基礎
- Pre-training Stage 2:10T tokens 高推理密度語料,提升推理能力
- Mid-training Stage:擴展至 32K 上下文,引入思維鏈類語料,為后訓練做準備
訓練過程中,關鍵超參數(如學習率、batch size)均由百靈大模型團隊自研的 Ling Scaling Laws 給出最優配置。此外,團隊還創新性地將傳統的 WSD 學習率調度器替換為自研的 WSM(Warmup-Stable and Merge)調度器,通過 checkpoint merging 模擬學習率衰減,進一步提升了下游任務表現。

為增強多語言能力,Ling 2.0 將詞表從 128K 擴展至 156K,新增大量多語言 token,并在訓練中引入 30 個語種的高質量語料,顯著提升了模型的跨語言理解與生成能力。
四、后訓練創新:解耦微調 + 演進式 RL,讓模型 “會思考”,也會 “說話”
高效推理能力只是起點,百靈大模型團隊更希望打造一款 “能思考、能共情、能對話” 的模型,實現 “智理相濟,答因境生”。
為此,團隊設計了一套四階段后訓練流程:

1. 解耦微調(DFT):雙模式能力奠基
通過完全解耦的系統提示詞設計,模型在微調階段同時學習 “即時回答” 與 “深度推理” 兩種模式。微調數據涵蓋數理科學、創意寫作、情感對話、社科哲思等多個領域,并引入金融建模、工業調度、供應鏈優化等數學優化任務,賦予模型解決實際問題的能力。
2. ApexEval:精準篩選潛力模型
在 RL 前,團隊提出 ApexEval 評測方法,聚焦模型的知識掌握度與推理深度,弱化格式和指令遵循,篩選出最具探索潛力的模型進入強化學習階段。
3. 演進式 RL:動態解鎖推理能力
在 RL 階段,模型以簡潔思維鏈為起點,根據問題復雜度動態 “解鎖” 更深層的推理能力,實現 “遇簡速答、見難思深” 的智能響應。
針對代碼任務,團隊統一采用測試用例驅動的功能獎勵機制,并創新引入視覺增強獎勵(VAR),對前端任務的 UI 渲染效果進行美學評估,實現功能與視覺體驗的協同優化。
在開放域問答中,團隊構建了組內競技場獎勵機制(Group Arena Reward),結合 RubriX 多維度評價標準,有效抑制獎勵噪聲,提升模型的人性化與情感共鳴能力。
4. 系統支撐:高效獎勵系統保障訓練質量
后訓練獎勵系統由獎勵服務調度框架、策略引擎、執行環境三部分組成,支持異步獎勵計算、GPU 資源時分復用,支持 40K 并發執行,為高質量數據篩選與模型迭代提供底層保障。
結語: 高效大模型的未來,不是 “更小”,而是 “更聰明”
Ling-flash-2.0 的意義,不在于 “參數小”,而在于重新定義了 “效率” 與 “能力” 的關系。
它用 6.1B 激活參數告訴我們:模型的智能,不止于規模,更在于架構、訓練與推理的協同優化。
在 “參數即能力” 的慣性思維下,百靈大模型團隊用 Ling-flash-2.0 提供了一種可部署、可擴展、可演進的新范式。
即:模型的智能,不止于規模,更在于架構、數據與訓練策略的深度融合。
此次開源,Ling 團隊不僅放出了 Ling-flash-2.0 的對話模型,也同步開源了其 Base 模型,為研究者和開發者提供更靈活的使用空間。
Base 模型在多個榜單上已展現出強勁性能,具備良好的知識壓縮與推理能力,適用于下游任務的進一步微調與定制。
隨著 Ling-flash-2.0 的開源,我們有理由相信,高效大模型的時代,已經到來。
Ling-flash-2.0 可在以下開源倉庫下載使用:
- HuggingFace:https://huggingface.co/inclusionAI/Ling-flash-2.0
- ModelScope:https://modelscope.cn/models/inclusionAI/Ling-flash-2.0
- GitHub:https://github.com/inclusionAI/Ling-V2




































