更大,還能更快,更準!螞蟻開源萬億參數語言模型Ling-1T,刷新多項SOTA
完全測不過來了。
僅僅一個 9 月,全球就有十余家主流玩家扎堆開源大模型—— BAT、螞蟻集團、深度求索、Meta FAIR、Mistral AI 等輪番登場,開源數量較8月直接翻倍還不止,態勢堪稱井噴。
其中,中國力量格外亮眼。螞蟻集團幾乎以一場「開源風暴」刷屏整月:旗下百靈大模型密集上線 7 款新品,平均每四天就有一個新模型問世,在性能、效率與功能維度持續突破。
9 月 30 日開源的思考模型 Ring-1T-preview( Ring-1T 早期版本),首次把開源推理模型的「天花板」推到萬億參數級,連深度學習「三巨頭」之一 Yann LeCun 都點贊,稱「Impressive.」
這股勢能還在高漲。10 月 9 日凌晨,百靈大模型再度出手,正式發布并開源通用語言大模型 Ling-1T ——螞蟻迄今為止開源的參數規模最大的語言模型。至此,繼月之暗面Kimi K2、阿里 Qwen3-Max 之后,又一位重量級選手邁入萬億參數LLM 「開源俱樂部」。
- 開源地址:https://huggingface.co/inclusionAI/Ling-1T
- 在線體驗:ling.tbox.cn
大象起舞:萬億參數,也能輕盈推理
Ling-1T 自百靈大模型 「Ling 2.0 系列」,延續了螞蟻自研的高效 MoE( Mixture of Experts )架構,它也是該系列的首款旗艦產品。而1T( Trillion,萬億)級的總參數規模,讓人再次直觀感受到開源模型的「體量戰爭」還在加速升級。
提到「萬億參數」,不少人的第一反應往往是:「堆料取勝」、「花費高昂」。模型越大,推理越冗長;算得快又省,又怕不夠準。「精確」和「效率」,永遠像在玩蹺蹺板,此消彼長。而 Ling-1T 正通過帕累托改進( Pareto Improvement ),改寫這一刻板印象——
既不犧牲推理能力,又能顯著提升思考效率,持續逼近幾乎不可再改進的平衡點(帕累托最優)。
那么,Ling-1T 的「高質量輸出」到底強在哪?官方曬出的成績單顯示,在多維基準測試中表現亮眼。

Ling-1T(最右列)與幾款具有代表性的旗艦模型的比較,包括大參數量的開源模型(DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905)與閉源 API(GPT-5-main、Gemini-2.5-Pro)。
最引人注目的是編程與數學推理( Coding & Math )兩大核心維度的表現。這些被稱為高推理密度的任務,是大模型能力的天花板所在,而 Ling-1T 仍穩居第一梯隊。
例如,在 LiveCodeBench(真實編程推理任務) 上,Ling-1T 得分最高,顯著高于 DeepSeek;在 ArtifactsBench(復雜軟件邏輯建模) 中,得分59.31,僅次于Gemini-2.5-Pro。
數學方面,在綜合測試中,Omni-Math 與 UGMathBench 雙雙突破 74 分大關,穩居領先位置;在 FinanceReasoning(金融推理)中表現更穩,達到 87.45,展現出強大的邏輯一致性與跨領域推理能力。
知識理解( Knowledge )維度同樣出色。Ling-1T在多個關鍵數據集上均處于領先或并列領先位置:
C-Eval(92.19)、MMLU-Redux(92.25)、MMLU-Pro(82.04)、MMLU-Pro-STEM(88.5)、OlympiadBench(91.3)。
這些分數整體比 DeepSeek、Kimi、GPT-5 主干模型普遍高出1~3 個百分點,部分指標甚至逼近Gemini-2.5-Pro 的上限。
這表明它不僅知識密度高、泛化能力強,更具備深度思考與邏輯推理的內在一致性。
在 Agent 推理與多輪對話( Multi-turn Reasoning )場景中,Ling-1T 的表現同樣亮眼。尤其在 BFCL-v3 與 Creative-Writing 等具備開放思維特征的任務中,展現出自然語言表達與思維連貫性的平衡能力——不僅「會答題」,還「懂思考」。
有意思的是,智商拉滿并不等于很燒錢。
在 AIME-25(美國數學邀請賽 2025) 推理測試中,研究人員比較了各大模型的表現:
推理準確率 vs. 平均輸出長度(即思考消耗的 token 數量)。

藍色點代表Ling-1T,準確率高達 70.42%,與Gemini-2.5-Pro(70.1%)并列最高精度,但后者用了更長的輸出(更多 token)。
與 Gemini-2.5-Pro 相比,Ling-1T 在更短的思考路徑中,達到了同等甚至更高的推理正確率。
相比之下,GPT-5、DeepSeek-V3.1-Terminus、Kimi-K2-Instruct-0905、Claude-4.1-Opus-250B 等模型的準確率明顯更低,要么輸出冗長,要么思考效率不高,普遍落在右下方或中間區域。
親自試一試
寫到這里,不少人或許會問:聽起來確實令人印象深刻,但這和普通人又有什么關系?也許你從未調用過 API,也不會去跑模型。但這些模型的能力,正在悄然滲透進你的日常生活。
在支付軟件中,它讓智能助理更懂你的「吃穿用度」;理財助手會幫你盯盤、診基;身體不適時,健康助手知道如何給出初步建議,甚至協助對接醫療資源。而在寫作、編程、設計等場景里,你常用的工具,也因為它而變得更聰明。
剛上手 Ling-1T,最直觀的感受就是:和傳統推理模型不一樣。不話癆,既不會把冗長的思考過程全展示出來,回答也言簡意賅,反應迅速。

先讓它寫一個前端界面,設計一張用戶卡片。完成度極高,幾乎完美實現了所有關鍵指令:字體樣式(斜體)、頭像形狀、布局居中都毫無問題,甚至對「主色調石板藍、輔助色白」的抽象視覺要求,也精準拿捏。

提示詞:請生成一個藍紫色主題(主色調為 #6A5ACD,輔助色為白色)的現代用戶卡片組件。卡片內必須包含:1. 用戶頭像(圓形占位符);2. 用戶名;3. 一句簽名(使用斜體字);4. 一個藍色關注按鈕;5. 整體布局居中。
接著,又讓它設計一個漂亮的倒計時網頁。漸變背景讓人眼前一亮,意外地漂亮,也顯得很有設計感。得益于「語法–功能–美學」混合獎勵機制,Ling-1T不僅懂代碼邏輯,也開始學會了審美。

提示詞:設計一個好看的倒計時網頁。
因為上面的倒計時功能有 bug,我們又抽了一次卡。下面這個雖然色彩不如前一稿驚艷,但它的「巧思」藏在底部文案里,比如「時間晶體」、「量子糾纏倒計時」。倒數功能也完全正常。


提示詞:請給前沿科技媒體機器之心設計一個前沿風格網頁,要求置頂部分滾動播出實時AI新聞。這一次意外驚喜來自鼠標軌跡,有粒子浮動效果,科幻又浪漫。
除了編程設計,Ling-1T 還能發揮科學與邏輯推理能力,化身大眾的學習助手——答疑解惑,甚至能幫人撰寫報告。
我們先用 2025 年數學新課標 I 卷 的第15 題(解答題)試水,結果輕松過關。

那它能不能把復雜的東西也講得通俗易懂?今年,2025 年諾貝爾物理學獎頒給了三位美國科學家,表彰他們通過實驗驗證了量子隧穿效應。
我們請 Ling-1T來講講:什么是量子隧穿效應?結果,它用「穿墻術」的比喻,把粒子「借力」穿透勢壘的概念講得直觀又準確,沒有跑偏,還有效地降低了理解門檻。
邏輯也很清晰:先對比經典世界與量子世界的差異,再解釋原理、舉例印證,最后總結關鍵點。
對《星際穿越》里的「蟲洞」科普也同樣出彩。沒有令人頭疼的公式,只有想象力:蘋果、折紙、牙簽的比喻,瞬間構建出一個直觀的幾何模型,把「彎曲宇宙的捷徑」講得入木三分。表格、問答、總結,層次分明、言簡意賅。

緊接著,我們測試它的創意寫作能力,關鍵不只是「會寫」,而是「寫得有意思」。無論是內容營銷、廣告文案、劇本創作,還是創意輔助,這項能力都能派上用場。
這是 Ling-1T 為一期介紹諾貝爾物理學獎的播客節目所寫的開場白。按要求,它必須以《星際穿越》中那首詩為靈感。
結果令人驚喜:它不僅準確鎖定了狄蘭·托馬斯的名作,語言富有張力,連背景音效都契合主題。

下面這篇 800 字的「諾獎物理學獎小紅薯文案」,幾乎可以直接發布。信息精準、結構清晰、有節奏感,一點都不晦澀。

最后,看看它的執行能力。任務很具體——「介紹武漢附近私藏、小眾徒步路線,自駕不超過 2 小時,適合周末短期出行。」
現實中,無論個人還是企業,往往都需要模型去執行更復雜的任務:聯網搜索、數據庫查詢、代碼計算,甚至對接內部系統。擁有「工具調用」能力,意味著 Ling-1T 不只是「回答問題」,而是真正能調動外部資源、完成任務的執行者。
從結果來看,表現穩健。推薦的地點真實存在(沒有幻覺),甚至不少地方連本地人都沒去過,確實「小眾」。
更有意思的是,排在第一的選項略超兩小時車程,模型不僅自知,還說明理由——「雖然超時,但景觀稀缺,值得破例」——這種自洽判斷頗有人味。
整份結果不僅提供地理與交通信息,還涵蓋季節性建議、專業貼士,落地性極強。

螞蟻的帕累托改進:萬億模型,如何更強又更省?
「堆大」不再是答案。Ling-1T 再次釋放同一個信號:2025 年的大模型競爭,正在轉向效率范式,如何在「大」的基礎上實現效率革命。畢竟,真正要讓 AI 像掃碼支付一樣無處不在,關鍵在于更快、更省、更穩的日常表現。
于是,「大參數儲備 + 小參數激活」范式迅速成為突破口,用萬億級能力兜底,用百億級開銷響應。它既不犧牲推理力,也直面算力/成本的長期矛盾,讓超大規模模型從實驗室真正走入生活。
Ling-1T正是這一路線的樣板。手握萬億參數,但每次調用只需百億級計算資源——復雜問題能扛,響應速度不掉,成本曲線可控。一次漂亮的帕累托式改進,這才是面向產業的正確形態。
那么,「想得快」又能「想得準」,這種平衡從何而來?先說兩個關鍵點:數據和架構。
一方面,提高「攝入知識」質量,超過 20T+ token 的高質量、高推理濃度語料,使得 Ling-1T 從數據層面就具備了更強的邏輯密度與思維深度。
另一方面,它還學會了「按需思考」。雖然每個 MoE 層 擁有 256 位專才,但在推理時僅激活約 50B 參數:每次接到問題,系統只會挑出最合適的 8 位專家參與思考,再由共享專家整合結果。
結果是,萬億級智商背書,百億級能耗落地,能效比顯著抬升。

Ling-1T模型結構示意圖,一款擁有 1 萬億參數的 MoE(Mixture of Experts)架構大模型,旨在保證強推理能力的同時,實現高效計算與低成本推理。
這套「按需思考」的路徑,也帶來了實際使用層面的質變。
支持128K 上下文,接近「長記憶」體驗——一本書級別內容一口氣讀完,不丟線索,這對法律、金融、科研等長文檔業務尤其關鍵。
分組查詢注意力( Grouped-Query Attention )疊加高效 MoE,使深度理解與敏捷響應兼得,推理速度不再被長上下文拖累。
帕累托改進之二:巨獸如何更聰明地學習?
除了數據和架構,Ling-1T 的另一個關鍵創新是把「學得更聰明」落到工程與訓練范式上:不是多喂而是精喂,不是「猛灌」而是善練。
為了讓模型「吃進去」的每一口,都是高推理密度的知識精華,螞蟻自建 infra ,提升養分密度。
首先,打造了原生 FP8 混合精度訓練平臺,為萬億參數模型提供高吞吐、低能耗的算力底座。隨后,又構建了基于 統一數據湖寬表(Unified Wide Table on Data Lake) 的 AI Data System,實現樣本級血緣追蹤,確保每一個 token 都「來源可追、質量可控」。
通過這套基礎設施,螞蟻在 40T+ 語料中提煉出 20T+ 的高推理密度數據,成為 Ling-1T 的核心「思考養料」。
在訓練路徑上,這套系統并非單一階段的「猛灌」,而是以三階段精英教育精細推進:
先用 10T 高知識密度語料打牢通識底座,再以 10T 高推理密度語料強化邏輯鏈條。中期的 Midtrain 是關鍵:不僅把「記憶力」擴展到 32K 上下文,更提前注入演進式思維鏈(Evo-CoT),為后訓練階段預熱推理通路,讓模型從「會背」過渡到「會想」。
為了讓收斂更穩更快,訓練節奏控制同樣被精細化。
通過 Ling Scaling Laws 自動計算最優參數配置(學習速度、批量大小等),不再靠「手感」;
自研 WSM 調度器(Warmup–Stable–Merge) 替代傳統策略,在中期合并多輪訓練成果,模擬自然收斂。最終,大模型在綜合能力、常識、語言理解、專業知識、數學與代碼等多賽道上普遍跑贏舊策略。

這六個子圖代表模型在不同類型任務上的表現變化,比如綜合能力、常識推理、語言理解、專業知識、數學和代碼能力。螞蟻在訓練調度器上的一個關鍵突破 WSM(Warmup–Stable–Merge) 相比傳統的 WSD(Warmup–Stable–Decay),在幾乎所有任務上都帶來了明顯的性能提升。
進入后訓練(強化學習)階段,關鍵在于把反饋顆粒度與人類語義對齊。傳統 GRPO(詞元級)像逐像素修圖,細卻碎,難以理解整體語義;GSPO(序列級)又太粗,穩定但反饋模糊。
而螞蟻自研的「錦囊」LPO( Language-unit Policy Optimization ),以「句子」為優化單元,直接在人類最小完備語義單位上對齊獎勵與約束,既避免詞元級的碎裂,也克服序列級的模糊,把訓練目標從「對的詞」升級為「對的理」,讓模型生成邏輯完整、思維連貫的語言流。Ling-1T 也在高智商與穩健性之間找到新的平衡點。
開源,讓「AI 普惠」
行業認為,AI 競爭,真正的分野不在于誰的模型更強,而在于開源與閉源的路線之爭。越來越多的中國力量,正在選擇前者。
一方面,這是階段性必然。身處追趕者的位置,開源就像「眾人抬車」,能讓技術以更低成本、更高速度迭代前行。對于 Ling-1T 這樣重工程型的大模型系統,開源社區本身就是一個去中心化的「質量與安全紅隊」,能顯著降低邊際改進成本,加快版本演進。
另一方面,中國的優勢從不在單一模型本身,而在豐富的落地場景。尤其是金融、醫療等高合規行業,開源的透明性讓企業有機會真正「看懂」模型:可以審計決策路徑,植入自有知識,在可控的安全邊界內釋放智能價值。當信任可以被復制,智能才可能被普及。
更重要的是,開源降低了參與門檻。從開發者到中小企業,每一個個體都能以最低摩擦的方式「布點」入場,共建生態。
在開源 Ling-1T 之前,螞蟻已經用高效的 MoE 架構 與 分層模型設計,將「萬億級能力」拆解成可落地的多種形態——
你可以在手機上運行 Ling-mini,在中小企業服務器上部署 Ling-flash,也可以在云端調用完整體 Ling-1T。
更進一步,螞蟻不僅開源了模型本身,還開放了讓模型持續進化的「底層能力」:從 ATorch 框架到強化學習工具鏈,讓模型研發像 DevOps 一樣實現「流水線化」。
這些決定,也更像是一種普惠哲學的踐行。當有人用它理財,有人用它寫文案,還把它嵌入風控系統、零售網絡、金融終端、診療系統,當這些能力被頻繁調用時,AI 才成為一種日常,像電力與支付那樣,無感卻又無處不在。
HuggingFace:https://huggingface.co/inclusionAI/Ling-1T
ModelScope:https://modelscope.cn/models/inclusionAI/Ling-1T
GitHub:https://github.com/inclusionAI/Ling-V2
Ling chat(國內用戶):https://ling.tbox.cn/chat
ZenMux(海外開發者,提供 Chat 測試與 API 等能力):
https://zenmux.ai/inclusionai/ling-1t




































