超大模型推理加速2.18倍!SGLang聯(lián)合美團(tuán)技術(shù)團(tuán)隊(duì)開源投機(jī)采樣訓(xùn)練框架
專門適用超大模型、帶來2.18倍推理加速,最新投機(jī)采樣訓(xùn)練框架開源!
SGLang團(tuán)隊(duì)聯(lián)合美團(tuán)搜推平臺(tái)、Cloudsway.AI開源SpecForge。
SGLang,當(dāng)前趨勢(shì)下最受青睞的推理框架之一,為DeepSeek提供了專屬優(yōu)化,也深受英偉達(dá)、AMD、xAI等廠商喜愛。
這一次開源,主要是針對(duì)當(dāng)下超大模型趨勢(shì)。
隨著Kimi K2、Qwen Coder的開源,越來越多的超大型模型進(jìn)入大家的視野。這些模型具有強(qiáng)勁的性能,但受制于模型尺寸導(dǎo)致推理效率較低。對(duì)于超大尺寸的模型,除了進(jìn)一步優(yōu)化算子之外。還有像投機(jī)采樣這樣的技術(shù)能加速它們的推理。
投機(jī)采樣(Speculative Sampling)通過引入輕量級(jí)的輔助模型來提升推理效率,同時(shí)確保結(jié)果的質(zhì)量和正確性。
目前性能強(qiáng)勁的投機(jī)采樣技術(shù)分別有MTP和Eagle3,但MTP其需要在預(yù)訓(xùn)練階段與基礎(chǔ)模型一起訓(xùn)練,限制了MTP在業(yè)界的廣泛應(yīng)用。而Eagle3作為一種訓(xùn)練后而集成的技術(shù),很適合在已開源的超大尺寸模型上繼續(xù)訓(xùn)練,而進(jìn)一步提升推理效率。
SpecForge正是基于Eagle3,它不僅是首個(gè)支持超大模型投機(jī)采樣訓(xùn)練并開箱即用的框架,還與SGLang推理引擎深度集成。一鍵打通投機(jī)采樣訓(xùn)練推理全流程。
為何推出新的Spec訓(xùn)練框架?
投機(jī)采樣(speculative decoding)已成為大語言模型(LLM)推理加速的共識(shí)方案,但其端到端訓(xùn)練工具的缺失仍是明顯短板。目前開源社區(qū)中,尚無能夠支持超大尺寸模型訓(xùn)練且與SGLang深度結(jié)合的框架,而這些工具層面的不足,直接導(dǎo)致此類模型的部署面臨巨大挑戰(zhàn)。
SpecForge為此而來,一個(gè)專為投機(jī)采樣訓(xùn)練而生、并與SGLang原生集成的生態(tài)系統(tǒng),其核心功能包括:
- 原生支持最新開源架構(gòu):SpecForge支持主流模型,包括復(fù)雜的MoE層和Transformer變體。
- 可擴(kuò)展的分布式訓(xùn)練:SpecForge集成了FSDP(Fully Sharded Data Parallel)和TP(Tensor Parallelism)等并行策略,可在GPU集群上實(shí)現(xiàn)高效擴(kuò)展。
- 內(nèi)存高效訓(xùn)練優(yōu)化:顯著降低了大規(guī)模模型訓(xùn)練時(shí)的內(nèi)存開銷;即使是萬億參數(shù)的基礎(chǔ)模型,訓(xùn)練Eagle3也同樣高效。
SpecForge核心特性
Eagle3集成
Eagle是一種最先進(jìn)的投機(jī)采樣方法,旨在加速大型語言模型推理。它通過訓(xùn)練一個(gè)專門的輕量級(jí)草稿模型來準(zhǔn)確預(yù)測(cè)較大目標(biāo)模型的token分布,從而實(shí)現(xiàn)高接受率和顯著的性能提升。下圖展示了Eagle3的端到端訓(xùn)練流程:

訓(xùn)練時(shí)測(cè)試(TTT)支持
EAGLE3的高性能提升主要來源于其創(chuàng)新的訓(xùn)練時(shí)測(cè)試(Training-Time Test)架構(gòu),該架構(gòu)通過模擬多步生成來增強(qiáng)草稿模型的健壯性。盡管TTT性能強(qiáng)大,但其實(shí)現(xiàn)卻極具有挑戰(zhàn)性,因?yàn)樗蕾囉趶?fù)雜的專用注意力掩碼(specialized attention masks)和遞歸式數(shù)據(jù)循環(huán)(recursive data loops)。
SpecForge將這一復(fù)雜過程完全封裝,提供了內(nèi)置且經(jīng)過驗(yàn)證的TTT支持。實(shí)現(xiàn)嚴(yán)格參照了官方Eagle3的核心邏輯,以確保其計(jì)算的正確性與性能,從而免除底層實(shí)現(xiàn)負(fù)擔(dān)。
雙重訓(xùn)練模式:在線與離線
SpecForge通過提供兩種訓(xùn)練模式:在線(Online)和離線(Offline)來簡(jiǎn)化隱藏狀態(tài)的收集,隱藏層的收集是Eagle類模型的特點(diǎn)。它通過主模型的隱藏層訓(xùn)練草稿模型,讓草稿模型整體分布和主模型對(duì)齊。
該框架的雙模式設(shè)計(jì)能讓用戶能找到高效的訓(xùn)練模式,關(guān)于在線和離線訓(xùn)練的優(yōu)缺點(diǎn)如下文所示。

選擇在線或離線模式,可以根據(jù)您的具體需求和資源調(diào)整訓(xùn)練過程。
- 在線模式:可實(shí)現(xiàn)最大速度和靈活性。它非常適合快速實(shí)驗(yàn)和存儲(chǔ)有限的場(chǎng)景,因?yàn)樗軇?dòng)態(tài)生成數(shù)據(jù),無需大量磁盤空間。
- 離線模式:適用于可復(fù)現(xiàn)性和數(shù)據(jù)復(fù)用至關(guān)重要的場(chǎng)景。通過預(yù)先計(jì)算和存儲(chǔ)隱藏狀態(tài),此模式可保證實(shí)驗(yàn)之間的一致性,在存儲(chǔ)空間充足時(shí)效率很高。
擴(kuò)展性優(yōu)先
SpecForge在設(shè)計(jì)時(shí)高度重視可擴(kuò)展性,以滿足工程生產(chǎn)需求。該框架使用模塊化接口實(shí)現(xiàn)了新草稿模型和主模型的直接實(shí)現(xiàn)和注冊(cè)。
為了實(shí)現(xiàn)可擴(kuò)展性,團(tuán)隊(duì)實(shí)現(xiàn)了多種訓(xùn)練時(shí)并行策略。包括FSDP(Fully Sharded Data Parallel) 和TP并行實(shí)現(xiàn),確保超大型模型的高效訓(xùn)練。
實(shí)驗(yàn)
為驗(yàn)證SpecForge的有效性,團(tuán)隊(duì)利用它在包含320K樣本的ShareGPT和UltraChat數(shù)據(jù)集上,為L(zhǎng)LaMA 4訓(xùn)練了Scout和Maverick草稿模型。
這些模型在MT-Bench等行業(yè)標(biāo)準(zhǔn)基準(zhǔn)上表現(xiàn)出色,充分證明了其模型質(zhì)量以及與Eagle3架構(gòu)的兼容性。特別值得一提的是,團(tuán)隊(duì)為L(zhǎng)lama 4 Maverick訓(xùn)練的草稿模型在MT-Bench上實(shí)現(xiàn)了2.18倍的推理加速。
詳細(xì)的實(shí)驗(yàn)結(jié)果與性能指標(biāo)總結(jié)如下。
在下圖所示的所有測(cè)試中,x軸代表投機(jī)采樣步長(zhǎng),對(duì)應(yīng)于SGLang中的speculative-num-steps。同時(shí),將 SGLang 的speculative-eagle-topk固定為8,將speculative-num-draft-tokens固定為10,這樣可以使用 tree attention達(dá)到更高的接受率。為了找到最優(yōu)的投機(jī)采樣參數(shù),可以使用SGLang代碼庫中的bench_speculative腳本。該腳本會(huì)在不同配置下運(yùn)行吞吐量基準(zhǔn)測(cè)試,針對(duì)硬件調(diào)優(yōu)出最佳性能。


最后,可以在GitHub上查看源代碼,并在Hugging Face上試用已訓(xùn)練的模型。
GitHub倉庫: 訓(xùn)練框架的完整源代碼,包括TTT和數(shù)據(jù)處理的實(shí)現(xiàn)細(xì)節(jié)。https://github.com/sgl-project/SpecForge
Hugging Face模型:下載LLaMA 4 Scout(https://huggingface.co/lmsys/sglang-EAGLE3-Llama-4-Scout-17B-16E-Instruct-v1)和Maverick(https://huggingface.co/lmsys/sglang-EAGLE3-Llama-4-Maverick-17B-128E-Instruct-v1)Eagle3 heads(不含完整模型)用于您的項(xiàng)目。
SpecForge的Roadmap如下:
- 支持更多模型架構(gòu),包括Kimi K2和Qwen-3 MoE。
- 將視覺-語言模型 (VLM) 集成到 SpecForge 中。
- 通過更好的并行策略和kernel優(yōu)化來支持更高效的訓(xùn)練。
Blog地址:https://lmsys.org/blog/2025-07-25-spec-forge/
團(tuán)隊(duì)成員
SGLang核心團(tuán)隊(duì):Shenggui Li、Shuai Shi、Fan Yin、Yikai Zhu、Yi Zhang、Yingyi Huang、Yineng Zhang 及其他成員。
美團(tuán)搜推平臺(tái):Chao Wang
SafeAILab團(tuán)隊(duì):Yuhui Li、Hongyang Zhang及其成員





































