通用的dLLM開發框架,讓BERT掌握擴散式對話
周展輝(https://zhziszz.github.io/):加州大學伯克利分校計算機博士生;
陳凌杰(https://lingjiechen2.github.io/):伊利諾伊大學厄巴納香檳分校計算機博士生
擴散式語言模型(Diffusion Language Model, DLM)雖近期受關注,但社區長期受限于(1)缺乏易用開發框架與(2)高昂訓練成本,導致多數 DLM 難以在合理預算下復現,初學者也難以真正理解其訓練與生成機制。
為此,伯克利與 UIUC 團隊基于自研的擴散語言模型工具 dLLM,做了一個簡單的實驗:讓 BERT 通過離散擴散學會對話。結果遠超預期 —— 無需生成式預訓練,僅約 50 GPU?小時的監督微調,ModernBERT-large-chat-v0(0.4B 參數)在多項任務中的表現已逼近 Qwen1.5-0.5B,證明「離散擴散 + 輕量級指令微調」即可賦予經典 BERT 強生成能力,為社區提供了真正高效、低成本的方案。
更重要的是,團隊已將訓練、推理與評測的全流程代碼完全開源,并封裝為可直接運行的「Hello World」示例,使初學者也能輕松復現并理解擴散式語言模型的關鍵步驟。同時團隊也開源了其背后的支持框架 dllm,兼容當前主流開源擴散模型且有極強的可擴展性。

- 項目鏈接:https://github.com/ZHZisZZ/dllm
- 項目報告:https://wandb.ai/asap-zzhou/dllm/reports/dLLM-BERT-Chat--VmlldzoxNDg0MzExNg
- 項目模型:https://huggingface.co/collections/dllm-collection/bert-chat
dLLM: 支撐 BERT Chat 的通用擴散語言模型框架
BERT Chat 系列的訓練、評測與可視化均基于團隊自研的 dLLM—— 一個面向擴散式語言模型的統一開發框架。dLLM 不僅是工具庫,更是一體化的研究平臺,持續吸引研究者使用與貢獻。
在設計上,dLLM 強調易用性與可復現性。框架結構清晰、腳本完善,使 BERT Chat 等擴散式訓練實驗能夠在單卡甚至筆記本環境復現,非常適合初學者快速入門。同時,它兼容當前主流的開源擴散語言模型,包括 Dream、LLaDA、RND 等,提供靈活的模型基座選擇。
更重要的是,dLLM 還實現了多個缺乏公開實現的研究算法,如 Edit Flows,使許多原本停留在論文中的擴散式生成方法得以真正落地,為社區進一步探索提供了堅實基礎。
基座模型選擇:為何最終選擇 ModernBERT
在選擇基座模型之前,實驗首先關注 ModernBERT 這一近期提出的 BERT 變體。相比原始 BERT 的 512-token 上下文窗口,ModernBERT 將上下文長度顯著擴展至 8,192 tokens,并在多個非生成式基準任務上表現更優。因此,實驗的核心問題是:這些改進是否能夠在生成式訓練場景中帶來實際收益?為此,實驗采用離散擴散語言建模,在 Wikitext-103-v1 數據集上進行了預訓練測試。結果顯示,在一眾對比的模型中,ModernBERT 達到了最低的訓練 loss,表明它在生成式訓練中同樣具備優勢。基于這一表現,我們選定 ModernBERT 為后續離散擴散訓練與指令微調的主要基座模型。
擴散式預訓練是否必要?
SFT 已足以激活生成能力
在探索擴散式訓練路徑時,實驗首先嘗試在更大規模的語料庫(OpenWebText)上對 ModernBERT 進行離散擴散語言建模預訓練。然而,與在 Wikitext-103-v1 上的訓練效果不同,模型在 OpenWebText 上的訓練 loss 并未出現顯著下降。這一結果表明,ModernBERT 的原始 MLM 預訓練已經提供了大量語言與世界知識,對相似語料進行額外的 MDLM 預訓練可能收益有限。
由此進一步提出疑問:對于 ModernBERT 而言,持續的生成式預訓練是否真的必要?為驗證這一點,實驗分別對三種 ModernBERT-large 檢查點進行指令微調(SFT):
(1) 未經任何生成式預訓練的版本,
(2) 在 Wikitext-103-v1 上做過 MDLM 預訓練的版本,
(3) 在 OpenWebText 上做過 MDLM 預訓練的版本
盡管經過生成式預訓練的模型(2 和 3)在 SFT 初期具有更低的訓練 loss,但三者最終在訓練與評測 loss 上的收斂表現幾乎相同。該結果說明,ModernBERT 的原始 MLM 預訓練已編碼了足夠的語言知識,在此基礎上進行額外的離散擴散語言建模預訓練,對后續的指令微調帶來的收益非常有限。
在確認預訓練并非必要后,團隊擴大了 SFT 數據規模,將 allenai/tulu-3-sft-mixture 與 HuggingFaceTB/smoltalk 拼接,并分別在 ModernBERT-base 與 ModernBERT-large 上進行離散擴散微調,最終得到兩個模型權重:ModernBERT-base-chat-v0(0.1B) 與 ModernBERT-large-chat-v0(0.4B)。兩者均展現出穩定的多輪對話能力。綜合這些結果可以得到結論:對于 BERT 而言,擴散式 SFT 本身就足以激活生成能力;額外的生成式擴散預訓練帶來的收益極小,而決定最終性能的關鍵是指令微調。

實驗結果:超乎預期的小模型表現
在多項主流評測任務上,對 ModernBERT 系列模型進行了系統測試,包括 LAMBADA(語言理解)、GSM8K(數學推理)以及 CEVAL-valid(中文知識測評)。結果顯示,ModernBERT-base-chat-v0(0.1B)與 ModernBERT-large-chat-v0(0.4B)在各項指標上均表現穩定,其中 large 版本的整體性能已接近 Qwen1.5-0.5B。值得注意的是,ModernBERT-base-chat-v0 僅使用約四分之一規模的參數(0.1B),便能夠生成流暢自然的語言,這進一步說明擴散式訓練在小模型規模下依然具備競爭力。

項目說明:一份為學習而生的擴散模型示例
團隊將 BERT Chat 系列定位為一項教學與研究實驗,而非商用系統。在 0.1B 與 0.4B 這樣的小模型規模下,我們并不過多追求其在基準測試集上的表現,但它們足以作為入門示例,幫助研究者理解擴散式語言模型的訓練與生成機制。若希望進一步探索模型潛力,也可以嘗試減少擴散步數(例如將 T 減半),通常會帶來明顯的生成速度提升,因為擴散模型能夠在一次迭代中并行生成多個 token。
為保持研究過程的透明與可復現性,團隊不僅開放了完整的訓練腳本,還公布了全部訓練曲線、消融實驗、參數設置與運行指令。相關記錄可直接在 W&B 報告中查看。我們相信,開放研究不應只呈現成功的結果,而應將完整的探索過程一并公開,幫助社區更全面地理解擴散語言模型的研究路徑。
總結:BERT 的新潛力
本研究展示了一個簡單卻關鍵的結論:僅依靠擴散式 SFT 與少量指令數據,就能夠賦予傳統 BERT 實用級的對話生成能力。無需龐大的自回歸預訓練,也無需 TB 級 token 的數據成本,BERT 仍然具備被「重新激活」的潛力。對于一直希望找到一個「能跑通、能看懂」的 Diffusion LM 教程的讀者而言,dLLM 正是一個從訓練、推理到評測都能完整貫通的起點。






























