通用的dLLM開發框架，讓BERT掌握擴散式對話

2025-11-24 08:59:00

本研究展示了一個簡單卻關鍵的結論：僅依靠擴散式 SFT 與少量指令數據，就能夠賦予傳統 BERT 實用級的對話生成能力。無需龐大的自回歸預訓練，也無需 TB 級 token 的數據成本，BERT 仍然具備被「重新激活」的潛力。

周展輝（https://zhziszz.github.io/）：加州大學伯克利分校計算機博士生；

陳凌杰（https://lingjiechen2.github.io/）：伊利諾伊大學厄巴納香檳分校計算機博士生

擴散式語言模型（Diffusion Language Model, DLM）雖近期受關注，但社區長期受限于（1）缺乏易用開發框架與（2）高昂訓練成本，導致多數 DLM 難以在合理預算下復現，初學者也難以真正理解其訓練與生成機制。

為此，伯克利與 UIUC 團隊基于自研的擴散語言模型工具 dLLM，做了一個簡單的實驗：讓 BERT 通過離散擴散學會對話。結果遠超預期 —— 無需生成式預訓練，僅約 50 GPU?小時的監督微調，ModernBERT-large-chat-v0（0.4B 參數）在多項任務中的表現已逼近 Qwen1.5-0.5B，證明「離散擴散 + 輕量級指令微調」即可賦予經典 BERT 強生成能力，為社區提供了真正高效、低成本的方案。

更重要的是，團隊已將訓練、推理與評測的全流程代碼完全開源，并封裝為可直接運行的「Hello World」示例，使初學者也能輕松復現并理解擴散式語言模型的關鍵步驟。同時團隊也開源了其背后的支持框架 dllm，兼容當前主流開源擴散模型且有極強的可擴展性。

項目鏈接：https://github.com/ZHZisZZ/dllm
項目報告：https://wandb.ai/asap-zzhou/dllm/reports/dLLM-BERT-Chat--VmlldzoxNDg0MzExNg
項目模型：https://huggingface.co/collections/dllm-collection/bert-chat

dLLM: 支撐 BERT Chat 的通用擴散語言模型框架

BERT Chat 系列的訓練、評測與可視化均基于團隊自研的 dLLM—— 一個面向擴散式語言模型的統一開發框架。dLLM 不僅是工具庫，更是一體化的研究平臺，持續吸引研究者使用與貢獻。

在設計上，dLLM 強調易用性與可復現性。框架結構清晰、腳本完善，使 BERT Chat 等擴散式訓練實驗能夠在單卡甚至筆記本環境復現，非常適合初學者快速入門。同時，它兼容當前主流的開源擴散語言模型，包括 Dream、LLaDA、RND 等，提供靈活的模型基座選擇。

更重要的是，dLLM 還實現了多個缺乏公開實現的研究算法，如 Edit Flows，使許多原本停留在論文中的擴散式生成方法得以真正落地，為社區進一步探索提供了堅實基礎。

基座模型選擇：為何最終選擇 ModernBERT

在選擇基座模型之前，實驗首先關注 ModernBERT 這一近期提出的 BERT 變體。相比原始 BERT 的 512-token 上下文窗口，ModernBERT 將上下文長度顯著擴展至 8,192 tokens，并在多個非生成式基準任務上表現更優。因此，實驗的核心問題是：這些改進是否能夠在生成式訓練場景中帶來實際收益？為此，實驗采用離散擴散語言建模，在 Wikitext-103-v1 數據集上進行了預訓練測試。結果顯示，在一眾對比的模型中，ModernBERT 達到了最低的訓練 loss，表明它在生成式訓練中同樣具備優勢。基于這一表現，我們選定 ModernBERT 為后續離散擴散訓練與指令微調的主要基座模型。

擴散式預訓練是否必要？

SFT 已足以激活生成能力

在探索擴散式訓練路徑時，實驗首先嘗試在更大規模的語料庫（OpenWebText）上對 ModernBERT 進行離散擴散語言建模預訓練。然而，與在 Wikitext-103-v1 上的訓練效果不同，模型在 OpenWebText 上的訓練 loss 并未出現顯著下降。這一結果表明，ModernBERT 的原始 MLM 預訓練已經提供了大量語言與世界知識，對相似語料進行額外的 MDLM 預訓練可能收益有限。

由此進一步提出疑問：對于 ModernBERT 而言，持續的生成式預訓練是否真的必要？為驗證這一點，實驗分別對三種 ModernBERT-large 檢查點進行指令微調（SFT）：

(1) 未經任何生成式預訓練的版本，

(2) 在 Wikitext-103-v1 上做過 MDLM 預訓練的版本，

(3) 在 OpenWebText 上做過 MDLM 預訓練的版本

盡管經過生成式預訓練的模型（2 和 3）在 SFT 初期具有更低的訓練 loss，但三者最終在訓練與評測 loss 上的收斂表現幾乎相同。該結果說明，ModernBERT 的原始 MLM 預訓練已編碼了足夠的語言知識，在此基礎上進行額外的離散擴散語言建模預訓練，對后續的指令微調帶來的收益非常有限。

在確認預訓練并非必要后，團隊擴大了 SFT 數據規模，將 allenai/tulu-3-sft-mixture 與 HuggingFaceTB/smoltalk 拼接，并分別在 ModernBERT-base 與 ModernBERT-large 上進行離散擴散微調，最終得到兩個模型權重：ModernBERT-base-chat-v0（0.1B）與 ModernBERT-large-chat-v0（0.4B）。兩者均展現出穩定的多輪對話能力。綜合這些結果可以得到結論：對于 BERT 而言，擴散式 SFT 本身就足以激活生成能力；額外的生成式擴散預訓練帶來的收益極小，而決定最終性能的關鍵是指令微調。

實驗結果：超乎預期的小模型表現

在多項主流評測任務上，對 ModernBERT 系列模型進行了系統測試，包括 LAMBADA（語言理解）、GSM8K（數學推理）以及 CEVAL-valid（中文知識測評）。結果顯示，ModernBERT-base-chat-v0（0.1B）與 ModernBERT-large-chat-v0（0.4B）在各項指標上均表現穩定，其中 large 版本的整體性能已接近 Qwen1.5-0.5B。值得注意的是，ModernBERT-base-chat-v0 僅使用約四分之一規模的參數（0.1B），便能夠生成流暢自然的語言，這進一步說明擴散式訓練在小模型規模下依然具備競爭力。

項目說明：一份為學習而生的擴散模型示例

團隊將 BERT Chat 系列定位為一項教學與研究實驗，而非商用系統。在 0.1B 與 0.4B 這樣的小模型規模下，我們并不過多追求其在基準測試集上的表現，但它們足以作為入門示例，幫助研究者理解擴散式語言模型的訓練與生成機制。若希望進一步探索模型潛力，也可以嘗試減少擴散步數（例如將 T 減半），通常會帶來明顯的生成速度提升，因為擴散模型能夠在一次迭代中并行生成多個 token。

為保持研究過程的透明與可復現性，團隊不僅開放了完整的訓練腳本，還公布了全部訓練曲線、消融實驗、參數設置與運行指令。相關記錄可直接在 W&B 報告中查看。我們相信，開放研究不應只呈現成功的結果，而應將完整的探索過程一并公開，幫助社區更全面地理解擴散語言模型的研究路徑。

總結：BERT 的新潛力

本研究展示了一個簡單卻關鍵的結論：僅依靠擴散式 SFT 與少量指令數據，就能夠賦予傳統 BERT 實用級的對話生成能力。無需龐大的自回歸預訓練，也無需 TB 級 token 的數據成本，BERT 仍然具備被「重新激活」的潛力。對于一直希望找到一個「能跑通、能看懂」的 Diffusion LM 教程的讀者而言，dLLM 正是一個從訓練、推理到評測都能完整貫通的起點。

責任編輯：張燕妮來源：機器之心

AI 數據訓練