其實(shí),擴(kuò)散語(yǔ)言模型在最終解碼之前很久,就已確定最終答案
隨著擴(kuò)散語(yǔ)言模型(DLM)在各個(gè)領(lǐng)域的快速發(fā)展,其已成為自回歸(AR)模型有力的替代方案。與 AR 模型相比,DLMs 的主要優(yōu)勢(shì)包括但不限于:高效的并行解碼和靈活的生成順序。
盡管 DLMs 具有加速潛力,但在實(shí)際應(yīng)用中,其推理速度仍慢于 AR 模型,原因在于缺乏 KV-cache 機(jī)制,以及快速并行解碼所帶來(lái)的顯著性能下降。
本文,來(lái)自香港理工大學(xué)、達(dá)特茅斯學(xué)院等機(jī)構(gòu)的研究者嘗試從一個(gè)不同的角度來(lái)加速 DLMs 推理,這一思路源于一個(gè)長(zhǎng)期被忽視卻極具潛力的現(xiàn)象:早期答案收斂。

- 論文標(biāo)題:Diffusion Language Models Know the Answer Before Decoding
- 論文地址:https://arxiv.org/pdf/2508.19982
- 項(xiàng)目地址:https://github.com/pixeli99/Prophet
通過(guò)深入分析,研究者觀察到:無(wú)論是半自回歸重掩碼還是隨機(jī)重掩碼場(chǎng)景下,有極高比例的樣本在解碼早期階段即可獲得正確解碼。這一趨勢(shì)在隨機(jī)重掩碼中尤為顯著,以 GSMK 和 MMLU 數(shù)據(jù)集為例,僅需半數(shù)優(yōu)化步驟即可分別實(shí)現(xiàn) 97% 和 99% 的樣本正確解碼。
受此發(fā)現(xiàn)啟發(fā),該研究提出了 Prophet,一種無(wú)需訓(xùn)練的快速解碼策略,該策略專為利用早期答案收斂特性而設(shè)計(jì)。Prophet 通過(guò)持續(xù)監(jiān)控解碼過(guò)程中 top-2 答案候選之間的置信度差距,自適應(yīng)地判斷是否可安全地一次性解碼剩余所有 token。
實(shí)驗(yàn)表明,該方法在保持高質(zhì)量生成效果的同時(shí),實(shí)現(xiàn)了顯著的推理加速(最高達(dá) 3.4 倍)。
方法介紹
Prophet 是一種無(wú)需訓(xùn)練的快速解碼方法,用來(lái)加速擴(kuò)散語(yǔ)言模型的生成。它的核心思路是:在模型預(yù)測(cè)結(jié)果趨于穩(wěn)定時(shí),一次性提交所有剩余 token 并提前生成答案,這一過(guò)程被稱為早期提交解碼(Early Commit Decoding)。與傳統(tǒng)的固定步數(shù)解碼不同,Prophet 會(huì)在每一步主動(dòng)監(jiān)測(cè)模型的確定性,從而能夠即時(shí)做出是否終止解碼的決策。

早期提交解碼。何時(shí)終止解碼循環(huán)的決定可以定義為最優(yōu)停止問(wèn)題。在每一步,都必須在兩種互相沖突的成本之間權(quán)衡:繼續(xù)執(zhí)行額外細(xì)化迭代的計(jì)算成本,與因過(guò)早決定而可能帶來(lái)錯(cuò)誤的風(fēng)險(xiǎn)。計(jì)算成本取決于剩余步數(shù),而錯(cuò)誤風(fēng)險(xiǎn)則與模型的預(yù)測(cè)置信度呈負(fù)相關(guān),其中「置信差距」可作為其穩(wěn)健指標(biāo)。
算法 1 概述了完整的 Prophet 解碼過(guò)程:

實(shí)驗(yàn)
實(shí)驗(yàn)結(jié)果如表 1 所示。
在通用推理任務(wù)上,Prophet 展現(xiàn)了與完整基線相當(dāng)甚至更優(yōu)的性能。例如,在使用 LLaDA-8B 時(shí),Prophet 在 MMLU 上達(dá)到 54.0%,在 ARC-C 上達(dá)到 83.5%,兩者在統(tǒng)計(jì)上均與完整的 50 步解碼結(jié)果相當(dāng)。
更有趣的是,在 HellaSwag 上,Prophet(70.9%)不僅超過(guò)了完整基線(68.7%),還優(yōu)于半步基線(70.5%),這表明早期提交解碼能夠避免模型在后續(xù)帶噪聲的精煉步驟中破壞已正確的預(yù)測(cè)。
同樣地,在 Dream-7B 上,Prophet 在各項(xiàng)基準(zhǔn)測(cè)試中依然保持了競(jìng)爭(zhēng)力:在 MMLU 上達(dá)到 66.1%,而完整模型為 67.6%,僅有 1.5% 的微小下降,但帶來(lái)了 2.47 倍的速度提升。
在更復(fù)雜的數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試上,Prophet 同樣展現(xiàn)了其可靠性。以 GSM8K 數(shù)據(jù)集為例,基于 LLaDA-8B 的 Prophet 達(dá)到 76.8% 的準(zhǔn)確率,幾乎與完整基線的 77.1% 相當(dāng),并且優(yōu)于半步基線的 76.2%。
總而言之,實(shí)證結(jié)果強(qiáng)有力地支持了本文的核心假設(shè):擴(kuò)散語(yǔ)言模型往往在最終解碼步驟之前很早就已經(jīng)確定了正確答案。
Prophet 成功利用了這一現(xiàn)象,通過(guò)動(dòng)態(tài)監(jiān)測(cè)模型預(yù)測(cè)的置信度,一旦答案趨于穩(wěn)定,便立即終止迭代精煉過(guò)程,從而在幾乎不影響任務(wù)性能的情況下顯著節(jié)省計(jì)算開(kāi)銷,在某些場(chǎng)景下甚至還能提升表現(xiàn)。這與靜態(tài)截?cái)喾椒ㄐ纬闪缩r明對(duì)比,后者存在過(guò)早終止解碼、從而損害準(zhǔn)確率的風(fēng)險(xiǎn)。
因此,Prophet 提供了一種穩(wěn)健且與模型無(wú)關(guān)的解決方案,有效加速 DLM 的推理過(guò)程,提升了其在實(shí)際應(yīng)用中的可行性。

了解更多內(nèi)容,請(qǐng)參考原論文。






















