華人團隊終結Token危機:擴散模型數據潛力超自回歸三倍
Token危機真的要解除了嗎?
最新研究發現,在token數量受限的情況下,擴散語言模型的數據潛力可達自回歸模型的三倍多。

不僅如此,一個參數規模為1B的擴散模型,用1B tokens進行480個周期的訓練,就在HellaSwag和MMLU基準上分別取得56%和33%的準確率,且未使用任何技巧或數據篩選。

更令人驚訝的是,即使是在如此極端的重復下,模型都未出現性能飽和,這表明此模型甚至還可以從這1B數據中挖掘出更多有用信息。
論文一作Jinjie Ni在x上詳細介紹了其團隊的研究結論和方法。

下面讓我們詳細了解更多細節。
擴散語言模型是超強的數據學習者
擴散語言模型之所以具備超強的數據學習能力,主要有兩個原因:
1)擴散目標和雙向注意力機制使其能夠進行雙向建模,更充分地挖掘網絡數據中的信息,,而這些數據并非完全因果關系。
簡單來說,傳統自回歸語言模型只能從前向上下文預測,存在嚴格的因果限制,這限制了模型對語言和其他非因果數據(如代碼、生物序列等)中復雜模式的捕捉能力。
擴散語言模型通過支持雙向建模,打破了這種因果限制,更全面地利用數據,從而提升了學習效果。

2)其計算密度極高。擴散模型在訓練和推理過程中投入了更多計算資源(FLOPs),通過多次處理數據和迭代優化預測,提高了計算密度和模型性能。

相比之下,自回歸模型優先考慮計算效率,而非數據潛力。它們的transformer設計采用了教師強制(teacher forcing)和因果掩碼(causal masking),雖然能最大化GPU的利用率,但也限制了模型的建模能力。
隨著計算成本下降,數據的可獲得性成為關鍵瓶頸——這正是研究團隊開展DLMs研究的出發點。
此外,擴散目標明確要求在預訓練時,對每個數據點進行多種掩碼比例和組合的擾動,以便更有效地訓練并獲得更準確的期望估計,這也解釋了為什么多次重復使用數據能帶來顯著的提升。

盡管擴散語言模型對數據重復具有一定的魯棒性,但當訓練足夠多的周期后,它們也會出現過擬合現象。

具體來說,研究團隊觀察到模型開始過擬合的訓練周期數與獨特數據量呈正相關,與模型規模呈負相關。
換句話說,獨特數據量越大,過擬合出現得越晚;而模型規模越大,過擬合則越早發生。
除了得出上述結論,研究者還發現當模型在預訓練驗證集上“過擬合”時,它們在下游任務中的性能不一定會下降,反而可能會一直上升,直到訓練結束。

出現這種現象的原因在于,驗證損失是是以絕對的交叉熵損失(負對數似然,NLL)來衡量的,而下游任務的準確率基于比較不同選項的相對交叉熵損失。
因此, 絕對NLL值的變化并不一定轉化為其相對順序的變化 。

上圖中,研究者還展示了在64個訓練周期內,一個參數規模為1B的自回歸模型在使用1.5B tokens進行訓練時,其多選評測中真實答案與其他選項的平均負對數似然(NLL)、以及它們之間差值(△NLL)的變化情況。
值得注意的是,即使在第一個驗證檢查點(訓練3600步后),模型對真實答案的NLL值已經顯著較低(即概率較高),這表明模型早期就具備優先為正確選項分配更高logits的能力。
然而,隨著訓練的繼續,模型開始出現過擬合,導致真實答案和錯誤選項的NLL值均有所上升。
但有趣的是,即便出現了“過擬合”,真實答案與其他選項之間的NLL差距依然持續擴大,表明模型的判別能力在驗證損失上升的情況下仍在不斷提升。
一個合理的解釋是,模型反復接觸有限的訓練數據后,可能會對某些文本片段過于自信,從而放大了錯誤預測的NLL值。
然而,真實答案與其他選項之間的相對NLL差距不斷拉大,表明模型的判別能力仍在持續提升。
類似的道理也適用于生成式評估(即在單個token級別進行選擇)。因此,研究者推測,模型對非關鍵token的錯誤過度自信,對整體任務性能影響有限。
之后,團隊將在研究中使用更大模型和更多獨特數據,進一步驗證這一假設。
作者介紹

Jinjie Ni,本科畢業于西北工業大學電氣工程專業,博士畢業于新加坡南洋理工大學計算機科學專業。
曾于2019年任哈佛大學應用計算科學研究所助理,2022年任阿里巴巴達摩院研究實習生。現任新加坡國立大學SEA AI研究員,與Michael Shieh教授一起工作。

Michael Shieh(謝其哲),本科就讀于上海交通大學ACM班,碩士和博士均畢業于卡內基梅隆大學。
現任新加坡國立大學計算機科學系助理教授,他曾在谷歌DeepMind與Quoc Le和Thang Luong合作過兩年。

































