并行擴(kuò)展(Parallel Scaling):一種新型語(yǔ)言模型擴(kuò)展范式

“ PARSCALE 作為一種新型的語(yǔ)言模型擴(kuò)展范式,通過(guò)增加并行計(jì)算次數(shù) P,在保持參數(shù)規(guī)模幾乎不變的情況下,能夠顯著提升模型的推理能力?!?/span>
大家好,我是肆〇柒。今天,我們來(lái)聊一項(xiàng)可以改變語(yǔ)言模型性能的技術(shù)——PARSCALE(Parallel Scaling)。如果有一種方法,能夠在不顯著增加模型參數(shù)的情況下,大幅提升模型的推理能力,同時(shí)還能顯著降低推理成本,那將是多么令人興奮的突破!PARSCALE 正是這樣一種技術(shù),它通過(guò)并行計(jì)算,為大型語(yǔ)言模型(LLM)的擴(kuò)展提供了一種全新的思路。接下來(lái),讓我們一起深入了解 PARSCALE,看看它是如何在保持參數(shù)規(guī)模幾乎不變的情況下,實(shí)現(xiàn)性能的飛躍的。
在當(dāng)下,LLM 的應(yīng)用場(chǎng)景不斷拓展,為我們的生活和工作帶來(lái)了前所未有的便利。然而,隨著模型規(guī)模的不斷擴(kuò)大,LLM 在實(shí)際應(yīng)用中也面臨著一系列嚴(yán)峻的挑戰(zhàn)。
以參數(shù)擴(kuò)展為例,像 DeepSeek-V3 這樣的模型,其參數(shù)規(guī)模已高達(dá) 672B,對(duì)內(nèi)存提出了極為苛刻的要求。這種高內(nèi)存需求使得模型在邊緣設(shè)備上的部署變得極為困難。想象一下,一臺(tái)智能手機(jī)或智能汽車(chē),其內(nèi)存資源相對(duì)有限,如何能夠流暢運(yùn)行如此龐大的模型?此外,推理時(shí)間擴(kuò)展同樣帶來(lái)了高時(shí)間成本。例如,當(dāng)模型需要生成大量推理 token 時(shí),即使是處理一個(gè)簡(jiǎn)單的數(shù)學(xué)問(wèn)題,也可能耗費(fèi)數(shù)秒甚至數(shù)十秒的時(shí)間。這種延遲對(duì)于實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景來(lái)說(shuō),無(wú)疑是致命的。
這些問(wèn)題嚴(yán)重限制了 LLM 在實(shí)際場(chǎng)景中的廣泛應(yīng)用,尤其是在智能手機(jī)、智能汽車(chē)和機(jī)器人等低資源邊緣設(shè)備上。例如,蘋(píng)果的 iPhone 14 系列手機(jī),其內(nèi)存僅為 4GB 至 6GB,而運(yùn)行一個(gè) 672B 參數(shù)的模型需要的內(nèi)存遠(yuǎn)超此限制。同樣,特斯拉的 Autopilot 系統(tǒng)在處理實(shí)時(shí)駕駛決策時(shí),無(wú)法承受高延遲的推理過(guò)程。模型的高性能與設(shè)備的低資源之間存在著巨大的矛盾,我們需要一種創(chuàng)新的解決方案。
PARSCALE 的價(jià)值與創(chuàng)新
在這樣的背景下,PARSCALE(Parallel Scaling)應(yīng)運(yùn)而生。作為一種全新的語(yǔ)言模型擴(kuò)展范式,PARSCALE 以其獨(dú)特的方式,為 LLM 的發(fā)展帶來(lái)了新的希望。
PARSCALE 的核心思想是在保持參數(shù)規(guī)模幾乎不變的情況下,通過(guò)增加并行計(jì)算來(lái)提升模型的推理能力。具體而言,它對(duì)輸入進(jìn)行 P 種不同的可學(xué)習(xí)變換,然后并行地執(zhí)行模型的前向傳播,最后動(dòng)態(tài)聚合這 P 個(gè)輸出。這種方法不僅能夠顯著增強(qiáng)模型的推理能力,還能有效降低推理成本。
與傳統(tǒng)的參數(shù)擴(kuò)展和推理時(shí)間擴(kuò)展相比,PARSCALE 在推理效率、訓(xùn)練成本和適用場(chǎng)景等方面展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。例如,對(duì)于一個(gè) 1.6B 參數(shù)的模型,當(dāng)擴(kuò)展到 P = 8 時(shí),PARSCALE 僅需增加 22 倍的內(nèi)存,而參數(shù)擴(kuò)展則需要增加 6 倍的內(nèi)存,并且在推理延遲方面,PARSCALE 也表現(xiàn)出色。這種高效性使得 LLM 在資源受限環(huán)境中的部署成為可能,為模型的實(shí)際應(yīng)用開(kāi)辟了新的道路。
PARSCALE 的優(yōu)勢(shì)不僅體現(xiàn)在推理效率和成本上,還在于其對(duì)模型泛化能力的潛在提升。通過(guò)增加并行流數(shù)量 P,模型能夠在訓(xùn)練和推理過(guò)程中接觸到更多樣的輸入變換和輸出聚合方式,這有助于模型學(xué)習(xí)到更廣泛、更魯棒的特征表示,從而在面對(duì)不同領(lǐng)域和風(fēng)格的數(shù)據(jù)時(shí)表現(xiàn)得更加出色。

(1) 本文提出的并行擴(kuò)展方法(PAR SCALE)的示意圖。(2) 在Stack-V2(Python子集)的420億個(gè)tokens上進(jìn)行預(yù)訓(xùn)練模型的并行擴(kuò)展法則。(3) 損失擴(kuò)展曲線與推理成本的關(guān)系。結(jié)果是基于批量大小為{1, 2, 4, 8}和輸入+輸出tokens數(shù)為{128, 256, 512, 1024}的平均值。
如上圖所示,PARSCALE 通過(guò)增加并行流數(shù)量 P,在保持參數(shù)規(guī)模幾乎不變的情況下,顯著提升了模型的推理能力。上圖(1)展示了 PARSCALE 的工作原理,包括輸入變換、并行前向傳播和動(dòng)態(tài)輸出聚合的過(guò)程。上圖(2)展示了在 Stack-V2 數(shù)據(jù)集上,不同參數(shù)規(guī)模和并行流數(shù)量 P 下的預(yù)訓(xùn)練模型的 scaling law。上圖(3)則展示了推理成本與損失的曲線關(guān)系,表明 PARSCALE 在推理效率方面的優(yōu)勢(shì)。
PARSCALE 核心概念
靈感來(lái)源與技術(shù)設(shè)想
PARSCALE 的靈感源于分類(lèi)器自由引導(dǎo)(Classifier-free Guidance,CFG),這是一種在擴(kuò)散模型中廣泛應(yīng)用的技術(shù)。在擴(kuò)散模型中,CFG 通過(guò)兩次前向傳播來(lái)提升模型性能。它首先對(duì)輸入 x 進(jìn)行正常前向傳播,得到第一個(gè)輸出;然后對(duì)輸入進(jìn)行擾動(dòng)(例如去除條件信息),得到第二個(gè)輸出;最后根據(jù)預(yù)設(shè)的對(duì)比規(guī)則,將這兩個(gè)輸出進(jìn)行聚合。這種兩次計(jì)算的方式,使得模型能夠在推理階段獲得比單次前向傳播更優(yōu)的性能。

其中, w是一個(gè)預(yù)設(shè)的超參數(shù),用于控制條件信息的影響程度。這種對(duì)比規(guī)則的設(shè)計(jì)使得模型能夠在條件化和無(wú)條件化的輸出之間找到平衡,從而提升生成結(jié)果的質(zhì)量。
PARSCALE 借鑒了 CFG 的核心思想,并進(jìn)行了創(chuàng)新性的擴(kuò)展。它不再局限于兩次前向傳播,而是通過(guò) P 種不同的可學(xué)習(xí)變換對(duì)輸入進(jìn)行處理,生成 P 個(gè)不同的輸入版本。這些變換后的輸入被并行地送入模型進(jìn)行前向傳播,得到 P 個(gè)輸出。隨后,通過(guò)一個(gè)動(dòng)態(tài)加權(quán)平均的方法,將這 P 個(gè)輸出聚合為一個(gè)最終輸出。這個(gè)動(dòng)態(tài)加權(quán)平均的過(guò)程,利用一個(gè)多層感知機(jī)(MLP)將多個(gè)輸出轉(zhuǎn)換為聚合權(quán)重,從而實(shí)現(xiàn)對(duì)不同輸出的動(dòng)態(tài)融合。

這種動(dòng)態(tài)加權(quán)平均機(jī)制使得模型能夠根據(jù)不同輸入和任務(wù)的需求,自適應(yīng)地調(diào)整各個(gè)并行流的權(quán)重,從而實(shí)現(xiàn)更優(yōu)的推理性能。
與傳統(tǒng)擴(kuò)展策略對(duì)比
為了更清晰地展示 PARSCALE 的優(yōu)勢(shì),我們可以將其與傳統(tǒng)的參數(shù)擴(kuò)展和推理時(shí)間擴(kuò)展策略進(jìn)行對(duì)比。
傳統(tǒng)參數(shù)擴(kuò)展策略,如密集參數(shù)擴(kuò)展(Dense Scaling)和專(zhuān)家混合擴(kuò)展(MoE Scaling),雖然能夠通過(guò)增加模型參數(shù)來(lái)提升性能,但卻伴隨著高內(nèi)存需求。例如,Dense Scaling 隨著參數(shù)的增加,內(nèi)存占用呈線性增長(zhǎng),這對(duì)于邊緣設(shè)備來(lái)說(shuō)是難以承受的。而 MoE Scaling 雖然在一定程度上降低了內(nèi)存需求,但仍面臨著高內(nèi)存占用的問(wèn)題,且訓(xùn)練成本相對(duì)較高。
推理時(shí)間擴(kuò)展策略則通過(guò)增加推理時(shí)間來(lái)提升模型的推理能力。例如,OpenAI 探索的推理時(shí)間擴(kuò)展方法,通過(guò)擴(kuò)增推理 token 數(shù)量來(lái)增強(qiáng)模型的推理能力,但這種方法通常需要大量的特定訓(xùn)練數(shù)據(jù),并且會(huì)顯著增加推理延遲。對(duì)于實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景,這種高延遲是難以接受的。
相比之下,PARSCALE 在推理時(shí)間、推理空間和訓(xùn)練成本等方面展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。PARSCALE 的推理時(shí)間隨著 P 的增加而適度增長(zhǎng),但在小批量場(chǎng)景下,其延遲增加幅度遠(yuǎn)低于參數(shù)擴(kuò)展策略。在推理空間方面,PARSCALE 的內(nèi)存占用僅略有增加,遠(yuǎn)低于參數(shù)擴(kuò)展策略。此外,PARSCALE 的訓(xùn)練成本相對(duì)較低,且不需要依賴特定的訓(xùn)練數(shù)據(jù)或策略,具有更廣泛的適用性。
這些優(yōu)勢(shì)的背后,源于 PARSCALE 對(duì)計(jì)算資源的高效利用和對(duì)模型結(jié)構(gòu)的創(chuàng)新設(shè)計(jì)。通過(guò)并行計(jì)算,PARSCALE 能夠在相同的計(jì)算資源下完成更多的推理任務(wù),從而提升了推理效率。同時(shí),由于參數(shù)規(guī)模沒(méi)有顯著增加,模型的內(nèi)存占用和訓(xùn)練成本得以有效控制,使其在資源受限的環(huán)境中更具優(yōu)勢(shì)。

主流大語(yǔ)言模型擴(kuò)展策略的比較
上表對(duì)比了主流的 LLM 擴(kuò)展策略,包括傳統(tǒng)的參數(shù)擴(kuò)展(Dense Scaling 和 MoE Scaling)、推理時(shí)間擴(kuò)展和 PARSCALE。從表中可以看出,PARSCALE 在推理時(shí)間和推理空間上的表現(xiàn)優(yōu)于參數(shù)擴(kuò)展,且訓(xùn)練成本較低,適用場(chǎng)景更廣泛。
理論基礎(chǔ)與 scaling law
理論推導(dǎo)
PARSCALE 的理論基礎(chǔ)源于對(duì) Chinchilla scaling law 的擴(kuò)展和深化。Chinchilla scaling law 描述了語(yǔ)言模型的損失 L 與其參數(shù)數(shù)量 N 之間的關(guān)系,表明在模型收斂后,損失 L 可以表示為:

在推導(dǎo) PARSCALE 的損失函數(shù)表達(dá)式時(shí),基于以下數(shù)學(xué)原理和步驟:

通過(guò)這些步驟,可以得出 PARSCALE 的損失函數(shù)表達(dá)式,為后續(xù)的實(shí)驗(yàn)驗(yàn)證提供了理論基礎(chǔ)。
參數(shù)解釋與影響分析

為了直觀地展示這些參數(shù)對(duì)模型性能的影響,研究者繪制了參數(shù)變化與模型性能關(guān)系圖。例如,在 Stack-V2 數(shù)據(jù)集上,隨著 P 的增加,模型的損失逐漸降低,且在較小的 P 值范圍內(nèi),損失降低幅度較大。這表明在實(shí)際應(yīng)用中,適當(dāng)增加 值能夠顯著提升模型性能,但當(dāng) P 值增大到一定程度后,性能提升的幅度會(huì)逐漸減小。因此,在設(shè)計(jì)模型時(shí),需要根據(jù)具體的應(yīng)用場(chǎng)景和資源限制,合理選擇 P 值以達(dá)到性能和成本的平衡。
實(shí)驗(yàn)驗(yàn)證與結(jié)果分析
實(shí)驗(yàn)設(shè)計(jì)與設(shè)置
為了驗(yàn)證 PARSCALE 的有效性,研究員在 Stack-V2(Python 子集)和 Pile 語(yǔ)料庫(kù)上進(jìn)行了大規(guī)模預(yù)訓(xùn)練實(shí)驗(yàn)。實(shí)驗(yàn)中,模型參數(shù)范圍從 5 億到 44 億不等,同時(shí)并行流數(shù)量 P 從 1 變化到 8。訓(xùn)練數(shù)據(jù)規(guī)模固定為 420 億 tokens,以確保實(shí)驗(yàn)結(jié)果的可比性。
選擇 Stack-V2(Python 子集)和 Pile 語(yǔ)料庫(kù)作為實(shí)驗(yàn)數(shù)據(jù)集的原因在于它們的多樣性和代表性。Stack-V2(Python 子集)主要包含代碼相關(guān)的內(nèi)容,能夠有效評(píng)估模型在代碼理解和生成任務(wù)上的性能。而 Pile 語(yǔ)料庫(kù)則涵蓋了多種領(lǐng)域的文本數(shù)據(jù),適用于評(píng)估模型在通用語(yǔ)言任務(wù)上的表現(xiàn)。通過(guò)在這兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn),我們可以全面評(píng)估 PARSCALE 在不同任務(wù)類(lèi)型上的性能。
在訓(xùn)練過(guò)程中,采用了批量大小為 1024 和序列長(zhǎng)度為 2048 的設(shè)置,訓(xùn)練步數(shù)總計(jì) 20K 步。對(duì)于 P>1 的模型,在輸入變換和輸出聚合部分引入了額外的參數(shù),而 P=1 的模型則保持與現(xiàn)有架構(gòu)一致,以確保實(shí)驗(yàn)的公平性。所有實(shí)驗(yàn)均使用 Qwen-2.5 的密集架構(gòu)和分詞器,以統(tǒng)一實(shí)驗(yàn)條件。
這些精心設(shè)計(jì)的實(shí)驗(yàn)設(shè)置,目的是全面評(píng)估 PARSCALE 在不同參數(shù)規(guī)模和并行流數(shù)量下的性能表現(xiàn),為后續(xù)的分析提供可靠的數(shù)據(jù)支持。
實(shí)驗(yàn)結(jié)果呈現(xiàn)
實(shí)驗(yàn)結(jié)果通過(guò)圖表和表格的形式直觀地展示出來(lái),揭示了不同參數(shù)組合下的訓(xùn)練損失、驗(yàn)證損失以及下游任務(wù)性能指標(biāo)。
在 Stack-V2-Python 數(shù)據(jù)集上,隨著 P 的增加,模型的損失逐漸降低。例如,對(duì)于 1.6B 參數(shù)的模型,當(dāng) P 從 1 增加到 8 時(shí),損失從 1.0817 降低到 1.0383,性能提升顯著。同樣,在 Pile 數(shù)據(jù)集上,P 的增加也帶來(lái)了類(lèi)似的損失降低趨勢(shì)。這表明 PARSCALE 能夠有效地利用并行計(jì)算來(lái)提升模型性能。


在420億個(gè) tokens上訓(xùn)練的、按參數(shù)規(guī)模和并行流數(shù)量P進(jìn)行擴(kuò)展的大型語(yǔ)言模型的損失
上圖展示了在 Stack-V2(Python 子集)和 Pile 語(yǔ)料庫(kù)上,不同參數(shù)規(guī)模和并行流數(shù)量 P 的模型的訓(xùn)練損失。通過(guò)擬合的 scaling law 曲線,可以觀察到 PARSCALE 的損失與參數(shù)擴(kuò)展之間的關(guān)系,驗(yàn)證了理論推導(dǎo)的正確性。
在下游任務(wù)性能方面,PARSCALE 同樣表現(xiàn)出色。以代碼生成任務(wù)為例,在 HumanEval 和 MBPP 數(shù)據(jù)集上,隨著 P 的增加,模型的 Pass@1 和 Pass@10 指標(biāo)均呈現(xiàn)出明顯的提升趨勢(shì)。例如,在 HumanEval 數(shù)據(jù)集上,1.6B 參數(shù)的模型在 P=8 時(shí)的 Pass@1 達(dá)到 18.3%,相比 P=1 時(shí)的 18.3% 保持穩(wěn)定,而在 MBPP 數(shù)據(jù)集上,P=8 時(shí)的 Pass@1 達(dá)到 45.5%,相比 P=1 時(shí)的 36.0% 提升了近 10 個(gè)百分點(diǎn)。這表明 PARSCALE 在代碼生成任務(wù)上具有顯著的優(yōu)勢(shì)。

在使用 Stack-V2-Python 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練后,兩個(gè)代碼生成任務(wù) HumanEval(+) 和 MBPP(+) 的平均性能(%)
上表展示了在 Stack-V2-Python 數(shù)據(jù)集上預(yù)訓(xùn)練后的代碼生成任務(wù)性能。隨著 P 的增加,模型在 HumanEval 和 MBPP 數(shù)據(jù)集上的性能顯著提升,驗(yàn)證了 PARSCALE 在代碼生成任務(wù)上的優(yōu)勢(shì)。
對(duì)于通用任務(wù),如 MMLU 數(shù)據(jù)集,PARSCALE 也展現(xiàn)出了良好的性能提升。例如,4.4B 參數(shù)的模型在 P = 8 時(shí)的平均性能達(dá)到 59.6%,相比$ P = 1 ¥時(shí)的 57.2% 提升了 2.4 個(gè)百分點(diǎn)。這些結(jié)果表明,PARSCALE 不僅在代碼生成任務(wù)上表現(xiàn)出色,還能在通用任務(wù)上帶來(lái)顯著的性能提升。

在Pile數(shù)據(jù)集上預(yù)訓(xùn)練后,六個(gè)通用lm-evaluation-harness任務(wù)的平均表現(xiàn)(%)
上表展示了在 Pile 數(shù)據(jù)集上預(yù)訓(xùn)練后的通用任務(wù)性能。隨著 的增加,模型在 MMLU 等任務(wù)上的性能顯著提升,進(jìn)一步驗(yàn)證了 PARSCALE 的有效性。
通過(guò)這些實(shí)驗(yàn)結(jié)果,我們可以清晰地看到 PARSCALE 在不同實(shí)驗(yàn)條件下的性能優(yōu)勢(shì)和特點(diǎn)。無(wú)論是訓(xùn)練損失、驗(yàn)證損失還是下游任務(wù)性能指標(biāo),PARSCALE 都展現(xiàn)出了隨著 P 增加而性能提升的趨勢(shì),驗(yàn)證了其理論基礎(chǔ)的正確性和有效性。
推理成本分析
在推理成本方面,PARSCALE 與參數(shù)擴(kuò)展策略相比,展現(xiàn)出顯著的優(yōu)勢(shì)。從內(nèi)存占用的角度來(lái)看,PARSCALE 在不同批量大小下的內(nèi)存占用遠(yuǎn)低于參數(shù)擴(kuò)展策略。例如,對(duì)于 1.6B 參數(shù)的模型,當(dāng)擴(kuò)展到 時(shí),PARSCALE 的內(nèi)存增加僅為參數(shù)擴(kuò)展策略的 1/22。這意味著在相同的內(nèi)存條件下,PARSCALE 能夠支持更多的模型部署,或者在更低的硬件成本下實(shí)現(xiàn)相近的性能。
在延遲方面,PARSCALE 在小批量場(chǎng)景下表現(xiàn)出色。由于其并行計(jì)算的特性,PARSCALE 能夠充分利用 GPU 的計(jì)算資源,將內(nèi)存瓶頸轉(zhuǎn)化為計(jì)算瓶頸。因此,在小批量場(chǎng)景下,PARSCALE 的延遲增加幅度遠(yuǎn)低于參數(shù)擴(kuò)展策略。例如,在批量大小為 1 時(shí),PARSCALE 的延遲增加僅為參數(shù)擴(kuò)展策略的 1/6。這種低延遲特性使得 PARSCALE 在對(duì)實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景中具有巨大的優(yōu)勢(shì),如智能手機(jī)和智能汽車(chē)等邊緣設(shè)備上的實(shí)時(shí)交互應(yīng)用。

模型容量(通過(guò)損失值表示)與推理時(shí)空成本成比例關(guān)系,涉及三個(gè)參數(shù)(16億、28億和44億)以及批量大小 ∈ {1, 2, 4, 8}
上圖展示了模型容量(以損失表示)在推理空間時(shí)間成本上的變化,涵蓋了三種參數(shù)規(guī)模(1.6B、2.8B 和 4.4B)和四種批量大小(1、2、4、8)。藍(lán)色箭頭表示參數(shù)擴(kuò)展,灰色箭頭表示并行擴(kuò)展。結(jié)果表明,PARSCALE 在推理效率方面具有顯著優(yōu)勢(shì),尤其是在小批量場(chǎng)景下。
通過(guò)與實(shí)際應(yīng)用場(chǎng)景相結(jié)合,我們可以進(jìn)一步強(qiáng)調(diào) PARSCALE 在低資源邊緣部署場(chǎng)景中的巨大潛力和實(shí)際應(yīng)用價(jià)值。它不僅能夠有效降低模型的推理成本,還能在資源受限的環(huán)境中實(shí)現(xiàn)高性能的推理服務(wù),為 LLM 的廣泛應(yīng)用提供了新的可能性。
生產(chǎn)級(jí)訓(xùn)練驗(yàn)證
兩階段訓(xùn)練策略
為了降低訓(xùn)練成本并驗(yàn)證 PARSCALE 在大規(guī)模數(shù)據(jù)訓(xùn)練中的有效性,研究者提出了一種兩階段訓(xùn)練策略。
在第一階段,采用傳統(tǒng)的預(yù)訓(xùn)練方法,使用 1T tokens 的數(shù)據(jù)進(jìn)行訓(xùn)練。這一階段的目標(biāo)是利用大量的數(shù)據(jù)為模型提供基礎(chǔ)的語(yǔ)言理解和生成能力。訓(xùn)練過(guò)程中,使用 Warmup Stable Decay(WSD)學(xué)習(xí)率調(diào)度策略,初始學(xué)習(xí)率為 3e-4,經(jīng)過(guò) 2K 步的熱身階段后,保持學(xué)習(xí)率穩(wěn)定,以確保模型能夠充分學(xué)習(xí)數(shù)據(jù)中的知識(shí)。
在第二階段,引入 PARSCALE 技術(shù),僅使用 20B tokens 的數(shù)據(jù)進(jìn)行訓(xùn)練。這一階段的重點(diǎn)是通過(guò)并行計(jì)算來(lái)進(jìn)一步提升模型的性能。降低了學(xué)習(xí)率,從 3e-4 線性衰減到 1e-5,以避免對(duì)模型參數(shù)造成過(guò)大的擾動(dòng)。同時(shí),在這一階段引入了 種不同的可學(xué)習(xí)變換,并動(dòng)態(tài)聚合輸出,以增強(qiáng)模型的推理能力。
兩階段訓(xùn)練策略中各階段的訓(xùn)練數(shù)據(jù)構(gòu)成和學(xué)習(xí)率調(diào)度的具體方法如下:
- 第一階段 :
訓(xùn)練數(shù)據(jù) :使用 1T tokens 的通用數(shù)據(jù),包括 370B 一般文本數(shù)據(jù)、80B 數(shù)學(xué)數(shù)據(jù)和 50B 代碼數(shù)據(jù)。
學(xué)習(xí)率調(diào)度 :采用 WSD 策略,初始學(xué)習(xí)率為 3e-4,經(jīng)過(guò) 2K 步熱身階段后,保持學(xué)習(xí)率穩(wěn)定。
超參數(shù)設(shè)置 :批量大小為 1024,序列長(zhǎng)度為 2048。
- 第二階段 :
訓(xùn)練數(shù)據(jù) :使用 20B tokens 的數(shù)據(jù),增加數(shù)學(xué)和代碼數(shù)據(jù)的比例,最終包括 7B 一般文本數(shù)據(jù)、7B 數(shù)學(xué)數(shù)據(jù)和 7B Stack-Python-Edu 數(shù)據(jù)。
學(xué)習(xí)率調(diào)度 :學(xué)習(xí)率從 3e-4 線性衰減到 1e-5。
超參數(shù)設(shè)置 :批量大小為 1024,序列長(zhǎng)度為 2048。
通過(guò)展示損失曲線圖,我們可以清晰地看到兩階段訓(xùn)練策略的效果。在第二階段的初始階段,由于引入了隨機(jī)初始化的參數(shù),P > 1 的模型損失略高于 P = 1 的模型。然而,隨著訓(xùn)練的進(jìn)行,模型迅速適應(yīng)了這些新參數(shù),并在處理少量數(shù)據(jù)后(約 0.0002T tokens),損失趨于穩(wěn)定并逐漸降低。這表明兩階段訓(xùn)練策略能夠快速提升模型性能,并且具有較強(qiáng)的適應(yīng)性。

兩階段訓(xùn)練的損失,使用權(quán)重為0.95的指數(shù)移動(dòng)平均進(jìn)行平滑
上圖展示了兩階段訓(xùn)練策略的損失曲線,使用 0.95 的指數(shù)移動(dòng)平均進(jìn)行平滑處理。從圖中可以看出,第二階段訓(xùn)練初期,P >1 的模型損失略高于 P=1 的模型,但隨著訓(xùn)練的進(jìn)行,損失迅速降低并趨于穩(wěn)定,驗(yàn)證了兩階段訓(xùn)練策略的有效性。
此外,研究員還發(fā)現(xiàn),在訓(xùn)練后期,P 較大的模型(如 P=8)能夠逐漸拉開(kāi)與 P 較小的模型(如 P=4 )之間的差距。這進(jìn)一步證明了 PARSCALE 在大規(guī)模數(shù)據(jù)訓(xùn)練中的有效性,以及其隨著 P 增加而性能提升的趨勢(shì)。
下游任務(wù)性能表現(xiàn)
以 1.8B 模型為例,兩階段訓(xùn)練后在多個(gè)下游任務(wù)上的性能表現(xiàn)顯著提升。
在 7 個(gè)通用任務(wù)中,隨著 P 的增加,模型的平均性能呈現(xiàn)出穩(wěn)步提升的趨勢(shì)。例如,在 MMLU 任務(wù)上,P=8 時(shí)的性能達(dá)到 58.1%,相比 p=1 時(shí)的 55.0% 提升了 3.1 個(gè)百分點(diǎn)。在 3 個(gè)數(shù)學(xué)任務(wù)中,PARSCALE 的優(yōu)勢(shì)更為明顯。以 GSM8K 任務(wù)為例,P=8 時(shí)的性能達(dá)到 34% 的相對(duì)提升,相比 P=1 時(shí)的 28.7% 提升了 5.3 個(gè)百分點(diǎn)。這表明 PARSCALE 在數(shù)學(xué)推理任務(wù)上具有顯著的優(yōu)勢(shì),能夠有效提升模型的推理能力。
在 8 個(gè)編碼任務(wù)中,PARSCALE 同樣展現(xiàn)出了良好的性能提升。例如,在 HumanEval 任務(wù)上,P=8 時(shí)的 Pass@1 達(dá)到 18.9%,相比 p=1 時(shí)的 12.8% 提升了 6.1 個(gè)百分點(diǎn)。這些結(jié)果表明,PARSCALE 在編碼任務(wù)上能夠顯著提升模型的性能,為代碼生成等應(yīng)用場(chǎng)景提供了更強(qiáng)的支持。
特別是對(duì)于推理密集型任務(wù),如 GSM8K 等,PARSCALE 的性能提升更為顯著。例如,在 GSM8K 任務(wù)上,P=8 時(shí)的性能達(dá)到 38.4%,相比 P=1 時(shí)的 28.7% 提升了 9.7 個(gè)百分點(diǎn)。這表明 PARSCALE 在處理復(fù)雜的推理任務(wù)時(shí),能夠充分發(fā)揮其并行計(jì)算的優(yōu)勢(shì),顯著提升模型的推理能力和任務(wù)性能。

在使用兩階段策略從零開(kāi)始訓(xùn)練1T tokens后,1.8B模型的性能對(duì)比
上表展示了使用兩階段策略從頭開(kāi)始訓(xùn)練的 1.8B 模型的性能比較。結(jié)果表明,隨著 P 的增加,模型在多個(gè)下游任務(wù)上的性能顯著提升,驗(yàn)證了兩階段訓(xùn)練策略的有效性。
指令調(diào)優(yōu)與應(yīng)用
對(duì)兩階段訓(xùn)練得到的模型進(jìn)一步進(jìn)行指令調(diào)優(yōu),PARSCALE 在指令遵循任務(wù)中的表現(xiàn)也得到了顯著提升。
以 IFEval 基準(zhǔn)測(cè)試為例,隨著 P 的增加,模型的性能呈現(xiàn)出明顯的提升趨勢(shì)。例如,P=8 時(shí)的性能達(dá)到 59.5%,相比 P=1 時(shí)的 54.1% 提升了 5.4 個(gè)百分點(diǎn)。這表明 PARSCALE 在指令遵循任務(wù)中具有顯著的優(yōu)勢(shì),能夠有效提升模型對(duì)指令的理解和執(zhí)行能力。
在調(diào)優(yōu)過(guò)程中,發(fā)現(xiàn) PARSCALE 的動(dòng)態(tài)加權(quán)平均機(jī)制能夠根據(jù)不同的任務(wù)和輸入,靈活地調(diào)整各個(gè)并行流的權(quán)重。這種自適應(yīng)的調(diào)整能力使得模型能夠在不同的任務(wù)中充分發(fā)揮各個(gè)并行流的優(yōu)勢(shì),從而實(shí)現(xiàn)性能的全面提升。此外,PARSCALE 的并行計(jì)算特性使得模型在處理指令任務(wù)時(shí)能夠更高效地利用計(jì)算資源,進(jìn)一步提升了推理效率。
通過(guò)這些實(shí)驗(yàn)結(jié)果,我們可以看到 PARSCALE 在指令調(diào)優(yōu)中的顯著優(yōu)勢(shì)。它不僅能夠提升模型的性能,還能在實(shí)際應(yīng)用中提供更高效、更準(zhǔn)確的服務(wù),為指令遵循任務(wù)的發(fā)展提供了新的技術(shù)支持。

不同指令模型性能的比較,其中少樣本示例被視為多輪對(duì)話
上表展示了不同指令模型的性能比較,其中將少量樣本示例視為多輪對(duì)話。結(jié)果表明,PARSCALE 在指令遵循任務(wù)中表現(xiàn)優(yōu)異,隨著 P 的增加,模型性能顯著提升。
在現(xiàn)成預(yù)訓(xùn)練模型中的應(yīng)用驗(yàn)證
持續(xù)預(yù)訓(xùn)練與參數(shù)高效微調(diào)
為了驗(yàn)證 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的有效性,以 Qwen-2.5(3B)模型為例,進(jìn)行了持續(xù)預(yù)訓(xùn)練和參數(shù)高效微調(diào)(PEFT)實(shí)驗(yàn)。
在持續(xù)預(yù)訓(xùn)練方面,在 Stack-V2(Python)和 Pile 數(shù)據(jù)集上對(duì) Qwen-2.5 模型進(jìn)行了進(jìn)一步訓(xùn)練。通過(guò)引入 PARSCALE 的并行計(jì)算機(jī)制,模型在這些數(shù)據(jù)集上的性能得到了顯著提升。例如,在 Stack-V2(Python)數(shù)據(jù)集上,經(jīng)過(guò)持續(xù)預(yù)訓(xùn)練后,模型的訓(xùn)練損失顯著降低,表明其在代碼理解和生成方面的能力得到了增強(qiáng)。
在參數(shù)高效微調(diào)(PEFT)方面,僅對(duì) PARSCALE 引入的參數(shù)進(jìn)行微調(diào),而凍結(jié)了模型的主體權(quán)重。實(shí)驗(yàn)結(jié)果表明,即使在凍結(jié)主體權(quán)重的情況下,PARSCALE 仍然能夠顯著提升模型的性能。例如,在 Stack-V2(Python)數(shù)據(jù)集上,經(jīng)過(guò) PEFT 后,模型在代碼生成任務(wù)上的性能提升了 8.5 個(gè)百分點(diǎn)。這表明 PARSCALE 的并行計(jì)算機(jī)制能夠有效地利用少量的訓(xùn)練數(shù)據(jù)來(lái)提升模型的性能,具有很強(qiáng)的適應(yīng)性和靈活性。
此外,動(dòng)態(tài)并行擴(kuò)展的靈活性和潛力也得到了充分展示。在不同應(yīng)用場(chǎng)景中,我們可以靈活切換并行流數(shù)量 P,以適應(yīng)不同的吞吐量和模型能力需求。例如,在高吞吐量的場(chǎng)景中,我們可以增加 P 值以提升模型的推理能力;而在低資源的場(chǎng)景中,我們可以減少 P 值以降低內(nèi)存占用和推理延遲。這種靈活性使得 PARSCALE 能夠在多種應(yīng)用場(chǎng)景中發(fā)揮其優(yōu)勢(shì),為模型的實(shí)際部署提供了更多的選擇。
實(shí)驗(yàn)結(jié)果對(duì)比
在持續(xù)預(yù)訓(xùn)練和 PEFT 實(shí)驗(yàn)中,研究員通過(guò)訓(xùn)練損失圖和代碼生成性能指標(biāo)對(duì) PARSCALE 的效果進(jìn)行了對(duì)比分析。
在持續(xù)預(yù)訓(xùn)練過(guò)程中,訓(xùn)練損失圖顯示,隨著訓(xùn)練的進(jìn)行,PARSCALE 模型的損失逐漸降低,并且在相同的訓(xùn)練數(shù)據(jù)量下,P 較大的模型損失更低。這表明 PARSCALE 能夠更有效地利用訓(xùn)練數(shù)據(jù)來(lái)提升模型性能。
在代碼生成性能方面,經(jīng)過(guò) PEFT 后,PARSCALE 模型在 HumanEval 和 MBPP 等基準(zhǔn)測(cè)試中的表現(xiàn)顯著提升。例如,在 HumanEval 數(shù)據(jù)集上,P = 8 時(shí)的 Pass@1 達(dá)到 25.0%,相比 P = 1 時(shí)的 18.9% 提升了 6.1 個(gè)百分點(diǎn)。這些結(jié)果表明,PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的應(yīng)用是有效的,能夠顯著提升模型的代碼生成能力。



(a)(b) 在兩個(gè)數(shù)據(jù)集上對(duì)Qwen-2.5-3B模型進(jìn)行持續(xù)預(yù)訓(xùn)練的損失情況。 (c) 在Stack-V2(Python)上微調(diào)后的代碼生成性能。
上圖(a)和(b)展示了在 Stack-V2(Python)和 Pile 數(shù)據(jù)集上持續(xù)預(yù)訓(xùn)練 Qwen-2.5-3B 模型的損失曲線。圖 6(c)則展示了在 Stack-V2(Python)數(shù)據(jù)集上進(jìn)行參數(shù)高效微調(diào)后的代碼生成性能。這些圖表驗(yàn)證了 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的有效性。
通過(guò)這些實(shí)驗(yàn)結(jié)果,我們可以看到 PARSCALE 在現(xiàn)成預(yù)訓(xùn)練模型中的巨大潛力。它不僅能夠提升模型的性能,還能在實(shí)際應(yīng)用中提供更靈活的部署方案,為模型的廣泛應(yīng)用提供了有力支持。
相關(guān)工作、討論、總結(jié)
與推理時(shí)間擴(kuò)展和模型集成的關(guān)系
PARSCALE 與推理時(shí)間擴(kuò)展和模型集成等領(lǐng)域的聯(lián)系與區(qū)別,進(jìn)一步凸顯了其獨(dú)特價(jià)值。
推理時(shí)間擴(kuò)展策略主要通過(guò)增加推理時(shí)間來(lái)提升模型的推理能力。例如,OpenAI 的推理時(shí)間擴(kuò)展方法通過(guò)擴(kuò)增推理 token 數(shù)量,讓模型在推理階段進(jìn)行更多的計(jì)算,從而提升推理性能。然而,這種方法通常需要大量的特定訓(xùn)練數(shù)據(jù),并且會(huì)顯著增加推理延遲。相比之下,PARSCALE 在推理階段的延遲增加幅度較小,且不需要依賴特定的訓(xùn)練數(shù)據(jù),具有更廣泛的適用性和更高的推理效率。
模型集成是一種通過(guò)結(jié)合多個(gè)模型的預(yù)測(cè)結(jié)果來(lái)提升性能的方法。傳統(tǒng)的模型集成方法通常不共享參數(shù),或者僅部分共享參數(shù)。例如,Monte Carlo dropout 通過(guò)在推理階段應(yīng)用不同的隨機(jī) dropout 遮罩來(lái)生成多個(gè)預(yù)測(cè)結(jié)果,然后進(jìn)行集成。而 PARSCALE 則是在保持參數(shù)規(guī)模幾乎不變的情況下,通過(guò)并行計(jì)算來(lái)實(shí)現(xiàn)模型集成的效果。它利用 P 種不同的可學(xué)習(xí)變換和動(dòng)態(tài)加權(quán)平均機(jī)制,使得各個(gè)并行流之間既共享大部分參數(shù),又能保持一定的差異性。這種設(shè)計(jì)不僅降低了模型集成的內(nèi)存占用和訓(xùn)練成本,還提升了推理效率。
PARSCALE 與推理時(shí)間擴(kuò)展和模型集成之間也存在協(xié)同作用的可能性。例如,可以將 PARSCALE 與推理時(shí)間擴(kuò)展相結(jié)合,在推理階段同時(shí)利用并行計(jì)算和序列計(jì)算來(lái)進(jìn)一步提升模型性能?;蛘撸梢詫?PARSCALE 與其他模型集成方法相結(jié)合,構(gòu)建更具魯棒性和性能的模型系統(tǒng)。這些協(xié)同作用的探索將進(jìn)一步拓展 PARSCALE 的研究視野和應(yīng)用前景。
對(duì)模型容量本質(zhì)的思考
PARSCALE 的研究成果引發(fā)了我們對(duì)模型容量本質(zhì)的深入思考。傳統(tǒng)上,模型容量通常被認(rèn)為是參數(shù)數(shù)量和計(jì)算量的綜合體現(xiàn)。然而,PARSCALE 的研究表明,模型容量可能更多地取決于計(jì)算量,而非單純的參數(shù)數(shù)量。
在 PARSCALE 中,通過(guò)增加并行計(jì)算次數(shù) P,在幾乎不增加參數(shù)數(shù)量的情況下,顯著提升了模型的性能。例如,在 Stack-V2 數(shù)據(jù)集上,當(dāng) P 從 1 增加到 8 時(shí),1.6B 參數(shù)的模型性能與 4.4B 參數(shù)的模型相當(dāng)。這說(shuō)明,通過(guò)合理的計(jì)算擴(kuò)展,即使在參數(shù)規(guī)模較小的情況下,模型也能夠達(dá)到較高的性能水平。
這種對(duì)模型容量的新理解,為我們未來(lái)的模型設(shè)計(jì)和擴(kuò)展策略提供了有益的啟示。它提醒我們?cè)谧非蟾髤?shù)規(guī)模的同時(shí),不應(yīng)忽視計(jì)算量對(duì)模型性能的提升作用。通過(guò)優(yōu)化計(jì)算結(jié)構(gòu)和提升計(jì)算效率,我們可以在有限的資源下實(shí)現(xiàn)更強(qiáng)大的模型性能,為 AI 技術(shù)的發(fā)展注入新的動(dòng)力。
總結(jié)關(guān)鍵發(fā)現(xiàn)
PARSCALE 作為一種新型的語(yǔ)言模型擴(kuò)展范式,在多個(gè)方面展現(xiàn)出了顯著的優(yōu)勢(shì)和巨大的潛力。
- 性能提升 :通過(guò)增加并行計(jì)算次數(shù) P,PARSCALE 能夠顯著提升模型在各種任務(wù)上的性能。例如,在代碼生成任務(wù)上,P = 8 時(shí)的性能相比 P = 1 時(shí)提升了近 10 個(gè)百分點(diǎn);在數(shù)學(xué)推理任務(wù)上,性能提升幅度更是高達(dá) 34%。
- 推理效率 :PARSCALE 在推理效率方面表現(xiàn)出色。與參數(shù)擴(kuò)展策略相比,PARSCALE 在內(nèi)存占用和推理延遲方面均具有顯著優(yōu)勢(shì)。在小批量場(chǎng)景下,其延遲增加幅度僅為參數(shù)擴(kuò)展策略的 1/6,內(nèi)存占用增加幅度僅為 1/22。
- 訓(xùn)練成本 :PARSCALE 的訓(xùn)練成本相對(duì)較低。通過(guò)兩階段訓(xùn)練策略,我們能夠在處理少量訓(xùn)練數(shù)據(jù)的情況下,快速提升模型性能,降低了訓(xùn)練成本。
- 適用場(chǎng)景廣泛 :PARSCALE 適用于多種應(yīng)用場(chǎng)景,從代碼生成到通用任務(wù),從數(shù)學(xué)推理到指令遵循任務(wù),均展現(xiàn)出了良好的性能提升。其動(dòng)態(tài)并行擴(kuò)展的靈活性使得模型能夠適應(yīng)不同的吞吐量和資源限制需求。
這些關(guān)鍵發(fā)現(xiàn)表明,PARSCALE 不僅能夠有效解決當(dāng)前 LLM 面臨的性能瓶頸和資源限制問(wèn)題,還為未來(lái)智能模型的發(fā)展提供了一種全新的思路和技術(shù)途徑。
參考資料
- Parallel Scaling Law for Language Models:https://arxiv.org/pdf/2505.10475
- Training compute-optimal large language models:https://arxiv.org/abs/2203.15556
- Scaling laws for neural language models:https://arxiv.org/abs/2001.08361
- Qwen2.5 technical report:https://arxiv.org/abs/2412.15115
- The pile: An 800gb dataset of diverse text for language modeling:https://arxiv.org/abs/2101.00027
























